visual speech recognition Latest Research Papers

In visual speech recognition (VSR), speech is transcribed using only visual information to interpret tongue and teeth movements. Recently, deep learning has shown outstanding performance in VSR, with accuracy exceeding that of lipreaders on benchmark datasets. However, several problems still exist when using VSR systems. A major challenge is the distinction of words with similar pronunciation, called homophones; these lead to word ambiguity. Another technical limitation of traditional VSR systems is that visual information does not provide sufficient data for learning words such as “a”, “an”, “eight”, and “bin” because their lengths are shorter than 0.02 s. This report proposes a novel lipreading architecture that combines three different convolutional neural networks (CNNs; a 3D CNN, a densely connected 3D CNN, and a multi-layer feature fusion 3D CNN), which are followed by a two-layer bi-directional gated recurrent unit. The entire network was trained using connectionist temporal classification. The results of the standard automatic speech recognition evaluation metrics show that the proposed architecture reduced the character and word error rates of the baseline model by 5.681% and 11.282%, respectively, for the unseen-speaker dataset. Our proposed architecture exhibits improved performance even when visual ambiguity arises, thereby increasing VSR reliability for practical applications.

Download Full-text

CNN Based Feature Extraction for Visual Speech Recognition in Malayalam

10.1007/978-981-16-6285-0_1 ◽

2021 ◽

pp. 1-8

Author(s):

Shabina Bhaskar ◽

T. M. Thasleema

Keyword(s):

Feature Extraction ◽

Speech Recognition ◽

Visual Speech ◽

Visual Speech Recognition

Download Full-text

FATALRead - Fooling visual speech recognition models

Applied Intelligence ◽

10.1007/s10489-021-02846-w ◽

2021 ◽

Author(s):

Anup Kumar Gupta ◽

Puneet Gupta ◽

Esa Rahtu

Keyword(s):

Speech Recognition ◽

Visual Speech ◽

Visual Speech Recognition

Download Full-text

DARE: Deceiving Audio–Visual speech Recognition model

Knowledge-Based Systems ◽

10.1016/j.knosys.2021.107503 ◽

2021 ◽

Vol 232 ◽

pp. 107503

Author(s):

Saumya Mishra ◽

Anup Kumar Gupta ◽

Puneet Gupta

Keyword(s):

Speech Recognition ◽

Visual Speech ◽

Recognition Model ◽

Visual Speech Recognition

Download Full-text

Audio-Visual Speech Recognition using 3D Convolutional Neural Networks

10.1109/asyu52992.2021.9599016 ◽

2021 ◽

Author(s):

Ceren Belhan ◽

Damla Fikirdanis ◽

Ovgu Cimen ◽

Pelin Pasinli ◽

Zeynep Akgun ◽

...

Keyword(s):

Neural Networks ◽

Speech Recognition ◽

Convolutional Neural Networks ◽

Visual Speech ◽

Visual Speech Recognition

Download Full-text

Robust Face Frontalization For Visual Speech Recognition*

10.1109/iccvw54120.2021.00281 ◽

2021 ◽

Author(s):

Zhiqi Kang ◽

Radu Horaud ◽

Mostafa Sadeghi

Keyword(s):

Speech Recognition ◽

Visual Speech ◽

Visual Speech Recognition

Download Full-text

End-to-End Audio-Visual Speech Recognition for Overlapping Speech

10.21437/interspeech.2021-1621 ◽

2021 ◽

Author(s):

Richard Rose ◽

Olivier Siohan ◽

Anshuman Tripathi ◽

Otavio Braga

Keyword(s):

Speech Recognition ◽

Visual Speech ◽

Visual Speech Recognition ◽

End To End

Download Full-text

Developing of a Software–Hardware Complex for Automatic Audio–Visual Speech Recognition in Human–Robot Interfaces

Electromechanics and Robotics - Smart Innovation, Systems and Technologies ◽

10.1007/978-981-16-2814-6_23 ◽

2021 ◽

pp. 259-270

Author(s):

Denis Ivanko ◽

Dmitry Ryumin ◽

Alexey Karpov

Keyword(s):

Speech Recognition ◽

Visual Speech ◽

Hardware Complex ◽

Visual Speech Recognition ◽

Human Robot Interfaces

Download Full-text

Resource-efficient TDNN Architectures for Audio-visual Speech Recognition

10.23919/eusipco54536.2021.9616215 ◽

2021 ◽

Author(s):

Alexandros Koumparoulis ◽

Gerasimos Potamianos ◽

Samuel Thomas ◽

Edmilson da Silva Morais

Keyword(s):

Speech Recognition ◽

Visual Speech ◽

Visual Speech Recognition

Download Full-text

Multisensory Integration-Attention Trade-Off in Cochlear-Implanted Deaf Individuals

Frontiers in Neuroscience ◽

10.3389/fnins.2021.683804 ◽

2021 ◽

Vol 15 ◽

Author(s):

Luuk P. H. van de Rijt ◽

A. John van Opstal ◽

Marc M. van Wanrooij

Keyword(s):

Speech Recognition ◽

Visual Cues ◽

Normal Hearing ◽

Situational Factors ◽

Visual Speech ◽

Noisy Environments ◽

Trade Off ◽

Visual Speech Recognition ◽

Attention Tasks ◽

Audiovisual Speech Recognition

The cochlear implant (CI) allows profoundly deaf individuals to partially recover hearing. Still, due to the coarse acoustic information provided by the implant, CI users have considerable difficulties in recognizing speech, especially in noisy environments. CI users therefore rely heavily on visual cues to augment speech recognition, more so than normal-hearing individuals. However, it is unknown how attention to one (focused) or both (divided) modalities plays a role in multisensory speech recognition. Here we show that unisensory speech listening and reading were negatively impacted in divided-attention tasks for CI users—but not for normal-hearing individuals. Our psychophysical experiments revealed that, as expected, listening thresholds were consistently better for the normal-hearing, while lipreading thresholds were largely similar for the two groups. Moreover, audiovisual speech recognition for normal-hearing individuals could be described well by probabilistic summation of auditory and visual speech recognition, while CI users were better integrators than expected from statistical facilitation alone. Our results suggest that this benefit in integration comes at a cost. Unisensory speech recognition is degraded for CI users when attention needs to be divided across modalities. We conjecture that CI users exhibit an integration-attention trade-off. They focus solely on a single modality during focused-attention tasks, but need to divide their limited attentional resources in situations with uncertainty about the upcoming stimulus modality. We argue that in order to determine the benefit of a CI for speech recognition, situational factors need to be discounted by presenting speech in realistic or complex audiovisual environments.

Download Full-text

visual speech recognition
Recently Published Documents

TOTAL DOCUMENTS

H-INDEX

Lipreading Architecture Based on Multiple Convolutional Neural Networks for Sentence-Level Visual Speech Recognition

CNN Based Feature Extraction for Visual Speech Recognition in Malayalam

FATALRead - Fooling visual speech recognition models

DARE: Deceiving Audio–Visual speech Recognition model

Audio-Visual Speech Recognition using 3D Convolutional Neural Networks

Robust Face Frontalization For Visual Speech Recognition*

End-to-End Audio-Visual Speech Recognition for Overlapping Speech

Developing of a Software–Hardware Complex for Automatic Audio–Visual Speech Recognition in Human–Robot Interfaces

Resource-efficient TDNN Architectures for Audio-visual Speech Recognition

Multisensory Integration-Attention Trade-Off in Cochlear-Implanted Deaf Individuals

Export Citation Format

visual speech recognitionRecently Published Documents

TOTAL DOCUMENTS

H-INDEX

Lipreading Architecture Based on Multiple Convolutional Neural Networks for Sentence-Level Visual Speech Recognition

CNN Based Feature Extraction for Visual Speech Recognition in Malayalam

FATALRead - Fooling visual speech recognition models

DARE: Deceiving Audio–Visual speech Recognition model

Audio-Visual Speech Recognition using 3D Convolutional Neural Networks

Robust Face Frontalization For Visual Speech Recognition*

End-to-End Audio-Visual Speech Recognition for Overlapping Speech

Developing of a Software–Hardware Complex for Automatic Audio–Visual Speech Recognition in Human–Robot Interfaces

Resource-efficient TDNN Architectures for Audio-visual Speech Recognition

Multisensory Integration-Attention Trade-Off in Cochlear-Implanted Deaf Individuals

visual speech recognition
Recently Published Documents