scholarly journals Is a Wizard-of-Oz Required for Robot-Led Conversation Practice in a Second Language?

Author(s):  
Olov Engwall ◽  
José Lopes ◽  
Ronald Cumbal

AbstractThe large majority of previous work on human-robot conversations in a second language has been performed with a human wizard-of-Oz. The reasons are that automatic speech recognition of non-native conversational speech is considered to be unreliable and that the dialogue management task of selecting robot utterances that are adequate at a given turn is complex in social conversations. This study therefore investigates if robot-led conversation practice in a second language with pairs of adult learners could potentially be managed by an autonomous robot. We first investigate how correct and understandable transcriptions of second language learner utterances are when made by a state-of-the-art speech recogniser. We find both a relatively high word error rate (41%) and that a substantial share (42%) of the utterances are judged to be incomprehensible or only partially understandable by a human reader. We then evaluate how adequate the robot utterance selection is, when performed manually based on the speech recognition transcriptions or autonomously using (a) predefined sequences of robot utterances, (b) a general state-of-the-art language model that selects utterances based on learner input or the preceding robot utterance, or (c) a custom-made statistical method that is trained on observations of the wizard’s choices in previous conversations. It is shown that adequate or at least acceptable robot utterances are selected by the human wizard in most cases (96%), even though the ASR transcriptions have a high word error rate. Further, the custom-made statistical method performs as well as manual selection of robot utterances based on ASR transcriptions. It was also found that the interaction strategy that the robot employed, which differed regarding how much the robot maintained the initiative in the conversation and if the focus of the conversation was on the robot or the learners, had marginal effects on the word error rate and understandability of the transcriptions but larger effects on the adequateness of the utterance selection. Autonomous robot-led conversations may hence work better with some robot interaction strategies.

2018 ◽  
Author(s):  
Ισίδωρος Ροδομαγουλάκης

Η αυτόματη αναγνώριση ομιλίας διαδραματίζει σημαντικό ρόλο στην αλληλεπίδραση ανθρώπου-υπολογιστή διότι η ομιλία αποτελεί ένα φυσικό, γρήγορο, και ασφαλές μέσο επικοινωνίας, με ευρύ πεδίο εφαρμογών στα σύγχρονα πολυαισθητηριακά ευφυή περιβάλλοντα (πχ. αυτοματοποιημένοι χώροι, ρομποτικά συστήματα) τα οποία σχεδιάζονται για τη βελτίωση της καθημερινότητας και της εργασίας των χρηστών τους. Τα τελευταία χρόνια, οι τεχνικές βαθιάς εκμάθησης με νευρωνικά δίκτυα έχουν επιφέρει σημαντικές βελτιώσεις, μειώνοντας το ποσοστιαίο λάθος αναγνώρισης λέξεων (word error rate) κάτω από 10% στις περισσότερες εφαρμογές με μικρόφωνα κοντά στον ομιλητή. Συνεπώς, τα φωνητικά συστήματα χρησιμοποιούνται όλο περισσότερο στην καθημερινότητα. Ωστόσο οι προκλήσεις παραμένουν αρκετές, ειδικά σε περιβάλλοντα με μικρόφωνα μακριά από τον ομιλητή, όπου ο θόρυβος και οι αντηχήσεις υποβαθμίζουν αισθητά την απόδοση της αναγνώρισης. Στην παρούσα διατριβή εξετάζουμε και συνδυάζουμε μεθόδους εύρωστης αναγνώρισης ομιλίας με πολλαπλούς αισθητήρες. Συγκεκριμένα, η προτεινόμενη μεθοδολογία περιλαμβάνει 1) επιλογή αξιόπιστων μικροφώνων βάσει κριτηρίων ποιότητας των σημάτων, 2) συνδυασμό των αποφάσεων των μικροφώνων με αναδιάταξη των υποθέσεων αναγνώρισης, 3) εκπαίδευση τύπου multi-style με τεχνητή αύξηση των δεδομένων εκπαίδευσης προσομοιώνοντας ακουστικές σκηνές και σήματα ομιλίας μακρινού πεδίου (far-field) για εφαρμογές σε περιβάλλοντα με περιορισμένους πόρους, και 5) εξαγωγή μη-γραμμικών χαρακτηριστικών AM-FM.Προτείνεται μέθοδος πολυκαναλικής αποδιαμόρφωσης των σημάτων φωνής, για την εξαγωγή βελτιωμένων χαρακτηριστικών από τις στιγμιαίες διαμορφώσεις συχνότητας, οι οποίες μοντελοποιούν τις μικροδομές των συντονισμών της φωνής και αποτελούν χρήσιμη και συμπληρωματική πηγή πληροφορίας στα τυπικά χαρακτηριστικά ενέργειας (πχ. MFCC). Ενώ έχουν βρεθεί βελτιώσεις κυρίως σε συστήματα GMM-HMM μεγάλου λεξιλογίου, λίγες είναι οι εφαρμογές τους σε συστήματα DNN-HMM και στην αναγνώριση DSR γενικά. Εδώ, εργαζόμαστε για τη συνέργιά τους σε state-of-the-art σχήματα front-end στα οποία τα MFCCs ομαδοποιούνται σε μεγαλύτερα χρονικά πλαίσια (context) και μετασχηματίζονται έτσι ώστε να γίνουν πιο διακριτά και ανεξάρτητα του ομιλητή. Ερευνούμε 1) πολυκαναλικές μεθόδους αποδιαμόρφωσης, 2) νέους και πλουσιότερους περιγραφητές των συχνοτήτων διαμόρφωσης, και 3) μετασχηματισμούς και συνδυασμό χαρακτηριστικών μέσω ιεραρχικών βαθιών νευρωνικών δικτύων τύπου bottleneck. Παρουσιάζουμε αποτελέσματα στα σχήματα υβριδικής αναγνώρισης και αναγνώρισης tandem με μοντελοποίηση GMM και DNN αντίστοιχα, όπου τα βελτιωμένα χαρακτηριστικά διαμορφώσεων συνδυάζονται αποδοτικά με τα MFCC και οδηγούν σε βελτιωμένη απόδοση σε γνωστές πολυκαναλικές βάσεις αξιολόγησης της αναγνώρισης από απόσταση (Distant Speech Recognition).Βασιζόμαστε στις προτεινόμενες πολυκαναλικές μεθόδους για να σχεδιάζουμε ένα πρακτικό σύστημα συνεχούς αναγνώρισης φωνητικών εντολών μακρινού πεδίου, σε ευφυή οικιακά περιβάλλοντα με διάσπαρτες συστοιχίες μικροφώνων σε ένα ή περισσότερα δωμάτια. Ακολουθούμε μία τυπική σειρά (cascade) διεργασιών για τον εντοπισμό και την αναγνώριση εντολών, με τον εντοπισμό να γίνεται βάσει φράσεων ενεργοποίησης. Στην αρχή της αλυσίδας επεξεργασίας, τα τμήματα ομιλίας εντοπίζονται και διαχωρίζονται σε κάθε δωμάτιο, επιτρέποντας την αναγνώριση ανά δωμάτιο. Με την προτεινόμενη προσέγγιση, η οποία αναπτύσσεται για τα Ελληνικά, επιτυγχάνεται ικανοποιητική απόδοση σε πραγματικές και δύσκολες οικιακές ακουστικές σκηνές, φτάνοντας έως 76.6% στην ακρίβεια αναγνώρισης εντολών, επιφέροντας σχετική βελτίωση 46% συγκριτικά με ένα τυπικό σύστημα στο οποίο χρησιμοποιείται beamforming για αποθορυβοποίηση.Υλοποιούμε την online εκδοχή του προτεινόμενου συστήματος αναγνώρισης φωνητικών εντολών για τέσσερις γλώσσες (Ελληνικά, Γερμανικά, Ιταλικά, Αγγλικά) και το συνδυάζουμε με την αναγνώριση χειρονομιών στοχεύοντας στην πολυτροπική αλληλεπίδραση ανθρώπου-ρομπότ. Στο πλαίσιο σχεδιασμού ρομποτικών βοηθών, αναπτύσσουμε ένα φυσικό περιβάλλον αλληλεπίδρασης εκμεταλλευόμενοι τις πολλαπλές ροές πληροφορίας από το πολυαισθητηριακό περιβάλλον του ρομπότ. Οι συμπληρωματικές ροές συνδυάζονται σε επίπεδο αποφάσεων για να εξαχθεί μία πολυτροπική υπόθεση αναγνώρισης. Επιπλέον, μέσω της αλληλεπίδρασης με το ρομπότ, εξετάζουμε νέες πτυχές στο πεδίο της ρομποτικής για υποβοήθηση στην καθημερινότητα (assistive living), αναπτύσσοντας ένα σύνολο εργαλείων και δεδομένων για πολυτροπική αναγνώριση, τα οποία εφαρμόζουμε σε δύο πραγματικά παραδείγματα χρήσης (use cases) για ηλικιωμένους χρήστες: κατά την υποβοήθηση στην κίνηση από ένα ρομποτικό τροχήλατο όχημα και κατά την υποβοήθηση σε εργασίες πλύσης από έναν ρομποτικό βοηθό στο μπάνιο. Ακολουθώντας την προτεινόμενη σύμμειξη των δύο μέσων επιτυγχάνουμε υψηλά ποσοστά πολυτροπικής αναγνώρισης (έως 90%) σε απαιτητικά σενάρια αλληλεπίδρασης με ηλικιωμένους και χρήστες με κινητικά και ενδεχομένως νοητικά προβλήματα.


Sensors ◽  
2021 ◽  
Vol 21 (9) ◽  
pp. 3063
Author(s):  
Aleksandr Laptev ◽  
Andrei Andrusenko ◽  
Ivan Podluzhny ◽  
Anton Mitrofanov ◽  
Ivan Medennikov ◽  
...  

With the rapid development of speech assistants, adapting server-intended automatic speech recognition (ASR) solutions to a direct device has become crucial. For on-device speech recognition tasks, researchers and industry prefer end-to-end ASR systems as they can be made resource-efficient while maintaining a higher quality compared to hybrid systems. However, building end-to-end models requires a significant amount of speech data. Personalization, which is mainly handling out-of-vocabulary (OOV) words, is another challenging task associated with speech assistants. In this work, we consider building an effective end-to-end ASR system in low-resource setups with a high OOV rate, embodied in Babel Turkish and Babel Georgian tasks. We propose a method of dynamic acoustic unit augmentation based on the Byte Pair Encoding with dropout (BPE-dropout) technique. The method non-deterministically tokenizes utterances to extend the token’s contexts and to regularize their distribution for the model’s recognition of unseen words. It also reduces the need for optimal subword vocabulary size search. The technique provides a steady improvement in regular and personalized (OOV-oriented) speech recognition tasks (at least 6% relative word error rate (WER) and 25% relative F-score) at no additional computational cost. Owing to the BPE-dropout use, our monolingual Turkish Conformer has achieved a competitive result with 22.2% character error rate (CER) and 38.9% WER, which is close to the best published multilingual system.


2020 ◽  
Vol 34 (04) ◽  
pp. 6917-6924 ◽  
Author(s):  
Ya Zhao ◽  
Rui Xu ◽  
Xinchao Wang ◽  
Peng Hou ◽  
Haihong Tang ◽  
...  

Lip reading has witnessed unparalleled development in recent years thanks to deep learning and the availability of large-scale datasets. Despite the encouraging results achieved, the performance of lip reading, unfortunately, remains inferior to the one of its counterpart speech recognition, due to the ambiguous nature of its actuations that makes it challenging to extract discriminant features from the lip movement videos. In this paper, we propose a new method, termed as Lip by Speech (LIBS), of which the goal is to strengthen lip reading by learning from speech recognizers. The rationale behind our approach is that the features extracted from speech recognizers may provide complementary and discriminant clues, which are formidable to be obtained from the subtle movements of the lips, and consequently facilitate the training of lip readers. This is achieved, specifically, by distilling multi-granularity knowledge from speech recognizers to lip readers. To conduct this cross-modal knowledge distillation, we utilize an efficacious alignment scheme to handle the inconsistent lengths of the audios and videos, as well as an innovative filtering strategy to refine the speech recognizer's prediction. The proposed method achieves the new state-of-the-art performance on the CMLR and LRS2 datasets, outperforming the baseline by a margin of 7.66% and 2.75% in character error rate, respectively.


Author(s):  
Chu-Xiong Qin ◽  
Wen-Lin Zhang ◽  
Dan Qu

Abstract A method called joint connectionist temporal classification (CTC)-attention-based speech recognition has recently received increasing focus and has achieved impressive performance. A hybrid end-to-end architecture that adds an extra CTC loss to the attention-based model could force extra restrictions on alignments. To explore better the end-to-end models, we propose improvements to the feature extraction and attention mechanism. First, we introduce a joint model trained with nonnegative matrix factorization (NMF)-based high-level features. Then, we put forward a hybrid attention mechanism by incorporating multi-head attentions and calculating attention scores over multi-level outputs. Experiments on TIMIT indicate that the new method achieves state-of-the-art performance with our best model. Experiments on WSJ show that our method exhibits a word error rate (WER) that is only 0.2% worse in absolute value than the best referenced method, which is trained on a much larger dataset, and it beats all present end-to-end methods. Further experiments on LibriSpeech show that our method is also comparable to the state-of-the-art end-to-end system in WER.


2021 ◽  
Author(s):  
Kehinde Lydia Ajayi ◽  
Victor Azeta ◽  
Isaac Odun-Ayo ◽  
Ambrose Azeta ◽  
Ajayi Peter Taiwo ◽  
...  

Abstract One of the current research areas is speech recognition by aiding in the recognition of speech signals through computer applications. In this research paper, Acoustic Nudging, (AN) Model is used in re-formulating the persistence automatic speech recognition (ASR) errors that involves user’s acoustic irrational behavior which alters speech recognition accuracy. GMM helped in addressing low-resourced attribute of Yorùbá language to achieve better accuracy and system performance. From the simulated results given, it is observed that proposed Acoustic Nudging-based Gaussian Mixture Model (ANGM) improves accuracy and system performance which is evaluated based on Word Recognition Rate (WRR) and Word Error Rate (WER)given by validation accuracy, testing accuracy, and training accuracy. The evaluation results for the mean WRR accuracy achieved for the ANGM model is 95.277% and the mean Word Error Rate (WER) is 4.723%when compared to existing models. This approach thereby reduce error rate by 1.1%, 0.5%, 0.8%, 0.3%, and 1.4% when compared with other models. Therefore this work was able to discover a foundation for advancing current understanding of under-resourced languages and at the same time, development of accurate and precise model for speech recognition.


2020 ◽  
Vol 2 (2) ◽  
pp. 7-13
Author(s):  
Andi Nasri

Dengan semakin berkembangnya teknologi speech recognition, berbagai software yang bertujuan untuk memudahkan orang tunarungu dalam berkomunikasi dengan yang lainnya telah dikembangkan. Sistem tersebut menterjemahkan suara ucapan menjadi bahasa isyarat atau sebaliknya bahasa isyarat diterjemahkan ke suara ucapan. Sistem tersebut sudah dikembangkan dalam berbagai bahasa seperti bahasa Inggris, Arab, Spanyol, Meksiko, Indonesia dan lain-lain. Khusus untuk bahasa Indonesia mulai juga sudah yang mencoba melakukan penelitian untuk membuat system seperti tersebut. Namun system yang dibuat masih terbatas pada Automatic Speech Recognition (ASR) yang digunakan dimana mempunyai kosa-kata yang terbatas. Dalam penelitian ini bertujuan untuk mengembangkan sistem penterjemah suara ucapan bahasa Indonesia ke Sistem Bahasa Isyarat Indonesia (SIBI) dengan data korpus yang lebih besar dan meggunkanan continue speech recognition  untuk meningkatkan akurasi system.Dari hasil pengujian system menunjukan diperoleh hasil akurasi sebesar rata-rata 90,50 % dan Word Error Rate (WER)  9,50%. Hasil akurasi lebih tinggi dibandingkan penelitian kedua  48,75%  dan penelitan pertama 66,67%. Disamping itu system juga dapat mengenali kata yang diucapkan secara kontinyu atau pengucapan kalimat. Kemudian hasil pengujian kinerja system mencapai         0,83 detik untuk Speech to Text  dan 8,25 detik untuk speech to sign.


2021 ◽  
Author(s):  
Zhong Meng ◽  
Yu Wu ◽  
Naoyuki Kanda ◽  
Liang Lu ◽  
Xie Chen ◽  
...  

Author(s):  
Vincent Elbert Budiman ◽  
Andreas Widjaja

Here a development of an Acoustic and Language Model is presented. Low Word Error Rate is an early good sign of a good Language and Acoustic Model. Although there are still parameters other than Words Error Rate, our work focused on building Bahasa Indonesia with approximately 2000 common words and achieved the minimum threshold of 25% Word Error Rate. There were several experiments consist of different cases, training data, and testing data with Word Error Rate and Testing Ratio as the main comparison. The language and acoustic model were built using Sphinx4 from Carnegie Mellon University using Hidden Markov Model for the acoustic model and ARPA Model for the language model. The models configurations, which are Beam Width and Force Alignment, directly correlates with Word Error Rate. The configurations were set to 1e-80 for Beam Width and 1e-60 for Force Alignment to prevent underfitting or overfitting of the acoustic model. The goals of this research are to build continuous speech recognition in Bahasa Indonesia which has low Word Error Rate and to determine the optimum numbers of training and testing data which minimize the Word Error Rate.  


Sign in / Sign up

Export Citation Format

Share Document