keyword spotting
Recently Published Documents


TOTAL DOCUMENTS

560
(FIVE YEARS 194)

H-INDEX

22
(FIVE YEARS 6)

Sensors ◽  
2021 ◽  
Vol 21 (24) ◽  
pp. 8313
Author(s):  
Łukasz Lepak ◽  
Kacper Radzikowski ◽  
Robert Nowak ◽  
Karol J. Piczak

Models for keyword spotting in continuous recordings can significantly improve the experience of navigating vast libraries of audio recordings. In this paper, we describe the development of such a keyword spotting system detecting regions of interest in Polish call centre conversations. Unfortunately, in spite of recent advancements in automatic speech recognition systems, human-level transcription accuracy reported on English benchmarks does not reflect the performance achievable in low-resource languages, such as Polish. Therefore, in this work, we shift our focus from complete speech-to-text conversion to acoustic similarity matching in the hope of reducing the demand for data annotation. As our primary approach, we evaluate Siamese and prototypical neural networks trained on several datasets of English and Polish recordings. While we obtain usable results in English, our models’ performance remains unsatisfactory when applied to Polish speech, both after mono- and cross-lingual training. This performance gap shows that generalisation with limited training resources is a significant obstacle for actual deployments in low-resource languages. As a potential countermeasure, we implement a detector using audio embeddings generated with a generic pre-trained model provided by Google. It has a much more favourable profile when applied in a cross-lingual setup to detect Polish audio patterns. Nevertheless, despite these promising results, its performance on out-of-distribution data are still far from stellar. It would indicate that, in spite of the richness of internal representations created by more generic models, such speech embeddings are not entirely malleable to cross-language transfer.


2021 ◽  
Vol 20 (6) ◽  
pp. 1-25
Author(s):  
J. S. P. Giraldo ◽  
Marian Verhelst

In recent years, Keyword Spotting (KWS) has become a crucial human–machine interface for mobile devices, allowing users to interact more naturally with their gadgets by leveraging their own voice. Due to privacy, latency and energy requirements, the execution of KWS tasks on the embedded device itself instead of in the cloud, has attracted significant attention from the research community. However, the constraints associated with embedded systems, including limited energy, memory, and computational capacity, represent a real challenge for the embedded deployment of such interfaces. In this article, we explore and guide the reader through the design of KWS systems. To support this overview, we extensively survey the different approaches taken by the recent state-of-the-art (SotA) at the algorithmic, architectural, and circuit level to enable KWS tasks in edge, devices. A quantitative and qualitative comparison between relevant SotA hardware platforms is carried out, highlighting the current design trends, as well as pointing out future research directions in the development of this technology.


2021 ◽  
Author(s):  
Kevin Herisse ◽  
Benoit Larras ◽  
Antoine Frappe ◽  
Andreas Kaiser

Author(s):  
Shuo Zhang ◽  
Tianhao Zhang ◽  
Songlu Chen ◽  
Feng Chen ◽  
Xucheng Yin

2021 ◽  
Author(s):  
Άγγελος Γιώτης

Ένας αρκετά μεγάλος όγκος δεδομένων από συλλογές εγγράφων χρειάζεται να ψηφιοποιηθεί για την δημιουργία ψηφιακών βιβλιοθηκών με στόχο τη διατήρηση του υλικού και την εύχρηστη αναζήτησή του. Οι παραδοσιακές τεχνικές ψηφιακής επεξεργασίας εικόνας που βασίζονται στην πλήρη οπτική αναγνώριση χαρακτήρων των εγγράφων με σκοπό τη δεικτοδότησή τους, δεν παρουσιάζουν ικανοποιητικά αποτελέσματα εξαιτίας εγγενών παραγόντων των εγγράφων. Οι παράγοντες αυτοί σχετίζονται με τις διαφορετικές μορφές δομής σελίδας των εγγράφων, με τις άγνωστες, κατά την εκπαίδευση των μοντέλων αναγνώρισης, γραμματοσειρές των κειμένων, τη διαφορετικότητα ως προς τον τρόπο γραφής και τον άγνωστο, δυνατό αριθμό όρων αναζήτησης που χρειάζεται να έχει ένα λεξικό μοντέλο αναγνώρισης χαρακτήρων. Για τους λόγους αυτούς, το ενδιαφέρον της ερευνητικής κοινότητας στην περιοχή των μεθόδων δεικτοδότησης εγγράφων σε μεγάλη κλίμακα στρέφεται σε εναλλακτικές τεχνικές, απαλλαγμένες από τη διαδικασία αναγνώρισης, γνωστές ως τεχνικές εντοπισμού λέξεων. Το αντικείμενο της διδακτορικής διατριβής αφορά στον εντοπισμό λέξεων (ΕΛ) σε εικόνες χειρόγραφων κειμένων. Προς αυτή την κατεύθυνση, η διατριβή αυτή περιλαμβάνει τη συστηματική μελέτη και ανάπτυξη μεθόδων ΕΛ, ως μιας πρακτικής προσέγγισης στην ανάκτηση πληροφορίας από χειρόγραφα κείμενα, σε αντίθεση με τις παραδοσιακές τεχνικές πλήρους αναγνώρισης οι οποίες αρκετά συχνά παράγουν εσφαλμένες εκτιμήσεις. Ένα σύστημα εντοπισμού λέξεων αποσκοπεί στην εύρεση όλων των στιγμιότυπων μιας ζητούμενης, από ένα χρήστη, λέξης, μέσα στις συλλογές κειμένων. Σε μια προσπάθεια να τονίσουμε τα σημεία που χρειάζονται προσοχή κατά την ανάπτυξη τεχνικών ΕΛ που επιτυγχάνουν υψηλή απόδοση, παρουσιάζουμε μια εκτενή μελέτη της βιβλιογραφίας, μέσα από την οποία αναλύεται σε βάθος κάθε πρωταρχική συνιστώσα της αρχιτεκτονικής ενός συστήματος ΕΛ. Οι συνιστώσες αυτές, μεταξύ άλλων, περιλαμβάνουν την ανάλυση δομής σελίδας και την προ-επεξεργασία των εγγράφων, την επιλογή και διαδικασία εξαγωγής χαρακτηριστικών που αναπαριστούν λέξεις, την εκμάθηση κατάλληλων αναπαραστάσεων των λέξεων από περιγραφικά χαρακτηριστικά και την ευθυγράμμιση των αναπαραστάσεων για το τελικό ταίριασμα των εικόνων των λέξεων. Παράγοντες, όπως η ανθεκτικότητα στη διαφοροποίηση του γραφικού χαρακτήρα, η διαθεσιμότητα δεδομένων εκπαίδευσης, οι δείκτες και τα πρωτόκολλα αξιολόγησης των μεθόδων καθώς και μια σειρά από τεχνικές μετα-βελτίωσης του τελικού αποτελέσματος του ΕΛ, αναδεικνύονται μέσα από μια δομημένη μεθοδολογία σχεδιασμού τεχνικών ΕΛ. Με αυτόν τον τρόπο, προτείνουμε ένα θεωρητικό υπόβαθρο, κατάλληλο να υιοθετηθεί από τις μελλοντικές εργασίες, επιτρέποντας την αμερόληπτη αξιολόγηση και σύγκρισή τους. Ιδιαίτερης σημασίας στη δημιουργία διακριτικών αναπαραστάσεων, ικανών να επιτύχουν υψηλή απόδοση και ταχύτητα ταιριάσματος εικόνων, είναι η επιλογή των κατάλληλων χαρακτηριστικών που περιγράφουν τις εικόνες των κειμένων. Κατά τα πρώιμα στάδια εκπόνησης της διδακτορικής διατριβής, αναπτύχθηκαν δυο τεχνικές που βασίζονται στην αναζήτηση λέξεων με παράδειγμα (δηλαδή, επιλέγοντας μια λέξη που εκκινεί τη διαδικασία ΕΛ) χρησιμοποιώντας τοπικά χαρακτηριστικά περιγράμματος των εικόνων, αμετάβλητα σε μετασχηματισμούς μετατόπισης και κλιμάκωσης. Η πρώτη εργασία, αξιοποιώντας δεδομένα μάθησης για κάθε κατηγορία λέξης, προτείνει ένα μοντέλο ΕΛ αντιπροσωπευτικό της μέσης διαφοροποίησης του σχήματος των λέξεων της κατηγορίας, αντιμετωπίζοντας έτσι τις πιθανές αλλαγές στον τρόπο γραφής κάθε λέξης. Ο μόνος περιορισμός της μεθόδου αφορά στη δυνατότητα αναζήτησης των λέξεων εκείνων για τις οποίες υπάρχουν στιγμιότυπα εικόνων στο σύνολο εκπαίδευσης. Η δεύτερη μεθοδολογία αξιοποιεί τα ίδια διακριτικά χαρακτηριστικά αναπαράστασης λέξεων, απαλλαγμένης όμως από δεδομένα μάθησης, για τον αποδοτικό ΕΛ σε εικόνες ετερογενών, ως προς το αλφάβητο και τη γλώσσα, χειρόγραφων κειμένων. Βασικό μειονέκτημα των χαρακτηριστικών που προτάθηκαν για τον ΕΛ στις προηγούμενες μεθοδολογίες, είναι οι μεταβλητού μήκους αναπαραστάσεις (διανύσματα) των λέξεων, για τις οποίες οι προτεινόμενοι αλγόριθμοι ταιριάσματος δεν οδηγούν πάντοτε σε ικανοποιητική απόδοση. Κατά συνέπεια, στην πορεία της διατριβής, προτάθηκε μια μέθοδος που βασίζεται σε αναπαραστάσεις λέξεων σταθερού μήκους, οι οποίες μπορούν άμεσα να συγκριθούν με μια αναζήτηση κοντινότερου γείτονα (π.χ. Ευκλείδια απόσταση) οδηγώντας έτσι σε πολύ ταχύτερη ανάκτηση. Επιπρόσθετα, τα χαρακτηριστικά αυτά, αξιοποιώντας δεδομένα μάθησης, έχουν τη δυνατότητα να ενσωματώσουν αρκετά μεγάλο ποσοστό της συνολικής διαφοροποίησης ως προς το γραφικό χαρακτήρα, εφόσον κωδικοποιούν ιδιότητες πρωτογενών τμημάτων των λέξεων (π.χ. χαρακτήρων) που επαναλαμβάνονται τακτικά σε συγκεκριμένες θέσεις μέσα στις λέξεις, ανεξάρτητα από τον τρόπο γραφής. Οι ιδιότητες αυτές σχετίζονται με την παρουσία ή όχι ενός χαρακτήρα σε μια δεδομένη θέση της λέξης. Η προτεινόμενη τεχνική επεκτείνει το μοντέλο δυαδικής αναπαράστασης λέξης ώστε να συμπεριλάβει χαρακτηριστικά που σχετίζονται με τις ιδιομορφίες του πολυτονικού συστήματος γραφής για ΕΛ σε Ελληνικά πολυτονικά κείμενα. Ακολουθώντας την τρέχουσα τάση της ερευνητικής κοινότητας που συνοδεύεται από τη ραγδαία αύξηση των μεθόδων ΕΛ οι οποίες βασίζονται σε βαθιά μάθηση από την πληθώρα δεδομένων εκπαίδευσης που είναι πλέον διαθέσιμα, προτείνουμε μια ακόμη μέθοδο, ώστε να βελτιστοποιήσουμε την αναπαραστατική ισχύ των διανυσμάτων λέξεων. Στην προτεινόμενη τεχνική, χρησιμοποιούμε συνελικτικά νευρωνικά δίκτυα για την εξαγωγή βαθιών χαρακτηριστικών. Τα χαρακτηριστικά αυτά επιτρέπουν την προσαρμογή του προτεινόμενου μοντέλου ΕΛ, όταν αυτό εκπαιδεύεται σε χαμηλής στάθμης, ως προς τις διαφοροποιήσεις γραφικού χαρακτήρα και την ποσότητα, δεδομένα μάθησης, σε συλλογής κειμένων των οποίων η κατανομή διαφοροποιήσεων διαφέρει αισθητά σε σχέση με το αρχικό σύνολο εκπαίδευσης. Επιπλέον, θεωρούμε ότι η υπό εξέταση συλλογή κειμένων περιέχει ελάχιστα δεδομένα εκπαίδευσης για την προσαρμογή του μοντέλου ΕΛ, το οποίο καθιστά το πρόβλημα ακόμη πιο δύσκολο. Για την αντιμετώπιση των προκλήσεων αυτών προτείνουμε ένα ανταγωνιστικό πλαίσιο βαθιάς μάθησης, όπου το βασικό μοντέλο ΕΛ ανταγωνίζεται ένα δεύτερο νευρωνικό δίκτυο που στοχεύει στην αλλοίωση των εικόνων με μια σειρά από γεωμετρικούς μετασχηματισμούς στον υπόχωρο των βαθιών χαρακτηριστικών. Η αλλοίωση αυτή λειτουργεί σαν εμπόδιο στην διαδικασία εκπαίδευσης για την εξαγωγή διακριτικών αναπαραστάσεων από το μοντέλο ΕΛ, βελτιώνοντας έτσι επαναληπτικά, την ανθεκτικότητα της μεθόδου στους διαφορετικούς τρόπους γραφής και τον εντοπισμό άγνωστων (κατά την εκμάθηση) λέξεων της υπό εξέταση συλλογής κειμένων. Τέλος, στο πλαίσιο αξιοποίησης μεθόδων βαθιάς μάθησης, με χρήση παραγωγικών ανταγωνιστικών νευρωνικών δικτύων, προτείνουμε μια τεχνική εντοπισμού περιοχών κειμένου σε φυσικές εικόνες ιστορικών Βυζαντινών επιγραφών. Βασική καινοτομία της μεθόδου είναι η χρήση τετραδονιακών (επέκταση μιγαδικών) αναπαραστάσεων που κωδικοποιούν αποδοτικά την πληροφορία όλων των χρωματικών συνιστωσών των εικόνων, απαιτώντας πολύ λιγότερους υπολογιστικούς πόρους από ισοδύναμες βαθιές αναπαραστάσεις πραγματικών τιμών των εικόνων.


2021 ◽  
Author(s):  
Huangrui Chu ◽  
Yechen Wang ◽  
Ran Ju ◽  
Yan Jia ◽  
Haoxu Wang ◽  
...  
Keyword(s):  

Sign in / Sign up

Export Citation Format

Share Document