Application of the Gibbs distribution to hidden Markov modeling in isolated word recognition

Author(s):  
Yunxin Zhao ◽  
Les Atlas ◽  
Xinhua Zhuang
2011 ◽  
Vol 56 ◽  
pp. 63-72
Author(s):  
Živilė Ringelienė ◽  
Mark Filipovič

Straipsnyje aprašomas atpažinimo, grįsto paslėptaisiais Markovo modeliais, sistemos prototipo veikimas. Ši programinė įranga skirta lietuvių kalbos žodžių atpažinimui tirti. Nagrinėjama, kaip sistemos pateikiama informacija apie žodžių atpažinimo procesą ir rezultatus padeda analizuoti klaidų priežastis. Žodžio atpažinimas priklauso nuo žodžio ribų nustatymo tikslumo. Signalo, energijos, žodžio ribų vizualizavimas leidžia lengviau įvertinti, ar sistema teisingai nustatė ribas. Jei žodis atpažintasklaidingai dėl to, kad buvo blogai nustatytos ribos, galima keisti sistemos parametrų, darančių įtaką ribų nustatymo tikslumui, reikšmes. Tam tikrais atvejais tai pagerina atpažinimo rezultatus. Žodžio paieškos vaizdavimas padeda įvertinti kiekvieno fonemos modelio įtaką žodžio atpažinimui ir parinkti žodžių transkripcijas, kurios pagerina atpažinimo rezultatus.A Tool for Visualization and Analysis of Isolated Word Recognition Based on the Hidden Markov ModelsŽivilė Ringelienė, Mark Filipovič SummaryThe paper presents a prototype of the isolated word recognition system based on hidden Markov models. The developed prototype of the speakerindependent Lithuanian isolated word recognition system is handy for recognition experiments and the analysis of their results. The user is provided with numeric and visual recognition information on the results. The word recognition pivots on the precision of the determination of the word limits. The main window contains a recognized word and its logarithmic likelihood, a visible waveform of the speech signal, the depicted energy of the speech signal, the identified word boundaries and energy detection thresholds. If the system misrecognized the word, such visualization enables to identify easier whether it resulted from wrong end-point detection. The segmentation window provides with a list of words which acoustic models to the given speech signal are the best, the scores of their likelihood and a diagram of the most likely sequence of the phoneme models aligned with the speech signal. Such visualization helps to analyze recognition errors and the impact of each phoneme model on the recognition accuracy. Results of preliminary experiments have shown that by changing the transcription of some words the recognition accuracy can be increased.


Sign in / Sign up

Export Citation Format

Share Document