Применение алгоритма аппроксимации графика долей энергии для определения пауз в речевом сигнале

Вестник ВГУ. Серия: Системный анализ и информационные технологии ◽

10.17308/sait.2021.3/3740 ◽

2021 ◽

pp. 106-114

Author(s):

Татьяна Николаевна Балабанова ◽

Алексей Владимирович Болдышев ◽

Сергей Вячеславович Уманец

Keyword(s):

Continuous Speech ◽

Speech Corpus

В данной работе рассматривается речевой сигнал как набор фрагментов, содержащих речевые компоненты и фрагменты с шумами, соответствующие паузам между словами. Ставится задача по составлению решающей функции, способной принять или отвергнуть гипотезу об отсутствии речи в отрезке речевого сигнала. На основе субполосного метода для отрезка речевого сигнала составляется его распределение энергий по частотам. Для этого распределения в дальнейшем применяется процедура аппроксимации смесью радиально-базисными функциями (функциями Гаусса). Смесь представляет собой взвешенную сумму радиально-базисных функций и равномерно-распределённой составляющей. По соотношению максимальных значений компонент смеси составляется решающее правило. Для проведения вычислительного эксперимента вводится нелинейность «зона нечувствительности», выбор которой обусловлен особенностями электрической активности путей и центров слуховой системы. В работе приводится результат применения алгоритма определения пауз в речевом сигнале. В качестве рабочего материала использовалась база размеченных речевых фрагментов американского агентства передовых оборонных исследовательских проектов DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. Всего было обработано 100 звукозаписей, размер отрезка анализа был взят 9 миллисекунд, частота дискретизации 16000Гц. Для проверки работоспособности предлагаемого алгоритма были оценены ошибки первого рода «пропуск цели» — когда алгоритм не начал отмечать паузу, но такая отметка присутствует при ручной расстановке, а также ошибки второго рода «ложная тревога» — когда произошла ошибочная постановка паузы. Полученные в ходе вычислительных экспериментов результаты позволяются судить о достаточно высокой эффективности предлагаемого подхода для определения пауз в речевом сигнале.

Download Full-text

WSJCAMO: a British English speech corpus for large vocabulary continuous speech recognition

1995 International Conference on Acoustics, Speech, and Signal Processing ◽

10.1109/icassp.1995.479278 ◽

2002 ◽

Cited By ~ 72

Author(s):

T. Robinson ◽

J. Fransen ◽

D. Pye ◽

J. Foote ◽

S. Renals

Keyword(s):

Speech Recognition ◽

Continuous Speech ◽

Continuous Speech Recognition ◽

Speech Corpus ◽

British English ◽

Large Vocabulary

Download Full-text

An Amharic speech corpus for large vocabulary continuous speech recognition

10.21437/interspeech.2005-467 ◽

2005 ◽

Author(s):

Solomon Teferra Abate ◽

Wolfgang Menzel ◽

Bairu Tafila

Keyword(s):

Speech Recognition ◽

Continuous Speech ◽

Continuous Speech Recognition ◽

Speech Corpus ◽

Large Vocabulary

Download Full-text

The Design of Continuous Speech Corpus Based on Half-Syllable Tibetan

2009 International Conference on Computational Intelligence and Software Engineering ◽

10.1109/cise.2009.5366048 ◽

2009 ◽

Author(s):

Yangrui Yang ◽

Hongzhi Yu ◽

Yonghong Li

Keyword(s):

Continuous Speech ◽

Speech Corpus

Download Full-text

JNAS: Japanese speech corpus for large vocabulary continuous speech recognition research.

Journal of the Acoustical Society of Japan (E) ◽

10.1250/ast.20.199 ◽

1999 ◽

Vol 20 (3) ◽

pp. 199-206 ◽

Cited By ~ 112

Author(s):

Katunobu Itou ◽

Mikio Yamamoto ◽

Kazuya Takeda ◽

Toshiyuki Takezawa ◽

Tatsuo Matsuoka ◽

...

Keyword(s):

Speech Recognition ◽

Continuous Speech ◽

Continuous Speech Recognition ◽

Speech Corpus ◽

Large Vocabulary

Download Full-text

Thai Spelling Recognition Using a Continuous Speech Corpus

International Journal of Computer Processing Of Languages ◽

10.1142/s021942790500133x ◽

2005 ◽

Vol 18 (04) ◽

pp. 243-264 ◽

Cited By ~ 2

Author(s):

CHUTIMA PISARN ◽

THANARUK THEERAMUNKONG ◽

NICK CERCONE ◽

JUNALUX CHALIDABHONGSE

Keyword(s):

Continuous Speech ◽

Speech Corpus

Download Full-text

Creation and Instigation of Triphone based Big-Lexicon Speaker-Independent Continuous Speech Recognition Framework for Kannada Language

International Journal of Innovative Technology and Exploring Engineering - Special Issue ◽

10.35940/ijitee.b1090.1292s19 ◽

2019 ◽

Vol 9 (2S) ◽

pp. 152-158

Keyword(s):

Speech Recognition ◽

Recognition Rate ◽

Continuous Speech ◽

Continuous Speech Recognition ◽

Mel Frequency Cepstral Coefficients ◽

Speech Corpus ◽

Linear Discriminant ◽

Geographical Regions ◽

Speech Data ◽

Speech Information

This paper proposes a framework that is intended to do the comparably accurate recognition of speech and in precise, continuous speech recognition (CSR) based on triphone modelling for Kannada dialect. For designing the proposed framework, the features from the speech data are obtained from the well-known feature extraction technique Mel-frequency cepstral coefficients (MFCC) and from its transformations, like, linear discriminant analysis (LDA) and maximum likelihood linear transforms (MLLT) are obtained from Kannada speech data files. At that point, the system is trained to evaluate the hidden Markov model (HMM) parameters for continuous speech (CS) data. The persistent Kannada speech information is gathered from 2600 speakers (1560 men and 1040women) of the age bunch in the scope of 14 years-80 years. The speech information is acquired from different geographical regions of the Karnataka (one of the 29 states situated in the southern part of India) state under degraded condition. It comprises of 21,551 words that spread 30 locales. The performance evaluation of both monophone and triphone models concerning word error rate (WER) is done and the obtained results are compared with the standard databases such as TIMIT and aurora4. A significant reduction in WER is obtained for triphone models. The speech recognition (SR) rate is verified for both offline and online recognition mode for all the speakers. The results reveal that the recognition rate (RR) for Kannada speech corpus has got a better improvement over the state-of-the-art existing databases.

Download Full-text