Применение алгоритма аппроксимации графика долей энергии для определения пауз в речевом сигнале
В данной работе рассматривается речевой сигнал как набор фрагментов, содержащих речевые компоненты и фрагменты с шумами, соответствующие паузам между словами. Ставится задача по составлению решающей функции, способной принять или отвергнуть гипотезу об отсутствии речи в отрезке речевого сигнала. На основе субполосного метода для отрезка речевого сигнала составляется его распределение энергий по частотам. Для этого распределения в дальнейшем применяется процедура аппроксимации смесью радиально-базисными функциями (функциями Гаусса). Смесь представляет собой взвешенную сумму радиально-базисных функций и равномерно-распределённой составляющей. По соотношению максимальных значений компонент смеси составляется решающее правило. Для проведения вычислительного эксперимента вводится нелинейность «зона нечувствительности», выбор которой обусловлен особенностями электрической активности путей и центров слуховой системы. В работе приводится результат применения алгоритма определения пауз в речевом сигнале. В качестве рабочего материала использовалась база размеченных речевых фрагментов американского агентства передовых оборонных исследовательских проектов DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. Всего было обработано 100 звукозаписей, размер отрезка анализа был взят 9 миллисекунд, частота дискретизации 16000Гц. Для проверки работоспособности предлагаемого алгоритма были оценены ошибки первого рода «пропуск цели» — когда алгоритм не начал отмечать паузу, но такая отметка присутствует при ручной расстановке, а также ошибки второго рода «ложная тревога» — когда произошла ошибочная постановка паузы. Полученные в ходе вычислительных экспериментов результаты позволяются судить о достаточно высокой эффективности предлагаемого подхода для определения пауз в речевом сигнале.