АВТОМАТИЧЕСКАЯ СЕГМЕНТАЦИЯ РЕЧИ ПУТЕМ АНАЛИЗА ИНФОРМАЦИОННОЙ ОДНОРОДНОСТИ
DOI:
https://doi.org/10.18413/2687-0932-2020-47-2-441-451Ключевые слова:
доли энергии, энтропия, взаимная информация, однородностьАннотация
В работе рассмотрен алгоритм анализа цифровых сигналов. Назначение алгоритма – автоматическая сегментация речевого сигнала, что означает разбиение исходного сигнала на фрагменты с устойчивыми информационными признаками. Принцип работы алгоритма основан на анализе информационной однородности. Разработана информационная модель однородности устной речи. Проведен анализ информационной однородности на примере звукозаписи русской фразы. Разработан алгоритм поиска границ смены фонем. В работе также представлены результаты вычислительных экспериментов для различных комбинаций параметров алгоритма. Сделан вывод о работоспособности алгоритма на основе проверки по критериям точность (до 0.84) и полнота (до 0.85). Приведены рекомендации для настройки алгоритма на основе вычислительных экспериментов с речевой базой TIMIT.
Скачивания
Библиографические ссылки
Алдошина И. 2010. Основы психоакустики. Подборка статей. URL: http://www.625-net.ru
(дата обращения: 11 февраля 2010).
Белов С.П., Белов А.С. 2008. О различиях частотных свойств информационных и
неинформационных звуковых сигналов речевого диапазона. Научные ведомости БелГУ Сер.
Информатика, 7 (38): 214–221.
Вологдин Э.И. 2004. Слух и восприятие звука: Учеб. пособие. СПб. СТ «Факультет ДВО», 52.
Жиляков Е. Г., Прохоренко Е. И., Болдышев А. В. и др. 2011. Сегментация речевых сигналов
на основе анализа распределения энергии по частотным интервалам. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 7 (102): 187–196.
Жиляков Е. Г., Трубицына Д. И., Прохоренко Е. И., Болдышев А. В. 2019. Об использовании субполосного анализа и синтеза сигналов в области определения косинус-преобразования при решении задач сжатия речевых сигналов. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 4 (46): 700–709.
Жиляков Е.Г. 2007. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. Белгород: Изд-во БелГУ. 160.
Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений. Белгород. Изд-во БелГУ, 136.
Загоруйко Н.Г. 1972. Методы распознавания и их применение. М. Сов. Радио: 135–147.
Ильин В.А., Садовничий В.А., Сендов Бл.Х. 1985. Математический анализ. Продолжение курса. М. Изд-во МГУ, 358.
Фирсова А.А. 2013. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов. Автореф. дис. … канд. техн. наук. Белгород, 22.
Хайкин С. 2006. Нейронные сети: полный курс, 2-е издание. Пер. с англ. М. Издательский дом «Вильямс», 1104.
Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. Пер. с нем. М. Связь, 64.
Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. Москва. Радио и связь, 456.
DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. URL: https://www.kaggle.com/ mfekadu/darpa-timit-acousticphonetic-continuous-speech (дата обращения: 11 February 2020).
Shannon C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27: 379–423, 623–656.
Просмотров аннотации: 642