АВТОМАТИЧЕСКАЯ СЕГМЕНТАЦИЯ РЕЧИ ПУТЕМ АНАЛИЗА ИНФОРМАЦИОННОЙ ОДНОРОДНОСТИ

Авторы

  • С.В. Уманец Белгородский филиал ПАО «Ростелеком»
  • А.В. Болдышев Белгородский филиал ПАО «Ростелеком»
  • П.Г. Лихолоб Белгородский государственный национальный исследовательский университет

DOI:

https://doi.org/10.18413/2687-0932-2020-47-2-441-451

Ключевые слова:

доли энергии, энтропия, взаимная информация, однородность

Аннотация

В работе рассмотрен алгоритм анализа цифровых сигналов. Назначение алгоритма – автоматическая сегментация речевого сигнала, что означает разбиение исходного сигнала на фрагменты с устойчивыми информационными признаками. Принцип работы алгоритма основан на анализе информационной однородности. Разработана информационная модель однородности устной речи. Проведен анализ информационной однородности на примере звукозаписи русской фразы. Разработан алгоритм поиска границ смены фонем. В работе также представлены результаты вычислительных экспериментов для различных комбинаций параметров алгоритма. Сделан вывод о работоспособности алгоритма на основе проверки по критериям точность (до 0.84) и полнота (до 0.85). Приведены рекомендации для настройки алгоритма на основе вычислительных экспериментов с речевой базой TIMIT.

Биографии авторов

С.В. Уманец, Белгородский филиал ПАО «Ростелеком»

ведущий инженер Белгородского филиала ПАО «Ростелеком»

А.В. Болдышев, Белгородский филиал ПАО «Ростелеком»

кандидат технических наук, начальник станционного участка № 1
Белгородского филиала ПАО «Ростелеком»

П.Г. Лихолоб, Белгородский государственный национальный исследовательский университет

кандидат технических наук, доцент кафедры информационно-
телекоммуникационных систем и технологий Белгородского
государственного национального исследовательского университета

Библиографические ссылки

Алдошина И. 2010. Основы психоакустики. Подборка статей. URL: http://www.625-net.ru

(дата обращения: 11 февраля 2010).

Белов С.П., Белов А.С. 2008. О различиях частотных свойств информационных и

неинформационных звуковых сигналов речевого диапазона. Научные ведомости БелГУ Сер.

Информатика, 7 (38): 214–221.

Вологдин Э.И. 2004. Слух и восприятие звука: Учеб. пособие. СПб. СТ «Факультет ДВО», 52.

Жиляков Е. Г., Прохоренко Е. И., Болдышев А. В. и др. 2011. Сегментация речевых сигналов

на основе анализа распределения энергии по частотным интервалам. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 7 (102): 187–196.

Жиляков Е. Г., Трубицына Д. И., Прохоренко Е. И., Болдышев А. В. 2019. Об использовании субполосного анализа и синтеза сигналов в области определения косинус-преобразования при решении задач сжатия речевых сигналов. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 4 (46): 700–709.

Жиляков Е.Г. 2007. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. Белгород: Изд-во БелГУ. 160.

Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений. Белгород. Изд-во БелГУ, 136.

Загоруйко Н.Г. 1972. Методы распознавания и их применение. М. Сов. Радио: 135–147.

Ильин В.А., Садовничий В.А., Сендов Бл.Х. 1985. Математический анализ. Продолжение курса. М. Изд-во МГУ, 358.

Фирсова А.А. 2013. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов. Автореф. дис. … канд. техн. наук. Белгород, 22.

Хайкин С. 2006. Нейронные сети: полный курс, 2-е издание. Пер. с англ. М. Издательский дом «Вильямс», 1104.

Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. Пер. с нем. М. Связь, 64.

Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. Москва. Радио и связь, 456.

DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. URL: https://www.kaggle.com/ mfekadu/darpa-timit-acousticphonetic-continuous-speech (дата обращения: 11 February 2020).

Shannon C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27: 379–423, 623–656.


Просмотров аннотации: 330

Опубликован

2020-08-04

Как цитировать

Уманец, С., Болдышев, А., & Лихолоб, П. (2020). АВТОМАТИЧЕСКАЯ СЕГМЕНТАЦИЯ РЕЧИ ПУТЕМ АНАЛИЗА ИНФОРМАЦИОННОЙ ОДНОРОДНОСТИ. Экономика. Информатика, 47(2), 441-451. https://doi.org/10.18413/2687-0932-2020-47-2-441-451

Выпуск

Раздел

ИНФОКОММУНИКАЦИОННЫЕ ТЕХНОЛОГИИ

Наиболее читаемые статьи этого автора (авторов)