AUTOMATIC SEGMENTATION OF SPEECH BY ANALYSIS OF THE INFORMATIONAL HOMOGENEITY
DOI:
https://doi.org/10.18413/2687-0932-2020-47-2-441-451Keywords:
fraction of energy, entropy, mutual information, homogeneityAbstract
In this paper, an algorithm for digital signal processing is considered. The purpose of the algorithm is automatic segmentation of the speech signal, that is, splitting the original signal into segments generated by action in different conditions. The principle of operation of the algorithm is based on the analysis of information homogeneity. At the beginning of the algorithm, an information model is compiled, then an analysis of information homogeneity is performed and a search for the boundaries of sound change is performed. The application of non-linearity and moving average for confident decision-making about the presence of a boundary between different sounds is considered. The paper also presents the results of computational experiments for various combinations of algorithm parameters. Numerical evaluation of the algorithm was carried out on the material from the database of marked speech fragments of the American Agency for advanced defense research projects DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. The conclusion about the algorithm's performance is made.
Downloads
References
Алдошина И. 2010. Основы психоакустики. Подборка статей. URL: http://www.625-net.ru
(дата обращения: 11 февраля 2010).
Белов С.П., Белов А.С. 2008. О различиях частотных свойств информационных и
неинформационных звуковых сигналов речевого диапазона. Научные ведомости БелГУ Сер.
Информатика, 7 (38): 214–221.
Вологдин Э.И. 2004. Слух и восприятие звука: Учеб. пособие. СПб. СТ «Факультет ДВО», 52.
Жиляков Е. Г., Прохоренко Е. И., Болдышев А. В. и др. 2011. Сегментация речевых сигналов
на основе анализа распределения энергии по частотным интервалам. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 7 (102): 187–196.
Жиляков Е. Г., Трубицына Д. И., Прохоренко Е. И., Болдышев А. В. 2019. Об использовании субполосного анализа и синтеза сигналов в области определения косинус-преобразования при решении задач сжатия речевых сигналов. Научные Ведомости БелГУ. Сер. Экономика. Информатика, 4 (46): 700–709.
Жиляков Е.Г. 2007. Вариационные методы анализа и построения функций по эмпирическим данным: моногр. Белгород: Изд-во БелГУ. 160.
Жиляков Е.Г., Белов С.П., Прохоренко Е.И. 2007. Методы обработки речевых данных в информационно-телекоммуникационных системах на основе частотных представлений. Белгород. Изд-во БелГУ, 136.
Загоруйко Н.Г. 1972. Методы распознавания и их применение. М. Сов. Радио: 135–147.
Ильин В.А., Садовничий В.А., Сендов Бл.Х. 1985. Математический анализ. Продолжение курса. М. Изд-во МГУ, 358.
Фирсова А.А. 2013. Разработка и исследование субполосных методов и алгоритмов сегментации речевых сигналов. Автореф. дис. … канд. техн. наук. Белгород, 22.
Хайкин С. 2006. Нейронные сети: полный курс, 2-е издание. Пер. с англ. М. Издательский дом «Вильямс», 1104.
Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. Пер. с нем. М. Связь, 64.
Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. Москва. Радио и связь, 456.
DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus. URL: https://www.kaggle.com/ mfekadu/darpa-timit-acousticphonetic-continuous-speech (дата обращения: 11 February 2020).
Shannon C.E. 1948. A mathematical theory of communication. Bell System Technical Journal, 27: 379–423, 623–656.
Abstract views: 642