Субполосная идентификация словных фрагментов речевых сигналов по заданному образцу
DOI:
https://doi.org/10.52575/2687-0932-2022-49-3-589-596Ключевые слова:
речевой сигнал, словоформа, прецедентная идентификация, субполосный анализАннотация
В статье рассматривается проблема выделения в записях речевых сигналов фрагментов, порождаемых при произнесении некоторой словоформы, представляющей интерес с позиции решаемой прикладной задачи анализа содержания речевого информационного обмена. При этом предполагается, что изначально класс искомой словоформы задается фрагментом, имеющимся в реальной записи речевого сигнала. Поэтому рассматриваемую проблему естественно именовать прецедентной идентификацией. Актуальность разработки методов и алгоритмов автоматической прецедентной идентификации фрагментов записей речевых сигналов в такой постановке определяется широтой их возможных применений, например, в информационно-аналитических системах безопасности. Основными факторами, определяющими сложность решения указанной проблемы, являются изменчивость свойств фрагментов речевых сигналов, даже порождаемых при произнесении одной и той же словоформы одним и тем же человеком, и необходимостью обучения по одному прецеденту при определении критических областей решающих функций. В данной работе показано, что адекватной основой решения рассматриваемой проблемы является субполосный анализ и разработан оригинальный математический аппарат для его реализации. На основе оригинальных субполосных представлений разработаны решающие процедуры идентификации фрагментов записей речевых сигналов, включая селекцию пауз между словными фрагментами. В частности, предложены процедуры обучения по одному прецеденту с сохранением его исходных субполосных свойств.
Благодарности
Исследования выполнены при поддержке гранта РФФИ № 20-07-00215 а.
Скачивания
Библиографические ссылки
Аграновский А.В., Леднов Д.А. 2004. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М., Радио и связь: 164.
Алдошина И. 1999. Основы психоакустики. Часть 1. Информационно-технический журнал «Звукорежиссер». 6: 1–14.
Алдошина И. 2002. Основы психоакустики. Слух и речь. Часть 1. Информационно-технический журнал «Звукорежиссер». 1: 38–44.
Алдошина И. 2002а. Основы психоакустики. Слух и речь. Часть 2. Информационно-технический журнал «Звукорежиссер». 3: 54–58.
Алдошина, И. 2002б. Основы психоакустики. Слух и речь. Часть 3. Информационно-технический журнал «Звукорежиссер». 4: 38–44.
Альтман Я.А. 1990. Слуховая система. Ленинград: Наука, 620 с.
Гантмахер Ф.Р. 1967. Теория матриц. М., Наука: 575.
Гельфанд С.А. 1984. Слух: введение в психол. И физиол. Акустику. пер. с англ. О.К. Федоровой, О.П. Токарева. М.: Медицина, 350 с.
Герасимов А.В., Морозов О.А., Фидельман В.Р. 2005. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов. Москва: Радиотехника и Электроника. 1287–1292.
Жиляков Е.Г. 2015. Оптимальные субполосные методы анализа и синтеза сигналов конечной длительности. Москва: Автоматика и телемеханика. 51–66.
Жиляков Е.Г., Белов С.П., Белов А.С., Медведева А.А. 2020. Модель взаимосвязи координат максимумов огибающих, бегущих вдоль базилярной мембраны волн с частотами их возбуждения. Информационные системы и технологии. 4: 5–10
Жиляков Е.Г., Белов С.П., Белов А.С., Медведева А.А. 2020а. О Скорости распространения возмущений вдоль базилярной мембраны слуховой системы человека. Инфокоммуникационные технологии. 18(2): 188–194.
Кипяткова И.С., Ронжин А.Л., Карпов А.А. 2013. Автоматическая обработка разговорной русской речи: монография. СПб.: ГУАП: 314.
Манфред Р., Шрёдер. 1975. Модели слуха. Proceedings of the IEEE. 63(9): 1332–1350.
Молчанов А.П., Бабкина Л.Н. 1978. Электрические модели улитки органа слуха. Ленинград: Наука, 181 с.
Ниценко А.В., Шелепов В.Ю. 2004. Алгоритмы пофонемного распознавания слов наперед заданного словаря. Донецк: Искусственный интеллект. 633–639.
Рабинер Л.Р., Шафер Р.Ф. 1981. Цифровая обработка речевых сигналов. М., Радио и связь: 496.
Хорн Р., Джонсон Ч. 1989. Матричный анализ. М.: Мир, 655 с.
Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. под редакцией Б.Г. Белкина; пер. с нем. М., Связь, 255 с.
Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. М., Радио и связь: 256.
Stevens S.S., Volkman J., Newman E.B. 1936. A Scale for the Measurement of the Psychological Magnitude Pitch. The Journal of the Acoustical Society of America. 8(3), 10.1121/1.1915893.
Просмотров аннотации: 94
Поделиться
Опубликован
Как цитировать
Выпуск
Раздел
Copyright (c) 2022 Экономика. Информатика
Это произведение доступно по лицензии Creative Commons «Attribution» («Атрибуция») 4.0 Всемирная.