Subband Identification of Word Fragments of Speech Signal Word Segments Precedent
speech signal, word form, case identification, subband analysisAbstract
The article deals with the problem of extracting in the records of speech signals fragments generated during the pronunciation of a certain word form, which is of interest from the standpoint of the applied problem of analyzing the content of speech information exchange. In this case, it is assumed that initially the class of the desired word form is given by the fragment present in the actual recording of the speech signal. Therefore, the problem under consideration, naturally, is called precedent identification. The relevance of developing methods and algorithms for automatic precedent identification of fragments of speech signal recordings in such a formulation is determined by the breadth of their possible applications, for example, in information and analytical security systems. The main factors that determine the complexity of solving this problem are the variability of the properties of fragments of speech signals, even generated when the same word form is pronounced by the same person, and the need to learn from one precedent when determining critical areas of decisive functions. In this paper, it is shown that subband analysis is an adequate basis for solving the problem under consideration and an original mathematical apparatus for its implementation has been developed. Based on the original subband representations, decision procedures for identifying fragments of speech signal recordings, including the selection of pauses between word fragments, have been developed. In particular, training procedures are proposed for one precedent with the preservation of its original subband properties.
The research was supported by RFBR grant No. 20-07-00215 a.
Аграновский А.В., Леднов Д.А. 2004. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М., Радио и связь: 164.
Алдошина И. 1999. Основы психоакустики. Часть 1. Информационно-технический журнал «Звукорежиссер». 6: 1–14.
Алдошина И. 2002. Основы психоакустики. Слух и речь. Часть 1. Информационно-технический журнал «Звукорежиссер». 1: 38–44.
Алдошина И. 2002а. Основы психоакустики. Слух и речь. Часть 2. Информационно-технический журнал «Звукорежиссер». 3: 54–58.
Алдошина, И. 2002б. Основы психоакустики. Слух и речь. Часть 3. Информационно-технический журнал «Звукорежиссер». 4: 38–44.
Альтман Я.А. 1990. Слуховая система. Ленинград: Наука, 620 с.
Гантмахер Ф.Р. 1967. Теория матриц. М., Наука: 575.
Гельфанд С.А. 1984. Слух: введение в психол. И физиол. Акустику. пер. с англ. О.К. Федоровой, О.П. Токарева. М.: Медицина, 350 с.
Герасимов А.В., Морозов О.А., Фидельман В.Р. 2005. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов. Москва: Радиотехника и Электроника. 1287–1292.
Жиляков Е.Г. 2015. Оптимальные субполосные методы анализа и синтеза сигналов конечной длительности. Москва: Автоматика и телемеханика. 51–66.
Жиляков Е.Г., Белов С.П., Белов А.С., Медведева А.А. 2020. Модель взаимосвязи координат максимумов огибающих, бегущих вдоль базилярной мембраны волн с частотами их возбуждения. Информационные системы и технологии. 4: 5–10
Жиляков Е.Г., Белов С.П., Белов А.С., Медведева А.А. 2020а. О Скорости распространения возмущений вдоль базилярной мембраны слуховой системы человека. Инфокоммуникационные технологии. 18(2): 188–194.
Кипяткова И.С., Ронжин А.Л., Карпов А.А. 2013. Автоматическая обработка разговорной русской речи: монография. СПб.: ГУАП: 314.
Манфред Р., Шрёдер. 1975. Модели слуха. Proceedings of the IEEE. 63(9): 1332–1350.
Молчанов А.П., Бабкина Л.Н. 1978. Электрические модели улитки органа слуха. Ленинград: Наука, 181 с.
Ниценко А.В., Шелепов В.Ю. 2004. Алгоритмы пофонемного распознавания слов наперед заданного словаря. Донецк: Искусственный интеллект. 633–639.
Рабинер Л.Р., Шафер Р.Ф. 1981. Цифровая обработка речевых сигналов. М., Радио и связь: 496.
Хорн Р., Джонсон Ч. 1989. Матричный анализ. М.: Мир, 655 с.
Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. под редакцией Б.Г. Белкина; пер. с нем. М., Связь, 255 с.
Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. М., Радио и связь: 256.
Stevens S.S., Volkman J., Newman E.B. 1936. A Scale for the Measurement of the Psychological Magnitude Pitch. The Journal of the Acoustical Society of America. 8(3), 10.1121/1.1915893.
Abstract views: 95
How to Cite
This work is licensed under a Creative Commons Attribution 4.0 International License.