Subband Identification of Word Fragments of Speech Signal Word Segments Precedent

Authors

  • Sergey P. Belov Belgorod University of Cooperation, Economics and Law
  • Alexander S. Belov Belgorod University of Cooperation, Economics and Law
  • Ekaterina I. Prokhorenko Belgorod National Research University
  • Tatiana N. Balabanova Belgorod National Research University

DOI:

https://doi.org/10.52575/2687-0932-2022-49-3-589-596

Keywords:

speech signal, word form, case identification, subband analysis

Abstract

The article deals with the problem of extracting in the records of speech signals fragments generated during the pronunciation of a certain word form, which is of interest from the standpoint of the applied problem of analyzing the content of speech information exchange. In this case, it is assumed that initially the class of the desired word form is given by the fragment present in the actual recording of the speech signal. Therefore, the problem under consideration, naturally, is called precedent identification. The relevance of developing methods and algorithms for automatic precedent identification of fragments of speech signal recordings in such a formulation is determined by the breadth of their possible applications, for example, in information and analytical security systems. The main factors that determine the complexity of solving this problem are the variability of the properties of fragments of speech signals, even generated when the same word form is pronounced by the same person, and the need to learn from one precedent when determining critical areas of decisive functions. In this paper, it is shown that subband analysis is an adequate basis for solving the problem under consideration and an original mathematical apparatus for its implementation has been developed. Based on the original subband representations, decision procedures for identifying fragments of speech signal recordings, including the selection of pauses between word fragments, have been developed. In particular, training procedures are proposed for one precedent with the preservation of its original subband properties.

 

Acknowledgments
The research was supported by RFBR grant No. 20-07-00215 a.

Downloads

Download data is not yet available.

Author Biographies

Sergey P. Belov, Belgorod University of Cooperation, Economics and Law

Professor of the Department of Information Security, Doctor of Technical Sciences, Professor, Belgorod University of Cooperation, Economics and Law,
Belgorod, Russia

Alexander S. Belov, Belgorod University of Cooperation, Economics and Law

Candidate of Technical Sciences, Associate Professor, Associate Professor of the Department of Information Security, Belgorod University of Cooperation, Economics and Law,
Belgorod, Russia

Ekaterina I. Prokhorenko, Belgorod National Research University

Candidate of Technical Sciences, Associate Professor, Associate Professor of the Department of Information and Telecommunication Systems and Technologies, Belgorod National Research University,
Belgorod, Russia

Tatiana N. Balabanova, Belgorod National Research University

Candidate of Technical Sciences, Associate Professor, Associate Professor of the Department of Information and Telecommunication Systems and Technologies, Belgorod National Research University,
Belgorod, Russia

References

Аграновский А.В., Леднов Д.А. 2004. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М., Радио и связь: 164.

Алдошина И. 1999. Основы психоакустики. Часть 1. Информационно-технический журнал «Звукорежиссер». 6: 1–14.

Алдошина И. 2002. Основы психоакустики. Слух и речь. Часть 1. Информационно-технический журнал «Звукорежиссер». 1: 38–44.

Алдошина И. 2002а. Основы психоакустики. Слух и речь. Часть 2. Информационно-технический журнал «Звукорежиссер». 3: 54–58.

Алдошина, И. 2002б. Основы психоакустики. Слух и речь. Часть 3. Информационно-технический журнал «Звукорежиссер». 4: 38–44.

Альтман Я.А. 1990. Слуховая система. Ленинград: Наука, 620 с.

Гантмахер Ф.Р. 1967. Теория матриц. М., Наука: 575.

Гельфанд С.А. 1984. Слух: введение в психол. И физиол. Акустику. пер. с англ. О.К. Федоровой, О.П. Токарева. М.: Медицина, 350 с.

Герасимов А.В., Морозов О.А., Фидельман В.Р. 2005. Применение метода модифицированного линейного предсказания к задачам выделения акустических признаков речевых сигналов. Москва: Радиотехника и Электроника. 1287–1292.

Жиляков Е.Г. 2015. Оптимальные субполосные методы анализа и синтеза сигналов конечной длительности. Москва: Автоматика и телемеханика. 51–66.

Жиляков Е.Г., Белов С.П., Белов А.С., Медведева А.А. 2020. Модель взаимосвязи координат максимумов огибающих, бегущих вдоль базилярной мембраны волн с частотами их возбуждения. Информационные системы и технологии. 4: 5–10

Жиляков Е.Г., Белов С.П., Белов А.С., Медведева А.А. 2020а. О Скорости распространения возмущений вдоль базилярной мембраны слуховой системы человека. Инфокоммуникационные технологии. 18(2): 188–194.

Кипяткова И.С., Ронжин А.Л., Карпов А.А. 2013. Автоматическая обработка разговорной русской речи: монография. СПб.: ГУАП: 314.

Манфред Р., Шрёдер. 1975. Модели слуха. Proceedings of the IEEE. 63(9): 1332–1350.

Молчанов А.П., Бабкина Л.Н. 1978. Электрические модели улитки органа слуха. Ленинград: Наука, 181 с.

Ниценко А.В., Шелепов В.Ю. 2004. Алгоритмы пофонемного распознавания слов наперед заданного словаря. Донецк: Искусственный интеллект. 633–639.

Рабинер Л.Р., Шафер Р.Ф. 1981. Цифровая обработка речевых сигналов. М., Радио и связь: 496.

Хорн Р., Джонсон Ч. 1989. Матричный анализ. М.: Мир, 655 с.

Цвикер Э., Фельдкеллер Р. 1971. Ухо как приемник информации. под редакцией Б.Г. Белкина; пер. с нем. М., Связь, 255 с.

Шелухин О.И., Лукьянцев Н.Ф. 2000. Цифровая обработка и передача речи. М., Радио и связь: 256.

Stevens S.S., Volkman J., Newman E.B. 1936. A Scale for the Measurement of the Psychological Magnitude Pitch. The Journal of the Acoustical Society of America. 8(3), 10.1121/1.1915893.


Abstract views: 79

Share

Published

2022-09-30

How to Cite

Belov, S. P., Belov, A. S., Prokhorenko, E. I., & Balabanova, T. N. (2022). Subband Identification of Word Fragments of Speech Signal Word Segments Precedent. Economics. Information Technologies, 49(3), 589-596. https://doi.org/10.52575/2687-0932-2022-49-3-589-596

Issue

Section

INFOCOMMUNICATION TECHNOLOGIES

Most read articles by the same author(s)