На правах рукописи
Конев Антон Александрович
МОДЕЛЬ И АЛГОРИТМЫ АНАЛИЗА И
СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА
Специальность 05.13.18 - Математическое моделирование,
численные методы и комплексы программ
Автореферат
диссертации на соискание ученой степени
кандидата технических наук
Томск - 2007 2
Работа выполнена в Томском государственном университете систем управления и радиоэлектроники
Научный руководитель – доктор технических наук, профессор Бондаренко Владимир Петрович
Официальные оппоненты: доктор технических наук, профессор Кочегуров Владимир Александрович кандидат физико-математических наук, с.н.с.
Афонин Геннадий Иванович
Ведущая организация – Алтайский государственный университет
Защита состоится «17» мая 2007г. в 15.00 часов на заседании диссертационного совета Д.212.268.02 в Томском государственном университете систем управления и радиоэлектроники по адресу:
634034, г.Томск, ул. Белинского, 53, НИИ АЭМ при ТУСУР.
С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу:
634045, г.Томск, ул. Вершинина, 74.
Автореферат разослан «13» апреля 2007 г.
Ученый секретарь диссертационного совета А. Я. Клименко Актуальность работы. Распознавание слитной речи и идентификация человека по голосу – особенно сложные проблемы для открытого множества дикторов. Основными недостатками существующих программных продуктов являются: необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью. Так, по данным американского института стандартов (NIST) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов – от 26% до 38%, для лекционных залов – от 28% до 52%, для новостных передач – 9,9%. Ещё одна проблема – отсутствие конкурентоспособных систем распознавания слитной речи на русском языке.
Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года, но большая часть рынка – это распознавание голосовых команд и синтез речи.
Большой вклад в развитие речевых технологий внесли такие ученые, как:
Г.Фант, Дж.Фланаган, М.А.Сапожков, В.Н.Сорокин, В.И.Галунов, Б.М.Лобанов, Т.К.Винцюк, Р.К.Потапова, Л.В.Златоустова, А.В.Аграновский, Д.А.Леднов, Н.Г.Загоруйко, Ю.А.Косарев, А.Л.Ронжин, М.В.Хитров, С.Л.Коваль, В.Г.Михайлов, Э.Г.Кнеллер.
Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью.
Актуальной областью применения анализа речевого сигнала является медицина. Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта. Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова.
Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани. В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона.
На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Молчанов, Фланаган. Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план. В настоящее время вновь стали появляться работы в этом направлении (Галунов, Кнеллер).
Для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала. При этом важно, что он должен проводиться с учетом особенностей слухового восприятия.
Таким образом, задача построения модели слухового восприятия речевого сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной.
Цель исследований – построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека.
Для достижения поставленной цели необходимо решить следующие задачи:
1. анализ особенностей слухового восприятия (по существующим литературным источникам);
2. построение модели обработки речевого сигнала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;
3. разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования;
4. исследование модели и алгоритмов;
5. сопоставление модели с имеющимися данными по функционированию слуховой системы.
Методы исследований. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики.
Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата; адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы; большим количеством экспериментальных данных, подтверждающих теоретические результаты.
Научную новизну, полученных в работе результатов определяют:
1. алгоритм и численные методы измерения частоты основного тона;
2. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки;
3. модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы.
Практическая значимость. Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса:
1. создавать программное обеспечение для детального анализа речевого сигнала;
2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;
3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.
Положения, выносимые на защиту:
1. модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;
2. алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;
3. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93.
Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».
Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК).
Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоритма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров. Постановка задачи осуществлялась совместно с руководителем – д.т.н., проф. В.П.
Бондаренко, разработка программного комплекса проводилась совместно с В.П. Коцубинским.
Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений.
Общий объем работы составляет 129 страниц, в том числе 58 рисунков и таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность, научная новизна исследований, определена цель работы и задачи исследований, дана общая характеристика работы, сформулированы основные положения, выносимые на защиту.
В первой главе приводится подход к созданию модели, основывающийся на иерархической модели речевой системы и иерархической системе речевого сигнала, а также постановка задачи.
Представлена иерархическая модель восприятия речи, состоящая из нескольких уровней: физического, параметрического описания сигнала, фонетического, морфологического, синтаксического и прагматического. Для решения задач верхнего уровня, т.е. понимания смысла высказывания, необходимо решение задач нижних уровней.
Нижний уровень восприятия включает в себя исходное описание сигнала, которое представляется в координатах интенсивность-время-частота и параметрическое описание, включающее сегментацию и описание типов и параметров сегментов. При этом различается два основных типа структур речевого сигнала: периодическая (вокализованные звуки) и шум (невокализованные). Периодическая структура возникает при задействовании в артикуляции источника колебаний – голосовых связок. Одним из наиболее значимых параметров периодического сигнала является частота основного тона. Шумовые источники подразделяются на турбулентные и импульсные.
Кроме периодического и шумового типов звуков, существуют звуки, при образовании которых принимают участие оба типа источников.
Основываясь на характере образования звука, в фонетике принята классификация звуков по: наличию/отсутствию голосового источника (звонкие и глухие), способу образования (сонорные, смычные, щелевые) и месту образования (губные, зубные и т.д.). Анализ фонетического строя русского, английского, французского, немецкого и арабского языков показал, что классификация по месту образования различна, а по наличию голосового источника и способу образования для всех языков одинакова. Это подтверждается частотой встречаемости различных классов звуков.
Например, количество вокализованных звуков в слитной речи исследованных языков практически не отличается и составляет 75-79%.
Исходя из этих данных, можно сделать вывод, что описание структуры речевого сигнала, а следовательно, и его сегментация, состоит из следующих этапов:
1. по наличию голосового источника;
2. по способу образования;
3. по месту образования.
При этом первые два этапа относятся к физическому уровню восприятия, а третий к фонетическому и зависит от структуры языка.
Также представлено описание строения слуховой системы. Строение периферической части слуховой является основой для построения модели.
На основе проанализированных данных сделана постановка задачи, которая заключается в построение модели восприятия речевых сигналов, учитывающей особенности как слухового восприятия человека, структуры сигнала, так и фонетики.
Во второй главе описана модель обработки речевого сигнала на периферии слуховой системы человека.
Описаны основные функции по обработке сигналов, выполняемые органами восприятия человека. Считается, что основные амплитудночастотные преобразования происходят во внутреннем ухе, в котором основную мембрану принято рассматривать как набор резонансных фильтров. Приведены частотные зависимости, на основе которых строится доказательство адекватности разработанной системы фильтров: зависимость координаты максимального колебания основной мембраны от частоты, зависимость ширины критической полосы слуха от центральной частоты (Бекеши, Альтман).
Один из основных моментов при построении модели – установление зависимости между шириной критической полосы и шкалой частот.
Полученное распределение резонансных частот F(x) по длине основной мембраны (xm=35 мм) принимает вид (1). Верхняя частота анализа для слуховой системы равна FВ=20000 Гц, а нижняя FН=20 Гц.
Коэффициенты и определяются из соотношения (2):
где Fкр(x) – ширина критической полосы.
Построение системы фильтров, учитывающей свойства слуховой системы, возможно при правильном соотношении критических полос слуха и добротности Q(x) системы фильтров. Это соотношение определяется как (3):
где b – коэффициент связи критической полосы и добротности.
Для сравнения разработанной системы фильтров со слуховой системой были проанализированы зависимости, имеющие место в слуховой системе и соответствующие им зависимости, полученные при моделировании (рис. 1).
Рисунок 1. а) – зависимость ширины критической полосы от центральной частоты F (x); б) – зависимость добротности системы фильтров от F (x), где fкр (x) – ширина критической полосы [Бекеши]; Fкр (x) – аппроксимация (2);
q(x) и Q(x) – соответствующие им добротности Весовые функции системы фильтров имеют вид:
p(x)= 2*F(x) – резонансные частоты выбранных точек на основной мембране, рад/сек;
Tз – половина длительности импульсной переходной характеристики фильтров (время задержки сигнала), обеспечивающая физическую реализуемость системы фильтров.
Система фильтров представляется сверткой вида (6):
где h(t, x) – импульсная переходная характеристика фильтра;
S(t) – входной сигнал в момент времени t;
y(t, x) – сигнал на выходе фильтра в момент времени t.
Таким образом, результатом свертки сигнала с весовыми функциями фильтра (4) и (5) являются его синусная ys(t,x) и косинусная yс(t,x) составляющие.
При этом интенсивность (7) и мгновенная частота (8) вычисляются как:
Сильное перекрытие амплитудно-частотных характеристик системы фильтров приводит к тому, что интенсивности сигналов по соседним каналам оказываются сильно коррелированными между собой. Одновременная маскировка позволяет выделить частотные области сильной корреляции.
Результатом одновременной маскировки является массив бинарных значений, определяющийся как (9):
W0 – весовые коэффициенты одновременной маскировки.
Для оценки разрешающей способности системы фильтров по времени и частоте было использовано понятие тела неопределенности. Исследование тела неопределенности показало, что наиболее точное соответствие разрешающей способности разработанной системы фильтров и слуховой системы наблюдается при коэффициенте b=2, что подтверждается анализом реальных речевых сигналов.
Дискретизация длины основной мембраны при цифровой фильтрации производится следующим образом:
где k – номер текущего канала фильтрации;
dx – шаг точек на основной мембране внутреннего уха;
K – количество каналов фильтрации; 0 k K–1.
Интенсивность и мгновенная частота при этом вычисляется как:
Пример реального речевого сигнала после одновременной маскировки (фраза «Гаси огонь») представлен на рис. 2. По оси абсцисс – дискретное время (Fs=12кГц), по оси ординат – частотные каналы фильтрации (K=128), FВ=3 кГц, FН=50 Гц.
Рисунок 2. Структура речевого сигнала после одновременной маскировки Таким образом, построенная модель адекватна слуховой системе человека, позволяет представлять описание сигнала в координатах интенсивность-время-частота, а также выделять наиболее информативные для слуховой системы участки сигнала.
В третьей главе приведены алгоритм сегментации речевого сигнала по признаку наличия/отсутствия голосового источника и алгоритм выделения частоты основного тона (ЧОТ), а также результаты их исследования.
Алгоритм сегментации состоит из трех этапов:
1. определение наличия периодической структуры на дискретном временном отсчете;
2. определение границ сегментов;
3. устранение ошибочно определенных границ.
Для определения наличия периодической структуры применяется свертка речевого сигнала с набором масок на каждом временном отсчете.
Набор масок представляет собой частотный срез речевого сигнала после одновременной маскировки для различных частот основного тона.
Таким образом, маски и сигнал после одновременной маскировки имеют бинарный формат, и решение о наличии периодичности принимается, исходя из значения меры различия, вычисляемой по (13). Если полученное значение не превышает значение порога min, то временной отсчет признается вокализованным, иначе – невокализованным. При свертке масок и сигнала учитывается две гармоники основного тона.
где – исключительное или (сложение по модулю 2);
Pм(k,k0) – набор масок для определения периодической структуры;
k0 – номер частотного канала, соответствующий ЧОТ.
Далее определяются границы интервалов времени, на которых все отсчеты имеют одинаковый признак вокализованности. После чего происходит устранение ошибочно проставленных границ (рис. 3).
Сокращение ошибок первого рода (неверное определение сегмента как вокализованного) происходит за счет ограничения минимальной длительности вокализованного участка (порог min1) и проверки значения изменения частоты основного тона на соседних временных отсчетах.
вокализованного сегмента как невокализованного) происходит за счет ограничения минимальной длительности невокализованного участка, находящегося между двумя вокализованными (порог min2).
Значение порогов min1 и min2 выбиралось, основываясь на разрешающей способности по времени системы фильтров, установленной при исследовании тела неопределенности, в области исследуемых ЧОТ.
Входными данными алгоритма являются массив значений, полученный после одновременной маскировки речевого сигнала. Выходными – массив значений k0(t), т.е. номеров каналов, соответствующих ЧОТ, на каждом временном отсчете.
Рисунок 3. Алгоритм выделения вокализованных участков сигнала Обозначения, используемые в алгоритме:
Vocal – определение наличия периодической структуры на одном временном отсчете (13);
Vt – бинарный признак вокализации текущего временного отсчета;
Vt-1 – бинарный признак вокализации предыдущего временного отсчета;
V(t1,t) – бинарный признак вокализации интервала от t1 до t;
V(t2,t1) – бинарный признак вокализации интервала от t2 до t1;
min1 – минимальная длительность вокализованного сегмента;
min2 – минимальная длительность невокализованного сегмента, находящегося между двумя вокализованными;
t – текущий момент времени;
t1 – момент времени начала текущего вокализованного сегмента;
t2 – момент времени конца предыдущего вокализованного сегмента;
T – длительность сигнала;
Dif – разность номера канала, соответствующего частоте основного тона, на текущем временном отсчете и номера канала на предыдущем временном отсчете, т.е. k0, t – k0, t-1;
Блок №1 – блок сокращения ошибок первого рода;
Блок №2 – блок сокращения ошибок 2-го рода.
Экспериментальные исследования алгоритмов сегментации и выделения ЧОТ проводились с параметрами: Fs=12 кГц; разрядность сигнала: 16 бит;
количество каналов: моно; Fв=3000 Гц; Fн=50 Гц; K=128; b=2; верхняя граница определения частоты основного тона: F0в=400 Гц; нижняя граница определения частоты основного тона: F0н=70 Гц; число учитываемых гармоник основного тона: 2; количество масок для определения вокализованной структуры сигнала: 56; min1=0,033 сек; min2=0,025 сек.
Для выбора наилучшего значения порога min и оценки надежности сегментации русской слитной речи использовался речевой материал, включающий отрывок текста, состоящий из 36 сегментов, произнесённый дикторами (5 мужчин и 5 женщин). И отрывок другого текста, состоящего из 190 сегментов, произнесённый диктором мужчиной. Общее количество сегментов в исследовавшихся текстах составило 550 сегментов. Сравнение автоматической сегментации проводилось с ручной, отсегментированной с точностью до сотых долей секунды.
Критериями определения надежности автоматической сегментации были выбраны: количество пропущенных границ (P-), количество лишних границ (P+) и количество границ, определенных с погрешностью не более 0,01 сек (P0+ P1). Все значения относительно количества границ, определенных при ручной сегментации. В результатах также представлено количество границ, определенных с погрешностью 0,02 сек, 0,03 сек и более 0,03 сек.
Результаты исследований (табл. 1) по выбранным критериям показали, что надежность алгоритма не зависит от пола диктора и от длительности речевого сигнала.
Таблица 1. Результаты исследования автоматической сегментации Таким образом, наилучшие результаты были получены с порогом min=6:
P-=0,02; P+=0,09; P0+ P1=0,91.
Также было проведено исследование надежности сегментации английской слитной речи. Исследование проводилось на 30 фразах, произнесенных на английском языке диктором-мужчиной носителем языка.
Полученные результаты практически не отличаются от результатов, полученных для русского языка: P-=0; P+=0,06; P0+ P1=0,9 (табл. 2).
Таблица 2. Результаты исследования автоматической сегментации Для анализа помехоустойчивости алгоритма сегментации были проведены эксперименты на речевом сигнале диктора-мужчины без шума, а также с шумом (белый шум с отношением сигнал/шум 0 и -3 дБ), что показано в табл.3.
Таблица 3. Результаты исследования помехоустойчивости сегментации ( сигнал/шум Результаты исследования надежности сегментации при работе в шумах:
1. снижение относительного количества пропущенных существующих границ: P-=0,22 (для 0 дБ), P-=0,37 (для -3 дБ);
2. отношение количества определенных несуществующих границ сигналов с шумом к количеству подобных границ сигнала без шума равно 2,9 (для 0 дБ) и 3,5 (для -3 дБ);
3. Отношение количество правильно определенных временных значений границ (с учетом погрешности в 0,01 сек) сигналов с шумом к количеству подобных значений сигнала без шума равно 2,2 (для 0 дБ) и 3,1 (для -3 дБ).
Эксперимент, оценивающий влияние скачков ЧОТ на надежность сегментации (рис. 4, 5), был проведен на тестовых сигналах с различной начальной ЧОТ (F1) и различной амплитудой скачка (F). Тестовые сигналы сформированы из 8 синусоид, кратных заданной ЧОТ.
Рисунок 4. Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды увеличения ЧОТ Рисунок 5. Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды уменьшения ЧОТ Из полученных данных видно, что количество невокализованных временных отсчетов не превысило порог min2, который при Fs=12 кГц составляет 300 отсчетов, поэтому после сегментации этот участок был признан вокализованным, т.е. скачок частоты основного тона не оказывает влияния на надежность сегментации.
Частота основного тона определяется по (12) для k=k0.
Погрешность вычисленного значения ЧОТ определялась как разность между экспериментально полученным значением и эталонным, которое задавалось при создании тестового синусоидального сигнала, состоящего из 8 гармоник основного тона (рис.6).
Рисунок 6. Относительная погрешность определения частоты основного тона Таким образом, погрешность измерения частоты основного тона составляет не более 0,6%.
Исследование влияния частотной и амплитудной модуляции на точность определения ЧОТ проводилось на тестовых сигналах синусоидальных сигналах с различными значениями индекса частотной модуляции (M=0,1;
0,3; 0,5; 0,7; 0,9), глубиной амплитудной модуляции (m=0,1;0,3; 0,5; 0,7; 0,9), частотой основного тона (F0=90; 105; 160; 240; 360 Гц) и частотой модуляции (Fm= 5; 10; 20; 30 Гц).
Рисунок 7. Абсолютная погрешность определения значения ЧОТ при Рисунок 8. Абсолютная погрешность определения значения ЧОТ при Таким образом, погрешность определения ЧОТ при частотной модуляции для наиболее часто встречающихся Fm10 Гц и M0,5 не превышает 5 Гц или 6%. Для максимальных из исследованных значений Fm=30 Гц и M=0,9 погрешность достигает 14,5%.
При амплитудной модуляции погрешность для Fm10 Гц и m0,5 не превышает 1 Гц или 1,5%. Для Fm=30 Гц и m=0,9 – достигает 6 Гц или 7%.
Исследование точности определения ЧОТ в шумах для речевых сигналов с отношением сигнал/шум, равным 0 и -3 дБ (помеха – белый шум) показало, что процент грубых ошибок, т.е. определения как ЧОТ частот более высоких гармоник ОТ, составил 2,5% и 5,3% соответственно.
При отношении сигнал/шум, равном 0 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 87% (в том числе менее 1,5% - 57%). При отношении сигнал/шум, равном -3 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 61% (в том числе менее 1,5% - 33%).
В четвертой главе представлена программная реализация разработанных модели и алгоритмов. Приведена структура программного комплекса по исследованию речевого сигнала. Обоснована возможность применения комплекса в исследованиях, направленных на получение параметров речевого сигнала, позволяющих определить изменения органов речеобразования, характерных для рака гортани различных стадий.
Приведена классификация рака гортани на стадии заболевания, исходя из его распространенности, по системе TNM.
Представлены результаты исследований речевых сигналов онкологических больных на разных стадиях заболевания. При более детальном анализе параметров речевого сигнала больных раком гортани, данный программный комплекс может служить основой для создания программ, проводящих диагностику наличия заболеваний, которые вызывают изменения в голосообразующем тракте (в том числе рака гортани), а также программ, позволяющих производить контроль качества проводимого лечения при лучевой и химиотерапии. На сегодняшний день методы, при помощи которых производится оценка размеров опухоли, либо недостаточно точны (зеркальная ларингоскопия), либо требуют дополнительного дорогостоящего оборудования, а иногда не могут применяться слишком часто (томография, рентген).
Рисунок 9. Структура программного комплекса на уровне блоков Программный комплекс по исследованию речевого сигнала состоит из программно реализованных модулей, объединенных в шесть блоков:
Блок создания файлов для обработки речевого сигнала:
1. модуль расчета весовых функций hc(t,k) (4) и hs(t,k) (5);
2. модуль расчета весовой функции одновременной маскировки W0(k, ki);
3. модуль формирования набора масок Pм(k) на основе W0(k, ki );
Блок предварительной обработки речевого сигнала состоит из двух модулей, параллельно совершающих свертку речевого сигнала S(t) с весовыми функциями системы фильтров hc(t, k) и hs(t, k) (6).
Блок выделения параметров речевого сигнала подразделяется на:
1. модуль вычисления массива значений интенсивностей I(t, k) (11);
2. модуль вычисления массива значений мгновенных частот F(t, k) (12).
Блок выделения вокализованных участков речевого сигнала:
1. модуль одновременной маскировки речевого сигнала (9);
2. модуль определения наличия периодической структуры на одном временном отсчете речевого сигнала (13);
3. модуль сегментации речевого сигнала по наличию голосового источника (рис. 3).
Блок выделения параметров вокализованных сегментов речевых сигналов подразделяется на:
1. модуль вычисления номеров каналов kn, соответствующих частотам гармоник основного тона;
2. модуль выделения массива значений интенсивностей гармоник основного тона In(t, kn);
3. модуль выделения массива значений мгновенных частот гармоник основного тона Fn(t, kn);
4. модуль вычисления величины девиации частоты основного тона.
Блок визуализации параметров речевого сигнала позволяет сохранять полученные графики как в автоматическом, так и в ручном режиме.
Модули, входящие в блок визуализации:
1. модуль визуализации частоты гармоник основного тона речевого сигнала – Fn(t, kn);
2. модуль визуализации интенсивностей гармоник основного тона речевого сигнала – In(t, kn);
3. модуль визуализации относительных интенсивностей гармоник основного тона речевого сигнала, определяющихся как (14):
4. модуль визуализации энергии речевого сигнала на каждом временном отсчете;
5. модуль визуализации экстремумов интенсивностей речевого сигнала, позволяющий оценить частотное расположение максимумов спектра для исследования невокализованных сегментов речевого сигнала.
В исследованиях речевых сигналов больных с различными стадиями рака гортани использовались следующие параметры:
1. наличие вокализации звуков;
2. частота основного тона;
3. интенсивность основного тона;
4. динамика изменения частоты основного тона;
5. девиация частоты основного тона;
6. динамика изменения интенсивности основного тона;
7. отношение интенсивности гармоник к интенсивности основного тона.
Были выявлены закономерности, представленные в табл. 4.
2 стадия нестабильная или повышенная нестабильная В заключении приведены основные научные и практические результаты диссертационной работы.
1. Обоснован подход к моделированию механизмов восприятия звуковых сигналов.
2. Установлены зависимости между шириной критических полос и частотной шкалой восприятия.
3. Разработаны алгоритмы и численные методы одновременной маскировки, измерения мгновенной частоты и интенсивности сигнала.
4. Разработан алгоритм сегментации речевого сигнала по наличию голосового источника, позволяющий достичь надежности 0,89-0,93.
5. Разработаны алгоритм и численные методы измерения ЧОТ, позволяющие обеспечить погрешность не более 0,6%.
6. Разработанные алгоритмы измерения частоты и интенсивности гармоник основного тона позволяют использовать их для создания систем диагностики заболеваний речеобразующих органов, в том числе рака гортани.
Основные результаты диссертации опубликованы в следующих работах:
В рецензируемых ВАК журналах:
1. Конев А. А. Обработка речевых сигналов в задачах идентификации / В.
П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Известия ВУЗов «Физика», 2006. – Т. 49 – Вып.9. – С. 207-210.
2. Конев А. А. Особенности речевого сигнала при опухоли гортани / Л.
Н. Балацкая, А. Н. Квасов, А. А. Конев, С. Ю. Чижевская, Е. Л.
Чойнзонов // Известия ВУЗов «Физика», 2006. – Т. 49 – Вып.9. – С. 290Конев А. А. Математическое и программно-алгоритмическое обеспечение в задачах идентификации и распознавания речи / В. П.
Бондаренко, А. А. Конев, Р. В. Мещеряков, А. А. Шелупанов // Вестник СибГАУ. – Красноярск, 2006. – С. 11-14.
В других изданиях:
4. Konev A. A. Allocation speech vocal sounds / V. P. Bondarenko, A. A.
Konev, R. V. Mescheriakov // Interactive Systems And Technologies: The Problems of Human – Computer Interaction. Collection of scientific papers. Ulyanovsk: UlSTU, 2005. – P. 213-217.
5. Конев А. А. Параметрическое описание сегментов речевого сигнала / В. И. Голубев, А. А. Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – С. 113Конев А. А. Выделение ключевых слов / А. А. Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск:
Издательство ТУСУРа, 2005. – С. 128-130.
7. Конев А. А. Сегментация речевого сигнала / Д. Н. Великоцкий, А. А.
Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – С. 208-210.
8. Конев А. А. Сегментация речевого сигнала / А. А. Конев, А. А.
Пономарёв // Сборник трудов XVI сессии Российского акустического общества. Том III – М.: ГЕОС, 2005. – С. 44-47.
9. Конев А. А. Выделение вокализованных звуков в слитной речи / А. А.
Конев, В. И. Тихонова // Сборник трудов XVI сессии Российского акустического общества. Том III – М.: ГЕОС, 2005. – С. 47-50.
10. Конев А. А. Сопоставительный анализ звукового строя речевых сигналов / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 102-107.
11. Конев А. А. Параметрическое описание гласных звуков / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 108-111.
12. Конев А. А. Особенности структуры вокализованных звуков в слитной речи / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 111-116.
13. Konev A. A. Biologic feedback formation by vocal rehabilitation / L.
Balatskaya, V. Bondarenko, E. Choynzonov, A. Konev, R. Mescheriakov // Proceedings of the 11th International Conference “Speech and Computer” SPECOM’06. – St. Petersburg, 2006. – P. 251-257.
14. Конев А. А. Особенности речевого сигнала у больных с опухолью гортани / Л. Н. Балацкая, А. А. Конев, Е. Л. Чойнзонов // Сборник трудов XVII сессии Российского акустического общества. Том III – М.: ГЕОС, 2006. – С. 5-8.
15. Конев А. А. Программный комплекс для исследования речи / А. А.
Конев, Е. Ю. Костюченко, А. А. Пономарев // Сборник трудов XVII сессии Российского акустического общества. Том III – М.: ГЕОС, 2006. – С. 23-27.