WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Конев Антон Александрович

МОДЕЛЬ И АЛГОРИТМЫ АНАЛИЗА И

СЕГМЕНТАЦИИ РЕЧЕВОГО СИГНАЛА

Специальность 05.13.18 - Математическое моделирование,

численные методы и комплексы программ

Автореферат

диссертации на соискание ученой степени

кандидата технических наук

Томск - 2007 2

Работа выполнена в Томском государственном университете систем управления и радиоэлектроники

Научный руководитель – доктор технических наук, профессор Бондаренко Владимир Петрович

Официальные оппоненты: доктор технических наук, профессор Кочегуров Владимир Александрович кандидат физико-математических наук, с.н.с.

Афонин Геннадий Иванович

Ведущая организация – Алтайский государственный университет

Защита состоится «17» мая 2007г. в 15.00 часов на заседании диссертационного совета Д.212.268.02 в Томском государственном университете систем управления и радиоэлектроники по адресу:

634034, г.Томск, ул. Белинского, 53, НИИ АЭМ при ТУСУР.

С диссертацией можно ознакомиться в библиотеке ТУСУРа по адресу:

634045, г.Томск, ул. Вершинина, 74.

Автореферат разослан «13» апреля 2007 г.

Ученый секретарь диссертационного совета А. Я. Клименко Актуальность работы. Распознавание слитной речи и идентификация человека по голосу – особенно сложные проблемы для открытого множества дикторов. Основными недостатками существующих программных продуктов являются: необходимость длительного обучения системы и недостаточное качество работы со спонтанной речью. Так, по данным американского института стандартов (NIST) процент ошибочно определенных при распознавании слов для разговоров по мобильным телефонам составил 23,8%, для конференц-залов – от 26% до 38%, для лекционных залов – от 28% до 52%, для новостных передач – 9,9%. Ещё одна проблема – отсутствие конкурентоспособных систем распознавания слитной речи на русском языке.

Размер рынка речевых технологий в 2006 году достиг 1 миллиарда долларов, увеличившись на 100% всего за два года, но большая часть рынка – это распознавание голосовых команд и синтез речи.

Большой вклад в развитие речевых технологий внесли такие ученые, как:

Г.Фант, Дж.Фланаган, М.А.Сапожков, В.Н.Сорокин, В.И.Галунов, Б.М.Лобанов, Т.К.Винцюк, Р.К.Потапова, Л.В.Златоустова, А.В.Аграновский, Д.А.Леднов, Н.Г.Загоруйко, Ю.А.Косарев, А.Л.Ронжин, М.В.Хитров, С.Л.Коваль, В.Г.Михайлов, Э.Г.Кнеллер.

Параметры речевого сигнала могут использоваться при решении проблемы низкоскоростного кодирования речевого сигнала при условии выделения их с приемлемой точностью.

Актуальной областью применения анализа речевого сигнала является медицина. Анализ изменений в речевом сигнале позволяет проводить диагностику при заболеваниях речеобразующего тракта. Например, проводятся исследования влияния на характеристики сигнала таких заболеваний, как пневмония, рак гортани, недостаточное развитие речи у детей, заикание в работах Коренбаума, Сорокина, Галунова, Склярова.

Анализ речевого сигнала может применяться во время речевой реабилитации после полной или частичной резекции гортани. В некоторых случаях проводится постановка пищеводного голоса с учетом таких параметров, как длительность фонации, значение частоты основного тона.

На начальном этапе исследования речевых систем обращалось особое внимание на особенности слухового восприятия такими учеными, как Бекеши, Молчанов, Фланаган. Затем, в связи с большой вычислительной сложностью, данный подход отошел на второй план. В настоящее время вновь стали появляться работы в этом направлении (Галунов, Кнеллер).

Для полноценного решения задач в области речевых технологий требуется детальный анализ структуры речевого сигнала. При этом важно, что он должен проводиться с учетом особенностей слухового восприятия.

Таким образом, задача построения модели слухового восприятия речевого сигнала, учитывающей особенности физиологии, нейродинамики, психоакустики и др. является актуальной.

Цель исследований – построение модели и алгоритмов анализа и обработки речевых сигналов, учитывающих особенности слухового восприятия человека.

Для достижения поставленной цели необходимо решить следующие задачи:

1. анализ особенностей слухового восприятия (по существующим литературным источникам);

2. построение модели обработки речевого сигнала на периферии слуховой системы, учитывающей иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

3. разработка алгоритмов, на первых этапах обработки речевых сигналов опирающихся на особенности входных сигналов, а в последующем учитывающих особенности речеобразования;

4. исследование модели и алгоритмов;

5. сопоставление модели с имеющимися данными по функционированию слуховой системы.

Методы исследований. Для решения задач, сформулированных в работе, использовались методы системного анализа, цифровой обработки сигналов, теории образов, численных методов, фонетики, психоакустики.

Достоверность полученных результатов обеспечивается строгостью используемого математического аппарата; адекватностью модели, установленной путем сравнения реакций модели и слуховой системы на тестовые сигналы; большим количеством экспериментальных данных, подтверждающих теоретические результаты.



Научную новизну, полученных в работе результатов определяют:

1. алгоритм и численные методы измерения частоты основного тона;

2. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки;

3. модифицированная иерархическая модель восприятия речевых сигналов на периферии слуховой системы.

Практическая значимость. Разработанные модель и алгоритмы позволяют на основе реализованного программного комплекса:

1. создавать программное обеспечение для детального анализа речевого сигнала;

2. формировать описание речевого сигнала для его распознавания, идентификации диктора и кодирования речи в цифровых системах связи;

3. разрабатывать программное обеспечение по диагностике изменений в речеобразующей системе человека.

Положения, выносимые на защиту:

1. модель восприятия речевых сигналов на периферии слуховой системы, учитывающая иерархическую структуру обработки речевого сигнала и его представление в слуховой системе;

2. алгоритм и численные методы измерения частоты основного тона, обеспечивающие погрешность измерения не более 0,6%;

3. алгоритм сегментации речевого сигнала на вокализованные и невокализованные участки, обеспечивающий надежность 0,89-0,93.

Внедрение результатов. Разработанный программный комплекс используется в научно-исследовательской деятельности ГУ НИИ онкологии ТНЦ РАМН, ООО «НПФ «Информационные системы безопасности», ООО «ЛМЭ «Биоток» а также в учебном процессе ТУСУР по дисциплине «Вычислительная математика».

Апробация работы. Основные результаты по теме диссертационной работы отражены в 15 публикациях (в том числе 12 статьях из них 3 в журналах, рекомендованных ВАК).

Личный вклад. Автором разработаны алгоритм сегментации и параметрическое описание сегментов, проведены исследования алгоритма сегментации и структуры речевого сигнала онкологических больных, разработана структура программного комплекса и осуществлена программная реализация 8 модулей, а также автор принимал участие в разработке и уточнении модели восприятия речевых сигналов, алгоритмов одновременной маскировки и измерения мгновенной частоты и интенсивности речевого сигнала на выходе системы фильтров. Постановка задачи осуществлялась совместно с руководителем – д.т.н., проф. В.П.

Бондаренко, разработка программного комплекса проводилась совместно с В.П. Коцубинским.

Структура и объем работы. Диссертация состоит из введения, четырех глав, заключения, списка литературы из 113 наименований и 2 приложений.

Общий объем работы составляет 129 страниц, в том числе 58 рисунков и таблиц.

СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность, научная новизна исследований, определена цель работы и задачи исследований, дана общая характеристика работы, сформулированы основные положения, выносимые на защиту.

В первой главе приводится подход к созданию модели, основывающийся на иерархической модели речевой системы и иерархической системе речевого сигнала, а также постановка задачи.

Представлена иерархическая модель восприятия речи, состоящая из нескольких уровней: физического, параметрического описания сигнала, фонетического, морфологического, синтаксического и прагматического. Для решения задач верхнего уровня, т.е. понимания смысла высказывания, необходимо решение задач нижних уровней.

Нижний уровень восприятия включает в себя исходное описание сигнала, которое представляется в координатах интенсивность-время-частота и параметрическое описание, включающее сегментацию и описание типов и параметров сегментов. При этом различается два основных типа структур речевого сигнала: периодическая (вокализованные звуки) и шум (невокализованные). Периодическая структура возникает при задействовании в артикуляции источника колебаний – голосовых связок. Одним из наиболее значимых параметров периодического сигнала является частота основного тона. Шумовые источники подразделяются на турбулентные и импульсные.

Кроме периодического и шумового типов звуков, существуют звуки, при образовании которых принимают участие оба типа источников.

Основываясь на характере образования звука, в фонетике принята классификация звуков по: наличию/отсутствию голосового источника (звонкие и глухие), способу образования (сонорные, смычные, щелевые) и месту образования (губные, зубные и т.д.). Анализ фонетического строя русского, английского, французского, немецкого и арабского языков показал, что классификация по месту образования различна, а по наличию голосового источника и способу образования для всех языков одинакова. Это подтверждается частотой встречаемости различных классов звуков.

Например, количество вокализованных звуков в слитной речи исследованных языков практически не отличается и составляет 75-79%.

Исходя из этих данных, можно сделать вывод, что описание структуры речевого сигнала, а следовательно, и его сегментация, состоит из следующих этапов:

1. по наличию голосового источника;

2. по способу образования;

3. по месту образования.

При этом первые два этапа относятся к физическому уровню восприятия, а третий к фонетическому и зависит от структуры языка.

Также представлено описание строения слуховой системы. Строение периферической части слуховой является основой для построения модели.

На основе проанализированных данных сделана постановка задачи, которая заключается в построение модели восприятия речевых сигналов, учитывающей особенности как слухового восприятия человека, структуры сигнала, так и фонетики.

Во второй главе описана модель обработки речевого сигнала на периферии слуховой системы человека.

Описаны основные функции по обработке сигналов, выполняемые органами восприятия человека. Считается, что основные амплитудночастотные преобразования происходят во внутреннем ухе, в котором основную мембрану принято рассматривать как набор резонансных фильтров. Приведены частотные зависимости, на основе которых строится доказательство адекватности разработанной системы фильтров: зависимость координаты максимального колебания основной мембраны от частоты, зависимость ширины критической полосы слуха от центральной частоты (Бекеши, Альтман).

Один из основных моментов при построении модели – установление зависимости между шириной критической полосы и шкалой частот.

Полученное распределение резонансных частот F(x) по длине основной мембраны (xm=35 мм) принимает вид (1). Верхняя частота анализа для слуховой системы равна FВ=20000 Гц, а нижняя FН=20 Гц.

Коэффициенты и определяются из соотношения (2):

где Fкр(x) – ширина критической полосы.

Построение системы фильтров, учитывающей свойства слуховой системы, возможно при правильном соотношении критических полос слуха и добротности Q(x) системы фильтров. Это соотношение определяется как (3):

где b – коэффициент связи критической полосы и добротности.

Для сравнения разработанной системы фильтров со слуховой системой были проанализированы зависимости, имеющие место в слуховой системе и соответствующие им зависимости, полученные при моделировании (рис. 1).

Рисунок 1. а) – зависимость ширины критической полосы от центральной частоты F (x); б) – зависимость добротности системы фильтров от F (x), где fкр (x) – ширина критической полосы [Бекеши]; Fкр (x) – аппроксимация (2);

q(x) и Q(x) – соответствующие им добротности Весовые функции системы фильтров имеют вид:

p(x)= 2*F(x) – резонансные частоты выбранных точек на основной мембране, рад/сек;

Tз – половина длительности импульсной переходной характеристики фильтров (время задержки сигнала), обеспечивающая физическую реализуемость системы фильтров.

Система фильтров представляется сверткой вида (6):

где h(t, x) – импульсная переходная характеристика фильтра;

S(t) – входной сигнал в момент времени t;

y(t, x) – сигнал на выходе фильтра в момент времени t.

Таким образом, результатом свертки сигнала с весовыми функциями фильтра (4) и (5) являются его синусная ys(t,x) и косинусная yс(t,x) составляющие.

При этом интенсивность (7) и мгновенная частота (8) вычисляются как:

Сильное перекрытие амплитудно-частотных характеристик системы фильтров приводит к тому, что интенсивности сигналов по соседним каналам оказываются сильно коррелированными между собой. Одновременная маскировка позволяет выделить частотные области сильной корреляции.

Результатом одновременной маскировки является массив бинарных значений, определяющийся как (9):

W0 – весовые коэффициенты одновременной маскировки.

Для оценки разрешающей способности системы фильтров по времени и частоте было использовано понятие тела неопределенности. Исследование тела неопределенности показало, что наиболее точное соответствие разрешающей способности разработанной системы фильтров и слуховой системы наблюдается при коэффициенте b=2, что подтверждается анализом реальных речевых сигналов.

Дискретизация длины основной мембраны при цифровой фильтрации производится следующим образом:

где k – номер текущего канала фильтрации;

dx – шаг точек на основной мембране внутреннего уха;

K – количество каналов фильтрации; 0 k K–1.

Интенсивность и мгновенная частота при этом вычисляется как:

Пример реального речевого сигнала после одновременной маскировки (фраза «Гаси огонь») представлен на рис. 2. По оси абсцисс – дискретное время (Fs=12кГц), по оси ординат – частотные каналы фильтрации (K=128), FВ=3 кГц, FН=50 Гц.

Рисунок 2. Структура речевого сигнала после одновременной маскировки Таким образом, построенная модель адекватна слуховой системе человека, позволяет представлять описание сигнала в координатах интенсивность-время-частота, а также выделять наиболее информативные для слуховой системы участки сигнала.

В третьей главе приведены алгоритм сегментации речевого сигнала по признаку наличия/отсутствия голосового источника и алгоритм выделения частоты основного тона (ЧОТ), а также результаты их исследования.

Алгоритм сегментации состоит из трех этапов:

1. определение наличия периодической структуры на дискретном временном отсчете;

2. определение границ сегментов;

3. устранение ошибочно определенных границ.

Для определения наличия периодической структуры применяется свертка речевого сигнала с набором масок на каждом временном отсчете.

Набор масок представляет собой частотный срез речевого сигнала после одновременной маскировки для различных частот основного тона.

Таким образом, маски и сигнал после одновременной маскировки имеют бинарный формат, и решение о наличии периодичности принимается, исходя из значения меры различия, вычисляемой по (13). Если полученное значение не превышает значение порога min, то временной отсчет признается вокализованным, иначе – невокализованным. При свертке масок и сигнала учитывается две гармоники основного тона.

где – исключительное или (сложение по модулю 2);

Pм(k,k0) – набор масок для определения периодической структуры;

k0 – номер частотного канала, соответствующий ЧОТ.

Далее определяются границы интервалов времени, на которых все отсчеты имеют одинаковый признак вокализованности. После чего происходит устранение ошибочно проставленных границ (рис. 3).

Сокращение ошибок первого рода (неверное определение сегмента как вокализованного) происходит за счет ограничения минимальной длительности вокализованного участка (порог min1) и проверки значения изменения частоты основного тона на соседних временных отсчетах.

вокализованного сегмента как невокализованного) происходит за счет ограничения минимальной длительности невокализованного участка, находящегося между двумя вокализованными (порог min2).

Значение порогов min1 и min2 выбиралось, основываясь на разрешающей способности по времени системы фильтров, установленной при исследовании тела неопределенности, в области исследуемых ЧОТ.

Входными данными алгоритма являются массив значений, полученный после одновременной маскировки речевого сигнала. Выходными – массив значений k0(t), т.е. номеров каналов, соответствующих ЧОТ, на каждом временном отсчете.

Рисунок 3. Алгоритм выделения вокализованных участков сигнала Обозначения, используемые в алгоритме:

Vocal – определение наличия периодической структуры на одном временном отсчете (13);

Vt – бинарный признак вокализации текущего временного отсчета;

Vt-1 – бинарный признак вокализации предыдущего временного отсчета;

V(t1,t) – бинарный признак вокализации интервала от t1 до t;

V(t2,t1) – бинарный признак вокализации интервала от t2 до t1;

min1 – минимальная длительность вокализованного сегмента;

min2 – минимальная длительность невокализованного сегмента, находящегося между двумя вокализованными;

t – текущий момент времени;

t1 – момент времени начала текущего вокализованного сегмента;

t2 – момент времени конца предыдущего вокализованного сегмента;

T – длительность сигнала;

Dif – разность номера канала, соответствующего частоте основного тона, на текущем временном отсчете и номера канала на предыдущем временном отсчете, т.е. k0, t – k0, t-1;

Блок №1 – блок сокращения ошибок первого рода;

Блок №2 – блок сокращения ошибок 2-го рода.

Экспериментальные исследования алгоритмов сегментации и выделения ЧОТ проводились с параметрами: Fs=12 кГц; разрядность сигнала: 16 бит;

количество каналов: моно; Fв=3000 Гц; Fн=50 Гц; K=128; b=2; верхняя граница определения частоты основного тона: F0в=400 Гц; нижняя граница определения частоты основного тона: F0н=70 Гц; число учитываемых гармоник основного тона: 2; количество масок для определения вокализованной структуры сигнала: 56; min1=0,033 сек; min2=0,025 сек.

Для выбора наилучшего значения порога min и оценки надежности сегментации русской слитной речи использовался речевой материал, включающий отрывок текста, состоящий из 36 сегментов, произнесённый дикторами (5 мужчин и 5 женщин). И отрывок другого текста, состоящего из 190 сегментов, произнесённый диктором мужчиной. Общее количество сегментов в исследовавшихся текстах составило 550 сегментов. Сравнение автоматической сегментации проводилось с ручной, отсегментированной с точностью до сотых долей секунды.

Критериями определения надежности автоматической сегментации были выбраны: количество пропущенных границ (P-), количество лишних границ (P+) и количество границ, определенных с погрешностью не более 0,01 сек (P0+ P1). Все значения относительно количества границ, определенных при ручной сегментации. В результатах также представлено количество границ, определенных с погрешностью 0,02 сек, 0,03 сек и более 0,03 сек.

Результаты исследований (табл. 1) по выбранным критериям показали, что надежность алгоритма не зависит от пола диктора и от длительности речевого сигнала.

Таблица 1. Результаты исследования автоматической сегментации Таким образом, наилучшие результаты были получены с порогом min=6:

P-=0,02; P+=0,09; P0+ P1=0,91.

Также было проведено исследование надежности сегментации английской слитной речи. Исследование проводилось на 30 фразах, произнесенных на английском языке диктором-мужчиной носителем языка.

Полученные результаты практически не отличаются от результатов, полученных для русского языка: P-=0; P+=0,06; P0+ P1=0,9 (табл. 2).

Таблица 2. Результаты исследования автоматической сегментации Для анализа помехоустойчивости алгоритма сегментации были проведены эксперименты на речевом сигнале диктора-мужчины без шума, а также с шумом (белый шум с отношением сигнал/шум 0 и -3 дБ), что показано в табл.3.

Таблица 3. Результаты исследования помехоустойчивости сегментации ( сигнал/шум Результаты исследования надежности сегментации при работе в шумах:

1. снижение относительного количества пропущенных существующих границ: P-=0,22 (для 0 дБ), P-=0,37 (для -3 дБ);

2. отношение количества определенных несуществующих границ сигналов с шумом к количеству подобных границ сигнала без шума равно 2,9 (для 0 дБ) и 3,5 (для -3 дБ);

3. Отношение количество правильно определенных временных значений границ (с учетом погрешности в 0,01 сек) сигналов с шумом к количеству подобных значений сигнала без шума равно 2,2 (для 0 дБ) и 3,1 (для -3 дБ).

Эксперимент, оценивающий влияние скачков ЧОТ на надежность сегментации (рис. 4, 5), был проведен на тестовых сигналах с различной начальной ЧОТ (F1) и различной амплитудой скачка (F). Тестовые сигналы сформированы из 8 синусоид, кратных заданной ЧОТ.

Рисунок 4. Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды увеличения ЧОТ Рисунок 5. Зависимость количества временных отсчетов, определенных как невокализованные, от амплитуды уменьшения ЧОТ Из полученных данных видно, что количество невокализованных временных отсчетов не превысило порог min2, который при Fs=12 кГц составляет 300 отсчетов, поэтому после сегментации этот участок был признан вокализованным, т.е. скачок частоты основного тона не оказывает влияния на надежность сегментации.

Частота основного тона определяется по (12) для k=k0.

Погрешность вычисленного значения ЧОТ определялась как разность между экспериментально полученным значением и эталонным, которое задавалось при создании тестового синусоидального сигнала, состоящего из 8 гармоник основного тона (рис.6).

Рисунок 6. Относительная погрешность определения частоты основного тона Таким образом, погрешность измерения частоты основного тона составляет не более 0,6%.

Исследование влияния частотной и амплитудной модуляции на точность определения ЧОТ проводилось на тестовых сигналах синусоидальных сигналах с различными значениями индекса частотной модуляции (M=0,1;

0,3; 0,5; 0,7; 0,9), глубиной амплитудной модуляции (m=0,1;0,3; 0,5; 0,7; 0,9), частотой основного тона (F0=90; 105; 160; 240; 360 Гц) и частотой модуляции (Fm= 5; 10; 20; 30 Гц).

Рисунок 7. Абсолютная погрешность определения значения ЧОТ при Рисунок 8. Абсолютная погрешность определения значения ЧОТ при Таким образом, погрешность определения ЧОТ при частотной модуляции для наиболее часто встречающихся Fm10 Гц и M0,5 не превышает 5 Гц или 6%. Для максимальных из исследованных значений Fm=30 Гц и M=0,9 погрешность достигает 14,5%.

При амплитудной модуляции погрешность для Fm10 Гц и m0,5 не превышает 1 Гц или 1,5%. Для Fm=30 Гц и m=0,9 – достигает 6 Гц или 7%.

Исследование точности определения ЧОТ в шумах для речевых сигналов с отношением сигнал/шум, равным 0 и -3 дБ (помеха – белый шум) показало, что процент грубых ошибок, т.е. определения как ЧОТ частот более высоких гармоник ОТ, составил 2,5% и 5,3% соответственно.

При отношении сигнал/шум, равном 0 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 87% (в том числе менее 1,5% - 57%). При отношении сигнал/шум, равном -3 дБ, количество временных отсчетов, на которых ЧОТ определена с погрешностью менее 3,5%, составило 61% (в том числе менее 1,5% - 33%).

В четвертой главе представлена программная реализация разработанных модели и алгоритмов. Приведена структура программного комплекса по исследованию речевого сигнала. Обоснована возможность применения комплекса в исследованиях, направленных на получение параметров речевого сигнала, позволяющих определить изменения органов речеобразования, характерных для рака гортани различных стадий.

Приведена классификация рака гортани на стадии заболевания, исходя из его распространенности, по системе TNM.

Представлены результаты исследований речевых сигналов онкологических больных на разных стадиях заболевания. При более детальном анализе параметров речевого сигнала больных раком гортани, данный программный комплекс может служить основой для создания программ, проводящих диагностику наличия заболеваний, которые вызывают изменения в голосообразующем тракте (в том числе рака гортани), а также программ, позволяющих производить контроль качества проводимого лечения при лучевой и химиотерапии. На сегодняшний день методы, при помощи которых производится оценка размеров опухоли, либо недостаточно точны (зеркальная ларингоскопия), либо требуют дополнительного дорогостоящего оборудования, а иногда не могут применяться слишком часто (томография, рентген).

Рисунок 9. Структура программного комплекса на уровне блоков Программный комплекс по исследованию речевого сигнала состоит из программно реализованных модулей, объединенных в шесть блоков:

Блок создания файлов для обработки речевого сигнала:

1. модуль расчета весовых функций hc(t,k) (4) и hs(t,k) (5);

2. модуль расчета весовой функции одновременной маскировки W0(k, ki);

3. модуль формирования набора масок Pм(k) на основе W0(k, ki );

Блок предварительной обработки речевого сигнала состоит из двух модулей, параллельно совершающих свертку речевого сигнала S(t) с весовыми функциями системы фильтров hc(t, k) и hs(t, k) (6).

Блок выделения параметров речевого сигнала подразделяется на:

1. модуль вычисления массива значений интенсивностей I(t, k) (11);

2. модуль вычисления массива значений мгновенных частот F(t, k) (12).

Блок выделения вокализованных участков речевого сигнала:

1. модуль одновременной маскировки речевого сигнала (9);

2. модуль определения наличия периодической структуры на одном временном отсчете речевого сигнала (13);

3. модуль сегментации речевого сигнала по наличию голосового источника (рис. 3).

Блок выделения параметров вокализованных сегментов речевых сигналов подразделяется на:

1. модуль вычисления номеров каналов kn, соответствующих частотам гармоник основного тона;

2. модуль выделения массива значений интенсивностей гармоник основного тона In(t, kn);

3. модуль выделения массива значений мгновенных частот гармоник основного тона Fn(t, kn);

4. модуль вычисления величины девиации частоты основного тона.

Блок визуализации параметров речевого сигнала позволяет сохранять полученные графики как в автоматическом, так и в ручном режиме.

Модули, входящие в блок визуализации:

1. модуль визуализации частоты гармоник основного тона речевого сигнала – Fn(t, kn);

2. модуль визуализации интенсивностей гармоник основного тона речевого сигнала – In(t, kn);

3. модуль визуализации относительных интенсивностей гармоник основного тона речевого сигнала, определяющихся как (14):

4. модуль визуализации энергии речевого сигнала на каждом временном отсчете;

5. модуль визуализации экстремумов интенсивностей речевого сигнала, позволяющий оценить частотное расположение максимумов спектра для исследования невокализованных сегментов речевого сигнала.

В исследованиях речевых сигналов больных с различными стадиями рака гортани использовались следующие параметры:

1. наличие вокализации звуков;

2. частота основного тона;

3. интенсивность основного тона;

4. динамика изменения частоты основного тона;

5. девиация частоты основного тона;

6. динамика изменения интенсивности основного тона;

7. отношение интенсивности гармоник к интенсивности основного тона.

Были выявлены закономерности, представленные в табл. 4.

2 стадия нестабильная или повышенная нестабильная В заключении приведены основные научные и практические результаты диссертационной работы.

1. Обоснован подход к моделированию механизмов восприятия звуковых сигналов.

2. Установлены зависимости между шириной критических полос и частотной шкалой восприятия.

3. Разработаны алгоритмы и численные методы одновременной маскировки, измерения мгновенной частоты и интенсивности сигнала.

4. Разработан алгоритм сегментации речевого сигнала по наличию голосового источника, позволяющий достичь надежности 0,89-0,93.

5. Разработаны алгоритм и численные методы измерения ЧОТ, позволяющие обеспечить погрешность не более 0,6%.

6. Разработанные алгоритмы измерения частоты и интенсивности гармоник основного тона позволяют использовать их для создания систем диагностики заболеваний речеобразующих органов, в том числе рака гортани.

Основные результаты диссертации опубликованы в следующих работах:

В рецензируемых ВАК журналах:

1. Конев А. А. Обработка речевых сигналов в задачах идентификации / В.

П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Известия ВУЗов «Физика», 2006. – Т. 49 – Вып.9. – С. 207-210.

2. Конев А. А. Особенности речевого сигнала при опухоли гортани / Л.

Н. Балацкая, А. Н. Квасов, А. А. Конев, С. Ю. Чижевская, Е. Л.

Чойнзонов // Известия ВУЗов «Физика», 2006. – Т. 49 – Вып.9. – С. 290Конев А. А. Математическое и программно-алгоритмическое обеспечение в задачах идентификации и распознавания речи / В. П.

Бондаренко, А. А. Конев, Р. В. Мещеряков, А. А. Шелупанов // Вестник СибГАУ. – Красноярск, 2006. – С. 11-14.

В других изданиях:

4. Konev A. A. Allocation speech vocal sounds / V. P. Bondarenko, A. A.

Konev, R. V. Mescheriakov // Interactive Systems And Technologies: The Problems of Human – Computer Interaction. Collection of scientific papers. Ulyanovsk: UlSTU, 2005. – P. 213-217.

5. Конев А. А. Параметрическое описание сегментов речевого сигнала / В. И. Голубев, А. А. Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – С. 113Конев А. А. Выделение ключевых слов / А. А. Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск:

Издательство ТУСУРа, 2005. – С. 128-130.

7. Конев А. А. Сегментация речевого сигнала / Д. Н. Великоцкий, А. А.

Конев // Научная сессия ТУСУР – 2005: Материалы Всероссийской научно-технической конференции студентов, аспирантов и молодых специалистов – Томск: Издательство ТУСУРа, 2005. – С. 208-210.

8. Конев А. А. Сегментация речевого сигнала / А. А. Конев, А. А.

Пономарёв // Сборник трудов XVI сессии Российского акустического общества. Том III – М.: ГЕОС, 2005. – С. 44-47.

9. Конев А. А. Выделение вокализованных звуков в слитной речи / А. А.

Конев, В. И. Тихонова // Сборник трудов XVI сессии Российского акустического общества. Том III – М.: ГЕОС, 2005. – С. 47-50.

10. Конев А. А. Сопоставительный анализ звукового строя речевых сигналов / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 102-107.

11. Конев А. А. Параметрическое описание гласных звуков / А. А. Конев // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 108-111.

12. Конев А. А. Особенности структуры вокализованных звуков в слитной речи / В. П. Бондаренко, А. А. Конев, Р. В. Мещеряков // Интеллектуальные системы в управлении, конструировании и образовании. – Томск, 2006. – Вып.5. – С. 111-116.

13. Konev A. A. Biologic feedback formation by vocal rehabilitation / L.

Balatskaya, V. Bondarenko, E. Choynzonov, A. Konev, R. Mescheriakov // Proceedings of the 11th International Conference “Speech and Computer” SPECOM’06. – St. Petersburg, 2006. – P. 251-257.

14. Конев А. А. Особенности речевого сигнала у больных с опухолью гортани / Л. Н. Балацкая, А. А. Конев, Е. Л. Чойнзонов // Сборник трудов XVII сессии Российского акустического общества. Том III – М.: ГЕОС, 2006. – С. 5-8.

15. Конев А. А. Программный комплекс для исследования речи / А. А.

Конев, Е. Ю. Костюченко, А. А. Пономарев // Сборник трудов XVII сессии Российского акустического общества. Том III – М.: ГЕОС, 2006. – С. 23-27.





Похожие работы:

«Хизбуллина Радмила Радиковна МОЛОДОЙ СПЕЦИАЛИСТ: ОСОБЕННОСТИ СОЦИАЛЬНОПРОФЕССИОНАЛЬНОЙ СОЦИАЛИЗАЦИИ Специальность 22.00.04 – социальная структура, социальные институты и процессы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата социологических наук Казань – 2012 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении Казанский государственный энергетический университет. Научный руководитель : Хайруллина Юлдуз Ракибовна доктор...»

«УДК 517.982.256 515.124.4 Беднов Борислав Борисович КРАТЧАЙШИЕ СЕТИ В БАНАХОВЫХ ПРОСТРАНСТВАХ Специальность 01.01.01 вещественный, комплексный и функциональный анализ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва 2014 Работа выполнена на кафедре теории функций и функционального анализа механико-математического факультета Московского...»

«УДК 517 Шамаров Николай Николаевич ПРЕДСТАВЛЕНИЯ ЭВОЛЮЦИОННЫХ ПОЛУГРУПП ИНТЕГРАЛАМИ ПО ТРАЕКТОРИЯМ В ВЕЩЕСТВЕННЫХ И p-АДИЧЕСКИХ ПРОСТРАНСТВАХ 01.01.01 вещественный, комплексный и функциональный анализ Автореферат диссертации на соискание ученой степени доктора физико-математических наук Москва 2011 Работа выполнена на кафедре математического анализа механико-математического...»

«Киладзе Иракли Зурабович АОРТОКОРОНАРНОЕ ШУНТИРОВАНИЕ БЕЗ ИСКУССТВЕННОГО КРОВООБРАЩЕНИЯ ПРИ КОМОРБИДНЫХ ЗАБОЛЕВАНИЯХ 14.01.26 сердечно-сосудистая хирургия Автореферат диссертации на соискание ученой степени кандидата медицинских наук Москва 2014 Работа выполнена в Федеральном государственном бюджетном учреждении Российский научный цент хирургии имени академика Б.В. Петровского РАМН. Научный руководитель : Доктор медицинских наук, профессор Жбанов Игорь Викторович Официальные...»

«Скворцова Мария Юрьевна ПРИМЕНЕНИЕ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ ДЛЯ РАСПРЕДЕЛЕНИЯ ЛОГИСТИЧЕСКИХ ЗАТРАТ ТОРГОВОЙ КОМПАНИИ Специальность: 08.00.13 – Математические и инструментальные методы экономики АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва - 2007 2 Диссертационная работа выполнена на кафедре экономической кибернетики Государственного университета управления. Научный руководитель – кандидат технических наук, доцент Алексеев Юрий...»

«Доев Казбек Константинович СИСТЕМА СОЦИАЛЬНОЙ ЗАЩИТЫ НАСЕЛЕНИЯ И МЕТОДЫ ЕЕ СОВЕРШЕНСТВОВАНИЯ Специальность: 08.00.01 – Экономическая теория АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Владикавказ 2011 Работа выполнена в ГОУ ВПО Северо-Осетинский государственный университет им. К.Л. Хетагурова Научный руководитель : доктор экономических наук, профессор Токаева Татьяна Ивановна Официальные оппоненты : доктор экономических наук, профессор...»

«Ануфриева Нина Валерьевна ИСТОРИЧЕСКАЯ МЫСЛЬ РУССКОГО ЗАРУБЕЖЬЯ 20-30-Х ГГ. ХХ В. О МОНГОЛЬСКОМ ВЛАДЫЧЕСТВЕ НА РУСИ 07.00.09 – историография, источниковедение и методы исторического исследования Автореферат диссертации на соискание ученой степени кандидата исторических наук Томск – 2008 Работа выполнена на кафедре социально-гуманитарных дисциплин ГОУ ВПО Сургутский государственный педагогический университет Научный руководитель : доктор исторических наук, профессор Худяков...»

«ЯХИНА ИРИНА АЙРАТОВНА РАЗВИТИЕ ТЕОРИИ И МЕТОДИК ИНТЕРПРЕТАЦИИ В ЗОНДИРОВАНИЯХ МЕТОДОМ ПЕРЕХОДНЫХ ПРОЦЕССОВ ПРИ ИЗУЧЕНИИ ГЕОЭЛЕКТРИКИ СЛАБОКОНТРАСТНЫХ СРЕД Специальность 25.00.10 – Геофизика, геофизические методы поисков полезных ископаемых АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата геолого-минералогических наук Екатеринбург, 2014 Работа выполнена в ОАО НПП Научно-исследовательский и проектноконструкторский институт геофизических исследований...»

«Андреев Максим Валентинович ПОЛИТИКО-ПРАВОВЫЕ ИНСТИТУТЫ ОБЕСПЕЧЕНИЯ НАЦИОНАЛЬНОЙ И КОЛЛЕКТИВНОЙ БЕЗОПАСНОСТИ НА СОВРЕМЕННОМ ЭТАПЕ РАЗВИТИЯ Специальность 23.00.02 – политические институты, этнополитическая конфликтология, национальные и политические процессы и технологии АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора юридических наук Казань 2009 Работа выполнена на кафедре права, истории и политологии Академии государственного и муниципального управления при...»

«Половнев Антон Леонидович Оптимизация плана эксперимента в задаче определения координат места пробоя гермооболочки пилотируемого космического аппарата Специальность: 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание учёной степени кандидата физико-математических наук Москва 2011 Работа выполнена в открытом акционерном обществе Ракетнокосмическая корпорация Энергия имени С.П.Королёва. кандидат технических наук...»

«МУСИЕНКО Юрий Васильевич РАЗРАБОТКА И ИССЛЕДОВАНИЕ ЛАВИННЫХ ФОТОДИОДОВ ДЛЯ ЭЛЕКТРОМАГНИТНОГО КАЛОРИМЕТРА ЭКСПЕРИМЕНТА “КОМПАКТНЫЙ МЮОННЫЙ СОЛЕНОИД” 01.04.01 – приборы и методы экспериментальной физики АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2008 Работа выполнена в Институте ядерных исследований Российской академии наук Научный руководитель : доктор физико-математических наук, профессор Ю.Г. Куденко Официальные...»

«Нво-Нво Нсанг Биенвенидо Бруно ОСОБЕННОСТИ ПРИВЛЕЧЕНИЯ ИНОСТРАННЫХ ИНВЕСТИЦИЙ В ЭКОНОМИКУ СТРАН ЦЕНТРАЛЬНОЙ АФРИКИ Специальность: 08.00.14 – Мировая экономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва – 2007 2 Работа выполнена на кафедре мировой экономики Государственного университета управления Научный руководитель : кандидат экономических наук, профессор Антонов Валерий Александрович Официальные оппоненты : доктор экономических...»

«ПЕСКИШЕВ Сергей Александрович ПРИМЕНЕНИЕ МАРТЕНСИТНОСТАРЕЮЩИХ СТАЛЕЙ ДЛЯ ПОВЫШЕНИЯ НАДЕЖНОСТИ ВЫСОКОПРОЧНЫХ КРЕПЕЖНЫХ ЭЛЕМЕНТОВ, РАБОТАЮЩИХ В МОРСКИХ УСЛОВИЯХ ПРИ НИЗКИХ КЛИМАТИЧЕСКИХ ТЕМПЕРАТУРАХ Специальность 05.16.01.- Металловедение и термическая обработка металлов и сплавов АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург-2011 г ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы Развитие морской техники в условиях увеличения...»

«Таныгина Елена Александровна ОБРАЗ ЦВЕТА В СОЗНАНИИ НОСИТЕЛЯ ЯЗЫКА Специальность 10.02.19 – теория языка АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук Курск – 2012 Работа выполнена на кафедре иностранных языков Федерального государственного бюджетного образовательного учреждения высшего профессионального образования Юго-Западный государственный университет Научный руководитель : доктор филологических наук, профессор Мягкова Елена Юрьевна...»

«Сухов Игорь Владимирович Арбитражные суды в механизме конституционно-правовой защиты прав и свобод субъектов экономической деятельности: вопросы теории и практики Специальность: 12.00.02 – конституционное право; муниципальное право АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Челябинск 2011 Работа выполнена на кафедре теории государства и права и конституционного права ГОУ ВПО Челябинский государственный университет доктор юридических наук,...»

«КУРБАТОВ АЛЕКСАНДР ВАЛЕНТИНОВИЧ КОЖЕВЕННОЕ РЕМЕСЛО В СРЕДНЕВЕКОВОЙ РОССИИ 07.00.06 – археология Автореферат на соискание ученой степени доктора исторических наук Санкт-Петербург 2012 2 Работа выполнена в Институте истории материальной культуры Российской Академии Наук Официальные оппоненты : доктор исторических наук, профессор Белавин Андрей Михайлович доктор исторических наук Кочкуркина Светлана Ивановна доктор исторических наук, профессор Свердлов Михаил Борисович Ведущая...»

«Калимуллина Нейля Рафаэльевна ВОЗМОЖНОСТИ И МЕХАНИЗМЫ ВОЗДЕЙСТВИЯ ВЛАСТИ НА ЦЕННОСТНЫЕ ОРИЕНТИРЫ ОБЩЕСТВА Специальность 09.00.11 – Социальная философия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата философских наук Томск - 2010 Работа выполнена на кафедре онтологии, теории познания и социальной философии государственного образовательного учреждения высшего профессионального образования Томский государственный университет Научный руководитель : доктор...»

«Галиуллина Рамиля Рамилевна УПРАВЛЕНИЕ РАЗВИТИЕМ РЕГИОНАЛЬНОГО РЫНКА РЫБОПРОДУКЦИИ Специальность 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами – АПК и сельское хозяйство; региональная экономика) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Ижевск – 2009 Работа выполнена в ФГОУ ВПО Башкирский государственный аграрный университет Научный руководитель : доктор...»

«ВАРЕПО ЛАРИСА ГРИГОРЬЕВНА МЕТОДОЛОГИЯ ПРОГНОЗИРОВАНИЯ КАЧЕСТВА ОФСЕТНОЙ ПЕЧАТИ С УЧЕТОМ МИКРОГЕОМЕТРИИ ПОВЕРХНОСТИ ЗАПЕЧАТЫВАЕМЫХ МАТЕРИАЛОВ Специальность 05.02.13 – Машины, агрегаты и процессы (печатные средства информации). АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора технических наук Москва – 2014 2 Работа выполнена в ФГБОУ ВПО Московский государственный университет печати имени Ивана Федорова и в ФГБОУ ВПО Омский государственный технический университет...»

«ХАДЖИЕВ Сайдхасан Магомедович РАЗВИТИЕ ПОЗНАВАТЕЛЬНОГО ПОТЕНЦИАЛА УЧАЩИХСЯ СТАРШИХ КЛАССОВ ОБЩЕОБРАЗОВАТЕЛЬНОЙ ШКОЛЫ 13.00.01 – общая педагогика, история педагогики и образования Автореферат диссертации на соискание ученой степени кандидата педагогических наук Челябинск – 2011 Работа выполнена в Государственном образовательном учреждении дополнительного профессионального образования Челябинский институт переподготовки и повышения квалификации работников образования доктор...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.