WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«МОДЕЛИ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАСПОЗНАВАНИЯ РУССКОЙ РЕЧИ НА ОСНОВЕ МОРФЕМНОГО АНАЛИЗА ...»

-- [ Страница 1 ] --

Санкт-Петербургский институт информатики и автоматизации

Российской академии наук

На правах рукописи

КАРПОВ

Алексей Анатольевич

МОДЕЛИ И ПРОГРАММНАЯ РЕАЛИЗАЦИЯ РАСПОЗНАВАНИЯ

РУССКОЙ РЕЧИ НА ОСНОВЕ МОРФЕМНОГО АНАЛИЗА

Специальность 05.13.11 – Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель:

к.т.н. Ронжин А.Л.

Санкт-Петербург -

СОДЕРЖАНИЕ

Введение

Положения, выносимые на защиту:

Глава 1. Анализ требований и подходов к автоматическому распознаванию речи

1.1. Основные требования к современным системам распознавания речи..... 1.2. Базовые подходы к автоматическому распознаванию речи

1.3. Распознавание речи на основе вероятностных моделей

1.3.1. Признаковое описание речевого сигнала

1.3.2. Акустико-фонетическое моделирование речи

1.3.3. Статистическое моделирование языка предметной области

1.3.4. Метод распознавания слитной речи

1.4. Обзор моделей распознавания русской речи

Выводы по главе 1

Глава 2. Модель обучения распознавателя русской речи с морфемным представлением языка

2.1. Особенности разработки модели распознавания русской речи................. 2.2. Архитектура модели обучения с включением морфемного анализа русского языка

2.3. Подготовка текстовых и речевых баз данных модели обучения............... 2.4. Декомпозиция слов предметной области на морфемы

2.5. Создание и оценка морфемной модели языка

2.6. Фонетическое транскрибирование обучающих текстов

2.6.1. Выбор фонетического алфавита

2.6.2. Фонетическое транскрибирование текста

2.7. Создание и обучение моделей акустико-фонетических единиц речи....... Выводы по главе 2

Глава 3. Модель распознавания русской речи с морфемным уровнем обработки

3.1. Выделение речи в звуковом сигнале методом анализа спектральной энтропии

3.1.1. Математическая основа метода

3.1.2. Экспериментальная проверка метода

3.2. Выбор метода признакового описания речи

3.2.1. Спектрально-разностные признаки речевого сигнала

3.2.2. Оценка систем параметрического представления речи

3.3. Метод распознавания русской слитной речи с включением морфемной обработки языка и речи

Выводы по главе 3

Глава 4. Программная реализация модели распознавания русской речи.. 4.1. Архитектура программной реализации модели распознавания русской речи SIRIUS

4.2. Модель голосового доступа к электронному справочному каталогу....... 4.2.1. Описание модели голосового доступа к каталогу

4.2.2. Сравнение моделей распознавания русской речи по точности распознавания

4.2.3. Сравнение моделей распознавания русской речи по скорости обработки

4.3. Модель бесконтактного управления компьютером

4.3.1. Архитектура модели

4.3.2. Модуль распознавания голосовых команд оператора

4.3.3. Эксперименты с моделью бесконтактной работы с компьютером......... Выводы по главе 4

Заключение

Литература

Введение Актуальность темы диссертации. Вопросами автоматического распознавания речи ученые стали заниматься с момента появления первых компьютеров, поскольку текстовый командный интерфейс взаимодействия с ЭВМ не обеспечивал приемлемой скорости и естественности работы. За многие годы исследований был разработан широкий спектр методов и компьютерных программ, направленных на решение проблем распознавания речи.

Сегодня получены многообещающие результаты и созданы действующие коммерческие системы, в основном, для английского языка, а также испанского, французского, японского, китайского и арабских языков. Это во многом связано с экономическими и политическими аспектами развития речевых технологий. Например, английский язык является наиболее распространенным и поэтому инвестиции в развитие технологий для автоматизированной обработки английской речи окупились достаточно быстро.

В то же время речевым технологиям других языков уделяется недостаточно внимания, вследствие чего их развитие несколько сдерживается.

Между тем, русский язык является одним из самых популярных языков мира, на нем говорит свыше двадцати процентов населения Европы. Несмотря на это, действующих систем автоматического распознавания русской слитной речи фактически не существует. Кроме экономических проблем, на развитие Российских речевых технологий, в первую очередь, влияют особенности русского языка и речи, вызывающие сложности в процессе обработки.

Основные из них: отсутствие строгих грамматических конструкций построения предложений, а также многочисленные правила словообразования, фонетического представления слов и расстановки ударений с большим количеством исключений.

Для оценки эффективности разрабатываемых систем автоматического распознавания речи применяют много показателей, интегральными же критериями оценки производительности таких систем служат точность распознавания речи (звуков, слов или фраз) и скорость обработки речевого сигнала. В идеальном случае система должна обеспечивать практически 100% точность распознавания речи при мгновенном выводе результата. Тем не менее, учитывая ограниченные возможности существующих вычислительных компромисс между точностью и скоростью обработки.



Для улучшения характеристик распознавания русской слитной речи (в дополнительный морфемный уровень описания языка и речи, который вводится обеспечивается акустико-лексическое моделирование большого количества распознавания, что позволяет улучшить производительность и другие характеристики модели распознавания русской речи. Данный подход может быть также успешно использован и для других синтетических языков, например языков славянской группы (чешский, польский, украинский, белорусский, и т.д.), имеющих сходные с русским языком механизмы словообразования.

Цель работы и задачи исследования. Основной целью диссертационной работы является разработка модели дикторонезависимого распознавания русской слитной речи с большим словарем, которая обеспечивает ускорение процесса обработки речи при сохранении точности распознавания. Для достижения поставленной цели в ходе диссертационной работы поставлены и решены следующие задачи:

1. Анализ подходов к распознаванию английской и русской речи.

2. Выбор языковых единиц, наиболее подходящих для распознавания русской речи с большим словарем.

3. Разработка методов для модели обучения распознавателя русской речи, учитывающего специфику и морфологические особенности русского 4. Разработка методов для модели распознавания русской речи с морфемным уровнем обработки языка и речи.

Методы исследования. Для решения поставленных задач в работе используются методы теории информации, теории множеств, теории вероятности, экспертного и статистического анализа. Компьютерная реализация разработанных алгоритмов производилась на основе объектноориентированного подхода.

Научная новизна работы состоит в следующем:

1. Разработана модель обучения распознавателя русской речи, включающая блоки создания акустических моделей русских фонем, декомпозиции словоформ языка и создания словаря лексических единиц с размером меньше слова (морфем), а также морфемной статистической модели языка прикладной области.

2. Разработана модель автоматического распознавания слитной русской речи, учитывающая механизмы словообразования и морфологические характеристики лексики русского языка и позволяющая существенно ускорить процесс распознавания за счет сокращения размера словаря.

3. Создана программная реализация распознавателя русской слитной речи с большим словарем SIRIUS, содержащая морфемный уровень обработки.

Обоснованность и достоверность научных положений, основных выводов и результатов диссертации обеспечивается за счет тщательного анализа состояния исследований в данной области, подтверждается корректностью предложенных моделей, алгоритмов и согласованностью результатов, полученных при компьютерной реализации, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на международных научных конференциях.

Практическая ценность работы. Разработанные модели, алгоритмы и программные реализации направлены на разрешение проблемы распознавания русской речи с большим словарем, возникающую из-за богатых механизмов словообразования и морфологических характеристик русского языка.

Предложенная модель обучения морфемного распознавателя русской речи позволяет на выходе получить три основных компонента, необходимых для функционирования модели распознавания: морфемный распознаваемый словарь с соответствующими фонетическими транскрипциями, статистическую морфемную модель языка предметной области и модели акустических фонетических единиц речи. Причем, за счет введения в модель уровня морфемного представления сокращается размер распознаваемого словаря, так как в процессе словообразования часто используются одни и те же морфемы, а также обеспечивается более полное покрытие пространства слов языка.

Разработанная модель распознавания речи, основанная на стохастическом моделировании речи посредством скрытых Марковских моделей и статистическом n-граммном моделировании языка предметной области с введением дополнительного уровня морфемного распознавания и синтеза слов, позволяет производить процесс распознавания с приемлемой точностью, обеспечив при этом значительный рост скорости обработки и устойчивости к синтаксическим отклонениям произнесенной фразы в ходе человекомашинного взаимодействия по сравнению с традиционной целословной моделью распознавания речи.

диссертации, проведены в рамках научно-исследовательских работ: ЕС FP6IST-2002-507609 SIMILAR Network of Excellence «The European taskforce creating human-machine interfaces SIMILAR to human-human communication»;

INTAS № 04-77-7404 «Development of multi-voice and multi-language Text-toSpeech (TTS) and Speech-to-Text (STT) conversion system (languages: Belarussian, Polish, Russian)» и INTAS № 05-1000007-426 «Introduction of the automatic Russian speech recognition system SIRIUS in telecommunications»; ОИТВС РАН 4.2 «Разработка дикторонезависимых инфотелекоммуникационных приложений»; СПб НЦ РАН № М06-2.1К-29 «Разработка методов и программного обеспечения для дикторонезависимого распознавания русской речи с большим словарем».

Кроме того, результаты работы использованы при разработке средств голосового доступа к рубрикатору электронного каталога «Желтые Страницы»

в рамках инновационного проекта совместно с компанией «NewVoice».

Апробация результатов работы. Основные положения и результаты диссертационной работы представлялись на Международных конференциях:

«Interspeech – ICSLP 2006» (США, 2006); «Европейской конференции по обработке сигналов» EUSIPCO (Италия, 2006; Турция, 2005); «Intelligent Information Processing and Web Mining» (Польша, 2005); «Интеллектуальные многопроцессорные системы. Искусственный интеллект» (Украина, 2006;

Россия, 2005); «Речь и Компьютер» SPECOM (Санкт-Петербург, 2006, 2004, 2002; Греция, 2005; Москва, 2003).

Публикации. Основные результаты по материалам диссертационной работы опубликованы в 24 печатных работах, в том числе в трех журналах ВАК («Известия ТРТУ», «Известия вузов. Приборостроение» и «Pattern Recognition and Image Analysis») и монографии серии «Информатика: неограниченные возможности и возможные ограничения» издательства «Наука».

Структура и объем работы. Диссертация объемом 129 машинописных страниц, содержит введение, четыре главы и заключение, список литературы (121 наименование), 8 таблиц, 44 рисунка.

Основные результаты. В ходе исследований, представленных в диссертации, были получены следующие основные результаты:

1. Разработана модель обучения распознавателя русской слитной речи с большим словарем с включением морфемного уровня анализа русского языка, что позволяет значительно сократить распознаваемый словарь автоматическую обработку речи.

2. Разработана модель автоматического распознавания русской слитной речи с морфемным уровнем обработки языка и речи, использующая предложенный метод композиции слов из цепочек распознанных морфем.

3. Произведено сравнение реализованных целословной, морфемной, слоговой и фонемной моделей автоматического распознавания русской речи по критериям точности распознавания на уровне фонем, слов и фраз, а также времени распознавания фраз. Выявлен существенный рост скорости обработки для морфемной модели при незначительном падении точности распознавания.

4. Создана программная реализация дикторонезависимого распознавания русской слитной речи, включающая в себя модели обучения и распознавания русской речи, а также модули для записи речевых данных и анализа гипотез и результатов распознавания речи.

5. Разработанные в диссертации методы и модели были реализованы в диалоговой модели голосового доступа к электронному справочному каталогу и многомодальной модели бесконтактного управления персональным компьютером.

Таким образом, в результате проведенных автором исследований предложено решение актуальной проблемы повышения производительности модели автоматического распознавания русской речи с большим словарем, что способствует внедрению технологий автоматического распознавания русской речи в различные области человеко-машинного взаимодействия.

В первой главе диссертации представлен анализ состояния дел в области автоматического распознавания речи в целом, а также сделан обзор существующих систем для русской речи, начиная с советских времен по настоящее время. Отмечается, что сейчас не существует готовых к использованию систем дикторонезависимого распознавания русской речи с большим словарем.

Во второй главе приводится описание модели обучения распознавателя русской речи с применением морфемного представления словаря и модели языка. Это позволяет значительно сократить размер словаря языковых единиц и улучшить производительность модели. Приведено сравнение моделей языка, основанных на различных языковых единицах (словах, морфемах, слогах) по размеру словаря распознавания и проценту непокрытых слов в тестовом материале. Получены результаты, показывающие преимущество слоговой и морфемной моделей языка перед целословной моделью.

Третья глава описывает разработанную автором модель распознавания русской слитной речи с большим словарем с применением морфемного уровня обработки. Приведено описание и оценка предложенных методов параметрического спектрально-разностного представления речевого сигнала и выделения полезной речи методом анализа функции энтропии спектра звукового сигнала. Приводится результат сравнения целословной, морфемной, слоговой и фонемной моделей распознавания речи по двум основным критериям: точности и времени распознавания.

В четвертой главе приводятся данные по реализации разработанных алгоритмов в экспериментально-исследовательских моделях, использующих слитный ввод русской речи. Модели обучения и распознавания русской речи, а также модули для записи речевых баз данных и оценки результатов распознавания объединены в единую программную реализацию дикторонезависимого распознавания русской слитной речи SIRIUS. Эта программная реализация использована для создания модели голосового доступа к рубрикатору электронного справочного каталога «Желтые страницы», а также модели бесконтактного управления компьютером, где вместо клавиатуры и мыши для управления компьютером используется голосовой ввод и движения головы оператора.

Положения, выносимые на защиту:

1. Модель обучения распознавателя русской речи с морфемным представлением распознаваемого словаря и модели языка.

2. Модель распознавания русской речи с морфемным уровнем обработки 3. Программная реализация модели дикторонезависимого распознавания русской слитной речи с большим словарем.

Глава 1. Анализ требований и подходов к автоматическому распознаванию речи Процесс автоматического распознавания речи представляет собой преобразование акустического сигнала, полученного от микрофона, в последовательность слов, которая затем может использоваться для понимания смысла речевого высказывания.

В первой главе диссертации приведен анализ основных требований, предъявляемых к системам распознавания речи, представлена базовая архитектура системы автоматического распознавания речи, опирающаяся на стохастические модели, а также сделан обзор существующих моделей распознавания русской речи.

1.1. Основные требования к современным системам распознавания речи Задача распознавания речи характеризуется многими параметрами, в первую очередь, это свойства канала передачи речи, размер словаря, вариативность речи, уровень окружающего шума, тип ввода речи (изолированная/слитная) [37].

Для распознавания изолированных слов необходимо, чтобы диктор делал короткие паузы между словами, что замедляет ввод и ухудшает естественность, в то время как при вводе слитной речи этого не требуется. В отличие от печатного текста или от искусственных сигналов естественная речь не допускает простого и однозначного членения на элементы (фонемы, слова, фразы), поскольку эти элементы не имеют явных физических границ. Они вычленяются в сознании слушателя – носителя данного языка в результате сложного многоуровневого процесса распознавания и понимания речи [66].

Если попросить слушателя записать в виде фонем незнакомую иностранную речь, то он совершит множество ошибок членения слов и фраз, т.е. даже человек не может членить речь без использования знаний лексики, грамматики, смысла. Границы слов могут быть определены лишь в процессе распознавания, посредством подбора оптимальной последовательности слов, наилучшим образом согласующейся с входным потоком речи по акустическим и лингвистическим критериям.

Сложность проблемы распознавания речи, главным образом, связана с вариативностью ее основных параметров, на которые влияет множество факторов. Прежде всего, это случайная компонента процесса речеобразования, которая приводит к многообразию описаний одного и того же слова, произнесенного одним и тем же диктором. Более существенная вариативность связана с индивидуальными различиями речевых аппаратов разных дикторов.

Тут нужно также отметить влияние пола диктора, возрастных различий, диалектов, эмоционального и физического состояния диктора. Кроме того, значительное влияние вносит акустический аспект, т.е. смена микрофона, расположение его относительно рта, акустическая обстановка в помещении.

Точность распознавания существенно ухудшается с увеличением словаря, так как при этом, появляются группы акустически подобных слов, что приводит к акустической неоднозначности, причем она экспоненциально усиливается с ростом словаря. Существует несколько возможных классификаций размера распознаваемого словаря. Согласно [9] малым словарем считается словарь, содержащий единицы и десятки слов. Задач и приложений, где используется последовательностей цифр (номеров телефонов) [78]; системы речевого командного управления подвижными техническими объектами (автомобилем, самолетом, и т.д.) [94], системы дистанционного управления роботами [63, 31], системы управления оборудованием (например, медицинским) [112] и т.д.

Средний распознаваемый словарь содержит сотни слов. Такого словаря достаточно для большинства диалоговых или запросно-ответных систем [22, 114]. Большой словарь начиняется от тысяч слов [9], такие системы распознавания могут использоваться в автоматизированных справочных системах или системах диктовки в ограниченной предметной области. Словарь размером свыше сотни тысяч слов считается сверхбольшим [86] и он позволяет реализовывать системы стенографии практически любого текста (для аналитических языков).

При работе с реальной диалоговой системой или при вводе текста голосом пользователь хочет получить ответ от системы незамедлительно, он не готов ждать даже несколько секунд, поэтому система, распознающая речь должна работать в режиме реального времени без существенных задержек в ответе. Конечно, существуют задачи распознавания, где время реакции не играет существенной роли, например преобразование в текст архивных звуковых записей [105], но число таких приложений очень невелико.

Таким образом, наиболее важными требованиями, которым должны стремиться удовлетворить современные системы автоматического распознавания речи, являются: слитный ввод речи, дикторонезависимость, способность распознавать большое количество слов и высокое быстродействие системы.

Крайне важной задачей является многокритериальное оценивание таких сложных интеллектуальных систем, как системы распознавания речи, и обоснованный выбор оптимальных моделей и их параметров [104, 62]. Для оценки эффективности разрабатываемых систем автоматического распознавания речи применяют целый ряд критериев на каждом из уровней обработки речи, среди них два критерия являются интегральными: точность распознавания и время реакции (ответа) системы. Идеальная автоматическая система должна мгновенно выдавать безошибочный результат. Компьютерные системы в ближайшие годы не смогут достичь таких показателей, но должны стремиться к производительности биологического прототипа (человека).

1.2. Базовые подходы к автоматическому распознаванию последовательности моделей слов, которая наиболее вероятна (правдоподобна) обрабатываемому речевого сигналу. Анализ обзорных статей ведущих мировых ученых [84, 83, 79, 113] показал, что в настоящее время практически все системы автоматического распознавания речи строятся на основе нескольких базовых подходов (рисунок 1.1): скрытые Марковские модели, искусственные нейронные сети, динамическое программирование.

Рис. 1.1. Базовые подходы к автоматическому распознаванию речи Долгое время подход на основе динамического программирования (ДП) был доминирующим. Он позволяет производить сравнение речевого фрагмента с созданным заранее эталоном слова. Для того чтобы сравнить слово с эталоном, надо путем деформации оси времени совместить участки, соответствующие одним и тем же звукам, измерить остаточные различия между ними и просуммировать эти частные расстояния, взятые с некоторыми весовыми коэффициентами. Задача ДП сводится к поиску оптимального нелинейного согласования двух отрезков речи. Для этого широко использовались алгоритмы ДП, базирующиеся на фундаментальных работах Р. Беллмана [4]. Одна из первых публикаций по применению ДП в распознавании речи принадлежит украинскому ученому Т.К. Винцюку [8].

Существует несколько подходов к распознаванию слитной речи методами ДП:

двухуровневый алгоритм динамического программирования, метод построения уровней (level-building) и однопроходный (one-pass) метод [106]. Алгоритмы используют одинаковые базовые принципы и отличаются вычислительной сложностью, объемом памяти и сложностью реализации. Недавно был также предложен метод распознавания слитной речи на основе ДП с применением анализа речи в скользящем окне и теории размытых множеств [36].

Основным недостатком подходов, основанных на ДП, является их дикторозависимость. Кроме того, каждый новый пользователь системы, перед тем как ее использовать, должен создать свои эталоны, т.е. наговорить все слова, которые присутствуют в словаре. Для повышения надежности распознавания при записи эталонов пользователю приходится повторять все слова по несколько раз. По этой причине такой подход сейчас используется лишь для приложений с малым словарем, например, вызов определенного абонента в мобильных телефонах или персонифицированное голосовое управление офисными программами.

Искусственные нейронные сети (ИНС) также используются при распознавании речи. Они представляют собой попытку использования процессов, происходящих в нервных системах биологических организмов. При правильно выбранной структуре сеть, натренированная на определенном наборе обучающих выборок, будет выдавать правильные результаты при подаче на ее вход данных, относящихся к тому же множеству, но непосредственно не участвующих в процессе обучения. На практике используются нейронные сети, имеющие один или несколько скрытых слоев нейронов между входом и выходом сети [29, 10]. В этом случае сложность сети определяется количеством нейронов в скрытом слое, так как количество нейронов во входном и выходном слоях фиксировано и зависит от условий задачи. Распространенным является подход, когда на входы нейронной сети подаются вектора признаков речевого сигнала, а выходы сети связаны с распознаваемым словарем (количество выходов равняется количеству слов в словаре). Нейронные сети способны обучаться на голосах нескольких дикторов, позволяя создавать дикторонезависимые системы распознавания, однако их применение для слитной речи затруднительно, так как при слитном вводе неизвестна заранее длительность речевого сигнала, а соответственно и количество векторов признаков, а также количество и порядок произнесенных слов, что значительно затрудняет создание и обучение сети. Однако нейронные сети иногда применяют в комбинированных со скрытыми Марковскими моделями системах распознавания речи [30]. В этом случае нейронные сети задействуются либо на уровне предобработки векторов признаков речи, либо на уровне постобработки текстов гипотез распознавания. Несмотря на высокий потенциал, ИНС в области распознавания речи пока не получили широкого применения, поскольку их обучение имеет большую сложность и требует больших вычислительных ресурсов.

В настоящее время наиболее популярным математическим аппаратом для автоматического распознавания речи являются скрытые Марковские модели (СММ) [25, 15]. Они довольно содержательны по своей математической структуре, поэтому стали теоретическим фундаментом для различных областей исследований случайных процессов, не только речи [26]. СММ позволяют решать задачи распознавания речи, а также улучшать качество сигнала, загрязненного шумами и искажениями, моделировать источник речевого сигнала, оптимизировать структуру диалога и др. Сейчас подавляющее большинство систем распознавания речи строится на основе СММ, так как для них предложены достаточно эффективные методы дикторонезависимого распознавания слитной речи.

К остальным технологиям, которые также исследуются для решения задачи автоматического распознавания речи можно отнести: Support Vector Machines [110], вейвлет анализ речи [11] и системы моделирования человеческого уха. Однако данные технологии не находят массового применения в современных системах распознавания речи.

1.3. Распознавание речи на основе вероятностных моделей На рисунке 1.2 показана общая схема распознавателя речи, построенного с использованием аппарата СММ [106]. Человек произносит некоторую фразу, которая представляет собой последовательность слов W = w1, …, wN. Задача системы распознавания речи заключается в том, чтобы правильно распознать эту последовательность слов. Однако в ходе распознавания могут возникать ошибки, поэтому результат может оказаться отличным от W, например W = w1, …,wM. Для параметрического описания речевого сигнала, он разделяется на короткие сегменты, которые затем преобразуются в вектора признаков O =o1, …,oT.

Рис. 1.2. Базовая архитектура системы дикторонезависимого Вычисленные вектора признаков и поступают в распознаватель речи, задача которого заключается в выборе гипотезы фразы с максимальной вероятностью, которая задается формулой Байеса [106]:

где P(W) и P(O|W) – вероятностные оценки модели языка и акустической модели речи соответственно. Эти модели создаются заранее в ходе процесса обучения, где входными данными являются текстовые и речевые корпуса.

Формула 1.1 определяет вероятность наступления события в условиях, когда на основе наблюдений известна лишь некоторая частичная информация о событиях.

Далее последовательно по уровням обработки сигнала описывается общепринятая архитектура дикторонезависимого распознавания слитной речи, использующая вероятностные и статистические методы моделирования речевого сигнала и языка предметной области.

1.3.1. Признаковое описание речевого сигнала разработчик речевых технологий – это разработка оптимального метода параметрического представления речевого сигнала, который позволил бы достаточно хорошо различать звуки и слова речи и в то же время обеспечивать инвариантность к особенностям произношения дикторов и к изменениям акустической обстановки. Из практики известно, что большинство ошибок распознавания слов происходит по причине вариаций громкости сигнала, которые происходят или из-за неточной фиксации микрофона, либо изменения громкости произношения. Другой частой причиной ошибок являются случайные нелинейные деформации формы спектра, которые постоянно присутствуют в речевом сигнале у одного и того же диктора. Поэтому одной из важнейших задач при создании робастных систем распознавания речи является выбор такого представления анализируемого сигнала, которое является достаточно адекватным его содержанию и в то же время инвариантным к голосам дикторов и различным акустическим обстановкам.

На практике, речевой сигнал, полученный с микрофона, оцифровывается с частотой дискретизации 8–22 кГц. Последовательность цифровых отсчетов разделяется на сегменты речи длительностью 10–30 мс, такая длительность примерно соответствует квазистационарным участкам речи. Для каждого сегмента вычисляется вектор параметров (признаков); эти вектора затем используется на акустическом уровне распознавания речи.

представления сигнала на основе автокорреляционного анализа, аппаратной полосовой фильтрации, методов спектрального анализа, коэффициентов линейного предсказания (КЛП) [24, 21]. Однако наиболее распространены два класса методов, использующие разновидности спектрального анализа и КЛП.

Популярность этих методов объясняется тем, что они хорошо согласуются с моделями слухового восприятия и речеобразования человека соответственно.

Техника линейного предсказания, основанная на авторегрессионном анализе, широко распространена в системах сжатия речи. Основной принцип линейного предсказания основан на аппроксимации текущего отсчета речевого сигнала через линейную комбинацию соседних отсчетов. При линейном предсказании основная задача анализа речи - найти коэффициенты этой линейной комбинации, которые дают минимальную ошибку предсказания на участке анализа сигнала. Коэффициенты предсказания - это весовые коэффициенты, используемые в линейной комбинации, которые вычисляются путем минимизации среднего квадрата разности между отсчетами речевого сигнала и их предсказанными значениями.

Самым распространенным подходом к параметризации речи является спектральный анализ сегментов сигнала с вычислением их кепстральных признаков [57, 109]. Изучение спектрального преобразования сигнала привели предварительную обработку цифровых отсчетов, например, предыскажающий фильтр или процедуру весовой обработки окна; быстрое преобразование Фурье (БПФ) над сегментами речи длиной 10–30 мс.; формирование набора некоторому нелинейному закону, например, согласно Mel или Bark шкале [35].

Отсчеты БПФ, включенные в каждый фильтр, пересчитываются с учетом треугольного окна, затем определяется интегральная энергия S(n) на выходе каждого фильтра и далее производится логарифмирование выхода каждого фильтра. Этот набор данных подвергается косинус-преобразованию, что в итоге приводит к кепстральным коэффициентам Cij. Кепстральные коэффициенты, полученные с использованием Mel-шкалы треугольных фильтров, называются Mel-частотными кепстральными коэффициентами.

где j - номер кепстрального коэффициента.

Таким образом, в результате процедуры параметрического представления речевой сигнал преобразуется в последовательность векторов признаков, после переходит на более высокий уровень моделирования – звуков и слов.

1.3.2. Акустико-фонетическое моделирование речи В настоящее время наиболее эффективным аппаратом для моделирования и распознавания естественной речи считаются скрытые Марковские модели [15, 100].

петербургским профессором А.А. Марковым в начале ХХ века [25]. Сейчас методами Марковского моделирования пользуются многие исследователи случайных процессов. Разновидность Марковских моделей, называемая скрытая Марковская модель (СММ), основанная на теории дискретных случайных цепей, была впервые введена и изучена в конце 60-х – начале 70-х годов. СММ – это дважды стохастический процесс. Термин «дважды»

используется для обозначения такой пары процессов, один из которых является основным, но скрытым от нас и наблюдаемым только через другой стохастический процесс.

Модели такого типа особенно удобны для описания речевого сигнала, поскольку в действительности давление звуковой волны, которое мы измеряем, представляет собой только некоторый код основного символьного процесса, протекающего в ненаблюдаемых и полностью недоступных участках мозга [15].

физические корреляты лингвистической структуры.

При построении модели распознавания речи на основе СММ выбирают их основные параметры: тип модели (эргодическая, модель Бэкиса, лево-правая модель и др.), размер модели (число состояний), тип наблюдаемых параметров (дискретные наблюдений).

Если распознаваемый словарь небольшой, то можно для каждого слова создать вручную топологию СММ. При этом обычно количество состояний модели равняется количеству звуков (фонем) в слове. Для распознавания речи с большим словарем крайне затруднительно построить и обучить преобразуется в последовательность произносимых фонем, и строится модель для каждой фонемы. Как правило, модель фонемы имеет 3 состояния: первое описывает начало фонемы, второе представляет центральную часть фонемы и третье – окончание фонемы (рисунок 1.3). На рисунках кружками обозначены состояния моделей, стрелками – переходы между ними. Также модели могут строиться не только для фонем, но и для аллофонов (фонем в акустическом контексте соседних фонем) и иных акустических единиц речи, таких как полуслоги, дифоны, полуаллофоны и т.д. [67].

Рис. 1.3. Модель фонетической единицы речи СММ слова получается путем соединения в цепочку моделей фонем из соответствующего фонетического алфавита, что представлено на рисунке 1.4.

Аналогичным образом соединяются модели слов друг с другом, образуя модели фраз и предложений.

Рис. 1.4. СММ слова, содержащая фонетические элементы из алфавита На рисунке 1.5 приведен пример моделирования слова «солнце». В данном случае модель позволяет представить два варианта произнесения данного слова, когда каждый звук проговаривается и когда фонема [л] пропадает, причем вероятность пропадания данной фонемы оценивается в 80%, а вероятность произнесения – в 20%. Для всех остальных фонем слова вероятность пропадания равна 0.

Рис. 1.5. Вид СММ, описывающей слово «солнце»

Каждому состоянию соответствует набор векторов параметров, наблюдаемых в этом состоянии, с вероятностью их наблюдения. Для полного определения скрытой Марковской модели = ( N, M, A, B, ) некоторой речевой единицы необходимо задать следующие параметры [106]:

1) N, число состояний в модели. Хотя состояния скрыты от наблюдателя, в практических задачах состояниям или множествам состояний модели приписывается определенный физический смысл (например, фонема). Для обозначения множества состояний всей модели используется запись S = {S1, S 2,...S N }, а текущее состояние модели в момент времени t обозначается qt.

порождаться моделью, т. е. размер дискретного алфавита. Символы наблюдения соответствуют физическому выходу моделируемой системы. Все множество допустимых наблюдаемых символов (векторов) обозначается как V = {v1, v2,...v M }. Этот параметр необходим только для дискретных СММ, для непрерывных моделей он не применяется.

3) Распределение вероятностей переходов между состояниями (матрица переходных вероятностей) A = {aij }, 4) Распределение вероятностей появления символов наблюдения в 5) Вероятностное распределение начальных состояний = { i } модели, Проблема, возникающая при использовании дискретных Марковских моделей, заключается в том, что в большинстве практических задач наблюдения являются непрерывными сигналами (или векторами) и их квантование с помощью кодовых книг (размерностью от 16 до 512) может иногда приводить к серьезным искажениям исходного сигнала. Поэтому часто для распознавания речи используют СММ с непрерывными плотностями наблюдений. В таких моделях плотность вероятности векторов наблюдений описывается следующим образом:

где О - моделируемый вектор наблюдений, Сjm - весовой коэффициент m-ой компоненты в состоянии j и - произвольная логарифмически-вогнутая или эллиптически-симметричная плотность вероятности (например, Гауссова плотность вероятности) с вектором средних значений µ jm и ковариационной матрицей U jm для m-й составляющей смеси в состоянии j. Как правило, в качестве плотности вероятности используется Гауссова плотность. Плотности такого вида часто используются на практике, поскольку позволяют с любой точностью аппроксимировать произвольную непрерывную функцию плотности вероятности, содержащую конечное число компонент.

СММ [106]:

Задача 1 (оценка вероятности). Пусть задана последовательность наблюдений O = O1O2...OT и модель. Как эффективно вычислить величину P (O | ), т. е. вероятность появлений этой последовательности наблюдений для данной модели? Существует несколько способов оценки правдоподобия.

Наиболее широко применяют алгоритмы прямого-обратного хода (forwardbackward), а также лучевые алгоритмы [33].

Задача 2 (декодирование). Пусть заданы последовательность наблюдений O = O1O2...OT Q = q1 q 2...qT, (например, наилучшим образом соответствует имеющейся последовательности наблюдений)? Для решения этой задачи применяют алгоритм Витерби [116, 33].

Задача 3 (обучение). Каким образом нужно подстроить параметры модели, для того чтобы максимизировать P(O | ) ? Задача обучения СММ является крайне важной и в то же время наиболее трудной задачей.

Цель обучения акустических моделей состоит в том, чтобы по заданной последовательности наблюдений определить метод такой подстройки параметров модели, чтобы для полученной модифицированной модели вероятность появления этой последовательности была максимальной. Не существует известного аналитического выражения для настройки параметров такой модели. Кроме того, на практике, располагая некоторой последовательностью наблюдений в качестве обучающих данных, нельзя указать оптимальный способ оценки параметров. Тем не менее, используя итеративные процедуры, например метод Баума-Уэлча, ЕМ-метод или градиентные методы [76, 107, 33], можно выбрать параметры модели таким образом, чтобы локально максимизировать вероятность P(O | ).

Если итеративно повторять процедуру переоценки параметров, используя на каждом новом шаге значения параметров модели, полученные на предыдущем шаге, то будем последовательно получать модели, для которых вероятность появления последовательности наблюдений О будет увеличиваться.

Процедура продолжается до тех пор, пока не будет достигнута некоторая предельная точка (например, по критерию максимума правдоподобия СММ).

Согласно теории [106], процедура переоценки должна давать значения параметров СММ, которые соответствуют локальному максимуму функции правдоподобия. И при этом крайне важным является вопрос, как выбирать начальные значения параметров заданной модели, для того чтобы локальный максимум оказался глобальным максимумом функции правдоподобия.

Исследования показывают [106], что либо случайные (подверженные стохастичности и ограничениям ненулевых значений), либо однородные начальные оценки параметров и A почти во всех случаях позволяют получать вполне приемлемые повторные оценки для этих параметров. Что же касается параметра В, то хорошие начальные оценки являются полезными в случае дискретных символов и необходимы в случае непрерывного распределения. Такие начальные оценки могут получаться несколькими различными способами, включая ручную сегментацию последовательностей наблюдений на состояния с усреднением числа наблюдений в состояниях, сегментацию наблюдений по методу максимального правдоподобия с усреднением, сегментацию с использованием метода k-средних [90] и т.д.

последовательностей наблюдений разбивается на состояния в соответствии с нахождения оптимальной последовательности состояний с помощью алгоритма Витерби и последующего поиска в обратном направлении вдоль оптимального множества наблюдений конкретной модели. Обновленная модель получается на основе вычисленных параметров модели, а переоценка всех параметров этой модели выполняется с помощью процедуры повторного оценивания.

Результирующая модель сравнивается с предыдущей моделью посредством вычисления меры отклонения, которая отражает статистическое сходство этих моделей. Если эта мера отклонения моделей превышает порог, старая модель заменяется новой моделью (для которой выполняется процедура переоценки), и полностью повторяется цикл обучения. Если же мера отклонения не превышает данного порога, то полагается, что модель сходится, и сохраняются параметры последней модели.

На этапе автоматического распознавания речи строятся всевозможные переходы по состояниям СММ и определяется вероятность того, что в конце мы окажемся в конечном состоянии, используя алгоритм прямого-обратного хода или алгоритм Витерби. Алгоритм Витерби применяют как для распознавания изолированной, так и слитной речи. Он состоит из прямого и обратного проходов и реализуется следующим образом [34]. Для начала необходимо ввести следующую переменную:

имеющую смысл максимальной вероятности того, что при заданных наблюдениях до момента времени t последовательность состояний завершится в момент времени t в состоянии Si. Также введем переменную t ( j ) для хранения аргументов, максимизирующих t ( j ). Алгоритм состоит из 4 шагов:

1) Инициализация 2) Индуктивный переход P * = max [ T (i )] Определяет максимальную вероятность наблюдения последовательности o1o2...oT, которая достигается при прохождении некой оптимальной последовательности состояний Q = q1,...qT, для которой к настоящему моменту известно только последнее состояние:

(обратный проход): qt = t +1 (qt +1 ), t = T-1, T-2, …, появления распознаваемой последовательности наблюдений для заданной СММ, то есть степень близости слова (или цепочки слов), задаваемого данной моделью, к распознаваемому сигналу. Причем с помощью алгоритма Витерби можно как вычислить вероятность принадлежности последовательности наблюдений некоторой СММ, так и узнать оптимальную последовательность пройденных состояний модели.

1.3.3. Статистическое моделирование языка предметной области Неотъемлемым компонентом распознавателя слитной речи является модель языка, используемая при генерации гипотез фраз. Одной из самых популярных синтаксических моделей естественного языка являются N-граммы [97]. Эта модель была предложена в середине 1980-х гг. Ф. Джелинеком [14] является статистической и ее цель состоит в оценке вероятности появления цепочки слов W = (w1w2…wq) в некотором тексте.

N-грамма – это последовательность из n элементов (например, слов), а n-граммная модель языка используется для предсказания элемента в последовательности, содержащей n-1 предшественников. Эта модель основана на предположении, что вероятность какой-то определенной n-граммы, содержащейся в неизвестном тексте, можно оценить, зная, как часто она встречается в некотором обучающем тексте.

Вероятность P ( w1, w2,..., wm ) можно представить в виде произведения условных вероятностей:

ограниченном контексте длиной n-1:

Оценить вероятность появления слова в зависимости от всей предыдущей цепочки пока что не представляется возможным вследствие вычислительной сложности задачи. Выбор значения n существенно влияет на количество максимально приблизиться к W n, где W * – это ряд слов в языковой модели из словаря. Так 3-граммная модель со словарем 100000 слов теоретически может содержать до 100000 = 10 параметров. Поэтому в n-граммной модели языка вероятность появления каждого слова считается функцией от предшествующих n-1 слов и на практике используют значения n в пределах от 1 до 3.

максимальной вероятности событий, вычисленных в контексте обучающего текста. Так условная вероятность появления триграммы в тексте может быть вычислена следующим образом:

где С – количество наблюдений данной последовательности слов в тексте.

На практике обучающие данные всегда неполны, то есть значительная часть теоретически возможных n-грамм либо вообще отсутствуют, либо встречается слишком редко для того, чтобы можно было применить стохастические методы для оценки вероятности их появления. Если такая nграмма встретится во время работы, то правильный вариант распознавания будет отклонен или его вероятность будет существенно занижена. Таким разработаны методы сглаживания вероятностных параметров языковых моделей [93].

использовании формальных грамматических правил, описывающих корректные предложения языка [101]. Обычно правила для таких языковых моделей строятся «вручную» экспертом, что сопряжено со значительными трудностями.

естественного языка, поскольку фразы, содержащие некоторые отклонения от правил, будут отвергнуты системой. Даже при распознавании английского языка с его строгой грамматикой и порядком слов в предложении, статистических n-граммных моделей. Основным достоинством статистических моделей языка является возможность автоматического построения модели по обучающему корпусу достаточно большого размера и относительно высокая скорость работы.

1.3.4. Метод распознавания слитной речи Для работы со слитной речью необходимо соединить скрытые Марковские модели слов в одну общую СММ языка предметной области с учетом вероятностей переходов между словами, которые задаются моделью языка. Каждая модель в последовательности напрямую связана с элементом, лежащим в ее основе. Этими элементами могут быть целые слова или части слов, такие как фонемы. На рисунке 1.6 показана сеть, в которой каждое слово определено как последовательность скрытых Марковских моделей, основанных на фонемах, и все слова замкнуты в петлю (цикл). В этой сети кружками показаны СММ, а прямоугольниками – состояния конца слова.

Рис. 1.6. Пример объединенной СММ для метода прохождения маркеров Таким образом, распознающая сеть, в итоге, состоит из состояний скрытой Марковской модели, соединенных переходами. В ней можно выделить три различных уровня: слов, фонем и состояний. На рисунке 1.7 показана эта иерархия.

Рис. 1.7. Три уровня описания распознающей сети модификации при работе со слитной речью, однако алгоритм Витерби для распознавания требует усовершенствований, так как заранее неизвестны границы слов во фразе и их количество. Для распознавания слитной речи предложен модифицированный алгоритм Витерби, называемый метод передачи маркеров (token passing method) [119] и реализованный в инструментарии Hidden Markov Model Toolkit [43]. Метод передачи маркеров определяет прохождение возможных путей по состояниям объединенной СММ. В начало каждого слова ставится маркер и применяется итеративный алгоритм оптимизации Витерби, сдвигая маркер на каждом шаге и вычисляя для него акустическую вероятность. Предположим, в каждом состоянии j скрытой Марковской модели в момент времени t находится отдельный маркер, который содержит значение логарифма вероятности j (t ) пройденной части пути. Этот маркер отображает соотношение между наблюдаемой последовательностью от o1 до ot и моделью, позволяющее заключить, что модель находится в состоянии j в момент времени t. Для вычисления вероятности на каждом шаге алгоритма используется рекурсивная формула:

Эта формула используется в алгоритме, который выполняется в каждый момент времени t для каждого маркера. Ключевые шаги алгоритма следующие:

1) Копия каждого маркера, находящегося в состоянии i, должна пройти вероятности в маркере будет равняться log[ a ij ] + log[ b j ( o ( t ))].

2) Проверка маркеров в каждом состоянии и удаление всех маркеров, кроме маркеров с самой высокой вероятностью.

записывается его индекс, а при выходе из каждого состояния маркеры размножаются (копированием) по числу дальнейших переходов в модели. При этом в маркер записывается его путь (история) через сеть. Когда маркер переходит от выходного состояния одного слова к входному состоянию другого, переход представляет собой потенциальную границу слов, которая и записывается в историю маркера.

В итоге после обработки всей последовательности векторов наблюдений выбирается маркер, имеющий наибольшую вероятность. Когда наилучший маркер достигает конца обрабатываемого сигнала (последовательности наблюдений), то путь, которым он проходит через сеть, известен в виде истории (хранящейся в маркере) и из маркера считывается последовательность пройденных слов, которая и является гипотезой распознавания фразы. Данная методика распознавания слитной речи эффективно используется в настоящее время для автоматического распознавания речи на многих языках.

1.4. Обзор моделей распознавания русской речи Распознаванием и анализом русской речи ученые и инженеры начали заниматься еще в 40-х годах прошлого века [27]. Первые исследования, в основном, имели военную направленность, затем все большую активность в данной области проявляли гражданские специалисты. Из наиболее известных систем распознавания русской речи можно привести устройства линии «Речь»

[7], разработанные под руководством Т. Винцюка (Киев, Украина). В основе данной системы заложена концепция последовательной обработки речевой информации на основе динамического программирования и временном представлении речи как результата нелинейного сжатия и растяжения.

Иное направление в области распознавания речи было заложено В. Труниным-Донским [65]. В его исследованиях особое внимание уделялось акустическим признакам способа и места образования речи (временные, частотные, амплитудные) для принятия решения на каждом шаге обработки речевой информации. В этом принципиальное отличие данного подхода от концепции, принятой в работах коллектива Винцюка, опирающейся на математический метод.

Некоторые успешные разработки систем распознавания были доведены до опытно-конструкторских работ и даже запущены в серийное производство.

Устройства распознавания-синтеза речи МАРС-1, МАРС-2 [2, в] основаны на формантном методе анализа и синтеза. Были выпущены опытные образцы следующими показателями: словарь до 1000 слов, надежность распознавания 87-99 % в зависимости от размера словаря, время реакции менее 0,5 с., параметрическое представление задается 15-полосным спектроанализатором.

изолированной речи существует несколько практически готовых систем распознавания слов русской речи со словарем в сотни слов. Однако как уже отмечалось выше, коммуникация, построенная на вводе отдельных слов, не обладает естественностью и скоростью взаимодействия. В результате такие системы не находят широкого применения.

дикторонезависимому распознаванию русской речи, в основе которых лежат дикторонезависимой системы распознавания для русского языка стала модель, разработанная исследователями компании IBM [89]. Дикторонезависимая натренирована на 30000 высказываниях (40 русских дикторов). 3-граммная модель языка обучалась на текстах около 40 миллионов слов. Была создана система русских фонетических подгрупп и разработан набор правил для фонетического транскрибирования слов. И хотя при испытании данной модели на 8 дикторах уровень ошибки оказался не более 5%, эти исследования не получили дальнейшего развития.

автоматической обработкой русской речи, можно назвать СПИИРАН, ИППИ РАН, ВЦ РАН, ИСА РАН, ИПУ РАН, Московский государственный лингвистический университет, Санкт-Петербургский государственный университет, Санкт-Петербургский электротехнический университет, Центр речевых технологий, СТЭЛ - компьютерные системы (Москва) и др.

Среди научных разработок отечественных исследователей существенных результатов добились научные группы, имеющие возможность разработки словарей и речевых корпусов большого размера. Так Институт системного анализа РАН занимается работами в области распознавания речи, которые ориентированы на развитие теоретической базы, разработку и программную реализацию методов автоматического анализа речевых сигналов в реальном масштабе времени. Предложенные решения основаны на использовании островного нейросетевого анализа речевого сигнала в корреляции с выделением устойчивых признаков и применении фонологических и других знаний о структуре речевого сигнала.

В лаборатории автоматизированных систем массового обслуживания Института проблем управления РАН более 30 лет ведутся исследования в области речевого распознавания. Главным научным и практическим направлением деятельности лаборатории является применение компьютерного распознавания слитной речи в системах обслуживания населения с возможностью использования русского и других языков. Разработаны математические модели для описания процессов в системах распознавания речи. В качестве базовой платформы для распознавания русской речи используется программное обеспечение по распознаванию речи Speech Pearl от американской компании Nuance Communication [46]. Для каждой диалоговой системы были исследованы пользовательские запросы, технологические признаки приложения и пути доступа к информации. Результатами работы лаборатории по применению распознавания речи в системах обслуживания является появление в России диалоговых систем с автоматическим голосовым интерфейсом: системы Сирена, для диспетчерской службы такси; созданы пакеты распознавания речи к службам системы Web Money [121].

В ВЦ РАН проводятся исследования и разработка методов распознавания речи, сохраняющих работоспособность в естественных условиях речевых коммуникаций. Речь идет о том, что сейчас существует масса моделей распознавания речи, но все они созданы и проверены в лабораторных условиях, а при внедрении эти системы не обеспечивают заявленной точности. Поэтому стоит задача сохранить достаточно высокую точность распознавания в реальной ситуации, при наличии различных каналов передачи информации, шумов, неречевых акустических событий, вариабельности голосов дикторов и т.п. Общий подход состоит в использовании множественных, параллельных акустико-фонетических моделей аллофонов и неречевых акустических событий. То есть для аллофона или морфемы создаются несколько различных акустических моделей, которые совместно используются в лексической сети при декодировании речевого потока. Выбор таких множественных моделей осуществляется автоматически, путем анализа речевого корпуса данных, кластеризацией по характеру среды и голоса диктора [71].

На кафедре математической теории интеллектуальных систем и лаборатории проблем теоретической кибернетики механико-математического факультета МГУ им. М. В. Ломоносова разработан один из возможных подходов к решению проблем, препятствующих созданию промышленных систем распознавания слитной речи для русского языка. Показано, что предложенное в ней разложение общей языковой модели на две составляющие:

модель, основанную на морфологии, и модель, основанную на начальных формах слов, позволяет разработчикам лучше использовать преимущества nграммного статистического подхода. Кроме того, выделение морфологической информации в независимую модель позволяет справиться с проблемой акустической похожести различных словоформ одного и того же слова. В результате проведённых теоретических изысканий был создан пакет программ для построения различных вариантов языковых моделей для русского языка, в том числе составных моделей, основанных на категорном подходе [68].

На кафедре прикладной и экспериментальной лингвистики Московского Государственного лингвистического университета под руководством профессора Р.К. Потаповой разрабатывается модель анализа русской речи, направленная на определение эмоционального состояния человека по речи и распознавания эмоционально окрашенной речи [102]. Значительные усилия группы исследователей направлены на создание диалоговых моделей, обработку многоязыковых лингвистических баз данных [103], а также создание теоретического фундамента науки о речи (речеведение) [32].

Следует также отметить работы отдела распознавания речевых образов ИПИИ (Донецк, Украина). Здесь были разработаны программы, которые автоматически распознают до 1000 изолированно произнесенных слов с высокой надежностью. На их основе разработана программа голосового набора математических формул в программе Equation, программа голосового управления мобильным роботом. В настоящее время отдел занимается проблемой пофонемного распознавания (фонетический стенограф) [72].

В ходе реализации совместного проекта ВНИИЭФ-СТЛ (Нижний Новгород) и Intel Corporation в 1999-2003 годах была разработана система распознавания слитной речи с большим словарем SDT (Speech Developer Toolkit) [3]. Функциональность пакета программ SDT включает: вычисление векторов признаков, построение и адаптацию акустических моделей, построение языковых моделей, быстрое декодирование речи по статистической модели или стохастической грамматике, оценку результатов декодирования. С использованием SDT были построены системы распознавания для английского и китайского языков, а также, прототип системы распознавания русской речи. В настоящее время на предприятии ВНИИЭФ-СТЛ ведутся работы по построению системы распознавания русской речи со словарем до 1 млн. слов, включая разработку компактного представления русского фонетического словаря, модифицированного алгоритма декодирования речи и статистической языковой модели для русского языка.

Центром речевых технологий разработана библиотека распознавания речевых команд VoiceCom [56]. Система обеспечивает распознавание нескольких сотен команд в дикторозависимом и нескольких десятков команд в дикторонезависимом варианте. Система может применяться для управления технологическим оборудованием с помощью голоса; речевого запроса к базам данных; поиска ключевых слов в звуковых файлах. Также в последние годы компания начала исследование моделей русского языка, где в качестве базовых единиц распознавания взяты основы и окончания [98].

Московская компания «ИстраСофт» занимается разработками в области речевых технологий, в том числе синтезом и распознаванием речи, а также идентификацией речи по голосу. Компанией был разработан алгоритм выделения фонем из слитной речи в реальном масштабе времени. В результате работ создана программная реализация дикторонезависимого распознавания команд русской речи IstraSoft Voice Commander на основе оригинальных алгоритмов выделения звуков (фонем) в непрерывной речи [44].

Белорусской компанией «Сакрамент» разработан набор программных средств Sakrament ASR Engine [41], рассчитанный на применение в различных аппаратных системах и программных приложениях, использующих технологии распознавания речи, таких как: IVR-системы, мобильные электронные устройства, бытовая техника и т.д. Модуль Sakrament ASR Engine может быть перенесен на любую программную или аппаратную платформу, а также настроен под конфигурацию любого приложения. Качество распознавания системы зависит от размера используемых словарей, качества транскрипции, показателя связанности распознаваемых слов, уровня фонового шума, параметров используемых каналов связи и характеристик микрофонов.

Среди внедряемых в настоящее время в России систем автоматического распознавания русской речи, разработанных западными компаниями, можно отметить продукт SpeechPearl, разработанный ScanSoft и Nuance. Этот продукт является инструментарием для реализации функций распознавания речи в телефонных приложениях, который поддерживает русский язык. На этом движке построены практически все телекоммуникационные сервисы (использующие автоматическое распознавание русской речи): «Речевой портал» фирмы Светец, система Smartphone фирмы Novavox, система Telepat [52], разработанная в Институте проблем управления РАН и запущенная в лабораторную эксплуатацию в 2004 г. Однако эти сервисы находятся пока на стадии лабораторных или тестовых прототипов. Недостатком же речевого распознаваемого словаря - до 5000 слов, хотя данный словарь может задаваться разработчиками сервисов и настраиваться под конкретную диалоговую модель.

Lernout&Hauspie (Philips) создать дикторонезависимые системы диктовки для русского языка также нельзя назвать успешным. Их исследования были свернуты в связи с неудовлетворительными полученными результатами и экономическими трудностями. Среди коммерческих систем, реально дошедших до конечно пользователя, можно назвать только систему «Горыныч» [53], предложенную на Российский рынок компаниями VoiceLock и White Computers. Система имела неудовлетворительное качество распознавания (10точности распознавания слов для русского языка), поскольку не учитывала особенности русской фонетики и лингвистики, а являлась лишь локализацией американской системы диктовки Dragon Naturally Speaking для русского языка.

В результате разработчики перевели лишь словарь распознавания с английского на русский язык, а акустические модели и модель языка остались прежними. Поэтому, чтобы такая система работала нужно говорить по-русски, но с американским акцентом и строить грамматически правильные с точки зрения английской грамматики предложения.

Таким образом, анализ исследований по автоматическому распознаванию речи показал, что в настоящее время не существует готовых к использованию систем дикторонезависимого распознавания русской слитной речи с большим словарем, хотя решение данной задачи является очень актуальной в условиях быстрорастущего спроса на системы человеко-машинного взаимодействия.

Выводы по главе автоматического распознавания речи: дикторонезависимость, слитный ввод речи, высокая точность распознавания и быстродействие словарями, робастность к различным, ухудшающим речевой сигнал, факторам.

2) Определены два интегральных критерия оценки качества систем автоматического распознавания речи: точность распознавания (слов и фраз) и время распознавания входного высказывания.

нейронных сетях и динамическом программировании. В ходе анализа Марковского моделирования.

4) Приведено детальное описание базовой модели дикторонезависимого распознавания слитной речи, использующей вероятностные методы моделирования языка прикладной задачи.

распознавания русского языка. Приводятся технические показатели основных исследовательских моделей распознавания речи с начала 40-х годов прошлого века по настоящее время. Отмечается, что сейчас не существует готовых к использованию систем дикторонезависимого распознавания русской слитной речи с большим словарем.

Глава 2. Модель обучения распознавателя русской речи с морфемным представлением языка Любая модель распознавания речи должна функционировать в двух режимах: обучение и распознавание. Причем этап обучения является даже более сложным, так как включает в себя целый набор алгоритмов по обработке текста, статистическому анализу и вероятностному моделированию. От качества обучения, во многом, зависит качество работы модели в режиме распознавания. Во второй главе представлена предложенная архитектура модели обучения распознавателя русской речи с морфемным представлением языка прикладной области и детально описан каждый из уровней обработки, используемый в данной модели.

2.1. Особенности разработки модели распознавания русской речи Приступая к разработке необходимо, прежде всего, проанализировать трудности, с которыми придется столкнуться в последующей разработке модели автоматического распознавания русской слитной. Основные трудности в данной задаче связаны с характерными особенностями русского языка (и других славянских языков в целом), поэтому далее приводится анализ выявленных сложностей и способов их возможного преодоления. Поскольку активнее всего ведутся исследования и разработка систем распознавания английской речи, то уместно сравнение русского и английского языков.

Русский язык относят к числу синтетических языков [12], которые характеризуются тенденцией к объединению (синтезу) лексической морфемы (или нескольких лексических морфем) и одной или нескольких грамматических морфем в рамках одной словоформы. В русском языке по сравнению с английским более сложная структура словообразования в результате чего необходимо использовать гораздо больший распознаваемый словарь, что значительно снижает как точность, так и скорость распознавания. В передовых системах распознавания речи для английского языка (от фирм Microsoft, распространенные имена, фамилии и названия. Для русского языка за счет наличия приставок, суффиксов и окончаний этот словарь возрастает более чем на порядок. Так грамматический словарь А.А. Зализняка [16] содержит около 100 тысяч наиболее употребительных слов русского языка, и при помощи специальной системы обозначений он позволяет построить все словоформы для выбранного слова. При развороте всех словарных статей, получается более 1, млн. различных словоформ. Причем данный словарь не включает в себя распространенные имена и названия, а при включении их в словарь его размер превзойдет 2 млн. словоформ. Таблица 2.1 показывает морфологические характеристики слов русского языка по основным частям речи (максимальное количество словоформ для частей речи взято из [20]). Так, например, глаголы могут формировать до нескольких сотен различных словоформ, и все их нужно учитывать при создании систем автоматического распознавания русской речи.

Таблица 2.1. Морфологические характеристики слов русского языка Кроме того, большинство словоформ одного и того же слова отличаются только в окончаниях, которые произносятся обычно не так чётко как начала слов. Ошибки в окончаниях при распознавании слов приводят к тому, что происходит ошибка в распознавании всей фразы из-за несогласованности слов.

Порядок слов в предложении русского языка не задается жестко правилами грамматики и зачастую может варьироваться без потери смысла предложения, а в английском языке используются жесткие грамматические конструкции. Это затрудняет создание статистических моделей языков на основе биграмм или n-грамм, а также грамматик для русского языка и понижает их эффективность. Статистические языковые модели для русского языка не столь эффективны как для английского языка. Так в [118] показано, что nграммные модели языка в несколько раз больше размером и их оценка неопределенности выше в 3-4 раза.

Отличия фонетического состава языков. В международном фонетическом алфавите SAMPA для русского языка принято 42 фонемы: 36 фонем согласных звуков и 6 фонем гласных звуков. В американском варианте английского языка фонетический алфавит SAMPA насчитывает 41 фонему: 24 согласных и гласных (включая целый ряд дифтонгов). Очевидно, что распознавание согласных звуков сложнее, чем гласных из-за того, что они менее стабильны, чем гласные и имеют меньшую длительность.

Для создания эффективных систем распознавания для английского языка существует несколько речевых баз данных (обычной речи, телефонной, и т.д.) в том числе и свободно доступные. Для русского языка такие базы данных пока только начинают создаваться и, как правило, являются недоступными для общего пользования.

Обозначенные выше проблемы, а также существующие экономические факторы приводят к тому, что сейчас фактически не существует действующих промышленных систем или моделей распознавания русской слитной речи.

автоматического распознавания речи, применительно к русскому языку и речи и предложены некоторые модели, позволяющие улучшить характеристики модели распознавания русской речи.

2.2. Архитектура модели обучения с включением морфемного анализа русского языка Одной из основных проблем автоматического распознавания речи для русского языка является обилие морфологических характеристик слов языка, что приводит к сложному механизму словообразования и наличию огромного количества словоформ. Поэтому в отличие от распознавания аналитических языков, автоматическое распознавание русской речи требует создавать словарь сверхбольшого размера, следствием чего является значительное падение точности и скорости распознавания слов и фраз.

Для решения проблемы неконтролируемого роста размера словаря при словообразовании предлагается ввести в модель распознавания дополнительный уровень представления речи – морфемный. Морфема – это наименьшая языковая единица, обладающая значением (по определению, данному американским лингвистом Л. Блумфилдом в 1933 г.) [60]. Деление морфем на части приводит только к выделению незначимых элементов языка фонем. За счет разделения словоформ языка на морфемы словарь распознаваемых лексических единиц может значительно сократиться, так как в процессе словообразования часто используются одни и те же морфемы.

В связи с тем, что в общепринятую архитектуру распознавания речи вводится дополнительный морфемный уровень, была модифицирована базовая модель обучения распознавателя речи, представленная в первой главе. При сложность представляет процесс обучения акустико-лексических моделей системы. Для обучения акустико-лексических единиц русской речи разработана модель, архитектура которой представлена на рисунке 2.1.

области данных Рис. 2.1. Архитектура модели обучения распознавателя русской речи предложенную архитектуру:

1) Словарь морфем языка J = { j1,..., j i,..., j N } размерностью N, причем морфемы; jтип O = {приставка, корень, суффикс, окончание} - тип морфемы jчастьречи С = {существительное, прилагательное, глагол, числительное, местоимение} - часть речи, для которой морфема употребляется.

2) Морфологический словарь языка L = {l1,..., li,..., lK } размерностью K, словоформы, lоснова - основа (часть слова без формообразующих суффиксов, окончания и постфикса) данной словоформы, lчастьречи С часть речи, к которой принадлежит словоформа и l ударение - место ударения в словоформе.

3) Фонетический алфавит языка A = {а,..., й}, = A = 48, количество используемых фонем равно 48 (см. далее таблицу 2.2).

4) Фонетические правила {P},более детально описаны в разделе 2.6.2.

последовательность векторов признаков звуковой записи, Phi - текст произнесенной фразы.

6) Текст фраз предметной области количество предложений (фраз), состоящих из допустимых словоформ русского языка Phi = w1,..., w j,..., wE, которые в свою очередь состоят из букв (графем) w j = b1,..., bh,..., bI, где bh B = {a,..., я} и B = 33.

7) Текст фраз предметной области с пометками границ морфем в словах и типов морфем TM.

8) Фонетическая транскрипция текста фраз предметной области с пометками границ морфем в словах и типов морфем TMF.

9) Множество акустических СММ фонем H = {1,..., }.

Работа модели обучения осуществляется за несколько этапов, первый из которых выполняется с привлечением разработчиков и экспертов в предметной области, а остальные этапы, связанные с обработкой текста, автоматизированы:

1) Подготовка баз данных предметной области. На этом этапе необходимо собрать и обработать исходный текстовый и речевой материал, который будет использован для настройки (обучения) модели распознавания речи. Необходимыми базами данных являются:

корпус фраз предметной области T и корпус с речевым материалом R, записанным пользователями по части текстов предметной области.

Подготовка баз данных детально описана в разделе 2.3.

2) Декомпозиция слов предметной области на морфемы. На данном этапе исходными данными является корпус текстов T, для которого применяется процедура декомпозиции слов на морфемы, используя для этого словарь морфем языка J и морфологический словарь L. В результате исходный текст T преобразуется в текст TM с разбиением на морфемы и для каждой морфемы проставляется ее тип. Метод декомпозиции слов детально описывается в разделе 2.4.

3) Создание статистической морфемной модели языка. Исходными данными здесь является текст с пометами морфем TM. В результате обработки текста ищутся все пары морфем, стоящие рядом в тексте и по количеству таких событий высчитывается условная вероятность для каждой пары, составляя, таким образом, n-граммную модель языка LM. Создание и оценивание морфемной модели языка обсуждается в разделе 2.5.

4) Фонетическое преобразование текстов предметной области.

Исходными данными являются: корпус фраз предметной области с выделением морфем TM, морфологический словарь L, фонетический алфавит русского языка A и набор фонетических правил для транскрибирования P. В результате TM преобразуется в фонетическую транскрипцию с выделением во фразах слов и морфем TMF. Процесс фонетического преобразования представлен в разделе 2.6.

5) Создание морфемного словаря. Исходными данными являются:

соответствующая ему фонетическая транскрипция TMF. В ходе анализа сопоставляются два текста и выбираются уникальные морфемы, формируя морфемный словарь M, в котором каждой морфеме соответствует фонетическая транскрипция, причем, так как морфемы могут встречаться в различном контексте, то для морфемы возможно наличие нескольких транскрипций.

6) Обучение акустических моделей фонем. На вход данного модуля подаются: речевой корпус R, созданный на первом этапе, а также фонетическая транскрипция текста TMF и фонетический алфавит A. В ходе обучения создаются скрытые Марковские модели для каждой фонемы алфавита и переобучаются, настраиваясь на представленные речевые данные. Процесс обучения акустических моделей и формат их представления представлены в разделе 2.7.

Таким образом, в результате последовательного выполнения шагов происходит полуавтоматическое создание акустико-лексических баз данных, которые используются затем моделью распознавания слитной русской речи.

При этом участие разработчика в процессе обучения требуется только на первом этапе для сбора и подготовки баз данных предметной области, все остальные шаги выполняются моделью автоматически под контролем со стороны разработчиком.

2.3. Подготовка текстовых и речевых баз данных модели обучения Необходимой частью автоматических процедур обработки текста являются базы данных морфем и морфологический словарь, поэтому часть работы была посвящена их созданию и наполнению.

Построение базы данных морфем J было осуществлено на основе печатных и электронных изданий. Большая часть корневых морфем взята из открытых баз данных проекта Корнеслов [48] и словаря морфем русского языка А.И. Кузнецовой и Т.Ф. Ефремовой [13], а префиксы и флексии также из [14].

Кроме того, далее при создании ряда приложений словарь морфем постоянно пополнялся. На основе баз данных морфем можно строить любые приложения, лексика которых покрывается данным словарем. Поэтому разрабатываемые в ходе исследования базы данных можно разделить на две группы: (1) общие правила и словари всего русского языка и (2) базы данных и словари для языка конкретной предметной области (ПО). В ходе подготовки конкретного приложения также возможна модификация и дополнение общих словарей (рисунок 2.2).

Рис. 2.2. Создание лексических баз данных для конкретной предметной В качестве морфологического словаря L в работе была использована и обработана свободно доступная морфологическая база данных, насчитывающая свыше 1.7 млн. различных словоформ [51]. Эта база данных основана на многочисленных исключений) [61].

Эти базы данных являются общими для всех приложений и при разработке новых приложений они могут только пополняться новыми данными.

Остальные базы данных, требуемые для модели распознавания речи, зависят от разработчиками для каждого приложения отдельно.

Для создания словаря M модели распознавания русской речи и модели языка LM необходим обучающий текстовый материал языка предметной области. Для диалоговой системы такими текстами могут быть фразы или запросы пользователей, допустимые в ходе диалога, а для систем диктовки набор предложений предметной области (желательно стенографии реальных разговоров). Однако достаточно часто получить такой материал заранее не предоставляется возможным, в таком случае для обучения используются большие массивы текстов отчетов, писем электронной почты, книг и т.д.

Последним этапом работы модели обучения распознавателя русской речи является процесс создания СММ для каждой фонемы и обучения их с использованием речевых записей голосов различных дикторов. Для создания и обучения дикторонезависимых моделей акустических единиц речи H требуются речевые базы данных с записями голосов десятков или даже сотен дикторов.

Для того чтобы иметь достаточное количество данных, позволяющих производить надежную оценку всех параметров модели, необходимо использовать большое множество последовательностей наблюдений.

Для сбора речевых данных в ходе работы разработан модуль, позволяющий производить запись голосов дикторов (представлен в разделе 4.1). Записи проводятся в специально оборудованной в группе речевой информатики СПИИРАН шумоизолированной комнате, где акустические условия близки к студийным. При создании этих речевых баз данных учитывается множество факторов, такие как: характеристика диктора (национальность, пол, возраст), канал передачи данных (микрофон, телефон), уровень шума. Кроме того, эти базы данных должны содержать фонетические транскрипции и разметку акустического сигнала по фонемам, словам, фразам, что является достаточно долгой рутинной ручной работой.

Чтобы избежать большого объема операций, выполняемых экспертом вручную, применяется упрощенная методика полуавтоматического создания речевых баз данных:

- Используются достаточно короткие (от 1 до 5 слов) слитно произносимые фразы из предметной области.

- Каждая фраза сохраняется в отдельном файле с применением метода автоматического удаления начальной и конечной пауз в сигнале.

- Фразы с наличием внешних шумов или артикуляторных артефактов (выдохи, шлепанье губами) отбрасываются.

- Используются только правильные фонетические транскрипции фраз, получаемые в результате анализа текстов записываемых фраз.

- Не применяется разметка границ фонем во фразах.

Таким образом, на первом этапе работы модели обучения создаются текстовые и речевые базы данных предметной области, которые используются далее в процессе автоматического обучения модели распознавания русской слитной речи.

2.4. Декомпозиция слов предметной области на морфемы Разделение слов на морфемы можно производить двумя путями: при помощи словарных и алгоритмических методов [80, 95]. Преимуществом алгоритмических методов является то, что они опираются лишь на анализ текста и не используют никаких дополнительных знаний, что позволяет анализировать текст на любом языке. Преимуществом словарных методов является то, что они позволяют получить правильное разбиение слов на морфемы, а не на псевдоморфемные единицы (как в алгоритмических методах), что может быть использовано далее на уровне пост-обработки гипотез распознавания фраз. Поэтому в работе использован словарный метод декомпозиции слов с использованием имеющихся для русского языка морфологических и морфемных электронных словарей.

Обычно в русском языке выделяют 6 типов морфем: префикс, корень, интерфикс, суффикс, окончание, постфикс. Были проведены эксперименты с несколькими вариантами разбиения слов на морфемы (или псевдоморфемы) и наилучшие результаты получены при разбиении слов максимально на три (псевдоокончание). Пример декомпозиции нескольких слов на морфемы показан на рисунке 2.3.

Рис. 2.3. Пример декомпозиции слов на морфемы Такое разделение позволяет сократить количество распознаваемых лексических единиц и в то же время избежать деления слов на слишком короткие элементы (состоящие из 1-2 букв), которые всегда тяжело распознать безошибочно.

Разбиение (декомпозиция) слова на морфемы осуществляется путем подбора морфем различных типов с учетом правил следования морфем в одном слове. Процесс преобразования слова некоторой в цепочку морфем в общем случае можно записать следующим образом:

где D является некоторой функцией декомпозиции слова wi из текста T в цепочку морфем m из словаря морфем языка J.

На рисунке 2.4 показан алгоритм декомпозиции некоторого слова на морфемы, суть которого заключается в следующем:

1) Поиском в морфологическом словаре L и сравнения слова w со всеми значениями lсловоформа определяется основа lоснова анализируемого слова и его часть речи lчастьречи. Если словоформа в словаре не найдена, то слово w целиком считается корнем.

2) Часть слова wi, которая следует после основы lоснова, считается mтип = концовка, в случае нулевой концовки в слове, она не учитывается и не является морфемой.

3) Производя сравнение со словарем корней и приставок русского языка J, основа слова wi разделяется (в тексте ставится разделитель «|») на две части (приставку и корень). Тут следует также учитывать, что слово может не иметь приставки и тогда основа целиком считается Таким образом, каждое слово может быть разделено максимально на части: приставка (если есть), корень, концовка (если есть).

После выполнения декомпозиции всех слов из обучающего корпуса Т фраз предметной области на морфемы сохраняется разметка текста на предложения, и добавляется морфемная разметка с учетом пометок о типе каждой морфемы [39]. Полученный текст TM используется далее моделью обучения на этапе создания модели языка предметной области и фонетического преобразования.

Рис. 2.4. Алгоритм декомпозиции слов языка на морфемы 2.5. Создание и оценка морфемной модели языка В качестве модели языка применяется n-граммная статистическая модель, где лексическими единицами являются не слова, а морфемы. Ранее эффективность длинных цепочек слов n-граммных языковых моделей, так как в русском языке (особенно разговорном) наблюдается практически свободный порядок слов в предложении и учет истории слов во фразе недостаточно эффективен, поэтому иногда применяют модели со свободным порядком слов [69]. Использованная же в работе n-граммная морфемная модель позволяет учесть порядок стыковки морфем и правила словообразования и в то же время не задает жестких ограничений на порядок следования слов во фразе.

После декомпозиции все слов обучающего текстового корпуса TM на морфемы, производится создание статистической морфемной модели языка.

При этом формула 1.6 вычисления вероятности составления фразы из языковых единиц видоизменяется и принимает следующий вид:

где каждое слово w из фразы Ph разделено на ряд морфем m посредством функции D(w), V – общее число морфем во фразе. Так как среднее количество применяемых морфем в слове равно двум, то используется биграммная морфемная модель языка, при этом формула 2.2 принимает следующий вид:

где N(Ph) является функцией нормализации по длине фразы.

Полный набор встреченных рядом в обучающем тексте TM пар морфем формирует статистическую морфемную модель языка LM. При этом для каждой пары морфем оценивается сколько раз она была встречена в тексте и применяя формулу, подобную 1.7, оценивается условная вероятность встречи данной пары морфем в тексте.

Было проведено сравнение целословной модели языка с моделями, где в качестве элементов используются языковые единицы меньше слова (морфемы, слоги). Для оценки моделей языка был использован и обработан корпус текстов классической и современной художественной литературы объемом свыше 8 млн. слов из свободно доступной электронной библиотеки М. Мошкова [42].

Для разделения слов текста на морфемы, применялся алгоритм, описанный выше в разделе 2.4.

Деление слов на слоги производилось по принципу восходящей звучности [40]. Согласно этому принципу, звуки в слоге (незаконченном) располагаются от наименее к наиболее звучному. Если звучность условно обозначить цифрами, то имеем следующую троичную классификацию: 3 – гласный звук, 2 – сонорный согласный звук ([м], [н], [л], [р], [й]), 1 – остальные (шумные) согласные звуки. Например, кни-га (1 2 3 - 1 3), и-на-че (3 - 2 3 - 1 3), по-ло-тно (1 3 - 2 3 - 1 2 3). Трудности возникают при стечении нескольких согласных подряд, для их разрешения используется несколько условий:

1) Если на границе слогов рядом оказались два шумных или два сонорных звука (кроме [й]), они относятся к последующему гласному:

пу-шка, и-зба, во-лна.

2) Если в сочетании согласных первый [й], он всегда отходит к предшествующему гласному: вой-на, май-ка.

3) В сочетании согласных, первым из которых является сонорный, а вторым – шумный, сонорный может отходить к предшествующему гласному: кон-спект, Вол-га.

Любой язык характеризуется словарным составом и структурной организацией слов [1]. Статистические модели языка количественно могут оцениваться рядом параметров [88, 118]: количество лексических единиц в «непокрытия» слов (out-of-vocabulary) в тестовом текстовом материале и т.д.

Были проведены эксперименты по оценке моделей языка, результаты которых представлены на рисунке 2.5, отражающем график количества различных лексических единиц в зависимости от объема текста, а также на рисунке 2.6, отражающем процент непокрытых слов в тексте. В ходе экспериментов в качестве тестового текста для каждой модели использовался полный текст романа М.А. Булгакова «Мастер и Маргарита», а в качестве обучающих текстов применялся электронный корпус, состоящий из нескольких десятков текстов произведений классической художественной литературы (не включая тестовый текст) [42].

объем словаря, тыс.

Рис. 2.5. Размер словаря языковых единиц в зависимости от объема На рисунке 2.5 представлены графики количества различных словоформ, морфем и слогов, которые встречаются в обучающем текстовом корпусе и, таким образом, потенциально составляют словарь распознавания. Так, например, при анализе корпуса текстов из 2 млн. слов можно выделить свыше 190 тыс. различных словоформ, 50 тыс. различных морфем (большая часть из них - корни) и до 7 тыс. слогов. Таким образом, размер распознаваемого словаря при использовании словоформ в 4 раза больше, чем для морфемного словаря и в 27 раз больше, чем для слогового словаря. При увеличении размера обучающего корпуса это соотношение становится еще больше. Характеристика модели языка, представленная на рисунке 2.6, особенно важна при разработке стенографических систем, так как отражает процент слов, которые встречаются в тестовых записях, но не встречаются в обучающих и, таким образом, не могут быть правильно распознаны. Так, графики показывают, что если использовать словарь распознавания в 50 тыс. словоформ, то он не покрывает около 20% слов тестового материала, морфемный же словарь не позволяет покрыть менее 1% слов текста, а слоговый словарь лишь 0,1%.

новых слов в тексте, % Рис. 2.6. Процент «непокрытых» слов тестового текста в зависимости от Таким образом, приведенные графики показывают преимущество слоговой и морфемной моделей языка перед целословной моделью. Из приведенного анализа можно сделать вывод, что чем меньше размер используемых лексических единиц, тем меньше их встречается в языке и тем более полно они покрывают пространство слов языка. Так, например, цепочки морфем могут образовывать правильные словоформы, которых даже не было в словаре распознаваемых слов. В четвертой главе будут представлены результаты использования целословной, морфемной и слоговой моделей распознавания русской речи, которые показывают эффективность двух первых моделей и неэффективность использования третьей.

2.6. Фонетическое транскрибирование обучающих текстов Моделирование речи для систем распознавания с большим словарем должно вестись по фонемам (звукам), так как практически невозможно собрать акустический материал для надежного обучения дикторонезависимых целословных акустических моделей. Любой речевой поток представляет собой непрерывную линейную последовательность звуков, при этом звук является минимальной незначимой единицей речевого потока и выступает в речи нерасчлененно, как единое целое и из него уже нельзя выделить отдельные более мелкие элементы произношения (артикуляции) [40].

2.6.1. Выбор фонетического алфавита В русском языке слова обычно произносятся не так как они пишутся, поэтому необходим фонетический транскриптор, производящий преобразование «буква->фонема» [59]. Для передачи звучащей речи на письме используется особая запись, отличная от орфографической - фонетическая транскрипция. Фонетическая транскрипция - это запись звуков слов языка с учетом их позиционных изменений в речевом потоке.

Первым этапом в разработке фонетического транскриптора является выбор фонетического алфавита, который содержит символы транскрипции.

Особенности тех или иных звуков могут фиксироваться посредством специальных символов транскрипции. Разнообразие звуков речи чрезвычайно велико, поэтому в каждой из систем транскрипции, кроме основных символов, имеются многочисленные дополнительные знаки. Наиболее распространены системы, использующие в качестве фонетических символов знаки латиницы с добавлением знаков из других графических систем, например, система МФА (Международной фонетической ассоциации) [87] или фонетическая система Л.В. Щербы [73]. В этих системах имеются символы для обозначения согласных и гласных и их дополнительных артикуляционных свойств (палатализованность, назализованность, отодвинутость назад, продвинутость вперёд), для обозначения степеней силового ударения, тона и характера музыкального ударения и т.д.

фонетической транскрипции SAMPA (Speech Assessment Methods Phonetic Alphabet) для многих языков [54]. В транскрипции SAMPA принято персонального компьютера. С их помощью оказывается возможным передавать фонетическую информацию по межкомпьютерной связи.

В диссертационной работе в качестве фонетического алфавита предложен и опробован модифицированный вариант международного фонетического алфавита SAMPA. Предложенный фонетический алфавит, а также примеры слов представлены в таблице 2.2. В данном наборе используются также специальные символы транскрипции: «!» - обозначает ударный вариант гласного звука; «'» - обозначает мягкий вариант согласного звука.

Таблица 2.2. Фонетический алфавит для распознавателя русской речи В предложенном фонетическом алфавите используется 48 фонем: 12 - для гласных звуков (с учетом ударных вариантов) и 36 - для согласных (с учетом твердости и мягкости звуков). Модификация международного алфавита заключается в добавлении к обычным вариантам гласных звуков ударных вариантов некоторых гласных звуков. Так как ударные и безударные гласные имеют значительные отличия в спектральных и временных характеристиках, то такое разделение позволяет улучшить точность описания и акустикофонетического моделирования речи.

2.6.2. Фонетическое транскрибирование текста Модуль фонетического транскрибирования осуществляет преобразование текста предметной области с пометами морфем TM в его фонетическое TMF. На рисунке 2.7 показан алгоритм фонетического представление транскрибирования некоторого слова из текста TM.

В ходе работы алгоритма слово w i из текста ищется в морфологическом словаре L и в случае нахождения совпадения со словоформой lсловоформа определяется место ударения в слове l ударение и помечается знаком «!». В случае отсутствия такого слова в словаре и наличии более одной гласной в слове, невозможно создать для него автоматически правильную фонетическую транскрипцию из-за возможной неоднозначности в месте ударения.

После нахождения места постановки ударения в слове w i алгоритм применяет к слову правила фонетического преобразования P, при этом возможны следующие позиционные изменения классов звуков: изменения гласных в положении под ударением; изменения гласных в предударных слогах; изменения гласных в заударных слогах; позиционные изменения согласных звуков [40].

Рис. 2.7. Алгоритм фонетического транскрибирования слова Применение фонетических правил выполняется за 3 цикла, в процессе последовательно применяются следующие фонетические правила:

Согласные звуки перед буквами и, е, ё, ю, я становятся мягкими (приобретают знак «'»).

Буквы ё, ю, я заменяются на сочетания звуков [йо], [йу], [йа] соответственно, если они находятся в начале слова или после гласного звука, в противном случае они заменяются на гласные звуки Согласный звук перед буквой ь становится мягким, а сам мягкий Парные звонкие согласные в конце слова становятся глухими.

Оглушаются согласные перед глухими шумными и озвончаются согласные перед звонкими шумными согласными.

Смягчаются согласные перед мягкими зубными согласными звуками Изменения гласных звуков под ударением и безударных гласных в предударном слоге [40].

Изменения гласных звуков в заударном слоге [40].

дублирование согласных).

10) Из текста удаляется твердый знак ъ.



Pages:     || 2 |


Похожие работы:

«СТУКОВА ЕЛЕНА ВЛАДИМИРОВНА ДИЭЛЕКТРИЧЕСКИЕ СВОЙСТВА НЕОДНОРОДНЫХ МИКРО- И НАНОРАЗМЕРНЫХ СЕГНЕТОЭЛЕКТРИЧЕСКИХ СИСТЕМ 01.04.04 – физическая электроника Диссертация на...»

«ЗАЙКИН ОЛЕГ АРКАДЬЕВИЧ Совершенствование приводов транспортно-технологических машин использованием зубчатого бесшатунного дифференциала Специальность 05.02.02 – Машиноведение, системы приводов и детали машин Диссертация на соискание ученой степени кандидата технических наук Научный...»

«Тригуб Георгий Яковлевич ФОРМИРОВАНИЕ СИСТЕМЫ МЕСТНОГО САМОУПРАВЛЕНИЯ НА ДАЛЬНЕМ ВОСТОКЕ РОССИИ И ВЗАИМООТНОШЕНИЯ ЕЕ ОРГАНОВ С ГОСУДАРСТВЕННОЙ ВЛАСТЬЮ (вторая половина XIX – первая четверть XX в.) Специальность 07.00.02 – отечественная история Диссертация на соискание ученой степени кандидата исторических наук Научный руководитель кандидат исторических наук...»

«СОЛДАТОВ Виталий Александрович Реализация принципа независимости при осуществлении правосудия арбитражными судами 12.00.15 – гражданский процесс; арбитражный процесс ДИССЕРТАЦИЯ на соискание учёной степени кандидата юридических наук Научный руководитель доктор юридических наук, профессор Григорьева Тамара Александровна Саратов...»

«Старчикова Валерия Викторовна ОБЩЕСТВЕННЫЙ КОНТРОЛЬ В ПРАВОВОМ ГОСУДАРСТВЕ (ТЕОРЕТИКО-ПРАВОВОЕ ИССЛЕДОВАНИЕ) 12.00.01 – теория и история права и государства; история учений о праве и государстве ДИССЕРТАЦИЯ на соискание ученой степени кандидата юридических наук Научный...»

«РОЩИН Павел Валерьевич ОБОСНОВАНИЕ КОМПЛЕКСНОЙ ТЕХНОЛОГИИ ОБРАБОТКИ ПРИЗАБОЙНОЙ ЗОНЫ ПЛАСТА НА ЗАЛЕЖАХ ВЫСОКОВЯЗКИХ НЕФТЕЙ С ТРЕЩИННО-ПОРОВЫМИ КОЛЛЕКТОРАМИ Специальность 25.00.17 – Разработка и эксплуатация нефтяных и газовых месторождений ДИССЕРТАЦИЯ на соискание...»

«Дойкин Алексей Алексеевич РАСЧЕТНО-ЭКСПЕРИМЕНТАЛЬНЫЙ МЕТОД ПРОФИЛИРОВАНИЯ ОБРАЗУЮЩЕЙ ПОРШНЯ ДЛЯ ПОВЫШЕНИЯ РЕСУРСА ТРИБОСОПРЯЖЕНИЯ ПОРШЕНЬ – ЦИЛИНДР ДВС 05.02.02 – Машиноведение, системы приводов и детали машин 05.04.02 – Тепловые двигатели Диссертация на соискание ученой степени кандидата технических наук Научный руководитель : доктор технических наук, профессор Рождественский Юрий Владимирович Научный консультант : доктор...»

«Матусевич Олег Владимирович СИНТЕЗ И ИЗУЧЕНИЕ ФРАГМЕНТОВ РНК-ПОЛИМЕРАЗЫ ВИРУСА ГРИППА А 02.00.10 – биоорганическая химия Диссертация на соискание ученой степени кандидата химических наук Научный руководитель : д.х.н., проф. Титов М. И. Санкт-Петербург 2013 ОГЛАВЛЕНИЕ 1. ВВЕДЕНИЕ 2. ЛИТЕРАТУРНЫЙ ОБЗОР 2.1 Пептиды как потенциальные лекарственные средства 2.1.1 Преимущества и недостатки терапевтических пептидов 2.1.2 Химические...»

«ФАЛЕЕВА Лия Владимировна Формирование организационной культуры студентов как фактор социализации личности 13.00.05 – Теория, методика и организация социально-культурной деятельности (по всем уровням образования) Диссертация на соискание ученой степени доктора педагогических наук Москва – 2014 ОГЛАВЛЕНИЕ Введение Глава 1. Философское и...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Ларина, Елена Викторовна Признание доказательств недопустимыми в российском уголовном судопроизводстве Москва Российская государственная библиотека diss.rsl.ru 2006 Ларина, Елена Викторовна Признание доказательств недопустимыми в российском уголовном судопроизводстве : [Электронный ресурс] : В стадии предварительного расследования : Дис. . канд. юрид. наук  : 12.00.09. ­ М.: РГБ, 2005 (Из фондов Российской Государственной Библиотеки)...»

«Арабаджи Оксана Анатольевна Состояние гемостаза и уровень гомоцистеина у женщин на фоне приема синтетических прогестинов с контрацептивной и лечебной целью 14.01.01 – акушерство и гинекология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : доктор медицинских наук,...»

«ПАНЧЕНКО ВИКТОРИЯ ВЛАДИМИРОВНА КЛИНИКО-МОРФОЛОГИЧЕСКАЯ ХАРАКТЕРИСТИКА, ОПТИМИЗАЦИЯ ДИАГНОСТИКИ И ЛЕЧЕНИЯ ОСЛОЖНЕННОЙ ЭКТОПИИ ЦИЛИНДРИЧЕСКОГО ЭПИТЕЛИЯ ШЕЙКИ МАТКИ 14.01.01 – Акушерство и гинекология 14.03.02 – Патологическая анатомия Диссертация на соискание ученой степени кандидата медицинских...»

«Резяпов Айдар Айратович Окончание предварительного расследования с обвинительным заключением (актом, постановлением) и направление уголовного дела в суд Специальность 12.00.09 – Уголовный процесс Диссертация на соискание ученой степени кандидата юридических наук Ижевск-2014 2 ОГЛАВЛЕНИЕ Введение. 3 Глава 1. Направление уголовного дела в суд как форма окончания предварительного расследования. 1.1. Окончание предварительного...»

«НИКОЛОВА ВЯРА ВАСИЛЕВА РУССКАЯ ДРАМАТУРГИЯ В БОЛГАРСКОМ КНИГОИЗДАНИИ 1890-1940-Х ГОДОВ Специальность 05.25.03 – Библиотековедение, библиографоведение и книговедение Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель : кандидат филологических наук, профессор И.К....»

«Нисская Анастасия Константиновна СРАВНИТЕЛЬНАЯ ОЦЕНКА РАЗВИВАЮЩЕГО ПОТЕНЦИАЛА РАЗЛИЧНЫХ ДОШКОЛЬНЫХ ОБРАЗОВАТЕЛЬНЫХ СРЕД 19.00.13 – Психология развития, акмеология (психологические наук и) Диссертация на соискание ученой степени кандидата психологических наук Научный руководитель доктор психол. наук, профессор Карабанова О.А. Москва – СОДЕРЖАНИЕ Введение... Глава I. АНАЛИЗ ОБРАЗОВАТЕЛЬНОЙ СРЕДЫ...»

«Копик Мария Игоревна Компенсация морального вреда жертвам терроризма 12.00.03 - гражданское право, предпринимательское право, семейное право, международное частное право Диссертация на соискание ученой степени кандидата юридических наук Научный руководитель доктор юридических наук, профессор Н.А. Баринов Волгоград - Содержание...»

«Разумов Николай Геннадьевич ПОЛУЧЕНИЕ ПОРОШКОВОЙ ВЫСОКОАЗОТИСТОЙ АУСТЕНИТНОЙ СТАЛИ МЕТОДОМ МЕХАНИЧЕСКОГО ЛЕГИРОВАНИЯ ЖЕЛЕЗА АУСТЕНИТООБРАЗУЮЩИМИ ЭЛЕМЕНТАМИ В АЗОТОСОДЕРЖАЩЕЙ АТМОСФЕРЕ Специальность 05.16.06 – Порошковая металлургия и композиционные материалы ДИССЕРТАЦИЯ на соискание ученой степени кандидата...»

«Иванова Татьяна Николаевна УДК 621.923 ПОВЫШЕНИЕ ЭФФЕКТИВНОСТИ ТОРЦОВОГО АЛМАЗНОГО ШЛИФОВАНИЯ ПЛАСТИН ИЗ ТРУДНООБРАБАТЫВАЕМЫХ СТАЛЕЙ НА ОСНОВЕ ИЗМЕНЕНИЯ ТЕМПЕРАТУРНО-СИЛОВЫХ УСЛОВИЙ ПРОЦЕССА Специальность 05.02.08 – Технология машиностроения Специальность 05.02.07 – Технология и...»

«Овчинникова Светлана Яковлевна ФАРМАКОГНОСТИЧЕСКОЕ ИЗУЧЕНИЕ ЛЮБИСТКА ЛЕКАРСТВЕННОГО (LEVISTICUM OFFICINALE KOCH.) 14.04.02 – фармацевтическая химия, фармакогнозия Диссертация на соискание ученой степени кандидата...»

«vy vy из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Лучанкин, Александр Иванович 1. Социальные представления и социальная работа (Проблемы философского обоснования) 1.1. Российская государственная библиотека diss.rsl.ru 2002 Лучанкин, Александр Иванович Социальные представления и социальная работа (Проблемы философского обоснования) [Электронный ресурс]: Дис.. д-ра филос. наук : 09.00.11 - М.: РГБ, 2002 (Из фондов Российской Государственной Библиотеки) Социальная философия Полный текст:...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.