«Методы, алгоритмы и программы решения задач идентификации языка и диктора ...»
Федеральное государственное автономное образовательное учреждение
высшего профессионального образования
Национальный Исследовательский Университет
“Высшая Школа Экономики”
На правах рукописи
Ермилов Алексей Валерьевич
Методы, алгоритмы и программы решения задач идентификации языка
и диктора Специальность 05.13.11 — «Математическое обеспечение вычислительных машин, комплексов и компьютерных сетей»
Диссертация на соискание учёной степени кандидата физико-математических наук
Научный руководитель:
доктор технических наук Гостев И.М.
Москва – Содержание Введение.................................... 1 Методология обработки речевого сигнала............... 1.1 Общая схема обработки речевого сигнала.............. 1.2 Акустические характеристики и особенности речевых сигналов. 1.3 Особенности описания речевых сигналов для их идентификации 1.3.1 Модель речеобразования.................... 1.3.2 Статистические свойства речевого сигнала......... 1.4 Анализ методов распознавания речи, языка и диктора....... 1.4.1 Акустико-фонетический подход................ 1.4.2 Подход с точки зрения распознавания образов........ 1.4.3 Подход с точки зрения исусственного интеллекта...... 1.5 Методы выделения акустических признаков............ 1.5.1 Модель банка фильтров.................... 1.5.2 Коэффициенты линейного предсказания........... 1.6 Кепстральные коэффициенты.................... 1.6.1 Строение человеческого уха.................. 1.6.2 Методы шкалирования полос................. 1.6.3 Спектральные огибающие................... 1.6.4 Кепстральная обработка речевого сигнала.......... 1.6.5 Анализ акустических вариаций в речевых сообщениях... 1.6.6 Способы компенсации длины речевого тракта........ 1.7 Выводы................................. 2 Математические методы и алгоритмы, используемые для распознавания речи и диктора..................... 2.1 Скрытые Марковские Модели.................... 2.1.1 Математическое описание Скрытых Марковских Моделей. 2.1.2 Основный задачи, решаемые с помощью Скрытых Марковских Моделей...................... 2.1.3 Алгоритмы решения основных задач, связанных с HММ.. 2.2 Методы распознавания диктора................... 2.2.1 Метод распознавания диктора, основанный на SVM.... 2.2.2 Базовая модель SVM...................... 2.2.3 Метод SVM с ядрами...................... 2.2.4 Метод SVM со штрафами................... 2.2.5 Подбор параметров распознавателя.............. 2.2.6 Фишеровские ядра....................... 2.3 Метод, основанный на дикторонезависимых признаках...... 2.3.1 Auditory Image Model...................... 2.3.2 Расширение Грам-Шарлье................... 2.3.3 Алгоритм получения признаков................ 2.4 Выводы................................. 3 Реализация системы идентификации языка и диктора....... 3.1 Общий вид системы идентификации языка и диктора....... 3.2 Архитектура программной реализации............... 3.3 Применение параллельных вычислений в задаче идентификации языка и диктора............................ 3.4 Особенности конвейерной обработки речевого сигнала...... 3.5 Архитектура вычислительного комплекса.............. 3.6 Выводы................................. 4.2.2 Эксперименты с реальными данными............ 4.3 Способы определения языка по искаженному сообщению.... 4.3.1 Использования SVM для идентификации языка....... 4.3.2 Результаты экспериментов. Тексты.............. 4.3.3 Результаты экспериментов. Речь............... Введение В современном мире все большее значение уделяется интерфейсам, использующим речевой ввод и вывод для взаимодействия между пользователем и компьютером. Поэтому всё большее многообразие в голосовых сообщениях приходиться принимать во внимание разработчику систем распознавания речи, реализующих акустический интерфейс.
транскрибирования слитной речи до верификации и идентификации диктора) в настоящее время является крайне актуальной. Свидетельством этому служит растущее число публикаций и конференций по данной тематике (таких как ICASSP, INTERSPEECH), а также то, что в крупнейших транснациональных корпорациях (таких как Microsoft, Google, IBM) открываются департаменты, ориентированные на исследования в данной тематике.
Исследовательские усилия в сфере речевых технологий привели к появлению большого числа коммерческих систем распознавания речи. Такие компании как Nuance, IBM, ScanSoft предлагают большой набор программных решений как для серверных, так и для десктопных приложений.
Улучшение существующих систем распознавания речи позволит существенно упростить взаимодействие человека с компьютером в том случае, когда использование классических интерфейсов невозможно (например, при управлении автомобилем или в сложных условиях, таких как ликвидация последствий чрезвычайных ситуаций ) или затруднено (например, людям, обладающим слабым зрением, или с ограниченными физическими возможностями), а также сделать работу с компьютером или иной техникой более комфортной. Также следует отметить, что применение систем распознавания речи весьма велико в работе правоохранительных служб (например, при идентификации говорящего или в системе защиты свидетелей).
Необходимость исследований по этой тематике объясняется малоудовлетворительными результатами существующих систем при низком соотношении сигнал/шум, зависимостями результата от диктора и, в ряде задач, невысокой скоростью работы систем.
Существующие системы распознавания речи в основном построены на Скрытых Марковских Моделях (HMM), которые задают динамику перехода от одной фонемы в речи к другой и обеспечивают вариативность наблюдаемого сигнала посредством моделирования вероятностного распределения признаков посредством Гауссовой Смеси (GMM) [1]. Такой подход был предложен в Лоуренсом Рабинером и долгое время являлся основным для моделирования речевого сигнала.
Быстро развивающейся альтернативой HMM становятся Deep Belief Networks [2], которые обеспечивают высокую точность распознавания. Работы, посвященные байесовским сетям, были начаты в середине 80-х годов, но особую распространённость получили после публикаций серии работ Д.
Хинтона, в которых приводились эффективные алгоритмы подобных сетей, а также примеры их использования.
Для описания речевого сигнала в системах автоматического распознавания речи со времен работы Л. Рабинера используются так называемаы мелкепстральные коэффициенты (MFCC Mel Frequency Cepstral Coefficients), начало развитию которых положил Пол Мермельстайн в 1976 [3].
Также следует отметить, что в последнее время альтернативой используемым сейчас MFCC становятся признаки, устойчивые к вариабельности речевого тракта у диктора (например, bottleneck features [4]), что позволяет строить более робастные системы. В данном исследовании предлагается новая вероятностная модель (расширение Грам — Шарлье для функции распределения) для дикторонезависимых признаков и использование Фишеровских ядер в алгоритме опорных векторов, а также используется новые вычислительные методы для оценки этих модели (алгоритм симуляции отжига), использующие преимущества параллельных вычислений. Следует отметить, что указанные методы пока не получили широкого распространения при решении задачи распознавания речи и их применение является новаторским и может послужить базой для дальнейшего развития этого направления. При применении этих моделей имеется прирост в точности распознавания языка и диктора, а также ускорение работы всей системы распознавания.
Следует также отметить, что более широкому распространению компьютерных систем распознавания речи способствовало активное развитие сначала многопоточных, а затем и многопроцессорных систем, в том числе и многоядерных с общей памятью.
В течении длительного времени использование систем автоматического распознавания больших параллельных потоков речи было ограничено в виду недостаточного быстродействия оборудования, а именно - невозможности обработки online. Для функционирования в реальном времени системам, оперирующим с непрерывными потоками речи, приходилось находить компромисс между объемом словаря (а значит, и потенциальной сферой применения), сложностью грамматики и точностью распознавания. Таким образом, повышение скорости работы распознавателя будет положительным образом сказываться на объеме тех задач, где возможна работа в реальном времени, а также на точности распознавания. Хорошим примером может служить работа сотовой станции или call – центра, где на обработку одновременно может приходить огромное количество заявок, требующих обработки в реальном времени.
Настоящим предметом исследования ставится задача распознавания языка и диктора, которая является частным случаем задачи распознавания образов, в которую также входят задачи классификации, регрессии и восстановления эмпирических зависимостей по историческим данным [5].
Целью данной работы является 1. Создание метода идентификации диктора по речевому сообщению для создания человеко - машинного интерфейса.
2. Создание дикторонезависимых признаков речевого сигнала и методов их получения для решения задачи идентификации языка.
3. Анализ численных методов решения задач идентификации языка и диктора.
4. Построение параллельных алгоритмов решения задач идентификации языка и диктора.
5. Программная реализация указанных методов и исследование их практической применимости.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Исследование моделей акустических сигналов, применяемых в системах распознавания языка и диктора.
2. Разработка математический модели дикторонезависимых акустических признаков на основе 4-х параметрического семейства распределений.
3. Модификация метода опорных векторов для решения задачи идентификации диктора по речевому сообщению фиксированной длины с целью повышения качества распознавания.
4. Модификация метода симуляции отжига для повышения быстродействия и качества признаков, применяемых для распознавания языка.
5. Анализ предложенных и существующий моделей и методов для сравнения их быстродействия и точности распознавания.
Основные положения, выносимые на защиту:
1. Проведён анализ существующего состояния в сфере распознавания языка и диктора.
2. Выявлены дикторонезависимые признаки, основанные на 4-х параметрическом распределении, и доказана их оптимальность.
3. Разработана модификация алгоритма симуляции отжига, увеличивающия быстродействие системы при получении дикторонезависимых признаков.
4. Разработана и теоретически обоснована модифицикация метода опорных векторов, основанная на применении фишеровских ядер, которая позволяет увеличить точность распознавания диктора.
5. Проведён сравнительный анализ алгоритмов оптимизации для получения дикторонезависимых признаков по скорости и точности.
6. Разработаны и теоретически обоснованы методы и алгоритмы получения параметров классификатора для решения задач идентификации языка и диктора.
7. Создана программная реализация разработанной системы идентификации языка и диктора, фрагменты который внедрены на производстве.
8. Проведены экспериментальные исследования по оценке точности распознавания и быстродействию системы идентификации языка и диктора, которые показали преимущества разработанных методов по сравнению с применяемыми ранее.
Научная новизна:
1. Изучены информационные признаки идентификации языка и диктора на основе физиологических особенностей человеческого языка и дикции с учетом механизма восприятия звука человеком при распознавании речи.
2. Впервые предложена система характерных признаков для распознавания языка с применением 4-х параметрического семейства распределений (расширение Грам-Шарлье).
3. Разработана и обоснована теоретически модификация метода опорных векторов, основанная на применении фишеровских ядер, которая позволяет увеличить точность распознавания диктора.
4. Впервые проведён сравнительный анализ алгоритмов оптимизации для вычисления акустических дикторонезависимых признаков по скорости и точности.
5. Разработана модификация алгоритма симуляции отжига увеличивающая быстродействие системы при получении дикторонезависимых признаков за счет введения в алгоритм параллельно выполняющихся циклов.
6. Разработаны и теоретически обоснованы методы и алгоритмы получения параметров классификатора для решения задач идентификации языка, основанные на использовании метода опорных векторов, повышающие точность распознавания.
7. Проведены экспериментальные исследования по оценке точности распознавания и быстродействию системы идентификации языка и диктора, которые показали преимущества разработанных методов по сравнению с применяемыми ранее.
Теоретическая значимость.
следующем.
1. Впервые разработаны методы идентификации диктора, основанные на методе опорных векторов с применением Фишеровских ядер.
2. Впервые была предложена и теоретически обоснована модель акустических дикторонезависимых признаков, использующая 4-х параметрическое распределение (расширение Грам-Шарлье) для моделирования речевых признаков, которая была использована для аутентификации и в системах безопасности и работе правоохранительных отжига увеличивающая быстродействие системы при получении дикторонезависимых признаков за счет введения в алгоритм параллельновыполняющихся циклов.
Практическая значимость.
большое научное и народно-хозяйственное значение (имеется акт о внедрении) при создании человеко-машинных интерфейсов и идентификации личности и языка в работе различных государственных служб и органов.
Степень достоверности использованием строгих математических методов теории вероятностей и математической статистики, распознавания образов. Достоверность подтверждается моделированием и проведенными вычислительными экспериментами с использованием реальных и симулированных данных, а также путём сопоставления результатов, полученных в диссертации, с результатами, доступными в открытой печати.
Апробация работы. По материалам диссертации опубликовано 5 статей ( из которых в журналах из списка ВАК, одна в международном реферируемом журнале), 6 тезисов на международных конференциях. Результаты настоящего исследования были представлены на следующих конференциях и семинарах:
Конференции студентов, аспирантов и молодых специалистов МИЭМ в 2010 г; Конференции студентов, аспирантов и молодых специалистов МИЭМ в 2011 г; Международной конференции «Моделирование нелинейных процессов и систем» (СТАНКИН 2011 г.); 5-я Международной Конференции «Распределённые вычисления и Грид-технологии в науке и образовании»
(GRID - 2012) (Дубна Московская обл. 2012 г.); X Международной научно-технической конференции «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации» (Курск 2012); The First International Conference on Modern Manufacturing Technologies in Industrial Engineering “ModTech – 2013”, (Румыния, Синая 2013 г.); International Conference on Mathematic Modeling and Computing in Physics (MMCP’2013) (Дубна Московская обл., 2013 г.); XI Международной научно-технической конференции «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации» (Курск 2013).
Личный вклад. Во всех работах с соавторами вклад автора диссертации является определяющим.
Публикации. Основные результаты по теме диссертации изложены в печатных изданиях [6–16], 3 из которых изданы в журналах, рекомендованных ВАК [6–8], одна работа [9] опубликована а междунарожном реферируемом журнале, 6 — в тезисах докладов [11–15].
Объем и структура работы. Диссертация состоит из введения, четырёх глав и заключения. Полный объем диссертации составляет 134 страницы с 26 рисунками и 5 таблицами. Список литературы содержит 81 наименование.
Глава Методология обработки речевого сигнала 1.1 Общая схема обработки речевого сигнала Целью данного раздела является описание общей схемы генерации и обработки речевого сигнала для идентификации языка и диктора.
На рис. 1.1 изображена упрощённая схема речвого аппарата человека.
Речевой сигнал получается прохождением воздуха через так называемый речевой тракт.
Определение. Речевым трактом называют часть речевого аппарата человека, которая располагается между голосовой щелью и губами.
Рисунок 1.1: Схема речевого аппарата человека.
Генерация речевого сигнала происходит следующим образом. Создаваемый легкими поток воздуха за счет вибраций голосовых связок модулируется в гортани, форма которой является важным для формирования звуков.
Способность голосовых связок изменять свою форму и колебаться по частям в процессе голосообразования приводит к разнообразию издаваемых человеком звуков. При движении вдоль речеового тракта могут изменяться характеристики воздушного потока, что и приводит к преобразованию звукового сигнала в акустический речевой сигнал. Описание базовых акустистических речевых сигналов будет дано ниже.
В речевом сообщении содержится все информация, необходимая для его распознования, однако из-за сильной изменчивости сигнала необходимо проводить предварительную обработку его обработку и выделение признаков для последующего анализа.
На рис. 1.2 приведена упрощенная схема обработки речевого сигнал для идентификации языка и диктора.
На первом этапе обработки из речевого сигнала удаляют шум, производят усиление и выравнивают сигнал в спектральной области. Цель этого этапа заключается в том, чтобы сделать сигнал как можно более чистым. Стоит отметить, что свойства речевого сигнала медленно меняются со временем, то есть, он является квази-стационарным. Если рассматривать его на коротких временных интервалах (5-100 мс), то характеристики остаются постоянными.
Таким образом, на этапе предобработки речевой сигнал нарезают на участки, называемые фреймами, с помощью движущегося окна.
На втором этапе происходит выделение акустических признаков. Известно большое количество таких признаков, наиболее популярными из которых являются коэффициенты линейного предсказания [17] и кепстральные Рисунок 1.2: Общая схема обработки речевого сигнала для идентификации языка и диктора.
коэффициенты [18]. Для получения признаков на каждом фрейме над сигналом проводят следующие операции.
• Спектрального преобразования (например, Быстрого Преобразования Фурье).
• Фильтрация с помощью банка фильтров. Пример подобного банка фильтров приведён на рис. 1.3.
• Функциональное преобразование. Например, логарифмирование.
• Нормализация.
В зависимости от решаемой задачи вычисленные признаки либо непосредственно используются для классификации (например, для решения задачи идентификации диктора), либо подаются на вход акустической модели, результат работы которой используется в дальнейшем (например для транскрибирования речи, либо для распознавания языка). В качестве акустической модели обычно используются Скрытые Марковские Модели.
1.2 Акустические характеристики и особенности речевых сигналов Целью данного раздела является изложение особенностей физических аспектов акустических сообщений, используемых при идентификации речевых сигналов.
Физические свойства звука могут быть описаны в виде суперпозиции волн с разным звуковым давлением, которые распространяются в некоторой физической среде, например, такой как воздух. В настоящей работе будут исследоваться только продольные звуковые волны [19], то есть такие, где молекулы среды движутся относительно их средней позиции в направлении, совпадающем с направлением распространения волны. Распространение волны приводит к тому, что молекулы, располагающиеся на расстояние в половину волны друг от друга, вибрируют в противоположных направлениях, что приводит к появлению сменяющих друг друга регионов сжатия и разряжения. Следовательно, давление звука, определяемое как разность между мгновенным и статическим давлением, представляет собой функцию позиции и времени.
В дальнейшем будет предполагаться, что звуковые волны распространяются исключительно в воздухе и среда распространения обладает следующими свойствами:
1. Гомогенность, то есть однородность структуры.
2. Изотропность, то есть независимость свойств среды от направления.
3. Стационарность, то есть независимость свойств среды от времени.
Среда, в которой возможно распространение звука, обладает свойствами массы и эластичности. Эластичность идеального газа определяется дилатацией объёма и сжатием объёма.
Сжатие объёма или отрицательная дилатация идеального газа определяется как где V - объём, V - изменение объёма.
Эластичность идеального газа определяется объёмным модулем где p - изменение давления.
Распространение звука представляет собой адиабатический процесс, так как расширение и сжатие продольных волн происходят быстрее, чем распространение тепла.
постоянном давлении и постоянном объёме соответственно. Тогда объёмный модуль можно приблизить с помощью адиабатической экспоненты = :
Скорость звука в направлении, противоположном от источника, была измерена Лапласом в условиях адиабатического процесса c =, где – плотность воздуха. Скорость звука в воздухе зависит главным образом от атмосферных условий (в основном от температуры и в меньшей степени от влажности). В предположении о том, что воздух представляет собой идеальный газ, давление воздуха не играет роли на скорость звука, так как давление и плотность влияют на скорость одинаково, и, как следствие, эти два эффекта компенсируют друг друга.
Чтобы дать определение интенсивности звука, введём понятие потенциала скорости. В консервативном и односвязанном векторном поле скорость потока может быть представлена как градиент от скалярной функции, которая и называется потенциалом скорости.
Определение. Интенсивность звука или акустическая интенсивность есть произведение звукового давления p на потенциал скорости : Iзвук = p.
Утверждение. Интенсивность звука обратно пропорциональна квадрату расстояния до источника.
Доказательство.
представлено как суперпозиция исходящей и входящей звуковых волн:
где A, B - силы источников. Используя соотношение между звуковым давлением и потенциалом скорости [19] p = 0, интенсивность звука представляется как Из этих двух уравнений получаем требуемое.
идентификации Цель этого раздела показать особенности представления речевого сигнала, описать методы разбиения его на разные фонетические единицы и изложить методы, характеризующие статистические свойства речевого сигнала.
1.3.1 Модель речеобразования Известно, что речь состоит из звуковых волн, созданных прохождением воздуха через речевой тракт. Квазипериодическое открытие и закрытие речевых складок приводит к произношению звонких звуков, таких как гласные, отличающиеся периодичностью и большими значениями энергии, и некоторых согласных. В случае, когда речевые складки не вибрируют, образуются согласные звуки. Дополнительное разделение речевого сигнала на звонкие и глухие звуки очень важно, так как эти звуки имеют разные характеристики как в спектральной, так и временной областях.
Физиологические особенности речевого тракта приводят к тому, что речь каждого человека обладает уникальными параметрами, такими как высота тона, скорость произношения, акцент и др. При произношении гласных звуков форма и длина речевого тракта оказывают влияние на расположение и высоту спектральных пиков, называемых формантами. Форманты в свою очередь формируют спектр.
Моделирование речеобразования сводится к моделированию фонем, базовых лингвистических единиц, за образование которых отвечают два фактора: случайный шум или возбуждающие импульсы и форма речевого тракта. При моделировании можно считать, что эти факторы независимы [21].
Процесс речеобразования обычно моделируют, используя линейную динамическую систему [19]. Пример такой модели приведён на рис. 1.4. Здесь Рисунок 1.4: Линейная динамическая система речеобразования через фильтр речевого тракта V (z) и фильтр губного испускания R(z) проходит либо последовательность возбуждающих импульсов, либо зашумленный сигнал с плоским спектром. Фильтр речевого тракта V (z) имеет плоский спектральный тренд, но при этом локальные резонансы и антирезонансы могут присутствовать. Губы в данной модели представляют собой фильтр высоких частот R(z), с усилением 6 ДБ на октаву. Для моделирования звонких звуков возбуждающие импульсы имеют высоту звука p, с наложенным фильтром низких частот второго порядка G(z), имеющим усиление, которое убывает на 12 ДБ на октаву. Этот фильтр моделирует прохождение звука через голосовую щель.
Для описания речи используются различные схемы. Примером такой схемы является фонемная. При этом фонемой называется элементарная лингвистическая единица, достаточная для различения двух слов.
Акустической реализацией фонемы является фон.
В соответсвии с Международным Фонетическим Алфавитом [19] фонемы могут быть разделены на два главных класса: гласные и согласные. Согласные звуки могут быть дальше классифицированы на лёгочные и не лёгочные.
Дальнейшая классификация согласных звуков может быть произведена следующим образом.
• Носовые звуки.
• Взрывные звуки.
• Фрикативные звуки.
Классы гласных и согласных звуков могут быть расширены путем включения переходных классов, например, аппроксимантов и дифтонгов.
Аппроксиманты - это звонкие звуки, лежащие между гласными и согласными.
Дифтонги представляют собой комбинацию гласного звука и перехода от этого гласного звука к другому гласному звуку.
1.3.2 Статистические свойства речевого сигнала Речевой сигнал представляет собой нестационарный процесс [22], то есть, его статистические свойства меняются со временем. Вместе с тем представляется возможным так “нарезать“ речевой сигнал на сегменты некоторой длины (такие сегменты называются фреймами), чтобы в пределах одного сегмента характеристики процесса менялись не слишком сильно. Таким образом, представляется возможным использование методов теории случайных процессов для моделирования речевых сигналов.
Статистические свойства речевого сигнала важны как для вычисления признаков, используемых для распознавания, так и для самого распознавания.
На практике широко используются признаки, основанные на моментах второго порядка: спектр и автокорреляционная функция. В последнее время (см., например, [23, 24]) начали использоваться моменты более высокого порядка, таких как ассиметрия и эксцесс. Мотивацией этому служит явная негауссовость распределения речевого сигнала, как во временной области, так и в частотной.
На рисунке 1.5 изображена гистограмма наблюдений амплитуды речевого сигнала с подогнанными распределениями. Использованию и моделированию Рисунок 1.5: Гистограмма значений амплитуды речевого сигнала.
моментов высокого порядка и посвящена настоящая работа.
1.4 Анализ методов распознавания речи, языка и диктора Существуют различные принципы распознавания речи. В настоящей работе будет использоваться классификация на основе [22], где выделяют следующие подходы к автоматическому распознаванию речи:
• Акустико-фонетический подход.
• Подход с точки зрения распознавания образов.
• Подход с точки зрения искусственного интеллекта.
Кратко рассмотрим эти подходы по отдельности.
1.4.1 Акустико-фонетический подход Акустико-фонетический подход использует для распознавания речи последовательное декодирование сигнала, представленного в виде наблюдаемых акустических признаков, используя известные взаимосвязи акустических и фонетических символов [22]. В этом подходе постулируется, что в разговорном языке существуют различимые фонетические единицы, которые могут быть описаны с помощью набора характеристик, наблюдаемых в речевом сигнале. Кроме того, предполагается, что, несмотря на то, что эти характеристики могут значительно изменяться не только от диктора к диктору, но и между соседними фонетическим единицами, представляется возможным описать и применить на практике правила, описывающие эти изменения.
Таким образом, первым шагом в акустико-фонетическом подходе к распознаванию речи является разбиениe(сегментация) речевого сигнала на дискретные во времени участки, в которых акустические свойства сигнала представлены одной фонетической единицей, с последующей разметкой этих участков с помощью фонетических символов (меток). На этом этапы получается так называемая фонетическая решётка. Получение надёжной фонетической решетки уже представляет собой достаточно сложную проблему.
На втором шаге происходит непосредственно распознавание, при котором определяются целые слова из последовательностей символов, полученных ранее. Также следует иметь в виду, что полученные слова должны удовлетворять заданным ограничениям, например, присутствовать в априори заданном словаре, иметь семантический смысл и т.д.
К сожалению, такой подход обладает многими серьёзными недостатками, которые ведут к слабым нестабильным результатам в системах распознавания речи. Среди таких недостатков можно отметить:
1. Необходимость объемных знаний об акустических свойствах фонетических единиц.
2. Качество распознавания зависит от выбранных признаков и определяется разработчиком системы, так как нет никакой методики их выбора.
3. Отсутствие оптимальной схемы классификации звуков.
4. Зависимость разметки речевого сигнала от человека, проводящего эту разметку, с учётом восприятия данного речевого сигнала.
1.4.2 Подход с точки зрения распознавания образов Подход с точки зрения распознавания образов заключается в том, что речевые паттерны используются без предварительного определения признаков и сегментации [22]. Как и в большинстве подходов основанных на распознавании образов, процесс распознавания происходит в два этапа. На первом этапе (обучение) система приобретает знания о речевых паттернах.
Предполагается, что если системе будет предоставлено достаточное число экземпляров паттерна, то она сможет охарактеризовать его акустические свойства. Таким образом, система обучается находить устойчивые акустические свойства, которые повторяются на всём обучающем множестве.
Распознавание здесь происходит путём сравнения паттерна из неизвестного сегмента речи со всеми возможными паттернами, которые получены за время обучения. Далее система соотносит неизвестный сегмент с тем паттерном, который наиболее близок (в заданной метрике) к этому сегменту. К достоинствам и недостаткам этого подхода можно отнести следующее:
1. Зависимость от объема имеющегося обучающего множества: чем больше объем обучающего множества, тем выше точность распознавания системы.
2. Система получается чувствительной к способу передачи сигнала и характеристикам среды, в виду того, что для описания паттернов часто используются спектральные характеристики.
3. Отсутствие использования информации, специфичной для данного сегмента речи: выбор словаря, тематической области, семантики.
4. Вычислительная нагрузка на обучение и классификацию зависит линейно от объёмов входных данных, следовательно, для больших задач обучение и классификация может занять слишком много времени.
5. Возможность включения ограничений на распознаваемые элементы прямо в распознающую структуру.
1.4.3 Подход с точки зрения исусственного интеллекта Подход с точки зрения искусственного интеллекта представляет собой гибрид акустически-фонетического подхода и подхода с точки зрения распознавания образов [22]. Идея заключается в том, чтобы собрать и объединить знания из разных источников и применить их к решаемой задаче.
В этом случае делается попытка автоматизировать процесс распознавания, например, для сегментации и разметки речевого сигнала, обучения и адаптации к новым данным и т.д.
К различным источникам информации о речевом сигнале можно отнести:
• Акустическую информацию – информацию о том, какие фонетические единицы (например, звуки) были произнесены на основе спектрального анализа сигнала.
• Лексическую информацию – информацию о том, как звуки образуют слова.
• Синтаксическую информацию – информацию о том, как согласно заданной модели языка слова образуют более сложные элементы языка (фразы или предложения).
• Семантическую информацию - информацию о предметной области, которая используется для проверки того, как уже распознанные фразы соотносятся с предметной области.
Существует несколько способов интегрировать указанные источники внутри распознавателя [22]. Наиболее часто используется подход, в котором низкоуровневая обработка сигнала (определение признаков, фонетическое декодирование) происходит непосредственно перед применением моделей языка и других средств обработки высокого уровня. Альтернативным подходом является использования модели языка для формулирования слов – гипотез, соответствующих данному речевому сигналу.
1.5 Методы выделения акустических признаков Все три описанных подхода к автоматическому распознаванию речи (акустико-фонетический, с точки зрения распознавания образов и с точки зрения искусственного интеллекта) объединяет необходимость выявления признаков, описывающих волновой речевой сигнал с помощью набора параметров с целью его дальнейшего анализа и обработки.
Наиболее часто используемым параметрическим представлением речи является спектральный анализ. Примером получения спектральной информации о сигнале является Быстрое Преобразование Фурье. К сожалению, такая спектрограмма оказывается слишком сложным представлением речевого сигнала и требует некоторого изменения для практического применения.
Рассмотрим основные модели спектрального анализа, позволяющие характеризовать спектр в более сжатом виде: модель спектра на основе банка фильтров, модель на основе коэффициентов линейного предсказания (Linear Predictive Coding - LPC) и аудиторная модель.
1.5.1 Модель банка фильтров Одним из методов для сжатого представления спектра является метод банка фильтров. Идея метода заключается в том, чтобы разделить интересующий диапазон частот на полосы и измерять общую энергетику в каждой полосе.
Фильтры могут перекрываться по частотам.
Обозначим через s(t) исходный речевой сигнал, тогда сигнал на выходе из фильтра представляет собой краткосрочное спектральное представление исходного сигнала в момент времени t. Очевидно, что в этой модели каждый фильтр обрабатывает речевой сигнал независимо.
Пройдя через банк фильтров, входной сигнал представляется в виде:
где hi (m) импульсный отклик i-го фильтра длительностью Mi, форма которого будет представлена позже.
Цель данного метода – представить энергию входного речевого сигнала в данной частотной полосе, поэтому каждый полосовой сигнал обрабатывается нелинейной функцией (например, полуволновым выпрямителем). Это приводит к тому, что спектр полосового сигнала смещается в нижнюю полосу и создаётся высокочастотный образ. Для удаления высокочастотной составляющей используются полосовые фильтры, которые позволяют оценить энергию речевого сигнала в каждой полосе.
Важным вопросом является выбор частот, на которых будут располагаться фильтры. Существует несколько способов выбора.
1. Равномерное расположение.
определяется как где F частота дискретизации, а N – количество фильтров необходимых для покрытия всего диапазона частот. Следует отметить, что использование равномерно расположенных фильтров не оптимально, так как при распознавании гласных их форманты будут попадать в 1, 2, 3 банк фильтров, что приводит к тому, что почти все гласные попадут в один 2. Логарифмическая шкала. Центральная частота и ширина полосы пропускания строятся следующим образом:
где C, f1 – произвольные значения полосы пропускания и центральной частоты первого фильтра, а - логарифмический фактор роста. В этом случае проблема с неудачной классификацией гласных пропадает, так как форманты будут попадать в разные участки частот.
3. Расположение в соответствии с особенностями человеческого восприятия.
В этом случае выбор центральных частот фильтров производится так, чтобы фильтры давали одинаковый вклад в артикуляцию речи.
Следует отметить, что перед началом анализа с помощью банка фильтров необходимо произвести предварительную обработку речевого сигнала. Её цель заключается в том, чтобы сделать сигнал как можно более чистым: убрать шум, убрать долгосрочные спектральные тренды и выровнять сигнал в спектральной области. Предварительная обработка сигнала может включать в себя большой набор операций, среди которых необходимо упомянуть следующие:
1. Предварительное усиление. Усиление применяется для того, чтобы выровнять присущую речи неравномерности в спектре.
2. Удаление шума.
1.5.2 Коэффициенты линейного предсказания Для представления модели речевого сигнала в распознавании речи широко используются коэффициенты линейного предсказания (LPC [17]) благодаря следующим особенностям:
1. Модель демонстрирует особенно хорошие свойства [22] для тех участков сигнала, где имеется звуковые элементы. На тех участках, где находиться тишина или переходящие участки речи, модель менее эффективна.
2. Применение LPC ведёт к тому, что происходит хорошее разделение источника и вокального тракта, что приводи к простому представлению его характеристик.
3. LPC представляет собой математически точную и достаточно простую в реализации модель.
Основная идея, которая стоит за моделью линейного предсказания заключается в том, что сигнал в данный момент времени можно представить в виде линейной комбинации прошлых значений:
где коэффициенты {ai }p считаются постоянными на протяжении времени фрейма. Также можно добавить в уравнение возбуждающий сигнал Gu(t):
где u(t) – нормализованный возбуждающий сигнал и G – усиление возбуждающего сигнала. Это уравнение интерпретируется в следующем виде [22]. Речевой сигнал является результатом прохождения возбуждающего сигнала через систему, чья передаточная функция имеет только полюса, определяемые коэффициентами {ai }p.
Главная проблема при использовании модели линейного предсказания заключается в том, что необходимо определять набор коэффициентов из речевого сигнала таким образом, чтобы спектральные свойства цифрового фильтра совпадали со свойствами данного участка звуковой волны в пределах данного окна наблюдений. Сложность этого проявляется в том, что спектральные характеристики речи изменяются во времени. Поэтому коэффициенты следует оценивать, основываясь на данных из короткого временного интервала перед данным моментом времени t. Чтобы выбрать необходимый временной интервал используют взвешивание на основе движущегося окна. Сами оценки можно получить методом наименьших квадратов [25].
Для обоснования применения метода наименьших квадратов к уравнению (1.1) докажем следующую теорему, введя определения состоятельности и асимптотической нормальности.
Пусть {Xi }n - выборка из распределения, зависящего от параметра. Тогда оценка называется состоятельной, если Пусть {Xi }n - выборка из распределения, зависящего от параметра. Тогда оценка называется асимтотически нормальной с дисперсией 2, если где Z - нормальная случайная величина с дисперсией 2 и средним 0.
Утверждение.
полученные методом наименьших квадратов, состоятельные и асимптотически нормальные.
Доказательство. Введём матричные обозначения:
T = (a1... ap ) вектор искомых параметров, Тогда уравнение (1.1) можно переписать в виде Отсюда согласно методу наименьших квадратов получаем, что заметим, что по закону больших чисел T состоятельность.
Далее, для доказательства асимптотической нормальности, перенесём из правой части (1.2) и умножим на T. Получим, что Далее опять по закону больших чисел T StT St Es sT = Q. По центральной предельной теореме Применяя теорему Слутского [25], получаем, что Что и требовалось доказать. Существует проблема, связанная с ситуацией, когда значения речевого сигнала будут выбираться так, чтобы они попадали в сегмент, в этом случае в сигнал будут вноситься сильные искажения.
Действительно, ведь это эквивалентно действию высокочастотного шума в начале и в конце окна. Это приводит к тому, что энергия сигнала будет размываться по прилегающим частотам (так называемая утечка спектра).
Для решения этой проблемы предлагается работать со значениями речевого сигнала по-разному. Для этого входной сигнал умножается на оконную функцию, в качестве которой обычно выступает функция Хемминга:
1.6 Кепстральные коэффициенты 1.6.1 Строение человеческого уха Для разработки и создания устойчивых методов анализа и представления речи были разработаны методы спектрального анализа, основанные на знании того, как функционирует человеческая акустическая система. Предполагается, что чем лучше исследователи понимают, как происходит обработка речевых сигналов в человеческой акустической системе, тем лучшую систему, воспринимающую значение и содержание речи, можно разработать.
Для понимания дальнейшего изложения необходимо рассмотреть физиологическую модель человеческого уха [26]. Оно состоит из трех различных участков: наружного, среднего и внутреннего уха. Наружное ухо состоит из ушной раковины и слухового прохода. Звуковые волны проходят через наружное ухо к среднему уху. Среднее ухо состоит из барабанной перегородки, с которой сталкивается звуковая волна и заставляет её колебаться, и из трёх слуховых косточек (молоточка, наковальни и стремечка), которые преобразуют звуковые колебания в механические, одновременно усиливая их.
Внутреннее ухо состоит из преддверия, улитки и полукружных каналов. Улитка представляет собой заполненный жидкостью канал, разделённый базальной мембраной. Механические колебания, сталкиваясь с овальным окном в преддверии, создают стоячие волны в жидкости внутри улитки, что заставляет базальную мембрану колебаться на частотах, соизмеримых с частотами входного сигнала, в местах связанных с этими частотами. Применение модели человеческого уха будет описано в главе 2.
1.6.2 Методы шкалирования полос Использование банка фильтров обосновывается необходимостью моделирования процессов, происходящих в улитке внутреннего уха, которая ведёт себя как набор пересекающихся частотных фильтров. Полоса пропускания каждого фильтра называется критической полосой [27]. Два чистых звука называют лежащими в одной критической полосе, если они расположены так близко друг к другу, что существует значительное пересечение в их амплитудных огибающих в базальной мембране.
Для построения моделей перцепции, основанных на физиологии акустического восприятия человеческим ухом, были предложены две шкалы, позволяющие ввести некоторые характеристики, используемые для идентификации речи.
Шкала барков была предложена Эберхардом Цвикером и названа в честь Генриха Баркхаузена [27]. Эта шкала является попыткой описать эффект возникновения этих критических полос. Расположение центральных критических полос является нелинейным, оно может быть описано с помощью психоакустической шкалы, предложенной Цвикером:
где f - частота в герцах. Ширина критической полосы может быть приближена следующей формулой:
Шкала мелов (название происходит от английского melody), предложенная Стивенсом [28] основана на альтернативном шкалировании частотного диапазона, с использованием нелинейных особенностей восприятия высоты тона человеческим ухом. Частота в мелах m может быть приблизительно получена из частоты в герцах f следующим образом:
Эти шкалы могут быть применены для построения нелинейного банка фильтров. Банк фильтров в мелах может быть представлен как банк из M треугольных фильтров, усредняющих спектральную энергию вокруг каждой центральной частоты:
– функция самой низкой (fниз ) и самой высокой частот (fвыс ) в банке фильтров, частоты дискретизации (fдискр ) и набора частот в линейной частотной области N. Для ширины пропускания треугольных фильтров назначаются такие значения, что середины центральных частот фильтров расположены на расстоянии в 3 дБ. Треугольные фильтры построены таким образом, чтобы количество энергии входного сигнала было равномерно распределено по каждому их них как показано на рис. 1.6).
ERB (Equivalent Rectangular Bandwidth) - ещё одна шкала, используемая в психоакустике для моделирования акустических фильтров. Для данного акустического фильтра существует эквивалентный ему прямоугольный фильтр, который и называется ERB. ERB равен полосе пропускания совершенного прямоугольного фильтра, чья передаточная способность в его полосе пропускания равна максимальной пропускной способности данного фильтра, пропускающего такую же мощность белого шума [29]. Использование ERB объясняется тем, что она может объяснить некоторые существующие особенности восприятия, такие, например, как псевдо-логарифмический рост ширины критической полосы с ростом частоты и логарифмический закон восприятия интервалов частот [30].
К преимуществам ERB относят [31]: невосприимчивость к биениям и интермодуляциям между сигналом и маскером. ERB -шкала определяется как количество ERB лежащих ниже заданной частоты [31]:
где f - частота в Гц.
1.6.3 Спектральные огибающие Использование энергетического спектра для задач автоматического распознавания речи представляется неудобным, по причине того, что спектральные пики и впадины одинаково отображаются на спектре. Это, в свою очередь, ведёт к нежелательным воздействиям на фундаментальную частоту (то есть на первую основную (низшую) собственную частоту) и эффектам внешнего шума. Энергетический спектр подавляет фундаментальную частоту и её гармоники в речи, и, следовательно, приводит к плохим оценкам функции отклика вокального тракта. Кроме того, шум в логарифмической шкале лучше всего заметен на впадинах, а значит, моделирование впадин представляется бесполезным. С другой стороны, именно в спектральных пиках содержится наиболее важная для распознавания информация, и кроме того, спектральные пики меньше подвержены аддитивным искажениям.
Спектральная огибающая представляет собой функцию в осях энергия – частота, изображающая резонансы вокального тракта, как показано на рис. 1.7. Спектральная огибающая обычно подвергается сглаживанию, чтобы избавиться от влияния спектральных эффектов шумов. Спектральная огибающая хорошо представляет пики в спектре и хуже – впадины.
коэффициентов линейного предсказания [19]. Обычно используется эффективный метод вычисления коэффициентов линейного предсказания, основанный на автокорреляциях и использующий алгоритм Левинсона – Дарбина [32]. В задаче распознавания речи часто применяются коэффициенты линейного предсказания, вычисленные на основе степенного закона человеческого слуха [22]. Отличия от простого вычисления коэффициентов линейного предсказания заключаются в следующем. Во-первых, применяется шкала Барков и логарифмическая компрессия амплитуды до применения алгоритма Левинсона – Дарбина. Во-вторых, для соответствия степенному закону человеческого слуха мощность спектральных компонент возводится в степень 0.33. Эта модификация применяется в частотной области, что приводит к тому, что автокорреляционные коэффициенты не могут быть вычислены непосредственно, следовательно, необходимо применение дополнительного преобразования Фурье.
1.6.4 Кепстральная обработка речевого сигнала Применение кепстрального анализа к системам распознавания речи было предложено в работе [18]. Изложим основы его использования, для чего рассмотрим стационарную последовательность xn, чье z - преобразовние [33] обозначим через X(z).
Комплексным спектром последовательности называется Определение.
стационарная последовательность xn, обладающая таким свойством, что X(z) = log X(z), где X(z) z - преобразование последовательности, и логарифм понимается в комплексном смысле [34].
Для дальнейшего изложения автору необходимо доказать утверждение о свойствах комплексного спектра.
Утверждение.
вычислению обратного преобразования Фурье от комплексного логарифма z - преобразования xn на единичном круге в комплексной плоскости.
Доказательство. По определению обратного z-преобразования получаем При этом контур интегрирования должен лежать в области сходимости. Так как предполагается, что xn – стационарна, то можно параметризовать контур интегрирования как C = {z = ej | (, )}, откуда:
преобразованию Фурье log X ej.
Таким образом, дано объяснение применения спектра для обработки речевых сигналов, а также связь спектра и действительного кепстра. Отсюда можно определить действительный кепстр как 1.6.5 Анализ акустических вариаций в речевых сообщениях Во многих случаях зависимость систем автоматического распознавания языка от диктора основана на том, что используются такие признаки речевого сигнала, которые меняются от диктора к диктору. Разнообразие длин речевого тракта или его формы является основной причиной в изменчивости речевых признаков от диктора к диктору [35].
Тем не менее стоит упомянуть, что различие в длине и форме речевого тракта (см. раздел 1.3.1) не является единственной причиной того, что речевой сигнал является дикторозависимым. В качестве причин подобного различия можно отметить не только физиологические особенности диктора, но и лингвистические, такие как акцент, диалект, громкость голоса, скорость произношения и другие. Кроме того, изменения в речевом сигнале могут появляться даже у одного и того же диктора, в зависимости от его эмоций (гнев, страх) и физических кондиций (усталость, потеря дыхания из-за физической нагрузки) [36, 37].
Подобные различия могут приводить к следующим эффектам.
• Структура речевого сигнала может меняться под воздействием физиологических и эмоциональных факторов, к которым можно отнести болезнь, курение или обстановку, в которой было произнесено сообщение.
• Долговременные параметры речевого сигнала могут быть изменены диктором намеренно, например, для того, чтобы передать какие-либо эмоции или подчеркнуть информационную значимость сообщения.
• Акустическая реализация фонем может варьироваться из-за коартикуляции, замены фонем из-за акцента, или их подавления при спонтанной речи.
Проанализируем источники различий в речевом сигнале более подробно.
В работе [38] был проведен анализ разнообразия речевых сигналов между дикторами методом главных компонент. Было выяснено, что двумя главными компонентами, отвечающими за изменчивость речевого сигнала, являются пол и акцент. Кроме того, для точности распознавания является крайне важным выяснить на каком языке было произнесено речевое сообщение [39].
Распознавание языка искаженного сообщения будет рассмотрено позже. При этом необходимо отметить, что акцент приводит к сдвигу в пространстве признаков [40], при этом сдвиг является весьма значительным именно в случае, когда речевое сообщение было произнесено не носителем языка. Размер самого сдвига зависит и от родного языка диктора, и от степени владения языком.
В обычной речи (или в случае нехватки времени) диктор может нечётко произносить некоторые фонемы или даже слоги. При этом часто плохое произношение попадает на те участки речи, которые несут меньшую информацию, и наоборот, на тех участках речи, в которых имеется важная информация, произношение является очень чётким [41].
Другим важным аспектом при отображении акустического сигнала в фонемы является скорость речи. При этом может происходить как нечеткое произношение (или “проглатывание”) фонем (аналогично случаю спонтанной речи), так и изменение во временной структуре (сжатие или расширение).
Скорость речи по-разному влияет на различные фонемы, например, различие в длительности гласных является более сильным, чем для согласных, при переходе от медленной речи к быстрой [42].
Эмоциональное состояние диктора при произношении речевого сообщения также может сильно влиять на спектральные характеристики речевого сообщения [43], что в свою очередь будет приводить к изменению речевых признаков, а следовательно, и точности их распознавания.
1.6.6 Способы компенсации длины речевого тракта Наиболее популярными используемыми входными речевыми признаками являются Мел-Частотные Кепстральные Коэффициенты (рассмотрены в разделе 2.1.2).
Однако в зависимости от длины речевого тракта (следует отметить, что длина речевого тракта зависит как от пола человека, так и от других физиологических параметров, например, роста, и может изменяться от 13 см у женщин до 18 см у взрослых мужчин), происходит сдвиг частот центральных формант, которая может достигать 25%. Из-за этого различия первоначально обученная модель может плохо распознавать сообщения нового диктора, то есть система становится дикторозависимой.
Рассмотрим механизм подобного поведения. Изменение в длине речевого тракта приводит к сдвигу спектра на мел-частотных осях. При этом, MFCC признаки генерируются с помощью косинус - преобразования, базисные функции которого не могут быть сдвинуты при изменении в длине речевого тракта. Действительно, подогнанный максимум косинуса к пику, соответствующему форманте при данной длине речевого тракта, не может быть сдвинут таким образом, чтобы соответствовать новому пику, образовавшемуся после сдвига в результате изменения длины речевого тракта. Таким образом, изменение в длине речевого тракта приводит к изменению величины всех кепстральных коэффициентов. Тем не менее информация о длине речевого тракта по - прежнему будет присутствовать в MFCC, что ведёт к увеличению времени обучения и размера обучающего множества.
Один из способов решения этой проблемы – применение так называемой нормализации длины речевого тракта (Voice tract length normalization, VTLN [44]), в ходе которой происходит преобразование исходного звукового сигнала, таким образом, чтобы центральные форманты находились на одной частоте. Например, можно предварительно сдвигать мел фильтры с помощью линейного [36] или нелинейного преобразования [45] таким образом, чтобы расположение формант для конкретного диктора было бы близко к среднему их расположению. Пример подобного преобразования приведён на рис. 1.8.
Рисунок 1.8: Пример преобразования мел фильтров.
предварительно оценивать параметры этого преобразования для каждого конкретного диктора, что не всегда представляется возможным, в случае, когда объем речевого материала недостаточно велик. Это является следствием того, что зависимость длины речевого тракта и конкретного значения MFCC очень сложна, и изменение в длине речевого тракта приводит к изменению всех коэффициентов.
1.7 Выводы В данной главе были описаны физические аспекты звука, а также характеристики звукового сигнала. В главе получены следующие результаты:
• Проведён анализ физических свойств звукового сигнала.
• Рассмотрены общие принципы генерации и восприятия звукового сигнала.
• Проанализирована модель генерации речевого сигнала в виде линейной динамической системы.
• Рассмотрены подходы к описанию речевого сигнала, такие как спектральный, кепстральный и прозодический.
• Приведены парадигмы распознавания речи.
• Проанализированы источники различий в звуковом сигнале, приводящие к зависимости системы распознавания речи от диктора.
Глава Математические методы и алгоритмы, используемые для распознавания речи и диктора В данной главе рассмотрены различные математические модели, использующиеся для построения систем распознавания речи (таких как Скрытые Марковские Модели), особое внимание уделяется методам, применяемым для разработки системы распознавания речи, точность идентификации которых не зависит от диктора. Для реализации этого рассматривается возможность предварительной идентификации диктора, а также способ построения дикторонезависимых признаков для описания речевого сигнала, опирающийся на психоакустическую модель восприятия человеком речевого сообщения. Кроме того, исследуются практические и теоретические аспекты построения указанных признаков, а также предлагается способ их вычисления на основе параллельных алгоритмов.
2.1 Скрытые Марковские Модели Процессы, протекающие в реальной жизни, обычно характеризуются наблюдениями, которые можно рассматривать как сигналы. Эти сигналы могут быть как дискретными (например, символы какого-либо алфавита), так и непрерывными (музыка, температура, речь). Сигналы могут быть стационарными (то есть, их статистические свойства не меняются во времени) или нестационарными. Сигналы могут быть чистыми (например, приходящими строго от одного источника) или могут быть испорчены какимлибо иным источником сигнала (шумом) или искажениями при передаче, реверберациями и т.д.
Здесь основная проблема – построить описание такого сигнала в терминах модели прохождения сигнала. Существует несколько причин, из-за которых применение таких моделей представляется удобным:
1. Модель прохождения сигналов может лежать в основе теоретического описания системы, которая может быть использована для обработки сигнала с целью получения желаемого результата. Например, если пользователи заинтересованы в улучшении качества речевого сигнала, который был испорчен шумом и/или искажениями при передаче. В этом случае можно использовать модель прохождения сигналов для создания системы, которая уменьшит шум и искажения оптимальным образом.
2. Модель прохождения сигналов позволяет определить характеристики источника сигнала при отсутствии самого источника. Это свойство особенно важно, когда получение сигнала непосредственно из источника очень дорого, например, сопровождено с большими затратами денег или требует большого количества времени. В этом случае представлятся возможным построить модель и с помощью симуляций выяснить свойства источника.
3. Модели прохождения сигналов хорошо работают на практике, а следовательно, позволяют эффективно создавать важные с практической точки зрения предсказательные, распознающие и идентифицирующие системы.
Существует несколько способов выбора типа модели прохождения сигналов для описания характеристик данного сигнала. Выделяют два основных типа моделей: детерминистические и стохастические.
Детерминистические модели обычно используют некоторые известные свойства сигнала, например, представление сигнала синусоидальной волной или суммой экспонент и т.д. В этом случае спецификация модели достаточно проста: необходимо лишь оценить параметры сигнала – амплитуду, частоту, фазу и т.д.
Стохастические модели пытаются описать только статистические свойства сигнала. Примерами подобных моделей могут служить Гауссовы процессы, Пуассоновские процессы, Марковские процессы (в том числе и скрытые).
В основе стохастических моделей лежит предположение о том, что сигнал может быть хорошо описан как параметрический случайный процесс и что его параметры могут быть оценены достаточно точно.
Скрытая Марковская Модель (HMM – Hidden Markov model) определяется как двойной случайный процесс. Лежащий в основе случайный процесс представляет собой однородную Марковскую цепь с конечным числом состояний. Последовательность состояний не наблюдается и поэтому называется скрытой. Эта цепочка состояний влияет на другой случайный процесс, который и производит последовательность наблюдений. Скрытые Марковский модели представляют собой важный класс моделей, которые успешно используются во многих отраслях знаний, например, при моделировании речи. Базовая теория по Скрытым Марковским Моделям будет дана ниже.
Можно выделить следующие преимущества использования скрытых Марковских моделей при использовании в задаче распознавания речи:
• HMM обладают простой математический структурой.
• Cтруктура HMM позволяет моделировать сложную цепочки наблюдений.
• Параметры модели могут быть автоматически выбраны таким образом, чтобы описать имеющийся набор данных для обучения.
В системах распознавания речи Скрытые Марковские Модели обычно применяются для представления фонем или целых слов. Каждое скрытое состояние представляет часть фонемы или слова. В каждый момент времени состояние, в котором находится система, может быть изменено в соответствии с набором переходных вероятностей, связанных с данным состоянием. Схематично это представлено на рисунке 2.1.
Рисунок 2.1: Скрытая Марковская Модель с 5 состояниями. Символами I и F обозначены начальное и конечное состояния соответственно, {Si }3 - генерирующие состояния, дугами обозначены возможные переходы между состояниями, цифры над дугами обознают вероятности переходов между соответствующими состояниями.
Для Марковской модели первого порядка переходные вероятности зависят только от предыдущего состояния и не зависят от состояний в более ранние моменты времени.
Следует отметить, что существуют расширения HMM, в которых время нахождения системы в данном состоянии может моделироваться любым распределением. Такие модели носят название Скрытые Полумарковские Модели [46].
Когда состояние активно, оно может генерировать последовательность векторов признаков, один вектор признаков в каждый момент времени. Эти вектора признаков имеют ту же форму, что и вектора признаков, которые подучаются, когда распознаётся сказанное слово. Однако невозможно узнать точно последовательность состояний, пройденных системой для генерации данного набора наблюдаемых векторов признаков, так как каждое состояние дополнительно к переходным вероятностям определяется и плотностью распределения вероятности генерации векторов признаков. Она может быть использована для вычисления вероятности того, что вектор признаков был сгенерирован в данном состоянии. В качестве плотностей распределений обычно используются смеси гауссовых плотностей, каждая со своим средним, дисперсией и весом, например, как показано на рис. 2.2.
Рисунок 2.2: Плотность смеси гауссовских распределений 1 N (3, 2) + 2 N (1, 4) Под обучением HMM понимают определение оценок параметров модели:
переходных вероятностей, параметров плотности распределения и их весов. Эти параметры оптимизируются в соответствии с алгоритмом БаумаУэлша [47]. Стоит отметить, что обычно для обучения требуется большой набор данных, при этом размер обучающего множества зависит от объёма словаря и параметров дикторов.
последовательности состояний, которая с наибольшей вероятностью последовательность находится с помощью алгоритма Витерби [48]. Зная последовательность состояний, можно просто определить соответствующую модельную последовательность – последовательность фонем или слов.
В связи с её использованием в работе, рассмотрим HMM более подробно.
2.1.1 Математическое описание Скрытых Марковских Моделей Пусть имеется марковская цепь в дискретном времени с набором состояний S = 1,..., M. Через регулярные промежутки времени в системе происходит переход из одного состояния в другое (возможно, назад в предыдущее состояние).
S1,..., SM, где St S - состояние в момент времени t. Реализацию S1:T обозначим s1T. Полное вероятностное описание системы требует задания текущего состояния в момент времени t и всех предшествующих состояний.
В частном случае дискретной Марковской цепи первого порядка описание выглядит следующим образом:
В дальнейшем предполагается, что вероятности перехода не зависят от времени.
Обозначим aij = P (qt = Sj | qt1 = Si ), 1 i, j M. При этом, aij 0, M aij = 1.
Указанный случайный процесс может быть назван наблюдаемой Марковской моделью, так как выходные значения процесса в каждый момент времени представляют собой состояния процесса. В случае если состояния процесса в каждый момент времени не наблюдаемы, то модель носит название Скрытой Марковской.
Определение.
используемый в работе, задается следующими компонентами:
1. Количеством скрытых состояний N. Множество состояний модели обозначается S = {S1,..., SN }. Состояния соединенны таким образом, что любое состояние Si может быть достигнуто из любого другого состояния Sj за конечное число шагов (эргодическая модель).
2. Размером выходного алфавита M. Набор символов выходного алфавита обозначается через V = {v1,..., vM }. Речевыми символами являются вектора из Rn.
3. Матрицей переходных вероятностей A = (aij ), где 4. Распределением вероятности выходных символов B = {bj (k) : j = 1,..., N, k = 1,..., M } для данного состояния j, где k -порядковый номер есть, bj (k) - вероятность того, что в момент времени t система, находясь в состоянии Sj, выдаст символ vk.
5. Вероятностью нахождения в состоянии i в начальный момент времени i, формирующие начальное распределение.
Набор компонент A, B,, задающих марковскую модель, обозначается = {A, B, }. Последовательность наблюдений, сгенерированных марковской моделью за время T, обозначают O = O1, O2,..., OT.
Справедлива следующая теорема.
Теорема. Пусть Скрытая Марковсая Модель задаётся набором компонент = {A, B, }. Тогда для любого состояния Sk P (qt+1 = Sk,..., qt+T 1 = Sk, qt+T = Sk | qt = Sk ) = aT (1 akk ), то есть, время нахождения цепи в состоянии Sk распределено экспоненциально.
Марковской Модели, вероятности перехода aij = P (qt = Sj |qt1 = Si ), i, j M. Тогда вероятность того, что Марковская Модель будет находиться в состоянии k T периодов времени, при условии, что она уже находится в этом состоянии, записывается как Применяя формулу произведения вероятностей к 2.1 и пользуясь марковским свойством получаем требуемое:
P (qt+1 = Sk,..., qt+T 1 = Sk, qt+T = Sk | qt = Sk ) = P (qt+T 1 = Sk, qt+T = Sk | qt+T Что и требовалось доказать.
2.1.2 Основный задачи, решаемые с помощью Скрытых Марковских Существуют три основные задачи, которые представляют интерес при решении практических задач.
1. При заданной последовательности символов наблюдений O = O1, O2,..., OT и модели = {A, B, } как вычислить вероятность наблюдения данной последовательности P (O|) при условии, что она была сгенерирована моделью ? Можно рассматривать эту проблему с точки зрения того, насколько хорошо данная модель соотносится с наблюдаемой последовательностью наблюдений: при наличии нескольких моделей, решение этой задачи позволяет выбрать модель, которая лучше соответствует данным.
2. При заданной последовательности символов наблюдений O = O1, O2..., OT и модели = {A, B, } как вычислить соответствующую последовательность состояний Q = q1, q2,..., qT, оптимальную в некотором смысле? Очевидно, что кроме вырожденных случаев не существует единственно «правильной» последовательности состояний, поэтому следует использовать критерий оптимальности для выбора последовательности состояний.
3. Как вычислить оптимальные с точки зрения максимизации P (O | ) параметры = {A, B, }?
На практике широко используется следующее определение.
Последовательность наблюдений, используемая для Определение.
оптимизации параметров HММ, называется обучающим множеством. Решение первой задачи позволит выбрать лучшую модель для объяснения имеющихся данных.
2.1.3 Алгоритмы решения основных задач, связанных с HММ Решением первой задачи является методм, основанный на так называемом алгоритме прямого и обратного хода [49]. Опишем суть этого алгоритма.
Определение.
наблюдения частичной последовательности O = O1, O2,..., Ot и состояния Si в момент времени t при заданной модели :
Утверждение. Вероятность P (O|) наблюдения последовательности O = O1, O2,..., OT при условии, что она была сгенерирована моделью вычислятся через переменные прямого хода [49] как:
Доказательство. Алгоритм нахождения переменных прямого хода состоит из трёх последовательных шагов.
Шаг 1. Инициализация:
Шаг 2. Индукция:
Интерпретация этой формулы достаточно проста. Состояние Sj в момент времени t + 1 может быть достигнуто из N возможных состояний si, i N, в которых система могла находиться в момент t. Из определения t (i) следует, что произведение t (i)aij есть совместная вероятность того, что наблюдалась последовательность O = O1, O2,..., Ot и состояние Sj было достигнуто в момент времени t + 1 из состояния Si. Суммируя эти вероятности по всем возможным состояниям, получаем вероятность того, что система находиться в состоянии Sj и наблюдалась последовательность O = O1, O2,..., Ot. Осталось принять во внимание, что в момент времени t + 1 будет наблюдаться Ot+1 в состоянии Sj. Для этого необходимо умножить предыдущее на bj (Ot+1 ).
Шаг 3. Терминация:
следовательно, для вычисления P (O|) нужно лишь просуммировать все Аналогично можно определить переменные обратного хода.
Определение.
вероятность наблюдения последовательности, начиная с момента t + 1 до конца, при заданном в момент t состоянии Si и модели :
Утверждение. Переменные обратного хода выражаются через рекурсивно по формуле:
Доказательство. Алгоритм нахождения переменных обратного хода состоит из двух последовательных шагов.
Шаг 1. Инициализация:
Значения для t (i) выбираются произвольно.
Шаг 2. Индукция:
Для того, чтобы в момент времени t находиться в состоянии Si и принимая во внимание всю последовательность наблюдений, начиная с момента времени t + 1, необходимо рассмотреть все состояния Sj в момент t + и вероятности переходов в эти состояния, вероятность наблюдения Ot+1 в момент t + 1 и оставшуюся часть наблюдений из состояния j.
В отличие от решения первой задачи, при нахождении оптимальной последовательности символов необходимо уточнить критерий оптимальности.
В качестве возможного критерия может выступать количество индивидуально наиболее вероятных состояний. Такой критерий обладает следующим недостатком.
то найденная оптимальная последовательность состояний может не быть допустимой. Эта проблема возникает потому, что алгоритм определяет наиболее вероятное состояние в данный момент времени и не учитывает вероятности появления последовательностей символов.
Наиболее часто встречаемый критерий заключается в том, чтобы найти единственную лучшую последовательность наблюдений, то есть максимизации P (q1,..., qT | O1,..., OT, ), что в силу теоремы Байеса эквивалентно максимизации P (q1,..., qT O1,..., OT | ). Алгоритм, решающий указанную задачу, называется алгоритмом Витерби [48].
Для нахождения лучшей последовательности состояний Q = q1,..., qT определим величину Тогда для нахождения t+1 (j) нужно взять максимальную (то есть, наиболее вероятную) t (i) с предыдущего шага и умножить на вероятность наблюдения символа Ot+1 в состоянии Sj :
Чтобы определить искомую последовательность символов, необходимо сохранять t (i) = arg max t (i) для каждого i.
Теперь полная процедура нахождения оптимальной последовательности состояний (алгоритм Витерби) может быть записан следующим образом.
Шаг 1. Инициализация:
Шаг 2. Рекурсия:
Шаг 3. Терминация:
Шаг 4. Определение последовательности состояний:
Стоит отметить, что алгоритм Витерби очень похож на вычисление переменных прямого хода за исключением того, что вместо суммирования по всем предыдущим состояниям, происходит максимизация.
Решение третьей задачи представляется самым сложным. Сложность заключается в том, что нет аналитического решения максимизационной задачи по нахождению оптимальных параметров модели. Представляется возможным найти такие параметры модели = {A, B, }, которые дают локальный максимум P (O | ). Поиск локального максимума может быть осуществлен с помощью итеративного алгоритма Баума-Велша.
Обозначим вероятность нахождения в состоянии Si в момент времени t и в состоянии Sj в момент t + 1 при данной модели и последовательности наблюдений через t (i, j) = P (qt = Si, qt+1 = Sj | O, ).
Из определения переменных прямого и обратного хода следует, что Обозначим через t (i) вероятность нахождения в состоянии Si в момент времени t при заданной последовательности наблюдений и модели. Тогда t (i) = N t (i, j). Более того, используя t (i) можно подсчитать количество ожидаемое количество переходов из состояния Si в состояние Sj.
Запишем формулы, которые необходимо будет использовать при переоценке параметров модели A, B, :
В работе Баума [47] было показано, что либо параметры начальной модели являются критическими для функции правдоподобия, либо существует другая модель с параметрами A, B,, которая является более вероятной в том смысле, что P (O | ) > P (O | ). Таким образом, если итеративно использовать модель вместо и повторять переоценку параметров, то на каждом шаге увеличивается вероятность того, что данная последовательность наблюдений была получена из текущей модели. Будем повторять эту процедуру, пока не достигнем какой-либо точки останова. Финальный результат процедуры переоценивания называется оценкой максимального правдоподобия.
2.2 Методы распознавания диктора Для организации акустического интерфейса и идентификации биометрических признаков оператора могут использоваться дикторозависимые признаки. При этом должно иметься большое количество речевого материала и количество дикторов (не очень большое) определено априори. Системы такого типа обычно применяются для распознавания речи в правоохранительных органах или военных целях. Например, при слежке за подозреваемым или получении разведывательной информации от конкретного лица. В последнее время такие системы становятся всё более актуальны в мобильных приложениях при распознавании речи обладателя устройства.
Таким образом, представляется крайне важным создание системы, способной производить предварительную идентификацию диктора для последующей подстройки её к конкретному лицу.
Здесь задача идентификации диктора по звуковому сообщению (см. рис. 1. блок с классификатором) является частным случаем задачи распознавания образов, для решения которой требуется построить статистический критерий принадлежности нового звукового сообщения к одному из классов, задаваемых «обучающими» сообщениями.
пространство объектов, Y - множество ответов, f : X Y - целевая зависимость. Пусть Xt X Y - обучающее множество, то есть множество пар (Xi, yi ), где yi = f (Xi ). По известному обучающему множеству требуется построить f : X Y аппроксимирующую f на всем X.
В настоящее время существует два подхода к идентификации диктора:
закрытый и открытый [50]. В первом случае классификации предполагается, что новое сообщение принадлежит одному из рассматриваемых дикторов, во втором – сообщение может относиться и к неизвестному диктору. Задача идентификации рассматривается как построение статистического критерия разделения полученных точек для конечного числа простых гипотез в случае закрытой задачи или для конечного числа простых и одной сложной гипотезы (сообщение неизвестного диктора) в случае открытой задачи.
2.2.1 Метод распознавания диктора, основанный на SVM В качестве метода идентификации используется алгоритм, основанный на «машине опорных векторов» (Support Vector Machines, SVM) [51] – являющийся базовым инструментом для распознавания образов на основе статистической теории обучения. SVM широко используется в естественноязыковых приложениях при обработке речевых сигналов. Например, задачи распознавания языка искаженного текста и идентификация диктора. Одним из ключевых аспектов применения SVM к распознаванию речи является нахождения способа работы с предложениями переменной длины [52].
Возможный способ решения этой проблемы – применение Фишеровских ядер [52]. Вообще применение ядерных методов является стандартной техникой в случае, когда представляется невозможным решить задачу с помощью линейных методов. В качестве ядер могут быть использованы гауссианы, полиномы, сигмоидные функции и т.п. Фишеровское ядро задает скалярное произведение с помощью функции потерь из задачи максимального правдоподобия.
Идея SVM основана на следующих предпосылках. Предположим, что существуют два класса объектов в некотором n-мерном пространстве, которые можно разделить гиперплоскостью так, что с одной стороны от гиперплоскости должны находиться вектора одного класса, с другой – второго. Очевидно, что такая гиперплоскость может быть не единственной. Построим две такие параллельные гиперплоскости. Для лучшего разделения классов требуется, чтобы расстояние между плоскостями было как можно больше. Обычно для нахождения параллельных разделяющих гиперплоскостей с максимальным расстоянием в методе опорных векторов минимизируется квадратичная функция с линейными ограничениями. Решение такой задачи выражается через координаты обучающих векторов, лежащих на краю разделяющей полосы – так называемых опорных векторов. В случае, когда классы линейно неразделимы в исходном пространстве, строится отображение (необязательно линейное) в пространство большей размерности, образы классов в котором линейно разделимы. Это пространство называется пространством вторичных признаков.
2.2.2 Базовая модель SVM Алгоритм SVM обладает следующими преимуществами:
1. В силу решения задачи минимизации выпуклой функции алгоритм гарантирует получение единственного решения. Это является серьёзным преимущество перед нейронными сетями, в которых решением может быть локальный минимум или ответ может быть неопределенным.
2. В связи с тем, что алгоритм робастен к зашумленности исходного сигнала, он хорошо приспособлен для распознания речи.
3. Алгоритм позволяет работать с данными очень больших размерностей, что важно при распознавании речи, где размерность вектора признаков может достигать многих сотен или тысяч.
В задаче идентификации диктора кепстральные коэффициенты обычно используются как опорные вектора. Далее предполагается их модификация при помощи Фишеровского ядра. Для формализации задачи обучения SVM, обозначим вектора признаков как {Xn }N, а линейную функцию (W, X) + b = 0, где (·, ·) - скалярное произведение в Rk. Обозначим разделяемые классы через A и B и введем метки классов:
Будем искать f в виде f (X) = sign(wT X + b), используя метод опорных векторов (Support Vector Machines, SVM, В.Вапник, А.Червоненкис) Утверждение. Максимизация ширины разделяющей полосы эквивалентна минимизации нормы W.
Доказательство.
гиперплоскость (W, X) + b = 0, которая на векторах из класса A принимает значение 1, а на векторах из класса B - значение -1, и расстояние между гиперплоскостями, полученными параллельным переносом искомой, было максимальным. Первое условие эквивалентно Выразим ширину разделяющей полосы через W. Заметим, что расстояние от начала координат до гиперплоскости (W, X) + b = 0 вычисляется как ||W||, тогда расстояние между 2.2 и 2.3 есть ||W||. Отсюда следует, что минимизация нормы ||W|| и максимизация ширины разделяющей полосы эквивалентны.
Таким образом задача обучения SVM имеет следующий вид:
Здесь нужно минимизировать квадратичную функцию 1 (W, W) в выпуклом многограннике в пространстве пар (W, b), заданном линейными неравенствами.
Прямая W = 0 с этим многогранником не пересекается, так что минимум будет строго положителен.
Необходимо отметить, что для решения поставленной задачи ищется минимум выпуклой вниз функции f на выпуклом множестве, а значит, справедлива следующая теорема [53].
Теорема Куна-Такера.
определенные на открытом множестве D, непрерывно дифференцируемы.
Пусть выполняется условие Слейтера: U : hi () 0, i = 1,..., l.
Тогда Утверждение. Решение задачи (2.4) выражается через вектора, для которых yi (((W, Xi ) + b) 1) = 0, то есть, лежащих на разделяющей полосе.
Доказательство. Применим теорему Куна - Такера к 2.4. Лагранжиан записывается следующим образом:
Множество U = D {X | hi 0, i = 1,..., N }, и ограничения на множители Лагранжа принимают вид:
Тогда:
Из уравнения (2.5a) следует, что W = N i yi Xi, а из второго уравнения следует, что в эту сумму с ненулевыми коэффициентами i входят только вектора, лежащие на разделяющих гиперплоскостях: для них yi (((W, Xi )+b) 1) = 0. Такие вектора принято называть опорными.
Для опорных векторов b = yi (W, Xi ), так как yi {1, 1}.
Теперь определим i. Для этого подставим (2.5a) и (2.5b) в лагранжиан.
После упрощений лагранжиан принимает вид:
Для нахождения i нужно найти критические точки лагранжиана при ограничениях:
A это в свою очередь эквивалентно максимизации то есть отрицательно определенной квадратичной функции от = i N в пересечении положительного октанта с гиперплоскостью.
Решение задачи (2.4) называется обучением классификатора.
2.2.3 Метод SVM с ядрами В общем случае линейное разделение векторов может быть невозможно. Для решения задачи в этом случае можно преобразовать имеющиеся пространство таким образом, чтобы вектора классов после преобразования стали линейно разделимыми. Рассмотрим теперь, как будет ставиться и решаться задача в нелинейном случае.
Пусть произвольное отображение пространства признаков в гильбертово пространство H. От отображения требуется, чтобы образы обучающих векторов были линейно разделимы в H (оно называется пространством вторичных признаков). Тогда с подстановкой (Xi ) вместо Xi получается классифицирующий алгоритм SVM [51]. Для его настройки и применения нужно знать не само отображение, а только функцию K : X X R, вычисляющую скалярное произведение в H образов пары векторов признаков K(Xi, Xj ) = ((Xi ), (Xj )).
Такая функция K называется ядром, поскольку при наличии меры, в частности при H = R, она является ядром интегрального оператора Наиболее часто используются следующие ядра:
1. Линейное:
2. Полиномиальное:
3. Гауссово:
Этих ядер обычно бывает достаточно для разделения любого набора векторов. Действительно, полиномиальное ядро переводит вектор X в набор всех мономов (то есть одночленов) степени не большей N от координат X, то есть сводит разделимость к полиномиальной и гарантирует разделение не менее чем N + 1 вектора.
Если же задано гауссовым ядром, то для любого конечного набора векторов X1,..., XN функции (X1 ),..., (XN ) линейно независимы, что и обеспечивает линейную разделимость.
После преобразования построение оптимальной разделяющей полосы производится таким же способом, что и в случае (2.4), за исключением того, что все Xi заменяются на (Xi ), а скалярные произведения (Xi, Xj ) - на K(Xi, Xj ) 2.2.4 Метод SVM со штрафами После обучения может оказаться так, что полученный классификатор не способен к обобщению. То есть, он очень хорошо классифицирует обучающие вектора, но на произвольном тестовом наборе он показывает плохие результаты.
Такой классификатор называется неспособным к обобщению (результатов обучения) [51]. Другое название – переобучение (overfitting). Переобучение происходит потому, что классификатор настраивается на шумы и помехи в данных.
Решение этой проблемы может быть следующим.
Вместо системы запретов вводится система штрафов за нарушение. В этом случае обучения классификатора сводится к решению следующей задачи:
где p(e) - неотрицательная, монотонно неубывающая функция, такая, что p(0) = 0, а C > 0 - эмпирически подобранный коэффициент.
Идеальный штраф p(e) = (e1), где (t) - функция Хевисайда, при котором i=1 p(ei ) представляет собой количество неправильно классифицированных векторов, оказывается неудобен из-за своей разрывности. На практике применяется непрерывный штраф, иногда квадратичный, а чаще – линейный.
В постановке задачи (2.4) векторам запрещено находиться на той стороне от гиперплоскости, которая соответствует другому классу, разделяющая полоса носит называние “жесткой“. В общем случае, задача решается в пространстве вторичных признаков, и вместо “жесткой“ разделяющей полосы рассматривается штраф за нарушение ограничения. Использование пространства вторичных признаков помогает справиться с линейной неразделимостью, а использование штрафов – с возможным «переобучением»
(overfitting). В результате преобразований исходной задачи, получаем задачу квадратичного программирования с линейными ограничениями:
Коэффициент штрафа C подбирают так, чтобы и количество векторов, попавших на неправильную сторону разделяющей полосы, было небольшим, и общее количество опорных векторов тоже было невелико, поскольку, чем меньше слагаемых с ненулевыми коэффициентами в формуле (2.5a), тем быстрее работает классификатор.
Однако на практике приходиться решать задачу разделения на три и более классов. Для её решения можеть быть применён метод, называемый “каждый против каждого“ (One vs. One [54]). Суть метода заключается в следующем. На этапе обучения рассматривается классификаторов SVM, различающих пары классов, где q - количество классов. Каждый из классификаторов обучается только на векторах, принадлежащих двум, соответствующим данному классификатору классам, поэтому время обучения и количество опорных векторов получаются меньше, чем у SVM типа “каждый против всех“. Для каждого распознаваемого вектора рассчитаем все значения классифицирующих функций, отделяющих i-й класс от j-го, затем вычислим q сумм f (, X) = i=j (fij (X)), где - некоторая монотонно неубывающая функция, (например, sign) и выберем из них наибольшую.
Соответствующий класс, для которого получена максимальная оценка, и будет ответом распознавателя.
Следует отметить, что метод имеет следующие особенности:
1. Вычислительная сложность обычных алгоритмов, решающих задачу квадратичного программирования (таких как метод Ньютона), делает задачу обучения SVM крайне трудоемкой для больших наборов данных.
2. В каждом конкретном случае решение задачи подбора ядра требует предварительного изучения.
3. Для определения величины параметра штрафа C также необходимо предварительное исследование.
2.2.5 Подбор параметров распознавателя В задаче обучения классификатора алгоритм обычно зависит от параметров, которые определяют форму решающей функции или способы поиска самой этой функции. Поэтому подбор параметров позволяет уменьшить ошибку классификации на тестовой выборке. В свою очередь оценка ошибки может быть выполнена с помощью таких методов как кросс – валидация [55] или jackknife тестирование [56]. Кроме того, она может быть ограничена мажорантой, значение которой получено с помощью теоретического анализа.
Необходимо заметить, что на практике приходиться подбирать несколько параметров для оптимизации, при этом, ошибка классификатора имеет неявную зависимость от оптимизируемых параметров. Вследствие этого, невозможно осуществить простой перебор всех возможных значений параметров. В рассматриваемом случае использовались следующие параметры оптимизации:
• Параметр гауссова ядра в формуле (2.8).
• Параметр штрафа C в функции (2.9).
Оптимизация параметров функции-распознавателя производилась следующим образом. В качестве критерия для подбора параметров использовалась средняя ошибка при 5 кратной кросс-валидации, которая заключается в следующем. Обучающее множество делится на 5 частей: на одной из этих частей проводится обучение модели, которая затем тестируется на 4 оставшихся подмножествах, при этом ошибка кросс-валидации получается путём усреднения ошибок по этим 4 подмножествам. Далее решается задача минимизации средней ошибки распознавателя в зависимости от параметров и C для поиска указанных параметров.
Ниже приведена схема алгоритма поиска оптимальных параметров C и.
Вход: Набор векторов {Xi }N Шаг 1. Для фиксированного k представить обучающее множество X = {Xi }N как X = k Xj. Зафиксировать точность решения задачи.
Шаг 2. Выбрать начальное значение x0 = (C0 ; 0 ) R2 и величину шага 0.
Шаг 3. Выполнять пока ||xk xk+1 || > Подшаг 1. Решить задачу обучения SVM при C = Ck, = k и Xi X1.
Подшаг 2. Определить функцию f (t) = k1 k Ej (t), где Ej (t) = Xi Xj I{Xi (t) = yXi }, где yXi (t) - предсказанная метка вектора Xi, yXi - его настоящая метка.
Подшаг 3. Для t Pk = {xk ± k ei : i = 1, 2} вычислить f (t) Подшаг 4. Если t : f (t) < f (xk ) установить xk+1 = t, k+1 = k ;
Выход: оптимальные значения параметров классификатора C,.
В качестве преимуществ такого подхода можно отметить следующие:
• В виду того, что зависимость средней ошибки прогноза принадлежности данного высказывания определённому диктору от выбранных параметров классификатора является неявной, то нет оснований считать, что эта функция будет выпуклой. Следовательно, существует вероятность попадания в локальный минимум.
• Задача решалась в параллельных процессах, так как сама процедура кросс - валидации может быть выполнена параллельно, поскольку каждая итерация может выполняться независимо от других, и нет никаких зависимостей по данным. Следовательно, весь процесс может быть легко проведен на многопроцессорных машинах. Кроме того, предложенный метод для решения поиска параметров C и тоже был реализован параллельно. Кроме того, данный метод может стартовать независимо и параллельно из несколько разных начальных точек, с последующим сравнением результатов для выбора наилучшего.
Таким образом, вся система может быть реализована на кластере или в монолитной многопроцессорной системе, с поддержанием многопоточности.
На каждом процессоре алгоритм работает со своими начальными значениями, при этом вычисление функции f (t) производится многопоточно.
2.2.6 Фишеровские ядра Тем не менее задача идентификации диктора может быть решена с использованием классификаторов, которые напрямую строят разделяющую поверхность в пространстве признаков. В качестве таких классификаторов обычно используются Gaussian Mixture Models (GMM [57]) или линейный дискриминант Фишера [58]. Их недостаток заключается в том, что в целевую функцию не входит некоторая информация из сообщения. Таким образом, необходимая для классификации сообщений информация может быть потеряна, что негативно скажется на точности распознавания.
Для устранения этого недостатка применяется метод, основанный на Фишеровских ядрах [52], которые отображают всё озвученное диктором предложение целиком (полное высказывание) в единственную точку, что позволяет проводить их разделение. Однако, чтобы представить высказывание в виде одной точки, оно должно находиться в пространстве большой размерности. Это не вызывает затруднений, поскольку SVM и предназначен для решения задач высокой размерности.
Идея разработанной модификации метода заключается в использовании в качестве ядра функции потерь, вычисленной с помощью апостериорных вероятностей наблюдений, которые получены от порождающей модели, в качестве которых могут выступать либо Скрытые Марковские модели либо GMM.
Пусть P (X|) апостериорная вероятность, полученная от Теорема.
порождающей модели.
информации Фишера и UX = ln P (X|) фишеровская функция потерь. Тогда функция является ядром.
Доказательство.
симметричность и положительную полуопределенность функции.
Докажем симметричность. K(X, Y ) = UX F 1 UY = (UX F 1 UY )T = UY F 1 UX = K(Y, X). Докажем положительную полуопределённость функции.
Матрица информации Фишера является положительно полуопределённой формой, причем она принимает значение равное 0, только в том случае, когда, плотность вероятности сосредоточена в подпространстве меньшей размерности, чем размерность вектора X. Тогда K(X, X) = UX F 1 UX также является положительно полуопределённой формой, так как взятие обратной матрицы не влияет на знакоопределённость.