На правах рукописи
Ермилов Алексей Валерьевич
Методы, алгоритмы и программы решения задач идентификации языка
и диктора
Специальность 05.13.11 —
«Математическое обеспечение вычислительных машин, комплексов и
компьютерных сетей»
АВТОРЕФЕРАТ
диссертации на соискание учёной степени кандидата физико-математических наук
Москва – 2014
Работа выполнена на кафедре Управления Разработкой Программного Обеспечения Федерального государственного автономного образовательного учреждения высшего профессионального образования Национальный Исследовательский Университет “Высшая Школа Экономики”.
Научный руководитель:
доктор технических наук, Гостев Иван Михайлович
Официальные оппоненты:
Харламов Александр Александрович, доктор технических наук, старший научный сотрудник (Федеральное государственное бюджетное учреждение науки “Институт Высшей Нервной Деятельности и Нейрофизиологии РАН”) Гнеушев Александр Николаевич, кандидат физико-математических наук, научный сотрудник (Федеральное государственное бюджетное учреждение науки Вычислительный центр им. А.A. Дородницына Российской академии наук) Ведущая организция: Лаборатория информационных технологий Объединенного института ядерных исследований
Защита диссертации состоится «30» октября 2014 г. в 15 ч. на заседании диссертационного совета Д 002.017.02 в ВЦ РАН по адресу 119333, Москва, ул.
Вавилова, 40.
С диссертацией можно ознакомиться в научной библиотеке и на официальном сайте (http://www.ccas.ru) ВЦ РАН.
Автореферат разослан «_» _ 2014 г.
Учный секретарь диссертационного совета Д 002.017. доктор физико-математических наук Рязанов В.В.
Общая характеристика работы
Актуальность темы. В современном мире все большее значение уделяется интерфейсам, использующим речевой ввод и вывод для взаимодействия между пользователем и компьютером. Поэтому всё большее многообразие в голосовых сообщениях приходится принимать во внимание разработчику систем распознавания речи, реализующих акустический интерфейс.
Задача распознавания речи (во многих своих проявлениях: от транскрибирования слитной речи до верификации и идентификации диктора) в настоящее время является крайне актуальной. Свидетельством этому служит растущее число публикаций и конференций по данной тематике (таких как ICASSP, INTERSPEECH), а также то, что в крупнейших транснациональных корпорациях (таких как Microsoft, Google, IBM) открываются департаменты, ориентированные на исследования в данной тематике.
Исследовательские усилия в сфере речевых технологий привели к появлению большого числа коммерческих систем распознавания речи. Такие компании как Nuance, IBM, ScanSoft предлагают большой набор программных решений как для серверных, так и для десктопных приложений.
Улучшение существующих систем распознавания языка и диктора позволит существенно упростить взаимодействие человека с компьютером в том случае, когда использование классических интерфейсов невозможно (например, при управлении автомобилем или в сложных условиях, таких как ликвидация последствий чрезвычайных ситуаций ) или затруднено (например, людям, обладающим слабым зрением, или с ограниченными физическими возможностями), а также сделать работу с компьютером или иной техникой более комфортной, например, для аутентификации пользователя. Также следует отметить, что применение систем распознавания диктора играет большую роль в работе правоохранительных органов.
Необходимость исследований по этой тематике объясняется малоудовлетворительными результатами существующих систем при уменьшении соотношения сигнал/шум, зависимостями результата от диктора и, в ряде задач, невысокой скоростью работы систем.
Существующие системы распознавания речи в основном построены на Скрытых Марковских Моделях (HMM), которые задают динамику перехода от одной фонемы в речи к другой, а моделирование вероятностного распределения признаков происходит посредством Гауссовой Смеси (GMM). Такой подход был предложен в 1989 Лоуренсом Рабинером и долгое время являлся основным для моделирования речевого сигнала. Для описания речевого сигнала в системах автоматического распознавания речи со времен работы Л. Рабинера используются так называемаы мел-частотные кепстральные коэффициенты (MFCC Mel Frequency Cepstral Coefficients), начало развитию которых положил Пол Мермельстайн в 1976.
Также следует отметить, что в последнее время альтернативой используемым сейчас MFCC становятся признаки, устойчивые к вариабельности речевого тракта у диктора (например, bottleneck features), что позволяет строить робастные системы. В данной работе предлагается новая вероятностная модель, основанная на применении функции плотности распределения (расширении Грам-Шарлье) для дикторонезависимых признаков и использование Фишеровских ядер в алгоритме опорных векторов, а также используются новые вычислительные методы для оценки этих модели (алгоритм симуляции отжига), использующие преимущества параллельных вычислений. Применение этих моделей повышает точность распознавания языка и диктора, а также увеличивает быстродействие всей системы распознавания.
В течении длительного времени использование систем автоматического распознавания больших параллельных потоков речи было ограничено в виду недостаточного быстродействия оборудования, а именно - невозможности обработки online. Для функционирования в реальном времени системам, оперирующим с такими потоками речи, приходилось находить компромисс между объемом словаря (а значит, и потенциальной сферой применения), сложностью грамматики и точностью распознавания. Таким образом, повышение скорости работы распознавателя будет положительным образом сказываться на объеме тех задач, где необходима работа в реальном времени, а также на точности распознавания. Хорошим примером может служить работа сотовой станции или call – центра, где на обработку одновременно может приходить огромное количество заявок, требующих обработки в реальном времени.
Цель работы и задачи исследования. Целью диссертационной работы являлась разработка методов, алгоритмов и программ идентификации языка и диктора. Проведено исследование существующих методов распознавания, на основании которых была предложена система характерных признаков для распознавания языка с применением 4-х параметрического семейства распределений (Грам-Шарлье); модификация метода опорных векторов для повышения точности распознавания диктора, на основе введения в базовый алгоритм функционального преобразования (Фишеровских ядер), а также модификация алгоритма симуляции отжига для повышения быстродействия и точности получения признаков, применяемых для распознавания языка.
Применение указанных методов позволило увеличить быстродействие и точность систем распознавания языка и диктора.
Вышеупомянутые методы, алгоритмы и программы были разработаны на основе физиологических особенностей человеческого языка и дикции, а также механизма восприятия звука человеком при распознавании речи.
Для достижения поставленной цели необходимо было решить следующие задачи:
1. Исследование моделей акустических сигналов, применяемых в системах распознавания языка и диктора.
2. Разработка математический модели дикторонезависимых акустических признаков на основе 4-х параметрического семейства распределений.
3. Модификация метода опорных векторов для решения задачи идентификации диктора по речевому сообщению фиксированной длины с целью повышения качества распознавания.
4. Модификация метода симуляции отжига для повышения быстродействия и качества признаков, применяемых для распознавания языка.
5. Анализ предложенных и существующий моделей и методов для сравнения их быстродействия и точности распознавания.
Методы исследования. При решении поставленных задач использовались методы и понятия теории вероятностей и математической статистики, теории случайных процессов, методы цифровой обработки сигналов, распознавания образов, алгоритмы и методы обработки данных, методы построения параллельных систем.
Научная новизна. Научная новизна заключается в том, что 1. Изучены информационные признаки идентификации языка и диктора на основе физиологических особенностей человеческого языка и дикции с учетом механизма восприятия звука человеком при распознавании речи.
2. Впервые предложена система характерных признаков для распознавания языка с применением 4-х параметрического семейства распределений (расширение Грам-Шарлье).
3. Разработана и обоснована теоретически модификация метода опорных векторов, основанная на применении фишеровских ядер, которая позволяет увеличить точность распознавания диктора.
4. Впервые проведён сравнительный анализ алгоритмов оптимизации для вычисления акустических дикторонезависимых признаков по скорости и точности.
5. Разработана модификация алгоритма симуляции отжига увеличивающая быстродействие системы при получении дикторонезависимых признаков за счет введения в алгоритм параллельно выполняющихся циклов.
6. Разработаны и теоретически обоснованы методы и алгоритмы получения параметров классификатора для решения задач идентификации языка основанные на использовании метода опорных векторов повышающие точность распознавания.
7. Проведены экспериментальные исследования по оценке точности распознавания и быстродействию системы идентификации языка и диктора, которые показали преимущества разработанных методов по сравнению с применяемыми ранее.
Теоретическая значимость. Теоретическая значимость заключается в следующем.
1. Впервые разработаны методы идентификации диктора, основанные на методе опорных векторов с применением Фишеровских ядер.
2. Впервые была предложена и теоретически обоснована модель акустических дикторонезависимых признаков, использующая 4-х параметрическое распределение (расширение Грам-Шарлье) для моделирования речевых признаков, которая была использована для аутентификации и в системах безопасности и работе правоохранительных служб.
3. Впервые разработана модификация алгоритма симуляции отжига увеличивающая быстродействие системы при получении дикторонезависимых признаков за счет введения в алгоритм параллельно-выполняющихся циклов.
Практическая значимость.
большое научное и народно-хозяйственное значение (имеется акт о внедрении) при создании человеко-машинных интерфейсов и идентификации личности и языка в работе различных государственных служб и органов.
Степень достоверности полученных результатов обеспечивается использованием строгих математических методов теории вероятностей и математической статистики, распознавания образов. Достоверность подтверждается моделированием и проведенными вычислительными экспериментами с использованием реальных и симулированных данных, а также путём сопоставления результатов, полученных в диссертации, с результатами, доступными в открытой печати.
Публикации и апробация работы.
опубликовано 5 статей (3 из которых в журналах из списка ВАК, одна в международном реферируемом журнале), 6 тезисов на международных конференциях. Результаты настоящего исследования были представлены на следующих конференциях и семинарах: Конференции студентов, аспирантов и молодых специалистов МИЭМ в 2010 г; Конференции студентов, аспирантов и молодых специалистов МИЭМ в 2011 г; Международной конференции «Моделирование нелинейных процессов и систем» (СТАНКИН 2011 г.);
5-я Международной Конференции «Распределённые вычисления и Гридтехнологии в науке и образовании» (GRID - 2012) (Дубна Московская обл.
2012 г.); X Международной научно-технической конференции «Оптикоэлектронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации» (Курск 2012); The First International Conference on Modern Manufacturing Technologies in Industrial Engineering “ModTech – 2013”, (Румыния, Синая 2013 г.); International Conference on Mathematic Modeling and Computing in Physics (MMCP’2013) (Дубна Московская обл., 2013 г.); XI Международной научно-технической конференции «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации»
(Курск 2013).
Объем и структура работы. Диссертация состоит из введения, четырёх глав и заключения. Полный объем диссертации составляет 135 страницы с 26 рисунками и 5 таблицами. Список литературы содержит 81 наименование.
Основное содержание работы
.
Во введении обоснована актуальность работы, сформулированы цель и задачи диссертационного исследования, новизна и практическое значение полученных результатов, а также положения, выносимые на защиту, обоснованность, достоверность и апробация работы.
В первой главе приводится обзор физических аспектов акустического сигнала, а также характеристик и особенностей речевых сигналов. Приводятся модель речеобразования и схемы описания речи, например, фонемная.
Рассмотрены общие принципы генерации и восприятия звукового сигнала, вводится понятие речевого тракта. Также даётся характеристика некоторых подходов к имплементации методов распознавания речи: акустикофонетического, подхода с точки зрения распознавания образов, подхода с точки зрения искусственного интеллекта. Рассматриваются методы выделения акустических признаков, такие как спектральный анализ, модель банка фильтров. Приведены методы получения речевых признаков на основе коэффициентов линейного предсказания и кепстральных коэффициентов.
В конце главы сформулированы выводы. На основе анализа физических аспектов звука были введены характеристики речевого сигнала, которые затем используются в диссертации для распознавания языка и диктора. Исследованы источники вариабельности в речевом сигнале, приводящие к следующим эффектам.
• Структура речевого сигнала может меняться под воздействием физиологических и эмоциональных факторов.
• Долговременные параметры речевого сигнала могут быть изменены диктором намеренно (эмоции).
• Акустическая реализация фонем может варьироваться (коартикуляция, акцент, спонтанная речь).
Во второй главе рассматриваются различные математические модели, использующиеся для построения систем распознавания языка и диктора с использованием Скрытых Марковских Моделей, особое внимание уделяется методам, применяемым для разработки системы распознавания языка, точность идентификации которой не зависит от диктора. Приводится способ построения дикторонезависимых признаков для описания речевого сигнала, опирающийся на психоакустическую модель восприятия человеком речевого сообщения.
В качестве базовой модели в работе используется Скрытая Марковская Модель (HMM – Hidden Markov Model, Lawrence Rabiner, Biing-Hwang Juang “Fundamentals of Speech Recognition”), которая определяется как двойной случайный процесс. Лежащий в основе случайный процесс представляет собой однородную Марковскую цепь с конечным числом состояний, каждое из которых производит свою последовательность наблюдений.
Определение 2.1. Пусть Pt - cлучайный процесс (Скрытая Марковская Модель), используемый в работе. Определим его с помощью следующих компонент:
1. Количество скрытых состояний N. Множество состояний модели обозначается S = {S1,..., SN }. Состояния соединенны таким образом, что любое состояние Si может быть достигнуто из любого другого состояния Sj за конечное число шагов (эргодическая модель).
2. Размер выходного алфавита M. Набор символов выходного алфавита обозначается через V = {v1,..., vM }. Речевыми символами являются вектора из Rn.
3. Матрица переходных вероятностей A = (aij ), где 4. Распределение вероятности выходных символов B = {bj (k) : j = 1,..., N, k = 1,... , M } для данного состояния j, где k -порядковый номер bj (k) - вероятность того, что в момент времени t система, находясь в состоянии Sj, выдаст символ vk.
5. Вероятность нахождения в состоянии i в начальный момент времени i, формирующие начальное распределение.
Тогда набор компонент A, B,, задающих марковскую модель, обозначается = {A, B, }. Последовательность наблюдений, сгенерированных марковской моделью за время T, обозначают O = O1, O2,..., OT.
Теорема 2.1. Пусть Скрытая Марковсая Модель задаётся набором компонент = {A, B, }. Тогда для любого состояния Sk P (qt+1 = Sk,..., qt+T 1 = Sk, qt+T = Sk | qt = Sk ) = aT (1 akk ), то есть, время нахождения цепи в состоянии Sk распределено экспоненциально.
Рассмотрена общая постановка задач, решаемых с помощью HMM введенного типа. Для решения задачи идентификации языка были разработаны следующие алгоритмы.
1. Алгоритм вычисления вероятности наблюдения данной последовательности P (O|) при заданной последовательности символов наблюдений O = O1, O2 ,..., OT и модели = {A, B, }.
Вход: Последовательность наблюдений O = O1, O2,..., OT, параметры модели = {A, B, }.
Шаг 1. Инициализация: 1 (i) = b1 (O1 ), 1 j N.
Шаг 2. Индукция: t+1 (j) = bj (Ot+1 ) N t (i)aij.
Выход: Вероятность P (O|).
2. Алгоритм вычисления последовательности состояний Q = q1, q2,..., qT, оптимальной с точки зрения максимизации апостериорной вероятности P (q1,..., qT | O1,..., OT, ), при заданной последовательности символов наблюдений O = O1, O2..., OT и модели = {A, B, }.
Вход: Последовательность наблюдений O = O1, O2,..., OT, параметры модели = {A, B, }.] Шаг 1. Инициализация:
Шаг 2. Рекурсия:
Шаг 3. Терминация:
Шаг 4. Определение последовательности состояний:
Выход: Последовательность состояний Q = q1, q2,..., qT.] 3. Алгоритм поиска оптимальных параметров модели = {A, B, } = arg max P (O | ) с точки зрения максимизации P (O | ).
Для описания алгоритма на множестве всех возможных моделей введена норма || · ||. Введены следующие обозначения. Совместная вероятность наблюдения последовательности, начиная с момента t + 1 до момента времени T, при заданном в момент t состоянии Si и модели : t (i) = P (Ot+1, Ot+2,..., OT | qt = Si, ), вероятность нахождения в состоянии Si в момент времени t и в состоянии Sj в момент t + 1 при данной модели и последовательности наблюдений t (i, j) = P (qt = Si, qt+1 = Sj | O, ), t (i) вероятность нахождения в состоянии Si в момент времени t при заданной последовательности наблюдений и модели.
Вход: Последовательность наблюдений O = O1, O2,..., OT, начальные параметры модели 0 = {A0, B0, 0 }, параметр точности.
Шаг 1. Вычисление вероятностей t (i, j), t (i) Шаг 2. Пересчёт параметров модели n+1 = {An+1, Bn+1, n+1 }:
Выход: Параметры модели = {A, B, } Далее в работе исследованы особенности способов решения задач идентификации языка и диктора. Задача идентификации решалась в следующей постановке. Пусть X - пространство объектов, Y - множество ответов, f : X Y - целевая зависимость. Пусть Xt X Y - обучающее множество, то есть множество пар (Xi, yi ), где yi = f (Xi ). По известному обучающему множеству требуется построить f : X Y аппроксимирующую f на всем X.
Будем искать f в виде f (X) = sign(wT X + b), используя метод опорных векторов (В.Вапник, А.Червоненкис, Support Vector Machines, SVM) Суть метода SVM заключается в построеннии параллельных разделяющих гиперплоскостей с максимальным расстоянием между ними.
Для формализации задачи построения SVM вводятся следующие обозначения. Данный для разделения набор точек-векторов в Rn обозначается как {Xi }N, а линейная функция представляется в виде wT X + b = 0.
Разделяемые классы обозначаются через A и B и вводятся значения из множества ответов для каждого вектора:
Показывается, что построение оптимальной разделяющей полосы эквивалентно минимизации ||w||. Решение задачи построения оптимальной разделяющей полосы называется обучением. При этом параметры w, b оптимальной разделяющей полосы являются функциями только опорных векторов, то есть таких векторов, для которых yi (wT Xi + b) 1 = 0.
Поскольку в общем случае линейное разделение векторов может быть невозможно, то для разделения имеющееся пространство преобразуют таким образом, чтобы вектора классов после него стали линейно разделимыми.
Пусть произвольное отображение пространства признаков в гильбертово пространство H. От отображения требуется, чтобы образы обучающих векторов были линейно разделимы в H (оно называется пространством вторичных признаков).
Свойства симметричности и положительной полуопределённости функции, называемой ядром, используются для получения преобразования. Показывается, что достаточно знать не само отображение, а только ядро K : X X R, вычисляющее скалярное произведение в H образов пары векторов признаков K(Xi, Xj ) = ((Xi ), (Xj )).
В результате, обучение SVM представляет решение задачи квадратичного программирования с линейными ограничениями:
где p(e) - неотрицательная, монотонно неубывающая функция, такая, что p(0) = 0, а C > 0 и параметры определяются эмпирически. Для решения задачи идентификации языка в диссертации использовалось так называемое гауссово ядро K(X, Y ) = e||XY ||. На основании проведённого анализа разработан алгоритм оптимизации параметров функции распознавателя C и, имеющий следующий вид:
Вход: Набор векторов {Xi }N i= Шаг 1. Для фиксированного представить обучающее множество X = {Xi }i=1 как X = j=1 Xj, Xi Xj =, i = j. Зафиксировать точность решения задачи.
Шаг 2. Выбрать начальное значение x0 = (C0 ; 0 ) R2 и величину шага 0.
Шаг 3. Выполнять пока ||xk xk+1 || > Подшаг 1. Решить задачу обучения SVM при C = Ck, = k и Xi X1.
Подшаг 2. Определить функцию f (t) = k1 k Ej (t), где Ej (t) = Xi Xj I{Xi (t) = yXi }, где yXi (t) - предсказанная метка вектора Xi, yXi - его настоящая метка.
Подшаг 4. Если t : f (t) < f (xk ) установить xk+1 = t, k+1 = k ;
Выход: оптимальные значения параметров классификатора C,.
К преимуществам указанного алгоритма можно отнести следующее • Не используются знания о градиенте функции, поскольку нет оснований считать, что эта функция будет дифференцируемой.
• Задача решается в параллельных процессах, так как сама процедура, описанная в подшаге 2, может быть выполнена параллельно, поскольку вычисление функции Ej (t) может выполняться для каждого j независимо и нет никаких зависимостей по данным.
Наиболее часто используемые ядра, такие как полиномиальное K(X, Y ) = ((X, Y ) + 1)d + c или гауссово K(X, Y ) = e||XY ||, применённые к задаче идентификации диктора дают низкую точность распознавания, так как не позволяют использовать полное высказывание.
Для устранения этого недостатка был предложен метод, основанный на функциональном преобразовании (Фишеровских ядрах), которые отображеют всё озвученное диктором предложение целиком (полное высказывание) в единственную точку, что позволяет проводить их разделение.
В основе разработанного метода лежит применение в качестве ядра функции, вычисленной с помощью апостериорных вероятностей наблюдений, которые получены из порождающей модели появления векторов, в качестве которых могут выступать либо Скрытые Марковские модели, либо гауссовские смеси.
Теорема 2.2. Пусть P (X|) апостериорная вероятность наблюдения X, полученная из модели. Зададим в пространстве всех возможных P (X|) скалярное произведение как UX F 1 UX, где F = EX UX UX - матрица информации Фишера и UX = ln P (X|) фишеровская функция потерь. Тогда функция является ядром.
Вычисление преобразованных значений векторов происходит по следующему алгоритму.
Вход: Набор векторов {Xi }N, оценки параметров порождающей модели и параметра.
порождающей модели и вычислить обратную к ней.
Шаг 3. Для i, j {1,..., N } вычислить K(Xi, Xj ) = UXi F 1 UXj.
Шаг 4. Вычислить K(Xi, Xj ) = eK(Xi,Xj ) Выход: Значение ядра K(Xi, Xj ) на всех парах векторов Xi, Xj Далее в главе рассмотрен способ построения дикторонезависимых признаков речевого сигнала для применения в системах распознавания языка.
В работе была использована Auditory Image Model (AIM), которая разработана Р. Петерсоном для моделирования человеческой психоакустики.
Эта модель даёт на выходе нормализванный спектр сигнала, пример которого представлен на рис. 1.
Рис. 1: Изображение огибающей спектра, полученного из модели AIM.
Для моделирования огибающей спектра (AIM значений) в главе предложено использование 4-х параметрического семейства распределений (расширения Грам-Шарлье), вместо обычно используемой гауссовской смеси.
Определение 2.2. Расширением Грам-Шарлье называется представление плотности распределения g случайной величины z в виде где (z) – плотность стандартного нормального распределения, а pn (z) выбрана таким образом, чтобы g(z) имела те же моменты, что и истинная плотность z.
Конструирование функции pn (z) основано на полиномах Эрмита Hi, которые образуют ортогональный базис относительно скалярного произведения, порожденного математическим ожиданием, взятым по плотности стандартного нормального распределения.
Представление (1) является необходимым для моделирования моментов высокого порядка, которые важны для распознавании языка.
Однако введённая функция не является в строгом смысле плотностью вероятности, так как может принимать отрицательные значения. Для устранения этого использовалась следующее преобразование:
где k = 1 + n c2 i!, а ci - коэффициенты.
Для моделирования огибающих полученного спектра с помощью предложенного семейства распределений необходимо получить оценки вектора неизвестных параметров = (c1,..., cn )T, для чего автором найдено решение cледующей оптимизационной задачи:
где (zi ) = ln((zi )) + ln(1 + n cj Hj (zi ))2 ln(1 + n c2 j!), - вектор неизвестных параметров, и f () - функция ограничений, которая может быть добавлена для того, чтобы значения параметров удовлетворяли каким-либо априорно заданным ограничениям (например, некоторые оценки должны быть положительны). Пусть {i }n - выборка из распределения, зависящего от параметра. Тогда оценка называется состоятельной, если асимптотически нормальной с дисперсией 2, если где Z - нормальная случайная величина с дисперсией 2 и средним 0.
Теорема 2.3. Решение задачи (2) дает состоятельные и асимптотически нормальные оценки параметра.
Для того, чтобы на практике получить значения параметров функции (zi ) необходимо численно решить оптимизационную задачу (2).
Существует множество методов численного решения задачи (2), которые можно разделить на градиентные и безградиентые. В диссертации использовались две модификации алгоритма симуляции отжига с использованием параллельных вычислительных процессов для увеличения скорости и качества работы алгоритма.
Первая модификация алгоритма, являющаяся более вычислительно затратной, приведена ниже. Суть модификации заключается в независимом старте k процессов отжига из разных начальных точек.
Вход: набор значений {zi }N i= Шаг 1. Сгенерировать k начальных значений параметров {i }k. i= Шаг 2. К каждому значению i применить алгоритм симуляции отжига, получив k финальных оценок {i }k. i= Шаг 3. Вычислить (z, Шаг 4. = maxi=1,...,k k.
Выход: Оптимальное значение При этом шаги 2-4 выполняются параллельно. Вторая модификация записывается следующим образом:
Вход: набор значений {zi }Ni= Шаг 1. Сгенерировать k начальных значений параметров {i }k. i= Шаг 2. Вычислить (z, Шаг 3. Вычислить = arg maxi=1,...,k (z, i ).
Шаг 4. Применить алгоритм симуляции отжига к, получив финальную оценку Выход: Оптимальное значение При этом шаги 2-3 выполняются параллельно.
В конце главы сформулированы выводы. Отмечена важность использования нормализации длины речевого тракта или применения психоакустических признаков при проектировании системы распознавания языка.
В третьей главе изложены различные аспекты реализации системы идентификации языка и диктора с применением предложенных методов.
Рассмотрена схема, содержащая этапы обработки речевого сигнала и идентификации языка и диктора, представленные на рис. 2. На первом этапе Рис. 2: Схема системы идентификации языка и диктора.
сигнал очищается от шумов с помощью адаптивного винеровского фильтра, усиливается и нарезается на участки (фреймы), посредством движущегося окна Хемминга.
На втором этапе происходит выделение акустических признаков. В предложенной системе используются мел - частотные кепстральные коэффициенты (описанные в главе 1) и модифицированные признаки из AIM (описанные в главе 2).
Для решения задачи идентификации диктора используются мел - частотные кепстральные коэффициенты, к которым применяется Фишеровское ядро по алгоритму, описанному в главе 2. Преобразованные признаки используются для идентификации диктора с помощью предварительно обученного классификотора на основе метода опорных векторов.
В случае решения задачи распознавания языка используются признаки из AIM, которые сначала подаются на вход акустической модели, основанной на HMM, изложенный в главе 2. Для получения списка фонемных признаков, которые применяется для распознавания языка, используется алгоритм Витерби, который также приведён в главе 2. Полученные признаки также используются для идентификации языка с помощью предварительно обученного классификатора на основе метода опорных векторов.
Далее приводится схема архитектуры реализованной системы идентификации языка и диктора на языке UML в виде диаграм классов.
На рис. 3 представлена диаграмма классов сущностей, которые являются объектными представлениями данных, которыми управляет система идентификции.
Абстрактный класс Features предназначен для хранения и вычисления признаков входного речевого сигнала. Класс состоит массива объектов FeatureValue и метода получения Extract, выполняющего извлечение признаков из полученного на вход речевого сигнала.
Абстрактный класс Classifier предназначен для реализации классифицирующего алгоритма опорных векторов. Класс состоит из методов Train и Classify, а также объекта Parameters, который содержит все необходимые для работы классификатора параметры. Метод Train принимает на вход словарь, в котором ключём является метка класса, а значением - объект типа Features, и возвращает объект Parameters. Метод Classify принимает объект FeatureValue и возвращает значение решающей функции, а также метку класса - решения.
Класс SpeechUtils содержит вспомагательные методы, необходимые для вычисления признаков и классификации, такие как, например, вычисление выхода банка фильтров и алгоритм Витерби.
Далее в диссертации описывается последовательность вызовов методов классов для идентификации языка и диктора. Сначала вызывается метод Extract у классов FeaturesMFCC и FeaturesAIM, которые являются наследниками класса Features. После этого вызываются метод Classify класса ClassifySpeaker, на вход которому подаётся объект FeaturesMFCC.FeatureValue, и метод Decode класса SpeechUtils, который реализует алгоритм Витерби, который принимает объект FeatureValue и возвращает объект Phonems, являющийся наследником FeatureValues. После этого происходит вызов метода Classify класса ClassifyLanguage, на вход которому подаётся объект Phonems. Результатом последовательности вызовов являются номер диктора и языка, к которым классификатор отнес входной речевой сигнал.
Далее рассматриваются особенности конвейерной обработки речевого сигнала, приведённой на рис. 4.
Рис. 4: Конвейерная схема процессов обработки речевого сигнала В ряде случаев система должна работать в режиме реального времени.
Например, сотовая станция, которая обрабатывает поток независимо приходящих в априори неизвестные моменты времени заявки. В этом случае увеличение времени ожидания обработки заявки недопустимо. Таким образом, предполагается, что узлы системы обрабатывают приходящие потоки речевых сообщений независимо. Это вызвано тем, что если вновь прибывшая заявка будет обрабатываться одним из уже задействованных узлов системы, то при большой плотности прихода новых заявок накладные расходы на переключение контекстов и синхронизацию различных узлов системы превысят выигрыш от использования дополнительных вычислительных мощностей на обработку этой заявки. Кроме того, синхронизация процессов на разных узлах системы и перенос данных между узлами увеличат нагрузку на сеть.
Каждый узел комплекса представляет собой реализацию системы, изображенной на рис. 2.
В четвёртой главе представлены результаты экспериментов с реальными и симулированными данными с применением моделей, описанных в главе 2. Также даётся объяснение полученных результатов с точки зрения теории оптимизации, минимизации структурного риска и практических ограничений.
В главе анализируются особенности практического применения Фишеровских ядер к задаче распознавания диктора и приводятся результаты экспериментов по распознаванию в различных каналах: микрофонном, телефонном и GSM.
При проведении экспериментов по распознаванию диктора в качестве входных данных использовалась база речевых отрезков различной длительности. В ней содержатся данные по 15 дикторам, записанные с помощью обычного телефона, телефона GSM и микрофона. Характеристики входного сигнала для каждого канала: битрейт 16, частота дискретизации 8 кГц, соотношение сигнал – шум в среднем 15дб. Продолжительность речи каждого диктора в обучающем множестве составляла примерно 120 минут. Следует отметить, что в случае микрофонного канала при записи использовались микрофоны с очень разными АЧХ, поэтому фонограммы сильно отличаются друг относительно друга, что сильно усложняет задачу распознавания.
Таблица 1: Сравнение точности распознавания диктора в различных каналах.
Результаты экспериментов, представленные в таблице 1, показывают, что применение Фишеровских признаков значительно увеличивает точность работы классификатора. Очевидно, что даже на небольшой выборке классификатор на новых признаках работает лучше, чем на MFCC признаках. Приведено объяснение этому с точки зрения размерности ВапникаЧервоненкиса, так как применение Фишеровских признаков приводит к высокой VC – размерности пространства, и следовательно, большее количество точек может быть разделено гиперплоскостью.
Для выбора численного метода решения задачи (2) был произведен сравнительный анализ метода градиентного спуска, метода Нелдера-Мида и метода симуляции отжига. Для этого проведёно моделирование методом Монте-Карло по схеме марковской цепи случайной величины, имеющей распределение (2) с параметрами 0 = (2, 3, 6, 10). Исследуются различные способы порождения марковской цепи, такие как алгоритмы Метрополиса - Хастингса, Гиббса и алгоритм срезов. Приведено объяснение выбора метода для исследуемой задачи, а также описание проблем, возникающих при генерации марковской цепи, и путей их разрешения.
Результаты анализа, приведённые в таблице 2, подтверждают практическую применимость алгоритма симуляции отжига для решения задачи получения оценок параметров расширения Грам - Шарлье.
Таблица 2: Оценки параметров, полученные разными численными методами. В скобках Параметр Метод градиентного спуска Метод Нелдера - Мида Метод симуляции отжига Далее в главе представлены результаты применения расширения Грам - Шарлье для моделирования фонемных признаков с применением двух модификаций алгоритма симуляции отжига, описанных в главе 2.
Проведён анализ предложенных модификаций алгоритма по скорости выполнения и точности подгонки. Как видно из таблиц 3 и 4 первый алгоритм оказался более затратным по времени. При этом, зависимость времени работы алгоритмов от количества процессоров почти линейная.
Для оценки качества подгонки была использована мера расхождения Кульбака-Лейблера DKL (P ||Q) между двумя распределениями P и Q с плотностями p(x) и g(x), которая вычисляется по формуле Первый алгоритм даёт лучшую степень подгонки: расхождение КульбакаЛейблера меньше и значение целевой функции больше. Тем не менее, преимущество первого алгоритма нельзя назвать большим.
Количество процессоров Из приведённых таблиц можно сделать вывод о том, что второй алгоритм, хотя и менее точный, является более предпочтительным при реальном применении. При проведении экспериментов по распознаванию языка использовалась речевая база, содержащая данные по языкам (арабскому, английскому, мандарину, польскому, русскому и турецкому), записанным в телефонном канале. Характеристики входного сигнала: битрейт 16, частота дискретизации 8 кГц, соотношение сигнал – шум в среднем 15дб.
Продолжительность речи на каждом языке в обучающем множестве составляла примерно 120 минут. Tестовое множество для каждого языка состояло из примерно 500 векторов.
Результаты экспериментов, приведённые в таблице 5, показывают преимущество в точности распознавания при применении предложенных методов.
Таблица 5: Точность распознавания языка (в процентах).
В заключении подводятся итоги проделанной работы. Перечисляются основные результаты диссертации и следующие из них выводы.
Основные результаты работы, выносимые на защиту 1. Проведён анализ существующего состояния в сфере распознавания языка и диктора.
2. Выявлены дикторонезависимые признаки, основанные на 4-х параметрическом распределении, и доказана их оптимальность.
3. Разработана и теоретически обоснована модифицикация метода опорных векторов, основанная на применении фишеровских ядер, которая позволяет увеличить точность распознавания диктора.
4. Разработана модификация алгоритма симуляции отжига, увеличивающия быстродействие системы при получении дикторонезависимых признаков.
5. Проведён сравнительный анализ алгоритмов оптимизации для получения дикторонезависимых признаков по скорости и точности.
6. Разработаны и теоретически обоснованы методы и алгоритмы получения параметров классификатора для решения задач идентификации языка и диктора.
7. Создана программная реализация разработанной системы идентификации языка и диктора, фрагменты который внедрены на производстве.
8. Проведены экспериментальные исследования по оценке точности распознавания и быстродействию системы идентификации языка и диктора, которые показали преимущества разработанных методов по сравнению с применяемыми ранее.
Список работ, опубликованных по теме диссертации Статьи в рецензируемых изданиях, рекомендованных ВАК РФ:
1. Ермилов А.В. Распознавание языка искаженного текста методом опорных векторов // Вестник РУДН. Серия Математика, Информатика, Физика.
2012. Т. 2. с. 126–130.
2. Ермилов А.В. Моделирование речевых признаков с помощью алгоритма симуляции отжига // Вестник РУДН. Серия Математика, Информатика, Физика. 2014. Т. 2. с. 354-358.
3. Гостев И.М., Ермилов А.В. О применении Фишеровских ядер в задаче распознавания диктора // Известия Юго-Западного Государственного Университета. Серия Вычислительная Техника, Информатика, Медицинское приборостроение. 2011. Т. 2. с. 15–20.
4. Ermilov A. V. Speech Technologies in human computer interactions // International Journal of Modern Manufacturing Technologies. 2013. Vol. 4. p.
Материалы международных, всероссийских, молодежных научных конференций 5. Ermilov A. V. Parallel Technologies in maximum likelihood estimation // Book of Abstracts of 5th International Conference “Distributed Computing and Grid-Technologies in Science and Education’’ (GRID-2012). 2012. p. 99.
6. Ermilov A. V. Speech technologies in human-computer interactions // Book of Abstracts of the First International Conference on Modern Manufacturing Technologies in Industrial Engineering “ModTech – 2013” 2013. p. 197.
7. Ermilov A. V. Modeling of speech features via simulated annealing algorithm //Book of Abstracts of the international Conference “Mathematical Modeling and Computational Physics - 2013” (MMCP’2013). 2013. p. 76.
8. Ermilov A. V. Fisher Kernels for speaker recognition // Book of Abstracts of Second International Symposium “Modeling of Nonlinear Processes and Systems (MNPS-2011)”. 2011. p. 291.
9. Ермилов А.В. Параллельные технологии в задаче максимизации правдоподобия // Труды 5-ой Международной конференции ”Распределенные вычисления и грид-технологии в науке и образовании”.
2012. с. 302-305.
10.Ермилов А.В. Применение расширения Грам-Шарлье для моделирования речевых признаков // Сборник материалов X Международной научнотехнической Конференции “Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание - 2012”. 2012. с. 97.
11.Ермилов А.В. Математическая модель параллельных вычислений в системе автоматического распознавания речи // Сборник материалов XI Международной научно-технической Конференции “Оптикоэлектронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. Распознавание – 2013”. 2013. с. 252.
Личный вклад соискателя. В совместно опубликованных работах вклад автора диссертации является определяющим.
Методы, алгоритмы и программы решения задач идентификации языка и В диссертации разработаы методы идентификации диктора, основанные на методе опорных векторов с применением Фишеровских ядер. Кроме того, предложена и теоретически обоснована модель акустических дикторонезависимых признаков, использующая 4-х параметрическое распределение (расширение Грам-Шарлье) для моделирования речевых признаков. Разработана модификация алгоритма симуляции отжига, увеличивающая быстродействие системы распознавания при получении дикторонезависимых признаков за счет введения в алгоритм параллельно выполняющихся циклов.
Methods, algorithms and programms for language and speaker identification.
Abstract
In the dissertation elaborated methods of speaker identification, based on support vector machines with Fisher kernels. In addition developed and theoreticaly verified model of speaker-independent features, based on 4parametric distribution (Gram-Charlier expansion). Modification of simulated annealing algorithm based on parallel cycles is developed. This modification allows to increase speed of the recognition system.