WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Соловьева Елена Сергеевна

Методы и алгоритмы обработки, анализа речевого

сигнала для решения задач голосовой биометрии

Специальность: 05.13.01 – Системный анализ, управление и

обработка информации (приборостроение)

Автореферат диссертации на соискание ученой степени

кандидата технических наук

Москва – 2008

Работа выполнена на кафедре биомедицинских систем Московского государственного института электронной техники (технического университета)

Научный руководитель: доктор физико-математических наук, профессор Селищев Сергей Васильевич

Официальные оппоненты: доктор технических наук, профессор Спиридонов Игорь Николаевич кандидат технических наук Прилуцкий Дмитрий Анатольевич

Ведущая организация:

Федеральное государственное унитарное предприятие «Специализированное конструкторское бюро радиоэлектронной аппаратуры «Радэл»

Защита диссертации состоится «_» _ 2008 г. в _ часов на заседании диссертационного совета Д 212.134.02 при Московском государственном институте электронной техники (техническом университете) в ауд. 3103 по адресу: 124498, Москва, Зеленоград, проезд 4806, д.5, МИЭТ.

С диссертацией можно ознакомиться в библиотеке МИЭТ.

Автореферат разослан «_» 2008 г.

Соискатель:

Ученый секретарь диссертационного совета, доктор технических наук _А.В. Гуреев

Общая характеристика работы

Актуальность темы. Биометрия в настоящее время переживает период бурного развития. Во многом этот рост связан с решениями правительств ведущих государств о применении биометрических технологий в паспортно-визовых документах.

Наибольшее распространение получили системы идентификации по отпечаткам пальцев, однако в последние годы наблюдается повышенный интерес к голосовой биометрии. Это связано с такими преимуществами голосовой биометрии перед остальными подходами как: использование стандартного оборудования (обычного микрофона, телефона, ПК), бесконтактность, возможность получения дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности).

Одно из самых перспективных применений голосовой биометрии – использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (счет в банке, авторизация действия или восстановление пароля). Второе применение – получение дополнительной информации о человеке (акцент/диалект, психоэмоциональное состояние, антропометрические особенности). Данное применение является востребованным в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных, или оценить его психоэмоциональное состояние.

Основным недостатком систем идентификации по голосу является использование характеристик речи, которые подвержены влиянию психоэмоционального состояния человека, что снижает процент правильной идентификации. Кроме того, существующие в настоящее время системы не обеспечивают набор методик расчета характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния. Таким образом, разработка интегрированного программно-аппаратного комплекса для решения задач голосовой биометрии является актуальной темой.

Цель работы и задачи исследования. Целью данной диссертационной работы являлось создание методов и алгоритмов для обработки и анализа записей речевого сигнала с целью выявления индивидуальных характеристик голосового тракта диктора для решения основных задач голосовой биометрии, таких как идентификация диктора, определение его акцента/диалекта, антропометрических характеристик и психоэмоционального состояния.

Для достижения поставленной цели в диссертационной работе были решены следующие основные задачи:

1. Исследование и анализ существующих систем и методов для решения задач голосовой биометрии.

2. Разработка методики сбора баз данных и предобработки записей речевого сигнала для выявления информативных участков речи, учитывая специфику решаемой задачи голосовой биометрии.

3. Разработка методов и алгоритмов для расчета основных характеристик голосового тракта человека на основе линейной и нелинейной модели речеобразования.

4. Разработка методов и алгоритмов для классификации основных характеристик голосового тракта человека с целью решения задач голосовой биометрии.

5. Проведение исследований с целью определение эффективного набора речевых характеристик и оптимальных параметров классификаторов для решения задач голосовой биометрии.

6. Практическая реализация разработанных методов и алгоритмов при создании программно-аппаратного комплекса, предназначенного для решения задач голосовой биометрии.

7. Апробация методов и алгоритмов на доступных базах Научная новизна полученных результатов состоит в теоретическом обосновании, экспериментальном обеспечении и разработке эффективных алгоритмов и методов анализа и классификации речевого сигнала для решения задач голосовой биометрии.



В ходе выполнения диссертационной работы получены следующие научные результаты.

1. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.

2. С помощью однофакторного дисперсионного анализа выявлен эффективный набор речевых характеристик для определения психоэмоционального состояния диктора.

3. Предложен оптимальный набор параметров классификатора психоэмоционального состояния на основе многослойного перцептрона.

4. Предложен алгоритм для определения пола диктора, использующий значения Q10 (квантиль 10%) по гистограмме частоты основного тона (ЧОТ).

5. Разработанный программно-аппаратный комплекс обеспечивает, как ручную расстановку меток фонем, так и автоматическую на основе метода Learning Vector Quantization (LVQ).

6. Предложенный алгоритм классификации акцента на основе скрытых моделей Маркова (СММ) не требует полной фонетической разметки текста.

7. Для определения роста разработан алгоритм на основе Mel frequency cepstral coefficients (MFCC векторов), квадратичной регрессии и сингулярного разложения.

Определены фонемы гласных, дающие точность, достаточную для оценки роста.

Практическая значимость работы.

1. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала позволяют выделять значимые участки речи и могут быть использованы для решения задач голосовой биометрии.

2. Разработанный программно-аппаратный комплекс для регистрации, обработки и анализа речевого сигнала может быть использован для идентификации человека, а также определения его антропометрические характеристики, акцента/диалекта и психоэмоционального состояние (Рис.

Рис. 1. Программно-аппаратный комплекс для решения задач голосовой Достоверность полученных результатов подтверждается тестированием программы на доступных базах данных, подтвердившим надежность разработанных методов и алгоритмов.

В результате проведенных исследований получены и выносятся на защиту следующие основные научные результаты:

1. Использование для идентификации диктора, в качестве векторов признаков, MFCC позволяет исключить влияние эмоционального состояния на идентификацию диктора и увеличить ее точность.

2. Предложенные методики сбора речевых баз данных и предобработки записей речевого сигнала на основе фонетически сбалансированных слов и фонемной разметки позволяют выделять участки речи значимые при идентификации диктора, определении его акцента, психоэмоционального состояния.

3. Математическое описание методов и алгоритмов расчета характеристик речевого сигнала, позволяющих выявлять индивидуальные характеристики голосового тракта диктора, на основе линейной и нелинейной модели речеобразования.

4. Предложенный эффективный набор речевых характеристик и оптимальный набор параметров классификаторов обеспечивает надежное использование системы для идентификации диктора, определения его акцента, психоэмоционального состояния.

5. Разработанный программно-аппаратный комплекс может быть использован для проведения экспериментов по исследованию и выявлению значимых линейных и нелинейных характеристик голосового сигнала при идентификации диктора, определения его акцента, психоэмоционального состояния.

Апробации работы.

Основные положения и результаты диссертационной работы были представлены и обсуждены:

• на V-й Международной НТК «Электроника и информатикаМосква, 2005);

• на XIII, XIV, XV всероссийских межвузовских НТК информатика» (Москва, 2006, 2007, 2008);

• на Всероссийском молодежном научно-инновационном конкурсе – конференции «Электроника - 2006» (Москва, • на VII Международной НТК «Физика и радиоэлектроника в медицине и экологии – ФРЭМЭ 2006» (Владимир, 2006);

предпринимательских проектов «День науки Зеленоград»

(Москва, 2006, 2007);

• на ХХ съезде Физиологического общества им. И.П. Павлова (Москва, 2007);

• The 4th Russian-Bavarian Conference on Bio-Medical Engineering, 2008, Moscow.

Внедрение результатов работы Разработанные в рамках диссертационной работы методики сбора голосовых баз данных и предобработки записей речевого сигнала, а также предложенный комплекс речевых характеристик и параметров классификаторов были внедрены:

• в ряде научно-исследовательских и опытно-констукторских работ, выполняемых на базе Научно-исследовательского и испытательного центра биометрической техники МГТУ им.

Н.Э. Баумана;

• в лабораторном практикуме по курсу «Нейронные сети и вейвлеты» для магистрантов МИЭТ, обучающихся по программе «Электроника биомедицинских систем»

направления 210100 «Электроника и микроэлектроника»;

•в учебно-исследовательской работе «Развитие технологической базы, методического и программного обеспечения, учебно-исследовательских работ и научноинновационной деятельности в области разработки электронных биомедицинских изделий и аппаратуры», выполненной центром формирования компетенций «Электроника биомедицинских и экологических систем»

МИЭТ в ходе Инновационной образовательной программы «Современное профессиональное образование для электроники» (2006-2007).

Публикации. По теме диссертации опубликовано научных работ, из них 1 статья в журнале "Медицинская техника".

Структура и объем работы.

Диссертационная работа состоит из введения, четырех глав, заключения, списка используемой литературы и приложения, состоящего из шести частей. Общий объем работы составляет страниц, в том числе 68 рисунков, 27 таблиц, библиографических источников, 16 страниц приложений и 2 акта внедрения.

Содержание работы Во введении обоснована актуальность диссертационной работы; сформулирована цель работы и приведены основные результаты; изложены научная новизна и практическая значимость работы.

В первой главе рассмотрены две модели речеобразования:

линейная и нелинейная. Выполнен обзор существующих алгоритмов, методов и основных подходов к идентификации диктора, определению акцента и антропометрических характеристик, а также основных методов исследования эмоциональной речи. Рассмотрены области применения голосовой биометрии такие как, использование для проверки идентичности человека перед разрешением доступа к защищенному имуществу (счет в банке, авторизация действия или восстановление пароля); для электронной подписи документов, с невозможностью отказа от авторства; для контроля присутствия работника на рабочем месте. Определение дополнительных характеристик диктора (акцент, антропометрические характеристики) используется в области криминалистики, когда нужно идентифицировать звонящего человека, не зарегистрированного в базе данных. Кроме того, можно оценить изменение психоэмоционального состояния человека в ответ на внешние и внутренние раздражители (при допросе, телефонном разговоре и т.д.).

В первой главе также представлен анализ рынка биометрических систем и перспективы голосовой биометрии в частности. В Таблице 1 рассмотрены некоторые существующие в настоящее время системы и их характеристики.

Компания Продукция/Назначение Характеристики Речевых Система автоматизации правильной Технологий), фоноучетов и экспресс- идентификации 82%Санкт-Петербург исследований фонограмм 92%, в зависимости от программное обеспечение диагностики акцентной Обзор существующих коммерческих систем для решения задач голосовой биометрии и их основных характеристик показал, что недостатком существующих российских систем психоэмоциональному состоянию диктора, а системы для диагностики акцента требуют полной фонетической разметки текста, что требует больших временных затрат. К тому же, в настоящее время не существует коммерческих программноаппаратных систем, обеспечивающих набор методик для определения характеристик голосового тракта, необходимых при определении антропометрических особенностей диктора, а также его психоэмоционального состояния.

В заключение главы обоснована необходимость создания интегрированного программно-аппаратного комплекса для обработки, анализа речевого сигнала и решения задач голосовой биометрии.

Во второй главе описаны алгоритмы расчета характеристик голосового тракта, необходимых для проведения дальнейшего исследования в области голосовой биометрии, а также предложены оптимальные виды классификаторов для идентификации диктора, определения акцента, антропометрических характеристик и психоэмоционального состояния диктора.

Алгоритм идентификации диктора основан на вычислении акустических параметров речи с помощью метода MFCC векторов. Данный метод был выбран, так как его можно применять на зашумленных/телефонных записях, а также MFCC вектора не подвержены влиянию эмоционального состояния диктора. Для классификации используется метод квантования векторов Linde-Buzo-Gray (LBG), так как данный метод можно использовать в текстонезависимых системах, при этом он не требует значительных вычислительных затрат и обладает достаточной точностью.

Частота дискретизации сигнала составляет 8000 Гц. Такая частота дискретизации сигнала позволяет анализировать частоты до 4000 Гц, которые покрывают наибольшую энергию звуков производимых человеком, т.к. три первые форманты находятся в диапазоне от 200 до 4000 Гц.

Основной идеей метода MFCC являться максимальное приближение информации, поступающей на вход системы, к информации, поступающей на слуховой анализатор мозга человека, с помощью умножения 32 копий каждого отсчета сигнала в 30 мсек на АЧХ треугольных фильтров, центральные частоты которых равномерно распределены по мел-шкале. (Рис.

2).

Рис. 2. Блок фильтров одинаковой площади, распределенных по мелшкале На рисунке 2 показаны первые 32 фильтра, которые покрывают диапазон частот [133 Гц, 3954 Гц]. Частотные центры первых тринадцати из них распределены по линейному закону в диапазоне частот [200 Гц, 1000 Гц], что связанно с особенностями восприятия человеческого уха, а следующие логарифмически распределены (logStep = 1.0711703) в диапазоне [1071 Гц, 3692 Гц] и рассчитываются с помощью формулы:

Каждый из фильтров с равной площадью определяется как:

Далее, используя алгоритм LBG, входными параметрами которого являются MFCC коэффициенты, для каждого диктора строится кодовая книга. После этого вычисляется специальное, устойчивое к перестановкам векторов, расстояние от неё до других книг в базе данных. Если минимальное расстояние меньше некоторого порога, то считается, что диктор распознан.

Для определения акцента используются статистические модели произнесения слов на основе СММ. Акцент выражается в произношении, растягивании и проглатывании букв, поэтому важно знать изменение состоянии в каждый дискретный момент времени, что обеспечивает метод СММ.

В связи с небольшим размером обучающей выборки в данной работе для надежного обучения СММ применяется метод контекстного адаптивного обучения (КАО) слева на право без скачков, где последовательность фонем получена из словаря произношений. Предложенная схема адаптации использует метод линейной регрессии максимальной вероятности. При КАО слева направо начальными вероятностями перехода является последовательность:

а вероятности переходов рассчитываются следующим образом:

Для определения пола используется значения Q10 (квантиль 10%) по гистограме ЧОТ (Рис. 3), так как частота этих колебаний с вероятностью 0,95 лежит в интервале 80-150 Гц для мужчин и 150-400 Гц для женщин.

На рисунке 3 показана гистограмма ЧОТ для мужского голоса, где Q10 = 97,29 Гц.

Определение роста диктора производится на основе расчета MFCC коэффициентов для гласных звуков. MFCC коэффициенты обладают наибольшей корреляцией между рассчитанным и действительным ростом (0.7426 на выборке из 462 дикторов) по сравнению с LPC коэффициентами (Linear Prediction Coefficients), ЧОТ и формантными частотами.

Алгоритм для определения роста состоит из двух этапов.

Первый этап – обучение базы данных (Рис. 4).

Для дикторов из обучающей выборки берутся MFCC коэффициенты, а также их квадраты и формируется матрица Х размерностью 21хN1:

Коэффициенты регрессии b ищутся путем решения системы уравнений: y1 = X 1 b и рассчитываются на основе сингулярного разложения, где y1 вектор «реального» роста диктора.

Второй этап – определение роста диктора на основе вычисленных коэффициентов регрессии (Рис. 5).

Рис. 5. Алгоритм определения роста диктора Для определения психоэмоционального состояния используются паралингвистические параметры. К наиболее исследуемым паралингвистическим аспектам можно отнести линейные характеристики (значение ЧОТ и его характеристик, джиттер, шиммер, темп речи и значение интенсивности), и нелинейные характеристики на основе оператора ТЕО. К характеристикам ЧОТ относятся её межсегментные и внутрисегментные изменения.

Качественная характеристика речи анализируется с помощью джиттера и шиммера. Джиттер отражает изменения ЧОТ, а шиммер – изменения амплитуды сигнала между двумя соседними фреймами. Численно они выражаются, как:

Оператор TEO для речевого сигнала можно записать в следующем виде:

где амплитудная и частотная составляющие могут быть записаны в следующей форме:

Во второй главе также приведено математическое описание однофакторного дисперсионного анализа, с помощью которого может быть выявлен наиболее эффективный набор характеристик речевого сигнала при определении психоэмоционального состояния диктора.

В третьей главе На основе описанных во второй главе алгоритмов реализован программно-аппаратный комплекс, предназначенный для решения задач голосовой биометрии (Рис. 6).

Рис. 6. Общая схема программно-аппаратного комплекса Модуль загрузки фонограммы служит для ввода фонограмм со звукозаписывающей аппаратуры или из базы данных.

В качестве устройств захвата звука использовались модели внешних/внутренних звуковых плат фирмы Creative Worldwide серий X-Fi и Audigy, так как они способны с высокой точностью получать любую требуемую частоту, а также тестовые программы демонстрируют отсутствие характерных искажений сигнала. Характеристики звуковых плат:

• 24-битный АЦП с частотой опроса до 192 КГц в стерео режиме;

• 24-битный ЦАП с частотой выдачи до 96 КГц;

• микрофонный вход, линейный стерео вход и SPDIF;

• фонограммы сохраняются в формате Microsoft WAVE, с разрешением 8/16-бит, моно или стерео, частота опроса - 8, 11.025, 16, 22.05, 24, 32, 44.1, 48 и 96 КГц.

Модуль оценки качества сигнала автоматически определяет пригодность фонограмм для последующего их использования в анализе по определению особенностей дикторов. Если сигнал не соответствует требованиям, то с помощью модуля предобработки можно произвести шумоочистку и удалить неинформативные участки (например, щелчки микрофона).

Модуль расчета векторов признаков предназначен для расчета характеристик голосового тракта на основе линейной и нелинейной модели речеобразования для дальнейшей классификации.

Модуль идентификации диктора выполняет загрузку записи голоса диктора, создание модели голоса и идентификацию диктора с использованием созданной базы данных моделей.

Определение психоэмоционального состояния состоит из четырех этапов (Рис. 7).

• подготовка звуковых файлов для последующего анализа (удаление артефактных участков, например, щелчков телефонного аппарата, участков с сильным фоновым шумом и т.д.);

• расчёт основных классификационных характеристик программой (джиттер, шиммер, параметры ЧОТ, параметры оператора TEO);

• определение параметров классификатора;

• определение психоэмоционального состояния.

Предобработка характеристик Удаление артефактных участков Рис. 7. Блок-схема модуля определения психоэмоционального Модуль антропометрии обеспечивает определение следующих показателей: пол диктора; рост диктора.

Определение этих показателей производится согласно блоксхеме (Рис. 8).

Предобработка меток фонем Рис. 8. Блок-схема модуля антропометрии При автоматической расстановке меток фонем используется LVQ классификатор, обученный на фонемах, расставленных вручную для 200 дикторов (100 мужчин и 100 женщин). Для каждого пола создается отдельная кодовая книга фонем.

Для обучения модуля определения диалекта/акцента диктора строится акцент независимая модель каждого из слов входящих в базу данных и создается набор СММ моделей, которые обучаются на все экземпляры слов в не зависимости от того, какой акцент был у этого слова. Далее, для каждого слова и для каждого акцента строится своя СММ модель, которая обучается только на примерах данного слова с заданным акцентом. Для всех СММ рассчитываются коэффициенты доверия.

При распознавании акцента, фраза разбивается на слова, определяется вероятность появления каждого слова в каждой модели. Если она меньше некоторого порога – то данное слово не входило в базу обучения, в противном случае, это слово признаётся тем, за которое отвечала СММ, выдавшая максимальную вероятность. Далее вычисляется вероятность принадлежности слова к какому-либо акценту, если она меньше некоторого значения, то считается, что данное слово принадлежит к неопознанному акценту. Если больше, то акцентом слова признается тот, который выдал большую вероятность.

Таким образом, определяется акцент всех слов фразы, вошедших в обучающую базу данных. Затем по ним восстанавливается акцент фразы в целом следующим образом:

каждое слово добавляет в свой акцент значение коэффициента доверия СММ, которая определила его акцент (выдала большую вероятность). Тот акцент, который набрал большую сумму, считается акцентом фразы.

В четвертой главе показаны основные результаты экспериментальной проверки предложенной методики.

Расчет используемых характеристик голосового тракта производился с помощью модуля расчета векторов признаков (Рис. 9).

Программа осуществляет расчет формант, ЧОТ и ее характеристик, TEO, джиттера, шиммера, спектрограммы, и энергии сигнала, а также отображение графиков их изменения.

Для апробации алгоритмов использовались собственные базы данных, а также открытые базы с сайтов, содержащие речевые записи с частотой оцифровки 8000 Гц и разрешением бит.

В рамках проведенных исследований для идентификации дикторов были использованы формантные частоты. В результате точность идентификации дикторов уменьшалась в зависимости от увеличения количества дикторов, входящих в выборку (Таблица 2).

Результат классификации в зависимости от количества дикторов При идентификации диктора на основе MFCC и LBG алгоритмов точность идентификации составила 99,6 % на базе данных в 528 дикторов. Такая точность была достигнута благодаря использованию базы данных, записанной с помощью одного и того же оборудования и в одинаковых акустических условиях без постороннего шума.

Использование формантных частот и 2-х слойной нейронной сети для классификации акцента показало, что 2-х слойные сети эффективно работают в задачах классификации акцента на небольших (до 30-40 человек) выборках. Однако, с увеличением выборки процент правильной классификации снижается до 40Рис. 10. Результаты классификации акцента На рисунке 10 показаны результаты обучения матрицы, и примеры выходных данных из нейронной сети для тестируемых испытуемых. Группа для обучения состояла из 4 акцентов по 7- человек. Выходные данные показывают относительную силу различных типов акцентов, преобладающих для отдельных испытуемых. В связи с невозможностью использования 2-х слойной нейронной сети для определения акцента/диалекта диктора на больших базах данных было решено использовать ССМ.

Тестирование классификатора акцентов на основе СММ проводилось на собственной базе данных. Группа для тестирования трех диалектов русского языка состояла из человек, из них 29 москвичей, 13 ростовчан и 18 петербуржцев (Таблица 3).

Результаты тестирования классификатора диалекта Ошибка тестирования составила от 18% до 33 %, при чем ошибка уменьшается с увеличением количества дикторов, входящих в обучающую выборку.

Тестирования классификатора роста проводилось на собственной базе данных, состоящей из 200 человек (100 женщин и 100 мужчин) с заранее измеренным ростом. Были получены следующие результаты:

• наименьшая ошибка определения роста получена при использовании гласных «у» и «е», при этом распределение точек на графике (Рис. 11а) близко к диагональному;

• для остальных гласных ошибка выше и распределение более горизонтальное, т.е. для центра аппроксимация лучше, чем на • при использовании комбинации гласных или их всех одновременно ошибка выше, а распределение имеет более ярко выраженный «горизонтальный» вид (Рис. 11б);

• расчеты на меньшей обучающей выборке в 50 дикторов привели к уменьшению ошибки оптимизации на обучающей выборке, и значительному увеличению ошибки для тестовой выборки.

Рис. 11. «Реальный» и «рассчитанный» рост для ряда гласных: (а) – Для определения психоэмоционального состояния человека были использованы как собственные записи на диктофон с частотой оцифровки 8000 Гц и разрешением 16 бит, так и звуковые записи доступных баз данных.

Запись голоса проводили в помещении без постороннего шума, где дикторы произносили одну и туже фразу, выражая при этом следующие эмоциональные состояния: «без эмоций», «гнев», «сарказм», «грусть» и «страх». Определение эмоционального состояния человека производилось с помощью расчета ЧОТ и его дисперсии. Ниже в таблице показаны суммированные результаты в процентах для всех испытуемых, из которой видны общие закономерности изменения ЧОТ и ее дисперсии при сравнении с эмоциональным состоянием «без эмоций» (Таблица 4).

Из представленных таблиц можно сделать следующие вывод, что использование линейных характеристик речевого сигнала (ЧОТ и ее дисперсии) для детектирования психоэмоционального состояния «страх» не достаточно. В связи с этим было решено использовать также нелинейные характеристики речи и выявить их наиболее эффективный набор.

Далее для обучения и тестирования классификатора психоэмоционального состояния использовалась база немецкой эмоциональной речи Emo-DB. Были использованы 187 фраз пяти дикторов, соответствующих следующим эмоциональным состояниям: нейтральное, гнев, счастье, грусть, страх. Из них 20% (33 записи) использовались в качестве тестового набора и 80% (154 записи) в качестве обучающего.

Были определены численные значения акустических параметров речи, для которых был произведён однофакторный дисперсионный анализ. С помощью однофакторного дисперсионного анализа была определена значимость каждого из параметров в распознавании психоэмоционального состояния.

После проведения серии экспериментов по минимизации входного вектора, с учётом данных однофакторного дисперсионного анализа, было получено, что набор оптимальных параметров, подающихся на вход классификатора, включает в себя: джиттер, стандартное отклонение ЧОТ между сегментами, стандартное отклонение ЧОТ внутри сегмента, нелинейные характеристики оператора ТЕО и стандартное отклонение энергии сигнала. При этом наибольший процент (76% для обучающей выборки и 63% для тестовой выборки) распознавания получается при следующих параметрах классификатора на основе перцептрона: количество нейронов во втором слое – 45, количество эпох обучения – 1000, коэффициенты функции активации для первого и второго слоя – 0.1, 0.1, скорость обучения первого и второго слоя – 0.1, 0.1.

На основании проведённой работы сформулированы следующие выводы:

1. наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой – 83.3% и 80%;

2. стенические эмоции (гнев, счастье), точно также как и астенические (грусть, нейтральное состояние, страх) трудно поддаются разделению;

3. не столь высокий процент распознавания эмоций страха (обучающая выборка – 72.7%, тестовая – 66.6%), счастья (обучающая выборка – 62.9%, тестовая выборка – 44.4%), грусти (обучающая выборка – 61.9%, тестовая выборка – 40%) связан, по-видимому, с небольшим количеством Полученные в диссертационной работе экспериментальные результаты подтвердили достоверность предложенной методики.

В заключение диссертационной работы сформулированы основные выводы и полученные результаты.

В приложении приведены результаты тестирования алгоритмов, выбор оптимальных характеристик речевого сигнала и параметров классификаторов.

Основные результаты диссертационной работы 1. Проведенный анализ существующих систем и методов для решения задач голосовой биометрии показал, что психоэмоциональному состоянию диктора, из-за использования основного тона для формирования векторов признаков.

2. Разработана методика сбора голосовых баз данных и предобработки записей речевого сигнала для выделения информативных участков голосового сигнала на основе использования фонетически сбалансированных слов и фонемной разметки.

3. Предложен эффективный набор речевых характеристик и оптимальный набор параметров классификаторов, обеспечивающий надежное использование системы для идентификации диктора, определения его акцента, психоэмоционального состояния.

4. Показана невозможность использования формантного анализа и нейросетевых классификаторов в задачах классификации акцента и идентификации дикторов, так как 2-х слойные сети эффективны на небольших (до 40- человек) выборках. Однако, затем процент правильной классификации снижается до 40-50%.

5. В результате проведенных исследований реализован программно-аппаратный комплекс с использованием полученных в диссертационной работе методов и алгоритмов, позволяющий решать задачи голосовой биометрии.

6. Проведено тестирование разработанных методов и алгоритмов на доступных базах.

а. При идентификации диктора на базе данных из 528 человек, состоящей из звуковых записей, записанных с помощью одного и того же оборудования и в одинаковых акустических условиях, точность составила 99,6 %. Удалось увеличить точность на 7-17% по сравнению с системами, использующими характеристики речи, которые подвержены влиянию психоэмоционального состояния человека.

б. При определении акцента/диалекта диктора ошибка тестирования классификатора составила от 18% до 33 %, при чем процент ошибки уменьшается с увеличением количества дикторов в обучающей выборке.

в. Точность определения пола по микрофонным записям составила 97.49% на базе из 199 дикторов.

г. В результате исследования был определён эффективный набор речевых характеристик, изменяющихся в зависимости от психоэмоционального состояния, выявлен оптимальный набор параметров классификатора на основе многослойного перцептрона. Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7% и 93.8%, для тестовой выборки – 83.3% и Список работ, опубликованных по теме диссертации 1. Соловьева Е.С., Конышев В.А., Селищев С.В. Использование основного тона и формантного анализа в задачах голосовой биометрии // Медицинская техника. – 2007. – №1. – С. 32-37.

2. Соловьева Е.С., Конышев В.А. Анализ стресса по речевому сигналу // V Международная НТК «Электроника и информатика-2005». Тезисы докладов. – М.: МИЭТ, 2005. – 3. Соловьева Е.С. Классификация акцента с помощью нейронных сетей // XIII всероссийская межвузовская НТК студентов и аспирантов: «Микроэлектроника и информатика – 2006». Тезисы докладов. – М.: МИЭТ, 2006. – С. 327.

4. Соловьева Е.С. Идентификация и верификация диктора по голосу // Всероссийский молодежный научно-инновационный конкурс – конференция «Электроника - 2006». Тезисы докладов конференции. – М.: МИЭТ, 2006. – С. 96.

5. Соловьева Е.С., Конышев В.А. Корреляция изменений частоты основного тона голоса человека с его эмоциональным состоянием // VII международная НТК «Физика и радиоэлектроника в медицине и экологии – ФРЭМЭ 2006». Доклады. Книга 1. – Владимир, 2006. – С.

107-110.

6. Соловьева Е.С., Тананыкин А.А. Модуль идентификации личности по голосу // XIV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика – 2007». Тезисы докладов. – М.: МИЭТ, 2007. – С. 363.

7. Соловьева Е.С., Вавакина Е.В., Карловский Д.В., Дорошенков Л.Г. Голосовая биометрия в задачах идентификации и верификации личности // Тезисы докладов Конкурса молодежных инновационных предпринимательских проектов «День науки Зеленоград». М.: МИЭТ, 2007. – С. 11.

8. Соловьева Е.С., Тарасов Р.Ю. Оценка психоэмоционального состояния человека по голосу // ХХ съезд Физиологического общества им. И.П. Павлова. Тезисы докладов. – М.:

Издательский дом «Русский врач», 2007. – С. 427.

9. Соловьева Е.С., Тананыкин А.А. Определение роста диктора на основе расчета акустических характеристик голосового тракта // XV Всероссийская межвузовская НТК студентов и аспирантов «Микроэлектроника и информатика – 2008».

Тезисы докладов. – М.: МИЭТ, 2008. – С. 282.

10. Vinokurova M., Solovjeva E., Tarasov R. Estimation of subject emotional state from speech parameters// Proceedings of the 4th Russian-Bavarian Conference on Bio-Medical Engineering at Moscow Institute of Electronic Technology (Technical University), Zelenograd, Moscow, Russia, 2008, pp. 357-361.

Подписано в печать:

Заказ № Тираж экз. Уч.-изд.л. Формат 60х84 1/16.

Отпечатано в типографии МИЭТ (ТУ).

124498, Москва, МИЭТ (ТУ).





Похожие работы:

«Мьинт Кьи Тар ОБТЕКАНИЕ ТОНКИХ КРЫЛЬЕВ НА РЕЖИМЕ СИЛЬНОГО ВЯЗКО-НЕВЯЗКОГО ВЗАИМОДЕЙСТВИЯ Специальность: 01.02.05. – механика жидкости, газа и плазмы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2011 Работа выполнена на кафедре аэрогидромеханики Государственного образовательного учреждения высшего профессионального образования Московский физико-технический институт (государственный университет). Научный руководитель : доктор...»

«Жигальский Игорь Михайлович АДМИНИСТРАТИВНЫЕ СПОРЫ В СФЕРЕ ЗАЩИТЫ ГОСУДАРСТВЕННОЙ ТАЙНЫ И ПОРЯДОК ИХ РАЗРЕШЕНИЯ В РОССИЙСКОЙ ФЕДЕРАЦИИ Специальность 12.00.14: Административное право; административный процесс Автореферат диссертации на соискание учёной степени кандидата юридических наук Москва – 2013 Диссертация выполнена на кафедре административного и финансового права ФГБОУ ВПО Российский университет дружбы народов. Научный руководитель кандидат юридических наук, доцент,...»

«КУРКИН Тихон Сергеевич СТРУКТУРА И СВОЙСТВА ПОЛИМЕРНЫХ КОМПОЗИЦИОННЫХ МАТЕРИАЛОВ НА ОСНОВЕ ПОЛИВИНИЛОВОГО СПИРТА И НАНОАЛМАЗОВ ДЕТОНАЦИОННОГО СИНТЕЗА 02.00.06 – высокомолекулярные соединения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва - 2010 www.sp-department.ru выполнена в Учреждении Российской академии наук Институте Работа синтетических полимерных материалов им. Н.С. Ениколопова РАН Научный руководитель :...»

«Величко Михаил Юрьевич ИНФОРМАЦИОННАЯ БЕЗОПАСНОСТЬ В ДЕЯТЕЛЬНОСТИ ОРГАНОВ ВНУТРЕННИХ ДЕЛ: ТЕОРЕТИКО-ПРАВОВОЙ АСПЕКТ Специальность 12.00.01 – теория и история права и государства; история учений о праве и государстве Автореферат диссертации на соискание ученой степени кандидата юридических наук Казань - 2007 2 Работа выполнена на кафедре теории и истории государства и права Государственного образовательного учреждения высшего профессионального образования Казанский...»

«ЛАТФУЛЛИН Денис Фатбирович Импульсный скользящий поверхностный разряд в газодинамическом потоке Специальности: 01.04.17 – химическая физика, в том числе физика горения и взрыва 01.04.08 – физика плазмы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2009 Работа выполнена на кафедре молекулярной физики физического факультета Московского государственного университета имени М.В. Ломоносова Научные руководители доктор...»

«Семенов Николай Александрович РЕОЛОГИЯ И МЕХАНИКА ЭЛЕКТРОУПРАВЛЯЕМЫХ НАНОСУСПЕНЗИЙ НА ОСНОВЕ ПОЛИИМИДОВ Специальность 01.02.05 — Механика жидкости, газа и плазмы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Москва - 2013 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте прикладной механики РАН (ИПРИМ РАН). доктор технических наук, профессор Научный руководитель : Яновский Юрий Григорьевич Официальные...»

«Жданов Андрей Геннадьевич ПОВЫШЕНИЕ НАДЕЖНОСТИ АНАЛИЗА ДАННЫХ ВИХРЕТОКОВОГО КОНТРОЛЯ ТЕПЛООБМЕННЫХ ТРУБ ПАРОГЕНЕРАТОРОВ АЭС Специальность 05.11.13 – Приборы и методы контроля природной среды, веществ, материалов и изделий АВТОРЕФЕРАТ Диссертации на соискание ученой степени кандидата технических наук Москва – 2014 Работа выполнена на кафедре Электротехники и Интроскопии Федерального государственного бюджетного образовательного учреждения высшего профессионального образования...»

«ЖАРОВА АНАСТАСИЯ СЕРГЕЕВНА Методы формирования клиентоориентированной стратегии развития предприятия Специальность 08.00.05 – Экономика и управление народным хозяйством: экономика, организация и управление предприятиями, отраслями, комплексами (промышленность) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург – 2014 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального...»

«Шахматов Кирилл Леонидович Обоснование круглогодичной добычи торфяного сырья и технология производства композиционных теплоизоляционных материалов Специальность 25.00.22 – Геотехнология (подземная, открытая и строительная) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Тверь – 2011 2 Работа выполнена на кафедре Геология, переработка торфа и сапропеля Тверского государственного технического университета Научный руководитель : доктор технических...»

«БРИТИНА Лилия Леонидовна Исторический опыт внешнеполитических отношений России и Франции в 1995-2007 годы Специальность 07.00.02 – Отечественная история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Москва – 2012 3 Работа выполнена на кафедре истории России факультета гуманитарных и социальных наук Российского университета дружбы народов кандидат исторических наук, доцент Научный руководитель : Понька Татьяна Ивановна доктор исторических...»

«Медисон Виталий Викторович ПОВЫШЕНИЕ СТОЙКОСТИ РЕЖУЩЕГО ИНСТРУМЕНТА МЕТОДОМ ЭЛЕКТРОИЗОЛЯЦИИ ПРИ ОБРАБОТКЕ ТИТАНОВЫХ СПЛАВОВ Специальность 05.02.07 – Технология и оборудование механической и физикотехнической обработки АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Нижний Тагил – 2014 Работа выполнена в Федеральном государственном автономном образовательном учреждении высшего профессионального образования Уральский федеральный университет имени...»

«УДК: 37.015.3 Щеголева Светлана Владимировна Социально-психологическая интегрированность сирот и подростков, живущих в семьях, в среде сверстников Специальность 19.00.05 – социальная психология Автореферат диссертации на соискание ученой степени кандидата психологических наук Санкт-Петербург 2002 2 Диссертация выполнена на кафедре психологии человека Российского государственного педагогического университета им. А.И. Герцена Научный руководитель : доктор психологических наук,...»

«Семенов Кирилл Тихонович ДИССИПАТИВНЫЕ РАЗРЫВЫ И АВТОМОДЕЛЬНЫЕ ЗАДАЧИ В ДИНАМИКЕ НЕОБРАТИМО СЖИМАЕМЫХ УПРУГОПЛАСТИЧЕСКИХ МАТЕРИАЛОВ 01.02.04 – механика деформируемого твердого тела Ав т о ре ф е ра т диссертации на соискание ученой степени кандидата физико-математических наук Владивосток – 2010 Работа выполнена в Институте автоматики и процессов управления Дальневосточного отделения РАН Научный руководитель : чл.-корр. РАН, доктор физико-математических наук, профессор Буренин...»

«Игнатова Ольга Александровна Гепатит А: особенности проявления эпидемического процесса в период вакцинации по эпидемиологическим показаниям или выборочного вакцинирования 14.02.02 – Эпидемиология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата медицинских наук Москва – 2012 Работа выполнена в ФБГОУ ДПО Российская медицинская академия последипломного образования Минздравсоцразвития России, ФГБУ Институт полиомиелита и вирусных энцефалитов им. М. П. Чумакова РАМН...»

«ИВАНОВА Юлия Владимировна Контроль селективности в катализируемом комплексами Pd и Ni образовании связи углерод-фосфор по реакции присоединения к ацетиленовым углеводородам 02.00.03 – Органическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Москва – 2013 Работа выполнена в лаборатории металлокомплексных и наноразмерных...»

«УДК 004.896 АКСЕНОВ Константин Александрович ТЕОРИЯ И ПРАКТИКА ПОДДЕРЖКИ ПРИНЯТИЯ РЕШЕНИЙ В ОБЛАСТИ ПРОЦЕССОВ ПРЕОБРАЗОВАНИЯ РЕСУРСОВ Специальность 05.13.01 – Системный анализ, управление и обработка информации Автореферат диссертации на соискание ученой степени доктора технических наук Екатеринбург – 2011 Работа выполнена на кафедре автоматизированных систем управления ФГАОУ ВПО Уральский федеральный университет имени первого Президента России Б.Н.Ельцина. Научный...»

«Апокин Александр Юрьевич Модель сигналов на рынке труда с учетом студенческой занятости и эффекта сообучения Специальность 08.00.01 – Экономическая теория АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва – 2008 Работа выполнена в Государственном университете – Высшей школе экономики. Научный Кандидат экономических наук руководитель: Савицкая Елена Владиславовна Доктор экономических наук Официальные Гребнев Леонид Сергеевич оппоненты:...»

«Маслов Евгений Анатольевич МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ ТЕПЛОФИЗИЧЕСКИХ И ГАЗОДИНАМИЧЕСКИХ ПРОЦЕССОВ ПРИ РАЗРУШЕНИИ КОНСТРУКЦИОННЫХ МАТЕРИАЛОВ ГЕТЕРОГЕННОЙ ВЫСОКОТЕМПЕРАТУРНОЙ СТРУЕЙ 01.04.14 – Теплофизика и теоретическая теплотехника 01.02.05 – Механика жидкости, газа и плазмы Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Томск – 2006 Диссертация выполнена на кафедре теплофизики и гидромеханики теплоэнергетического факультета...»

«ОРЛОВА СВЕТЛАНА СЕРГЕЕВНА ПРОГНОЗ И ПОВЫШЕНИЕ ЭКСПЛУАТАЦИОННОЙ НАДЕЖНОСТИ НАПОРНЫХ ТРУБОПРОВОДОВ ОРОСИТЕЛЬНЫХ СИСТЕМ, ТРАНСПОРТИРУЮЩИХ СТОЧНЫЕ ВОДЫ Специальность 06.01.02 – Мелиорация, рекультивация и охрана земель АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Волгоград – 2008 Работа выполнена в ФГОУ ВПО Саратовский государственный аграрный университет имени Н.И. Вавилова Научный руководитель : кандидат технических наук, доцент Затинацкий...»

«БУРОВ Сергей Владимирович НОСИТЕЛИ ПРОТИВООПУХОЛЕВЫХ ПРЕПАРАТОВ НА ОСНОВЕ СИНТЕТИЧЕСКИХ ПОЛИПЕПТИДОВ 02.00.06 – Высокомолекулярные соединения 02.00.10 – Биоорганическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора химических наук Санкт-Петербург 2008 2 Работа выполнена в Учреждении Российской Академии Наук Институте высокомолекулярных соединений РАН. Научный консультант : член-корр. РАН, доктор химических наук, профессор Евгений Федорович Панарин...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.