МОСКОВСКИЙ ГОРОДСКОЙ ПСИХОЛОГО-ПЕДАГОГИЧЕСКИЙ
УНИВЕРСИТЕТ
Факультет Информационных технологий
Кафедра Математики
КУРСОВАЯ РАБОТА НА ТЕМУ:
Распознавание речи.
Выделение человеческого голоса среди бытовых шумов.
ВЫПОЛНИЛА
Студентка группы Ит. 5.2 Буторина А.В.
НАУЧНЫЙ РУКОВОДИТЕЛЬ
Скрибцов П.В Москва 2007г.Содержание:
I Введение ………………………………………………………………………. II Основная часть ………………………………………………………………. 1 Что такое звук, физические параметры голоса …………………………….. 2 Основные области применения распознавания голоса …………………... 3 Основные этапы распознавания голоса …………………………………… 4 Основные проблемы на сегодняшний день ……………………………….. 5. Продукты, реализованные в данной области …………………………….. 6. Проделанная работа (проделанная мною) ………………………………... 6.1. Постановка задачи …………………………………………………….. 6.2. Непосредственная реализация и полученные результаты ………….. 6.2.1. Поиск признаков …………………………………………………. 6.2.1.1 Частоты спектральных составляющих сигналов в окрестностях которых сосредоточена максимальная энергия ………. 6.2.1.2 Максимальные и минимальные значения спектров и соответствующих …………………………………………………………….... 6.2.1.3 Разности между минимальными и максимальными значениями спектров и соответствующих частот ……………………. 6.2.1.4 «Выбросы» …………………………………………………… 6.2.1.5 Статистика в программе Adobe Audition ………………........ 6.2.1.6 Все вышеописанные методы методом эталонов ………..…. 6.2.1.7 Вейвлет-преобразование ………………………………..…… 6.2.1.8 Статистика в программе MATLAB …………………..…….. 6.2.1.9 Средние значения спектров в промежутках от 0 до 4000Гц и от 0 до 16000Гу ………
6.2.1.10 Средние значения спектров на промежутке от 0 до 4000Гц и разности между минимальными и максимальными значениями спектров и соответствующих частот ………………………………………… 6.2.1.11 Средние значения спектров и разности между минимальными и максимальными значениями спектров ………… 6.2.2. Методы распознавания ………………………………………… 6.3. Результаты ……………………………………………………………. III Заключение ……………………………………………………………….. Список используемой литературы …………………………………………. Приложение (Список файлов)………………………………………………. Рассказывают, когда к Сократу однажды привели человека, о котором он должен был высказать свое мнение, мудрец долго смотрел на него, а потом воскликнул: «Да говори же ты, наконец, чтобы я мог тебя видеть!»
В 1228 году Мишель Скоттус, придворный философ и астролог императора Сицилии и Апулии Фридриха фон Хохенштауфена, в одной из глав своего труда «Физиогномика» впервые приводит 13 определений различных качественных и количественных изменений человеческого голоса, подчиненных характеру.
Голос наиболее полно раскрывает характер, настроение и даже душевные свойства человека. Можно изменить внешность, прическу, придать нужное выражение своему лицу, но в голосе всегда почувствуется фальшь. Недаром в одном древнеиндийском стихотворении говорится:
Черным-черна однажды затесалась Ворона между черными дроздами.
Ее никто не распознал бы в стае, Сумей она попридержать язык!
Тем не менее, основное предназначение голоса – передача информации. Но сила человеческого голоса не велика и многие годы и столетия общение ограничивалось незначительным расстоянием. Что бы передать информацию на большие расстояние приходилось использовать письма и ждать долгое время ответа и то если письмо не потеряется. С изобретением телеграфа слало значительно легче и быстрее передавать необходимую информацию к адресатам. Но грандиозным прорывом стало изобретение в 1876 г.
Александром Беллом телефона. С его помощью стало возможно передавать голос в реальном времени на большие расстояния, стало возможно непосредственное общение между сколь угодно далеко находящимися друг от друга людьми.
Прогресс – одно из основных понятий индустриального общества.
Дальнейшее развитие техники привело к появлению высоких технологий и компьютерных систем. И теперь становится все более очевидным, что использование человеческой речи при общении непосредственно с компьютером приведет к облегчению пользования этими системами, а также к расширению сфер их применения, в частности станет возможным управление машиной обычным голосом в реальном времени, а также ввод и вывод информации в виде обычной человеческой речи.
Такая постановка задачи повлекла за собой появление термина Распознавание речи. Распознавание речи - это технология, позволяющая использовать естественный для человека речевой интерфейс для взаимодействия с электронной техникой.
1 Что такое звук, физические параметры голоса.
Звуковыми волнами или просто звуком принято называть волны, воспринимаемые человеческим ухом. Диапазон звуковых частот лежит в пределах приблизительно от 20 Гц до 20 кГц. Волны с частотой менее 20 Гц называются инфразвуком, а с частотой более 20 кГц – ультразвуком. Волны звукового диапазона могут распространяться не только в газе, но и в жидкости (продольные волны) и в твердом теле (продольные и поперечные волны). Однако волны в газообразной среде – среде нашего обитания – представляют особый интерес. Изучением звуковых явлений занимается раздел физики, который называют акустикой.
При распространении звука в газе атомы и молекулы колеблются вдоль направления распространения волны. Это приводит к изменениям локальной плотности и давления p. Звуковые волны в газе часто называют волнами плотности или волнами давления.
В простых гармонических звуковых волнах, распространяющихся вдоль оси OX, изменение давления p(x, t) зависит от координаты x и времени t по закону Два знака в аргументе косинуса соответствуют двум направлениям распространения волны. Соотношения между круговой частотой, волновым числом k, длиной волны, скоростью звука такие же, как и для поперечных волн в струне или резиновом жгуте:
Важной характеристикой звуковых волн является скорость их распространения. Она определяется инертными и упругими свойствами среды. Скорость распространения продольных волн в любой безграничной однородной среде определяется по формуле где B – модуль всестороннего сжатия, – средняя плотность среды. Еще Ньютон пытался получить числовое значение скорости звука в воздухе. Он предположил, что упругость воздуха просто равна атмосферному давлению pатм, тогда скорость звука в воздухе получается меньшей 300 м/с, в то время, как истинная скорость звука при нормальных условиях (т. е. при температуре 0 °С и давлении 1 атм) равна 331,5 м/с, а скорость звука при температуре 20 °С и давлении 1 атм равна 343 м/с. Только через сто с лишним лет французский ученый П. Лаплас показал, что предположения Ньютона равносильно предположению о быстром выравнивании температуры между областями разрежения и сжатия. Это предположение из-за плохой теплопроводности воздуха и малого периода колебаний в звуковой волне не выполняется. На самом деле между областями разрежения и сжатия газа возникает разность температур, которая существенно влияет на упругие свойства. Лаплас предположил, что сжатие и разрежение газа в звуковой волне происходят по адиабатическому закону, т. е. без влияния теплопроводности. Формула Лапласа (1816 г.) имеет вид где p – среднее давление в газе, – средняя плотность, – некоторая константа, зависящая от свойств газа. Для двухатомных газов = 1,4. Расчет скорости звука по формуле Лапласа дает значение = 332 м/с (при нормальных условиях).
В термодинамике доказывается, что коэффициент равен отношению теплоемкостей при постоянном давлении Cp и при постоянном объеме CV.
Формулу Лапласа можно представить в другом виде, если воспользоваться уравнением состояния идеального газа. Приведем здесь окончательное выражение:
где T – абсолютная температура, M – молярная масса, R = 8,314 Дж/моль·К – универсальная газовая постоянная. Скорость звука сильно зависит от свойств газа. Чем легче газ, тем больше скорость звука в этом газе. Так, например, в воздухе (M = 29·10–3 кг/моль) при нормальных условиях = 331,5 м/с, в гелии (M = 4·10–3 кг/моль) = 970 м/с, в водороде (M = 2·10–3 кг/моль) = 1270 м/с.
В жидкостях и твердых телах скорость звуковых волн еще больше. В воде, например, = 1480 м/с (при 20 °С), в стали = 5–6 км/с.
При восприятии различных звуков человеческое ухо оценивает их прежде всего по уровню громкости, зависящей от потока энергии или интенсивности звуковой волны. Воздействие звуковой волны на барабанную перепонку зависит от звукового давления, т. е. амплитуды p0 колебаний давления в волне. Человеческое ухо является совершенным созданием Природы, способным воспринимать звуки в огромном диапазоне интенсивностей: от слабого писка комара до грохота вулкана. Порог слышимости соответствует значению p0 порядка 10–10 атм, т. е. 10–5 Па. При таком слабом звуке молекулы воздуха колеблются в звуковой волне с амплитудой всего лишь 10–7 см! Болевой порог соответствует значению p0 порядка 10–4 атм или 10 Па. Таким образом, человеческое ухо способно воспринимать волны, в которых звуковое давление изменяется в миллион раз. Так как интенсивность звука пропорциональна квадрату звукового давления, то диапазон интенсивностей оказывается порядка 1012! Такой огромный диапазон человеческого уха эквивалентен использованию одного и того же прибора для измерения диаметра атома и размеров футбольного поля.
Для сравнения укажем, что при обычных разговорах людей в комнате интенсивность звука приблизительно в 106 раз превышает порог слышимости, а интенсивность звука при рок-концерте приближается к болевому порогу.
Еще одной характеристикой звуковых волн, определяющей их слуховое восприятие, является высота звука. Колебания в гармонической звуковой волне воспринимаются человеческим ухом как музыкальный тон. Колебания высокой частоты воспринимаются как звуки высокого тона, колебания низкой частоты – как звуки низкого тона. Звуки, издаваемые музыкальными инструментами, а также звуки человеческого голоса могут сильно различаться по высоте тона и по диапазону частот. Так, например, диапазон наиболее низкого мужского голоса – баса – простирается приблизительно от 80 до 400 Гц, а диапазон высокого женского голоса – сопрано – от 250 до 1050 Гц.
Диапазон звуковых колебаний, соответствующий изменению частоты колебаний в два раза, называется октавой. Голос скрипки, например, перекрывает приблизительно три с половиной октавы (196–2340 Гц), а звуки пианино – семь с лишним октав (27,5–4186 Гц).
Характеристики голоса:
Разложим голос на составляющие, основными параметрами являются:
частота, сила, длительность и тембр, которые, как величины, можно анализировать и по отдельности. В действительности, однако, подобный анализ не представляет собой реального выражения голоса, поскольку эти качества образуют единый неделимый комплекс.
Высота издаваемого звука зависит от числа колебаний голосовых складок в секунду. Голосовые складки способны приходить в колебательные движения не только целиком, всей своей массой, но и отдельными участками. Только этим можно объяснить то, что одни и те же голосовые складки могут колебаться с различной частотой: примерно от 80 до 10 000 колебаний в секунду и даже больше Тоновый диапазон человеческого голоса представлен последовательностью тонов, которые могут быть произведены голосовым аппаратом в пределах границ между самым низким и самым высоким звуками. Человеческий голос обычно включает в себя тоны от 64 до 1300 герц.
В двух формах проявления человеческого голоса – пении и разговоре – качества голоса представлены несколько различно. Разговорный голос составляет лишь 1/10 от общего диапазона голоса.
Тоновый охват певческого голоса значительно шире разговорного и зависит от вокального образования.
Сила подаваемого звука определяется интенсивностью напряжения голосовых складок и величиной давления воздуха в подсвязочном пространстве. И тот и другой процесс регулируются центральной нервной системой. Контроль осуществляется с помощью слуха. Если же взаимоотношения между этими процессами нарушаются, например, при крике ужаса, то превалирование давления внутри трахеи вызывает звук, который характеризуется отсутствием чистой тональности.
Благодаря индивидуальному объему околоносовых пазух тембр голоса тоже строго индивидуален. Неповторимость его можно сравнить с неповторимым узором отпечатка пальцев. Во многих странах мира (в США, Англии, Италии) магнитофонная запись человеческого голоса считается неоспоримым юридическим документом, подделать который невозможно. А как же быть с поразительной способностью некоторых людей к звукоподражанию? Надо признаться, что это свойство пародистов исследовано далеко не достаточно.
Ниже представлен диапазон человеческого голоса (в Герцах):
- Бас - 75- - Тенор - 120- - Меццо-сапрано - 170- - Сопрано - 230- Для сравнения приведен частотный диапазон музыкальных инструментов:
Контрабас - 40- Виолончель - 65- Альт - 130- Скрипка - 210- Фагот - 60- Кларнет - 140- Гобой - 230- Флейта - 240- Пинколо-флейта - 560- Туба - 45- Тромбон - 80- Валторны - 60- Труба - 160- Таким образом человеческий голос имеет диапазон звучания от 75 до Герц, который так или иначе перекрывает (заглушается, смешивается) с любым музыкальным инструментом (оптимальная точка – 300 Герц).
Так же необходимо учитывать силу звучания (динамический диапазон) данных инструментов.
Динамический диапазон гитары составляет 15дБ; органа – 35дБ; рояля – 45дБ; женский голос – 20-35дБ; мужской голос – 20-45дБ, эстрадного оркестра – 45-55дБ, симфонический оркестр 60-75дБ.
2 Основные области применения распознавания голоса Уже многие годы компьютеры умеют «слушать» людей и расшифровывать их слова. В 1960-х ученые стали «учить» машины говорить с людьми.
Продвижение, правда медленное, началось в 1970-х В 1980-х специализированные программы распознавания голоса привлекли внимание представителей некоторых профессий, в частности врачей и юристов.
Вначале такие системы работали с небольшими словарями, требовали голосовой настройки и неестественных пауз между словами. После нескольких десятилетий кропотливых исследований мощные технологии распознавания голоса буквально выплеснулись на рынок. Этот феномен подогревается снижением стоимости вычислительной обработки и безумной конкуренцией среди исследователей систем речевого общения. В 1990-х значительные успехи в разработке продуктов, работающих с большими словарями, и появление распознавателей непрерывной речи снова «подстегнули» развитие рынка речевых систем. В это же время быстро развиваются технологии естественного языка. Разработаны мощные программы, которые с 95%-98% точностью (как заявляют разработчики) «понимают», что было сказано.
Сегодня существуют два основных вида технологий распознавания голоса.
Один из них - это распознавание речи. Зависящее от диктора, т. е.
пользователь должен сначала научить систему распознавать его голос, и только после этого система может функционировать. Второй - это распознавание речи не зависящее от диктора, т. е. система способна распознать любую речь, независимо от того, кто говорит. Такие системы разрабатываются для любого пользователя конкретного типа. Это самые сложные в разработке и самые дорогие системы, а точность распознавания у них ниже. Однако эти системы более гибки. Адаптивные системы приспосабливаются к характеристикам нового диктора. Уровень их сложности лежит где-то посередине между первыми двумя системами.
Системы распознавания изолированных слов работают с дискретными словами - в этом случае требуется пауза между словами. Это самая простая форма распознавания, так как в этом случае легко определяется конец речевого сигнала, а произношение слова не затрагивает другие слова.
Поскольку в этих системах количество слов постоянно, то их легче проектировать. Системы распознавания непрерывного речевого сигнала работают с речевым потоком, в котором слова сливаются, т. е. не разделены паузой. Непрерывную речь обрабатывать гораздо сложней по целому ряду причин, например, трудно определить начало и конец слова, не говоря уже о характере произнесения слов при различных контекстах и т.д.
Вот типичные области применения систем распознавания голоса:
1. Интерфейс между человеком и компьютером: по мере проникновения компьютеров во все слои общества становится очевидным, что многие люди испытывают трудности в общении с машиной. Пользователи не могут просто сформулировать, чего они хотят, им приходится заучивать устаревшие команды или далеко не интуитивные процедуры. Более того, в процессе такого общения приходится использовать медленные и непростые устройства, такие как мышь или клавиатура. Ясно, что необходим новый способ общения с компьютером — простой, быстрый, интуитивный.
Системы распознавания голоса заставляют машину приспосабливаться к человеку, а не наоборот. Огромное преимущество систем распознавания голоса еще и в том, что они намного быстрее любых других типов интерфейсов. Например, голосовая программа электронной почты позволяет включить компьютер, продиктовать и послать сообщения, даже не прикасаясь к мыши или клавиатуре. А что еще более важно, так это то, что люди с физическими недостатками смогут более эффективно взаимодействовать с компьютером. С системой распознавания голоса слепые или те, кто по каким-либо причинам не может пользоваться клавиатурой, могут общаться с компьютером не хуже остальных.
Иногда под распознаванием голоса понимают лишь задачу идентификации говорящего 2. Оперативные информационные услуги. Компьютеры все глубже проникают в нашу жизнь и потребности в оперативной информации растут с огромной скоростью. Все большее число пользователей обращается к услугам Интернета в поисках последних новостей, спортивных известий и прогнозов погоды, для получения информации о ценных бумагах, заказа авиабилетов, проведения исследований или чтобы узнать, что идет в ближайшем кинотеатре. Речь — это идеальный инструмент для получения информации. И речь позволяет наладить взаимодействие с компьютером.
При помощи систем разговорного языка пользователь и машина могут вступить в непосредственный диалог, постепенно, шаг за шагом, приближаясь к искомой информации. Например, разработаны системы распознавания голоса для обеспечения доступа к базам данных, содержащим оцифрованные клипы новостей телерадиовещания. При заказе авиабилетов системы распознавания голоса позволяют получить информацию и заказать билеты. Контролируемые голосом wеb-браузеры избавляют пользователя от медленных ручных операций (ввода с клавиатуры).
3. Бизнес и профессиональная поддержка. Уже многие годы голосовые диктофонные системы, предназначенные для представителей определенных профессий, например врачей и юристов, можно найти на рынке программных продуктов. Многие представители этих профессий используют системы распознавания речи в повседневной работе. Стали популярны активируемые голосом домашние приборы и приспособления. Технология распознавания голоса быстро изменила рынок телефонных услуг. Системы, распознающие разговорную речь, работают в информационных телефонных центрах и, кажется, меняют саму природу настольного компьютера. Эта технология практически превращает телефон в удаленное периферийное устройство, обеспечивающее доступ к компьютерной системе.
Другие человеко-машинные интерфейсы, например системы распознавания лиц и сенсорные экраны, способствуют ускорению внедрения систем речевого общения — наблюдается тенденция к созданию комбинированных систем. Технологии распознавания лиц и голоса проникли и в банковский мир — вместе с банкоматами. В общем, за последнее десятилетие области применения систем распознавания речи значительно расширились и будут продолжать расширяться.
Процесс распознавания голоса проходит в несколько этапов. На каждом из этапов для обработки речевого сигнала используется целый ряд различных методов. Процесс распознавания голоса можно разбить на три этапа:
1. получение голосового сигнала и предварительная обработка речи Получение голосового сигнала или дискретизация голоса определяется как процесс получения и преобразования акустического сигнала. При помощи воспринимающих (микрофона) и оцифровывающих (дискретизирующих) устройств и машинной обработки фиксируется акустический (речевой) сигнал и преобразуется в цифровую форму. Затем цифровой сигнал разбивается на неделимые интервалы, называемые фонемами. Фонемы представляют собой элементарные единицы звука. Последовательность фонем составляет слоги, слоги составляют слова, слова составляют предложения, которые уже представляют сообщения, идеи и команды. В общем, фонема — это звук, образованный одной или несколькими буквами в их сочетании с другими буквами. Если целью процесса обработки является лишь опознавание говорящего, то нет необходимости разбивать сигнал на фонемы. Можно также распознать слова и предложения, минуя все эти этапы. Далее собирается вся доступная (порой даже избыточная) информация, необходимая для распознавания речи.
2. распознавание фонем и слов Процесс распознавания представляет из себя использование различных методов распознавания образов.
3. понимание речи «Понять» речь — это самое трудное. На этом этапе последовательности слов (предложения) должны быть преобразованы в представления о том, что хотел сказать говоривший. Хорошо известно, что понимание речи опирается на огромный объем лингвистических и культурных знаний. Большая часть систем распознавания голоса учитывает при этом знания о естественном языке и конкретные обстоятельства. Задача, связанная с распознаванием голоса — распознавание говорящего, т. е. процесс автоматического определения «кто говорит» на основе входящей в речевой сигнал индивидуальной информации. Технология распознавания диктора позволяет использовать голос для обеспечения контроля доступа; например, телефонный доступ к банковским услугам, к базам данных, к системам электронной коммерции или голосовой почте, позволяет обеспечить безопасность дома, квартиры и т.д. Обе технологии требуют, чтобы пользователь был «занесен в систему», т. е. он должен оставить образец речи, по которому система может построить шаблон. Предпринимались попытки разработать и аппаратную реализацию систем распознавания голоса.
Некоторые продукты обеспечивают как голосонезависимое, так и голосозависимое распознавание речи на одном чипе. Чип поддерживает голосозависимое распознавание на базе словаря, хранимого в постоянном запоминающем устройстве чипа (ROM, read only memory). Словари голосозависимых систем хранятся вне чипа и могут быть загружены во время работы системы.
Три основных барьера стоят на пути развития систем распознавание речи:
1. большие объемы словарей 2. шаблоны непрерывной речи 3. различные акценты и произношения Это основные препятствия для автоматизированных систем распознавания голоса, но есть еще и другие проблемы — понимание семантики речи.
Объемы словарей определяют степень сложности, требования к вычислительной мощности и надежность систем распознавания голоса.
Можно приспособиться к непрерывному потоку речи, но есть еще и строгие семантические правила, которым необходимо следовать, чтобы система смогла понять семантику комбинаций слов в предложениях. Необходимо продолжать основательные исследования, только это позволит «справиться»
с такими характеристиками речи, как морфология, акценты, высота звука, скорость, громкость, сливающиеся слова, контекст, артикуляция, лингвистическая информация, синонимы и т. д. Ожидается, что основным направлением развития станет моделирование языков для использования в системах распознавания речи.
Не решена окончательно и проблема отделения речевого сигнала от шумового фона. В настоящее время пользователи систем распознавания голоса вынуждены либо работать в условиях минимального шумового фона, либо носить шлем с микрофоном у самого рта. Кроме того, пользователям приходится «информировать» компьютер о том, что они к нему обращаются.
Для этого обычно надо нажать кнопку или сделать что-то в этом роде.
Конечно, это не самый лучший вариант пользовательского интерфейса.
Решение этих проблем началось, и уже получены много-обещающие результаты.
С появлением систем распознавания голоса идея «понимающего и говорящего» компьютера перестала быть фантастикой. Но тем не менее работать в этой области еще нужно очень много, чтобы достичь желаемых результатов. Помимо вышерассмотренных задач остаются, такие глобальные вопросы, как распознавание потока слитной речи. Хотя некоторые разработчики заявляют, что решили эту задачу, но успехи достигнуты только в пределах ограниченного словарного запаса. Такие системы чаще всего создаются для конкретной профессиональной области – медицины, юриспруденции, международных отношений. Так, например, система может со слов врача заполнять карточку больного, историю болезни, выписывать рецепты. Но задача распознавания слитной речи любого содержания до сих пор не имеет четкого решения. Также остается актуально задача синтеза речи максимально естественного качества.
5. Продукты, реализованные в данной области В сводке мировых новостей о речевых технологиях за последние несколько лет можно обнаружить самые экзотические новинки. С помощью технологии iLane можно путешествовать по интернету во время вождения, голосом отдавая команду бортовому компьютеру. Софт от Affective Media позволяет следить за эмоциональным состоянием водителя и принимать необходимые меры, вплоть до остановки автомобиля. Голосом можно писать SMS, переключать каналы телевизора, отключать сигнализацию, управлять беспилотной военной техникой.
Одна из долгожданных разработок в области распознавания голоса — это человеко-машинные диалоговые системы; такими системами занимаются во многих университетских исследовательских лабораториях. Системы «умеют»
работать с непрерывным речевым потоком и с неизвестными дикторами, понимать значения фрагментов речи (в узких областях) и предпринимать ответные действия. Эти системы работают в реальном времени и способны выполнять функций по телефону, такие как узнавание речи (преобразование речи в текст, состоящий из отдельных слов), понимание (грамматический разбор предложений и распознавание смыслового значения), восстановление информации (получение данных из оперативных источников на основании полученного смыслового значения), генерация лингвистической информации (построение предложений, представляющих полученные данные, на выбранном пользователем языке), синтез речи (преобразование предложений в синтезированную компьютером речь).
Ниже приведены системы, созданные на сегодняшний день.
Например Sakrament ASR Engine - разработка компании «Сакрамент», осуществляющая высокоточное распознавание речи на различных платформах. Технология распознавания речи используется при создании средств речевого управления – программ, управляющих действиями компьютера или другого электронного устройства с помощью голосовых команд, а также при организации телефонных справочных и информационных служб.
Программа рассчитана на применение в различных аппаратных системах и программных приложениях, использующих технологии распознавания речи, таких как: IVR-системы, мобильные электронные устройства, бытовая техника и т.д. Sakrament ASR Engine может быть легко перенесена на любую существующую программную или аппаратную платформу, а также настроена под конфигурацию любого приложения.
На рынке так же представлено множество коммерческих систем распознавания речи с гораздо большими возможностями:
• Voice Type Dictation, Voice Pilot и ViaVoice от IBM;
• Dragon Dictate и Naturally Speaking от Dragon Systems;
• Voice Assist от Creative Technology;
• Listen for Windows от Verbex и многие другие.
Некоторые из их (например, ViaVoice и Naturally Speaking) способны, как заявляют разработчики, вводит слитную речь.
6. Проделанная работа (проделанная мною) Необходимо распознать голос в бытовых условиях, т.е. отделить звуки голоса от всех остальных звуков, которые можно услышать в быту, допустим применительно к кухне. Исследовав разные звуки, выявить признаки по которым можно отделить голос от всех остальных шумов. Решение данной задачи может быть применено на практике как элемент интеллектуального дома – своеобразный датчик присутствия человека. Такая система может работать как в области обеспечения безопасности (вызывать охрану, если дом заперт снаружи, а внутри каким-то образом появились люди), так и в бытовых условиях (например, переключать систему энергоснабжения в различные режимы). При возникновении пожарной опасности датчик присутствия человека в помещении может помочь пожарным понять в каких квартирах, в каких комнатах еще находятся люди, нуждающиеся в помощи.
Развивая в дальнейшем эту задачу, можно будет получать информацию о других различных событиях, происходящих в доме. При наличии в доме маленьких детей, система может сообщать родителям о плаче или каких-либо других событиях. Если подростки остались одни в квартире, система так же будет оповещать о неординарных звуках, т.о. можно будет не допустить того, чтобы дети спалили дом или учинили погром, играя в прятки.
6.2. Непосредственная реализация и полученные результаты Для решения данной задачи были записаны на обычный диктофон звуки, которые мы можем слышать на кухне, это тишина (но при этом «полной тишины» не может быть, поскольку шум микрофона присутствует всегда), шум посуды, шум воды (обычный поток воды из крана), просто шумы (такие как шелест пакета, шкрябание ножом по разделочной доске и т.д.), сильные шумы (стук молотка, дрель и т.д.), голос, голос на фоне шума и музыка (почти на любой кухне есть радио, так вот музыка – это запись включенного радио).
Итого получилось 87 треков, которые были распределены на обучающую и контрольную выборку (Таблица 1).
Название класса, Количество Количество треков, Количество шума Длина каждого трека составляет ~3 секунды.
На рис. 1 показано, как выглядит волновая форма, соответствующая сильному шуму в программе Adobe Audition (39п).
Рис. 1. волновая форма трека с сильным шумом в программе Adobe Audition.
- см. приложение. (Список прилагаемых файлов) Итак, встает вопрос, по каким признакам мы можем сказать, что данный трек является троком с голосом, с шумом, тишиной или водой.
6.2.1.1 Частоты спектральных составляющих сигналов в окрестностях которых сосредоточена максимальная энергия Для начала рассмотрим спектральный анализ треков.
Получить спектральный анализ трека позволяет программа Adobe Audititon (Analyze > Show Frequency Analysis). На рис. 2 показано окно со спектральным анализом в программе Adobe Audititon (так выглядит спектральный анализ одного из треков с голосом) Рис. 2. Вид окна Спектрального анализа в программе Adobe Audition.
- Спектральный анализ.
Метод был предложен в 1859 г. Г.Кирхгофом и Р.Бунзеном.
Классическое определение спектра основывается на преобразовании Фурье.
Всякая периодическая функция (с ограничениями, носящими абстрактный характер) может быть представлена в виде разложения в ряд по тригонометрическим функциям — суммой слагаемых, каждое из которых есть не что иное, как косинусоидальное колебание с амплитудой Ck и начальной фазой k.
Слева под шкалой частот располагается поле, в котором отображаются данные о значениях спектральной функции сигналов правого и левого канала для той частоты, на которую в данный момент нацелен указатель мыши (сама частота также отображается в этом поле). Числа, отображаемые в поле Cursor, строго говоря, не являются координатами указателя мыши. В этом поле показаны координаты указателя мыши на оси частот и соответствующее ей значение спектра.
В поле, расположенном правее рассмотренного, показаны частоты спектральных составляющих сигналов левого и правого каналов, в окрестностях которых сосредоточена максимальная энергия (частоты максимальных пиков на графике). Здесь же указывается условное обозначение высоты тона, соответствующего частоте максимума спектральной функции (отдельно для правого и левого каналов).
Используются стандартные обозначения нот: С, D, E, F, G, А, В, на рис. 1 это F#. Числа в скобках обозначают:
номер октавы (0 — субконтроктава, 1 — контроктава, 2 — большая окта ва, — малая октава и т. д.); на рис. 1 это 4;
расстройку относительно точного значения высоты предполагаемого тона в центах (цент — сотая доля полутона) с указанием знака расстройки; на рис. — это +41.
На рис. 2 измеренная частота максимума спектральной функции составляет 379.06 Гц. (Графики спектральных анализов для всех треков содержатся в 1п, 2п, 3п, 4п, 5п, 6п, 7п, 8п).
Т.о. у нас уже имеются частоты спектральных составляющих сигналов левого и правого каналов, в окрестностях которых сосредоточена максимальная энергия (частоты максимальных пиков на графике). Сведем эти значения для всех треков в таблицу (9п). И по таблице видно, что эти характеристики не подходят на роль разделяющих признаков. В таблице содержатся средние значения этих частот, из нее видно, что значения находятся в узком диапазоне и перекрываются друг другом. Но распознавание, тем не менее, было проделано, методом линейного решающего правила, и, как и ожидалось, положительных результатов не дало.
- см. ниже (Методах распознавания) Таблица 2. Средние значения частот спектральных составляющих сигналов левого и правого каналов, в окрестностях которых сосредоточена Значения Hz 512, Hz 1024, Hz 65536 – это заданные размеры выборки для быстрого преобразования Фурье (т.е. частотный диапазон разбивается на указанное число промежутков, чем больше это значение, тем точнее анализ).
6.2.1.2 Максимальные и минимальные значения спектров и соответствующих В нижней части окна со спектральным анализом находится кнопка Copy to Clipboard, которая позволяет переслать значения частот и соответствующие им значения спектральной функции в текстовом формате в буфер обмена.
Таким образом все значения частот и мощностей для всех треков можно скопировать в таблицы Excel. (10п,11п, 12п, 13п, 14п, 15п, 16п,17п).
Выделим полный частотный диапазон человеческого голоса от 75 Hz до 1100 Hz (18п) и попробуем его проанализировать, выделить признаки по которым можно было бы отделить треки с голосом от всех остальных. На рис. 3 показаны графики средних значений спектрального анализа для разных классов на промежутке частот от 75 Hz до 1100 Hz.
Рис. 3 Графики средних значений спектральных анализов для разных Для начала находим минимальные и максимальные значения спектра и соответствующие им значения частот (19п).
Распознавания проводится методом Линейного решающего правила.
Поочередно распознаем по 2 класса: голос и сильный шум, голос и вода, голос и голос с шумом, голос и тишина, голос и просто шум, голос и посудный шум, голос и музыка. Сначала пробуем по 6 признакам:
максимальное значение спектра на всем частотном диапазоне (не только в диапазоне человеческого голоса), значение частоты для этого максимума, максимальное значение спектра в диапазоне человеческого голоса, значение частоты для этого максимума, минимальное значение мощности в диапазоне человеческого голоса, значению частоты для этого минимума (20п).
В результате получили полное отделение голоса от звуков посуды.
Попробуем распознавать так же и остальные классы поочередно и получили полное отделение музыку от воды (20п).
6.2.1.3 Разности между минимальными и максимальными значениями При попытке сократить количество признаков, взяты разности между максимальными и минимальными значениями спектров, а также разности для соответствующих частот. Итого получается 2 признака. Но на этот раз распознавание не дало положительных результатов (20п).
Возникло предположение, что спектральные анализы треков с голосом отличаться количеством перепадов значений спектра. Для исследования этого предположения была написана программа в среде Delphi 7(21п).
Входной информацией для программы являются текстовые файлы, содержащие спектральные значения для частотного диапазона человеческого голоса, выходной информацией является количество переходов с возрастания на убывание, т.е. количество верхних пиков на графике спектрального анализа в частотном диапазоне человеческого голоса. И эти значения у всех треков получились в одной области, опять перекрывают друг друга, очевидно, что данные значения не разделят классы. Далее программа была расширена возможностью выводить размеры каждого перепада от нижнего пика к верхнему, от верхнего к следующему нижнему и т.д., т.е.
разброс колебаний графика (22п). И последовало предположение, что существует некий «коридор», в котором происходят основные колебания графиков и треки различаются количеством «выбросов» пиков за этот «коридор». Для этого посчитаем среднее значение перепадов для каждого класса, для голоса получилось ~ 5,5, среднее по всем классам ~ 4,5, поэтому «эпсилон» взято не менее 5,5(23п). Проводим распознавание при помощи линейного решающего правила по 2-м признакам, опять распознавая попарно по 2 класса. Причем 1-й признак - количество «выбросов» на графике спектрального анализа на частотном промежутке человеческого голоса для заданного «эпсилон» (5,5; 6,5; 10), 2-й - отношение количества перепадов на всем графике к количеству выбросов. Распознавание опять не дало положительных результатов.
6.2.1.5 Статистика в программе Adobe Audition Программа Adobe Audition так же позволяет посмотреть статистику по треку, в которую входят следующие данные:
• Minimum Sample Value, Maximum Sample Value (минимальное/максимальное значение звукового отсчета) • Peak Amplitude (пиковая амплитуда сигнала) • Possibly Clipped Samples (количество отсчетов, имеющих уровень максимальной или минимальной границы характеристики аналогоцифрового преобразователя (клиппированных отсчетов)) • DC Offset (среднее значение отсчетов (уровень постоянной составляющей в выделенном фрагменте волновой формы)) • Minimum RMS Power, Maximum RMS Power (минимальное/максимальное среднеквадратическое значение сигнала (объем выборки задается в поле Window Width ms, расположенном в нижней части окна) • Average RMS Power, Total RMS Power (варианты среднеквадратических значений сигнала) • Actual Bit Depth (фактическая разрядность представления звуковых Сведя все данные статистики для всех треков(25п) можно проводить распознавание по вышеперечисленным 9 признакам. Используем опять методом линейного решающего правила (26п). По результатам распознавания можно сказать, что эти данные тоже не подходят на роль признаков, классы не разделяются. Попытки уменьшить количество признаков сначала до 7, потом до 4 так же не увенчались успехом.
6.2.1.6 Все вышеописанные методы методом эталонов Рассмотрим распознавание по тем же признакам, но применяя другой метод, метод построения эталонов.
Распознавание проводится по нескольким, вышерассмотренным признакам:
по разностям минимальных и максимальных значений спектра для каждого трека, а также соответствующих частот, по количеству выбросов со значением эпсилон 6,5, по статистическим данным(Peak Amplitude и Minimum RMS Power), и по всем признакам вместе (27п). В таблице представлены результаты распознавания контрольной выборки.
- см. ниже (Методы распознавания) Реальный по разностям значение статистическим всемпризнакам голос с голос с Как видно из таблицы 3 распознавание по разностям минимальных и максимальных значений спектра и соответствующих частот дает очень хороший результат. Голос и голос с шумом выделяется в отдельный класс, т.е. голос с шумом полностью определяется как голос, а некоторые треки с голосом определяются, как голос с шумом, но выделение голоса, как такового, очевидно. Так же наблюдается полное выделение просто шума.
Шум посуды тоже распознается как просто шум, хотя на самом деле стук посуды – это тоже шум. К минусам можно отнести то, что некоторые треки с сильным шумом, водой и музыкой определяется, как голос. Хотя отнесение треков с музыкой к голосу объяснимо, ведь треки с музыкой – это запись произведенная на кухне при включенном радио и содержат не только записи музыки, но и песен. Распознавание по другим признаков не дало внятного отделения каких-либо классов.
Распознавание по всем признакам вместе, как видно, дает практически такие же результаты как при использовании в качестве признаков разности минимальных и максимальных значений спектра и соответствующих частот, за исключением незначительных различий. Т.о. мы видим, что из всех вышерассмотренных признаков наиболее подходящими являются первые, и добавление остальных признаков не дает видимых улучшений.
Теперь обратимся к вейвлет-преобразованию(28п, 29п, 30п, 31п, 32п, 33п, 34п, 35п).
Программа MATLAB позволяет делать вейвлет-преобразование и анализ звуковых треков. На рис. 4 показано, как выглядит вейвлет преобразование сигнала, соответствующее одному из треков воды в программе MATLAB.
рис. 4 Вейвлет преобразование трека с водой в программе MATLAB.
Полученный результат можно сохранить в формате MATLAB (с расширением.mat).
- Вейвлет-анализ возник при обработке записей сейсмодатчиков в нефтеразведке и с самого начала был ориентирован на локализацию разномасштабных деталей. Выросшую из этих идей технику теперь обычно называют непрерывным вейвлет-анализом. Ее основные приложения:
локализация и классификация особых точек сигнала, частотно-временной анализ нестационарных сигналов. Например, у таких сигналов, как музыка и речь, спектр радикально меняется во времени, а характер этих изменений очень важная информация. Непрерывное вейвлет-преобразование также используется в медицине для анализа электрокардиограм.
Другая ветвь вейвлет-анализа - ортогональный вейвлет-анализ. Главные его применения - сжатие данных и подавление шумов.
Предположив, что, как и в случае спектрального анализа, сигналы могут различаться количеством «выбросов» за определенно заданное «Эпсилон», была написана программа в среде Delphi 7(36п), которая на вход «берет»
текстовый документ с данными вейвлет преобразования по треку, а на выходе выдает количества «выбросов» при 9 различных «эпсилон».
Распознавание проводилось опять методом линейного решающего правила.
При этом в качестве признаков выступали количества «выбросов» при разных «эпсилон». Распознавание опять не дало положительных результатов (37п).
В MATLAB(е) тоже можно посмотреть статистику, которая включает в себя следующие позиции: Global Threshold, Retained energy, Number of zeros, Mean, Median, mode, Maximum, Minimum, Range, Standard deviation, Median absolute deviation, Mean absolute deviation (28п, 29п, 30п, 31п, 32п, 33п, 34п, 35п).
Приведя все полученные данные по всем трекам в единую таблицу, проводим распознавание линейным решающим правилом по 9 признакам:
Global Threshold, Retained energy, mode, Maximum, Minimum, Range, Standard deviation, Median absolute deviation, Mean absolute deviation. И получаем полное отделение голоса от воды, но голос с шумом опять определяется как просто голос. Проведя поочередное распознавание всех остальных классов, мы получили полное отделение воды и тишины, воды и сильного шума, тишины и сильного шума, тишины и посуды (40п).
6.2.1.9 Средние значения спектров в промежутках от 0 до 4000Гц и от 0 до Вернемся к спектральному анализу. На рис. 5 представлены окна со спектральными анализами соответствующими А – голос, Б – сильный шум, В – тишина.
рис. 5 Окна спектрального анализа в программе Adobe Audirion для треков (А На этих примерах видно, что значения спектра для трека с тишиной (В) до 16000Гц находятся практически на одном уровне -72 дб; значения спектра для трека с сильным шумом (Б) приблизительно до 4000Гц тоже находится приблизительно на одном уровне -36дб; а значения спектра голосового трека приблизительно до 4000Гц колеблется между вышеуказанными уровнями.
Такая особенность прослеживается почти на всех треках соответствующих классов. Треки остальных классов не имеют таких выраженных отличий и по описанию схожи с голосом, но вышерассмотренная особенность может помочь нам отделить сильный шум и тишину от голоса.
Находим средние значения спектров для всех треков на промежутках от дл 4000Гц, т.к. вышеописанные особенности у сильного шума и у голоса прослеживаются именно на этом промежутке и от 0 до 16000Гц, т.к. на этом промежутке прослеживается вышерассмотренная особенность для тишины.
При распознавании с данными признаками были отделены голос с шумом от просто голоса и сильный шум от голоса (38п). При этом предположение о том, что по этим признакам отделится тишина, не подтвердилось, и было проведено распознавание методом эталонов специально для голоса и тишины. По средним значениям видно, что классы разделимы, но один трек с голосом был определен, как тишина. Возможно, при использовании более чувствительного микрофона удастся избежать такой ошибки. Опять проведем распознавание всех остальных классов по очереди. Получили следующие результаты: отделились такие классы, как вода и тишина, голос на фоне шума и сильный шум, посуда и тишина, посуда и сильный шум, музыка и тишина (41п).
6.2.1.10 Средние значения спектров на промежутке от 0 до 4000Гц и разности между минимальными и максимальными значениями спектров и Далее возьмем средние значения спектра на промежутке до 4000Гц, т.к. на этом промежутке четко видны различия, между треками с голосом, тишиной и шумом. Ранее было установлено, что распознавание по разностям минимальных и максимальных значений спектра и соответствующих частот, оптимальное. Полученные средние значения добавляем к этим признакам. Проведенное распознавание по этим признакам дало следующие результаты: полное выделение просто шума от голоса, а так же полное выделение посудного шума от голоса. Проведение распознавания методом построения эталонов для голоса и тишины тоже не дало положительного результата. Теперь проведем распознавание опять методом линейного решающего правила только теперь уже для всех оставшихся классов и видим следующие результаты: вода и просто шум, голос на фоне шума и посуда, голос на фоне шума и просто шум, музыка и просто шум, музыка и сильный шум, посуда и тишина, просто шум и тишина отделились друг от друга (42п).
6.2.1.11 Средние значения спектров и разности между минимальными и Рассмотрим распознавание по признакам, рассмотренным выше, но методом построения эталонов. В таблице 4 представлены полученные результаты (43п).
Таблица 4. Результаты, полученные при распознавании методом построения Видим из таблицы 4, что применение для распознавания разностей минимальных и максимальных значений спектра и соответствующих частот дает почти такие же результаты, как и при использовании разности минимальных и максимальных значений спектра и соответствующих частот.
То есть добавление такого признака как средние значения спектра не дает улучшений. Напротив, качество распознавания ухудшилось. Распознавание по средним значениям не дало результатов впринципе.
Само название говорит о том, что граница, разделяющая в признаковом пространстве области различных образов, описывается линейной функцией (рис. 6) Одна граница при этом разделяет области двух образов. Если M >2, то требуется несколько линейных функций и граница является, вообще говоря, кусочно линейной. Для наглядности будем считать M =2. Если на множестве объектов выполняется условие если x – реализация первого образа s1, если x – реализация второго образа s2, то образы s1 и s2 называют линейно разделимыми.
Для каждого класса по обучающей выборке строится эталон, имеющий значения признаков где xi0 = K – количество объектов данного образа в обучающей выборке, i – номер признака.
По существу, эталон – это усреднённый по обучающей выборке абстрактный объект (рис. 7). Абстрактным мы его называем потому, что он может не совпадать не только ни с одним объектом обучающей выборки, но и ни с одним объектом генеральной совокупности.
Распознавание осуществляется следующим образом. На вход системы поступает объект x, принадлежность которого к тому или иному образу системе неизвестна. От этого объекта измеряются расстояния до эталонов всех образов, и x система относит к тому образу, расстояние до эталона которого минимально. Расстояние измеряется в той метрике, которая введена для решения определённой задачи распознавания.
– эталон первого класса, Подведем итоги проведенной работы. В таблице 5 представлены результаты, полученные при использовании метода линейного решающего правила при использовании различных признаков. Т.е. при использовании каких признаков какие классы удалось отделить от класса голоса.
Таблица 5. Метод линейного решающего правила: использованные признаки, графике для выборки на 512, 1024 и всем частотном диапазоне, значение частоты для этого максимума, максимальное значение спектра в диапазоне человеческого голоса, значение частоты для этого максимума, минимальное значение мощности в диапазоне человеческого голоса, значению частоты для этого минимума 3. Разности между максимальными и нет нет нет нет нет нет Нет минимальными значениями спектров, а также разности для соответствующих частот на промежутке человеческого голоса 4. количество «выбросов» на графике нет нет Нет нет нет нет нет спектрального анализа на частотном промежутке человеческого голоса для заданного "эпсилон" (5,5; 6,5; 10), и отношение количества перепадов на всем графике в частотном диапазоне человеческого голоса к количеству «выбросов»
5. Статистические данные по трекам, нет нет нет нет нет нет нет полученные в программе Adobe Audition разных «эпсилон» на графике вейвлет преобразования 7. Статистические данные по трекам, да нет нет нет нет нет Нет полученные в программе MATLAB частотном промежутке от 0 до 4000Гц и средние значения спектров на частотном промежутке от 0до 16000 Гц минимальными значениями спектров, разности для соответствующих частот на промежутке человеческого голоса и средние значения спектров на частотном промежутке от 0 до 4000Гц Из таблицы 5 видно, что удалось добиться отделения голоса от воды, от шума посуды, от голоса с шумом, от сильного шума и от просто шума. Т.о.
на данном этапе не получилось отделить голос от музыки и от тишины.
Проблемы с музыкой понятны, поскольку эти треки тоже содержат голос (песни), проблема с тишиной почти решена, поскольку она отделяется от голоса, а трек с голосом, распознанный как тишина, может содержать очень тихий голос и возможно при использовании более чувствительного микрафона данная проблема решится (данный результат был получен при использовании метода построения эталонов по следующим признакам:
средние значения спектров на частотном промежутке от 0 до 4000Гц и средние значения спектров на частотном промежутке от 0до 16000 Гц).
А теперь рассмотрим результаты, полученные при распознавании разных классов кроме голоса друг с другом. В таблице 6 значатся признаки по которым 2 класса были разделены.
Таблица 6. Разделенные между собой классы (1 – Статистика в MATLAB, 2 – средние значения спектра, 3 – средние значения и разности спектров) Использование метода построения эталонов было разобрано выше при рассмотрении таблицы 3 и таблицы 4. Распознавание по разностям минимальных и максимальных значений спектра и соответствующих частот позволяет выделить Голос и голос с шумом в отдельный класс. Так же получено полное выделение просто шума, а шум посуды отнесся к просто шуму. Но некоторые треки с сильным шумом, водой и музыкой определяется, как голос. Добавление остальных признаков, рассмотренных в таблице 3 и таблице 4, не дало видимых улучшений.
Основываясь на полученные данные мы можем рассмотреть смешанное использование 2-х методов для разработки программы.
На данном этапе рассмотрим такой случай: методом эталонов трек распознаемся как, как просто шум. Мы знаем, что как просто шум могут распознаться: посуда, просто шум и сильный шум. Дальнейшее распознавание проводится методом линейного решающего правила по следующей схеме:
Для трека, распознанного, как голос строится аналогичная схема, только гораздо большего объема.
Хотя все описанные выше признаки в дальнейшем нужно будет еще раз проверить, значительно увеличив выборку с треками, поскольку на данный момент мы занимаемся поисками признаков, делая очень грубые вычисления с очень маленькой выборкой.
Опираясь на полученные результаты можно сказать, что измерение основных признаков проводится на спектральном анализе. Если предположить, что мы сможем добиться распознавания всех классов, анализируя только волновую форму сигнала и его спектральный анализ, то вполне можно говорить о построении системы, работающей в реальном времени с задержкой на доли секунд. Если задать промежуток записи для анализа на 1-0,5 секунды (в этот промежуток вполне можно успеть сказать слово или 2 коротких слова) и учесть время, которое необходимо компьютеру для проведения вычисления, при использовании средней мощности компьютера – это доли секунд, то мы будем получать информацию каждую секунду или секунду с небольшим о том, что в эту секунду происходило. Таким образом, в дальнейшем можно продолжить поиск признаков исходя из волновой формы сигнала и спектрального анализа для распознания всех классов, что бы не нагружать вычислениями компьютер и сократить время на вычисления до минимума.
Будет очень хорошо, если в дальнейшем удастся обнаружить еще какиенибудь особенности, с помощью которых можно будет отделить наши классы. Но на данный момент даже попытка привлечь к решению данной задачи нейронных сетей, как более мощного инструмента, не дала желаемого результата. Для построения нейронных сетей использовались признаки, при которых были получены положительные результаты: это разница между минимальными и максимальными значениями спектров и соответствующих частот, средние значения спектров на разных промежутках, даже значения спектров на всем частотном диапазоне человеческого голоса. Сеть обучается плохо и на выходе очень много ошибок. В этом направлении так же еще надо будет работать для получения положительных результатов. И, конечно, для более плотной работы с нейронными сетями, выборку так же надо будет увеличить.
В перспективе, решив множество трудностей, можно будет работать над тем, что бы добиться не только выделения человеческого голоса среди бытовых шумов, но и над построением системы, которая плюс к этому будет работать с командами. И, таким образом значительно расширятся возможности применения такой системы. При помощи команд можно управлять практически всей бытовой техникой, такие системы могут быть актуальными для людей с ограниченными возможностями и не только, допустим по телефону можно дать команды согреть еду, включить нагрев воды(если у кого-то титан) и даже вскипятить чайник, и человек прибывает в дом, который жал его и все приготовил к возвращению с работы своего хозяина.
На данный момент технологии распознавания речи достигли очень высоких результатов, наука по-прежнему динамично развивается, не стоит на месте ни минуты, и очередные прорывы в разных отраслях не заставляют долго себя ждать. Распознавание речи так же находит себе широкий спектр применений и вызывает к себе интерес общества, каждый день появляются новые и новые продукты на рынке программного обеспечения, основанные на данной технологии.
Взглянув в будущее и пытаясь представить себе мир техники, умеющей общаться с человеком на равных, дом, машина, офис станут не просто местами, где человек проводит основное свое время, а понимающими и послушными друзьями, выполняющими все поручения точно и аккуратно, мы понимаем: есть к чему стремиться и есть над чем работать… И не будем забывать, что речь - это все-таки одно из проявленный высшей нервной деятельности человека и работать придется еще много.
1. Иллюстрированный самоучитель по Adobe Audition 1. 2. Естественно-научный образовательный портал http://www.en.edu.ru/ 3. Свободная энциклопедия Википедия http://ru.wikipedia.org/ 4. Статья Дмитрия Фиалковского «Следи за речью» (15 октября 2007) http://www.inno.ru/press/articles/document28544/ 5. Статья Киминг Зу Университет Небраско в Омахо http://www.artkis.ru/voice.html 6. Автореферат магистерской диссертации. Тема: Проблемы сегментации слитно произносимых фраз. Автор: Ворона В. В.
http://masters.donntu.edu.ua/2006/fvti/vorona/diss/index.htm 7. Курсовая работа на тему «Диапазон голоса и работа над ним». Автор Косых В.С. http://kursovie.referatoff.ru/018975-2.html 8. Статья Гвоздицина А.Г «Распознавание речи»
http://prof9.narod.ru/library/lib007/doc043.html 9. Статья «Распознавание речи»
http://www.sakrament.com/main.php?Lang=ru&TopId=20&Category= 10. Статья «Технологии распознавания речи»
http://www.nodevice.ru/printarticle/349.html 11. Статья «Частотный диапазон музыкальных инструментов и человеческого голоса» http://www.music4sale.ru/articles/sound/392/ 12. Методическое пособие Волошина Г.Я. «МЕТОДЫ РАСПОЗНАВАНИЯ ОБРАЗОВ (конспект лекций)»
1п. Тишина_Классический_512.doc 2п. Вода_Классический_512.doc 3п. Голос_Классический_512.doc 4п. Голос с шумом_Классический_512.doc 5п. Просто_Классический_512.doc 6п. Посуда_Классический_512.doc 7п. Музыка_Классический_512.doc 8п. Сильный_Классический_512.doc 9п. спектр анализ_максимальная эноргия_Гц.xls 10п. Вода_Классический спектральный анализ.xls 11п. Голос_Классический спектральный анализ.xls 12п. Голос с шумом_Классический спектральный анализ.xls 13п. Музыка_Классический спектральный анализ.xls 14п. Посуда_Классический спектральный анализ.xls 15п. Просто_Классический спектральный анализ.xls 16п. Сильный_Классический спектральный анализ.xls 17п. Тишина_Классический спектральный анализ.xls 18п. Частоты чел_голоса.xls 19п. Частоты_чел_голос_сводная.xls 20п. Распознавание по макс и мин.xls 21п. Папка «перепады» содержит саму программу и папку с текстовыми документами для анализа 22п. разброс по пикам.xls 23п. выборка по выбросам.xls 24п. линейное распознавание по выбросам.xls 35п. Статистика.xls 26п. Статистика_Распознавание.xls 27п. Метод эталонов.xls 28п. Вейвлет_Вода.doc 29п. Вейвлет_Голос.doc 30п. Вейвлет_Голос с шумом.doc 31п. Вейвлет_Сильный.doc 32п. Вейвлет_Просто.doc 33п. Вейвлет_Посуда.doc 34п. Вейвлет_Музыка.doc 35п. Вейвлет_Тишина.doc 36п. Папка «Коридор» содержит саму программу и папку с текстовыми документами для анализа 37п. Результаты_Коридор.xls 38п. до 4000 и 16000 средние значения.xls 39п. Папка «Подборка»
40п. статистика вейвлет_линейное.xls 41п. средние_линейное.xls 42п. среднее и мин макс_линейное.xls 43п. метод эталонов для средних значений.xls