«САРОВСКИЙ ГОСУДАРСТВЕННЫЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ Факультет информационных технологий и электроники Кафедра вычислительной и информационной техники В.А. Павлов Периферийные устройства ЭВМ. Часть 1. Состав и ...»
В случае, если контроллер предназначен для организации обмена в режиме прямого доступа в память, (например, для микроЭВМ «Электроника - 60») его структура значительно усложняется (рис.
3.6). При этом в его состав входит несколько регистров управления, в частности регистры команд (РгК), состояния ПУ (РгС), счета слов или длины блока (СчД), текущего адреса ОП (РгА), управления поиском (в случае НМД). Кроме того, такой контроллер включает в себя один или два регистра данных — для ввода-вывода. Всем перечисленным регистрам присвоены адреса в адресном пространстве, поэтому каждому ПУ соответствует последовательность адресов, число которых равно числу адресуемых регистров в нем.
Такие контроллеры имеют до 10 адресуемых регистров. Блок управления контроллера выполняет функции управления загрузкой регистров в начале операции, контролирует состояние ПУ и управляет завершением операции. Управление выработкой текущих адресов и управляющих сигналов возложено на блок управления ПДП. Помимо перечисленных функций, выполняемых любым контроллером, контроллер прямого доступа в память формирует сигналы управления системного интерфейса при передаче данных между ПУ и ОП.
В персональных ЭВМ тира IBM PC контроллер прямого доступа к памяти входит в состав подсистемы DMA и расположен на системной плате. Он обслуживает запросы на обмен в режиме ПДП, поступающие со стороны контроллеров внешних устройств по системной шине. Поэтому контроллеры (адаптеры) IBM PC, обслуживающие ПУ в режиме ПДП, незначительно отличаются от контроллеров, обслуживающих только программный обмен. В них запрос на ПДП может формироваться так же, как и запрос на прерывание, то есть по изменению содержимого определенных разрядов регистра состояния РгС.
В ПЭВМ, микроЭВМ и микропроцессорных системах адресуемые регистры данных, команд и состояния с необходимыми схемами управления называют портами. Соответственно различают порты ввода (РгДВв), вывода (РгДВыв), управления (РгУ) и состояния (РгС). Часто эти регистры объединяли в одной микросхеме, на которую возлагали также функции параллельнопоследовательного преобразования. Такие схемы получили название универсальных асинхронных (или синхронных) приемопередатчиков УАПП (УСПП) и показаны на рис.3.7 и 3.8 соответственно. В современных персональных компьютерах и микроЭВМ такие схемы входят в состав сверхбольшой интегральной схемы совместно с другими компонентами системы ввода-вывода.
В УАПП принимаемые по шине данных интерфейса Ио через РгДВыв данные заносятся в регистр сдвига РгСдв, в котором параллельный код преобразуется в последовательный. Это преобразование осуществляется посредством сигналов от генератора ГСИ1, запускаемого после загрузки РгСдв и останавливаемого по завершении преобразования. При асинхронной передаче код передаваемого в последовательную линию символа обрамляется стартовыми и стоповыми разрядами, служащими для запуска и останова генератора синхроимпульсов приемника. Генератор ГСИ обеспечивает прием последовательного кода из линии. С помощью РгСдв этот код преобразуется в параллельный и передается в РгДВв, при этом устраняются разряды обрамления.
Рис. 3.7 Структурная схема УАПП.
Координация действий в УАПП и машине по обмену символами осуществляется посредством прерываний с использованием РгК и РгС, как описано выше. Регистр РгК позволяет программно задавать скорость передачи (110, 300, 600, 1200, 2400, 4800 или 9600 бит/с), число стоповых бит (1 или 2), способ контроля.
В УСПП синхронизация осуществляется посредством специальных символов SYN, которые включаются в передаваемую последовательность при выводе и детектируются для запуска и подстройки генераторов синхронизации при вводе. Остальные действия в УСПП аналогичны УАПП.
Для УСПП скорость передачи устанавливается до 48000 бит/с. Некоторые микропроцессорные комплекты включают комбинированные синхронно-асинхронные приемопередатчики (УСАПП).
Рис. 3.8 Структурная схема УСПП.
Контрольные вопросы 1. Какие типы ЭВМ можно выделить с позиций программной организации ввода-вывода?
2. Какую управляющую информацию необходимо задавать компонентам СВВ для организации 3. Каковы особенности логической организации ввода-вывода в ЭВМ общего назначения?
4. Какая программная организация ввода-вывода характерна для микроЭВМ и ПЭВМ? Как адресуются ПУ в общем адресном пространстве?
5. Как определяются адреса ОП при программном вводе-выводе?
6. Каковы особенности организации программного ввода-вывода для процессоров i80286 и 7. Какие функции выполняет КПДП?
8. Перечислите состав основных узлов контроллера для программного обмена и для обмена 9. Какие функции выполняет регистр команд и состояния? Как с его помощью координируются действия в ПУ и ЦП?
Логическая организация СВВ в ЭВМ различных классов более подробно изложена в [1, 3, 23].
Организация ССВ микроЭВМ описана в [23], а структура программного обеспечения – в [24]. Схемы некоторых контроллеров и их описания можно найти в [23].
В данном разделе использованы материалы из [1].
4. СИСТЕМА ВВОДА-ВЫВОДА АНАЛОГОВЫХ СИГНАЛОВ И СВЯЗИ С
ОБЪЕКТАМИ УПРАВЛЕНИЯ.
В настоящее время 25% — 40% всех микроЭВМ используется в таких областях, где СВВ аналоговых сигналов и связи с объектами управления являются основными, а подчас и единственными средствами общения ЭВМ с внешним миром. Эти СВВ позволяют получать информацию об аналоговых процессах и параметрах, характеризуемых непрерывным изменением величины, например, температуры, давления, механического перемещения, напряжения. Информация о таких параметрах представляется в виде аналоговых сообщений. Для восприятия сообщения цифровой машиной аналоговое сообщение преобразуется в цифровую форму; такое преобразование выполняется посредством аналого-цифрового преобразователя (АЦП). Цифровое сообщение от ЭВМ, служащее для управления аналоговым объектом, преобразуется в аналоговую форму; это преобразование осуществляется цифроаналоговым преобразователем (ЦАП).В системах управления помимо обработки аналоговых сообщений возникает необходимость обработки сообщений о состоянии различных переключателей, а также необходимость в управлении различными переключателями и реле, включении и выключении двигателей, отключении питания и т.п. Для этих целей используются устройства, называемые соответственно устройствами ввода и вывода дискретных сигналов (УВвДС и УВывДС). УВвДС воспринимают состояние электрических переключателей и представляют эти состояния в виде некоторого цифрового кода-сообщения, передаваемого в машину. УВывДС выполняют обратную задачу, т.е. замыкают или размыкают электрические переключатели при получении от машин определенных цифровых сообщений. АЦП, ЦАП и УВВ дискретных сигналов объединяются в различные комбинации и часто выполнялись в виде единого блока, состоящего из одной или нескольких плат. Такой блок принято называть устройством связи с объектом (УСО). В современных управляющих и технологических микроЭВМ (например Микро-РС) зти платы устанавливаются в одном корпусе с микроЭВМ. АЦП и ЦАП применяются не только в качестве самостоятельных ПУ, плат расширения или основных компонентов УСО, но и в качестве компонентов других ПУ. Этим объясняется то, что рассмотрение АЦП и ЦАП предшествует рассмотрению других типов ПУ.
4.1. Выбор параметров аналого-цифрового преобразования Для обеспечения правильности функционирования объектов управления или хода технологических процессов необходимо, чтобы характеристики СВВ и ее компонентов соответствовали характеру изменения параметров процесса, т.е. необходимо выбирать СВВ и ее компоненты в соответствии с характеристиками управляемых процессов.
Рассмотрим типичную схему замкнутой системы управления с использованием ЭВМ, показанную на рис. 4.1. Состояние объекта управления характеризуется множеством параметров Рис. 4.1 Схема замкнутой системы управления.
(температура, давление, механическое перемещение и т.п.), изменения которых имеют непрерывный (аналоговый) характер. Управление объектом осуществляется совокупностью управляющих воздействий на исполнительные механизмы, которые также имеют аналоговый характер. Очевидно, что для того, чтобы использовать ЭВМ для цифровой обработки состояния объекта и выработки соответствующих управляющих воздействий, в систему необходимо включить два компонента - АЦП и ЦАП, осуществляющие «эквивалентную» замену входного аналогового сигнала f(t) множеством числовых значений {Ai}, а затем множество полученных после обработки числовых значений {Bi} — некоторым выходным аналоговым сигналом p(t). Замену аналогового сигнала f(t) множеством числовых значений {Ai} можно считать эквивалентной в том случае, если сигнал p(t), получаемый при восстановлении, т.е. при цифроаналоговом преобразовании чисел {Ai} отличается от входного сигнала f(t) не более, чем на наперед заданную величину, т.е.
где М — некоторая мера точности, например, максимальное отклонение, среднеквадратичное отклонение и т.п. Дополнительным условием, влияющим на выбор параметров преобразования, является требование минимального объема перерабатываемой информации, содержащейся в множестве чисел {Ai}.
При замене аналогового сигнала f(t) множеством чисел {Ai} можно выделить два процесса — дискретизации и квантования. Замена сигнала f(t) конечным множеством его мгновенных значений {f(ti )} называется дискретизацией и иллюстрируется на рис.4.2,а. В результате дискретизации теряется информация о поведении f(t) на интервалах между узлами дискретизации ti. Разность между двумя Рис. 4.2 Дискретизация и квантование.
значениями ti — ti-1 = Т называется шагом дискретизации; при постоянном шаге Т дискретизацию называют равномерной, в противном случае — неравномерной. Замена каждого мгновенного значения f( ti ) некоторым числом-отсчетом Ai производится путем измерения величины f(ti ), т.е. сравнения ее с квантованными эталонными значениями, рис.4.2,6; этот процесс называется квантованием. В процессе измерения также теряется информация о величине f(ti ), но уже в узлах дискретизации, что приводит к появлению ошибки квантования, которая может достигать величины кванта КВ. Процессы дискретизации и квантования влияют на меру точности М и в этом смысле не являются независимыми. Однако в инженерной практике параметры аналого-цифрового преобразования — шаг дискретизации Т и величину кванта КВ принято определять изолированно.
Выбор шага дискретизации. Ограничимся рассмотрением равномерной дискретизации.
Выбранный шаг дискретизации должен обеспечивать возможность восстановления преобразуемого сигнала f(t) по его мгновенным значениям {f(ti )} с заданной точностью. Возможность такого восстановления определяется теоремой Котельникова (Найквиста), согласно которой любая функция f(t), характеризуемая конечным спектром [0,Fв], может быть восстановлена с любой точностью по ее мгновенным значениям f(ti ), если эти значения Однако на практике воспользоваться этим соотношением бывает трудно, так как все реальные физические сигналы характеризуются бесконечным спектром и, следовательно, при их математическом описании посредством функций с конечным спектром возникает погрешность, оценить которую достаточно сложно. Кроме того, соотношение (4.2) предполагает, что восстановление сигнала должно выполняться в соответствии с разложением в ряд Фурье; реализация такого восстановления очень трудоемка.
Рис. 4.3 Восстановление полиномами первой и нулевой степени.
При других методах востановления сигнала для выбора шага дискретизации необходимо пользоваться иными соотношениями. Рассмотрим пример восстановления аналогового сигнала f(t) по его мгновенным значениям f(ti ) интерполяционным полиномом p(t). В этом случае т.е. значения полинома p(t) совпадают с мгновенными значениями исходного сигнала в узлах дискретизации. Пусть используется полином первой степени, а в качестве меры точности М принято максимальное отклонение f(t) от p(t) на интервале (0,Т)—рис.4.3,а. Воспользовавшись оценкой остаточного члена в форме Лагранжа, получим где Т — шаг дискретизации, af// (t) max = M2 — максимальное значение модуля второй производной исходного сигнала.
Величина М определяется физическими ограничениями, накладываемыми на исходный сигнал со стороны объекта управления и обычно известна; например, если f(t) характеризует перемещение объекта, то величина М соответствует максимально допустимому ускорению, превышение которого может приводить к разрушению объекта. При правильном выборе шага дискретизации величина отклонения не должна превышать допустимой величины < 1, где — 1 доля погрешности дискретизации от общей погрешности, возникающей при «эквивалентной» замене аналогового сигнала числовыми отсчетами, откуда При восстановлении исходного сигнала f(t) полиномом нулевой степени (рис.4.3,6) аналогичные рассуждения позволяют получить где M1 =f/ (t)max—максимальное значение модуля первой производной f(t).
Уменьшение шага дискретизации Т независимо от способа восстановления сигнала приводит к уменьшению погрешности дискретизации, однако при этом возрастает объем перерабатываемой машиной информации. При работе ЭВМ в режиме реального масштаба времени, наиболее характерном для систем управления объектами и процессами, ввод каждого отсчета, его обработка и вывод результата должны быть завершены до появления следующего отсчета, т.е. за интервал Т.
Таким образом, шаг дискретизации определяет не только погрешность преобразования, но и требования, предъявляемые к быстродействию машины, архитектуре и параметрам СВВ, а также ограничения на сложность алгоритмов обработки.
Выбор величины кванта. Величина кванта КВ не должна превышать допустимой погрешности квантования, т.е.
где 2 — доля общей погрешности процесса эквивалентной замены аналогового сигнала его отсчетами, приходящаяся на квантование.
Суммарная погрешность, вызванная погрешностями вследствие дискретизации (1) и квантования (2) не должна превышать величины в выражении (4.1). Погрешности дискретизации и квантования являются методическими.
4.2. Компоненты системы ввода-вывода аналоговых сигналов Ограничимся рассмотрением СВВ, в которых в качестве ЦАП и АЦП используются преобразователи цифровых кодов в напряжение постоянного тока (ПКН) и напряжения в цифровые коды (ПНК). Помимо ПНК и ПКН в состав этих СВВ входят мультиплексоры и демультиплексоры аналоговых сигналов, схемы сохранения уровней напряжения (аналоговые запоминающие элементы), ключи и т.п.
Помимо ЦАП и АЦП широко распространены непосредственные преобразователи механических перемещений в цифровые коды и обратно; такие преобразователи широко используются в качестве узлов систем управления, в частности в электромеханических ПУ.
К основным характеристикам АЦП и ЦАП принято относить диапазон изменения входной (или выходной) величины, разрешающую способность, инструментальную погрешность и быстродействие.
Диапазон изменения входной величины определяет допустимые уровни преобразуемого сигнала;
для ПНК этот диапазон задается в виде максимального Umax и минимального Umin напряжений на входе преобразователя. Наиболее распространены ПНК с диапазоном 5В или (0-10)В.
Разрешающая способность R для АЦП определяется величиной кванта КВ и характеризует наименьшее различимое изменение входной аналоговой величины. Общее число состояний входного сигнала, различимых посредством АЦП, определяется отношением (Umax — Umin)/R. В случае, если для представления цифрового сообщения в таком АЦП или ЦАП используется двоичный (прямой, инверсный, смещенный и т.п.) код, то разрядность, т.е. число двоичных разрядов n этого кода, составит:
где символ ent означает выделение целой части числа; R = КВ • Инструментальная погрешность включает в себя погрешности настройки, временной и температурной нестабильности, нестабильности источников питания и т.п. Все инструментальные погрешности проявляются в виде смещения нуля передаточной характеристики, изменения коэффициента передачи и отклонения передаточной характеристики от идеальной. Значение инструментальной погрешности определяется возможностями технологии и используемыми компонентами для выбранного алгоритма преобразования; снижение инструментальной погрешности обычно связано со значительными затратами. При правильном выборе АЦП и ЦАП инструментальная погрешность должна соответствовать величине кванта, т.е. ИНСТР. КВ. • Таким образом, инструментальная погрешность определяет возможную разрядность преобразователя. Современные ПНК характеризуются разрядностью п = (8—14) и выше (до 64).
Каждый отсчет, представляемый в АЦП и ЦАП n—разрядным числом, является неделимым для обработки квантом информации, однако передаваться через интерфейс он может параллельнопоследовательным способом. [Разрядность преобразователей угловых и линейных механических перемещений в цифровой код достигает n= (20-22) ].
Быстродействие АЦП и ЦАП характеризуют временем преобразования ТПР, т.е. интервалом от начала преобразования до момента получения выходного сигнала. Для АЦП значение ТПР < Т, где Т— шаг дискретизации; для ЦАП в качестве ТПР принимают время установления выходной величины с заданной точностью (обычно с точностью до величины кванта). Время преобразования определяется не только быстродействием используемых элементов АЦП, но и алгоритмом преобразования и разрядностью преобразователя.
Преобразователи цифрового кода в напряжение постоянного тока. Принцип действия ПКН заключается в суммировании аналоговых величин (токов или напряжений), пропорциональных весам разрядов входного цифрового кода.
Однополярные ПКН. Выходное напряжение UA ПКН можно описать выражением:.
где Ui — аналоговая величина (напряжение или ток), пропорциональная весу р i-го разряда; аi — значение i-го разряда входного кода; a U0 — масштабный множитель.
При использовании естественных двоичных кодов аi = 0 или 1, рi = 2i последнее равенство можно преобразовать к виду:
где А = (an—i, aп-2,..., a1, а0)—преобразуемое двоичное число, a UЭ, значение эталонного напряжения, определяющее диапазон изменения выходного напряжения ПКН.
В состав ПКН входят аналоговые ключи с цифровым управлением, служащие для коммутации эталонных напряжений или токов, делители для получения совокупности взвешенных опорных напряжений Ui из одного эталонного напряжения UЭ и сумматоры аналоговых сигналов. На рис.4.4а приведена схема реализации ПКН, основанная на независимом суммировании токов, осуществляемом операционным усилителем (ОУ). Напомним, что ОУ имеет высокий коэффициент усиления (обычно свыше 50 000), потенциал его входа (Вх) близок к нулю, а входное сопротивление велико (т.е.-^/ос).
При этих условиях токи Ij через входные резисторы определяются как Ij = U/(21 R), если соответствующий ключ Кл/ замкнут; Ij = О, если ключ разомкнут.
Напряжение UA на выходе ОУ определяется выражением
UЭ U ROC
Это выражение с точностью до постоянного коэффициента совпадает с выражением (4.7), т.е.такой ПКН позволяет поставить в соответствие двоичному коду А положительное значение напряжения постоянного тока в диапазоне от 0 до (Uэ Roc/R). Отметим, что для получения положительного выходного напряжения эталонное напряжение должно быть отрицательным.
На практике из-за больших погрешностей, вызываемых допусками на прецизионные резисторы различных номиналов, такая схема применения не находит. Наиболее распространенными схемами ПКН являются схемы, использующие резистивную сетку R-2R (рис.4.4,б), источники равных токов в разрядах и интегральные делители опорных токов.
Несколько подробнее рассмотрим схему, использующую резистивную сетку R-2R. Входной цифровой код А = (an—i, aп-2,..., a1, а0), где а0— младший разряд, фиксируется на регистре (на схеме рис.4.4,6 регистр не показан). В зависимости от значения разряда аj соответствующий ключ Кл;
подключает к г-ому входу сетки источник эталонного напряжения Uэ1 или Uэ2. Воспользовавшись законами Ома и Кирхгоффа, можно найти ток I втекающий в суммирующую точку ОУ при любых положениях ключей:
Рис. 4.4 Однополярные ЦАП.
Положим далее, что Uэ2 = 0, a Uэ1 = Uэ и найдем напряжение UA на выходе ПКН:
Это выражение с точностью до постоянного коэффициента совпадает с выражением (4.7). Таким образом, выходное напряжение UA ставится в соответствие входному цифровому коду. Необходимая точность преобразования обеспечивается только при малых погрешностях сопротивления резисторов сетки R—2R, при этом необходимо также учитывать внутреннее сопротивление замкнутых ключей.
Быстродействие схемы определяется затратами времени на перезаряд паразитных емкостей резистивной сетки при переключении входных токов. На рис.4.4,в показана резистивная сетка в схеме обращенного ПКН, обладающего более высоким быстродействием. Резистивная сетка R-2R служит для получения от одного источника токов, отношения значений которых пропорциональны степени двойки. Эти токи затем подаются на суммирующую точку ОУ для получения напряжения Ua, соответствующего положениям переключателей Кл, т.е. входному коду А.
Рассмотрим работу схемы обращенного ПКН, начиная с левого края. Согласно закону Ома, Uo = I0 2R. Ток l01 в точке (а) разветвляется по двум равным сопротивлениям 2R и, следовательно, l01= 21о, т.е. U01 = l01 R = Io 2R. Поскольку. U1 =. U0 + U01, то. U1 = 2(2R)Io. Продолжая рассуждения, получим при этом I3=U3/(2R) т.е.
В этой схеме переключатели Кл служат для подачи соответствующего «взвешенного» тока на суммирующую точку ОУ или на шину земли. Как ив предыдущей схеме, на точность преобразования, а следовательно, и на возможное число разрядов преобразуемого кода влияют погрешности сопротивления резисторов сетки и непосредственно внутреннего сопротивления ключей. Обращенные ПКН имеют разрядность 10-12 и выше.
Получение достаточно точных значений сопротивлений сетки при использовании интегральной технологии 90-ых годов оказалось затруднительным; это является причиной создания ПКН с активными делителями опорных токов, однако разрядность таких ПКН при использовании тех же технологий составила также n=10 – 12.
Современные технологии позволяют изготавливать ЦАП в составе сверхбольших интегральных схем с разрядностью n= 16 и выше. Так 16 разрядные ЦАП используются в обычных мультимедийных звуковых платах расширения и работают на частотах в сотни килогерц и выше.
Обязательным компонентом всех ПКН являются электронные ключи, служащие для коммутации аналоговых токов. Такие ключи должны обладать малым внутренним сопротивлением во включенном Рис. 4.5 Аналоговые ключи.
состоянии и малой длительностью переключения. На рис.4.5 показаны условное обозначение ключа (а) и две возможные схемы его реализации на МОП-гранзисторах (б) и биполярных транзисторах (в).
Такие ключи служат для соединения одного из аналоговых входов с аналоговым выходом (схема в) или для подключения аналогового входа к одному из аналоговых выходов (схема б); переключение осуществляется под управлением дискретного сигнала, подаваемого на управляющий вход ключа.
Двуполярные ПКН. Для получения на выходе ПКН напряжения любой полярности необходимо наличие двух источников эталонного напряжения (рис.4.6,а) или дополнительного коммутируемого инвертора выходного сигнала (рис.4.6,б). В первом случае дополнительный источник эталонного напряжения служит для «смещения» выходного напряжения на постоянную величину, соответствующую половине диапазона изменения UA.
Рис. 4.6 Двуполярные ЦАП.
При этом поступающая на вход ПНК цифровая величина должна быть представлена в смещенном двоичном коде, в котором значению А=(0,0,...,0,0) соответствует максимальное отрицательное значение UA, значению А= (1,1,...,1,1)—максимальное положительное UA, a нулевому значению UA=0 соответствует входной код А=(1,0,...,0,0) или А=(0,1...,1,1). Работа схемы пояснений не требует. При наличии двух разнополярных источников эталонных напряжений и использовании смещенного двоичного кода приведенная на рис.4.б,а схема также позволяет получить на выходе двуполярное напряжение UA.
Аналогичные результаты можно получить при использовании коммутатора и инвертора выходного напряжения рис.4.6,б. В этом случае входная величина представлена прямым двоичным кодом, причем старший знаковый разряд аn используется для коммутации инвертора.
Способ представления двоичного числа, обеспечивающий правильную работу двуполярного ПКН, необходимо учитывать при программировании операций ввода-вывода аналоговых сигналов.
Преобразователи напряжения постоянного тока в цифровой двоичный код.
Принцип действия большинства ПНК основан на подборе кода, который, будучи преобразованным в напряжение, позволяет получать минимальное отклонение от входного напряжения Ux, поступающего на ПНК. В схемах ПНК используются преобразователи кода в напряжение, логические схемы подбора кода и компараторы, осуществляющие сравнение входного напряжения Ux и напряжения UA на выходе ПКН. Компараторы (их иногда называют схемами сравнения, или нуль-органами) строятся, как правило, на базе дифференциальных ОУ; они позволяют формировать дискретный выходной сигнал С в зависимости от знака разности входных аналоговых напряжений Ux и UA, т.е.
Алгоритм подбора кода определяет быстродействие ПНК, сложность его технической реализации и во многих случаях достижимую разрядность. Одним из наиболее распространенных является алгоритм последовательного приближения. Схема ПНК, реализующая этот алгоритм, приведена на рис.4.7,а, временная диаграмма и последовательность подбираемых кодов, устанавливаемых на входном регистре ПКН, приведена на рис. 4.7,б.
Сигнал начала преобразования приводит к установке на входном регистре РгПКН кода А=(1000...0); по первому синхроимпульсу (СИ1). В результате установленный на регистре код преобразуется посредством ПКН в напряжение UA, которое сравнивается компаратором (нульорганом — НО) с входным преобразуемым напряжением Ux- Если С = 0, т.е. Ux > с входным преобразуемым напряжением Ux- Если С = 0, т.е. Ux > UA, Рис. 4.7 АЦП последовательного приближения.
то установленный на регистре код А недостаточен и должен быть увеличен; если С=1, т.е Ux < UA (рис.4.7,6), то код превышает требуемый и его необходимо уменьшить. В зависимости от значения сигнала С логическая схема (ЛСх) во втором такте (по сигналу СИ2) производит установку в регистр Рг кода А = (1100...0), если С = 0, или А = (0100...0), если С = 1. Вновь установленный код преобразуется в напряжение UA, которое по-прежнему сравнивается с Ux. Таким образом, в момент прихода СИЗ в Рг устанавливается новый код в соответствии с вновь выработанным значением С.
Этот процесс подбора производится непрерывно и завершается после «анализа» кода А, в котором установлен младший разряд. В этот момент ЛСх вырабатывает сигнал готовности результата, который может быть прочитан на регистре Рг. Последовательность кодов, устанавливаемых на Рг в процессе подбора, иллюстрируется на рис.4.7,в. Длительность полного цикла преобразования Тпр занимает (п + 1) тактов, Тпр =Тсп (n+ 1), где Tсn — период тактовых сигналов. Очевидно, что верхней границей Тпр является допустимый период дискретизации, т.е. Тпр = Т [см. (4.3) и (4.4)].
Описанный процесс подбора кода справедлив только для случая неизменного во времени входного сигнала Ux, однако реальный сигнал Ux, поступающий на вход ПНК, не остается неизменным. Максимальное изменение Ux этого сигнала за время цикла преобразования Ux = M Тпр, где M1 — максимально возможная скорость изменения Ux. Потребуем, чтобы код на выходе ПНК отличался от кода, соответствующего входному сигналу в момент начала цикла преобразования, не более чем на единицу младшего разряда; это значит, что Если последнее условие не выполняется, т.е. ПНК не обладает достаточным быстродействием, возникает дополнительная погрешность, обусловленная непрерывным изменением сигнала Ux.
Для уменьшения такой погрешности необходимо использовать более быстродействующие схемы ПНК, а также применять на входе преобразователей схемы сохранения уровня напряжения (схемы выборки — хранения), которые фиксируют значение входного аналогового сигнала Ux в момент начала преобразования и сохраняют его постоянным до завершения преобразования. Принцип действия таких схем основан на заряде конденсатора от входного сигнала в течение периода Твб и поддержания на нем постоянного потенциала в течение периода хранения Тхр.
Одна из наиболее часто используемых на практике схем выборки-хранения приведена на рис.4.8,а; принцип ее работы поясняется на рис.4.8,б. Схема состоит из операционных усилителей ОУ1 и ОУ2 с единичными коэффициентами усиления, «запоминающего» конденсатора С и аналогового ключа Кл. Под воздействием дискретного управляющего сигнала s ключ Кл замкнут в течение периода выборки и разомкнут в течение периода хранения. В период выборки конденсатор С заряжается до потенциала входного сигнала Ux; заряд происходит большим выходным током усилителя ОУ1 и, следовательно, постоянная времени заряда достаточно мала. Потенциал заряженного конденсатора «передается» на выход усилителя ОУ2 и далее на вход ПНК. Большое входное сопротивление ОУ2 обеспечивает большую постоянную времени разряда и, следовательно, возможность сохранять постоянным потенциал на конденсаторе в течение сравнительно длительного времени (Тхр > Твб). Для ускорения процесса заряда конденсатора С в период выборки в практических схемах выборки-хранения обратная связь операционного усилителя ОУ1 подается с выхода ОУ2 (рис.4.8,в). За счет отсутствия отрицательной обратной связи при разомкнутом ключе коэффициент усиления ОУ1 велик и при замыкании контактов ключа на конденсатор С подается Рис. 4.8 Схемы выборки-хранения.
большая разность потенциалов, ускоряющая его заряд. Такая схема приводит также к некоторому снижению требований, предъявляемых к характеристикам ключа и усилителя ОУ2.
Алгоритмы преобразования и схемные решения ПНК характеризуются большим разнообразием, что обусловлено необходимостью получения высокой точности или высокого быстродействия, а также особенностями технологии. Наибольшим быстродействием обладают ПНК непосредственного считывания (рис.4.9), в которых реализуется алгоритм параллельного преобразования. Входной сигнал Ux сравнивается с набором (2" — 1) эталонных напряжений, обычно формируемых посредством делителя. На выходах всех компараторов с 1-го по i-ый формируется сигнал «0», если Uэi > Ux; на выходах компараторов с (i+1)-го по (2n— 1)-й формируется сигнал «1», если U’Э(i+1) Ux, т.е.
на входы шифратора Ш поступает единичный нормальный код 00...011...1, который преобразуется в выходной код ПНК (например, двоичный или циклический). ПНК такого типа требуют больших аппаратных затрат, пропорциональных 2n, поэтому рассмотренные схемы используются обычно в качестве составных узлов ПНК, реализующих комбинированные алгоритмы, для ускорения преобразования.
Рис 4.9 АЦП непосредственного считывания с алгоритмом прямого преобразования.
Весьма распространенным методом преобразования является двойное интегрирование. ПНК, реализующие этот метод, позволяют получать высокую точность, соответствующую 14-16 двоичным разрядам. Однако такие ПНК имеют низкое быстродействие. Упрощенная схема ПНК с двойным интегрированием приведена на рис.4.10,а, а временная диаграмма его работы — на рис.4.10,б. Его основными компонентами являются интегратор И, построенный на базе операционного усилителя с емкостью С в цепи обратной связи, аналоговые ключи Кл1 и Кл2, компаратор НО, счетчик Сч и схема управления СУ. При поступлении импульса запуска S начинается цикл преобразования, имеющий два этапа длительностью Т0 и Тх. Сигнал запуска S начинает первый этап преобразования; он приводит к установке в единичное состояние двух триггеров в схеме управления, что вызывает замыкание аналогового ключа Кл2 и установку ключа Кл1 в верхнее положение. На вход интегратора подается сигнал Ux, который интегрируется в течение интервала Т0. Одновременно на вход счетчика подаются импульсы тактовой частоты ТИ. Конец интервала Т0 определяется моментом переполнения счетчика, т.е. сигналом Р. Таким образом, при использовании двоичного n—разрядного счетчика Т0 = ТТИ 2n.
Напряжение на выходе интегратора в этот момент соответствует величине Ux Т0 К, где К — постоянная интегрирования. Сигнал Р переключает один из триггеров СУ в нулевое состояние, что приводит к переключению Кл1в нижнее положение. В этот момент начинается второй этап преобразования длительностью Тх, в течение которого на вход интегратора подается напряжение от эталонного источника (-Uэ). Момент завершения этого этапа определяется фронтом сигнала Сно от компаратора, когда напряжение на выходе интегратора становится равным нулю.
Рис 4.10 АЦП с двойным интегрированием.
Именно в этот момент код А на выходе счетчика соответствует входному напряжению Uх. По фронту сигнала Сно схема управления прекращает передачу на счетчик сигналов тактовой частоты и замыкает ключ Кл2, переводя интегратор в начальное состояние. Поскольку в момент переключения сигнала Сно напряжение на выходе интегратора равно нулю, а постоянная интегрирования одинакова на протяжении всего цикла, то справедливо следующее равенство: Ux Т0 = Uэ Тх, или, поскольку TxТТИ А (с точностью до единицы младшего разряда) т.е. напряжению Ux поставлен в соответствие выходной код А.
В ПНК с двойным интегрированием в значительной степени скомпенсированы ошибки, вызванные погрешностями пассивных компонентов, так как на этапах Т0 и Тх эти ошибки имеют разные знаки. Кроме того, при интегрировании происходит сглаживание случайных флуктуаций сигнала Ux, вызванных внешними наводками. Таким образом, ПНК рассматриваемого типа осуществляет преобразование среднего на интервале Т0 значения напряжения Ux.
Многоканальные АЦП и ЦАП. В СВВ аналоговых сигналов приходится решать задачу преобразования в цифровой код напряжений от множества различных источников во внешнем мире, а также выдачи аналоговых напряжений множеству внешних потребителей. Чтобы решить эту задачу, можно использовать отдельные ПНК для каждого источника и отдельные ПКН для каждого потребителя. Каждый такой ПКН или ПНК следует рассматривать как отдельное ПУ и оборудовать его соответствующими схемами подключения к интерфейсу. Однако такое решение слишком дорого.
Для снижения затрат в многоканальных СВВ применяют аналоговые мультиплексоры и демультиплексоры, позволяющие использовать дорогостоящие ПНК и ПКН на основе разделения времени для нескольких источников и потребителей аналоговой информации. Кроме того, сокращаются схемы подключения к интерфейсу. Аналоговый мультиплексор представляет собой совокупность аналоговых ключей с дискретным управлением и цифрового дешифратора. Обычно мультиплексор подключается ко входу схемы выборки-хранения, соединяя непосредственно источники аналоговых сигналов со схемой. Однако если диапазоны изменения аналоговых сигналов от источников значительно различаются, на каждом входе мультиплексора включают специальный инструментальный усилитель, нормирующий входное напряжение. В некоторых случаях такой усилитель включается между выходом мультиплексора и входом схемы выборки-хранения, однако, при этом его коэффициент усиления должен устанавливаться программно, в соответствии с номером подключенного мультиплексором аналогового канала.
На рис.4.11 показан пример четырехканального аналогового мультиплексора (МС), на выходе которого напряжение UMC принимает поочередно значения напряжений на входах Ux1, Ux2, Ux3 или Ux4 в соответствии с номером канала, установленным в регистре Рг. Такой мультиплексор служит для коммутирования аналоговых сигналов, передаваемых по однопроводной схеме. Существуют мультиплексоры для коммутации дифференциальных сигналов.
Работа ПНК и мультиплексора должна быть синхронизирована так, чтобы перед переключением мультиплексора на очередной канал был полностью завершен цикл преобразования для предыдущего канала. При использовании мультиплексоров увеличивается интервал между последовательными циклами преобразования по одному каналу; это следует учитывать в особенности для быстроизменяющихся процессов, так как должно выполняться условие Тпр < Т. Мультиплексоры приводят также к увеличению погрешности преобразования за счет дополнительной коммутации аналогового сигнала; этот недостаток проявляется особенно заметно при использовании многоступенчатых мультиплексоров.
Рис 4.11. Четырехканальный аналоговый мультиплексор.
Схемы управления многоканальными ПНК могут самостоятельно вырабатывать последовательность адресов каналов, например, с помощью адресного счетчика. В этом случае номер начального канала i загружается в Рг от центральной части машины (обычно под управлением программы), а после завершения каждого цикла преобразования в ПНК в этот регистр добавляется единица, т.е. осуществляется переход к следующему каналу. При этом часто вместе с кодом, формируемым на выходе ПНК, в центральную часть машины передается и номер текущего канала. В СВВ такому многоканальному ПНК присваивается один номер, что позволяет сократить схемы сопряжения. Многоканальные схемы вывода аналоговой информации могут быть также построены на базе одного ПКН, к выходу которого посредством аналогового демультиплексора подключается множество схем выборки-хранения. Однако на практике стоимость ПКН соизмерима со стоимостью схемы выборки-хранения и поэтому для каждого внешнего потребителя аналоговой информации используют отдельный ПКН. Несколько ПКН (по числу каналов) объединяют в одно ПУ, обладающее необходимыми схемами сопряжения с интерфейсом, а загрузку регистров ПКН осуществляют на основе разделения времени. Для этого в ПУ предусматривают специальный регистр номера канала и цифровой селектор.
4.3. Структура и управление системой ввода-вывода аналоговых сигналов В состав СВВ аналоговых сигналов, помимо рассмотренных многоканальных схем ПКН и ПНК, входят различные логические схемы, предназначенные для организации сопряжения ПКН и ПНК с центральной частью машины, определения текущего номера входного или выходного аналогового канала, задания темпа опроса каналов, буферизации преобразуемых данных и т.д. На рис.4. приведен пример полной СВВ аналоговых сигналов, предназначенной для мини- или микроЭВМ с объединенным интерфейсом. Схема включает в себя три секции:
1) многоканального приема аналоговых сигналов, содержащую схемы управления (СУ) АЦП, генератор тактовых импульсов перестраиваемой частоты (ПГТИ), запоминающее устройство (ЗУ) для хранения коэффициентов усиления инструментального усилителя (ИУ) по каждому входному каналу, аналоговый мультиплексор (МC), схему выборки-хранения (В-Х) и собственно преобразователь (ПНК);
2) многоканальной выдачи аналоговых сигналов, содержащую схему управления (СУ ЦАП), селектор номера канала (СНК), входные регистры Pг1 - PгN и собственно преобразователи ПКН1ПKHN;
3) управления режимами работы и сопряжения с интерфейсом; эта секция включает в себя адресный селектор (СА), регистры адреса данных (РгАД), номера канала (РгНК), числа каналов (РгЧК), команд и состояния (РгКС), скорости опроса каналов (РгСО), данных (РгД), а также схемы управления прямым доступом (БУПДП) и прерываниями (БУП).
Рис. 4.12 СВВ аналоговых сигналов для микроЭВМ.
Непосредственный процесс аналого-цифрового преобразования по каждому каналу начинается по сигналу S1, формируемому в схеме СУ АЦП. По этому сигналу схема В-Х переходит в режим выборки. По заднему фронту сигнала S1 схема В-Х переходит в режим хранения, т.е. значение напряжения на ее выходе соответствует значению входного напряжения в момент завершения выборки. В этот момент по сигналу S2 начинается цикл преобразования в ПНК; завершается цикл по сигналу S3 передачей сформированного кода из ПНК в буферный регистр РгД. Одновременно сигнал S3 позволяет сформировать запрос прерывания или прямого доступа для передачи сформированного кода из РгД в память машины. Однако, чтобы СУ АЦП смогла начать выработку сигналов управления процессом преобразования, должны быть заданы режимы ее работы, способы формирования номеров каналов и выдана команда «начать преобразование».
Возможны два основных способа задания адресов каналов (или способа опроса каналов) — произвольный и последовательный.
При произвольном способе опроса каналов номер канала задается программой-драйвером и по шине данных (ШД) заносится на РгНК. Непосредственно вслед за занесением адреса канала программа-драйвер выдает команду «начать преобразование» и заносит ее на РгКС. В системах с объединенным интерфейсом все регистры СВВ, подключенные к ЩД, являются программно доступными, т.е. имеющими собственные адреса. Для выборки требуемого регистра используется схема адресного селектора СА, на вход которой по шине адреса (ША) подается адрес загружаемого регистра. Код номера аналогового канала из РгНК передается на мультиплексор МС для подключения соответствующего канала к выходу ИУ и на адресный вход памяти для выборки коэффициента усиления Кi, соответствующего подключенному к ИУ каналу. Значения коэффициентов усиления предварительно загружаются в ЗУ. Получив команду начать преобразование, СУ АЦП вырабатывает последовательность сигналов управления, а после завершения преобразования — сигнал запроса прерывания, формируемый в БУП. Данные передаются из РгД программе в режиме программного доступа. Чтобы осуществить преобразование по другому каналу, программа вырабатывает номер этого канала, передает его в РгНК и вновь выдает команду «начать преобразование».
При последовательном способе опроса каналов одна команда «начать преобразование» позволяет инициировать последовательность циклов преобразования для опроса группы различных каналов.
Предварительно наименьший номер канала в группе заносится программой-драйвером на РгНК; на РгЧК заносится общее число каналов в группе, опрашиваемых по одной команде. Получив команду, СУ АЦП начинает обычный цикл преобразования для канала, номер которого содержится в РгНК.
После завершения цикла сигнал S3 используется не только для организации передачи сформированных данных в ОП, но и для определения очередного номера аналогового канала, для чего к текущему содержимому РгНК добавляется единица; при этом число в РгЧК уменьшается на единицу. При последовательном опросе каналов обычно используют прямой доступ в память, управление которым осуществляет блок управления (БУ ПДП). Для этого в памяти машины отводится непрерывная область с базовым адресом АБо для приема преобразуемых данных от всех входных аналоговых каналов. Адрес ячейки памяти, в которую передаются данные из РгД, формируется в РгАД путем сложения базового адреса АБо и номера текущего канала i. После передачи числа из РгД в память машины СУ АЦП вновь формирует сигнал S1, т.е. начинает новый цикл преобразования для очередного канала. Этот процесс продолжится, пока содержимое РгЧК не станет равным нулю.
Новый цикл опроса входных аналоговых сигналов инициируется очередной командой начала опроса от ЦП или автоматически по сигналу от ПГТИ, выполняющего роль таймера. Настройка ПГТИ осуществляется программно с помощью РгСО или путем переключения тумблеров на лицевой панели УВВ. Во многих случаях частота опроса задается объектом управления, а период опроса изменяется в пределах от единиц мкс доединиц секунд. Если в машине имеется собственный таймер, то такой ПГТИ необязателен.
Вывод аналоговых сигналов осуществляется с использованием отдельных ПКН для каждого выходного канала. Для запоминания и декодирования номера текущего канала применяются логические схемы, аналогичные используемым в секции ввода. Вывод аналоговых сигналов также может осуществляться в режимах произвольного задания номеров каналов и последовательного опроса. Аналогично операции ввода при произвольном задании номера канала используется программный доступ, а при последовательном опросе — прямой доступ в память.
Последовательности действий в этих режимах при выводе аналогичны последовательностям действий при вводе.
В значительной степени можно упростить аппаратуру управления СВВ аналоговых сигналов, если применить микропроцессоры. При этом вместо отдельных функциональных регистров, доступ к которым производится посредством адресной шины и селектора адреса, используют несколько портов ввода-вывода. Все функции преобразования управляющей информации в процессе опроса, а также выработки управляющих сигналов возлагаются на МП. При применении в СВВ аналоговых сигналов однокристальных микроЭВМ (например, типа 1816ВЕ51), обладающих внутренней памятью, на них можно возложить ряд дополнительных функций по предварительной обработке, таких, как фильтрация преобразованных данных, определение рациональной последовательности опроса каналов, вычисление параметров, которые не могут быть измерены непосредственно, и т.д. МП позволяют «улучшить» метрологические параметры АЦП за счет линеаризации характеристик с помощью таблиц поправок, автоматизации процессов калибровки и компенсации смещения нуля в используемых ОУ. Помимо перечисленных функций МП может осуществлять переключение диапазонов изменения входных и выходных аналоговых величин, управлять форматами данных и т.д.
В последние два десятилетия широкое применение нашли так называемые цифровые сигнальные процессоры (DSP), сориентированные на обработку аналоговых сигналов: цифровая фильтрация, распознавание звука и речи, обработка изображений, спектральный анализ, цифровая звукотехника, измерительная техника, медицина, управление системами, модуляция – демодуляция, кодирование и т.д.. Многие DSP имеют в своем составе встроенные ЦАП и АЦП.В настоящее время уже реализованы DSP 4-ого поколения с производительностью в сотни миллионов и более операций с секунду с плавающей запятой..
Приведем основные характеристики, отражающие возможности типичной СВВ аналоговых сигналов для микроЭВМ (ПЭВМ):
Число входных каналов — 16 или 32 (с возможностью расширения до 256) Тип входных каналов — дифференциальные и однопроводные Диапазон преобразуемого напря- — 0-5В;0—10В;+5В;+10В жения Используемые коды — прямой, смещенный, дополнительный, двоичные Разрешающая способность —до 14 двоичных разрядов и выше Скорость преобразования преобразований/с при выводе (в цифровой осциллографии эти показатели достигают десятков и сотен миллионов преобразований в секунду).
Поскольку СВВ аналоговых сигналов используются в управляющих ЭВМ, программы для которых составляются специалистами в области управления процессами, упрощение программирования приобретает особое значение. В большинстве языков высокого уровня реального времени предусматриваются специальные операторы, позволяющие присваивать переменным значения, поступающие по определенному входному аналоговому каналу. Номер канала в этом операторе используется в качестве параметра. Для цифровой осциллографии используют графический интерфейс, реализующий так называемый «Виртуальный осциллограф» с характерными для настоящих осциллографов средствами управления и настройки. При отсутствии таких языковых средств и соответствующих средств программной поддержки программирование должно выполняться на ассемблере.
Контрольные вопросы 1. Определите необходимую частоту дискретизации:
а) речевого сигнала, передаваемого по телефонному каналу, полоса пропускания которого составляет 4 кГц, б) сигнала, пропорционального скорости перемещения каретки графопостроителя, если погрешность позиционирования не должна превышать 0,1 мм, а ускорение ограничено и не может превышать 20 м/с.
2. Назовите основные параметры, которыми принято характеризовать АЦП и ЦАП;
дайте определения.
3. Определите число двоичных разрядов ПКН системы отклонения электронного луча индикатора растрового типа на ЭЛТ при числе строк растра 625.
4. Назовите основные компоненты ПКН и ПНК и перечислите их функции.
5. Какими факторами определяются инструментальные погрешности ПКН и ПНК?
6. Составьте структурную схему ПНК, реализующую алгоритм последовательного приближения;
на примере какого-либо фиксированного значения входного напряжения поясните последовательность действий по подбору кода.
7. Поясните принцип действия ПНК, основанного на методе двойного интегрирования. В чем достоинства и недостатки такого ПНК?
8. Какие компоненты необходимы для многоканальной СВВ аналоговых сигналов? Предложите вариант организации опроса каналов.
Интегральные схемы ПКН и ПНК, аналоговых ключей и устройств выборки и хранения приведены в [10, 11]. Описание полной схемы СВВ аналоговых сигналов и ее компонентов содержится в [12, 13, 14]; схемы, используемые в УВВ дискретных сигналов, приведены в [25].
В разделе использованы основные материалы из [1].
5. СИСТЕМЫ ВВОДА-ВЫВОДА РЕЧЕВОЙ ИНФОРМАЦИИ
Речь является наиболее естественным способом общения между людьми. Человек обладает развитыми системами формирования и восприятия речи. Системы ввода-вывода речи освобождают человека от необходимости занимать непрерывно место за пультом, так как «слуховой канал» не является узконаправленным; высвобождают глаза и руки оператора для выполнения других работ;позволяют ускорить подготовку оператора для работы с ЭВМ. В системах управления, использующих ЭВМ, подача команд голосом позволяет снизить задержки и улучшить качество управления, при этом предоставляется возможность работать в темноте и в других условиях, когда невозможно использовать глаза и руки. Несмотря на очевидные преимущества, системы ввода-вывода речи не получили пока широкого распространения в качестве универсальных ПУ ЭВМ. Это объясняется сложностью автоматического распознавания и синтеза слитной речи. Для понимания принципов автоматического распознавания и синтеза речи необходимо кратко познакомиться с механизмами формирования и восприятия ее человеком, а также с информативными характеристиками речевого сигнала.
5.1. Механизмы формирования и восприятия речи человеком Речь человека формируется посредством голосового тракта из периодического или шумового сигнала и передается в виде звуковых колебаний воздушной среды. Голосовой тракт, модель которого приведена на рис.5.1,а, включает в себя множество органов: легкие 1, трахею и бронхи 2, голосовые связки 3, гортань 4, язык 5, полости носа 6 и рта 7 и ряд других. Под воздействием мышечных усилий легкие создают избыточное давление воздуха, которое приводит к размыканию ранее сомкнутых голосовых связок и освобождению прохода для воздуха; давление при этом падает и связки вновь смыкаются. В результате действия такого механизма возникает периодический сигнал давления, частота которого называется частотой основного тона. Формируемые при этом звуки называются звонкими; примерами могут служить звуки при произношении букв «а» или «э». Голосовой тракт может возбуждаться даже при слегка раскрытых голосовых связках, когда воздух проходит сквозь них непрерывно и вызывает вибрацию связок; формируемые таким образом звуки называются глухими.
Выше голосовых связок располагаются полости глотки, рта и носа, которые являются резонаторами и определяют спектральную форму звука. В упрощенной модели голосового тракта мягкое небо и носовую полость не учитывают, тогда модель можно представить в виде акустической трубы, которая Рис. 5.1 Модель голосового тракта.
с одной стороны «накачивается» управляемым генератором давления (т.е. легкими и голосовыми связками), а другой ее конец, соответствующий рту, излучает звук.
На акустической частотной характеристике трубы отмечается ряд резонансов, частоты которых называются формантами голосового тракта. Расположение формантных частот в спектре и распределение амплитуд колебаний вблизи них и определяет звук, который человек интерпретирует как речь. Наибольшее значение форманты имеют при воспроизведении гласных звуков. Обычно предполагают, что информативные признаки речи укладываются в полосе частот от 100 Гц до 4 кГц (так полоса пропускания телефонного канала обычно не превышает 3,5 кГц), хотя органы слуха человека способны воспринимать и более высокие частоты (до 15 кГц). В этом частотном диапазоне находятся четыре форманты для голосового тракта мужчины и три — для голосового тракта женщины. Все формантные частоты присутствуют в речи одновременно и непрерывно смещаются в частотном спектре в соответствии с произносимыми звуками. Смещение формантных частот обеспечивается мышечными усилиями, которые приводят к изменению параметров голосового тракта;
эти изменения на модели отражаются изменением диаметра акустической трубы. Изменение формы акустической трубы и соответствующие амплитудно-частотные характеристики A(f) приведены на рис.5.1,б для случаев произношения звуков «э» и «а». Разборчивость речи определяется первыми тремя формантами.
Восприятие речи человеком происходит посредством уха, состоящего из ушной раковины, среднего и внутреннего уха. Ушная раковина направляет звуковые волны на барабанную перепонку, вызывая ее колебания. Колебания барабанной перепонки через слуховые косточки и стремечко среднего уха передаются в систему внутреннего уха, где в полукружных каналах и улитке вызывают раздражения рецепторных нервных клеток. Далее сигналы от этих клеток передаются по соответствующим слуховым нервам в мозг. Таким образом осуществляется преобразование звуковых волн (давления звука) в биосигналы, распространяющиеся по нервным волокнам.
Согласно наиболее распространенной в настоящее время теории слуха, называемой теорией места, выделение различных частот из звукового сигнала производится за счет возбуждения рецепторных клеток, находящихся в различных местах полукружных каналов и улитки. Таким образом, передача информации о звуковом сигнале в мозг человека осуществляется параллельнопоследовательно. Информация поступает в мозг отдельно от каждой частотной составляющей звука:
высота тона определяется конкретными волокнами, по которым передаются импульсы в мозг, а восприятие громкости зависит от интенсивности импульсов, передаваемых по данному волокну. В соответствии с этой теорией человеческое ухо способно различать даже довольно близкие частотные составляющие звукового сигнала, но практически безразлично к их относительным фазовым сдвигам.
Модель слуховой системы человека можно представить в виде спектрального анализатора, определяющего амплитуду различных составляющих звукового сигнала. Такая модель хорошо согласуется со строением уха и объясняет способность человека различать близкие частоты и нечувствительность к фазовым сдвигам.
5.2. Структура речевого сигнала Согласно моделям голосового тракта и слуховой системы человека речевое сообщение можно рассматривать как непрерывную последовательность сменяющих друг друга звуков, каждому из которых соответствует определенная акустическая характеристика. Смысловое содержание речевого сообщения определяется изменениями кратковременного спектра. Последовательности звуков образуют слова, словосочетания, фразы. Часть информации передается временными интервалами (паузами), высотой и интенсивностью звука и другими просодическими признаками. Речевой сигнал имеет иерархическую организацию, при которой образы одного уровня объединяются в более сложные образы следующего уровня по определенным правилам. Эти правила таковы, что ограничивают число возможных вариантов объединения, т.е. делают каждый последующий уровень избыточным. Избыточность позволяет человеку безошибочно воспринимать речь в условиях шумов.
Процесс распознавания и обработки речевого сообщения мозгом человека изучен слабо. Поэтому в основе работы УВВ речевых сообщений лежит не моделирование процесса выделения смыслового содержания, осуществляемого мозгом человека, а установление соответствия между отдельными элементами речевого сигнала и символическими представлениями, используемыми в ЭВМ. Для установления такого соответствия необходимо создать фонологический алфавит, т.е. совокупность элементов, каждому из которых можно поставить в соответствие определенное символическое (кодированное) представление в ЭВМ. В качестве элементов фонологического алфавита УВВ речевой информации используют определенные звуки (фонемы, аллофоны), слоги, слова и словосочетания.
Фонема — наименьший компонент речевого сигнала, так называемый базовый звук, позволяющий отличать произносимые высказывания на определенном языке или диалекте. Например, при произношении слогов «ДАМ» и «ТАМ» в русской речи фонемы и различают по признаку звонкости-глухости, т.е. по наличию или отсутствию в сигнале явно выраженной периодической составляющей, обусловленной колебаниями голосовых связок. Общее число фонем в различных языках составляет 20 — 60: для русского языка-44, для английского—40. Набор фонем определяет наименьшее число распознаваемых элементов языка.
Аллофон — альтернативный вариант произношения фонемы в зависимости от ее положения в слове или фразе. Каждой фонеме может соответствовать от одного до нескольких аллофонов.
Выделение аллофонов в речевом сигнале несколько проще, но общее число аллофонов языка может достигать сотен, что значительно усложняет обработку, если аллофоны использовать в качестве элементов фонологического алфавита.
Дифтонг характеризует звук, который формируется при «переключении» голосового тракта в момент перехода от произнесения одной фонемы к другой; таким образом, этот звук может находиться только между двумя фонемами. К сожалению, фонемам, аллофонам и дифтонгам не всегда можно найти однозначное символьное представление. Это значительно усложняет процесс выделения смыслового содержания из речевого сообщения.
Отличительной особенностью слов и словосочетаний является то, что им можно найти однозначное соответствие символьного представления. Однако недостатком слов как элементов фонологического алфавита является то, что, во-первых, их общее число очень велико и, во-вторых, затруднено их выделение, так как в слитной человеческой речи отсутствуют выраженные границы разделения слов.
Для выделения смыслового содержания из речевого сообщения в ЭВМ звуковые колебания воздушной среды, возникающие при речевом общении, посредством микрофона преобразуются в аналоговый электрический сигнал, который может передаваться по проводам, преобразовываться в цифровую форму и подвергаться другим видам обработки. Таким образом, выделение элементов фонологического Рис. 5.2 Временная диаграмма речевого сигнала.
алфавита в сообщении и их распознавание по существу сводится к выделению определенных признаков в электрическом сигнале.
Произносимые звуки — фонемы — могут быть гласными и согласными; согласные звуки, в свою очередь,— взрывными звонкими и глухими (; ; ); фрикативными, которые характеризуются отсутствием специфических формантных частот и также могут быть звонкими и глухими (; ); носовыми, при произнесении которых участвует носовая полость (, );
промежуточными (как звук в английском слове winter) и полугласными (, ).
Гласные и звонкие согласные образуются при вибрации голосовых связок и имеют выраженные периодические составляющие. Глухие согласные не имеют выраженных периодических составляющих и формируются при прохождении воздуха через фильтр, образуемый языком, губами, зубами и т.д. Все эти особенности отражаются в форме электрического сигнала u(t) на рис.5.2. Звук является глухим, звуки и — звонкими. Однако конкретная форма сигнала определяется не только произносимым звуком, но и речевыми особенностями говорящего, например, тембром голоса, интонацией, темпом речи и т.д. Все это существенно осложняет лингвистическую интерпретацию речевого сигнала, т.е. его распознавание. При выводе речевых сообщений неучет таких факторов делает звучание неестественным.
Рассмотрение устройств начнем с УВыв речи, так как процесс формирования речевых сообщений несколько проще процесса их распознавания; кроме того, в настоящее время УВыв речи распространены шире, чем УВв.
5.3. Формирование речевых сообщений и устройства вывода речи Устройства, или системы вывода речи, осуществляют преобразование символьного представления информации, принятого в ЭВМ, в звуковой сигнал речевого сообщения (речевого сигнала). формирование речевого сигнала осуществляется различными способами и техническими средствами, выбор которых определяется требуемым качеством синтезируемой речи, объемом словаря и допустимыми аппаратными затратами. Многообразие существующих способов формирования речевого сигнала можно разбить на две группы:
1) формирование по образцам (компилятивный синтез);
2) синтез по правилам.
Процесс преобразования символьного представления информации в сигнал речевого сообщения состоит из двух основных этапов: конструирования речевого сообщения и собственно синтеза речевого сигнала. Конструирование речевого сообщения заключается в выработке некоторой последовательности команд управления аппаратными средствами собственно синтезатора, в соответствии с которой на выходе синтезатора формируется речевой сигнал. Конструирование речевого сообщения может выполняться программным путем с использованием аппаратуры ЦП- или МП-средств, встроенных в УВыв речи. Синтез речевого сигнала выполняется аппаратурой ПУ.
Действия, выполняемые на каждом из шагов, определяются принятым в данном ПУ способом формирования речевого сигнала.
Формирование речевого сообщения по образцам. Процесс формирования речевого сообщения по образцам по существу представляет собой восстановление аналогового сигнала, заранее закодированного и введенного в память системы. Систему вывода речи, реализующую формирование речевого сообщения по образцам, можно представить в виде запоминающего устройства аналоговых сигналов (например, «быстрого магнитофона»), в которое заранее занесены возможные выходные речевые сообщения ЭВМ. Совокупность всех возможных речевых сообщений образует словарь устройства. При необходимости вывести некоторое сообщение на этапе конструирования вырабатываются соответствующие ему поисковые признаки. На этапе синтеза УВыв по этим признакам находит нужное сообщение в своей памяти и выводит его через канал воспроизведения звука. Несмотря на кажущуюся простоту такого способа, его непосредственная реализация в УВыв речи затруднена из-за слишком медленного процесса поиска нужного сообщения в памяти аналоговых сигналов, причем это время возрастает с ростом числа сообщений, хранимых в памяти.
Устройства и системы речевого вывода, реализующие формирование речевого сообщения по образцам, хранят речевые сообщения в памяти в цифровом виде. Для этого в процессе формирования словаря, т.е. записи оператором в память устройства возможных выходных сообщений, аналоговый сигнал от микрофона преобразуется в последовательность цифровых отсчетов, которая затем подвергается операции сжатия. Полученная в результате операции сжатия последовательность числовых значений называется описанием речевого сигнала и заносится в память устройства. В процессе вывода на этапе конструирования речи производится поиск нужного сжатого описания в памяти устройства, а на этапе синтеза — восстановление первоначального несжатого описания, цифроаналоговое преобразование и воспроизведение речевого сигнала.
Существует большое разнообразие систем и устройств формирования речи по образцам, которые различаются способами описания речевого сигнала. Эти способы определяют возможный словарь, качество звучания восстановленной речи и сложность аппаратурной реализации. Все способы формирования речи по образцам обеспечивают сравнительно хорошее качество речи, но при ограниченном словаре и ограниченной длительности. Некоторые системы допускают изменение словаря в процессе эксплуатации.
Описание речевого сигнала. Рассмотрим некоторые наиболее распространенные способы цифрового описания речевых сигналов: импульсно-кодовую модуляцию (ИКМ), кодирование с линейным предсказанием (ЛПК), частотную корреляцию (ПАРКОР) и параметрическое кодирование.
Вначале определим параметры аналого-цифрового преобразования речевого сигнала, осуществляемого в процессе составления его описания. Эти параметры — частота дискретизации F = 1/Т, где Т—период дискретизации, и число разрядов n двоичного представления каждого отсчета.
Определим их для речевого сигнала, качество которого соответствует возможностям телефонного канала. Телефонный канал характеризуется полосой пропускания, нижняя граница которой составляет.Fн=300 Гц, а верхняя—Fв= 3500 Гц, и разрешающей способностью по амплитуде R=-(3-5)%, определяемой уровнем шумов. Поскольку для восстанавливаемого речевого сигнала по существу определена верхняя частотная составляющая Fв=3500 Гц, воспользуемся соотношением (4.2), согласно которому Однако для компенсации погрешностей, вызванных отличием реализуемых законов восстановления аналогового сигнала от теоретически необходимого, значение частоты дискретизации устанавливают обычно F = 10 кГц. Для оценки числа разрядов n двоичного представления отсчета Х воспользуемся соотношением (4.6). Пусть речевой сигнал описывается уравнением где А- амплитуда, тогда Отметим, что если восстановление аналогового сигнала, соответствующего речевому сообщению, выполнять полиномом первого порядка, то частота дискретизации определяется в соответствии с соотношением (4.3) и при М2 = Х//max = 4 2АFв и допустимом отклонении восстановленного сигнала от исходного не более 5% по амплитуде составляет около 30 кГц.
Импульсно-кодовая модуляция (ИКМ) предполагает прямое кодирование каждого отсчета. Таким образом, речевому сигналу длительностью в 1с будет поставлено в соответствие цифровое описание, содержащее 10 000 отсчетов Xi (при F = 10 кГц), каждый из которых представлен (5-6) разрядным двоичным числом. Для хранения такого описания потребуется область памяти в (50-60) Кбит.
Поскольку формирование речи по образцам предполагает, что в памяти системы хранятся описания всех сообщений, то суммарная длительность Тcл всех сообщений словаря и размер области памяти словаря Vcл связан линейной зависимостью где К — коэффициент пропорциональности, характеризующий способ описания речевого сигнала. Для ИКМ К = 60 Кбит/с.
Структура УВыв речи, в которой использована ИКМ, приведена на рис.5.3. Цифровые описания каждого сообщения словаря хранятся в виде непрерывных массивов {Xi } в памяти описаний (ПОп). В блок управления поиском (БУП) от центральной части ЭВМ (или от программы пользователя) передается идентификатор выводимого сообщения (ИС). В качестве идентификатора в зависимости от способа реализации памяти описаний используются имя сообщения, базовый адрес, значение ключа и т.п. Блок управления считыванием (БУСч) после завершения поиска нужного описания осуществляет последовательное считывание хранимых цифровых отсчетов Xi с постоянной частотой, равной F, и передает их на ЦАП. Выходное напряжение ЦАП через фильтр Ф подается на громкоговоритель Гр, где и формируется звуковой сигнал. Выдача цифровой последовательности на ЦАП прекращается при обнаружении в БУСч признака конца сообщения. Поскольку для хранения описания сообщений можно использовать ОЗУ или ПЗУ центральной части ЭВМ, то управление поиском может быть реализовано программно. В этом случае аппаратура УВыв речи представляет собой совокупность контроллера прямого доступа в память (КПДП), ЦАП, Ф и Гр.
Рис- 5.3 Структура УВыв речи, в которой использована ИКМ Достоинством такой схемы является предельная простота этого устройства, однако словарь речевых сообщений очень ограничен. Так, при наличии области памяти описаний в 128 Кбайт суммарная длительность всех сообщений словаря составляет около 20 с.
Некоторой экономии памяти или увеличения объема словаря можно добиться, использовав дельта-модуляцию (ДМ). В этом случае вместо абсолютных значений отсчетов Xi описание речевого сообщения составляется в виде последовательности приращений Xi. При восстановлении речевого сигнала на ЦАП передаются значения Xi, которые предварительно вычисляются по формуле Для хранения кода приращения Xi требуется (3-4) двоичных разряда, т.е. меньше, чем для хранения абсолютных значений Xi. Этим объясняется, что для ДМ коэффициент пропорциональности в выражении (5.1) составляет К = (30-40) Кбит/с. Предварительное вычисление Xi не вызывает трудностей, а во многих случаях и не требует дополнительных затрат. ДМ не приводит к существенному сокращению необходимых объемов памяти по сравнению с ИКМ, так как речевой сигнал характеризуется наличием участков с быстрым изменением амплитуды.
Более экономичным способом описания является кодирование с линейным предсказанием (ЛПК);
для этого способа в выражении (5.1) коэффициент пропорциональности составляет К = (2-5) Кбит/с.
Способ ЛПК основан на том, что характер речевого сигнала сравнительно мало изменяется при произнесении какого-либо одного звука, а изменение характера этого сигнала происходит значительно реже (по отношению к частоте дискретизации) при переходе от звука к звуку (см. рис.5.2).
Рассмотрим способ ЛПК подробнее. Для этого будем считать, что исходное описание речевого сообщения-образца составлено с использованием ИКМ, т.е. представляет собой совокупность значений {Xi }, i= 0,1,2,... Вычислим «предсказываемые» значения {Xi } в виде линейной суммы где ak (k = 1,...,р)—коэффициенты предсказания, зависящие от характера речевого сигнала на рассматриваемом интервале, а также отклонения еi истинного значения Xi от предсказанного Xi *, т.е.
В этом случае исходное описание речевого сообщения-образца можно восстановить, если известны коэффициенты предсказания {а} и величина отклонений { еi }. Поскольку для каждого интервала речевого сигнала параметры а выбираются так, чтобы отклонения еi, были минимальными, то в большинстве случаев предсказанные и истинные значения совпадают. Это позволяет в сжатом описании указывать значения не всех отклонений еi а только тех, которые отличны от нуля.
Сокращенное описание, использующее ЛПК, для речевого сообщения-образца образуется совокупностью коэффициентов {аk} и пар {ej,i} для е=0. При составлении сокращенного описания коэффициенты { аk } обычно вычисляются для последовательности из 200 цифровых отсчетов запоминаемого речевого сообщения. При F=10 кГц это соответствует интервалу 20 мс, т.е. через каждые 20 мс при выводе речевого сообщения из памяти описаний должны быть выбраны новые значения коэффициентов { аk }. Обычно предсказание выполняется по 10 отсчетам, т.е. количество коэффициентов р=10; запись каждого параметра выполняется (7-8) разрядным двоичным числом.
При выводе речевого сообщения вначале восстановится его исходное описание в виде последовательности отсчетов Хi которые затем подаются на ЦАП. Восстановление отсчетов Хi производится в реальном масштабе времени, т.е. в течение интервала Т=100 мкс, в соответствии с формулами (2.2) и (5.3). Эти вычисления требуют не менее 10 операций умножения и 10 операций сложения для восстановления каждого значения Хi. Таким образом, система прямого восстановления исходного описания речевого сигнала должна обладать высоким быстродействием, что вызывает трудности при ее реализации с помощью МП-средств. Отметим, что, несмотря на отмеченные трудности, первые МП-системы прямого восстановления речевого сигнала по его ЛПК описанию были озданы. Для вычисления коэффициентов {ак} необходимо минимизировать среднеквадратическое отклонение исходного сигнала от предсказанного, т.е. минимизировать величину Для этого вычисляются производные dE/dak, которые полагают равными нулю, а затем решают полученную систему уравнений относительно ак. В настоящее время разработано несколько методов решения этой системы уравнений, в соответствии с которыми различают несколько вариантов описания речевого сигнала.
Рассмотренные способы восстановления речевого сигнала, при которых производится вычисление каждого цифрового значения отсчета исходного описания с последующим преобразованием последовательности восстановленных отсчетов в аналоговый сигнал, называют способами прямого восстановления, а используемые при этом способы — способами кодирования во временной области.
Сокращенное описание речевого сигнала можно использовать не только для прямого восстановления речи, но и для управления ее синтезом. Применяемые при этом способы кодирования называют способами кодирования в частотной области. Рассмотренный выше способ ЛПК наиболее часто служит для восстановления (синтеза) речи в частотной области. Синтез речевого сигнала осуществляется с помощью электронной модели голосового тракта человека, а коэффициенты — параметры сокращенного описания речевого сигнала — используются для управления «настройкой»
этой модели. Электронная модель голосового тракта (или синтезатор) аналогична синтезатору, используемому при синтезе речи по правилам. Однако при конструировании речевого сообщения для его восстановления по описанию в частотной области используются параметры, полученные в результате обработки реального речевого сигнала, полученного при произнесении сообщения человеком. Исходный речевой сигнал разбивается на интервалы постоянной длительности (20мс), как описано выше, для которых и производится определение коэффициентов-параметров настройки модели. Эти параметры в течение всего интервала остаются постоянными, т.е. перестройка синтезатора осуществляется 50 раз в секунду. Синтезированный сигнал отличается от исходного по форме, однако человек легко воспринимает исходное речевое сообщение, так как слуховой аппарат его не восприимчив к фазовым искажениям сигнала. Методы кодирования речевых сигналов в частотной области не сохраняют информации о фазе и за счет этого обеспечивают более высокую степень сжатия исходного описания: значение коэффициента пропорциональности в выражении (5.1) для них составляет К = =(1,2-2,4) Кбит/с.
Одна из возможных структур синтезаторов показана на рис.5.4. В состав синтезатора входят:
генератор высоты основного тона (ГВОТ), генератор псевдослучайного шума (ГШ), переключатель (П), многозвенный управляемый цифровой фильтр (ЦФ), ЦАП, усилитель (У) и громкоговоритель (Гр).
Рис. 5.4 Одна из возможных структур синтеза способом кодирования в частотной области.
Идентификатор сообщения (ИС) из центральной части ЭВМ передается в узел управления выборкой и синхронизации (УВиС); этот узел осуществляет поиск описания выводимого сообщения в памяти описаний (ПОп). Описание сообщения представляет собой последовательность кадров, соответствующих интервалам 20 мс, в течение которых коэффициенты предсказания {ак} остаются постоянными. Каждый кадр содержит коэффициенты предсказания {ак,}, параметр громкости, параметр частоты основного тона и ряд других; кадры последовательно через интервалы 20 мс выводятся на регистр кадра (РгКдр). ГВОТ служит для формирования звонких звуков, ГШ— для формирования глухих. Коэффициенты предсказания служат для управления многозвенным цифровым фильтром (ЦФ), который моделирует собственно голосовой тракт; параметры этого тракта остаются неизменными в течение всего кадра. Громкость звука устанавливается в зависимости от значения параметра громкости. Перечисленные узлы являются типичными для устройств прямого синтеза, однако следует отметить, что в данном случае синтезатор управляется посредством коэффициентов, предварительно вычисленных по реальным образцам речевых сообщений.
Образец речевого сообщения обрабатывается посредством специальной инструментальной системы подготовки описаний, в состав которой помимо средств для получения исходного цифрового описания образца речевого сообщения (микрофона, АЦП, устройства сопряжения с ЭВМ) входит достаточно мощная ЭВМ с развитыми средствами интерактивного взаимодействия с оператором. В процессе подготовки образцов речевых сообщений, синтезируемых ЭВМ при выводе, оператор посредством клавиатуры вводит имена (идентификаторы) сообщений, а затем посредством микрофона и сами образцы. Для каждого идентификатора при вводе образца речевого сообщения формируется исходное описание, т.е. последовательность цифровых отсчетов {Xi}. Затем совокупность {Xi} подвергается процедуре сжатия, т.е. программной обработке, в результате которой формируется совокупность параметров управления синтезатором {aк} для всех последовательных кадров. Этой совокупности параметров приписывается то же имя сообщения-образца. Исходное описание после выполнения процедуры сжатия может быть утеряно; сжатое описание речевого сигнала переносится в память основной ЭВМ для конструирования речевого сообщения в процессе его вывода.
При формировании речи по образцам число возможных речевых сообщений ограничено теми сообщениями, описания которых составлены заранее и хранятся непосредственно в памяти описаний или составляются в процессе вывода путем слияния нескольких описаний элементарных сообщений, также хранящихся в памяти. Составление описаний более сложных сообщений выполняется программными средствами ЦП. Так, например, соответствующее фразе «Температура воздуха в Москве в XX часов была YY градусов» речевое сообщение может быть составлено из пяти элементарных сообщений, поиск и выбор которых из памяти описаний выполняется программно, причем выбор элементарных сообщений XX и YY зависит от информации, поступающей в ВС от других ПУ (часов текущего времени и АЦП, связанного с датчиком температуры). Формирование более сложных сообщений требует наличия базы синтаксических правил, сложных программ, а также элементов, присущих способам синтеза по правилам (например, для изменения звучания окончания слова при его склонении).
Синтез речевых сообщений по правилам. Основу действия систем вывода, осуществляющих синтез речи по правилам, составляет формантный способ синтеза речи. Многочисленные разновидности реализации этого способа основываются на расчленении речевого сигнала на отдельные фонетические составляющие — фонемы, аллофоны, дифтонги. При синтезе речи по правилам, аналогично ЛПК-синтезу, используется электронная модель голосового тракта человека, т.е. синтезатор. Настройка синтезатора при синтезе по правилам выполняется для каждого отдельного элемента фонетического алфавита (а не для постоянного интервала времени, как в случае ЛПКсинтеза). Таким образом, чтобы вывести речевое сообщение, необходимо вначале иметь фонетическое описание произносимого слова или фразы. Фонетическое описание представляет собой последовательность элементов фонетического алфавита, включая паузы, с указанием длительности звучания каждого из них. Каждому элементу фонетического алфавита ставится в соответствие набор параметров настройки синтезатора. Эти параметры могут быть неизменными в течение всей продолжительности звучания фонемы или аллофона, но могут и меняться, как, например, для дифтонгов; в последнем случае элементу фонетического алфавита ставится в соответствие последовательность нескольких наборов параметров. Наборы параметров настройки синтезатора для каждого из элементов фонетического алфавита в виде управляющих слов (УС) хранятся в памяти. В качестве памяти обычно используют ПЗУ. Код элемента фонетического алфавита используется в качестве адреса и позволяет найти и выбрать нужное УС или их последовательность. Каждое УС содержит, помимо набора параметров настройки синтезатора {Рi}, параметр длительности звучания фонологического элемента, флаг цепи УС и ряд других флагов.
Значения параметров каждого набора подбираются при настройке системы речевого вывода.
Наиболее распространенными параметрами, используемыми при формантном синтезе, являются амплитуда сигнала основного тона Ао, частота основного тона Fo, значения трех формантных частот (F1, F2, F3), амплитуда шума Аш и частота Fш генератора шума, моделирующего свистящие и шипящие звуки, а также параметр «придыхания» Aп. На рис.5.5,а показана система, использующая эти параметры для настройки синтезатора, а на рис 5.5,б приведен пример изменения параметров в процессе синтеза речевого сигнала «siks», соответствующего произношению английского слова «six».
Схема содержит два тракта.
Первый тракт состоит из управляемого генератора высоты основного тона (ГВОТ), усилителя (У1) и двух фильтров (Ф1 и Ф2), причем Ф2 является управляемым. Эти компоненты участвуют в формировании гласных звуков. Формирование большинства согласных звуков производится с помощью тех же фильтров Ф1 и Ф2 при подаче на них сигнала, сформированного управляемым аттенюатором (X) из сигнала генератора шума (ГШ).
Рис 5.5. Система, использующая параметры голосового тракта для настройки синтезатора, Второй тракт состоит из ГШ, управляемого усилителя У2 и управляемого резонансного фильтра Ф3 и служит для формирования шипящих звуков. Сигналы от этих трактов подаются на смеситель (+) и затем на устройство воспроизведения звука (громкоговоритель). Эта схема довольно точно моделирует работу голосового тракта человека.
Конструирование речевого сообщения при синтезе по правилам включает в себя два этапа:
1) символьное представление «орфографического текста», принятое в ЭВМ, преобразуется в фонетическое описание;
2) последовательность элементов фонетического алфавита преобразуется в последовательность УС для непосредственного управления синтезатором.
Эти преобразования иллюстрируются на рис.5.6. Последовательность слов и словосочетаний текста (ТЕКСТ) в виде символьного представления передается программе (П1) преобразования орфографического текста в фонетическое описание. Программа преобразования П1 реализуется Рис. 5 6 Конструирование речевого сообщения при синтезе по правилам.
средствами ЦП или специализированными средствами цифровой обработки, встроенными в УВыв речи. Основой для выполняемого преобразования служит набор правил, хранимых в библиотеке БИБЛ1. Эти правила определяются фонетическими особенностями языка; они достаточно сложны и неоднозначны и содержат большое число исключений. Поэтому иногда первый этап конструирования речи выполняется не в процессе вывода речевого сообщения, а в процессе создания системы речевого вывода человеком-оператором. Во втором случае оператор, используя инструментальную систему, заранее создает словарь, т.е. фонетические описания всех доступных для будущей системы речевого вывода слов и словосочетаний. Эти описания в виде последовательностей кодов фонетического алфавита хранятся в памяти системы, словарь которой становится ограниченным, но память используется более экономично, чем при формировании речи по образцам. Коэффициент пропорциональности К в выражении (5.1) для случая синтеза по правилам может достигать К = бит/с при вполне различимой речи.
Пользуясь библиотекой правил БИБЛ1 или словарем, программа П1 передает фонетическое описание ФО программе П2 формирования последовательности УС. Программа П2 чаще всего реализуется МП-средствами системы речевого вывода. Эта программа последовательно получает коды элементов фонетического описания, по ним формирует адрес А, находит УС в библиотеке описаний фонетических элементов БИБЛ2, соответствующие каждому элементу, и направляет их в синтезатор. Каждое следующее УС передается в синтезатор по его запросу (Зп) по окончании интервала звучания, определяемому параметром длительности звучания в предыдущем УС. Новое УС выбирается по адресу следующего фонетического элемента, если воспроизведение предыдущего завершено, или по следующему по порядку адресу, если в предыдущем УС установлен флаг цепи УС, т.е. если воспроизведение фонетического элемента не завершено.
Речь, формируемая таким способом, отличается сравнительно невысоким качеством, но вполне различима; такая речь звучит неестественно, так как в ней отсутствуют присущие человеческой речи ритм, интонации, изменения громкости и т.п. Существенным достоинством такой системы речевого вывода является достаточно большой объем словаря. Для улучшения качества речи часто встречающимся коротким словам и сочетаниям ставят в соответствие отдельные описания, выполняемые, например, способом ЛПК.
Большинство современных промышленных устройств вывода речи выпускаются в виде отдельных плат для установки в ПЭВМ. Так, серийно изготавливались платы речевого вывода для ПЭВМ IBM.PC и APPLE.II. Принцип действия этих устройств основан на методе дельта—модуляции (например, синтезатор речи фирмы «Диджитокер», построенный на базе ИС речевого процесора ММ 54104) или ЛПК-синтезе (например, синтезатор TMS 5200 фирмы «Тексас инструменте»). На плате устройства речевого вывода располагались ИС речевого процессора, словарного ПЗУ, сопряжения с интерфейсом ввода-вывода ПЭВМ, а также звуковой усилитель, фильтр и ряд вспомогательных схем.
Словарь таких устройств ограничивается 30-300 словами, общая длительность звучания которых зависит от использованного способа кодирования и объема ПЗУ и составляет 40 — 200с.
В настоящее время успешно выпускаются карманные переводчики с языка на язык с речевым интерфейсом и запасом слов в несколько тысяч.
5.4. Система ввода речевых сообщений В основе действия любых систем ввода речевых сообщений лежит принцип распознавания образов. Система выделяет из поступающего речевого сигнала набор некоторых признаков, составляющих его «описание», затем сравнивает полученное описание с эталонными описаниями, хранящимися в памяти системы ввода, т.е. вычисляет меры сходства. Если значение меры сходства превышает некоторый установленный уровень, то система «распознает» сигнал, присваивая ему значение соответствующего эталона. Различия систем речевого ввода определяются тем, какие элементы речевого сообщения выделяются и распознаются, какие признаки образуют описание речевого сигнала, какие алгоритмы используются для определения меры сходства и какими аппаратно-программными средствами они реализуются. Помимо распознавания элементарных составляющих речевых сигналов, система должна интерпретировать речевые сообщения, т.е. находить соответствующие им орфографические текстовые последовательности, интерпретировать и выполнять команды, запоминать и заносить в память данные и т.п.
Базовым фонологическим элементом для подавляющего большинства систем распознавания и интерпретирования речевых сообщений является слово (или словосочетание); произнесенным словам может быть однозначно поставлено в соответствие их орфографическое представление.
Определение границ слов в естественной человеческой речи встречает большие трудности.
Обычно разграничение слов выполняется на основе анализа длительности пауз, скорости изменения сигнала перед и после паузы и ряда других признаков, выделяемых из звукового сигнала. Однако ни один из перечисленных признаков, ни их совокупности не позволяют надежно устанавливать границы слов. Кроме того, все перечисленные признаки зависят от особенностей говорящего. В связи с этим все системы ввода речи принято делить по следующим критериям:
— способности распознавать слитную речь или отдельно произносимые слова;
— объему словаря распознаваемых слов;
— ориентированности на одного говорящего или на произвольное число говорящих.
Наиболее желательна система, способная воспринимать слитную речь при неограниченном словаре и независящая от говорящего. Для интерпретирования речевых сообщений с неограниченным словарем должны быть созданы сложные экспертные системы, содержащие различные базы знаний (словари, наборы эталонных описаний речевых сигналов, наборы лингвистических правил и т.д.) и обеспечивающие интерпретирование в темпе говорящего.
Большинство систем и устройств ввода речи предназначены для персональных и управляющих микроЭВМ, следовательно, одним из основных требований, предъявляемых к таким системам ввода, является их низкая стоимость. Низкая стоимость достигается за счет ограничения словаря отдельно произносимых слов и упрощения алгоритмов обработки при ориентации системы на одного говорящего.
Обобщенная структурная схема такой системы речевого ввода показана на рис.5.7. Акустический речевой сигнал воспринимается микрофоном (М) и в виде аналогового электрического сигнала передается на высокочастотный фильтр (ФВЧ) и АЦП. Цифровые отсчеты с выхода АЦП направляются на препроцессор (ПП). Задача ПП состоит в том, чтобы уменьшить объем (а следовательно, и скорость) передаваемых данных при сохранении существенной для распознавания речевых сигналов информации. В зависимости от принятого набора признаков, составляющих описание сигнала, ПП может представлять собой спектроанализатор, детектор формантных частот, анализатор ЛПК и т.п. Полученное в результате предварительной обработки сокращенное описание Рис. 5.7 Обобщенная структурная схема упрощенной системы речевого ввода речевого сигнала передается в процессор выделения признаков (ПВП) и затем в систему принятия решений, включающую в себя блок классификатора (БК), память эталонных описаний (ПЭО) и блок настройки (БН). Система принятия решений работает в двух режимах — ввода и обучения.
В режиме ввода описание входного речевого сигнала подается в блок классификатора, который вычисляет меры сходства этого описания с эталонными, хранящимися в памяти. В результате вычисления мер сходства для всей совокупности эталонов может быть найдена максимальная мера и принято решение о соответствии входного сигнала одному из эталонов. Входному речевому сигналу приписывается имя—идентификатор этого эталона. Затем найденный идентификатор передается прикладной программе или в центральную ЭВМ через блок сопряжения УС.
Описание распознаваемого слова всегда отличается от эталонного. Это вызвано изменениями амплитуды акустического сигнала, темпа произнесения слова говорящим, различием тембров и другими особенностями дикторов. Увеличить меру сходства, а следовательно и вероятность правильного распознавания слов, можно за счет предварительного «обучения» системы ввода речи.
В режиме обучения описания входных речевых сигналов подаются в блок настройки. В этот же блок обычно с помощью клавиатуры (Кл) заносится имя-идентификатор речевого сигнала. БН находит «усредненное» описание для несколько раз повторенных слов или словосочетаний одним говорящим, затем приписывает это усредненное описание идентификатору, т.е. формирует эталон.
Такое «обучение» позволяет сформировать систему эталонных описаний для каждого диктора, т.е. в значительной мере учесть особенности произнесения ими слов. Более сложно учесть изменения темпа произнесения слова одним говорящим. Во многих случаях изменение темпа пытаются компенсировать нормализацией сигнала по времени, однако удовлетворительный результат достигается только для сравнительно коротких слов. Лучшие результаты достигаются за счет использования алгоритмов динамического программирования при сравнении распознаваемого и эталонных описаний. При этом в процессе сравнения эталонное описание подвергают допустимым «деформациям», число которых ограничено. Процесс распознавания произносимых слов во многом аналогичен распознаванию печатных символов в читающих устройствах (Том 2). Велись и ведутся работы по изучению распознавания клиппированных речевых сообщений [39,35], т.е. сигналов с постоянной амплитудой. УВв речи, основанные на распознавании клиппированных сигналов, проще других, а качество клиппированной речи достаточно хорошее.
Все системы ввода речевых сигналов, как и системы распознавания образов вообще, принято характеризовать вероятностью правильного распознавания, вероятностью (частотой) отказов от распознавания, вероятностью (частотой) ошибок при распознавании. Численные значения этих характеристик зависят от объема словаря и используемых алгоритмов распознавания. Для словарей объемом 200-300 слов и словосочетаний вероятность правильного распознавания составляет 95-98%.
Так, устройство речевого ввода ИКАР, предназначенное для работы в информационно-справочных системах и САПР на базе ЕС ЭВМ, имело объем словаря 200 слов, вероятность правильного распознавания 95% и время распознавания каждого слова менее 0,5 с. Устройство позволяло проводить цикл «обучения» и обеспечивало работу до 256 операторов.
В системах речевого ввода для повышения достоверности обычно предусматривают визуальную обратную связь. На рис.5.7 эта связь показана в виде индикатора И, на экран которого выдается символьное представление произнесенного слова; непосредственный ввод этого символьного представления в ЭВМ осуществляется только после подтверждения правильности распознавания, осуществляемого нажатием клавиши. При неправильном распознавании может быть подана устная команда отмены и ввод слова повторяется. Несмотря на то, что такая визуальная обратная связь лишает систему речевого ввода многих преимуществ, высокая достоверность ввода оправдывает ее применение во многих областях, в частности при подготовке данных. Рассматриваемая система обеспечивает более высокую скорость ввода по сравнению со скоростью ввода с клавиатуры.
Контрольные вопросы 1. Как можно представить упрощенную модель голосового тракта человека и какие основные признаки характеризуют гласные и согласные звуки?
2. Какие элементы могут образовывать фонологический алфавит?
3. В чем принципиальное различие способов формирования речевого сообщения по образцам и синтеза по правилам?
4. Чем отличаются способы сокращенного описания речевых сигналов во временной и частотной областях? Приведите структурные схемы УВыв речи, реализующие эти способы.
5. Каким образом достигается сжатие информации при ЛПК ?
6. По каким критериям можно классифицировать УВв речи?
7. Приведите структурную схему УВв речи с ограниченным словарем и настройкой на диктора.
Что дает режим «обучения» системы?
Организация речевого общения с ЭВМ достаточно подробно изложена в [16,17]. Методы синтеза рассмотрены в [18]; в этой же работе приведены примеры схем синтезаторов. Теория речи, методы и системы распознавания речи подробно изложены в [15].
В разделе использованы основные материалы из [1].