WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«ЛОГАЧЕВА Варвара Константиновна ИССЛЕДОВАНИЕ И РАЗРАБОТКА МЕТОДОВ АВТОМАТИЗАЦИИ ПРОЦЕССОВ ПРАКТИЧЕСКОЙ ТРАНСКРИПЦИИ ИМЕН СОБСТВЕННЫХ 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов и ...»

-- [ Страница 1 ] --

На правах рукописи

ЛОГАЧЕВА Варвара Константиновна

ИССЛЕДОВАНИЕ И РАЗРАБОТКА

МЕТОДОВ АВТОМАТИЗАЦИИ ПРОЦЕССОВ

ПРАКТИЧЕСКОЙ ТРАНСКРИПЦИИ ИМЕН СОБСТВЕННЫХ

05.13.11 — математическое и программное обеспечение

вычислительных машин, комплексов и компьютерных сетей

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата физико-математических наук

Научный руководитель:

кандидат технических наук, доцент Э.С. Клышинский Москва – 2013 Содержание Введение

Глава 1. Анализ существующих систем практической транскрипции... 1.1 Общая характеристика систем транскрипции

1.2 Ручное составление правил

1.3 Обучение модели транскрипции

1.3.1 Выравнивание

1.3.2 Порождающие методы

1.3.3 Дифференциальные методы

1.4 Соревнование систем транскрипции

1.5 Методы транскрипции

1.6 Смежные задачи

1.7 Выводы к главе 1

Глава 2. Метод порождения правил транскрипции

2.1 Формат правил

2.2 Предпосылки создания метода

2.3 Метод порождения правил

2.3.1 Первичные правила

2.3.2 Сложные правила

2.3.3 Дальнейшее усовершенствование правил

2.4 Выводы к главе 2

Глава 3. Метод транскрипции с помощью конечного автомата............... 3.1 Преобразование строки с использованием правил

3.2 Структура конечного автомата

3.3 Построение конечного автомата

3.4 Детерминированный конечный автомат

3.4.1 Процедура преобразования НКА в ДКА

3.4.2 Унификация системы правил

3.4.3 Эквивалентность НКА и ДКА

3.4.4 Преобразование системы правил в ДКА

3.5 Эквивалентность автомата системе правил

3.6 Усовершенствование конечного автомата

3.7 Скорость работы конечного автомата

3.8 Выводы к главе 3

Глава 4. Практическая реализация и оценка качества разработанных методов

4.1 Описание программной системы

4.2 Методы оценки качества систем транскрипции

4.3 Обучающие данные

4.4 Оценка метода порождения правил

4.4.1 Анализ правил транскрипции

4.4.2 Численные оценки результатов

4.5 Оценка метода транскрипции

4.6 Выводы к главе 4

Заключение

Список литературы

Введение Необходимость правильной организации процессов хранения информации, связанная как с быстрым ростом объемов информации, так и с увеличением программировании и вычислительной технике целого ряда новых направлений. Это, например, электронный документооборот, а также технологии, сконцентрированные на организационных (CALS-системы1) или технических (ILM2, PDM3 и т.д.) аспектах хранения информации. Применение и развитие электронного документооборота позволило перейти к практической реализации серии крупных проектов (как государственных, так и коммерческих), существенно упрощающих жизнь и работу граждан.

Однако помимо хранения информации остро встает вопрос создания методов и алгоритмов ее обработки. Большинство хранимой документации представлено в текстовом виде, в связи с чем стоит задача разработки специализированных методов и алгоритмов: анализа и синтеза текстов на естественном языке; проверки полноты, корректности документов; проверки отсутствия грамматических ошибок; перевода и др. Так, например, международная торговля предполагает оформление российскому законодательству документы должны быть оформлены на русском языке, а значит, возникает необходимость их перевода с/на иностранный.

Территориальное распределение технологических процессов требует ведения документации на нескольких языках, что в условиях огромных объемов информации также влечет за собой необходимость использования машинного перевода.

При переводе текста с одного языка на другой имена собственные, встретившиеся в этом тексте, также должны быть каким-то образом переведены, особенно если перевод осуществляется между языками, использующими различные системы письма. Иногда возможен перевод, если у имени есть лексическое значение.

Например, мыс Доброй Надежды: африкаанс – Kaap die Goeie Hoop, нидерландский CALS-система (англ. Continuous Acquisition and Life cycle Support – непрерывная информационная поддержка поставок и жизненного цикла) – система хранения информации о жизненном цикле продукта.

ILM-система (англ. Information Lifecycle Management – управление жизненным циклом информации) – система управления электронными хранилищами данных.

PDM-система (англ. Product Data Management – система управления данными об изделии) – система для хранения документации о продукте.

– Kaap de Goede Hoop, португальский – Cabo da Boa Esperana, английский – Cape of Good Hope, французский – cap de Bonne-Esprance. Такие случаи относительно редки, поэтому обычно используются другие методы.



Если перевод осуществляется между языками, пользующимися одним и тем же алфавитом, то имя может быть оставлено без перевода. Спорным случаем является использование в имени символов, отсутствующих в алфавите целевого языка. Например, многие языки пользуются различными вариантами расширенного латинского алфавита. При переводе с французского языка имя Franois, скорее всего, будет оставлено без перевода, хотя символ «» используется в алфавитах всего нескольких языков кроме французского (например, турецком и португальском).

Более актуальна проблема передачи иноязычных имен собственных из языков, использующих другую систему письма. На протяжении долгого времени их преобразование осуществлялось с помощью строгой транслитерации, то есть, сопоставлению каждой букве алфавита языка оригинала буквы алфавита целевого языка. У этого подхода есть серьезный недостаток – переведенные таким образом имена часто не сохраняют оригинального звучания в языке перевода. Однако почти до середины двадцатого века это не имело значения по нескольким причинам. Вопервых, не были развиты средства связи, передающие звуковую информацию (телефон, телевизор). Информация, получаемая из-за рубежа, была в основном текстовой, что требовало прежде всего графического, а не звукового сходства перевода имени с оригиналом. Во-вторых, звучание стало иметь значение, только когда помимо передачи иностранных имен на родной язык возникла необходимость передачи имен родного языка на иностранный (например, для оформления международных документов). В этом случае переводчик заинтересован именно в сохранении звучания (особенно, нам кажется, это касается фамильно-именных групп, так как во время пребывания за границей человек вынужден неоднократно называть свое имя, и лучше, если его графическая запись будет соответствовать звучанию).

Все это привело к тому, что к середине двадцатого века во всех сферах распространился новый подход – передача имен собственных с сохранением их звучания. Такой подход в российской лингвистике получил название практической транскрипции. Этот термин впервые применён в 1935 году А. М. Сухотиным [1] и введён во всеобщее употребление А. А. Реформатским [2]. Практическую транскрипцию следует отличать от:

• фонетической транскрипции, основанной на точной передаче звучания с использованием специального фонетического алфавита;

• транслитерации, определяемой только исходным написанием;

В отличие от фонетической транскрипции, практическая транскрипция использует только символы алфавита языка-приёмника, а возможность введения дополнительных знаков отсутствует.

лингвистическим, сколько биологическим. Процесс передачи слов некоторого языка средствами другого алфавита (не важно, сохраняется ли при этом оригинальное произношение слова) в англоязычном лингвистическом сообществе принято обозначать термином «transliteration».

Задача практической транскрипции первоначально решалась вручную путем составления систем правил транскрипции для различных пар языков. Такие наборы правил использовались в качестве методических указаний для переводчиков.

Как это отмечалось выше, распространение ЭВМ вызвало появление комплексных систем, решающих различные задачи обработки и хранения информации в автоматическом или полуавтоматическом режиме. В числе прочего перед такими системами ставится задача проведения автоматической транскрипции, например, больших списков имен, ручная обработка которых занимает много времени. Даже при небольших объемах применение средств автоматизации является полезным, так как в этом случае исключается влияние человеческого фактора:

устраняется возможность совершения ошибок, допущенных по невнимательности, расхождения в правилах транскрипции, используемых разными пользователями и так далее.

Для этого необходимо разработать программную систему или подсистему, проводящую автоматическую транскрипцию. В связи с этим встает вопрос о принципах построения подобных систем. Первые исследования в этой области использовали уже имевшиеся наработки – составленные исследователями правила практической транскрипции (см., например, [3]). Таким образом, первые системы машинной транскрипции просто применяли правила транскрипции, написанные вручную. Такие системы широко используются и сейчас, так как справляются со стоящей перед ними задачей и отвечают поставленным перед ними требованиям:

транскрибируют имена быстрее и аккуратнее, чем человек. Редактируемые правила транскрипции имеют то важное достоинство, что они позволяют исследователю свободно расширять их список при обнаружении новых правил. Более того, каждое вновь введенное правило расширяет научное знание и может использоваться другими исследователями в дальнейшем.

Однако такая автоматизация процесса транскрипции часто недостаточна.

Существующие на сегодняшний день руководства по практической транскрипции содержат правила транскрипции для сравнительно небольшого числа языков (справочник под ред. Гиляревского [4] – транскрипция между русским и 18-ю языками, справочник под ред. Ермоловича [5] – 23 языка, справочник под ред.

Клышинского [6] – 33 языка). Ручное составление правил – однократный процесс, но он довольно долог и трудоемок. В условиях постоянно расширяющихся международных контактов, требующих составления правил между все новыми и новыми парами языков, требуется решение задачи автоматического создания правил транскрипции. В целях повышения качества обучения, иностранные исследователи отказываются от правил, записанных в явном виде, в пользу статистических моделей транскрипции. Автор данной работы придерживается противоположного принципа:

автоматически порожденные правила должны быть представлены в явном виде, чтобы сделать возможным их ручное редактирование (плюсы которого кратко описаны выше). Но оба подхода едины в понимании того, что автоматическое извлечение правил транскрипции (в явном или в неявном виде) является обязательной частью системы машинной транскрипции. Таким образом, на современном этапе развития программных систем стоит задача разработки комплексных автоматизированных систем транскрипции, позволяющих не только транскрибировать имена собственные по правилам транскрипции, но и проводить автоматическое извлечение таких правил в ходе обучения.

Задача машинной транскрипции и автоматического извлечения правил транскрипции из множества прецедентов особенно актуальна в областях, где требуется перевод имен собственных с большого количества языков. К таким областям относятся:

• составление электронных каталогов. В крупные библиотеки поступает много материалов на иностранных языках. Для внесения их в единый каталог часто бывает необходимо записать имя автора на русском языке.

• межъязыковой информационный поиск. В поисковом запросе может встретиться имя собственное, чье происхождение не совпадает с языком запроса (то есть, транслитерированное с иностранного языка), или имя, записанное средствами другого алфавита. Оба эти случая требуют применения практической транскрипции, так как иностранное имя должно быть транслитерировано на язык своего происхождения для возможности его поиска в документах на этом языке (если требуется информация о зарубежном ученом, велика вероятность того, что на его родном языке больше транслитерировано на язык запроса для попытки поиска информации на языке • документооборот. Согласно российским законам, все организации, ведущие торговлю на территории России, должны иметь название, записанное символами русского алфавита.

• машинный перевод. Имена собственные, встречающиеся в тексте, при машинном переводе должны быть транслитерированы. Если система добавление новых языков и направлений перевода), внедрение в нее подсистемы машинной транскрипции имен собственных будет гораздо более эффективным, чем ручное задание правил транслитерации для каждой новой • оформление паспортно-визовых документов. При оформлении визы для въезда в Россию имя въезжающего должно быть записано символами русского алфавита, причем с сохранением фонетического сходства.

В настоящей работе из задачи машинной транскрипции имен собственных намеренно исключена задача перевода географических названий. Дело в том, что передача имен этой категории по-прежнему основывается на традициях, появлявшихся в разное время и потому с трудом поддающихся формализации.

Одной из трудностей можно назвать неоднородное происхождение топонимов:

например, на севере Англии очень много топонимов шотландского происхождения, которые записаны в соответствии с правилами шотландской орфографии и, соответственно, должны быть прочитаны и транслитерированы в соответствии с теми же правилами, несмотря на то, что официальный язык Великобритании – английский. Автоматизация же определения происхождения названия – отдельная задача, требующая довольно большого количества обучающих данных и далеко не всегда решаемая с приемлемым качеством. Другой проблемой географических названий является их долгая история. Названия многих современных городов появились несколько сотен лет назад и были записаны согласно действовавшим тогда правилам орфографии. За это время правила могли поменяться, а название – остаться в традиционном написании, которое не соответствует современному звучанию названия. Географические названия часто непригодны и при обучении системы практической транскрипции по некоторому множеству прецедентов (то есть, уже переведенных имен). Если название страны или города часто употребляется в иностранном языке (как, например, название Москва в новостных текстах на эстонском), оно «адаптируется» для удобства произнесения носителями этого языка и может отклониться от корректной транслитерации. Можно привести еще один пример из эстонского языка: столица Латвии Рига (лат. Rga) в эстонском обозначается как Riia. Такая метаморфоза была бы объяснима, если бы в эстонском языке отсутствовал звук [g], но это не так.

По этим причинам рассматривается только практическая транскрипция фамильно-именных групп, причем только современных, так как имена исторических деятелей или литературных героев часто передавались (и передаются сейчас) на иностранный язык не по правилам практической транскрипции.

Таким образом, существует большое количество областей, в которых часто требуется транскрипция имен собственных с/на большое количество языков, причем имена поступают в большом количестве. Причем часто это фамильно-именные группы, которые, как уже было показано выше, обладают большим, чем географические названия, единообразием. Это единообразие делает возможным извлечение общих закономерностей транскрипции из множества прецедентов, то есть дает возможность автоматизировать не только применение существующих правил, но и порождение новых. Автоматическое обучение транскрипции часто является необходимостью в случаях, когда невозможно ручное: например, при необходимости транслитерации с редкого языка или при невозможности содержать штат экспертов-лингвистов.

Целью диссертационной работы является повышение эффективности обработки документов за счет автоматизации и ускорения процессов практической транскрипции (генерации правил и преобразования имен собственных по этим правилам).

В данной работе рассматриваются различные методы машинной транскрипции, их достоинства и недостатки, с целью показать актуальность создания метода автоматической генерации правил транскрипции в явном виде, а также создания нового метода автоматической транскрипции имен за линейное время с помощью автоматически сгенерированных правил.

Для достижения поставленной цели необходимо решить следующие задачи:

• Проанализировать существующие методы машинного обучения практической транскрипции с целью выявления возможности их • Проанализировать существующие методы машинной транскрипции с целью выявления технологий, обеспечивающих наиболее быстрое • Разработать метод автоматической генерации правил транскрипции на основе параллельного обучающего корпуса;

• Разработать метод транскрипции имен собственных по набору правил транскрипции за линейное время с помощью конечного автомата.

Основные проблемы, ограничивающие качество автоматической практической транскрипции, следуют из специфики методов обучения транскрипции. Алгоритмы, дающие на сегодняшний день лучший результат, являются статистическими. Эта особенность порождает сразу две проблемы: с одной стороны, необходимость использования больших массивов обучающих данных для обеспечения высокого качества, с другой стороны, неочевидность результата транскрипции для пользователя. Статистические методы порождают модель транскрипции, недоступную для ручного редактирования, что делает ее негибкой.

Модель, имеющая лишь незначительные недостатки, которые могли быть исправлены экспертом, должна быть признана неудовлетворительной, так как возможность коррекции отсутствует. В некоторых системах применяется альтернативный подход: ручное составление правил, – но он, не в пример методам машинного обучения, сложен и трудоемок. Методы автоматической генерации правил транскрипции в явном виде отсутствуют. К тому же, отсутствуют методы применения таких правил.

Для преодоления этих трудностей автором была разработана методика создания системы транскрипции с неизвестного языка по прецедентам. С использованием данной методики становится возможной автоматическая генерация правил транскрипции на основе сравнительно небольшого обучающего множества имен и их переводов для двух произвольных языков, причем правила генерируются в явном виде и в случае необходимости могут редактироваться вручную, а также применение этих правил для транскрипции строк с исходного языка на целевой, скорость транскрипции при этом не зависит от объема системы правил и линейна относительно длины преобразуемой строки. Программная реализация методики позволяет быстро получить относительно корректную модель транскрипции для пары произвольных языков даже при небольшом количестве обучающих данных и применить ее для передачи строк с высокой скоростью.

Содержание работы. Первая глава диссертации посвящена исследованию существующих на сегодняшний день работ в выбранной области: систем машинной транскрипции, методов автоматического обучения транскрипции, методов преобразования строк. Во второй главе изложен предлагаемый автором метод порождения правил транскрипции. Третья глава посвящена новому методу преобразования строк с помощью системы правил. Доказаны утверждения о корректности метода и о линейной скорости преобразования строк с помощью метода. В четвертой главе описана программная система, в которой реализованы предложенные методы. В главе представлены результаты экспериментов, подтверждающих эффективность предложенных методов.

Глава 1. Анализ существующих систем практической транскрипции Сам термин «практическая транскрипция» введен в 1935 году, когда были предприняты первые попытки стандартизации передачи имен собственных на иностранном языке. До начала активного использования компьютеров при обработке текста задача практической транскрипции решалась посредством создания систем правил транскрипции между парой языков вручную (например, справочные пособия Гиляревского [4] и Ермоловича [5]). Эти системы правил были предназначены для филологов и переводчиков и служили и продолжают служить указаниями по ручному переводу имен собственных.

Когда потребовалось автоматизировать процесс практической транскрипции, первые решения были основаны на использовавшихся ранее правилах, составленных вручную. Они были, как правило, предназначены для фиксированной пары языков и не использовали никаких методов машинного обучения. Однако они решали поставленную задачу: избавляли от необходимости транслитерировать имена вручную. Такие системы пользуются популярностью и в настоящее время изза относительной простоты их создания. В качестве примера можно привести системы [7, 8, 9], осуществляющие транскрипцию между наиболее популярными европейскими языками и русским.

Необходимость создания систем транскрипции для пар языков, правил транскрипции для которых не были ранее написаны, послужила толчком созданию методов автоматического извлечения правил из множества прецедентов. На сегодняшний день это направление является гораздо более перспективным, чем составление правил вручную, так как обеспечивает системе транскрипции гораздо большую гибкость.

Для решения задачи обучения систем транскрипции применяются как порождающие, так и дифференциальные методы машинного обучения, однако порождающие методы более распространены. Первые системы машинной транскрипции при передаче имен использовали промежуточное фонетическое представление, позднее были предложены методы, работающие с подстроками исходного и целевого имен напрямую.

В данной главе, основанной на работе автора [10 препринт-обзор], будут рассмотрены существующие на сегодняшний день подходы к проектированию и обучению систем машинной транскрипции, их достоинства и недостатки. Помимо этого, дан обзор смежных задач.

1.1 Общая характеристика систем транскрипции Наиболее развитые системы машинной транскрипции, как правило, имеют следующую архитектуру: они состоят из подсистемы обучения транскрипции, принимающей на вход обучающие данные (как правило, двуязычный корпус4 имен) и возвращающей систему правил преобразования имен с исходного языка на целевой, и подсистемы транскрипции, которая с помощью этих правил преобразовывает строки (см. рис 1).

Обучение выполняется обычно в два этапа: выравнивание имен и порождение правил транскрипции. Под выравниванием в данном случае понимается сопоставление символам, подстрокам или звукам исходного имени символов, подстрок или звуков его перевода. Затем на основе установленных соответствий составляются правила.

Обучающие фонетические словари и пр.

Рис. 1. Структура системы транскрипции Системы машинной транскрипции создаются исследовательскими группами по всему миру. Эти системы используют различные методы обучения, характеризуются различными требованиями к объему и качеству входных данных, Корпусом называют совокупность текстов, объединённых каким-либо общим признаком (языком, жанром, автором, периодом создания текстов). В данной работе под (параллельным) корпусом понимается набор имен собственных на некотором языке и набор их переводов на другой язык.

различными алгоритмами обучения и принципами построения. Системы машинной транскрипции можно классифицировать по следующим параметрам:

• Структура правил транскрипции. Преобразование строк может быть основано на сопоставлении фонем исходного языка фонемам целевого языка, или на сопоставлении символов или подстрок исходного алфавита символам целевого алфавита;

• Методы генерации правил. Самым распространенным подходом к обучению модели транскрипции является использование статистических дифференциальных. Применяются также алгоритмические методы – методы, предполагающие некоторую последовательность действий, и эмпирические методы – то есть, генерация правил вручную;

• Вид правил. Сами правила могут быть стохастическими, то есть, описывать межъязыковые соответствия фонем/подстрок с некоторой вероятностью (что характерно для большинства статистических методов), или детерминированными, то есть, предполагающими однозначные соответствия (такой вид имеют обычно правила, составленные вручную);

• Тип обучающих данных. В некоторых исследованиях используются созданные вручную корпуса имен и их переводов, другие извлекают информацию о переводе имени из двуязычных словарей терминов, из параллельных текстов. В качестве дополнительной информации привлекаются фонетические словари. Существуют методы обучения по одноязычному корпусу.

Первые системы машинной транскрипции использовали правила, основанные на соответствии фонем. Это объяснимо: поскольку требуется фонетическое сходство исходной строки и соответствующей ей строки целевого языка, при обучении требуется сопоставление звуков исходной и результирующей строк примера. К тому экстралингвистическими причинами: к моменту возникновения задачи автоматизации транскрипции международным языком был английский, поэтому наиболее актуальной задачей был перевод с английского языка и на него. Однако английский язык обладает довольно сложной системой письма, в которой соответствия графики и фонетики часто неоднозначны. Задача практической транскрипции напрямую с этого языка, без опоры на промежуточное представление, была слишком сложна для первых исследователей.

Первыми методами обучения транскрипции были эмпирические, иначе говоря, первые системы транскрипции не использовали методов машинного обучения для создания правил транскрипции – они просто автоматизировали применение имеющихся правил, составленных вручную.

1.2 Ручное составление правил Начать обзор существующих на сегодняшний день систем транскрипции стоит с класса систем, отличающихся строением от схемы, приведенной выше. В этих системах первый этап – этап обучения – заменен ручным составлением правил.

Такие системы были первыми опытами машинной транскрипции.

В работе Арбаби [11], одной из первых работ в области транскрипции, имена, записанные арабской вязью, преобразуются в звуковое представление, которое затем преобразуется в английские звуки, а после – в запись на английском языке.

Передача с арабского на английский осуществляется по написанным вручную правилам. Это объясняется тем, что основной задачей этой работы было создание не правил передачи символов арабского алфавита латинскими буквами, а правил огласовки арабского письменного текста, что представляет главную сложность арабских имен (запись имен с указанными гласными с помощью символов латинского алфавита – довольно простая задача и, действительно, может быть описана небольшим количеством правил).

Работа [12] рассматривает транскрипцию имен между английским и французским языками. Здесь, как и в работе Арбаби, производится транскрипция через промежуточное фонетическое представление. Для преобразования от фонем к звуковому представлению используются методы задачи синтеза речи.

Система «Трансскриба» [6] также использует составленные вручную правила.

В настоящее время она поддерживает 32 языка, причем возможен перевод в обе стороны для любой пары языков. Эта универсальность достигается за счет использования промежуточного фонетического представления. Правила транскрипции составляются вручную, но нет необходимости определения соответствий для каждой пары языков: достаточно определить правила преобразования букв и подстрок языка в фонетическое представление (в промежуточный фонетический алфавит по возможности включили все звуки, имеющиеся в представленных в системе языках). Точность транскрипции с помощью этой системы, как и с помощью других систем, использующих созданные вручную правила, довольно высока (около 99%).

Еще одна российская система основана на сходных принципах [13, 14]. При передаче не используется фонетическое представление, то есть правила составляются для каждой пары языков. Еще одним недостатком системы можно назвать ориентацию на машиносчитываемый формат, не допускающий диакритических знаков. Невозможность использования диакритических знаков при записи имен и правил транскрипции заведомо снижает качество передачи, поскольку диакритики часто меняют звучание имени (ср. латышские фамилии Vilci – Вилциньш и Vilcins – Вилцинс. В машиносчитываемом формате «» будет записано как «ns», и разница будет потеряна).

Интересен подход, представленный в работе [15], описывающей метод конверсии с таджикского языка, записанного кириллическим алфавитом, на персидский язык, записанный арабской вязью. Модель транскрипции комбинирует правила, определенные вручную, с машинным обучением. Задается список символов, которые передаются между языками единственным образом независимо от контекста (как правило, согласные буквы). Затем производится выравнивание на обучающем корпусе – однозначные символы из оригинала и перевода ставятся в соответствие друг другу, а цепочки неоднозначных символов, находящиеся между однозначными – соответствующим цепочкам из перевода. Работа является примером того, что машинная транскрипция может быть в использована не только для передачи имен, но и для перевода между близкородственными языками.

Сходная проблема решается в работе [16] для двух алфавитов языка панджаби: шахмукхи, основанного на арабском алфавите, и гурмукхи.

Транскрипция производится на основе соответствий символов двух алфавитов, а также некоторых правил, применяющих эти соответствия с учетом контекстов. И соответствия, и правила составлены вручную.

Таблица 1. Системы, использующие ручное составление правил Английский – персидский – английский (Karimi, 2006) 56.2% «Иностранные имена и названия в русском тексте». 18 языков – Не указано русский (Гиляревский, 1985, [4]) Основные мировые языки – русский (Бондаренко, 2009, [13]) Около 95% (система «Трансскриба», Клышинский, 2009, [6]) Системы, построенные вручную, обладают гораздо более высоким качеством транскрипции, чем системы, использующие методы машинного обучения (см.

таблицу 1). Однако процесс ручного составления правил долог и трудоемок.

Создание таких систем в настоящее время может быть оправданно, только если требуется транскрипция между одной парой языков (или, по крайней мере, небольшим количеством пар), а главное, если нет необходимости в быстром расширении системы.

1.3 Обучение модели транскрипции Этап обучения системы транскрипции состоит из двух подэтапов:

выравнивания и собственно обучения, то есть поиска межъязыковых соответствий звуков или подстрок.

1.3.1 Выравнивание Обучающие данные представляют собой множество пар: имя на исходном языке и его перевод на целевой язык. Выравнивание – это сопоставление элементов (звуков или подстрок) исходного имени элементам целевого имени (см. пример 1).

Во многих статистических системах машинной транскрипции используются методы выравнивания, применяющиеся в статистических системах машинного перевода. При обучении машинного перевода на параллельном корпусе текстов слова в исходном предложении сопоставляются словам перевода. Самые популярные методы выравнивания – модель IBM [17], использующая для настройки параметров алгоритм EM (Expectation Maximization) [18], и выравнивание, производимое с помощью скрытой цепи Маркова [19, 20].

При применении для задачи транскрипции алгоритмов выравнивания, взятых из систем перевода, в качестве основной рассматриваемой единицы берется вместо предложения слово, а минимальной единицей становится не слово, а символ (или звук, если сопоставление ведется на фонетическом уровне). Во многих системах транскрипции выравнивание производится с помощью системы статистического пофразового машинного перевода GIZA++. Система GIZA была создана в университете Джонса Хопкинса в 1999 году [21], в 2003 году появилась ее усовершенствованная версия GIZA++ [22]. Система часто используется в работах по машинной транскрипции, так как может свободно использоваться для академических исследований.

Необходимо заметить, что некоторые особенности алгоритмов выравнивания, предназначенных для перевода, неприменимы к машинной транскрипции.

Например, при выравнивании слов допускается изменение порядка их следования, тогда как передача имени на иностранный язык должна осуществляться с сохранением порядка звуков. Кроме того, при выравнивании слов бывает необходима вставка нулевых слов, которые сопоставляются словам в предложении другого языка, аналог которых в переводе отсутствует (в качестве примера можно привести глагол «быть» в русском языке, имеющий в настоящем времени изъявительного наклонения нулевую форму).

Некоторые исследователи уделяют этапу выравнивания больше внимания, считая, что повышение его качества улучшит качество всей системы. Первоначально за основу алгоритма выравнивания брался алгоритм Ковингтона, предназначенный для поиска в параллельном корпусе слов с одинаковым происхождением [23]. Этот алгоритм при сопоставлении звуков слов позволяет две процедуры: сопоставление звуков или пропуск звука (то есть, продвижение вперед только по одному из слов).

Недостоверные процедуры: сопоставление гласному звуку согласного, пропуск звука – штрафуются. Наиболее вероятным выравниванием считается вариант с минимальной суммой штрафов. В работе [24] этот метод применен к задаче транскрипции, в работе [25] усовершенствован: появилась возможность сопоставить несколько символов одному или нескольким – то есть уже нет необходимости оперировать со звуковым представлением, так как стало возможным сопоставление на уровне подстрок. Главный недостаток такого метода выравнивания – система штрафов, которые должны быть назначены вручную для всех возможных соответствий.

последовательностей ALINE. Этот алгоритм сочетает в себе различные техники сравнения последовательностей символов, фонетическое сходство строк определяется на основе набора признаков. К сожалению, авторы не представили численных оценок этого алгоритма.

1.3.2 Порождающие методы статистических методов, то по известному входному слову E требуется найти такое Статистические методы порождения правил транскрипции в основном опираются на формулу Байеса [27]:

где E – слово на языке оригинала, F – его перевод, P(E) и P(F) – модели языка оригинала и перевода соответственно.

восстановления имени на языке оригинала по имеющемуся переводу на другой язык), формула будет противоположной:

Можно разделить методы транскрипции на методы, использующие соответствия букв и подстрок и методы, использующие соответствия фонем. В первом случае правила транскрипции представляют собой правила перевода символов входного языка в символы выходного языка. Во втором случае правила ставят в соответствие звукам входного языка звуки выходного языка. Перед применением правил проводится преобразование имени из буквенной записи в последовательность фонем. Затем эта последовательность фонем переводится в последовательность фонем целевого языка, которая затем преобразуется в буквенную запись на целевом языке.

Методы, основанные на соответствии фонем Первые системы машинной транскрипции использовали именно методы, основанные на соответствии фонем. Такой подход отражает суть практической транскрипции: сохранение фонетического облика слова. Схема работы подобных систем показана на рисунке 2. Преобразование производится в три этапа: оригинал имени (E) записывается в виде последовательности фонем входного языка (IE), которая затем переводится в последовательность фонем выходного языка (IF), а эта последовательность, в свою очередь, преобразуется в буквенную запись на выходном языке (F).

Рис.2. Схема работы системы транскрипции, основанной на соответствии фонем Одной из первых работ в рассматриваемой области стала система транскрипции с арабского языка на английский [11], уже упомянутая в предыдущем разделе. Правила транскрипции в ней составлены вручную, однако она работает по той же схеме, что и остальные методы, основанные на соответствии фонем (см.

рис.2). То же можно сказать и о системе транслитерации с французского на английский [12], также упоминавшейся в прошлом разделе – используемый в ней подход к задаче транскрипции как к задаче синтеза речи работает по схеме на рис. 2.

Первой полностью автоматической (то есть, не требующей ручного составления правил ни на одном из этапов) системой транскрипции стала система Кевина Найта, впервые описанная в работе [28]. Предложенный им метод был положен в основу многих дальнейших разработок в этой области. Система Найта выполняла обратную транскрипцию с японского языка на английский (то есть, транскрипцию английских имен, записанных японской азбукой катакана, на английский язык). Транскрипция производится с помощью цепочки статистических конечных автоматов, последовательно выполняющих все этапы транскрипции (рис.

3).

Рис.3. Структура системы К.Найта Входной информацией для каждого автомата является выход предыдущего автомата. Сначала была сконструирована цепочка автоматов для осуществления прямой транслитерации: с английского языка на японский. Первый автомат делит входную строку на слова, второй преобразует слова в последовательность фонем английского языка, третий преобразует получившуюся цепочку фонем в цепочку фонем японского языка, пятый записывает японские фонемы с помощью азбуки катакана. Соответственно, строится четыре распределения вероятностей:

• P(E) – модель языка;

• P(IE | E) – генерация цепочки фонем по слову английского языка;

последовательность японских фонем;

P(F | IF) – запись последовательности японских фонем с помощью азбуки произведение Обучение конечных автоматов производится с помощью алгоритма EM (Expectation Maximization) [18, 29, 30, 31]. В качестве обучающих корпусов используются материалы американских печатных изданий, фонетический словарь университета Carnegie Mellon (Carnegie Mellon University Pronouncing Dictionary) [32], составленный вручную англо-японский корпус. Для решения задачи обратной транслитерации эта цепочка конечных автоматов применяется в обратном порядке, преобразуя запись на азбуке катакана в английское имя, которое с наибольшей вероятностью соответствует этой записи. Этот метод показал довольно высокое качество: система правильно переводила имена с японского на английский в 64% случаев, тогда как человек дал правильный ответ всего в 27% случаев.

Описанная модель, составленная из цепочки конечных автоматов, стала основой множества других методов. Этому способствовало, помимо прочего, создание Джонатаном Граелом свободно распространяемого инструмента CARMEL, реализующего цепочку конечных автоматов, которые могут быть обучены на данных пользователя [33]. В дальнейшем эта система использовалась во многих работах по машинной транскрипции.

Метод Найта также был применен для арабского языка [34, 35]. Правда, в связи с некоторыми особенностями фонетики арабского языка и недостаточным количеством электронных корпусов качество обучения составило всего 56%.

В работе [36] предложен метод обратной транслитерации с корейского на английский. Обучение производится с помощью скрытых Марковских моделей, реализованных в виде нейронной сети с прямым ходом. Определение наиболее вероятных кандидатов в правила производится по следующей формуле:

Качество транслитерации составило 56% (оценивался процент правильно переведенных слов).

В таблице 2 представлены результаты основных работ по транскрипции, использовавших промежуточное фонетическое представление.

Методы, основанные на соответствии фонем, имеют несколько недостатков.

Во-первых, необходимость рассматривать фонетическое представление слова увеличивает количество преобразований. Каждое преобразование порождает ошибки, так что такая система менее надежна, чем система, работающая напрямую преобразования во внутреннее фонетическое представление требует особых обучающих данных – фонетических словарей, таких, как Carnegie Mellon University Pronouncing Dictionary. Такие данные для большинства языков недоступны.

Таблица 2. Сводные результаты работы методов обучения транскрипции, основанных на соответствиях фонем Китайский [38] Widrow-Hoff (метод наименьших 83% MRR Методы, основанные на соответствии подстрок Для преодоления недостатков методов, использующих соответствия фонем были предложены методы транскрипции, переводящие имя на языке оригинала напрямую в буквенное представление на целевом языке. Эти методы не требуют специфических обучающих корпусов.

Одним из первых примеров транслитерации на основе соответствия подстрок была работа [41] 2000 года. Эта работа развивает метод транскрипции между английским и корейским [36], модель языка строится с помощью биграмм:

В этой работе качество было улучшено до 58%.

Метод n-грамм был также применен для транскрипции между английским и арабским языками [42], результат составил 68% правильно преобразованных имен.

Многие методы, упомянутые в предыдущей секции, были применены и для преобразования строк без промежуточного фонетического представления. В работе [43] представлен метод преобразования с помощью статистического конечного автомата, обучаемого алгоритмом EM. Использование соответствий подстрок вместо соответствий фонем улучшило результат транскрипции с помощью данного метода на 11,9%.

В работе [24], посвященной транскрипции между корейским и английским, использован новый метод выравнивания, который, в отличие от многих предыдущих методов, позволяет вводить соответствия один ко многим. Для обучения транскрипции используются деревья принятия решений. Деревья строятся с помощью алгоритма ID3 [44]. Дерево принятия решений строится для каждой буквы алфавита: 26 для английского, 46 для корейского. В качестве контекстов для каждой буквы используются три предыдущих и три следующих. Метод был опробован на обучающем корпусе, состоящем из 7000 пар имен, точность прямой транслитерации (с английского на корейский) составила 44,9%, обратной – 34,2%.

Стоит обратить внимание на работу [45] хотя бы потому что в ней затрагивается проблема транскрипции между языками, использующими латиницу, которая традиционно считается более простой задачей, чем транскрипция между разными системами письма. Работа посвящена переводу терминов, имеющих в разных языках общее происхождение, но отличающихся написанием и произношением (например, слово «способность»: capacity в английском языке, capacidad в испанском и Kapazitt в немецком). Основой метода является вычисление обобщенной дистанции редактирования (или расстояния Левенштейна [46]) для соответствующих слов различных языков. Для каждой буквы алфавита исходного языка вычисляется наиболее вероятная операция редактирования (вставки, удаления, замены) в данном контексте. Рассматривается контекст из четырех символов:

Модель реализована в виде взвешенного конечного автомата и опробована на 1617 словах на финском, датском, нидерландском, английском, французском, немецком, итальянском, португальском и испанском языках. Качество обучения составило 80 – 91%, качество транскрипции – 64-78%, что на 26% и 22% соответственно превосходит результат обучения с помощью простой дистанции редактирования, который был взят в качестве проверочного метода.

Таким образом, транскрипция может быть применена не только для передачи с одного языка на другой имен собственных, но и для улучшения качества машинного перевода: родственные слова (cognates) используются в системах машинного перевода для улучшения качества выравнивания при обучении на параллельных текстах [47, 48].

В работе [49] представлен алгоритм, основанный на соответствиях согласных и гласных. В работе объясняется, что для арабского, а также других языков, использующих арабский алфавит (в том числе и для персидского), фонетические методы не дают хорошего результата из-за принятого в этих языках сокращения гласных на письме. Таким образом, восстановить фонетический облик по графическому довольно сложно. Методы, преобразующие запись на языке оригинала напрямую в перевод, показывают лучшие результаты. По этой причине под гласными и согласными понимаются не звуки языка, а буквы, обозначающие эти звуки. Слова и их переводы разбиваются на подстроки вида CV, CVC, CC или VC (где C – согласная буква, V – гласная), подстроки оригинала и перевода сопоставляются друг другу, на основе этих соответствий формируется модель транскрипции. Оценка качества проводилась на составленном вручную англоперсидском корпусе из 16760 пар имен. Качество транскрипции составило 51,6%.

В следующей работе [50] этот метод был улучшен: предложен новый алгоритм выравнивания (в первой версии использовалась система Giza++). Кроме того, усовершенствован алгоритм формирования последовательностей гласных и согласных: группируются последовательности букв одного вида (только согласные или только гласные). Испытания на том же корпусе показали качество 55,3%.

В работе [51] представлен алгоритм транскрипции с английского языка на арабский. Представлены два метода: нахождение соответствий подстрок с помощью динамического программирования (алгоритм Витерби [52]) и обучение конечного автомата. Конечный автомат признан более совершенным методом, так как с его помощью может быть реализована статистическая модель языка, а также он не учитывает правила с низкой вероятностью и поддерживает правила перехода подстроки в пустое множество. Система была обучена на корпусе из 2844 пар слов, тестовое множество состояло из 300 пар, модель языка была получена отдельно на 10991 парах. Результат работы системы в проценте правильно переведенных слов не предоставлен, среднее количество ошибок в переведенных именах (средняя дистанция редактирования) – 2,01.

Предпринимались попытки использования при транскрипции личных имен дополнительной информации: языка происхождения и пола [53]. Описанный в работе метод был назван методом «семантической транслитерации», модель транскрипции определялась следующей формулой:

где l – язык происхождения имени, g – пол носителя имени. В случае отсутствия какой-либо информации об имени соответствующий компонент просто изымается из модели. Метод был опробован на корпусах японских, китайских и английских имен. Лучшими результатами применения метода стали 49,4% правильно переведенных слов и 69,2% правильно переведенных символов, что хуже результатов применения к данным языкам других методов.

В таблице перечислены основные работы, основанные на соответствиях подстрок. В качестве основной меры использовалась мера Word Accuracy – процент корректно переданных слов тестовой выборки. Некоторые исследователи ранжированный список строк в зависимости от того, насколько высоко в списке правильный ответ.

Таблица 3. Сводные результаты качества работы методов обучения транскрипции, основанных на соответствиях подстрок Корейский [41] Марковская модель 58%, 41% (b) Корейский [24] Дерево принятия решений 48%, 35% (b) 9 европейских языков Сопоставление расстояний 70 RR [45] С арабского [51] Алгоритм Витерби 2,01 – расстояние Персидский [49] Сопоставление согласных и 74% Японский, китайский Дополнительная информация 49,4% WA 1.3.3 Дифференциальные методы Другую разновидность статистических методов обучения составляют дифференциальные методы, использующиеся обычно для решения задач классификации. Поскольку машинная транскрипция не является задачей классификации, использование таких методов для ее решения затруднительно, поэтому они не получили широкого распространения. Однако в их применении есть некоторые достоинства. При использовании дифференциальных методов нет нужды в этапе выравнивания: выходная последовательность порождается напрямую из входной последовательности.

В работе [54] задача транскрипции рассматривается как задача моделирования последовательности переходов. Обучение производится с помощью алгоритма обучения персептрона, основанного на модели, предложенной в [55]. Модель транскрипции определяет наиболее вероятную последовательность операций замены, удаления или добавления символа. Каждой такой операции для всех символов алфавита в начале обучения присваиваются веса, которые редактируются на основе обучающего множества имен.

Транскрипция была проведена для языковых пар арабский-английский и мандарин (китайский) – английский. Обучающие данные: список из фамильно-именных групп, распространяемый лингвистическим консорциумом (Linguistic Data Consortium (LDC)). Каждая запись представляет собой арабское имя, преобразованное в ASCII по системе SATTS [56], и его транслитерацию на английский язык. Тестовое множество – 1000 имен. Качество транскрипции (мера Top-1) с помощью модели, обученной предложенным методом, составляет 0, (для сравнения берется результат, полученный системой машинного перевода RWTH [57], для него качество составило 0,528).

Эту работу продолжает исследование [58]. Обучение производится с помощью алгоритма MIRA (Margin Infused Relaxed Algorithm, описан в работах [59, 60, 61]). Алгоритм улучшает классический алгоритм обучения с помощью персептрона по трем параметрам:

• Получает k лучших вариантов транслитерации • Обучение производится с помощью меры ошибки, заданной пользователем Пользователь может настроить параметры обучения для лучшего качества обработки зашумленных данных.

Получение k лучших вариантов возможно, так как алгоритм обучается на словах, для которых существует несколько вариантов транслитерации, отранжированных по заданной пользователем мере расстояние Левенштейна). Такой подход хорошо сглаживает ошибки во входных данных, а также полезен для обучения на именах, для которых существует более одной возможной транслитерации. Результат работы усовершенствованного алгоритма на 2,2% лучше результата транскрипции, обученной с помощью первоначального алгоритма, обучение проводилось на том же корпусе имен.

Еще одна система, основанная на использовании персептрона, описана в [62].

Она сочетает в себе черты порождающего и дифференциального подходов. Перевод осуществляется с японского языка (азбука катакана) на английский. Данные – названия параллельных статей из Wikipedia на японском и английском. 56 килобайт пар названий используются для обучения, 2 килобайта составляют тестовое множество. В качестве эталонного метода берется метод, описанный в [51].

Другой дифференциальный подход, используемый для решения задачи машинной транскрипции, состоит в отображении последовательности символов на многомерные пространства признаков. В работе представлены два дифференциальных метода обучения, один из которых использует локальную, а другой – глобальную модель структурированных выходных пространств. Первый, локальный, метод состоит в подборе линейных классификаторов, которые предсказывают символ перевода имени ei по предыдущим предсказанным символам e1,…,ei-1 и оригиналу имени f. Глобальный метод состоит в подборе функции W(f, e), отображающей пару строк (f, e) (оригинал и перевод имени) на множество действительных чисел. Функция линейна относительно набора признаков для пары (f, e). Метод был применен к трем языковым парам: арабский - английский, корейский – английский и русский – английский. Обучающие данные для каждой языковой пары были разделены на две части: корпус, на котором проводилось обучение и тестовый корпус. Объем корпусов: 935 и 233 пар имен для арабского, и 121 для русского и 11973 и 1363 для корейского. Корпуса были составлены вручную. В процессе обучения также строится вероятностная модель английского языка, для построения которой было использовано 100000 самых распространенных имен, загруженных с сайта US Census [64]. В работе использована вероятностная модель, основанная на 5-граммах с интерполированным сглаживанием ГудаТьюринга [65]. Для обучения локальных моделей использована модель перцептрона, описанная в [66]. Лучшие результаты для арабского, русского и корейского составили 32,61%, 46,28% и 35,28% соответственно.

1.4 Соревнование систем транскрипции Качество различных методов обучения транскрипции с трудом поддается сравнению: разным группам исследователей доступны обучающие данные, отличающиеся по качеству и объему, в разных работах приняты разные меры оценки качества. Сравнение же двух методов, которые не применялись к одной и той же языковой паре, и вовсе лишено смысла – между тем большинство исследователей испытывает методы обучения только на одной паре языков. Возможно, это ограничение связано не с недостатками самих методов, а с недоступностью данных для других языков, однако оно делает невозможным проверку утверждения о том, что метод является независимым от языка.

В связи с этим в 2009 году было организовано соревнование систем машинной транскрипции, прошедшее в рамках конференции Ассоциации Компьютерной лингвистики [67] и получившее название Named Entites Workshop (семинар по именованным сущностям). Участникам предлагалось предоставить свою систему машинной транскрипции для обучения на одном или более из имеющихся параллельных корпусов имен. Было доступно семь корпусов: языком оригинала во всех корпусах был английский, языками перевода были: тамильский, хинди, русский, китайский, каннада (дравидийский язык, распространённый в югозападной Индии), корейский и японский (азбука катакана). Все языки используют отличную от латинского алфавита систему письма, причем тамильский, хинди, каннада и японский – слоговое письмо, а китайский – идеографическое, что усложняет задачу транслитерации.

Результаты были оценены с помощью шести мер:

• Word Accuracy – точность транскрипции первого из предложенных системой вариантов (учитываются только полные совпадения);

• F-score – мера в данном случае оценивает, насколько отличается первый из предложенных системой кандидатов от ближайшего из эталонных вариантов (в обучающем корпусе для одного имени может существовать несколько • MRR – мера оценивает, какое место в списке выданных кандидатов занимает правильная транскрипция;

• MAPref – точность транскрипции для n первых выданных системой кандидатов, где n – количество эталонных вариантов транскрипции для данного слова (при n = 1совпадает с Word Accuracy), то есть мера оценивает, насколько близко к началу списка оказались эталонные варианты транскрипции;

• MAP10 – точность транскрипции для первых 10 выданных системой кандидатов – то есть количество правильных вариантов среди первых кандидатов (при единственном правильном варианте – наличие или отсутствие правильного варианта среди кандидатов);

MAPsys – точность транскрипции для всех выданных системой кандидатов.

Все меры нормализованы, то есть принимают значения от 0 до 1. Результаты транскрипции с помощью различных систем представлены в таблице 4. Для подавляющего большинства систем указано только 5 результатов: значение меры MAPsys почти всегда совпадает со значением меры MAP10, поскольку количество предлагаемых системой вариантов транскрипции редко превосходит 10. В случаях, когда указано три меры – это WA, F-score и MRR, в случае одной меры – WA.

Стоит отметить особенность использовавшихся корпусов. В них содержались не наиболее фонетически точные соответствия оригинального имени и перевода, а устойчивые имена одной и той же сущности, использующиеся в разных языках, чаще всего географические названия (например, Moscow – Москва). То есть задача модели транскрипции в данном случае – не передать имя средствами другого языка, как можно точнее сохранив его фонетический облик, а, имея запись имени на некотором языке, записать его на другом языке так, как оно обычно записывается в этом языке. При этом не обязательно, что какой-либо из двух языков будет языком происхождения имени.

Как видно из таблицы 4, популярностью пользуется обучение транскрипции с помощью систем машинного перевода, а также использование дифференциальных методов обучения – например, обусловленные случайные поля. Из порождающих моделей чаще других встречается скрытая модель Маркова. Стоит также отметить другую тенденцию – во многих системах для обучения используется комбинация нескольких методов.

Таблица 4. Результаты соревнования систем машинной транскрипции. Ссылка на статью с описанием системы – в квадратных скобках перед описанием метода Random Fields), статистическая 0.542 0.544 0.640 0.600 0. модель Маркова, преобразование 0.870 0.855 0.901 0.755 0. поля + source channel model в многомерное пространство признаков обучение с помощью дифференциального алгоритма Таблица 4. Продолжение энтропии + обусловленные случайные поля + MIRA Таблица 4. Окончание промежуточное фонетическое представление, метод обучения – перцептрон ([93]) Наилучшие результаты были получены несколькими системами (они выделены в таблице цветом). Система [86], чьи результаты были лучшими для четырех представленных языковых пар, использует комбинацию методов обучения.

В ней использованы две модели транскрипции: модель, основанная на подстроках, и модель, основанная на фонемах. Первая переводит подстроки исходного языка напрямую в подстроки целевого языка, вторая же использует промежуточное фонетическое представление. Для обучения используются: метод максимальной энтропии [97], метод обусловленных случайных полей (CRF) [98, 99, 100], алгоритм MIRA, причем два последних метода реализованы только для модели, основанной на подстроках, а метод максимальной энтропии – для обеих моделей. Таким образом, авторы создали четыре метода транскрипции, которые были обучены на входных данных, а в качестве окончательного результата используется комбинация всех методов.

В работе [90] за основу взята модель на основе взвешенного перцептрона (он описан в уже упоминавшейся работе той же группы [54]). Метод был улучшен:

наложены некоторые ограничения на редко встречающиеся n-граммы (запрещается генерация выходных последовательностей с n-граммами, не встретившимися или встретившимися недостаточное количество раз при обучении), а также вместо одной модели были обучены две: одна генерирует выходную последовательность слева направо, другая – справа налево, объединенный результат двух моделей при этом лучше первоначального.

Работа [78] использует метод выравнивания, обучающийся с помощью дифференциальный метод: каждой паре строк из обучающей выборки ставится в соответствие вектор признаков, значения признаков обновляются с помощью алгоритма MIRA.

1.5 Методы транскрипции Выше были рассмотрены основные методы создания модели транскрипции:

ручное составление правил, автоматическое обучение модели по прецедентной базе с помощью различных методов машинного обучения. Следующей не менее важной задачей является задача применения этой модели: частью каждой системы транскрипции является метод преобразования строки исходного языка в строку целевого языка, корректное применение этой модели и приемлемую скорость преобразования.

Проблема скорости транскрипции имен редко рассматривается исследователями. Возможно, это связано с отсутствием необходимости в переводе больших списков имен: система машинной транскрипции часто является частью другой системы (системы машинного перевода, информационного поиска и пр.), лишь небольшая часть входных данных которой нуждается в транскрипции. При необходимости переводить единичные имена скорость перевода не так важна. О скорости транскрипции упоминается в работе [63]: автор отмечает, что, поскольку многие приложения требуют решать задачу транскрипции в реальном времени, проверка правильности имени с помощью Internet не может быть использована, так как занимает слишком много времени. Однако проект «Перевод имен», представленный на сайте Яндекс.Нано [102], для ранжирования полученных вариантов перевода использует поисковую систему Яндекс (наиболее вероятным считается имя, для которого в результате поиска было найдено наибольшее количество страниц). Такой подход неприемлем при переводе больших списков имен, но данная система не ставит таких целей.

Для преобразования строк в большинстве методов, по примеру работы Найта [28], одной из первых в области машинной транскрипции, используются стохастические конечные автоматы. Конечный автомат обеспечивает линейную скорость обработки строк, то есть системы транскрипции с самого начала не испытывали сложностей, связанных со временем преобразования имен. Другим распространенным подходом является использование для транскрипции систем машинного перевода. Приверженцы этого метода обычно проводят эксперименты на уже готовом программном обеспечении, предназначенном для преобразования строк в режиме реального времени и использующем быстрые алгоритмы преобразования строк по обученной модели (некоторые алгоритмы поиска и декодирования, применяющиеся в статистических системах машинного перевода, описаны в [103]). Таким образом, в системах транскрипции, использующих статистические методы обучения, проблема скорости преобразования не возникает, поэтому метод транскрипции в работах зарубежных исследователей не рассматривается как отдельная задача.

Исследование возможностей и методов преобразования строк требуется в системах, основанных на правилах. Для первых систем машинной транскрипции, основанных на правилах, никаких данных о методе преобразования и скорости его работы не предоставлено – видимо, по той причине, что эти системы ставили целью проверить возможность автоматизации задачи транскрипции, вопрос эффективности еще не был принципиальным. Но более поздние системы, основанные на правилах, столкнулись с необходимостью выбирать правила из множества, которое может быть довольно большим, причем процесс выбора правила должен повторяться для каждой преобразуемой строки 5-10 раз в зависимости от ее длины.

формирующий на основе разбираемой строки последовательность применимых к ней правил и последующим применением этих правил. Эта последовательность должна покрывать все символы строки, причем подстроки, разбираемые каждым правилом, не должны пересекаться (то есть не должно существовать подстроки, к которой применяются сразу два правила). Если же невозможно покрыть правилами всю строку (например, если она содержит символы, отсутствующие во входном алфавите), количество разрывов во входном слове должно быть минимально.

Алгоритмически этот метод реализуется следующим образом: осуществляется поиск правил, применимых к слову с текущей позиции, затем из найденных правил выбирается правило с исходной подстрокой наибольшей длины, текущая позиция в слове сдвигается на длину исходной подстроки выбранного правила.

Последовательность правил считается сформированной, когда достигнут конец разбираемого слова. Этот алгоритм используется в данной работе в качестве эталонного алгоритма, то есть результат его применения к произвольной подстроке является единственным корректным результатом. Сложность этого алгоритма – O(nlog(M)), где n – длина разбираемой подстроки, а M – количество правил в системе.

Другой, более вычислительно сложный метод применения правил к строке предложен в системе Бондаренко [13, 14]. Для разбираемой строки w = составляется матрица подстрок размерности n+1, имеющая следующий вид:

Преобразование осуществляется следующим образом: последовательно просматриваются все ячейки матрицы. Для подстроки в ячейке проверяется, существует ли правило, содержащее эту подстроку в качестве исходной. При обнаружении такого правила все подстроки, пересекающиеся с данной, удаляются из матрицы, правило запоминается. Таким образом, в матрице остаются только те подстроки, для которых существуют правила, пересечений применимых правил не происходит. Однако у этого метода есть существенный недостаток: его сложность составляет O(n2log(M)), где n – длина разбираемой подстроки, а M – количество правил в системе.

Таким образом, все существующие на сегодняшний день методы применения правил к строке обладают полиномиальной скоростью и зависят от объема системы правил.

1.6 Смежные задачи Ядром системы машинной транскрипции являются два метода: метод выделения правил транскрипции и метод преобразования строк по этим правилам.

Однако не стоит забывать, что для возможности применения этих методов требуется подготовительная работа. Прежде всего, статистические методы обучения требуют больших обучающих корпусов. Ручное составление корпусов занимает слишком много времени, поэтому предпринимаются попытки автоматизации сбора обучающих данных. Для статистических моделей объем и качество корпуса имеют большое значение. Некоторые исследователи довольствуются корпусами, созданными вручную, другие используют двуязычные словари имен и терминов [28, 51, 63], получают параллельные примеры из двуязычных корпусов [104], из поисковых запросов [105], сравнивают термины из разных языков в фонетическом пространстве [106, 107]. В работе [108] описано обучение статистического конечного автомата на одноязычном корпусе.

При необходимости проведения транскрипции имен в режиме реального времени с большого количества языков часто необходимо предварительное определение языка происхождения имени. Для решения этой задачи используется два класса методов: методы, основанные на правилах, и статистические методы, основанные на n-граммах [109]. Определение языка с помощью набора правил предполагает ручное задание некоторых характеристических свойств языка: если речь идет об определении языка происхождения отдельного имени, а не текста, это, как правило, сочетания символов, характерные или нехарактерные для данного языка. Так, например, символ k, характерный для немецкого языка, почти не используется в романских языках. Сочетание zs с большой вероятностью указывают на венгерское происхождение имени, rz – на польское. Главный недостаток этого метода в том, что такие правила охватывают далеко не все имена языка.

Методам, основанным на использовании n-грамм [53, 110], требуется обучающее множество имен для всех языков, которые должна распознавать система.

В каждом имени обучающей выборки выделяются все подстроки длины n, затем проводится настройка коэффициентов, характеризующих каждую n-грамму (чаще всего в качестве коэффициента выступает вероятность появления n-граммы в обучающей выборке). Решение о принадлежности имени к тому или иному языку принимается на основе метрики сходства n-грамм анализируемого имени с множеством n-грамм, характерным для имеющихся в базе языков. Вид метрики зависит от конкретной реализации. Согласно результатам, сообщаемым в работе [111], такой метод с высоким качеством распознает язык происхождения имени в системе с небольшим (до пяти) количеством языков, однако при добавлении новых языков качество уменьшается. Было также установлено, что группировка языков по родству (языковым семьям или группам) не увеличивает качество определения языка имени.

Задача обратной транслитерации – восстановления имени на языке оригинала из его записи на языке перевода – является комбинацией задачи практической транскрипции и задачи восстановления правильного написания имени. Если при решении задачи практической транскрипции целью является выдача наиболее точной записи данного имени средствами другого алфавита, в случае обратной транслитерации это должна быть не только и даже не столько точная, сколько наиболее вероятная запись. Например, при обратной транслитерации имени «Джордж Буш», выделенном из текста о политике США, предпочтительным будет результат George Bush, а не Boosh или Boushe, хотя по правилам английского языка все три имени читаются одинаково и могут быть переданы на русский язык одной и той же строкой «Буш». Именно эта задача положила начало череде работ по машинной транскрипции. К ранним работам в этой области относятся работы группы Найта [28, 34].

Некоторые специфические задачи не требуют генерации транскрипции имени, для их решения достаточно выбрать правильную передачу имени на целевой язык из множества строк. Такой подход возможен, например, при наличии параллельного корпуса на исходном и целевом языках, или хотя бы двух одноязычных корпусов, в которых с большой вероятностью появятся одни и те же имена собственные.

Эта задача является задачей классификации, поэтому для ее решения применялись дифференциальные методы, описанные в предыдущем разделе, например, обучение перцептрона [55], примененное к подбору транслитерации с арабского на английский. В системе [112] для обнаружения соответствующих друг другу пар имен используется SVM-классификатор. Имена извлекаются из корпусов новостей, в качестве дополнительной информации используются даты статей.

Решается эта задача и порождающими методами. В работе [113] применяется модель на основе расстояния редактирования, обучающаяся по алгоритму EM. Она распознает японские имена и соответствующие им английские переводы, извлекаемые из поисковых запросов. Модель, описанная в [114], использует распределение вероятностей и фонетическое подобие для поиска подходящей транслитерации имен в английском и японском корпусах сходной тематики (сборнике аннотаций статей на английском и японском языках). Работа [115] также использует вероятностную модель, основанную на расстоянии редактирования, но для транслитерации с арабского на английский, имена-кандидаты выбираются из параллельного корпуса.

В работе [116] используется модель, основанная на подобии, подобие считается по разработанной авторами метрике. В качестве кандидатов используются словосочетания из корпуса n-грамов Google [117].

1.7 Выводы к главе Автором были исследованы существующие подходы к решению задачи машинной транскрипции имен собственных. Задача стала актуальной относительно недавно (первые работы относятся к 1994 году), но ее решению уже посвящено большое количество научных работ.

Следует отметить, что далеко не все языки охвачены существующими методами. Наибольшей популярностью пользуются китайский, японский, корейский и арабский языки. Это можно объяснить непривычностью написания этих языков для носителей языков, использующих латинский алфавит. К тому же, стоит признать, что эти языки представляют наибольшую сложность для транслитерации.

Японское письмо (а точнее, азбука катакана, используемая для записи имен собственных) является слоговым, согласные не могут, в отличие от европейских языков, сочетаться с произвольными гласными, что создает трудности при транслитерации европейских имен на японский язык, а в особенности при их обратной транслитерации. Китайское иероглифическое письмо требует особого подхода, к нему часто неприменимы методы, подходящие для всех остальных языков. Арабский язык использует алфавит, но его письмо до сих пор сохраняет частичную консонантность, то есть гласные звуки, находящиеся в слабой позиции, на письме не передаются. По этой причине транслитерации с арабского языка должна предшествовать вокализация.

Целевым языком при транслитерации в подавляющем большинстве работ является английский язык. Это объясняется его популярностью и статусом международного языка, однако существует необходимость перевода и на другие языки.

Первоначально системы транскрипции были основаны на написанных вручную правилах, но с развитием методов машинного обучения системы правил, составленные вручную, были заменены на автоматически обучаемые модели транскрипции. Наиболее эффективными и популярными методами обучения транскрипции являются статистические порождающие методы. У статистических методов есть недостаток – их качество зависит от объема обучающих данных, но с появлением сети Internet и электронных корпусов текстов большие объемы данных стали доступны исследователям. Неоспоримым достоинством статистических методов является тот факт, что они не требуют знания обрабатываемого языка и введения в систему лингвистической информации. Сложно назвать метод машинного обучения, наилучшим образом подходящий для решения задачи транскрипции. Разные типы и объемы данных, разные языки требуют разных методов обучения. К тому же, сравнение методов затруднительно из-за того, что все исследователи проводят эксперименты на разных множествах имен.

Соревнование систем машинной транскрипции, проводимое в рамках семинара по именованным сущностям (Named Entities Workshop), позволило лучше понять современное состояние исследуемой области: так, наименее трудоемким методом является использование для транскрипции систем статистического машинного перевода, а наилучший результат достигается комбинацией нескольких различных методов обучения. Кроме того, было показано, что дифференциальные методы обучения могут создать модель, преобразующую строки с достаточно высокой точностью, особенно в сочетании с другими методами.

Надо отметить, что подавляющее большинство описанных в главе методов решают специфическую задачу, в решении которой часто нет необходимости при создании системы машинной транскрипции. Основная задача, решаемая большинством зарубежных исследователей – узнать в имени, записанном на иностранном языке, некоторую известную им сущность (географическое название, имя политика и пр.). Между тем во многих сферах требуется решение другой задачи:

как можно более точно передать звучание имени средствами другого языка.

Очевидно, что решение этих задач требует принципиально различных обучающих данных и подходов.

Исследование методов транскрипции имен собственных показало, что из существующих моделей наилучший результат дают системы, построенные вручную или полученные с помощью статистических методов машинного обучения. Первый подход слишком долог и трудоемок. Что же касается второго подхода, он также имеет недостатки. Например, для достижения высокого результата требуется обучающая база большого объема и хорошего качества, которая во многих случаях недоступна. Однако более серьезным недостатком статистических методов обучения машинной транскрипции является невозможность ручного редактирования получаемой модели транскрипции. Ошибки транскрипции, произведенной с помощью такой модели, почти недоступны для анализа, для их исправления требуется переобучение всей системы, причем единственный способ исправить ошибки – расширить обучающую базу (при этом расширение базы не всегда гарантирует улучшения результата). В целях получения контроля над моделью транскрипции и возможностью ее ручного редактирования было принято решение создать метод, автоматически порождающий по обучающему корпусу систему правил транскрипции, записанных в явном виде.

По этим причинам был создан предлагаемый в данной работе метод автоматического порождения системы правил, записанных в явном виде, которые при наличии в них незначительных недостатков могут быть исправлены вручную экспертом без повторного обучения всей модели и без расширения обучающей выборки. Кроме того, исследование выявило отсутствие эффективных методов преобразования строк с помощью таких систем правил. В данной работе предлагается также метод применения правил транскрипции, обладающий линейной скоростью, не зависящей от количества правил.

Глава 2. Метод порождения правил транскрипции В главе описан метод порождения правил межъязыковой транскрипции, которые могут быть в дальнейшем использованы для автоматического преобразования строк или служить справочным материалом для лингвиста.

Метод основан на анализе двуязычного корпуса имен. Метод состоит из двух этапов: на этапе порождения первичных правил производится выравнивание имен по новому алгоритму, предложенному автором, затем на основе полученных соответствий составляются простые правила транслитерации. Правила, порожденные на первом этапе, используются для порождения сложных правил.

Метод не зависит от языка: он может быть применен для любой пары языков, при условии, что оба языка используют алфавитное письмо. Единственная дополнительная информация, необходимая для работы метода – список гласных букв входного и выходного алфавитов.

2.1 Формат правил Тема настоящей работы – передача слов с одного языка на другой. Таким образом, описываемый метод работает с двумя языками, один из которых является языком-источником (язык, из которого взято имя), другой – языком-приемником (язык, на который переводится имя). Алфавит языка-источника обозначим через VI, алфавит языка-приемника – через VO.

Целью работы является создание метода, позволяющего генерировать межъязыковые соответствия подстрок, другими словами, определить отображение множества подстрок языка-источника в множество подстрок целевого языка.

Каждое из таких соответствий подстрок назовем правилом транскрипции.

Правила генерируются из обучающего множества пар имен исходного языка и их записей на целевом языке. Обучающее множество составляется вручную экспертом.

Определим правило как пару r =, где:

p – левая часть правила – преобразовываемая цепочка символов входного алфавита, возможно, с контекстами;

– правая часть правила – цепочка символов выходного алфавита (возможно, пустая), которая соответствует левой части правила в целевом языке.

Левая часть правила определяется следующим образом:

p =, где pl и pr – левый и правый контексты соответственно, – преобразовываемая строка, pl = {1, 2, …, n }, iVI+, pr = {1, 2, …, m }, iVI+;

Исходя из этого, правило применимо с текущей позиции, если на текущей позиции находится подстрока, перед ней полностью представлена одна из подстрок из pl, после нее – подстрока из pr. Считается, что к входной строке последовательно ищутся применяемые правила. При нахождении такого правила текущая позиция сдвигается вправо на || символов, а на выход подается (под обозначением || здесь и далее понимается длина подстроки ).

При обучении системы машинной транскрипции необходима дополнительная информация о правиле: как часто и в каких словах обучающей выборки оно встретилось. Поэтому при обучении используется расширенный формат правила: r =, где p и те же, что в основном формате, а w = {, …, }, где wi – слово из обучающего множества, к которому применимо данное правило, posi – позиция, на которой находится первый символ из p2 в слове wi.

2.2 Предпосылки создания метода В начале работы перед автором была поставлена задача порождения правил практической транскрипции имен собственных по обучающему множеству имен и их переводов. Очевидным решением представляется комбинаторный метод: перебор всех возможных соответствий подстрок оригинала и перевода слова. Но этот вариант был отвергнут из-за его сложности: количество всех таких сочетаний слишком велико и их анализ займет слишком много времени. Чтобы снизить количество вариантов, нужны априорные знания о транскрипции.

Было решено в качестве основы будущей системы правил использовать правила простой транслитерации: правила вида SI SO, где SI – символ из исходного алфавита, SO – символ из алфавита перевода. Эти правила порождаются на основе имен, у которых в оригинале и в переводе одинаковое количество символов. При этом каждый i-й символ из оригинала имени ставится в соответствие i-му символу из перевода имени (см. рис. 4). Данный подход описан в публикациях автора [118, 119].

Рис. 4. Получение правил строгой транслитерации Однако одинаковое количество символов еще не гарантирует их соответствия.

Полученные таким образом правила соответствия могут быть некорректными (см.

рис. 5).

Рис. 5. Некорректные соответствия символов в словах с одинаковым количеством символов в оригинале и переводе По этой причине было предложено для создания первичных правил использовать не целые слова, а более мелкие единицы. В качестве такой единицы в данной работе используется слог. Необходимо заметить, что слог здесь понимается не в классическом лингвистическом значении минимальной артикуляторной единицы. Слог в данной работе – формальное понятие. Это подстрока, имеющая форму C*V+ (где C – согласная, V – гласная), то есть, состоящая из подстроки согласных (возможно, пустой) и следующей за ней непустой подстроки гласных.

Граница слога проходит между буквами, левая из которых является гласной, а правая – согласной. Длина слога меньше длины целого слова, поэтому при сопоставлении символов оригинала и перевода слога меньше вероятность порождения некорректных соответствий. Правила простой транслитерации порождаются на основе пар слогов вида CV CV. После с помощью этих правил осуществлялся пробный разбор остальных слогов и дополнение системы новыми правилами.

Затем было обобщено первоначальное допущение о том, что в имени, содержащем одинаковое количество букв в оригинале и переводе, буквы находятся во взаимно-однозначном соответствии. Количество букв в записи имени на различных языках может не совпадать из-за того, что некоторые звуки могут быть выражены несколькими символами (диграфами, триграфами и пр.). Но вероятность совпадения количества звуков в оригинале и переводе имени весьма велика.

Поэтому было решено для создания первоначальной системы соответствий делить слова не на слоги, а на группы гласных и согласных, и ставить в соответствие группе из оригинала имени группу из перевода с тем же номером. Некорректные соответствия при подобном подходе почти не порождаются, поскольку ди- и триграфы редко состоят из символов разного типа, значит, границы звуков не разрывают границ выделенных групп.

2.3 Метод порождения правил На рисунке 6 представлена общая схема работы алгоритма порождения правил транскрипции. На вход алгоритм получает обучающее множество: пары имен на языке оригинала и их запись на языке перевода, результатом работы алгоритма является система правил транскрипции имен собственных с языка оригинала на целевой язык.

Рис.6. Схема работы метода порождения правил Алгоритм порождения правил транскрипции, описанный автором также в работах [120, 121], состоит из двух этапов:

1. Порождение первичных правил, включающее в себя разделение слов обучающей выборки на группы гласных и согласных и собственно порождение первичных правил;

2. Порождение сложных правил, включающее разделение слов на слоги и пробный разбор слогов, в результате которого к порожденным на предыдущем этапе правилам добавляются новые. Пробный разбор может быть повторен несколько раз.

2.3.1 Первичные правила Первичными правилами называются правила транскрипции, получаемые с помощью простых операций, совершаемых на первом этапе. Порождение первичных правил основывается на нескольких предположениях.

Суть практической транскрипции состоит в том, чтобы передать слово исходного языка на целевой язык с сохранением фонетического облика. То есть, в идеальном случае слово на языке-источнике и языке-приемнике должны состоять из одинаковых последовательностей фонем. Зачастую это невозможно в силу того, что наборы фонем в разных языках различны. В этом случае фонема исходного языка, отсутствующая в целевом языке, передается ближайшей по звучанию фонемой.

Например, отсутствующий в японском языке звук [l] при переводе на японский иностранных имен и терминов передается с помощью звука [r], потому что это единственный в японском сонорный неносовой согласный. Фонемный состав оригинала и перевода слова не всегда совпадает, однако можно с уверенностью сказать, что согласные фонемы языка-источника передаются согласными фонемами языка-приемника, а гласные фонемы – гласными.

Исключение составляют, пожалуй, только аппроксиманты (или глайды) – подтип сонорных согласных, при образовании которых речевой тракт принимает промежуточное положение между положением для образования гласных и согласных шумных звуков. Они считаются согласными, так как при их произнесении все же образуется шум, и преграды в речевом тракте мешают аппроксимантам достигнуть уровня звучности гласных звуков. Тем не менее, звуковые колебания у этих звуков более интенсивны, чем у остальных согласных [122]. Поэтому нередко, если в языке-приемнике отсутствует аппроксимант, который есть в языке-источнике, этот аппроксимант может передаваться как согласной буквой, так и гласной. Например, английский звук [w] при записи английских имен создает неоднозначности транскрипции, разрешавшиеся по-разному в зависимости от господствующей традиции перевода: «Вильям» или «Уильям», «Ватсон» или «Уотсон» и пр. Но поскольку глайды составляют довольно небольшой процент фонем языка, на этапе порождения первичных правил можно пренебречь их особенностями и считать глайды согласными звуками.

Далее предположим, что в большинстве случаев гласный звук передается одной или несколькими гласными буквами, согласный звук – одной или несколькими согласными буквами. А поскольку ранее мы уже предположили, что каждой фонеме исходного языка соответствует фонема целевого языка того же типа (гласная или согласная), можно с некоторой степенью уверенности предположить, что каждой группе согласных букв в оригинале слова соответствует группа гласных букв в переводе слова, группе гласных букв – группа гласных. На этом предположении и основывается первый этап порождения правил.

Для каждой буквы v VI VO определим предикат isVowel(v), который возвращает true, если буква является гласной и false в противном случае (таким образом, буквы русского алфавита «ь» и «ъ», не обозначающие никакого звука, а потому не относимые ни к гласным, ни к согласным буквам, а также символы начала и конца слова будут также рассматриваться как согласные, так же как и описанные выше глайды).

Разделим каждое имя из обучающего множества и его перевод на группы гласных и согласных. Каждая группа должна содержать буквы одного типа. Границы групп в слове = v1 v2… vn находятся между vi и vi+1 такими, что isVowel(vi) isVowel(vi+1).

Таким образом, каждое имя может быть представлено как пара q =, где in = {in1, in2, …, inn} – множество непустых цепочек букв из алфавита VI, множество групп оригинала имени;

out = {o1, o2, …, om} – множество непустых цепочек букв из алфавита VO, множество групп перевода имени.

Для каждой пары q из обучающего множества, для которого количество групп в оригинале и переводе имени совпадают, порождается n правил транскрипции (n = |in| = |out|): ri(pl) = ri(pr) =, ri() = ini, ri() = oi, i [1, n].

Иными словами, i-я группа оригинала имени ставится в соответствие i-й группе перевода, при соблюдении двух условий:

(1) в оригинале и переводе одинаковое количество групп (2) в 1-й группе оригинала содержатся буквы того же типа, что и в i-й группе перевода.

Подобная операция возможна, так как справедливо Утверждение 1 о генерации первичных правил.

Для возможности генерации первичных правил из пары q необходимо и достаточно, чтобы |in| = |out| и isVowel(v1) = isVowel(u1), v1in1, u1o1.

Доказательство.

Под возможностью использования пары q понимается совпадение типов букв всех соответствующих групп из оригинала и перевода, то есть выполнение условия isVowel(v1) = isVowel(u1), v1 ini, u1 oj, i = 1,…, |in|, j = 1,…, |out|.

Через isVowel(inx) будем обозначать тип букв, составляющих группу inx, через isVowel(ox) – тип групп, составляющих ox.

По определению операции разделения слова на группы гласных и группы согласных для любого ini из in isVowel(ini) isVowel(ini-1) и isVowel(ini) isVowel(ini+1), то есть для любой группы тип составляющих ее букв не равен типу букв, составляющих соседние группы. Для любой группы oi из out это утверждение также верно.

Таким образом, если isVowel(ini) = isVowel(oi), то isVowel(ini+1) = isVowel(oi+1).

Из этого следует, что если в данном слове w выполняется равенство isVowel(in1) = isVowel(o1), то для него верно также, что isVowel(ini) = isVowel(oi), где i = 1,…, n, n – мощность меньшего из множеств in и out. Если же |in| = |out|, то n = |in| = |out|, а значит, условие isVowel(ini) = isVowel(oi) выполняется для всех ini из in и oi из out. Невыполнение начальных условий приводит к невозможности генерации правил на основе пары q. Таким образом, данные условия являются необходимыми.

Пара q может не отвечать дополнительным условиям, то есть, начальные условия являются достаточными.

Применение данного утверждения на практике позволяет существенно сэкономить вычислительные затраты при нахождении кандидатов в правила, так как нет необходимости проверять соответствие типов букв во всех группах пары q.

Неравное количество групп в оригинале и переводе означает наличие нечитаемой буквы или сочетания букв (например, Kate Кейт, Atheret Атере, Hlne Элен). Если в обучающем множестве содержится большое количество слов с неравным количеством групп, это может снизить качество обучения на первом этапе. В этом случае слово также может участвовать в порождении правил, пока соблюдено условие (2).

Образованные таким образом правила составляют множество R, множество кандидатов в правила (см. пример 2).

Пример 2. Пример порождения первичных правил.

Границы групп обозначены вертикальными линиями.

Соответствующие группы из оригинала и перевода имени объединяются в правила.

Пример 3. Избыточность системы правил.

транскрипции R = {aа, lл, eе, rsш, rstшт, tт, iи, gг}. Эта система избыточна, так как для слова существует две последовательности правил, с помощью которых оригинал может быть преобразован в перевод: K = {aа, lл, eе, rsш, tт, iи, gг} и K2 = {aа, lл, eе, rstшт, iи, gг}, K1, K2 R.

На данном этапе множество R не может использоваться в качестве системы правил транскрипции, так как оно чаще всего избыточно и неоднозначно. Под избыточностью понимается существование для строки на языке оригинала и ее перевода более одной последовательности правил r1, …, rn R таких, что = r1() + r2() + … + rn() и = r1() + r2() + … + rn() (см. пример 3). Неоднозначной система правил называется, если для строки на языке оригинала существует более одной строки на языке перевода, которая может быть получена применением к правил из R (см. пример 4).

Пример 4. Неоднозначность системы правил.

транскрипции R = { aа, lл, lль, mм, eе, dд }.

Эта система неоднозначна, так как для слова Almeda из обучающего множества существует два варианта перевода:

Альмеда и Алмеда, – которые могут быть получены применением к оригиналу последовательностей правил K eе, dд } соответственно, K1, K2 R.

Для избавления от избыточности из R удаляются следующие правила:

• Редкие правила – правила, встретившиеся в обучающем множестве менее раз. Велика вероятность того, что выделенное соответствие подстрок оригинала и перевода является исключением из правил или ошибкой эксперта. – параметр, который может быть настроен в зависимости от объема обучающего множества, в настоящей системе принято = 3;

• Правила, которые могут быть объяснены с помощью других правил. Правило r0() = r1() + r2() + … + rn() и r0() = r1() + r2() + … + rn();

• Слишком длинные правила – правила, левая часть которых состоит более чем из символов (в описываемой системе используется = 3). Скорее всего, такое правило может быть объяснено с помощью других правил, или будет объяснено на следующих этапах обучения. Исключение составляют правила, правая часть которых состоит из одного символа – они не могут быть разложены на более мелкие правила. Например, при сокращении множества R правило «ouia уиа» будет удалено, правило «tsch ч» – не будет.

Для избавления системы правил от неоднозначностей в неоднозначные правила вводятся контексты. Система правил, полученная на первом этапе, неоднозначна, если в ней присутствует хотя бы одна пара правил r1 и r2 таких, что r1() = r2(), r1() r2() r1(pl) = r1(pr) = r2(pl) = r2(pr) =. Появление таких правил может быть вызвано неоднозначностями правил чтения входного языка, но нередко правила чтения для данной буквы зависят от ее позиции в слове и соседних букв, и неоднозначности можно разрешить включением в правила контекстов (см. пример 5). Контекстами в данном случае называются буквы, которые предшествуют (pl, левый контекст) строке правила в словах, где встречается это правило, или следуют за ней (pr, правый контекст).

французского языка).

При порождении первичных правил генерируется два правила для буквы l: «l л» и «l ль». Для разрешения неоднозначности, то есть определения случаев, когда должно употребляться одно из этих правил, к правилам добавляются контексты – символы, предшествующие строке и следующие за ней в именах обучающей выборки, где употребляется это правило (то есть, в именах, где на i-м месте в оригинале содержится группа «l», а в переводе – группы «л» или «ль»):

Примеры употребления правила «l л»: Anjela – Анжела, Cella – Селла, Ecclesianne – Экклезьянн, Flora – Флора, Hilange – Иланж, Lacene – Ласен. Правило, 2.3.2 Сложные правила Система правил, порожденная на первом этапе, для многих обучающих множеств является полной. Однако существует несколько типов правил, которые не могут быть сгенерированы с помощью разделения слова на группы гласных и согласных и их анализа:

• Правила, строки и/или которых состоят из букв разных типов (гласных и согласных). Например, правило qu к для французско-русской транскрипции;

Правила для непроизносимых букв в конце или в начале слова.

Порождение таких правил осуществляется путем анализа слов обучающего множества с помощью уже существующей системы правил. Этап порождения сложных правил можно разделить на следующие подэтапы:

1. Разделение слов из обучающего множества на слоги;

2. Пробный разбор слогов, порождение правил;

3. «Склеивание» неразобранных слогов;

Разделение слов на слоги Как это было отмечено выше, термин «слог» в данной работе используется не в классическом лингвистическом значении минимальной единицы речевого потока.



Pages:     || 2 |


Похожие работы:

«СТЕПАНОВ СЕРГЕЙ ВЛАДИМИРОВИЧ ОРГАНИЗАЦИОННО-СОДЕРЖАТЕЛЬНЫЕ УСЛОВИЯ ВЗАИМОДЕЙСТВИЯ МЕТОДИЧЕСКОЙ И СОЦИАЛЬНОПЕДАГОГИЧЕСКОЙ СЛУЖБ ОБЩЕОБРАЗОВАТЕЛЬНОЙ ШКОЛЫ 13.00.01 – Общая педагогика, история педагогики и образования Диссертация на соискание ученой степени кандидата педагогических наук Научный руководитель – доктор педагогических наук, профессор В.Н. Гуров Ставрополь, СОДЕРЖАНИЕ Введение...........................»

«Старчикова Валерия Викторовна ОБЩЕСТВЕННЫЙ КОНТРОЛЬ В ПРАВОВОМ ГОСУДАРСТВЕ (ТЕОРЕТИКО-ПРАВОВОЕ ИССЛЕДОВАНИЕ) 12.00.01 – теория и история права и государства; история учений о праве и государстве ДИССЕРТАЦИЯ на соискание ученой степени кандидата юридических наук Научный...»

«Усачёва Ольга Александровна Оценка андрогенного статуса и качества эякулята у мужчин после оперативного лечения варикоцеле 14.01.23. – урология Диссертация на соискание учёной степени кандидата медицинских наук Научный руководитель : доктор медицинских наук,...»

«ХА ВАН ЧЬЕН ФОРМИРОВАНИЕ СХЕМЫ БАЗИРОВАНИЯ ПРИ РАЗРАБОТКЕ ОСНАСТКИ ДЛЯ СБОРКИ УЗЛОВ ИЗ МАЛОЖЁСТКИХ ДЕТАЛЕЙ Специальность 05.02.08 – Технология машиностроения Диссертация на соискание ученой степени кандидата технических наук Научный руководитель : кандидат технических...»

«Данилов Александр Анатольевич Технология построения неструктурированных сеток и монотонная дискретизация уравнения диффузии 05.13.18 – Математическое моделирование, численные методы и комплексы программ ДИССЕРТАЦИЯ на соискание учёной степени кандидата физико-математических наук Научный руководитель д. ф.-м. н. Василевский Юрий Викторович Москва – 2010 Содержание Введение..................»

«МАКАРЕВИЧ Ольга Владимировна ИНТЕРПРЕТАЦИЯ РЕЛИГИОЗНЫХ ТЕКСТОВ В ТВОРЧЕСТВЕ Н.С. ЛЕСКОВА ВТОРОЙ ПОЛОВИНЫ 1870-х – 1890-х гг.: ВОПРОСЫ ПРОБЛЕМАТИКИ И ПОЭТИКИ Специальность 10.01.01 – Русская литература Диссертация на соискание ученой степени кандидата...»

«Асеева Анастасия Дмитриевна СОЦИАЛЬНО-ПСИХОЛОГИЧЕСКИЕ АСПЕКТЫ ЗАВИСИМОГО ПОВЕДЕНИЯ В МЕЖЛИЧНОСТНЫХ ОТНОШЕНИЯХ В ЮНОШЕСКОМ ВОЗРАСТЕ Специальность – 19.00.05 – социальная психология Диссертация на соискание ученой степени кандидата психологических наук Научный руководитель – доктор психологических наук, профессор Сарычев С.В. Курск – 2014 1 Оглавление Введение Глава 1. Социально-психологический анализ зависимого поведения. 1.1....»

«ГАЙВОРОНСКАЯ СВЕТЛАНА АЛЕКСАНДРОВНА ИССЛЕДОВАНИЕ МЕТОДОВ ОБНАРУЖЕНИЯ ШЕЛЛКОДОВ В ВЫСОКОСКОРОСТНЫХ КАНАЛАХ ПЕРЕДАЧИ ДАННЫХ Специальность 05.13.11 Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей Диссертация на соискание учёной степени кандидата физико-математических наук Научный руководитель : д. ф.-м. н., член-корр. РАН, профессор Смелянский Р.Л. Москва – Оглавление Стр...»

«ЯХИНА ИРИНА АЙРАТОВНА РАЗВИТИЕ ТЕОРИИ И МЕТОДИК ИНТЕРПРЕТАЦИИ В ЗОНДИРОВАНИЯХ МЕТОДОМ ПЕРЕХОДНЫХ ПРОЦЕССОВ ПРИ ИЗУЧЕНИИ ГЕОЭЛЕКТРИКИ СЛАБОКОНТРАСТНЫХ СРЕД Специальность: 25.00.10 – Геофизика, геофизические методы поисков полезных ископаемых Диссертация на...»

«УДК 316.32 АБДУЛЛАЕВ Ильхом Заирович ИНФОРМАТИЗАЦИЯ ОБЩЕСТВЕННО-ПОЛИТИЧЕСКОЙ ЖИЗНИ В УСЛОВИЯХ ГЛОБАЛИЗАЦИИ РАЗВИТИЯ Специальность – 23.00.04 – Политические проблемы мировых систем и глобального развития Диссертация на соискание ученой степени доктора политических наук Ташкент – 2007 ОГЛАВЛЕНИЕ с. 3 – ВВЕДЕНИЕ Глава 1. Понятийно-категориальные основы теории информационного общества...»

«РАЙСКИЙ Денис Андреевич НАЦИОНАЛЬНАЯ БЕЗОПАСНОСТЬ РОССИИ В КОНТЕКСТЕ СЕТЕЦЕНТРИЧЕСКИХ ВОЙН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ МИРОВОЙ АРХИТЕКТУРЫ Специальность: 23.00.04 – политические проблемы международных отношений, глобального и регионального развития Диссертация на соискание ученой степени кандидата политических наук Научный руководитель д.и.н., проф. Ягья В.С. Санкт-Петербург...»

«МЕЩЕРЯКОВ ИЛЬЯ ГЕОРГИЕВИЧ УПРАВЛЕНИЕ ОРГАНИЗАЦИОННЫМИ НОВОВВЕДЕНИЯМИ В ИННОВАЦИОННООРИЕНТИРОВАННЫХ КОМПАНИЯХ Специальность 08.00.05 – Экономика и управление народным хозяйством (управление инновациями) диссертация на соискание ученой степени кандидата экономических наук Научный руководитель д-р экон....»

«НОВОЖИЛОВА Елена Олеговна СОЦИАЛЬНО-ИСТОРИЧЕСКИЙ ПРОЦЕСС: ЭКОЛОГИЧЕСКОЕ ИЗМЕРЕНИЕ (социально-историческая экология) Специальность 22.00.01 – теория, методология и история социологии Диссертация на соискание ученой степени доктора социологических наук Научный консультант – доктор философских наук, профессор П.И. Смирнов Санкт-Петербург 2013 ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ Актуальность темы исследования. Взаимоотношения общества и...»

«Кикин Андрей Борисович РАЗРАБОТКА МЕТОДОВ И СРЕДСТВ ДЛЯ СТРУКТУРНОКИНЕМАТИЧЕСКОГО ПРОЕКТИРОВАНИЯ РЫЧАЖНЫХ МЕХАНИЗМОВ МАШИН ЛЕГКОЙ ПРОМЫШЛЕННОСТИ Специальность 05.02.13 - Машины, агрегаты и процессы (легкая промышленность) Диссертация на соискание ученой степени доктора технических наук V ;г, 7 Г.^ТЗ ~ \ Научный консультант ^' '^-^•'-^зн(->,1\^/1\. 1 и1'^А, 5 д.т.н. проф. Э.Е. Пейсах „, Наук...»

«Василенко Светлана Владимировна СТАТУСНО-РОЛЕВАЯ ДЕТЕРМИНАЦИЯ КАЧЕСТВА ПРИНЯТИЯ РЕШЕНИЙ СПОРТСМЕНАМИ ГРУППОВЫХ ВИДОВ СПОРТА Специальность 19.00.05 – Социальная психология ДИССЕРТАЦИЯ на соискание ученой степени кандидата психологических наук Научный руководитель : доктор психологических наук, профессор В. Б. Никишина Курск – Содержание ВВЕДЕНИЕ.. ГЛАВA 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЙ АНАЛИЗ ПРОБЛЕМЫ СТАТУСНО-РОЛЕВОЙ ДЕТЕРМИНАЦИИ И...»

«Черник Виктория Борисовна Фатические речевые жанры в педагогическом дискурсе и тексте урока Специальность 10.02.01 – русский язык Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель – доктор филологических наук, профессор Н.А. Купина Екатеринбург 2002 Оглавление Введение..3 Глава 1. Речевые этикетные жанры в педагогическом дискурсе.20...»

«УДК 577.322.6 Наташин Павел Викторович РОЛЬ ОТДЕЛЬНЫХ АМИНОКИСЛОТНЫХ ОСТАТКОВ В БИОЛЮМИНЕСЦЕНЦИИ Са2+-РЕГУЛИРУЕМЫХ ФОТОПРОТЕИНОВ 03.01.02 – биофизика Диссертация на соискание ученой степени кандидата биологических наук Научный руководитель : к.б.н. Е.С. Высоцкий Красноярск,...»

«УСТИЧ Дмитрий Петрович ФОРМИРОВАНИЕ СИСТЕМЫ МОНИТОРИНГА ИННОВАЦИОННОЙ АКТИВНОСТИ НА КРУПНЫХ РОССИЙСКИХ ПРЕДПРИЯТИЯХ Специальность: 08.00.05 – Экономика и управление народным хозяйством (управление инновациями) Диссертация на соискание ученой степени кандидата...»

«СЛУКОВСКИЙ ЗАХАР ИВАНОВИЧ ЭКОЛОГО-ГЕОХИМИЧЕСКИЙ АНАЛИЗ СОСТОЯНИЯ ДОННЫХ ОТЛОЖЕНИЙ МАЛЫХ РЕК УРБАНИЗИРОВАННЫХ ТЕРРИТОРИЙ (НА ПРИМЕРЕ ГОРОДА ПЕТРОЗАВОДСКА) Диссертация на соискание ученой степени кандидата биологических наук Специальность 03.02.08 – экология Научный руководитель : доктор биологических наук, член-корреспондент РАН, профессор Ивантер Э.В. Петрозаводск СОДЕРЖАНИЕ...»

«Быстров Дмитрий Олегович АОРТОКОРОНАРНОЕ ШУНТИРОВАНИЕ НА РАБОТАЮЩЕМ СЕРДЦЕ БЕЗ ИСКУССТВЕННОГО КРОВООБРАЩЕНИЯ У БОЛЬНЫХ СО СНИЖЕННОЙ ФРАКЦИЕЙ ВЫБРОСА ЛЕВОГО ЖЕЛУДОЧКА 14.01.26 - сердечно-сосудистая хирургия Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : доктор...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.