WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Московский государственный

университет им. М.В. Ломоносова

Факультет вычислительной математики и кибернетики

Волкова И.А.

Введение в компьютерную лингвистику.

Практические аспекты создания

лингвистических процессоров

(Учебное пособие для студентов факультета ВМиК МГУ)

Москва

2006 УДК 519.6+681.3.06 Данное учебное пособие разработано в поддержку спецкурса «Компьютерная лингвистика», читаемого на факультете ВМиК для студентов 3-5 курсов. Приводятся подробные пояснения и рекомендации.

Рецензенты:

проф. Машечкин И.В.

доц. Корухова Л.С.

Волкова И.А.

«Введение в компьютерную лингвистику. Практические аспекты создания лингвистических процессоров. (Учебное пособие для студентов факультета ВМиК МГУ)»

Издательский отдел факультета ВМиК МГУ (лицензия ЛР №040777 от 23.07.96), 2006 — 43 с.

Печатается по решению Редакционно-Издательского Совета факультета Вычислительной Математики и Кибернетики МГУ им. М.В. Ломоносова.

ISBN 5-89407-242- © Издательский отдел факультета вычислительной математики и кибернетики МГУ им. М.В. Ломоносова, Замечания по данной электронной версии присылайте на сmсmsu.infо@gmail.cоm Содержание 1. Основные понятия и определения компьютерной лингвистики.

2. Морфологический компонент лингвистического процессора ЕЯ

2.1. Морфологическая модель естественного языка.

2.2. Некоторые особенности и закономерности морфологии русского языка.

2.3. Морфологическая база данных

2.4. Морфологические анализаторы и синтезаторы ЕЯ

3. Синтаксический компонент лингвистического процессора ЕЯ.... 3.1. Синтаксическая модель естественного языка

3.2. Модели представления синтаксической структуры предложения........... 3.3. Типы формальных грамматик, используемых для описания синтаксиса естественного языка

3.4. Синтаксическая база данных

3.5. Синтаксические анализаторы фраз ЕЯ

3.6. Синтаксические отношения (связи, зависимости)

3.7. О многовариантности синтаксического анализа

4. Семантический компонент ЕЯ-систем

4.1. Теория концептуальной зависимости Р. Шенка

4.2. Теория лингвистических моделей «СМЫСЛТЕКСТ»

4.3. Падежные системы

4.4. Звук и смысл

5. Прагматический компонент ЕЯ-систем

5.1. Предмет изучения прагматического компонента

5.2. Анализ связного текста (дискурса)

Практические аспекты создания лингвистических процессоров. Учебное пособие.

1. Основные понятия и определения компьютерной лингвистики.

Компьютерная лингвистика изучает различные аспекты (теоретические, алгоритмические, программистские), связанные с реализацией всевозможных систем, обрабатывающих какие либо высказывания на ЕЯ (ЕЯ-систем).

Можно выделить следующие основные классы ЕЯ-систем.

Интеллектуальные вопрос-ответные системы. При разработке этих систем основное внимание уделяется развитию моделей и методов, позволяющих осуществлять перевод высказываний на ЕЯ, относящихся к узким и заранее фиксированным проблемным областям, в формальное представление, интерпретацию этих высказываний и генерацию ответных высказываний на ЕЯ по заранее известным, фиксированным правилам.

Системы общения с базами данных. Основная задача таких систем заключается в выполнении перевода запросов неподготовленных конечных пользователей базы данных с ЕЯ на формальный язык запросов к базе данных.

Диалоговые системы решения задач. Эти системы берут на себя не только функции доступа к базе данных, но и функции интеллектуального монитора, обеспечивающего решение заранее определенных классов задач (например, планирование путешествий, составление контрактов). Основное направление использования этих ЕЯ-систем — реализация естественноязыкового общения с экспертными системами.

Системы обработки связных текстов. Эти системы занимаются обработкой текстовой информации и речи. Объем и разнообразие такой информации возрастает с каждым днем. Развитие и совершенствование систем автоматической обработки текстов на ЕЯ (АОТ-ситем) в настоящее время является наиболее актуальным и перспективным. Примеры областей применения АОТ-систем: обучение естественному языку, автоматический перевод, автокорректоры, распознавание речи, синтез речи, автоматическое реферирование, поисковые системы.

Практически любые ЕЯ-системы в той или иной форме имеют и используют морфологический компонент ЛП, некоторые из них так или иначе используют и синтаксический компонент ЛП. Наиболее развитые и сложные ЕЯ-системы имеют в своем составе также семантический и прагматический компоненты и анализируют не только отдельные предложения, но и входной текст в целом.

Лингвистический процессор (ЛП) — комплекс программ, обеспечивающий анализ и синтез текстов на естественном языке. Задачей ЛП является разбор и «понимание»

поступившей на вход фразы на ЕЯ (в случае анализа) или построение фразы ЕЯ, соответствующей формальному описанию ее смысла (в случае синтеза).

В состав ЛП входят три вида обеспечения:



— лингвистическое (формальная модель ЕЯ, словари, грамматики, лингвистические таблицы, правила);

— математико-алгоритмическое (трансляторы формальных языков, алгоритмы переработки текстов):

— программное.

Восприятие естественноязыковой информации машиной в широком смысле заключается в распознавании смысла текста, которое осуществляется на основе автоматических словарей и формальных грамматик.

Текст можно определить как избыточную многоуровневую систему хранения и передачи информации.

Традиционно в ЕЯ выделяются следующие языковые уровни: морфологический, синтаксический, семантический (иногда и прагматический). На каждом языковом уровне используются свои структуры данных, которые обрабатываются и формируются соответствующими компонентами ЛП. В целом ЛП можно рассматривать как многоуровневый транслятор ЕЯ, переводящий (в случае анализа) входное предложение ЕЯ во внутреннее представление смысла этого предложения и наоборот в случае синтеза. ЛП работает по следующей схеме:

Предложение Морфологические Синтаксические Семантические Существует два аспекта системного изучения языка, противопоставляющиеся по типу изучаемых отношений между единицами языка и/или языковыми конструкциями:

парадигматика и синтагматика.

Парадигматика — раздел науки о языке, занимающийся парадигматическими отношениями (их классификацией, определением области действия и т.п.). Другими словами, парадигматика изучает языковую систему как совокупность лингвистических классов — парадигм.

Парадигма — любой класс лингвистических единиц, объединенных по наличию у них общего признака или вызывающих одинаковые ассоциации. В одну парадигму объединяются языковые единицы, которые могут быть поставлены в соответствие одному объекту или явлению: значению, ситуации, слову, классу слов и т.п.

Часто термин «парадигма» используют как синоним термина «морфологическая парадигма», хотя в зависимости от языкового уровня, к которому относится выделяемый класс единиц, говорят о — морфологической парадигме, — синтаксической парадигме, — лексической парадигме, — словообразовательной парадигме.

Морфологическая парадигма отражает реализацию грамматических категорий и характеризуется наличием инвариантной части (корня, основы), конечным перечнем грамматических значений и связанных с ними специальных формантов (например, окончаний). Парадигмы слов одной части речи имеют одинаковое внутреннее Практические аспекты создания лингвистических процессоров. Учебное пособие.

устройство и одинаковый набор окончаний. Морфологическая парадигма обычно изображается как таблица форм, устанавливающая соответствие между грамматическими значениями и средствами их выражения. Например, для слова «завод» морфологическая парадигма будет такой:

Синтаксическая парадигма — ряд структурно различающихся, но семантически соотносительных синтаксических конструкций — предложений или словосочетаний, связанных в силу их семантической близости отношениями перифразы. Например, Маша передала Пете книгу.

Пете передана книга от Маши.

Книга передана Машей Пете.

Книга передана от Маши к Пете.

Лексическая парадигма объединяет грамматически однородные слова, имеющие семантическую общность. Например, слова-синонимы, или «утро — завтрак — будильник — кофе — восход».

Словообразовательная парадигма объединяет однокоренные слова, имеющие одну и ту же производящую основу и находящиеся на одной и той же ступени словопроизводства. Например, делать, переделать, сделать, делающий,…; дело, деловой… Синтагматика — раздел науки о языке, занимающийся изучением синтагматических отношений между знаками языка, возникающих между последовательно расположенными его единицами при их непосредственном сочетании друг с другом в реальном потоке речи или в тексте.

Синтагматика изучает отношения между единицами языка «по горизонтали», в отличие от парадигматики, изучающей отношения между единицами языка «по вертикали».

Синтагматические отношения непосредственно наблюдаемы и основаны на линейном характере речи и свойстве ее протяженности, однонаправленности, последовательности. Элементы языка, следуя один за другим, образуют определенные языковые цепочки — синтагмы, внутри которых составляющие их элементы вступают в синтагматические отношения.

Поскольку почти все языковые единицы находятся в зависимости либо от того, что их окружает в потоке речи, либо от тех частей, из которых они состоят сами, развитие процедур синтагматического анализа идет по двум направлениям: а) валентностный анализ и — шире — анализ сочетаемости языковых единиц и б) дистрибутивный анализ.

В широком смысле в языкознании под валентностью понимается общая сочетательная способность слов и единиц иных языковых уровней. В узком смысле понятие валентности сопоставимо с понятием n-местного предиката в логике предикатов.

Дистрибутивный анализ — метод исследования языка, основанный на изучении окружения (дистрибуции, распределения) отдельных единиц в тексте и не использующий сведений о полном лексическом или грамматическом значении этих единиц.

Процедуры синтагматического анализа реализуют прежде всего приемы членения языковых последовательностей и определения их состава, а также особые способы обнаружения влияния одной единицы на другую или их взаимодействия. Особенно четко это проявляется в фонологии и морфологии.

Парадигматические отношения, в отличие от синтагматических, не линейны и не одновременны в потоке речи или тексте, они представляют собой соотношения между элементами языка, объединяемыми в сознании говорящего некими ассоциациями (в силу общности их формы и/или содержания). В случае парадигматических отношений присутствие одного из членов парадигматического ряда в синтагматической цепочке исключает наличие другого, но делает возможной их взаимозамену. Т.е.

синтагматические отношения проявляются в совместной встречаемости языковых единиц, а парадигматические — в их взаимоисключении и взаимозамене.

Синтагматика организована по принципу логической конъюнкции, отношения «и–и», парадигматика же — по принципу логической дизъюнкции, отношения «или–или».

Первый тип отношений характеризует речь, процесс, второй — систему языка. Одна и та же сущность, входя в систему языка, осуществляет функцию дизъюнкции, но, входя в текст, проявляет функцию конъюнкции. В тексте языковые единицы сосуществуют, в системе образуют парадигмы.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

2. Морфологический компонент лингвистического процессора ЕЯ Морфологический компонент ЛП — комплекс программ, обеспечивающих морфологический анализ и синтез лексем ЕЯ.

Морфология (словоизменение) — раздел науки, изучающий части речи, их категории и формы слов.

Морфема — минимальная значащая часть слова (корень, приставка, суффикс, окончание, постфикс).

Основа — часть слова без окончания (постфикса).

Флексия — окончание (постфикс).

Лексема — слово, рассматриваемое как единица словарного состава языка в совокупности его конкретных грамматических форм и выражающих их флексий, а также возможных конкретных смысловых вариантов.

Словоформа — лексема в некоторой грамматической форме.

Морфологическая парадигма — система форм одного слова (обычно задается таблицей).

Омонимия — звуковое совпадение различных языковых единиц, значения которых не связаны друг с другом.

Лексические омонимы — одинаково звучащие и пишущиеся слова, не имеющие общих элементов смысла и не связанные ассоциативно. Например, лук (растение) — лук (для стрельбы), flaw (трещина) — flaw (порыв ветра), брак (изъян) — брак (женитьба).

Различаются полная омонимия, когда совпадают все формы слов, и частичная омонимия, при которой совпадают только отдельные формы слов, называемые омоформами. Например, стих (глагол в прошедшем времени, единственном числе мужского рода) — стих (существительное в единственном числе, именительном падеже), saw (пила) — saw (2-я форма глагола «to see»).

Омографы — слова, имеющие одинаковое написание, но различное произношение.

Например, мука-мука, lead [led] (свинец) — lead [li:d] (вести), tear [te ] (рвать) — tear [ti ] (слеза).

Омофоны — слова, которые произносятся одинаково, но различаются в написании.

Например, косный – костный, write — right, week — weak.

2.1. Морфологическая модель естественного языка.

Существующие в настоящее время морфологические модели различаются в основном по следующим параметрам.

Во-первых, морфологические модели отличаются по результатам работы основанных на них морфологических анализаторов. На вход морфологический анализатор получает словоформу некоторого ЕЯ, а на выходе может выдавать все значения грамматических характеристик (род, число, падеж, вид, лицо и т.п.) заданной словоформы, а может просто отвечать на вопрос, принадлежит ли заданная словоформа некоторому ЕЯ или нет (в этом случае морфологические анализаторы называют акцепторами).

Во-вторых, морфологические модели могут ориентироваться на полное покрытие лексики (т.е. все лексемы, которые могут обрабатывать программы морфологического уровня находятся в базе данных) или частичное покрытие лексики (морфологическая модель учитывает возможность появления лексемы, не занесенной в базу данных).

В-третьих, морфологические модели различаются по способу представления и членения словоформ. Существует два основных способа представления лексем.

1) В базе данных хранятся все словоформы всех лексем (возможно, с набором их грамматических характеристик), и каким-то образом определяются словоформы, принадлежащие одной лексеме. Такой способ представления лексем удобен и эффективен для малофлективных языков, в которых различные грамматические категории реализуются, в основном, не с помощью вариации флексий, а некоторым грамматическим способом, например, с помощью предлогов. К малофлективным языкам относится, например, английский язык.

2) В базе данных хранятся основы лексем и списки флексий (возможно, с приписанными им значениями грамматических характеристик), которые присоединяются к основе для получения какой-либо словоформы. Такой способ представления лексем эффективен для флективных языков, в которых различные грамматические категории реализуются путем вариации флексий.

Флективным является, например, русский язык. Модели, в которых принят данный способ представления лексем подразделяются еще на две группы: в одной учитываются чисто орфографические основы и флексии, в другой — так называемые псевдоосновы (неизменяемая начальная часть слова) и псевдофлексии (варьируемая при словоизменении конечная часть слова). Выбор того или иного варианта определения основы связан, в основном, с эффективностью реализации и назначением морфологического компонента в В любой морфологической модели, учитывающей значения грамматических характеристик лексем, с каждой лексемой связаны: синтаксический класс (часть речи), словоизменительный (парадигматический) класс и значения грамматических категорий, или грамматических переменных (ГП), соответствующих синтаксическому классу. Различаются свободные и связанные ГП. Связанные ГП — ГП, присущие лексеме в целом (всем ее словоформам), например, одушевленность и род для существительных. Свободные ГП — совокупность ГП, по которым лексема изменяется, например, число и падеж для существительных.

В один синтаксический класс объединяются лексемы, имеющие — общий набор ГП, — общий набор свободных ГП, — общее множество значений ГП, — общие синтаксические функции.

В грамматике (русского языка) выделяются следующие синтаксические классы, с которыми связаны следующие ГП (для классов неизменяемых лексем ГП не указаны).

— Существительные. ГП — одушевлённость, род, число, падеж. Свободные — Прилагательные. ГП — одушевлённость, род, число, падеж, степень.

Свободные ГП для полных форм — одушевленность, род, число, падеж.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

Свободные ГП для кратких форм — род, число. Свободные ГП для сравнительной степени — степень.

— Глаголы. ГП личных форм глагола - возвратность, вид, наклонение-время, лицо, род, число; кроме того, переходные глаголы имеют формы страдательного залога. Свободные ГП личных форм глагола — наклонение-время, лицо, род, число, залог. Причастия и деепричастия являются глагольными формами и входят в парадигму глагола. ГП причастий — возвратность, вид, время, залог, одушевленность, род, число, падеж. Парадигма причастий совпадает с парадигмой прилагательных, но у причастий нет форм сравнительной степени.

Свободные ГП для полных форм причастий — одушевленность, род, число, падеж. Свободные ГП для кратких форм причастий — род, число. ГП деепричастий — возвратность, вид, время. Свободные ГП деепричастий — время. Иногда удобно связать с глагольной лексемой чисто синтаксическую характеристику — переходность.

— Наречия.

— Личные местоимения. ГП — одушевленность, род, число, падеж, лицо.

Свободная ГП личных местоимений — падеж.

— Предлоги.

— Союзы.

— Числительные.

— Частицы.

— Междометия.

— Предикативы.

— Вводные слова.

Иногда в морфологических моделях выделяются синтаксические подклассы лексем, имеющие определенные морфологические и/или синтаксические особенности.

Например, в русском языке в классе прилагательных можно выделить местоименные прилагательные («который»), притяжательные прилагательные («дядин»), порядковые числительные («второй»).

2.2. Некоторые особенности и закономерности морфологии русского языка.

В парадигме существительных (кроме существительных с неопределенным родом) и прилагательных единственного числа мужского и среднего рода, а также любых существительных и прилагательных множественного числа форму винительного падежа (В.п.) можно определить т.о.:

— форма В.п. одушевленных существительных мужского рода единственного числа совпадает с формой родительного падежа (Р.п.);

— форма В.п. неодушевленных существительных мужского рода единственного числа совпадает с формой именительного падежа (И.п.);

— форма В.п. всех существительных среднего рода единственного числа совпадает — форма В.п. одушевленных существительных любого рода множественного числа совпадает с формой Р.п.;

— форма В.п. неодушевленных существительных любого рода множественного числа совпадает с формой И.п.

В парадигме всех существительных и прилагательных женского рода единственного числа форма предложного падежа всегда совпадает с формой дательного падежа.

В морфологической модели русского языка необходимо учесть наличие неизменяемых существительных, т.е. существительных, у которых все формы совпадают (например, «кофе», «метро»).

Почти в каждом склоняемом или спрягаемом синтаксическом классе существуют лексемы, у которых не существуют некоторые формы соответствующей парадигмы (например, существительное «ножницы» не имеет форм единственного числа, прилагательное «рад» не имеет полных форм). Такая морфологическая особенность должна быть учтена в морфологической модели.

Прилагательные русского языка имеют две сравнительные степени сильную («краснее») и слабую («покраснее»), которая образуется путем прибавления и флексии сравнительной степени, и префикса.

Самое большое количество форм имеют переходные глаголы несовершенного вида со следующими значениями ГП (на примере глагола делать):

— инфинитив (делать), — настоящее время, ед. число, 1 лицо (делаю), — настоящее время, ед. число, 2 лицо (делаешь), — настоящее время, ед. число, 3 лицо (делает), — настоящее время, мн. число, 1 лицо (делаем), — настоящее время, мн. число, 2 лицо (делаете), — настоящее время, мн. число, 3 лицо (делают), — прошедшее время, ед. число, мужской род (делал), — прошедшее время, ед. число, женский род (делала), — прошедшее время, ед. число, средний род (делало), — прошедшее время, мн. число (делали), — повелительное наклонение, ед. число, 2 лицо (делай), — повелительное наклонение, мн. число, 2 лицо (делайте), — действительное причастие настоящего времени (делающий), — страдательное причастие настоящего времени (делаемый), — действительное причастие прошедшего времени (делавший), — страдательное причастие прошедшего времени (деланный), — деепричастие настоящего времени (делая), — деепричастие прошедшего времени (делав/делавши), — возвратные формы (с –ся/–сь): инфинитив (делаться); настоящее время, 3 лицо (делается, делаются); прошедшее время (делался, делалась, делалось, делались);

действительное причастие настоящего времени (делающийся), действительное причастие прошедшего времени (делавшийся).

У всех непереходных глаголов нет никаких возвратных форм и форм страдательного залога.

У всех глаголов совершенного вида нет никаких форм настоящего времени (но появляются личные формы будущего времени) и страдательных форм.

Существуют еще некоторые подклассы глаголов со своим набором форм (возвратные, многократные, двувидовые и безличные), но в рамках данного задания их можно не рассматривать.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

Значения ГП:

2.3. Морфологическая база данных Морфологическая база данных должна содержать всю информацию, необходимую для работы процедур морфологического анализа и синтеза.

Если в выбранной морфологической модели принят словарь словоформ, то база данных должна содержать все словоформы учитываемых лексем с указанием их грамматических характеристик и принадлежности определенной лексеме.

Если же в морфологической модели принят словарь основ (псевдооснов), то база данных помимо основ учитываемых лексем должна содержать словарь списков флексий (псевдофлексий), соответствующих каждому парадигматическому классу.

С каждой флексией должен быть связан набор значений ГП, приписываемый основе с данной флексией. Если в морфологической модели учитываются какие-либо типичные особенности словоизменения (например, чередование букв в основе), то информация о них также должна храниться в базе данных.

Морфологическая БД помимо лексем с регулярным словоизменением должна содержать лексемы с отсутствующими формами («ножницы», «рад»), с супплетивными формами («лучше» для прилагательного «хороший»), неизменяемые существительные («метро»). Кроме того, БД обязательно должна содержать омонимичные лексемы (с полной и частичной омонимией).

2.4. Морфологические анализаторы и На вход программе морфологического анализа поступает словоформа.

Если программа работает со словарем словоформ, то задача морфологического анализа сводится к задаче поиска заданной словоформы в базе данных, где с каждой словоформой связаны ее грамматические характеристики. Если словоформа в словаре находится, то результатом морфологического анализа будут являться приписанные ей грамматические характеристики и начальная форма исходной лексемы, если же словоформа в словаре не находится, значит она не принадлежит выбранному подмножеству лексического состава ЕЯ.

Если же программа работает со словарями основ и флексий или псевдооснов и псевдофлексий, то имеет смысл все равно поискать исходную словоформу в словаре (она будет найдена, если соответствующая лексема неизменяемая или если данная словоформа имеет пустую флексию).

Если словоформа в словаре не нашлась, то можно, например, отщепить от нее последнюю букву (предположительно таким образом поделив словоформу на основу и флексию) и поискать оставшуюся часть в словаре. Если поиск опять оказался неуспешным, нужно отщепить две последние буквы и т.д. Процесс завершается, когда произведен поиск последнего варианта расщепления словоформы на основу и флексию.

А это происходит, либо когда отщеплено столько последних букв, какова максимальная длина флексии (с учетом постфикса, например, –ся/–сь) в соответствующем ЕЯ (в случае словаря основ и флексий), либо когда проанализирована пустая основа и вся словоформа как флексия (в случае словаря псевдооснов и псевдофлексий).

При этом, если ни один из вариантов основы или псевдоосновы в словаре не находится, то заданная словоформа не принадлежит выбранному подмножеству лексического состава ЕЯ. Если же какой-либо (или какие-либо, например, для словоформы «дома» — «дом-а» (сущ.) и «дома» (наречие)) вариант предположительной основы нашелся в словаре, надо проверить, может ли у данной основы быть предположительная флексия.

Если да — результатом анализа словоформы являются грамматические характеристики, связанные с флексией и начальная форма соответствующей лексемы, если нет — надо продолжить процесс расщепления исходной словоформы на основу и флексию.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

Отметим, что при использовании любого словаря результат морфологического анализа в общем случае неоднозначен в силу наличия в ЕЯ морфологической омонимии.

На вход программе морфологического синтеза поступают: а) лексема в начальной форме и б) значения свободных грамматических переменных (в некотором заранее оговоренном виде), соответствующих запрашиваемой словоформе данной лексемы или запрос на синтез всех форм заданной лексемы.

Результатом работы программы морфологического синтеза является либо словоформа с запрашиваемыми грамматическими характеристиками, либо все формы заданной лексемы. Морфологический синтез также может оказаться неоднозначным в случае вариативности флексии в какой-либо форме слова или при морфологической омонимии.

3. Синтаксический компонент лингвистического процессора ЕЯ Синтаксис — раздел грамматики, изучающий процессы порождения речи:

сочетаемость и порядок следования слов внутри предложения, а также общие свойства предложения как автономной единицы языка и высказывания как части речи.

Одним из центральных дискуссионных вопросов в области компьютерной лингвистики является вопрос о том, каковы задачи и место синтаксического этапа анализа в процессе определения смысла текста: речь идёт прежде всего о соотношении синтаксического и семантического уровней анализа и вообще о целесообразности разделения этих уровней в модели понимания ЕЯ. Существуют два принципиально различных подхода: модульный и интегральный.

Системы модульного типа. В этих системах каждому уровню лингвистического анализа соответствует отдельный компонент системы. Системы модульного типа допускают разные схемы взаимодействия компонентов (последовательная работа, параллельный перемежающийся анализ). Это не меняет существа дела: синтаксис и семантика обрабатываются в системе разными механизмами. При этом синтаксический уровень понимания входного текста выделен в отдельный блок, преобразующий текст в его синтаксическое представление.

Системы интегрального типа. В таких системах синтаксический и семантический анализаторы (а часто и анализатор прагматического уровня) слиты в отдельный блок.

Система ориентируется сразу на формирование (на основе текста) достаточно богатых концептуальных структур, а не на постепенную «глубинизацию» понимания, как это имеет место в системах модульного типа. Здесь не предусматривается формирование синтаксического представления входного текста. Синтаксическая информация используется фрагментарно и лишь как вспомогательная.

Системы интегрального типа успешно применяются пока только в ЕЯ-системах, работающих в предельно узкой проблемной области, и остается открытым вопрос о том, насколько они эффективны при обработке больших и разнообразных по тематике массивов текстов. Наиболее интересными и перспективными представляются системы модульного типа. И в данной работе рассматриваются, в основном, именно такие системы.

Среди сторонников систем модульного типа также нет полного единодушия, например, в вопросе о том, насколько развитым и «семантизированным» должен быть синтаксический этап анализа. Это находит отражение в разной степени дифференцированности синтаксических отношений, в разной глубине интерпретации синтаксических отношений, а также в широте привлечения семантической информации при построении синтаксической структуры входного предложения.

3.1. Синтаксическая модель естественного языка При создании синтаксического компонента необходимо разработать синтаксическую модель соответствующего ЕЯ, для чего необходимо определить следующее: способ описания синтаксиса языка, способ представления синтаксической структуры предложения, метод анализа и метод синтеза предложений на ЕЯ.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

3.2. Модели представления синтаксической структуры предложения 3.2.1. Деревья зависимостей Деревья зависимостей — наиболее наглядный и наиболее распространенный способ представления синтаксической структуры предложения. При этом предложение представляется как линейно упорядоченное множество элементов (словоформ), на котором можно задать ориентированное дерево (узлы — элементы множества). Каждая дуга, связывающая пару узлов, интерпретируется как подчинительная связь между двумя элементами, направление которой соответствует направлению данной дуги.

Множество всех узлов дерева, прямо или косвенно зависящих от какого-либо узла, включая сам этот узел, составляет группу зависимости этого узла.

Проективность — важное свойство древовидных структур, отражающее связь между отношением линейного порядка и отношением подчинения. Деревья зависимостей называются проективными, если для любого узла группа зависимости этого узла является неразрывным отрезком предложения.

Проективность предложения легко определяется при графическом изображении дерева зависимостей. При этом на плоскости рисунка выбирается прямоугольная система координат (ось ординат направлена сверху вниз). Узлы дерева (слова предложения) изображаются целочисленными точками плоскости: абсцисса узла — порядковый номер слова в предложении, ордината — высота слова в дереве. При таком способе изображения предложение проективно, если дуги дерева не пересекаются с вертикалями, проведенными из узлов (сверху вниз), и между собой. Различаются проективные и слабопроективные деревья зависимостей.

Дерево зависимости проективно, если для любых трех его узлов a, b, c из того, что b зависит от a, и c лежит между ними, следует, что c зависит от a или от b.

Дерево зависимости слобопроективно, если для любых его четырех узлов a, b, c, d из того, что b зависит от a, и d зависит от c следует, что пары a, b и c, d не разделяют друг друга (т.е. любые два интервала — при линейном изображении дерева зависимостей — либо не пересекаются, либо один из них содержится в другом).

Пример непроективного предложения: «Я памятник себе воздвиг нерукотворный».

Пример слабопроективного предложения: «Этому человеку мы будем обязаны всю жизнь».

В деловой прозе деревья зависимостей подавляющего большинства предложений проективны. За исключением некоторых особых случаев непроективность предложений в деловом тексте — верный признак недостаточной грамотности автора (хотя в художественной литературе, особенно в поэзии, отклонения от проективности вполне обычны).

Недостатки способа представления синтаксических структур в виде деревьев зависимостей:

1) жесткое требование рассматривать каждое формально выделенное вхождение слова в качестве отдельного элемента предложения;

2) все без исключения связи между словоформами трактуются как подчинительные.

3.2.2. Структуры непосредственно составляющих (НС-структуры) НС-структура — множество отрезков предложения, называемых составляющими, которое удовлетворяют следующим условиям:

— в качестве элементов множества отрезков предложения присутствуют само предложение и все его отдельные словоформы;

— в одну составляющую объединяются отрезки непосредственно синтаксически связанные между собой;

— любые две составляющие либо не пересекаются, либо одна из них содержится в С помощью НС-структур в предложении можно выделить не только отдельные слова, но и некоторые словокомплексы, функционирующие как единое целое (например, «будем обязаны»). С помощью НС-структур более естественно описываются конструкции с неподчинительными отношениями.

Пример НС-структуры (для наглядности каждая словоформа не заключается в скобки):

((Английские колонизаторы) доводили их (до (нищеты, (непрекращающегося голода) и (чудовищного (роста смертности))))) Недостатки НС-структур:

1) неоднозначность трактовки силы связи между элементами словосочетаний приводит к неоднозначным НС-структурам; например, ((чудовищного роста) смертности) или (чудовищного (роста смертности)).

2) НС-структуры не вводят никакой иерархии среди составляющих одного уровня.

3) Невозможно представить непроективные предложения.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

3.2.3. Ориентированные структуры непосредственно составляющих (ОНС-структуры) ОНС-структура — это структура составляющих, где для каждой неодноэлементной составляющей определена одна из её НС в качестве главной (неглавные зависят от главной).

Всякая ОНС-структура однозначно определяет соответствующее ей дерево зависимостей или НС-структуру (обратное неверно).

ОНС-структуры наследуют недостаток деревьев зависимостей — неспособность адекватно описывать неподчинительные связи.

3.2.4. Частично ориентированные структуры непосредственно составляющих (ЧОНС-структуры) Различия в формальных определениях ОНС-структур и ЧОНС-структур заключается в том, что главные НС выделяются не для всех элементов множества неодноэлементных составляющих, а лишь для некоторого его подмножества.

ЧОНС-структуры дают возможность описывать как подчинительные, так и неподчинительные связи, что существенно не только для представления конструкций с однородными членами, но и для более точного отражения отношений между компонентами аналитических сочетаний, например, форм составного будущего времени («буду читать») или предложно-падежных сочетаний («в школе»).

3.3. Типы формальных грамматик, используемых для описания синтаксиса естественного Описание основных типов формальных грамматик можно найти в [10], [11].

Перечисленные выше способы представления синтаксической структуры предложения на ЕЯ описываются соответственно следующими формальными грамматиками.

3.3.1. Грамматика зависимостей (GD) GD = VT, VN, VS, RT, RN, где VT — алфавит терминальных символов, VN — алфавит нетерминальных символов — классов терминалов, RT — множество правил классификации вида A a (терминал а RN — множество правил кустов вида А(В1 Вk * Вk+1 Вn) или А(*), которые для каждого класса А задают его систему управлений (классами Вj), выраженную в терминах классов, с указанием их линейного порядка Язык, порождаемый грамматикой зависимостей, — это множество терминальных цепочек а1…an, где каждый символ ai можно отнести к определенному классу Ai, и для любого Ai в грамматике существует соответствующее правило куста r RN.

3.3.2. Контекстно-свободные грамматики (GCF) Описание GCF см. в [10], [11].

Вывод каждой цепочки в GCF можно изобразить в виде дерева. Множество поддеревьев дерева соответствует множеству непосредственно составляющих порождаемой цепочки. Метка корня дерева — название полной составляющей предложения, а метки узлов-сыновей — имена соответствующих непосредственно составляющих.

3.3.3. Ориентированные контекстно-свободные грамматики — ориентировка грамматики GCF, которая вводится следующим образом: из множества правил R выделяется подмножество R1, в которое входят все правила вида А 1…n при n 1; 1,…n VG. Для каждого из этих правил в цепочке 1…n маркируется одно из вхождений k в качестве главного (например, сверху *).

Выделенный элемент может быть как терминальным, так и нетерминальным.

3.3.4. Частично ориентированные контекстно-свободные Отличие частично ориентированных контекстно-свободных грамматик от ориентированных контекстно-свободных грамматик заключается в том, что частичная ориентировка ' вводится не на всем множестве R1, а на некотором его подмножестве.

3.3.5. Сетевые грамматики Сетевые грамматики представляют собой одновременно аппарат для описания системы языка и для задания процедуры анализа предложений на основе понятия конечного автомата (см. [10], [11]). Задаются такие грамматики в виде графа (сети переходов).

Грамматика, заданная в виде конечного автомата, неспособна приписывать анализируемым цепочкам внутреннюю структуру. Но внутреннюю структуру можно фиксировать с помощью системы конечных автоматов (СКА), которую можно задать в виде рекурсивной сети переходов. СКА представляет собой совокупность конечных автоматов, среди которых выделен один главный автомат, с которого начинается работа СКА.

Отличие рекурсивной сети переходов от сети переходов заключается в том, что в рекурсивной сети переходов дуги переходов могут быть помечены как терминальными, так и нетерминальными символами (представляющими собой отдельные конечные автоматы).

Результат анализа входной цепочки посредством СКА определяется трассой движения по рекурсивной сети переходов. Трасса — это последовательность всех терминальных и нетерминальных символов, помечающих дуги, по которым совершается проход в процессе анализа заданной цепочки от начального состояния главного автомата до его конечного состояния, при этом символы, раскрывающие какой-либо нетерминальный символ, заключаются в круглые скобки. Естественно, допускается вложенность скобочных структур. СКА эквивалентна контекстно-свободным грамматикам, а содержимое выходной последовательности в момент завершения анализа цепочки представляет собой структуру данной цепочки в терминах непосредственно составляющих. Если в каждом автомате выделить главное состояние, то в результате можно получить ОНС-структуру. Если же главное состояние выделять только в некоторых конечных автоматах, то можно получить ЧОНС-структуру.

Практические аспекты создания лингвистических процессоров. Учебное пособие.

СКА присуще общее для всех контекстно-свободных грамматик ограничение — невозможность учета синтагматических свойств языковых единиц, проявляющихся в конкретных контекстуальных условиях. Это может привести к появлению лишних, неправильных структур. Но рекурсивные сети переходов не исчерпывают всех возможностей сетевых грамматик. Наиболее мощной среди сетевых грамматик является модель В. Вудса, названная расширенной сетью переходов (РАСП).

РАСП строится на базе рекурсивной сети переходов, но располагает средствами контроля над ходом анализа, состоящими в проверке определенных условий при переходе из одного состояния в другое и выработке некоторых указаний относительно дальнейшего продвижения по сети. Эти средства представляются в виде операторов, указанных на дугах. Операторы выполняют роль фильтров.

Один из примеров практического использования РАСП для синтаксического анализа английского языка описан в [12]. В этой работе РАСП представлена в несколько нетрадиционной форме и дополнена рядом элементов, позволяющих удобно и эффективно реализовать алгоритм синтаксического анализа.

Описание формальной грамматики ЕЯ представляет собой набор иерархически организованных грамматических сетей переходов. Каждая сеть строится по следующим правилам:

Обход сети начинается с состояния с номером «0», которое обязательно должно присутствовать в каждой сети. При этом последовательно просматриваются все альтернативы состояния. Вообще говоря, сколько различных альтернатив в состоянии, столько различных вариантов возможных продолжений построения синтаксической конструкции, описанной данной сетью. Алгоритм обхода сети позволяет реализовать многовариантный синтаксический анализ исходной фразы (и любой синтаксической конструкции, в частности).

Если текущая подцепочка входной цепочки словоформ «соответствует» очередной альтернативе (т.е. либо удалось свернуть некоторую вложенную сеть, либо первая словоформа исследуемой подцепочки совпала с указанным элементом альтернативы), то происходит переход в состояние, номер которого указан в альтернативе (звездочкой ( * ) обозначается точка выхода из сети). Затем процесс повторяется, исходя из нового состояния, до тех пор, пока либо ни один элемент альтернативы активного состояния не окажется подходящим (т.е. анализируемый фрагмент фразы не удовлетворяет данному пути описания ожидаемой синтаксической конструкции), либо очередным состоянием перехода будет * (что означает успешный вариант свертки по текущей сети).

Проходя по той или иной сети, можно свернуть (выделить) ту или иную синтаксическую конструкцию исходной фразы: простое предложение, именную группу, предложную группу, детерминант существительного, фразовый глагол и прочие.

В процессе свертки синтаксической конструкции могут определиться такие её грамматические характеристики, которые потребуются при включении данной конструкции в более сложные, объемлющие (например, число именной группы, форма глагольной конструкции и другие). Значения этих характеристик запоминаются в глобальных полях текущей сети посредством процедур, возможно перечисленных при альтернативах, и доступны объемлющим сетям.

Если же при свёртке текущей синтаксической конструкции анализируются грамматические характеристики вложенных синтаксических групп (сетей) или конкретных лексем, то их значения можно запомнить в локальных полях сети.

Действия, которые необходимо выполнить над локальными полями при выходе из сети (окончании свертки), описаны в процедурах, имена которых перечислены после имен локальных полей в описании сети. Результат выполнения этих процедур также может быть зафиксирован в глобальных полях сети. В качестве примера можно привести процедуру, проверяющую соответствие детерминанта определяемому существительному (по числу существительного) или процедуру, приписывающую множественное число однородной именной группы, состоящей из именных групп единственного числа.

Другими словами все локальные свойства любой синтаксической конструкции анализируются при ее свёртке и забываются, глобальные же характеристики сохраняются для объемлющих сетей.

Такая иерархическая организация грамматики позволяет сворачивать (анализировать) как целую фразу, так и любой ее фрагмент. Можно проверить, например, является ли исходная фраза правильным предложением английского языка, а можно выделить все потенциально возможные правильные именные группы исходной фразы (конечно же, изменив порядок обращения к сетям и предъявление исходных словоформ).

3.4. Синтаксическая база данных Синтаксическая база данных должна содержать:

— формальное описание грамматики некоторого фиксированного подмножества выбранного ЕЯ;

— описание синтаксических характеристик отдельных лексем или словосочетаний выбранного подмножества ЕЯ (синтаксический класс, синтаксический подкласс, переходность…); все учитываемые синтаксические характеристики могут содержаться в используемой для целей синтаксического анализа морфологической базе данных, в этом случае необходимо иметь программные средства, позволяющие извлекать их оттуда;

— описание моделей управления лексем выбранного подмножества ЕЯ (при соответствующем выборе метода синтаксического анализа).

3.5. Синтаксические анализаторы фраз ЕЯ Построить синтаксический анализатор ЕЯ значительно сложнее, чем морфологический по ряду причин: нет достаточно четкой и формальной лингвистической литературы, описывающий какой-либо ЕЯ, грамматика естественного языка принципиально Практические аспекты создания лингвистических процессоров. Учебное пособие.

недетерминирована и неоднозначна, синтаксис ЕЯ весьма разнообразен, сложен и произволен (особенно в разговорной речи и в поэзии). Трудными для автоматической обработки являются такие вполне допустимые в ЕЯ явления, как эллипсис (пропуск обязательных фрагментов предложения в силу возможности их восстановления из предыдущего контекста: «Маше нравился Саша. Она — ему.»), парцелляция (разбиение одного грамматического предложения на несколько предложений для усиления акцента на некоторые его фрагменты: «Приказано нам готовиться. К походу.»). Некоторые сложные явления языка часто обрабатываются специальными процедурами до работы синтаксического анализатора (т.е. осуществляется некоторый предсинтаксический анализ). К таким процедурам можно отнести, например, процедуры обрабатывающие фразиологизмы, группу числительного, проверяющие правильность расстановки скобок, знаков пунктуации и, возможно, проводящие некоторую дополнительную фрагментацию предложения. Кроме того, само автоматическое разбиения текста на ЕЯ на отдельные предложения является не совсем тривиальной задачей и выполняется на этапе предсинтаксического анализа.

Синтаксические анализаторы различаются между собой следующим: типом анализируемых текстов (деловая проза, художественная литература…); наличием и характером ограничений, накладываемых на структуру анализируемых предложений;

наличием требования правильности анализируемой цепочки словоформ; возможностью анализировать только отдельное предложение (или часть предложения) или некоторый фрагмент текста, состоящий более чем из одного предложения; стратегией анализа.

В настоящее время можно говорить о трех основных стратегиях, логикоалгоритмических подходах к построению синтаксических анализаторов.

3.5.1. Стратегия недетерминированного, фильтрового анализа Процедура синтаксического анализа на первом этапе порождает заведомо избыточный набор синтаксических связей (например, с помощью какой-либо порождающей грамматики), из числа которых на втором этапе с помощью серии фильтров (например, проверка правил согласования) отбираются только те синтаксические структуры входного предложения, которые являются правильными с точки зрения выбранных фильтров. В настоящее время такая стратегия имеет разновидности, которые различаются а) степенью ослабления контекстных условий на этапе порождения связей;

б) характером применяемых фильтров;

в) статусом синтаксических структур, подвергающихся фильтрации (синтаксическая структура входного предложения, синтаксические структуры фрагментов входного предложения).

Как правило, основанные на такой стратегии анализаторы затрачивают много времени на порождение и фиксацию в памяти ЭВМ избыточных синтаксических структур, которые затем, на этапе фильтрации, будут отвергнуты. Вместе с тем эта стратегия в большей степени, чем другие, гарантирует полноту анализа многозначного предложения.

3.5.2. Стратегия, опирающаяся на механизм возвратов Отличие данной стратегии от предыдущей заключается в том, что алгоритм на каждом шаге выбирает одну из возможных интерпретаций, но при этом сохраняется принципиальная возможность порождения альтернативных интерпретаций в случае какой-либо неудачи с первой (например, если полученная синтаксическая структура непроективна, не проходит семантический фильтр и т.п.). При этом анализ предложения прекращается после нахождения первого приемлемого варианта разбора.

Если приемлемый вариант разбора не удается получить одним из первых, то данная стратегия становится похожей на предыдущую. В среднем скорость работы анализатора, опирающегося на механизм возвратов, выше.

Чтобы избежать общего недостатка описанных двух стратегий (перебор большого количества лишних вариантов установления синтаксических связей), в некоторых синтаксических анализаторах применяются различные эвристические методы, управляющие процессом анализа, которые могут позволить получить предпочтительный вариант разбора первым. В качестве эвристик могут быть использованы, например, следующие предпочтения: значения омонимичных лексем можно упорядочить по вероятности их появления в тексте, и в первую очередь можно рассматривать наиболее вероятный вариант, затем (если первый почему-то не подошёл) следующий и т.д.; можно указать наиболее предпочтительные позиции расположения дополнений по отношению к сказуемому. Например, для известного примера Л.В. Щербы «Глокая куздра штеко будланула бокра и кудрячит бокренка», если выбирать наиболее вероятный вариант синтаксической интерпретации первых четырех слов, то получим следующее: кто — куздра, куздра какая — глокая, куздра что сделала — будланула, будланула как — штеко. Но возможны также и другие варианты:

кто — куздра, куздра какая — глокая, куздра что сделала — будланула, куздра чья — штеко или кто — штеко, штеко что сделала — будланула, будланула как — глокая (деепричастие), глокая кого — куздра. Правда, в последнем варианте должен быть отмечен пропуск запятой после деепричастного оборота.

3.5.3. Стратегия детерминированного анализа Алгоритм синтаксического анализа работает таким образом, что ни одна синтаксическая связь, установленная в процессе анализа предложения не может в последствии быть отвергнута, т.е. она обязательно присутствует в одной из синтаксических структур, являющихся результатом работы синтаксического анализатора.

При использовании стратегии детерминированного анализа вся языковая информация, которая в принципе может повлиять на установление связи между синтаксическими единицами предложения, привлекается одновременно. Причем, при установлении каждой связи должны соблюдаться такие условия, которые гарантировали бы получение связной синтаксической структуры предложения на выходе. Т.е. для окончательного вывода о наличии связи между двумя синтаксическими единицами необходимо проверить (кроме условий на сочетаемость) некоторые контекстные условия (наличие или отсутствие в фиксированной позиции других синтаксических единиц с заданными характеристиками, наличие или отсутствие в фиксированной позиции тех или иных знаков препинания и т.п.). Набор таких условий, сформулированных, для больших классов пар синтаксических единиц, описывает синтаксическую ситуацию, диагностичную для расстановки связей.

В основе стратегии детерминированного анализа лежит инвентарь синтаксических ситуаций, которые учитываются выбранной моделью синтаксиса ЕЯ. Описание каждой ситуации может быть задано декларативно или в процедурном виде — это зависит от языка программирования. Каждая синтаксическая ситуация привязана к какому-либо грамматическому явлению: наличие в предложении однородных членов, наличие причастного или деепричастного оборота, наличие конкретной грамматической формы подлежащего или сказуемого и т.п.

В целом, стратегия детерминированного анализа ориентирована на однозначный грамматический разбор (и в этом его слабое место). Однако, не исключены ситуации, в Практические аспекты создания лингвистических процессоров. Учебное пособие.

которых синтаксический анализатор не имеет достаточной информации для однозначного выбора. Тогда либо все-таки как-то выбирается один из вариантов грамматического разбора, либо строятся несколько альтернативных вариантов.

Анализаторы, основанные на стратегии детерминированного анализа, являются достаточно быстродействующими и эффективными. Однако, для достижения эффективности синтаксического анализа произвольных (даже только синтаксически правильных) предложений ЕЯ требуется создать адекватный и полный инвентарь синтаксический ситуаций, что крайне трудоемко и принципиально сложно.

3.6. Синтаксические отношения (связи, Наборы синтаксических отношений в разных синтаксических моделях различны и отличаются степенью дифференцированности и уровнем интерпретации. Например, существуют модели, в которых различаются только сочинительные и подчинительные связи без их дальнейшей дифференциации. Особенности используемого набора синтаксических отношений зависят, в частности, от того, предусмотрен ли дальнейший семантический анализ, каковы его функции и способ взаимодействия с синтаксическим анализатором.

Среди множества синтаксических отношений выделяется особая группа, соответствующая актантным отношениям предикатного слова.

Предикат — слово, подчиняющее себе другие слова и синтаксические конструкции предложения и определяющее их грамматическую форму, а иногда и значение.

Предикат можно рассматривать как фрейм (шаблон): сам предикат — имя фрейма (вершина фрейма), а подчиненные ему синтаксические конструкции — слоты фрейма (валентности предиката). Для каждой валентности предиката определены условия заполнения этой валентности (значения грамматических характеристик, семантическое значение) и конкретное синтаксическое отношение. Синтаксические отношения часто задаются с помощью вопросительного слова (кто?, куда?, и т.п.). Совокупность синтаксических отношений, задаваемых предикатом (фрейм предиката), часто называют моделью управления предиката. Отметим, что у одного предиката может быть несколько разных моделей управления.

Актант — слово или синтаксическая конструкция, заполняющая валентность предиката.

Предикатами в русском языке являются глаголы, глагольные формы, отглагольные существительные и прилагательные и предлоги.

Например, описание модели управления для предлога к (предложной группы предлога к) может выглядеть так:

к [куда?, к кому/чему?] существительное с зависящими от него словами и конструкциями (группа существительного): одушевленность – любая, род – любой, число – любое, падеж - дательный;

а для глагола идти так:

идти [кто?] — группа существительного: одушевленное, род – любой, число – любое, падеж – именительный;

[куда?] — предложная группа предлога в (существительное неодушевленное), предлога к или предлога на (существительное неодушевленное);

[откуда?] — предложная группа предлога из (существительное неодушевленное) или предлога от;

Актанты предиката могут быть обязательными (т.е. они должны в том или ином виде обязательно присутствовать в предложении, содержащем данный предикат) и необязательными (т.е. они могут в реальном предложении отсутствовать).

Информацию об обязательности актанта также целесообразно хранить в описании модели управления предиката. Кроме того, полезно указывать и информацию о предпочтительном или обязательном взаимном линейном расположении в тексте предиката и его актантов, о невозможной или желательной сочетаемости актантов.

Модели управления предикатов являются формализованной записью ограничений на грамматические и/или семантические характеристики и, возможно, на способы совместного использования в тексте зависящих от них слов и конструкций. Вообще говоря, в языке у всех слов (не только у предикатов) могут быть зависящие от них другие слова, на которые могут быть наложены соответствующие ограничения (правила сочетаемости отдельных слов и синтаксических групп). Составление таких обобщенных моделей управления можно использовать как средство описания ЕЯ.

При использовании МУ в качестве основы описания языка можно достичь произвольной гибкости и детальности, становятся непринципиальными ограничения на степень грамматичности языка, не разделяется явно семантическая и синтаксическая информация. Ожидается, что при наличии МУ, описывающих язык, задачу синтаксического анализа можно считать решенной без каких-либо уточнений, ограничений на входной язык, сферу применимости и прочее. Т.е., задача синтаксического анализа сводится к задаче построения множества моделей управления.

Задача эта, безусловно, очень непроста и трудоемка. Кроме того, для эффективности использования обобщенных моделей управления необходимо учитывать их частотные характеристики и контекст (категория текстов, для которой является специфичным употребление определенных слов и грамматических конструкций).

3.7. О многовариантности синтаксического Принципиальная многовариантность синтаксического анализа — узловая проблема для разработчиков синтаксических анализаторов.

Многовариантность возникает не только в связи с наличием морфологической омонимии (см. выше), но и синтаксической омонимии.

Синтаксическая омонимия — возможность выделения разных смыслов у одного предложения, обусловленная наличием у него разных синтаксических структур.

Примеры предложений, для которых принципиально невозможно разрешить синтаксическую омонимию:

«Мать любит дочь».

«Молодые мужчины и женщины…».

«Письмо отцу друга…».

«Тощая торговка вяленой воблой торчала среди ящиков».

«Сплочение рабочих бригад вызвало осуждение товарища министра».

«Привет освободителям Харькова от немецко-фашистских захватчиков».

«Школьники из Старицы поехали в Торжок».

«Это потрясло до глубины души оскорбленного брата».

«Девочка вытерла тщательно вымытую посуду».

Практические аспекты создания лингвистических процессоров. Учебное пособие.

«Я вижу только два дерева».

«Таблица допустимых размеров …».

«Я видел его молодым».

4. Семантический компонент ЕЯ-систем Семантика — раздел языкознания, изучающий все содержание, информацию, передаваемые языком или какой-либо его единицей.

Понятие — мысль, отражающая в обобщенной форме предметы и явления действительности посредством фиксации их свойств и отношений.

Концепт — понятие.

Значение языкового выражения(ЯВ):

— синтаксическое — система, ассоциированных с данным ЯВ эталонных парадигматических, синтагматических и иерархических связей с другими — сигматическое — класс реальных объектов, в соответствие которым может быть поставлено ЯВ;

— семантическое — класс эталонных психических моделей реальных объектов (или класс концептов), в соответствие которым может быть поставлено ЯВ;

— прагматическое — класс нормативно соотнесенных с ЯВ действий потенциальных реципиентов или же класс действий и целей потенциального автора сообщения, побуждающих его к речевой деятельности.

Смысл ЯВ — соотнесенная с ЯВ в реальном процессе речевой деятельности подсистема значения.

Понимание ЯВ — процесс раскрытия смысла ЯВ реципиентом, т.е. установление тех сторон значения, которые наиболее существенны в текущей ситуации с его точки зрения и которые, как он предполагает, имел в виду автор сообщения.

Однако не всегда смысл, соотнесенный с сообщением реципиентом, совпадает со смыслом, вкладываемым в сообщение автором, а любой их них может не совпадать с наиболее вероятной в языке интерпретацией сообщения (нормативно выделенной подсистемой значения ЯВ), т.е. смыслом относительно языка, критерии выделения которого должны быть объективными, например, синтаксическими. В качестве примеров возможно различного понимания ЯВ автором, реципиентом и относительно языка (объективно) можно привести следующие ЯВ:

Этого просто не вынести!

«А что вам нужно вынести?» — спросила Алиса (Л. Кэрролл);

За безбилетный проезд и провоз одного места багажа взимается штраф… (объявление в общественном транспорте).

4.1. Теория концептуальной зависимости Классическим примером экспериментальной системы интегрального типа, в которой подробно исследован семантический аспект ЕЯ и предлагается интересный подход к решению проблемы понимания текста на ЕЯ (английском), является система MARGIE Р. Шенка [8]. В основе MARGIE лежит представление смысла фраз ЕЯ в терминах теории концептуальной зависимости (ТКЗ), т.е. оно состоит из понятий, объединенных определенными отношениями между ними. Эта система умеет производить Практические аспекты создания лингвистических процессоров. Учебное пособие.

умозаключения, вытекающие из смысла, заключенного во входном сообщении, и осуществлять перифразирование входных предложений ЕЯ.

4.1.1. Основные положения ТКЗ Р. Шенка Каждое слово, входящее в текст, рассматривается как понятие (концепт), представляющее собой набор свойств, связанных с ним, часть из которых может быть известна системе, а часть — нет.

Не делается явных различий между лингвистическими и нелингвистическими знаниями.

Чтобы понимать, надо делать предположения (возможно, ошибочные), исходя из знаний, хранящихся в системе.

Базовым механизмом восприятия, используемым программой являются ожидания — описание ситуации, которая рассматривается как наиболее вероятная в ближайшем будущем.

Концептуальная память системы содержит только понятия (а не слова).

Существуют четыре концептуальных падежа (отношений) — объектный (O), директивный (D), реципиентный (R), и инструментальный (I).

Сложные понятия, как и смысл всей входной фразы, строятся из менее сложных на основе правил концептуального синтаксиса, т.е. правил конструирования отношений между понятиями на концептуальном уровне.

Концептуальные правила используют концептуальные категории (типы понятий).

Концептуализация — идея.

Концептуализация может состоять из деятеля, действия и определенного набора концептуальных падежей, а также – из объекта и описания состояния, в котором он находится, или изменения его состояния.

Концептуальные структуры имеют в своей основе элементарные действия — АКТЫ (их всего 11!).

АКТы воздействуют на память системы, кроме того, в соответствии с ними могут производиться умозаключения. Умозаключение — концептуализация, которая может быть выведена из другой концептуализации с вероятностью меньшей 1.

4.1.2. Концептуальные категории ТКЗ PP — только физические объекты (одушевленные и неодушевленные). Они могут быть субъектами действия, объектами, играть роль направления и реципиента.

AKT — действия.

LOC — местоположения. Для каждого физического АКТа оно определяет, где происходит включающая его концептуализация. LOC может модифицировать концептуализацию и выполнять роль направления.

T — времена. Время считается точкой на оси времени. Эта точка может быть абсолютной (6 часов вечера 28 ноября 2005 года) или относительной (вчера).

AA — Action aider — модификации свойств акта. Например, параметр скорости для действия PROPEL (см. ниже) есть АА. Таких категорий немного.

PA — атрибут объекта (со своими характеристиками или значениями, например, «цвет», «размер»). Считается, что РР состоят из набора РА, которые их определяют.

4.1.3. Правила концептуального синтаксиса Практические аспекты создания лингвистических процессоров. Учебное пособие.

4.1.4. Концептуальные времена ТКЗ В ТКЗ употребляется набор модификаторов концептуализаций, соответствующих временам в языке:

ts — начало существования, 4.1.5. Элементарные действия ТКЗ Концептуальное действие – то, что может быть сделано некоторым деятелем над некоторым объектом. Различаются две категории действий: физические (над физическими объектами) и психические, или мыслительные (над идеями или идеальными сущностями, например, ощущениями - последние два из ниже приведенных).

PROPEL — прикладывать силу к, требует объекта (достаточно малого по отношению к силе) и директивного падежа, указывающего направление прикладываемой силы.

MOVE — двигать частью тела, требует директивного падежа для описания INGEST — принять что-то внутрь одушевленного объекта, здесь объект должен EXPEL — взять что-либо изнутри одушевленного объекта и вытащить наружу, здесь объект должен быть предварительно принят внутрь.

GRAPS — физически захватить объект, здесь объект не должен превышать определенных размеров, директивный падеж указывает направление к той части тела, которая осуществляет захватывание.

PTRANS — изменить местоположение чего-либо, требует объектного, директивного и инструментального падежей.

ATRANS — изменить некоторое абстрактное отношение для объекта, SPEAK — произвести звук, требует директивного падежа.

ATTEND — направить орган чувств к определенному стимулу, требует директивного падежа.

MTRANS — передавать информацию, здесь объекты — всегда концептуализации, требуется реципиентный падеж, где потенциальными получателями являются отделы человеческого мозга, а потенциальными донорами — органы чувств или отделы человеческого мозга.

MBUILD — создавать или сочетать мысли, здесь объекты — концептуализации, концептуализации.

4.1.6. Состояния объектов ТКЗ Многие состояния в ТКЗ описываются посредством шкал, имеющих числовые значения. В качестве примера можно привести следующие шкалы.

ЗДОРОВЬЕ (HEALTH) — от 10 до +10:

СТРАХ (FEAR) — от 10 до 0:

РАЗДРАЖЕНИЕ (ANGER) — от 10 до 0:

ПСИХИЧЕСКОЕ СОСТОЯНИЕ (MENTAL STATE) — от 10 до 10:

ФИЗИЧЕСКОЕ СОСТОЯНИЕ (PHYSICAL STATE) — от 10 до +10:

Практические аспекты создания лингвистических процессоров. Учебное пособие.

— сильные телесные — сломан (для объектов) 5, СОЗНАНИЕ (CONSCIOUSNESS) — от 0 до +10:

ГОЛОД (HUNGER) — от 10 до +10:

— «умирающий от голода» 8, ОТВРАЩЕНИЕ (DISGUST) — от 10 до 0:

УДИВЛЕНИЕ (SURPRISE) — от 0 до 10:

Некоторое состояния не являются шкалами, а имеют обычные абсолютные меры.

Таковыми являются, например, ДЛИНА (LENGTH), ЦВЕТ (COLOR),

ИНТЕНСИВНОСТЬ СВЕТА (LIGHT INTENSITY), МАССА (MASS), СКОРОСТЬ

(SPEED).

Существуют состояния, которые являются не шкалами, а просто отношениями между объектами. Например, КОНТРОЛЬ (УПРАВЛЕНИЕ) (CONTROL), НЕОТЪЕМЛЕМОЕ ОБЛАДАНИЕ (ЧАСТЬ) (PART), ОБЛАДАНИЕ (POSS),

СОБСТВЕННОСТЬ (OWNERSHIP), СОДЕРЖАТЬ (CONTAIN), БЛИЗОСТЬ

(PROXIMITY), МЕСТОПОЛОЖЕНИЕ (LOCATION), ФИЗИЧЕСКИЙ КОНТАКТ

(PHIS.CONT) и др.

В ТКЗ используется еще одно отдельно стоящее состояние (MFEEL), которое выражает отношение между двумя людьми и эмоцией.

Отметим, что для использования (не только сравнения) состояний в процессе понимания текста в памяти системы нужно хранить детальное описание того, что означают все эти понятия.

4.1.7. Примеры работы системы MARGIE Классический пример предложения, на котором Р. Шенк поясняет принципы построения смыслового представления – «John ate a frog» (Джон съел лягушку). В терминах ТКЗ смысл этого предложения выглядит так:





Похожие работы:

«На Дне открытых дверей 25 марта 2007 года в РХТУ им. Д.И. Менделеева школьники и абитуриенты получили диск с информационными материалами. Размещенная на этом диске обширная информация о нашем университете, его кафедрах, факультетах и колледжах поможет будущим абитуриентам выбрать для себя специальность. А представленные на диске обучающие и контролирующие тесты позволят лучше подготовиться к вступительным испытаниям по химии. УДК 378.16 В.М. Аристов, Н.Н. Барботина, Т.Н. Гартман, В.А. Головина,...»

«В. М. Балыбин, В. С. Лунев, Д. Ю. Муромцев, Л. П. Орлова ПРИНЯТИЕ ПРОЕКТНЫХ РЕШЕНИЙ Издательство ТГТУ Министерство образования Российской Федерации Тамбовский государственный технический университет В. М. Балыбин, В. С. Лунев, Д. Ю. Муромцев, Л. П. Орлова ПРИНЯТИЕ ПРОЕКТНЫХ РЕШЕНИЙ Часть 1 Утверждено Ученым советом университета в качестве учебного пособия Тамбов Издательство ТГТУ УДК 658.512.011.56.001.57:681. ББК 32.965-02-5- А Рецензент Доктор технических наук, профессор ТГУ В. М. Тютюнник...»

«Каталог электронных пособий Местонахождение Сертификация и Название ресурса лицензирование Вычислительная математика и программирование ИнформационноС 10-11 классы ресурсный центр ИнформационноЭкология. Учебное пособие 10-11 классы. 1С ресурсный центр Экономика и право 9-11 класс Медиатека 1С Математика 5-11 класс. Практикум Медиатека 1С Химия для всех ХХI. Самоучитель Решение задач Медиатека 1С Химия для всех ХХI. Самоучитель Решение задач Медиатека 1С География Наш дом - Земля 7 класс...»

«Государственное образовательное учреждение высшего профессионального образования Липецкий государственный технический университет Гуманитарно-социальный факультет Кафедра культуры УТВЕРЖДАЮ Декан ЭФ Московцев В.В.. 2011 г. РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ _Русский язык и культура речи Направление подготовки 080100 Экономика Профиль подготовки Коммерция_ Квалификация (степень) выпускника бакалавр_ Форма обучения _очная Липецк 2011 Содержание Цели и задачи освоения дисциплины Место дисциплины в...»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования ГОРНО-АЛТАЙСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Кафедра ботаники и фитофизиологии МЕТОДИКА ПРЕПОДАВАНИЯ БИОЛОГИИ Учебно-методический комплекс Для студентов, обучающихся по специальности 02020165 Биология Горно-Алтайск 2008 1 Рекомендовано методическим советом университета УДК 373.1.013 Автор-составитель: М.З. Васильева Рецензенты: Г.С. Петрищева, к. пед. н., профессор ГОУ ВПО...»

«БАКАЛАВРИАТ и МАГИСТРАТУРА Т.В. МИРГОРОДСКАЯ Рекомендовано Учебно-методическим объединением по образованию в области финансов, учета и мировой экономики в качестве учебного пособия для студентов, обучающихся по специальности Бухгалтерский учет, анализ и аудит КНОРУС • МОСКВА • 2014 УДК 657.6(075.8) ББК 65.052я73 М63 Рецензенты: М.В. Мельник, проф. кафедры Аудит и контроль Финансового университета при Правительстве РФ, заслуженный деятель науки РФ, д-р экон. наук, проф., В.Б. Дардик, проф....»

«Государственное образовательное учреждение высшего профессионального образования НИЖЕГОРОДСКАЯ ГОСУДАРСТВЕННАЯ МЕДИЦИНСКАЯ АКАДЕМИЯ Российского федерального агентства здравоохранения и социального развития Фармацевтический факультет Кафедра фармацевтической химии и фармакогнозии МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ И КОНТРОЛЬНЫЕ ЗАДАНИЯ ПО ФАРМАЦЕВТИЧЕСКОЙ ХИМИИ (часть III) Для студентов заочного отделения 4-6 курсов фармацевтического факультета Нижний Новгород 2007 УДК 615.1 Методические рекомендации и...»

«БЕЛГОРОДСКАЯ ОБЛАСТЬ АДМИНИСТРАЦИЯ ГОРОДА БЕЛГОРОДА УПРАВЛЕНИЕ ОБРАЗОВАНИЯ ПРИКАЗ 13 июля 2010г. № 1295 Об утверждении Положения об инспекционной деятельности управления образования администрации города Белгорода В соответствии с Законом Российской Федерации от 10.07.1992г. №3266-1 Об образовании, постановлением Правительства Российской Федерации от 20.02.2007г. №116 Об утверждении Правил осуществления контроля и надзора в сфере образования (с изменениями от 04.02.2008г. №46), письмом...»

«ГОУ ВПО Воронежская государственная медицинская академия имени Н.Н. Бурденко Федерального агентства по здравоохранению и социальному развитию Гладышев В.Ю., Гаранина Н.В. ОПЕРАТИВНАЯ ЛАПАРОСКОПИЯ В ГИНЕКОЛОГИИ Учебное пособие для врачей-курсантов Воронеж 2006 УДК Гладышев В.Ю., Гаранина Н.В. Оперативная лапароскопия в гинекологии. – Воронеж: Издательство., 2006. – 86с. Рецензенты: доктор медицинских наук, профессор, заведующий кафедрой хирургии №2 с ортопедией и травматологией, Воронежской...»

«Естественные науки 22.1 А 45 Алгебра и начала математического анализа. 10 класс : в 2-х ч. Ч. 1 : Учебник для учащихся общеобразовательных учреждений (профильный уровень) / А. Г. Мордкович, П. В. Семенов. - 8-е изд., стереотип. - М. : Мнемозина, 2011. - 424 с. : ил. Всего: 20 экз. 22.1 А 45 Алгебра и начала математического анализа. 10 класс : в 2-х ч. Ч. 2 : Задачник для учащихся общеобразовательных учреждений (профильный уровень) / А. Г. Мордкович, Л. О. Денищева [и др.] ; ред. А. Г....»

«ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ СРЕДНЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ КЕМЕРОВСКИЙ ТЕХНИКУМ ИНДУСТРИИ ПИТАНИЯ И СФЕРЫ УСЛУГ г. КЕМЕРОВО Учебное пособие Кемерово, 2012 Пояснительная записка Урок по данной теме разработан и проведен для обучающихся по профессии Повар, кондитер и является итоговым уроком по изучению практических приемов и навыков по теме: Приготовление теста и изделий из него. Поставленные перед учащимися учебной задачи имеют широкий диапазон трудностей, от доступных до...»

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ Факультет географии и геоэкологии Лачининский С.С., Литовка Л.О. МЕТОДИЧЕСКИЕ РЕКОМЕНДАЦИИ ПО ПОДГОТОВКЕ, ОФОРМЛЕНИЮ И ЗАЩИТЕ КУРСОВЫХ РАБОТ Направление – ГЕОГРАФИЯ Специализации – Экономическая и социальная география, Региональная политика, Страноведение и Международный туризм Санкт-Петербург 2007 При подготовке методических рекомендаций были использованы Методические указания по подготовке, оформлению и защите курсовых работ (2001 г.),...»

«Красный, желтый, зеленый Авторская программа по профилактике детского дорожно-транспортного травматизма для учащихся 7—11 лет1 О.В. Ретивых, Р.Ф. Хисамутдинова, педагоги ДО Центра детского технического творчества № 5, г. Набережные Челны Республики Татарстан Пояснительная записка С первых минут нахождения в образовательном учреждении ребенок сталкивается с основами правовых знаний, одной из форм которых является изучение правил дорожного движения. Но еще раньше, с первых шагов маленького...»

«Заключение на учебники по литературному чтению и литературе для 1-9 классов общеобразовательной школы (авторы Р.Н. Бунеев, Е.В. Бунеева и др.) В Нижегородском государственном педагогическом университете был рассмотрен и проанализирован комплект учебников по литературному чтению и литературе для 1-4 классов и 5-9 классов авторов Р.Н.Бунеева, Е.В.Бунеевой (Образовательная система Школа 2100). Комплект учебников для начальной школы Р.Н.Бунеева, Е.В.Бунеевой используется в российских школах более...»

«Ганкин В. Ю. и Ганкин Ю. В. XXI век Общая химия 2-уровневое учебное пособие 2-ое издание 2012 2 БЛАГОДАРНОСТИ Мы в долгу перед многими, кто вносил предложения, высказывал критику и другим образом участвовал в создании этой книги. Настоящим выражаем нашу самую сердечную благодарность: Виталию Аронову, Ирине Ганкин-Сигал, Александру Горштейну, Людмиле Коломеец, Сергею Крюкову, Владимиру Кузнецову, Ольге Куприяновой, Алексею Лезникову, Якову Мазур, Игорису Мисюченко, Марине Ноженко, Софи Перлин,...»

«НУО ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО И ПОСЛЕВУЗОВСКОГО ОБРАЗОВАНИЯ ТИРАСПОЛЬСКИЙ МЕЖРЕГИОНАЛЬНЫЙ УНИВЕРСИТЕТ Кафедра экономики и управления Методические рекомендации по выполнению курсовой работы по дисциплине Теория менеджмента для направления Менеджмент форма обучения: очная Рассмотрена Руководитель на заседании кафедры курсовой работы Протокол № 1 А. А. Железняк От 04.09.2013 г. _2013 г. Зав. кафедрой к.э.н. Е. В. Киблик Тирасполь, 2013г. Методические указания к выполнению курсовой работы 1. Цели и...»

«1 2 УЧЕБНОЕ ПОСОБИЕ ДЛЯ СТУДЕНТОВ ВЫСШИХ УЧЕБНЫХ ЗАВЕДЕНИЙ Н.В. МИХАЙЛОВ А.И. БАРАНИКОВ КОНСТИТУЦИЯ И ЭКСТЕРЬЕР СВИНЕЙ Допущено Министерством сельского хозяйства Российской Федерации в качестве учебного пособия для студентов высших учебных заведений по специальности 1104011 Зоотехния и 110305 технология производства и переработка сельскохозяйственной продукции П. Персиановский, 2007 3 УДК 636.4. ( 075,8) ББК 46. 5я 73 К 12 Рецензенты: Доктор сельскохозяйственных наук, профессор В.И. Щербатов...»

«Международный консорциум Электронный университет Московский государственный университет экономики, статистики и информатики Евразийский открытый институт В.И. Хабаров Н.Ю. Попова Банковский маркетинг Учебное пособие Руководство по изучению дисциплины Учебная программа Москва 2005 УДК 336.71 ББК 65.262.1 Х 121 Хабаров В.И., Попова Н.Ю. БАНКОВСКИЙ МАРКЕТИНГ: Учебное пособие, руководство по изучению дисциплины, учебная программа / Московский государственный университет экономики, статистики и...»

«Государственное бюджетное учреждение культуры Иркутская областная государственная универсальная научная библиотека им. И.И. Молчанова-Сибирского С Е Р И Я БИБЛИОТЕКАРЬ И В Р Е М Я. XXI век. Выпуск № 144 УДК 025.5+025.6 Б Б К 78.349.2+78.379 Б83 Ответственный редактор серии О.Р. БОРОДИН Бородина, В.А. Информационное обслуживание: описание, таблицы, схемы: спецкурс Б83 для методиста. — М.: Либерея-Бибинформ, 2013. — 80 с. ISBN 978-5-8167-0054-2 В пособии рассматриваются все аспекты...»

«Сведения об обеспеченности образовательного процесса учебной литературой Самарского института (филиала) ФГБОУ ВПО Российский государственный торгово-экономический университет Магистерская программа Стратегии и инновации в маркетинге Бизнес- Основная литература 1. проектирование коммерческой Разработка бизнес-плана проекта: учебное пособие./Т.С.Бронникова - М.: Альфа-М: 2 0,3 деятельности ИНФРА-М, 2012-224с. Черняк В.З. Бизнес-планирование [Электронный ресурс] : электронный учебник / В. 1 0,2 З....»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.