«МОДЕЛИ АЛГОРИТМИЧЕСКОГО ТИПА ДЛЯ РАСПОЗНАВАНИЯ СЕМАНТИЧЕСКИХ СВЯЗЕЙ В СИСТЕМАХ МАШИННОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА ...»
Московский Государственный Институт стали и сплавов
(Технологический университет)
На правах рукописи
ПОЛЯКОВ Владимир Николаевич
МОДЕЛИ АЛГОРИТМИЧЕСКОГО ТИПА
ДЛЯ РАСПОЗНАВАНИЯ СЕМАНТИЧЕСКИХ СВЯЗЕЙ
В СИСТЕМАХ МАШИННОЙ ОБРАБОТКИ
ЕСТЕСТВЕННОГО ЯЗЫКА
Специальность 05.13.16. - применение вычислительной техники, математических методов и математического моделирования в научных исследованиях Диссертация на соискание ученой степени кандидата технических наук
Научный руководитель:
академик М.А.И, доктор технических наук, профессор А. Г. Дьячко Москва
ОГЛАВЛЕНИЕ
Стр.ВВЕДЕНИЕ Глава I. Синтез формальных моделей языка и смысла как проблема семантической обработки естественного языка Феноменологические модели для естественно - языко-вого 1. предложения Феноменологические модели для естественно - языко-вого 1. высказывания Формальные модели языка 1.3 Представление смысла естественно-языковых форм в моделях, 1. основанных непосредственно на математи-ческой логике Представление смысла естественно - языковых форм с помощью 1. семантических сетей и графов Представление энциклопедических знаний с помощью когнитивных 1. моделей Выводы 1.7 Глава II. Семантические примитивы в модели представления смысла и грамматике языка Требования к модели представления 2.1 Основные понятия 2.2 Формализмы исчисления высказываний и предикатов 2.2.1 Язык формул в МАМС 2.2.2 Представление ЕЯ- форм 2.3 Структура слова 2.3.1 Словосочетание 2.3.2 Семантика глагольных словосочетаний 2.3.3 Семантика сложных предложений 2.3.4 Элемент смысла как универсальная структурная единица модели 2. языка Выводы 2.5 Глава III. Формальные модели языка и представления смысла Многоаспектная модель смысла предложения 3.1 Идея семантического примитива: субъект - отношение - атрибут Идея объектно-ролевого взаимодействия Многоаспектная модель смысла высказывания Базовый коммуникативный компонент Функция актуализации и референциальное значение Репрезентативные возможности модели Соотношение МАМС и теории концептуальных гра-фов 3. Грамматика элементов смысла повествовательного предложения 3. Обсуждение Грамматики элементов смысла Глава IV. Моделирование языковой способности с Структура и особенности базы лингвистических зна-ний Приложение 1 Примеры интерпретации естественно- языковых форм английского Таблица П1.1. Примеры интерпретации словообразовательной моде-ли, словосочетания и простого предложения в англий-ском языке Таблица П1.2. Модель управления для английского глагола to buy Таблица П1.3. Хронологическая парадигма английского глагола Приложение 2 Описание программы “Недоросль” П 2.2 Фрагменты текста программы анализа естественно- языкового предложения в системе "Недоросль" (подпрограммы ANALDO и П 2.3 Протокол выполнения функции "анализ ЕЯ-предложе-ния"
ВВЕДЕНИЕ
информационного взрыва [30], когда рост объема новой информации в единицу времени подчиняется экспоненциальному закону. В этих условиях задача автоматизированной обработки естественного языка приобретает особую актуальность.Идея обработки естественно-языкового текста (ОЕЯТ) на вычислительной машине возникла практически сразу же после появления первых ЭВМ. К наиболее ранним подходам в этой области можно отнести идею теста Тьюринга [254], который долгое время считался главным способом практической проверки возможностей компьютера по моделированию языковой способности [171]. Ранние работы по ОЕЯТ были тесно связаны с практическими нуждами машинного перевода [16]. Появление формальных моделей для ОЕЯТ и зарождение направления компьютерной лингвистики связывают с работой [143].
Сегодня ОЕЯТ - это бурно развивающаяся область научных исследований и коммерческих разработок. В настоящее время в области компьютерной лингвистики ежегодно в мире проводится более 40 конференций [122, 160], посвященных различным проблемам обработки естественных и искусственных языков, завершены или находятся в стадии разработки ряд крупных международных научных проектов [71, 168, 176], более 30 крупных издательств [187] в мире выпускают научную продукцию (журналы, труды конференций, сборники статей, книги) по этой тематике, университеты развитых стран систематически готовят специалистов по этой специальности [226]. Неуклонно растет количество программных продуктов, связанных с ОЕЯТ [151].
Согласно [226], компьютерная лингвистика определяется как научная дисциплина, которая находится на границе между лингвистикой и информатикой (computer science). Она занимается вопросами компьютерного моделирования (и исследования) языковой способности человека. Эта наука относится к области когнитивных наук и перекрывается с областью искусственного интеллекта (ИИ), другой ветвью информатики, которая нацелена на компьютерное моделирование и исследование человеческого сознания. В самой компьютерной лингвистике выделяют прикладную и теоретическую области. Обработка естественного языка относится к прикладной области компьютерной лингвистики и направлена на создание программных продуктов, моделирующих уникальную способность человека, как биологического вида, - способность к общению (письменному и устному) на естественном языке. Другая часть компьютерной лингвистики, теоретическая, занимается проблемами искусственных языков. Достижения последних лет в области современной логики, искусственного интеллекта и компьютерной лингвистики создали новые предпосылки для исследования природы семантических связей в естественном языке в целях построения формальных моделей для естественно-языковых форм: предложения, высказывания, текста.
Прогресс в области информационных технологий обеспечил необходимые предпосылки для компьютерной реализации разработанных моделей.
Таким образом, актуальность работы обуславливается потребностями, возникшими в области обработки естественно- языкового текста в связи с бурным развитием компьютерных средств коммуникации.
Традиционная лингвистика [6, 50, 120] обращает внимание на семантику естественного языка в основном при обучении языку как иностранному [28]. Кроме того, форма изложения семантики языковых форм принятая в традиционной лингвистике [121] требует существенного переосмысления для целей автоматизированной обработки.
В процессе выполнения исследовательской работы потребовался серьезный анализ подходов к проблеме обработки естественного языка в области машинного перевода [9, 56, 69, 129, 130, 204, 212, 227, 244]. Несмотря на то, что уровень развития этой области обработки естественного языка проявил себя в сфере коммерческих разработок, главный недостаток этих подходов проявляется в недостаточном учете влияния семантического представления языкового высказывания на процесс его обработки.
При исследовании семантики естественно-языкового высказывания учитывался опыт построения систем логического вывода [36-39, 81, 91, 95, 97- 99, 186, 243, 252] и когнитивных моделей [40, 123-137, 165, 220], основанных на математической логике. Однако, при применении этого опыта необходимо учитывать богатую феноменологию языка, которая зачастую не принимается в расчет в логических моделях.
естественного языка мы стремились учесть отечественный и зарубежный опыт, накопленный при построении формальных моделей языка [22, 23, 27, 46, 47, 65, 70, 75, 79, 107, 128, 144, 145, 209] и смысла [61, 197, 235, 246] и их интеграции [89, 177, 194, 197, 176]. Несмотря на существенный прогресс в этой области задача интеграции модели языка и модели смысла остается еще не решенной в той степени, которая может оказаться достаточной для разработки прикладных систем. Решение проблемы адекватного представления смысла естественноязыкового предложения, высказывания, а в последующем и текста, в строгой логической форме позволит реализовать ряд новых функциональных возможностей в информационных системах.
В частности, наличие логического представления для смысла ЕЯ- формы обеспечивает выполнении таких важных когнитивных процедур, как: перифраз, синтез на другом языке при переводе, извлечение новых данных и знаний из входного текста, пополнение имплицитной информацией входного текста, поиск ответа на вопрос, построение логического вывода, включение новой информации в базу данных и знаний. Это в свою очередь будет способствовать повышению интеллектуального уровня информационных систем.
Цель данной работы - исследование природы семантических связей в предложении и высказывании естественного языка, а также разработка и апробация алгоритмических моделей для автоматического построения логических выражений, описывающих их семантику (= смысл) с учетом перспективы дальнейшего использования в прикладных компьютерных системах с элементами обработки естественного языка (системы машинного перевода, текстовые базы данных, системы анализа текстов, естественно- языковой интерфейс и т.д.).
конкретных задач исследования:
• изучить полученные ранее и опубликованные в литературе результаты в области исследования предложения и высказывания как феноменов естественного языка;
изучить существующих опыт построения формальных моделей языка (=грамматик) и смысла (=систем представления знаний);
• исследовать механизмы взаимосвязи эквивалентных языковых и логических структур с целью выявления семантических примитивов модели языка и модели смысла ;
определить понятия семантический примитив модели языка и семантический примитив модели смысла; выявить семантический примитив в составе логического представления смысла; изучить его структуру, типы, свойства, внутренние и внешние семантические связи;
выявить его эквивалент в естественно-языковых формах предложения и высказывания;
изучить структуру, типы, свойства, признаки идентификации естественно-языкового эквивалента семантического примитива, закономерности построения структурного представления предложения с использованием семантического примитива модели языка, закономерности построения логического представления предложения и высказывания с использованием семантического примитива модели смысла;
• построить грамматики и модели представления смысла для наиболее часто встречающихся в научных и технических текстах утвердительных типов предложений и высказываний;
• разработать методы и алгоритмы машинного выявления семантических примитивов в языке и их использования для построения логического представления смысла предложения.
Научная новизна диссертации состоит в том, что автором:
• предлагается новый подход к разработке моделей для обработки естественноязыковых форм, который заключается в том, что разрабатываются одновременно две согласованные модели : модель языка (грамматика) и модель смысла (система представления);
• в основе согласования моделей языка и смысла лежит идея автора о существовании эквивалентных семантических примитивов в моделях языка и смысла;
• последовательно разграничиваются модели для различных естественноязыковых форм : предложения и высказывания на основании феноменологических свойств этих форм в области их семантики; это обеспечивает качественно новый уровень понимания текста за счет включения коммуникативно- функциональных составляющих в структуру представления смысла;
• на основании обнаруженных закономерностей разработаны алгоритмические модели для утвердительных типов предложений и высказываний русского языка (Многоаспектная модель смысла и Грамматика элементов смысла).
Теоретическая значимость исследования заключается в том, что в работе:
• выявлены языковая и логическая структуры нового типа: семантические примитивы моделей языка и смысла;
• исследованы их типы, состав, свойства, семантические связи;
предложений на основе семантических примитивов языка;
поверхностно-синтаксическим отношением в модели Смысл-Текст;
• выявлены закономерности построения логических представлений предложений и высказываний на основе семантических примитивов модели смысла;
• определены логические формулы для утвердительных типов предложений и высказываний русского языка;
• показан универсальный характер обнаруженных закономерностей на примерах из русского и английского языков ;
• показаны ограничения в существующих моделях, которые преодолеваются при использовании семантических примитивов в моделях языка и смысла.
Практическая ценность диссертации заключается в возможности использования результатов работы при разработке прикладных систем моделирования языковой способности лингвистических процессоров различного назначения, при разработке автоматизированных систем извлечения из текстов данных и знаний. Обнаруженные закономерности могут быть использованы в методике преподавания русского языка как иностранного и иностранных языков. Результаты исследования могут найти применение в теоретических курсах по компьютерной лингвистике.
Предмет, материал и цель исследования определили используемые в работе методы:
использовались описательно- аналитический и дистрибутивно- контекстологический методы исследования, компонентный анализ.
Построение формальных моделей языка и смысла потребовало привлечения методов структурно- семантического, логико- математического и когнитивного моделирования.
алгоритмического моделирования, метод макетирования и элементы структурного программирования. В работе использовался компьютерный эксперимент.
На защиту выносятся: Многоаспектная модель смысла для предложения и высказывания, Грамматика элементов смысла, которые имеют следующие основные положения:
1. Смысл предложения и высказывания может быть представлен как логическая формула, состоящая из типовых структурных единиц - семантических примитивов модели смысла.
2. Для того, чтобы учитывать феноменологические особенности построения естественно-языкового высказывания, семантический примитив в модели смысла должен включать:
- вид отношения (действия, состояния) и его участников;
- значения коммуникативной и семантической роли участников отношения;
Поэтому он может быть описан несимметричным предикатом с явным указанием на индивидное и множественное значение термов. При этом порядок термов задает их коммуникативные роли, а множественное значение - семантические роли. Форма задания индивидного и множественного значения терма определяет его референциальный тип. Такой семантический примитив получил название элемент типа субъект - отношение - атрибут или СОА-элемент.
3. СОА-элементу в составе предложения можно поставить в соответствие однозначно морфемно- семантическую, лексико- семантическую или структурносемантическую единицу: семантический примитив языка, получивший название элемент смысла.
представление - дерево элементов смысла.
5. Дереву элементов смысла соответствует один из компонентов логической формулы для смысла простого предложения.
формулы для смысла простого предложения: сетевой граф.
7. Смысл сложного предложения в отличие от смысла простого предложения включает два дополнительных компонента, образованных сочинительными или подчинительными связями между его простыми предложениями: сеть сетей и дерево деревьев отношений.
8. На уровне высказывания, смысл предложения дополняется тремя компонентами:
базовым коммуникативным компонентом, компонентом коммуникативной пресуппозиции, компонентом обстоятельств высказывания, которые, как правило задаются экстралингвистическими средствами.
9. Возможно построение компьютерной системы, которая при заданном типе высказывания будет автоматически выявлять элементы смысла на основании их признаков и составлять логическую формулу для предложения и высказывания соответственно их смыслу.
Апробация работы. Основные положения работы нашли отражение в докладах на следующих научных семинарах и конференциях:
"Экспертные и обучающие системы", Саратов, СГУ, 1991 [83], "Логическое управление с использованием ЭВМ", Владикавказ, 1991 [32], "Искусственный интеллект в XXI веке", Калининград, 1995 [84] "Диалог'96: компьютерная лингвистика и ее приложения", Пущино, 1996 [85] V Национальная конференция "Искусственный интеллект-96", Казань, 1996 [86] Теоретические вопросы диссертации освещаются в 6 научных публикациях [32, 83, 85-88].
Результаты исследования послужили основой для создания лабораторной автоматизированной системы моделирования языковой способности "Недоросль"[85].
Структура диссертации.
Работа состоит из введения, четырех глав, заключения, списка литературы и двух приложений.
В первой главе "Синтез формальных моделей языка и смысла как проблема семантической обработки естественного языка" рассматриваются основные проблемы в области построения формальных моделей высказывания и его смысла; анализируются основные феноменологические особенности естественно-языкового высказывания и способы их отражения в формальных моделях языка и смысла; дается обзор работ по формальным моделям языка и системам представления знаний; формулируется используемый в дальнейшем подход к построению согласованных между собой моделей: Многоаспектной модели смысла и Грамматики элементов смысла.
Во второй главе "Логические средства представление смысла естественноязыковых форм вводятся и обосновываются понятия семантический примитив модели смысла (СОА-элемент) и семантический примитив модели языка (элемент смысла). На примерах форм русского и английского языков демонстрируется подход к интерпретации ЕЯ- форм, основанный на идее семантического примитива. На фактическом материале исследуются и обосновываются базовые свойства элементов смысла: трехчленная структура, постоянный и переменный компоненты, признаки идентификации. Устанавливается природа взаимосвязи элемента смысла и его логического эквивалента: СОА-элемента.
В третьей главе: "Семантические примитивы в моделях представления смысла и грамматике языка" описывается модель представления смысла естественно- языкового предложения (Многоаспектная модель смысла) и ее расширение для высказывания; предложена алгоритмическая модель языка (Грамматика элементов смысла); дается описание алгоритмической схемы для реализации когнитивной процедуры анализа естественно-языкового предложения.
В четвертой главе "Моделирование языковой способности с помощью автоматизированной системы "Недоросль" приводится описание основных элементов лабораторной исследовательской системы "Недоросль": алгоритмов, структуры и содержания базы данных, функциональной структуры, режимов управления и ввода; дается описание компьютерной реализации Грамматики элементов смысла для русского языка; демонстрируется методика работы с системой; приводится пример решения исследовательских задач с помощью системы "Недоросль".
В заключении обобщаются полученные результаты и формулируются выводы.
Список литературы включает работы, так или иначе использованные в процессе исследования.
английского языка в Многоаспектной модели смысла.
Таблица П1.1. Примеры интерпретации словообразовательной модели, словосочетания и простого предложения в английском языке.
Таблица П1.2. Модель управления для английского глагола to buy.
Таблица П1.3. Хронологическая парадигма английского глагола to read.
ПРИЛОЖЕНИЕ 2. Описание программы “Недоросль” П2.1 Алгоритм идентификации частей элементов смысла в ЕЯ- предложении.
П2.2 Фрагменты текста программы анализа естественно- языкового предложения в системе "Недоросль" (подпрограммы ANALDO и DEFMUP).
П2.3 Протокол выполнения функции "анализ ЕЯ-предложения".
СИНТЕЗ ФОРМАЛЬНЫХ МОДЕЛЕЙ ЯЗЫКА И СМЫСЛА КАК ПРОБЛЕМА
СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
сформировались следующие направления (см. обзоры [96, 119, 150, 231] ) :[6, 7-9, 12-14, 16, 19, 27- 29, 34, 41, 44, 53-58, 60, 64-66, 74-80, 93, 105-118, 121, 120, 145, 155-159, 169, 189, 208, 209, 225];
направленных на его обработку с помощью компьютера [22-27, 46, 47, 70, 89, 102, 104, 142, 143, 164, 176, 205, 263];
• разработка формализмов представления смысла (= семантики) ЕЯ-феноменов:
предложения, высказывания [62, 72, 73, 91, 139, 153, 161, 173, 175, 176,178, 185, 194, 197- 199, 210, 217, 234, 246, 255, 259, 264];
• когнитивное моделирование: исследование и описание моделей знаний, используемых в процессе ОЕЯТ [11, 14, 186, 45, 68, 82, 123-125, 147-149, 165, 190, 255];
• разработка прикладных автоматизированных систем, использующих методы и модели ОЕЯТ [5, 9, 21, 59, 69, 71, 89, 105, 151, 263].
Список работ не претендует на полноту, а предназначен для иллюстрации перечисленных направлений.
Иногда трудно отнести то или иное исследование к одному определенному направлению, поэтому ссылка на данную работу означает, что она носит указанный характер преимущественно.
для естественно-языкового предложения Исследованием языка как явления во всех его проявлениях издавна занимается традиционная лингвистика [120]. Поэтому, феноменологические модели языка неизбежно используют тот богатый фактический материал [4, 6, 12, 14, 28, 31, 34, 48, 50, 51, 60, 93], который накопила лингвистическая наука. Однако большинство исследований в области традиционной лингвистики носит описательный характер. Задачи компьютерной лингвистики потребовали переосмысления подходов к описанию языка как с точки зрения его формальной структуры, так и с точки зрения семантики естественно-языковых феноменов.
Основоположник формальных грамматик Ноам Хомский так сформулировал одну из задач компьютерной лингвистики [143]: "Одна из основных задач лингвиста состоит в том, чтобы найти простые и обладающие "объяснительной силой" грамматики для естественных языков.
В то же самое время он стремится найти общую теорию структуры языка путем изучения свойств таких удачных грамматик и выяснения основных понятий, лежащих в их основе."
Там же дается общее определение грамматики языка:
"Грамматику языка можно рассматривать как теорию структуры этого языка.
Любая научная теория основывается на некотором конечном множестве наблюдений, и, устанавливая общие законы, сформулированные в терминах новых понятий, она пытается объяснить эти наблюдения, показать, как они связаны между собой, и предсказать бесконечное число новых явлений. Математическая теория обладает еще одним свойством, заключающимся в том, что эти предсказания следуют непосредственно из самой ее сущности.
Подобно этому грамматика основывается на конечном числе предложений, обнаруженных при исследовании языкового материала, и она "отображает" это множество на бесконечное множество грамматически правильных предложений, устанавливая общие законы (грамматические правила), формулируя в терминах такого рода гипотетических понятий, как фонемы, слова, словосочетания и т.д. рассматриваемого языка. Надлежащим образом сформулированная грамматика должна однозначно определять множество грамматически правильных предложений."
В середине 60-х годов И.А.Мельчуком и А.К.Жолковским была начата работа над толково-комбинаторным словарем (ТКС) [209]. Словарь этот был задуман как важнейшая часть лингвистической модели или научного описания естественного русского языка. Этот подход вскоре стал известен как Теория лингвистических моделей типа "Смысл-Текст", или сокращенно Теория Смысл - Текст (ТСТ) [33, 65]. Авторы так определяют центральный постулат ТСТ [209, с.4] :
"Естественный язык есть система, устанавливающая соответствие между любым заданным смыслом и всеми выражающими его текстами; соответственно, лингвистическое описание некоторого языка должно представлять собой множество правил, ставящих в соответствие всякому смыслу все тексты данного языка, несущие этот смысл."
В самом этом определении заложено некоторое приближение, суть которого заключается в том, что ТСТ не стремиться отразить смысл ЕЯ- текста со всеми его нюансами (заданными, например, синонимичными формами). Насколько грубым и оправданным оказывается такой приближенный подход к интерпретации текста, конечно, зависит от конкретной задачи, которую такая система призвана решать. Авторы ТСТ ориентируются в первую очередь на обработку "деловой прозы", то есть текстов научно-технического назначения [209]. Получила распространение также идея "ограниченного естественного языка" [89].
В толково-комбинаторном словаре вводится три зоны словарной статьи [209]:
• семантическая зона словарной статьи;
• зона синтаксической сочетаемости;
• зона лексической сочетаемости;
В семантическую зону ТКС введены следующие средства описания семантических связей лексем, входящие: пропозициональная форма и семантическое разложение.
Пропозициональная форма - выражение, состоящее из самой лексемы и переменных, которые составляют ее семантические актанты (=участники обозначаемой ситуации), как одушевленные, так и неодушевленные. Так пропозициональная форма для лексемы восхищаться [там же] имеет вид (1) пропозициональная форма для лексемы авторитет авторитет X-а у Y-ов.
(2) Безусловно, введение пропозициональной формы в словарную статью является шагом вперед в отражении семантики словосочетаний, однако с помощью пропозициональной формы невозможно разделить часть смысла словосочетания, которая передается лексическими средствами (самой лексемой авторитет в примере (2)) и синтаксическими средствами языка (то есть значениями категорий у участников словосочетания: часть речи, род, число, падеж и т.д.). Следовало бы ввести такую нотацию для пропозициональной формы, которая бы эксплицитно разделяла лексические и категориальные значения).
Cемантическое разложение. По замыслу авторов, в ТКС'е последовательные разложения исходных лексических смыслов должны привести, в конце концов, к семантическим атомам - элементарным смыслам, далее неразложимым и задаваемым списком. Другое их название - семантические примитивы. Однако термин семантический примитив нашел также применение [14, 232] для обозначения минимальной структуры языка, имеющей в своем составе семантические связи (каковой и является "пропозициональная форма"). Далее по тексту этот термин при упоминании будет использоваться во втором смысле.
Идея семантического разложения, имеющая корни в теории семантических множителей [189, 190], нашла развитие в теории лексической семантики [7,8]. Однако, вопрос определения атомов смысла (семантических категорий), построения системы их иерархии, семантических связей между ними, до сих пор остается предметом дискуссий. По-видимому, решение этого вопроса должно осуществляться в комплексе с построением системы когнитивных моделей предметной области (см. раздел 3 настоящей главы).
ТКС пытается описывать смысл толкуемой лексемы во всех (без исключения) ее употреблениях, что чрезвычайно увеличивает трудоемкость формирования такого рода словаря.
Так, в [209] приведены данные о том, что первый вариант ТКС, включающий описание лексем, объединенных в 250 вокабул, составлялся группой из 20 участников в течение 10 лет.
Этот факт говорит о том, что средства и методика формирования базы лингвистических знаний постепенно выходят на передний план при построении систем моделирования языковой способности.
Зона синтаксической сочетаемости содержит модель управления (=МУ) таблицу, где для каждого синтаксического актанта заглавного слова указаны все возможные способы его выражения. МУ в ТКС'е задает все возможные при данной лексеме комбинации ее актантных синтаксических зависимостей.
Пример 1 [209]:
Для глагола восхищаться, т. е. для пропозициональной формы (1) (Х восхищается У-ом,) будет указано, что Х всегда существительное в именительном падеже, а У либо существительное в творительном падеже, либо предложение типа:
(3) Для "восхищение", помимо этих двух возможностей (из [205]), имеется еще одна (4) Далее в ТКС'е при модели управления даются также все ограничения, касающиеся совместной встречаемости зависимых (=актантов) заглавной лексемы. Таким образом МУ - это фреймо-подобная структура [67], описывающая все возможные комбинации значений синтаксических категорий актантов.
Идея модели управления тесно связана с понятием семантического падежа Филлмора (падежная грамматика) [155-159]. Дальнейшее развитие идея МУ получила в теории валентности [77, 128] а также в теории управления и связи (Goverment and Binding Theory [144]).
Несмотря на то, что теория синтаксической валентности и МУ сильно повлияла на принципы лингвистических исследований и формирования словарей, она не смогла до конца описать семантическую природу понятий валентности, падежа или роли. Дискуссию, связанную с таксономией семантических падежей по Филлмору можно найти в [89]. Другое явление, связанное с идеей валентности - это совмещение валентностей, отмеченное в [7, 77]. В [77] предлагается интересная гипотеза об одновременном существовании у концепта нескольких ролей (функциональной и коммуникативной). В исследовании [107] объясняется семантическая природа понятия "роль" путем введения тождества понятий семантическая категория (= класс объектов) и семантическая роль. Одновременно, в области теории искусственного интеллекта сложилось представление о понятии семантическая роль [72, 259], а также об эквивалентности понятия "слот" в теории фреймов и "семантический падеж" в падежной грамматике [141].
Близость этих понятий (синтаксическая валентность, семантическая валентность, семантическая роль, семантический падеж, слот), осознаваемая интуитивно, с одной стороны, и недостаточно четкое их определение, с другой стороны, зачастую приводит к путанице в употреблении. Таким образом, очевидно, что эти понятия требуется четко определять и разграничивать при использовании. Все эти понятия непосредственно связаны с понятием семантического примитива в языке и представлении смысла, однако роль "роли" в структуре семантического примитива до сих пор остается до конца не изученной [77]. Да и само разделение на две модели: модели языка - грамматики и модели смысла - системы представления знаний (и смысла ЕЯ- форм)3 произошло сравнительно недавно. Возможно, что игнорирование понятия "роль" в структуре семантического примитива восходит к традиции "безролевого" описания отношений, пришедшей из теории исчисления предикатов. Влияние этой традиции сказывается во многих исследованиях по семантике ЕЯ, опирающихся на стандартное исчисление предикатов [74, 161, 177, 194, 176]. И хотя было показано, что в основе практически всех разновидностей семантических сетей лежит теория исчисления предикатов [197]; идея роли, активно используемая в структуре отношения в теории семантической сети (слота - в теории фреймов) не была воспринята формализмами, основанными на исчислении предикатов непосредственно.
Третья зона ТКС - это зона лексической сочетаемости словарной статьи. При этом автор ТСТ разделяет два случая сочетаемости лексем:
• языковая норма сочетаемости, которой соответствует описательный аппарат Пример 2 : Доска черного цвета [209,c.8] • исключения из языковой нормы сочетаемости, для описания которых был Большинство систем представления знаний, рассмотренных в обзоре, разрабатывались и нашли применение как модели представления смысла ЕЯ-форм, поэтому мы рассматриваем их в общем контексте применительно к семантической обработке естественно- языкового текста, с оговоркой, что вообще-то модели представления смысла и модели представления знаний это вещи разные.
Пример 3 : совершить преступление (vs. сделать преступление).
Согласно [209,с.9], лексическая функция - это весьма общий и достаточно абстрактный смысл F, который выражается особым образом, то есть особой лексемой Y в зависимости от лексемы X:
Автор насчитывает от 50 до 60 лексических функций в русском языке. Дальнейшее свое развитие идея лексических функций получила в теории лексической семантики [7, 8].
Необходимо отметить, что аппарат лексических функций ориентирован на синтез языковой формы, что связано с первоначальной ориентацией ТСТ. Кроме того, лексические функции можно разделить на группы, в соответствии с механизмом их действия:
• Группа 1: лексические функции, которые оперируют исходной лексемой X при Пример 4 [65]: Синтаксический дериват (6) • Группа 2: лексические функции, которые оперируют смыслом для лексемы X, при этом подменяя ее некой другой лексемой X'.
Пример 5 [Там же]: Крайняя степень (7) Существование разных типов лексических функций говорит о различной семантической природе их действия.
Другой частью ТСТ является поверхностный синтаксис [61, 209]. Согласно [209], система поверхностно -синтаксического анализа (ПСА) русских текстов включает 10 основных компонентов:
2) перечень операторов, задающих дополнительные условия соответствия между членами тех или иных синтагм: СОГЛv(s), СОГЛa(s), СОГЛакт, 3) правила насыщения активных синтаксических валентностей (в частности, 4) правила индивидуальной сочетаемости лексем;
5) общие правила сочетаемости поверхностно-синтаксических отношений 8) общие правила предпочтения в случае неоднозначности соответствий между фразами и их поверхностно-синтаксическими представлениями;
9) правила установления анафорических связей;
10) правила восстановления поверхностно- синтаксических эллипсисов.
Для системы ПСА английского языка предлагается те же самые компоненты [209].
Важнейшими понятиями поверхностного синтаксиса ТСТ является поверхностносинтаксическое отношение (= ПСО) и поверхностно-синтаксическое правила (=синтагмы). В [65] дается перечень ПСО для русского языка, насчитывающий 42 типа. Семантическое представление (СемП) - это формализованное описание содержания текста, которое в ТСТ явно не описано. Поверхностно-синтаксическая структура - это дерево зависимостей, ветви которого помечены символами ПСО.
Для записи и использовании информации о поверхностном синтаксисе в ТСТ вводятся специальные поверхностно-синткаксические правила - синтагмы. Для записи синтагм в ПСА разработан специальный формализм, который включает фрагмент дерева зависимостей с пометой ПСО и ограничения на использование этого правила, включающие в частности:
Набор условных обозначений, используемых в записи синтагм и комментариев к ним приведен в [209, с.238,262]. На рис. 1 приведен пример записи предикативной синтагмы типа Подлежащее - склоняемая единица [Там же, с.241].
В ТСТ ставилась также задача описания общих правил формирования порядка слов. Авторы ТСТ так формулируют суть развиваемого ими подхода [Там же, с.274]: "Описать законы порядка слов в данном языке значит предложить такие автоматически выполнимые правила расстановки словоформ во фразе, которые применяются в процессе перехода от некоторого представления фразы, не содержащего эксплицитных сведений о порядке словоформ, к самой фразе: результаты применения таких правил должны по крайней мере в большинстве случаев (в идеале - во всех случаях) совпадать с тем словорасположением, которое осуществляет в получающейся фразе компетентный носитель языка." И далее "...правила порядка слов есть правила линеаризации поверхностно-синтаксической структуры, не снабженной линейным порядком слов."
Сказуемое - нормальный личный глагол.
предикативное X личн... Y им =(S),(A),(Num), NUMP Рис 1. Пример синтагмы : Подлежащее - склоняемая единица (1-б) Нотация для записи синтагм, принятая в ТСТ, имеет пространственный, а не линейный характер, затрудняющий ее перенос на компьютер. Для компьютерной реализации идеологии описания синтагм в [8] предложена линейная версия такого языка.
Другой особенностью блока поверхностно-синтаксического анализа (ПСА) является, несмотря на название, его ориентация на синтез ЕЯ- фразы, а не анализ. Кроме того, заблуждением является то, что дерево зависимостей не определяет порядок слов в линеаризованной структуре (= ЕЯ- фразе). Если задать правило обхода такого дерева, то порядок слов будет задан абсолютно строго для каждой поверхностно-синтаксической структуры [27].
Важной особенностью в ТСТ является то, что происходит разделение на модель поверхностного синтаксиса (=модель языка) и семантическое представление (=модель смысла).
Однако ТСТ остается синтаксически (а не семантически) ориентированной.. Несмотря на то, что основная структура представления смысла в ЕЯ- форме, дерево зависимостей, выбрана удачно, основой классификации ПСО остаются синтаксические признаки. Идея семантического примитива языка для описания семантики отношений в ТСТ также не нашла своего развития.
Традиционное мнение о том, что область существования семантического отношения - это глагольные словосочетания, постепенно пересматривается. Современная теория словообразования [6, 15, 35, 49, 120, 209] различает словообразование современного русского языка (синхронное) и историческое (или диахронное) словообразование. Некоторые модели словообразования формируют семантические связи в составе слов. В таблице 1 приведены примеры из [6] суффиксального словообразования существительных, которое приводит к образованию нового семантического отношения. Приставки в русском глаголе и его дериватах также несут определенную семантику, связанную с обозначением пространственных и временных отношений того действия, которое обозначает глагол [45]. Другой областью проявления семантических связей в языке является структура сложного предложения [50]: когда простые предложения вступают в семантические отношения подчинения или сочинения. При этом пропозиции, выраженные простыми предложениями, можно рассматривать в качестве актантов такого отношения, а тип самого отношения иногда можно идентифицировать по союзной связке.
Таблица 1. Примеры суффиксального словообразования существительных для естественно-языкового высказывания сформировавшимся в 70-80 годы явилось исследование ЕЯ- явлений, лежащих за рамками традиционной грамматики предложения и относящихся к ЕЯ- высказыванию. К ним относятся:
референция, фокус эмпатии, актуальное членение предложения, видо-временные отношения.
Традиционная грамматика русского языка [120] не проводит четкого разграничения между понятиями предложение и высказывание. Это проявляется в классификации предложения, его определении и описании его характеристик [там же].
В исследовании [75, 78] было показано, что "преодолеть смешение предложения и высказывания при описании семантики предложения можно, однако, лишь ценой эксплицитного рассмотрения предложения в контексте речевого акта: объектом, с которым должна иметь дело семантика предложения, является в конечном счете не семантическое представление предложения, а семантико-прагматическое представление предложения, включенного в речевой акт, то есть семантико-прагматическое представление высказывания."
В теории высказывания [там же] выделяются следующие аспекты значения (=смысла) высказывания:
В своих работах [75, 78] Падучева останавливается на референциальных аспектах высказывания. При этом вводятся понятия: пропозиция, денотативный статус, коассигнация, сфера действия кванторов, денотативная зависимость.
высказывания - это понятие пропозиции, которое определяется как общее содержание утверждений, суждений, обещаний, пожеланий, желаний, вопросов и ответов, то есть того, что может быть возможным или вероятным. Пропозиция сама по себе не имеет истинностного значения. Только употребление предложения, выражающее данную пропозицию в высказывании порождает то, что может быть истинным или ложным, - утверждение, мнение и т.д.
Определены основные области обитания пропозиций:
1. Пропозиция - это то, что входит в речевой акт, то есть то, что может быть подвергнуто утверждению, сомнению, то, что может быть предметом просьбы, приказания, пожелания, обещания.
2. Пропозиция - является естественным аргументом модальных операторов и предикатов пропозициональной установки (то есть разного рода интенсиональных операторов) - таких как возможно, необходимо, считает, необходимо, боится и т.д.
3. Пропозиция является семантическим актантом перформативных глаголов в таких предложениях как Прошу тебя закрыть окно и Советую тебе пойти к врачу.
Отмечено, что при включении предложения в речевой акт происходит актуализация предложения, то есть превращение его в высказывание. При этом отмечаются основные отличия предложения от высказывания.
1. Предложение имеет иллокутивное предназначение, выраженное с помощью наклонения, типа предложения по цели высказывания, и, быть может, лексически, например, модальными словами. В речевом акте говорящий использует предложение (с тем или иным иллокутивным предназначением) для выражения своего коммуникативного намерения, то есть строит высказывание с той или иной иллокутивной функцией. Предназначение предложения может быть неоднозначным или неопределенным, функция же однозначна.
2. Смыслом предложения обычно является пропозициональная форма, содержащая прагматические переменные. В составе высказывания происходит фиксирование прагматических переменных, в результате чего пропозициональная форма превращается в замкнутую пропозицию.
3. Предложение обычно содержит конкретно - референтные предметные термы, то есть выражения, предназначенные для обозначения индивидуализированных объектов. В индивидуализированными реальными объектами из общего поля зрения или фонда знаний участников речевого акта. Предложение может иметь во всех своих употреблениях один и тот же смысл. Однако при каждом новом наборе прагматических переменных и при новой референции референтных термов на базе этого смысла возникает новая пропозиция.
4. Аналогично, пропозициональные компоненты предложения, предназначенные для обозначения ситуаций, вступают в соотношение с ситуациями, событиями, фактами реального мира.
Отмечается, что понятие презумпции тесно связано с проблемой референции.
Одним из важнейших понятий в теории референции является понятие денотативного статуса, которое определяет тип соотнесенности именных групп с внеязыковыми объектами. Показано, что в структуре именной группы присутствует два компонента - общее имя и актуализатор.
В [232] различается три основных подхода к исследованию смысла ЕЯ-феноменов:
референциальный (referential), концептуальный (ideational), поведенческий (behavioural).
референциального подхода к интерпретации смысла ЕЯ- формы, многие положения этих исследований можно перенести на почву концептуального представления смысла высказывания.
Функциональная грамматика (ФГ) [169] - другое направление в современной лингвистике, позволяющее зримо представить смысл предложения и высказывания.
Поясняя смысл термина "функциональная грамматика", Холлидей во вступлении к своей книге [там же] пишет так:
"Она (грамматика) функциональная в трех различных, хотя и близко связанных смыслах: (1) в ее интерпретации текста; (2)в ее системе; (3)в элементах лингвистических структур.
(1) Она функциональна в том смысле, что она разработана с учетом того, как язык используется. Каждый текст, независимо от того, устный он или письменный, - создан в некотором контексте использования, более того, именно эти использования языка в течение десятков тысяч поколений сформировали эту систему. Язык предназначен удовлетворять человеческим нуждам, и то, что он организован функционально, в соответствии с этими "естественная" грамматика, в том смысле, что все в ней может быть объяснено, в конце концов отсылкой на то, как язык используется.
(2) Следуя этому можно сказать, что фундаментальными компонентами смысла языка являются функциональные компоненты. Все языки организуются вокруг двух главных видов смысла, идейных или рефлексивных и межперсональных или активных. Эти компоненты, названные мета - функции в терминологии настоящей теории, являются выразителями в лингвистических системах двух общих целей, которые пронизывают все употребление языка:
(межперсональное). Связанным с ними является третий метафункциональный компонент, текстовый.
(3) Каждый элемент языка объясняется ссылкой на его функцию в общей лингвистической системе. В этом третьем смысле, следовательно, функциональная грамматика это то, что конструирует все элементы языка -предложения, фразы и т.д. - как органическое сочетание функций. Другими словами, каждая ее часть интерпретируется как функциональная в соответствии с целым."
Функциональная грамматика подходит к высказыванию с различных точек зрения, выделяя тем самым различные аспекты его смысла. Так в [169] высказывание рассматривается:
Кроме того, в рамках ФГ Холлидея рассматривается лингвистические и экстралингвистические явления, связанные с высказыванием, то есть то, что находится • "выше" предложения (сложные предложения);
• "кроме" предложения (метафорические способы выражения).
В ФГ вводятся следующие основные параметрические (ролевые) компоненты высказывания:
При рассматрении высказывание как информационного сообщения основной упор делается на его актуальное членение, то есть на способы представления темы и ремы в английской фразе. При этом тема представляется как функция высказывания - сообщения. Это то, к чему сообщение относится, точка отправления, от которой говорящий отталкивается.
В ФГ выделяется два основных речевых типа отношений: дать и потребовать.
Рассматривая высказывание как обмен (взаимодействие) ФГ Холлидея выделяет два типа обмена: обмен информацией и обмен товарами и услугами. Комбинация этих двух признаков приводит к следующей таксономии высказываний:
Несмотря на то, что при рассмотрении функциональных аспектов высказывания Холлидэй очень близко подходит к структуре смысла высказывания, его подход имеет ряд недостатков:
• В ФГ еще нет логической формы для описания смысла высказывания.
• Нет механизма взаимодействия и увязки аспектов смысла между собой.
• Нет четкого разделения: смысл предложения vs. смысл высказывания.
В работе [103] проведен анализ деловых кино- диалогов с целью выделения различных типов высказываний. В результате было выявлено 34 типа:
1) уверенность, 2) приказ, 3) указание, 4) назначение, 5) вопрос, 6) зов, 7) просьба, 8) предложение, 9) подтверждение, 10) напоминание, 11) благодарность, 12) ответ, )объяснение, 14) пояснение, 15) оценка, 16) предположение, 17) согласие, 18) несогласие, 19) мнение, 20) совет, 21) доклад о прибытии, 22) прощание, 23) представление, 24) информирование, 25) вывод, 26) недовольство, 27) недоверие, 28) сомнение, 29) беспокойство, 30) непонимание, 31) недоумение, 32) удивление, 33) желание, 34) нежелание.
Однако в указанный перечень не попали такие распространенные в научных текстах типы высказываний, как:
Представляет также интерес классификация типов высказываний, основанная на структуре смысла этой формы естественного языка.
В последнее время в поле пристального внимания лингвистических исследований попали такие явления естественного языка как фокус, эмфаза [18, 101], референция [17, 42, 43, 94], видовременные отношения [76, 152, 248, 251, 255], имеющие непосредственное отношение к моделированию понимания.
В [143] был предложен формализм описания естественного языка, заложивший основы для нескольких научных направлений:
• теории формальных грамматик в математике[233];
• теории формальных моделей языка, основанных на формализмах продукций и деревьев непосредственных составляющих [79, 119, 150, 176 ] ;
• феноменологической теории управления и связи [144, 145].
Рассмотрение математических аспектов грамматики Хомского выходит за рамки настоящей работы. Теория управления и связи была упомянута в разделе 1.3. Поэтому все последующее изложение будет относится к части теории Хомского, а также ее многочисленных модификаций [79, 119, 150, 176], описывающих формальную модель языка.
Основная идея грамматики Хомского заключается в представлении грамматики как однородной математической системы, описываемой неким процессом порождения состояний. В этом случае грамматика представляется как тройка:
Z - конечное множество начальных цепочек;
F - конечное множество правил-продукций вида X -> Y;
описывается деревом порождения (=деревом непосредственно составляющих (НС)).
В зависимости от составляющих тройки (8) Хомский выделил три типа грамматик и, соответственно, описываемых ими языков:
• грамматики с конечным числом состояний, которые соответствуют описанию конечного автомата (=машины Тьюринга);
распространение в компьютерной лингвистике;
Контекстно-свободная грамматика, описанная Хомским, относится к типу трансформационных грамматик, так как все правила- продукции носят характер трансформации НС. На рис 2. показан пример дерева непосредственно составляющих для фразы из [61]:
Пример 6.
(9) "Искренность могла напугать этого мальчика" В одном из первоначальных вариантов [143] грамматика Хомского состояла из базисного и трансформационного компонентов.
Базисный компонент этой грамматики включает:
(а) ограниченный набор не-терминальных (не-заключительных) категориальных символов, а именно - начальный символ S (предложение), символы NP (именная группа - noun phrase), VP (глагольная группа - verb phrase), N (имя), V (глагол), Det (детерминатив), Aux (вспомогательные формативы времени и наклонения), а также неограниченное множество терминальных (заключительных) символов, то есть конкретных формативов: слов или грамматических морфем - мальчик искренность, напугает, этот, может, -л-;
(б) набор правил, оперирующих с этими категориальными символами и имеющих вид подстановок (10), категориальных (I-VIII) или лексических (IX-...).
(10) ----- S---------NP --- VP--- Рис.2 Дерево непосредственно составляющих для фразы На основе подобных правил из начального символа предложения (S) выводится бесчисленное множество цепочек (strings), состоящих из лексико-грамматических формативов, причем к каждой цепочке оказывается присоединенной ее синтаксическая структура, или фразовый показатель (рис. 2).
Трансформационный компонент содержит различные операции перегруппировки Tгруп, объединения Тед, управления Тупр, согласования Тсогл, вставки Твст или опущения Топ, которые применяются к тем или иным фрагментам терминальных цепочки и преобразуют их таким образом, что эти цепочки получают вид хорошо оформленного предложения, например (9) из (10). В [61] отмечены свойства порождающего описания, которые объясняют популярность этого типа представления:
В дальнейшем были предложены разнообразные варианты формальных грамматик Хомского[119].
В формализме DCG (definite clause grammar) [221, 222] используется идея Колмероэ и Ковальского о переходе от специального грамматического формализма к более общему формализму логики предикатов первого порядка. В DCG логический вывод применяется в качестве механизма грамматического разбора. Грамматика записывается в терминах правил Пролога, где нетерминальные символы описываются правилами, а терминальные - фактами. В рамках формализма DCG были реализованы грамматики различных национальных языков [LINGUIST в 151, 179, 194].
представляющим собой тип формализма грамматик зависимостей, в котором слово может быть замещено структурой, которой оно управляет. В основе категориальных грамматик лежит простой логический механизм построения категорий путем объединения других категорий, благодаря чему категориальные грамматики активно используются в исследованиях, связанных с логической семантикой. Примеры использования категориальных грамматик для обработки естественного языка можно найти в [215]. Другим примером реализации категориальной грамматики, расширенной механизмом рассуждений, является исследовательская система SLG [151].
Унифицированные формализмы (PATR, FUG, LFG, GPSG, HPSG) - это грамматики, в основе которых лежит логическое исчисление и форма "атрибут-значение". [164, 180, 188, 242, 266]. Примерами систем, реализующих подобные формализмы могут служить AV parser [181], система QPATR [192], система ELU [182, 231], исследовательская система GULP (Graph Unification Logic programming) [146], UBS [151], TFS [268], CLE (Corel Language Engine) [126], CUF [148], CAT2 [241], Context Feature Structure System [135], Fegramed [191]. В [269] описывается способ расширения механизма построения категорий унификацией.
Формализм TAG (Tree-Adjoining Grammar) был предложен в середине 70-х годов для строгого описания структур ЕЯ [183, 184]. Он предназначен для разделения двух типов данных, описывающих иерархическую структуру предложения: необходимых нерекурсивных лингвистических структур, соответствующих видам фраз, и структур, способных рекурсивно разворачиваться. Известно несколько систем для разработки TAG-описаний [166, 170,239, 236].
Несмотря на то, что грамматика конечных автоматов является достаточно эффективной в реализации, оно обладает слишком ограниченными возможностями для анализа, по этой причине одним из широко используемых механизмов анализа является формализм расширенных сетей переходов (ATN). Формализм ATN расширяет грамматику конечных автоматов, вводя аппарат рекурсивного вызова новой подсети переходов (операция PUSH) и набор регистров, в которых хранятся текущие результаты разбора фразы, а также средства работы с ними. Значения регистров могут выступать как условия на переходы по веткам ( что обеспечивает частичную зависимость от контекста и выход за пределы КС-грамматик).
Благодаря регистрам и операциям над значениями, которые там хранятся, ATN-формализм эквивалентен процедурному языку программирования, в котором можно описать анализ языка произвольной сложности. ATN-формализм был реализован в ряде систем: LINGOL [223], LIFER [174], DIAGRAM [229], PAKTUS [151], ATNL [102].
Несмотря на доминирующее положение формальных грамматик (модификаций трансформационной грамматики Хомского) в современной компьютерной лингвистике [224], они обладают рядом ограничений, затрудняющих их использование для семантической обработки языка.
Во-первых: формализм, предложенный Хомским, - это синтаксическиориентированная модель, не предназначенная для распознавания хотя и синтаксически правильных, но абсолютно бессмысленных фраз языка. Пример такой фразы приведен Хомским в [143] Пример 7.
(11) "colorless ideas sleep furiously".
Во-вторых: в основе формальных грамматик Хомского лежит однородный по своей математической природе формализм. Это преимущество оборачивается недостатком, так как в угоду математической строгости модели игнорируется целый ряд явлений, относящихся к области феноменологии языка (см. раздел 1.2), но лежащих за рамками возможностей примененной математической теории. По-видимому, арсенал математических средств для описания как структур языка, так и алгоритмов их обработки должен быть существенно расширен [27, 104, 172, 247].
грамматического разбора (parsing) не содержит семантических связей, или содержит их в опосредованной форме. Дерево порождения - это структура, которая носит скорее процедурный, чем семантический характер.
Развитие формальных грамматик шло в основном по пути преодоления вышеперечисленных ограничений [61, 70].
Попытки описания синтаксической структуры предложения с помощью дерева зависимостей, предпринятая в [209, 250], получили развитие и математическое обоснование в теории деревьев синтаксического подчинения [24-27].
Традиция формального представления смысла фраз естественного языка берет начало от логики Аристотеля [10]. Однако метод представления смысла естественно- языковых фраз, предложенный в силлогистике Аристотеля и ее модификакциях [52, 91] применим к ограниченному классу высказываний кванторного типа, включающему четыре шаблона:
(12) Выражаясь современным языком, силлогистика Аристотеля ориентирована на формализацию умозаключений в системе когнитивных отношений "элемент-множество".
Появление исчисления высказываний, или "булевой алгебры" [91, 131, 132, 243, 252], предоставило математический аппарат для определения значений истинности сложных утверждений на основании значений составляющих его простых компонентов, если они объединены с помощью логических связок И (&), ИЛИ (), НЕ ( ), импликации ( ), тождества ( ).
В логике термин высказывание и его синоним утверждение используются в смысле, отличном от понимания этих терминов в современной лингвистике. Так, например, даже часть естественно-языкового предложения может интерпретироваться в логике как актуализированное в составе речевого акта [75]. Это подтверждает известный факт, что многие идеи в логике (как и термины для обозначения новых понятий) математики "подглядели" в естественном языке. Так, отвечая на риторический вопрос "Возможно ли, что весь язык мысли станет вычислимым, подобно математике и символической логике", Беркли [131] пишет так:
"Обычный натуральный язык есть жильная порода, руда, расплавленная магма, из которой кристаллизуются подобно алмазам идеи и символы математики и символической логики. Чем больше люди будут понимать применяемые ими языки, чем больше они будут представлять себе, как языки раскрывают и скрывают идеи, отображают и искажают понятия, тем больше они будут извлекать из языков кристаллы и самородки ясности, которые следует искать в таких областях как математика и символическая логика".
В [252] отмечено, что, с одной стороны, для каждой из пяти логических связок, используемых в исчислении высказываний, имеется эквивалент в естественном языке. С другой стороны, естественный язык был бы сильно обеднен сокращением числа его связок до пяти.
Напротив, исчисление высказываний не станет богаче, если ввести дополнительные связки. В [252] приводятся примеры (8 и 9) несоответствия смыслового содержания связок в исчислении высказываний и союзов в естественном языке.
Пример 8.
"Ему стало страшно, и он убил чужака" (ср. "Он убил чужака, и ему стало страшно") В примере 8 союз и подчеркивает определенный временной и причинный нюанс.
Пример 9.
"целое число четно или нечетно" В примере 9 союз или используется в разделительном значении или иначе, в то время как дизъюнкция является соединительной связкой и/или. Интересен тот факт [131], что римляне отличали и/или от или иначе при помощи двух разных слов.
Исчисление высказываний бедно выразительными средствами и не позволяет описывать дедуктивные рассуждения всех типов [91], в частности силлогистические рассуждения. Естественным развитием исчисления высказываний является исчисление предикатов [91, 243, 252].
Стратегия определения семантических значений компонент и формул логики предикатов базируется на понятии интерпретации логической формулы. При этом задается семантическое значение для каждого базисного выражения. Затем вводятся правила вычисления семантических значений сложных логических формул по известным семантическим значениям компонент. Таким образом приписываются семантические значения все более и более крупным составляющим логической формулы, так что в конце концов семантическое значение будет приписано всей формуле. Этот процесс называется композиционным методом [252].
Композиционный метод гарантирует, что семантическое значение сложного выражения всегда является функцией его синтаксических составляющих и способа их комбинирования. Если семантические значения формул F и G известны, то можно определить семантические значения формул F, F & G, F G, F G, F G с помощью таблиц истинности логики высказываний.
Основной задачей [252] представления знаний является перевод неформальных выражений или описаний метаязыка (=естественного языка) в фразы объектного языка (= языка исчисления предикатов). При этом выбор предикатов, числа их аргументов, констант и переменных в значительной мере отдан во власть аналитика. Исчисление предикатов не представляет никаких возможностей обоснования этого выбора.
В обыденном языке часто говорят о допустимости чего-либо, о гипотетических событиях, целях, которые можно попытаться достигнуть, догадках о будущем. Большая часть фраз языка может быть то истинной, то ложной в зависимости от обстоятельств, текущего момента, точки зрения каждого из нас. В естественном языке модальности "возможный", "необходимый" и "допустимый" выражаются полувспомогательными глаголами, такими как "должен" и "могу". Для формального описания модальности были предложены модальные логики [36, 37, 97- 99, 252]. Название "модальная логика" происходит от того, что модальные логические системы вводят такие операторы над логическими формулами, которые позволяют модифицировать их интерпретацию. Возможность и необходимость называется алетическими модальностями или модальностями возможности. Так же, как кванторы для всех () и существует () вводились в синтаксисе логики первого порядка, можно построить формальный язык, используя пару понятий "возможно/ необходимо" как кванторы, действующие на формулы. Логическая система, базирующаяся на операторах возможно что и необходимо, чтобы, называется логикой возможного или алетической логикой.
Деонтическая логика вводит модальности разрешено, обязательно, реализующие языковые конструкции разрешается, надо, чтобы.
Эпистемическая логика, или логика знаний, исследует модальности знания и веры, тогда как временная логика вводит модальности иногда и всегда (в будущем и прошлом) вместе с их отрицаниями часто и никогда.
Появление нечетких логик, теории нечетких множеств и других нечетких теорий [1- 3, 63, 91] связано с работой [267]. Основная идея Заде состояла в том, что человеческий способ рассуждений, опирающийся на естественный язык, не может быть описан в рамках традиционных математических формализмов. Этим формализмам присуща строгая однозначность интерпретации, а все, что связано с использованием естественного языка, имеет многозначную интерпретацию. Цель Заде состояла в построении новой математической дисциплины, в основе которой лежала бы не классическая теория множеств, а теория нечетких множеств. Последовательно проводя идею нечеткости, по мнению Заде, можно построить нечеткие аналогии всех основных математических понятий и создать необходимый формальный аппарат для моделирования человеческих рассуждений и человеческого способа решения задач.
Так же как и модальные логики, нечеткая логика заняла прочные позиции в области управления, принятия решений, представления знаний [40], однако широкого проникновения в область компьютерной лингвистики этих достижений современной логики пока не произошло. Неклассические логики можно сочетать с классическим исчислением предикатов. В свою очередь, исчисление предикатов можно комбинировать с такими сравнительно эффективными механизмами вывода, как резолюция [252]. Таким образом, логические формализмы представления знаний предоставляют математически строгое решение проблемы рассуждений.
Недостаток логического формализма - его неструктурированность: например, для сбора всей информации по одному объекту приходится пробегать все множество логических формул некой базы данных. Графовые представления, о которых пойдет речь в следующем разделе, служат глобализации и структурированию информации.
форм с помощью семантических сетей и графов Идеи графового представления семантических и логических связей между объектами берет начало от работ Пайерса [219] и в настоящее время графовые представления знаний заняли прочное место в теории и практике ИИ [136, 139, 197].
Граф собирает вокруг одного узла всю информацию по некоторому объекту, поэтому графовые представления, такие как концептуальные графы [246] и семантические сети [264], позволяют визуализировать модель мира, которому принадлежит решаемая проблема.
Концептуальные графы и семантические сети составляют графическую версию исчисления предикатов. Фреймы как объектное представление информации о предметной области можно получить как из логического представления, так и из сетевого[252].
В [197] отмечается, что в настоящее время существует восемь основных парадигм в области семантических сетей:
• сети с "путевым" механизмом вывода (path-based inheritance);
В [197] концептуальные графы рассматриваются как вид семантических сетей, напротив, в [252] концептуальные графы Совы рассматриваются как средство представления логических формул, в то время как семантические сети интерпретируются как более сложные структуры, объединяющие концептуальные графы. Мы в дальнейшем изложении будем придерживаться первой точки зрения.
В процессе развития каждого из направлений происходит интеграция основных положительных черт из других представлений. Общий подход к представлению знаний, принятый в современных вариантах семантических сетей, можно проиллюстрировать на примере из [197] (рис.3).
Фрагменту семантической сети соответствует следующие формы в естественном языке (13-20) и их общее логическое представление (21).
(13) Toby the hungry tiger follow his mother.
(14) Toby, the son of the tigress he follows, is hungry.
(15) The tiger is followed by her hungry cub Toby.
(16) Hunger grips Toby, son of the tigress leading him.
(17) She who bore hungry tiger Toby is also by him followed.
(18) Der Tiger Toby, der seiner Mutter folgt, hat Hunger.
(19) Hungry Toby's relation to the tiger is one of mother-leading.
(20) Голодный тигр Тоби следовал за своей матерью.
(21) (Toby) (x) ( Tiger(Toby) & Tiger(x) & Follows(Toby,x) & Mother_of(Toby,x) & Female(x) & Male(Toby) & Hungry(Toby)) Прерывистыми линиями на рис.3 показаны отношения элемент-множество. На этом примере можно отметить основные черты семантических сетей (= графовых представлений).
Семантическая сеть представляет собой граф, узлами которого являются концепты, а дугами отношения между концептами. Из этого примера также видно, что семантические сети подходят к предложению с точки зрения представления знаний. При этом целый ряд феноменологических аспектов, связанных с высказыванием, как формой естественно- языкового общения, остается не учтенным. Среди них такие, как коммуникативное строение фразы, заданное коммуникативными ролями участников ситуации, актуальное членение, фокус. Возможно, что такой чисто информационный подход допустим в рамках определенных приложений, связанных с построением низко- интеллектуальных баз знаний, однако в системах, претендующих на интеллектуальную обработку текстов, желательно более точное представление смысла высказывания.
Различные разновидности семантических сетей отличаются своими целями и исходными предпосылками, формой представления отношений между объектами и используемым для этого формализмом, набором решаемых задач.
Теория концептуальных зависимостей (ТКЗ) [201, 233] базируется на следующих предположениях:
• если два предложения имеют одинаковый смысл, они должны быть представлены одинаково, независимо от использования конкретных слов;
представлена эксплицитно. Это значит, что любая информация, которая может быть выведена из того, что выражено явно, должна быть включена в это представление.
Словарь концептуальных зависимостей включает:
• набор примитивов, используемый для представления действий в мире;
• набор состояний, используемый для представления предусловий и результатов действий;
• набор зависимостей, или возможных концептуальных отношений, которые могут существовать между примитивами, состояниями и задействованными в них объектами.
Множество примитивов варьировалось в процессе разработки теории КЗ, но оно составляет приблизительно 10-12 предикатов:
PTRANS : изменение расположения объекта;
ATRANS : изменение владельца, обладания или контроля над объектом;
MTRANS : обмен ментальной информацией между объектами;
MBUILD : порождение идеи или новой информации агентом;
ATTEND : акт фокусирования органа чувств на объекте;
GRASP : захват объекта актором так, что им можно манипулировать;
PROPEL : приложение физической силы к объекту;
MOVE : перемещение части тела агента самим агентом;
INGEST : принятие внутрь объектов (пища, воздух, вода и т.д.) живым существом;
EXPEL : вывод наружу объектов из живого существа;
SPEAK : акт производства звуков, включая некоммуникационные звуки.
Каждый примитив имеет набор слотов, связанных с ним из набора концептуальных зависимостей. С каждым слотом связаны ограничения на сорт объектов, которые могут заменять этот слот. Например, для PTRANS слоты следующие:
ACTOR : человек (или одушевленный объект), который инициирует PTRANS OBJECT : физический объект, который перемещается FROM : место, с которого начинается PTRANS Концептуальные зависимости записываются графически, как показано на рис. 4.
ACTOR PRIMITIVE | Аналитическая форма | |+------------------------+| | +---------------------+ ||+---------+ +--------+ || |=>| Логическая модель | |||Роль | |Роль | |======| +---------------------+ |||субъекта | |атрибута| || | +---------------------+ | +---------+ +---------+ | |=>|..."часть-целое" | | |Субъект | |Атрибут |=======| +---------------------+ | +---------+ +---------+ | | +---------------------+ +--------------------------+ +---------------------+ Примечание:
1.Многие отношения в ЕЯ носят синтетический характер.
Примером могут служить отношения, соответствующие модели управления глагола поехать.
Аналитическую форму для этого глагола и одного из отношений (поехать_куда) можно представить следующим образом:
поехать = перемещаться, используя транспорт на колесах (64) поехать_куда(п_объект,o1;место,o2)= перемещаться_куда(п_объект,o1;место,o2) & перемещаться_на_чем(п_объект,o1;транспорт,o3) & часть_целое(часть,колеса_u1;целое,o3), где :
поехать_куда,перемещаться_куда, перемещаться_на_чем, часть_целое - имена соответствующих отношений;
п_объект, место, транспорт, часть, целое - имена ролей;
п_объект - перемещающийся_объект;
o1,o2,o3-имена переменных для обозначения концептов;
Колеса_u1-множество индивидов.
В теории концептуальных зависимостей [234] аналитическая форма (=концептуализация) является основным способом представления знаний. Критику такого подхода можно найти в [197, 246].
2.Логическая модель - это система логических связей для отношений, входящих в состав когнитивной модели. Примером логических моделей (логик) для временных отношений могут служить [40, 123-125, 207].
3.Отношения, как и концепты (субъект и атрибут) могут принадлежать к определенной предметной области. В этом случае они являются область- зависимыми и обладают связями типа область-объект. Так отношение поехать_куда можно отнести к предметной области транспорт.
4.Связи типа: элемент-множество, объект-свойство, часть-целое подробно описаны и используются в различных системах представления знаний [197].
5.Факты-описание конкретных отношений между объектами, в которые они вступают на своем жизненном цикле.
6.Роль - это множество концептов, обладающих определенными свойствами, которые позволяют им играть эту роль в отношении.
Высказывание - это явление естественного языка(ЕЯ), которое отличается от предложения тем, что имеет коммуникативную функциональную направленность: вопрос, сообщение, просьбу. Поэтому семантика ЕЯ- высказывания шире, чем смысл отдельного предложения.
Известно[75], что высказывание имеет ряд отличительных черт по сравнению с предложением:
• смысл высказывания шире, чем смысл предложения, так как высказывание несет функциональную нагрузку;
• концепты в составе высказывания актуализированы, т.е. привязаны к объектам и понятиям, находящимся в поле зрения коммуникантов;
• компоненты высказывания могут иметь различный статус истинности и это отражается на общем значении и статусе истинности высказывания.
Многоаспектная модель смысла ЕЯ- высказывания может быть получена как расширение МАМС для ЕЯ-предложения. Высказывание в примере 20 не имеет явного грамматического оформления. Для определенности ЕЯ- предложение примера 20 можно интерпретировать(согласно [169]) как ЕЯ- высказывание в примере 21.
Пример 21. Я вам говорю, что когда окончилось представление, артист Талантов поехал на вокзал.
В макроструктуре смысла ЕЯ- высказывания можно выделить четыре компонента:
• базовый коммуникативный компонент B;
• компонент коммуникативной пресуппозиции P;
• компонент обстоятельств высказывания C;
Таким образом, МАМС- формула для смысла ЕЯ- высказывания (MU) имеет вид:
Структура и содержание смысла предложения (M) подробно рассматривались в разделе 3.1.
Теперь сосредоточимся на представлении компонентов B, P и C из (65).
Базовый коммуникативный компонент (B) в (65) для примера 21 можно представить как конъюнкцию двух отношений:
где (67) B1= сообщать_кому(источник_u1,я_a1;приемник_u2,вы_a2) (68) B2= сообщать_что(источник_u1,я_a1;сообщение_u3,Fa(M)) Семантика этих отношений может быть задана в когнитивной модели ментальных актов [11]. M - смысл ЕЯ-предложения из (41), Fa -функция актуализации.
При синтезе высказывания источник (то есть лицо, делающее сообщение) исходит принимающего сообщение).
(70) P1=предполагать_что(мыслящий_объект_u4,я_a1;предположение_u5,E1) (71) P2=предполагать_что(мыслящий_объект_u4,я_a1;предположение_u5,E2), где E1= обладать_свойством(объект_u6,THEME1;свойство_u7,E3) & иметь_значение(свойство_u7,E3;значение_u8,E4) E2= обладать_свойством(объект_u6,Fa(M);свойство_u7,E3) & иметь_значение(свойство_u7,E3;значение_u8,E5) THEME1="когда кончилось представление" В кавычках "" даны значения концептов, взятые из текста; в угловых скобках значение концептов, взятые из предполагаемой базы знаний; E1, E2, E3, E4, E5, THEME1- имена индивидных концептов. М - смысл ЕЯ-предложения из (41).
По-русски (69) можно записать так: Сообщающий предполагает, что тема известна воспринимающему сообщение, а рема - нет.
Обстоятельства высказывания включают следующие факторы:
• временные обстоятельства высказывания;
выраженного соответствующим глаголом, и может быть представлена для случая в примере как:
(72) C1=обладать_свойством(объект_u1,Fa(M);свойство_u7,G1) & иметь_значение(свойство_u7,G1; значение_u8,G2) Временные обстоятельства высказывания определяется темпоральными ОТНОШЕНИЯМИ, относящимися к высказыванию. На рис.14 показана упрощенная хронологическая диаграмма для высказывания из примера 21.
---------------------+------------------> Ось времени Рис.14.Хронологическая диаграмма временных обстоятельств (73) C2=HR1 & HR2 & HR3 & HR4 & HR5 & HR6 & HR7 & HR8, (74) HR1=одновременно_нм(т_ситуация,ТВВ;т_ситуация,ТМ), (75) HR2=одновременно_нм(т_ситуация,ТВВ;т_ситуация,B1), (76) HR3=одновременно_нм(т_ситуация,ТВВ;т_ситуация,B2), (77) HR4=одновременно_нм(т_ситуация,ТВВ;т_ситуация,P1), (78) HR5=одновременно_нм(т_ситуация,ТВВ;т_ситуация,P2), (79) HR6=одновременно_нм(т_ситуация,ТВВ;т_ситуация,E1), (80) HR7=одновременно_нм(т_ситуация,ТВВ;т_ситуация,E2), (81) HR8=одновременно_нм(т_ситуация,ТВВ;т_ситуация,C1), где ТВВ - точка времени высказывания, ТМ - текущий момент.
Соответственно в (65) C= C1 & C2.
Референция [75, 78] - это подстановка концептов, существующих в памяти или в поле зрения агента в логическую форму, соответствующую ЕЯ- высказыванию. В МАМС предусмотрено два механизма учета референциальных аспектов высказывания:
• референциальное значение термов.
Функция актуализации ставит каждому логическому предикату или формуле индивидуальный концепт из универсума всех концептов агента.
Референциальное значение - это ссылка на новый или уже известный концепт, а также та дополнительная информация о концепте, которая содержится в высказывании с помощью объектно-множественных связей, родовых или атрибутивных признаков. В МАМС референциальное значение терма входит в состав СОА-элемента и не формируется в виде самостоятельного логического компонента высказывания (аспекта смысла), как это предлагается в [75, 78]. Это оправдано еще и тем обстоятельством, что референциальное значение является основным связующим звеном при формировании логической формулы с помощью композиционного метода.
В МАМС предполагается, что логические высказывания могут отличаться по природе своего значения истинности. Для этих целей в модель введено два статуса значения истинности высказывания:
Статус модальности может принимать четыре значения:
Статус полноты задается двумя значениями:
• результат логического вывода (0).
Каждое значение статуса имеет свой приоритет, численное значение которого указано в скобках. Значение истинности составных выражений оценивается в соответствии со статусами модальности и полноты составляющих их логических компонентов. Для определения результирующего значения статусов истинности по статусам его компонентов вводится два правила.
Правила общего понижения статуса Компонент формулы с более низким приоритетом статуса в сложном высказывании понижает общий приоритет статуса высказывания до своего уровня.
Правило выборочного понижения статуса В некоторых логических выражениях для некоторых комбинаций значений истинности компоненты МАМС- формулы с более низким значением приоритета статуса истинности не понижает общее значение статуса до своего значения, если изменение значения истинности этих компонентов не влияет на общее значение истинности.
В таблицах 13 и 14 в качестве иллюстрации работы правила выборочного понижения статуса истинности приведены примеры логических выражений для операций "И" и "ИЛИ". В этих таблицах P1 и P2 - начальные логические переменные с определенным статусом модальности. P3 - это результат логической операции.
Значение статуса показано в скобках. Очевидно, что в случаях, когда результирующее значение P3 нечувствительно к изменению компонента P2 с более низким приоритетом истинности ему может быть присвоен более высокий статус (строки 3 и 4 в таблице 15 и строки 1 и 2 в таблице 16).
Таблица 15. Пример композиции статуса модальности для операции Таблица 16. Пример композиции статуса модальности для операции Таким образом, в МАМС вводятся средства для обработки высказываний, неоднородных по своему составу с точки зрения модальности составляющих его частей.
Для того, чтобы проиллюстрировать роль компонентов (аспектов) смысла высказывания в формуле (65), обратимся к таблице 17. В левой графе таблицы приведены примеров. Первый из этих примеров соответствует примеру 21. Остальные 9 составлены на его основе путем модификации. В правой части таблицы расположены четыре графы, которые показывают изменение соответствующих компонентов смысла относительно первого примера.
Графы B, P, C и M соответствуют обозначениям компонентов смысла в формуле (65). Знак плюс (+) означает изменение, знак минус (-) - неизменность смысла компонентов.
Таблица 17. Примеры изменения значений аспектов смысла в (66) окончилось представление.
1.Начальный образец.
2.Поменялись источник и приемник, время высказывания.
3.Поменялся приемник,, время высказывания, появился модальный оттенок и вопросительная форма, влияющие на базовый компонент и компонент пресуппозиции.
4.Поменялись: приемник,, время высказывания. Вопросительная форма, при этом смысл вопроса более частный, чем все высказывание.
5.Поменялись: приемник,, время высказывания.
6.Лингвистическая модальность меняет компоненты B,P,C.
7.То же.
8.Сменились тема и рема. Перенос фокуса внимания на факт конца представления.
9.Оттенок модальности.
10.Изменилась форма высказывания.
Предложенная модель для представления смысла ЕЯ- высказывания носит принципиальный, во многом предварительный характер, и содержит значительный потенциал для расширения своих возможностей. В данной работе рассмотрен только один функциональный тип высказывания: сообщение. Репрезентативные возможности модели будут значительно расширены при включении в нее других типов: вопрос, просьба(приказ). Не учитывался нами также такой немаловажный фактор высказывания, как модальность.
Отдельный интерес представляет исследование сообщений, которые носят ритуальный характер: приветствие, поздравление, прощание и т.д. Среди неучтенных обстоятельств высказывания можно отметить такой фактор, как субъективное отношение сообщающего к сообщению и воспринимающему его.
Всякая система логического представления смысла ЕЯ-феноменов опирается на три составляющих:
• она имеет в основе какой-то определенный математический формализм;
• она вводит нотацию для записи представления смысла;
• она описывает определенный набор фактов естественного языка.
Поэтому сравнение систем представления смысла удобно проводить в отдельности по каждой из составляющих. Наиболее близкой к МАМС системой представления смысла среди известных теорий [197], можно считать подход к описанию смысла ЕЯ- предложений, описанный в [246]7.
МАМС и теория концептуальных графов Совы (ТКГ) имеют в своей основе общий формализм: теорию исчисления предикатов.
Нотация в ТКГ более тяготеет к графовому типу представления, хотя автором предложен и формульный вариант. Однако объектно-ролевая нотация, предложенная в МАМС, позволяет эксплицитно выразить ролевые значения концептов, поэтому она более лингвистически ориентирована, чем ТКГ. Кроме того, МАМС когнитивно ориентирована, так как одним из условий выбора предиката в СОА- элементе является наличие его в когнитивной модели агента.
Однако, наиболее ярко отличия МАМС-В и подхода [246] проявляются в области феноменологии. МАМС в отличие от ТКГ, рассматривает не только предложения, но и Вообще-то ТКГ декларируется как универсальный аппарат для представления знаний и представление смысла ЕЯ-феноменов рассматривается автором [246], как один из видов приложений. Поэтому с МАМС сравнивается не ТКГ в целом, а подход к представлению смысла ЕЯ- предложений с помощью ТКГ.
высказывания, и при этом МАМС позволяет описывать такие свойства ЕЯ- высказывания, которые не отражены в ТКГ, как:
представлении смысла, учитывающего значение семантической роли в явном виде;
• коммуникативно-функциональные компоненты смысла высказывания;
• разный характер истинности высказывания и его составляющих с точки зрения модальности.
действительности в терминах моделей представления, известных агенту. Способность рассуждать, а также выполнять другие когнитивные функции основывается на способности представлять знания, поэтому грамматика ЕЯ должна быть адекватна модели представления знаний агента об окружающей его действительности (предметной области). Несмотря на многолетние усилия в области синтеза моделей языка (грамматик) и моделей смысла окончательного решения. В настоящей работе излагается грамматика ЕЯ, основанная на элементах смысла (ЭлС). В основу семантической модели в ГЭлС положена многоаспектная модель смысла предложения (МАМС-П), описанная ранее. На разработку ГЭлС оказали влияние и так или иначе были учтены результаты работ [128, 141-145, 155-159, 209, 234, 235, 259].
свойства естественного языка:
1.Естественно-языковое предложение (ЕЯП) представляет собой композицию связанных между собой семантических примитивов - элементов смысла.
смысловым значением. Простой ЭлС - это минимальная часть ЕЯП, имеющая структурный (а не атомарный) эквивалент в модели смысла (МАМС-П).
3.Можно выделить три важных свойства ЭлС:
составные части приводит к их семантической независимости, и, следовательно, неопределенности предложения как семантического целого;
• сочетаемость, т.е. способность ЭлС сочетаться между собой определенным образом для образования ЕЯП;
Поскольку основное и единственное содержание смысла ЕЯП - это описание взаимосвязи, то третье базовое свойство ЭлС:
• способность выражать взаимосвязи между объектами.
4.Основные свойства структурного эквивалента ЭлС в МАМС-П -объектноролевого предиката типа ОТНОШЕНИЕ(СУБЪЕКТ,АТРИБУТ) или СОА-элемента рассмотрены в разделе 2.2. Записи объектно-ролевого предиката принятой в нотации МАМС-П и ГЭлС, соответствует стандартная запись исчисления предикатов (44), p - имя предиката, выражающего отношение между субъектом и атрибутом.
5.СОА-структура, соответствующая ЭлС, состоит из постоянной части (тип конкретное значение ЭлС.
В таблице 18 приведены примеры (п.1-3) ЕЯ- фраз, записанных в нотации ГЭлС (в таблице П1.1 приложения 1 приведены кальки этих примеров в английском языке). Примеры таблицы 18 (и П1.1) иллюстрируют следующие положения ГЭлС.
связующая часть(СЧ) ЭлС; зависимая часть(ЗЧ) ЭлС.
2.Существуют простые ЭлС(п.2 из табл.18) и сложные ЭлС.(п.1).
3.Элемент смысла состоит из частей элемента смысла (ЧЭлС). ЧЭлС в свою очередь подразделяются по структурному составу на простые ЧЭлС и сложные ЧЭлС(п.1). В зависимости от используемых языковых средств можно выделить следующие уровни представления ЧЭлС и ЭлС в ЕЯ:
морфемный (п.1)-частями ЭлС являются морфемы;
лексический (п.2,3) - частями ЭлС являются словоформы;
структурный (рис. 12) - частями ЭлС являются структурные части ЕЯП.
идентифицируются по наличию в составе слова морфем из модели словообразования, обладающей определенной семантикой (п.1). На лексическом уровне ЧЭлС определяют следующие группы признаков:
первичные (морфологические) признаки, позволяющие идентифицировать лексемы и "семантические связи - свойства" соответствующих им концептов;
вторичные (синтаксические) признаки, позволяющие идентифицировать "семантические связи-отношения" между лексемами.
В некоторых частях речи эти признаки очень тесно переплетены. Примером тому служит глагольное словосочетание, рассмотренное ранее. На структурном уровне представления роль признака выполняет наличие тех или иных лексем, знаков препинания или нужной синтаксической формы в составе структурной ЧЭлС. Тип ЭлС задается комбинацией омоструктурностью некоторых типов ЭлС (п.2) решается путем применения ролевого семантического фильтра.
Таблица 18. Примеры интерпретации элементов смысла в ЕЯ Пример 18.1. "парижанин" Типы ЭлС: 1) корень(место) - nul - суф(ан) СОА- эквивалент:
место_жительства((место,ПАРИЖ),(объект,O 1) & обладать_свойством((объект,O 1),(свойство,ПОЛ) & иметь_значение((свойство,ПОЛ),(значение,МУЖСКОЙ))) Примечание: корень(место)-корень, обозначающий место или географическое название; суф("ан")-суффикс "ан";
мэс- морфемный элемент смысла; суф("ин")-суффикс "ин".
Пример 18.2. "комната сестры" СОА- эквивалент:
иметь_владельца((объект,КОМНАТА),(владелец,СЕСТРА)) Примечание: ис- имя существительное;
ис(рп)-имя существительное в родительном падеже;
тип ЭлС имеет несколько омонимических значений, ср.:
"литр молока”, “час заката”, “запах цветов”, “решение задачи" Пример 18.3. "Поезд прибыл на вокзал."
СОА- эквивалент:
S1=прибывать_куда((объект,ПОЕЗД),(место,ВОКЗАЛ)) & до((точ_ситуация,S 1),(точ_ситуация,ТВВ)) Примечание: ис(ип)-имя существительное в именительном падеже;
ис(рп)-имя существительное в родительном падеже;
гл("приходить")-глагол "приходить";
гл(пв,св) - глагол в прошедшем времени,совершенного вида.
СОА- эквивалент содержит две точечных ситуации: S 1 и "точку времени высказывания" (ТВВ), связанные Примечание :
1) В нотации элемента смысла: подчеркиванием выделен ОЧЭлС, курсивом СЧЭлС, не выделен - ЗЧЭлС.
2) nul -ЧЭлС отсутствует.
3) Угловые скобки "< >" означают возможность инверсии порядка ОЧ и ЗЧ.
4) Многоточие "..." означает возможность включений между частями ЭлС частей от других С, знаки "+","*",":" -согласование ЧЭлС в числе, падеже и роде соответственно.
4. В целях сокращения нотационной записи для элементов смысла их части, относящиеся к различным частям речи, но выполняющие сходные функции в этих ЭлС, могут быть объединены в классы ЧЭлС. Как, например, имена существительные и личные местоимения, выполняющие однотипные функции (п.3 сравните: Он прибыл на вокзал ).
Грамматика элементов смысла близка к структурной лингвистике [27] в том смысле, что она задает и исследует структурные связи между структурами языка (элементами смысла) и их составными частями. Для наглядности связи между ЧЭлС можно изобразить в виде графического представления (Рис. 12.1), которое соответствует дереву синтаксического подчинения [27] или дереву зависимостей в Модели Смысл-Текст [33, 209]. Однако связи в дереве частей элементов смысла помечены не поверхностно-синтаксическими отношениями (ПСО), как это сделано в дереве зависимостей, а принадлежностью к конкретному ЭлС. Дерево частей элементов смысла (ДЧЭлС) соответствует в МАМС-П компоненту логической формулы (41), описывающему Т-аспект (отсюда и происхождение его названия).
смысла предусматривает шесть базовых операций над элементами смысла (Рис 15.):
• подстановка значений концептов в ЭлС;
• выбор ЭлС из множества альтернатив;
• композиция ЭлС в структурное представление;
• связывание ЭлС в структурном представлении;
• интерпретация ЭлС в СОА- эквивалент.
Идентификация Идентификация- это распознавание возможных типов ЭлС в составе ЕЯП по набору присущих ему признаков. Можно выделить два важных частных случая применения операции идентификации.
1.Идентификация структурных ЭлС, т.е. ЭлС выраженных структурными элементами ЕЯП, в т.ч.[6, 50] • простыми предложениями в составе сложных;
• однородными и обособленными членами простого ЕЯП;
• присоединительными, вводными, вставными конструкциями;
2. Идентификация структурного типа простого ЕЯП.
Таким образом, определение типа составных частей структурных ЭлС является частью операции идентификации. Выделение этих случаев применения операции идентификации ЭлС объясняется их влиянием на весь процесс анализа ЕЯП. В общем случае операция идентификации ЭлС основывается на результатах комплексного морфологического, лексического, морфемного, синтаксического и структурного анализа предложения. При этом предполагается, что:
морфологический анализ - это идентификация (т.е. выявление и определение типа) морфем в составе словоформы, выполняющих словоизменительную роль ;
лексический анализ - это идентификация лексем в составе предложения;
словоформы, выполняющих словообразующую роль ;
синтаксический анализ - это идентификация синтаксических категорий в составе предложения;
структурный анализ - это идентификация структурного типа и структурных составных частей предложения.
использовать для обозначения типа ЭлС.
Подстановка Как уже отмечалось, структура ЭлС включает постоянную и переменную части. Постоянная часть соответствует типу ЭлС, переменная часть соответствует концептам субъекта и атрибута в памяти агента. Тип ЭлС задает количество и вид переменных в ЭлС.
Операция подстановки предполагает:
• выделение переменной и постоянной части ЭлС на основании типа ЭлС;
• определение и референция концептов отношений, субъектов и атрибутов, входящих в состав ЭлС;
• определение типов переменных и констант в составе ЭлС;
• подстановку концептов в СОА- представление ЭлС.
Выбор Операция выбора позволяет значительно сократить количество подходящих вариантов на предварительной стадии анализа. Для этого используется метод объектно-ролевого фильтра.
Композиция ЭлС (или ЧЭлС).
следующих общих свойствах ЭлС:
которой зависимая часть находится в подчинении или согласовании с опорной частью.
композиция, представляющая собой фрагмент дерева ЭлС.
3.Корнем ДЭлС служит структурообразующий ЭлС.
4.Одна и та же опорная часть ЭлС может присоединять несколько зависимых частей ЭлС, образуя составной ЭлС.
5.Узлами дерева ЭлС являются опорные и зависимые части ЭлС.
межморфемные и синтаксические связи (ПСО), существующие между его узлами.
Комплексный традиционный грамматический Операции над ЭлС -идентификация ;
-выбор ;
-композиция.