WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 | 3 |

«и методы автоматической обработки неструктурированной информации на основе базы знаний онтологического типа ...»

-- [ Страница 1 ] --

Московский государственный университет имени М.В. Ломоносова

На правах рукописи

Н.В. Лукашевич

Модели и методы автоматической обработки

неструктурированной информации на основе

базы знаний онтологического типа

05.25.05 – Информационные системы и процессы

ДИССЕРТАЦИЯ

на соискание ученой степени доктора технических наук

Москва 2014 -2СОДЕРЖАНИЕ Стр.

Введение 7 Глава 1. Использование знаний в приложениях информационного поиска 1.1. Формальные и лингвистические онтологии 1.1.1. Информационно-поисковые тезаурусы 1.1.2. Тезаурусы типа WordNet 1.2. Методы применения лингвистических онтологий в приложениях обработки неструктурированной информации 1.2.1. Автоматическое концептуальное индексирование на основе информационно-поисковых тезаурусов 1.2.2. Автоматическое разрешение многозначности 1.2.3. Тезаурусы типа WordNet в информационном поиске 1.2.4. Лингвистические онтологии в вопросно-ответных системах 1.2.5. Лингвистические онтологии в системах автоматической рубрикации текстов Заключение к главе 1 Глава 2. Модель лингвистической онтологии для автоматической обработки текстов 2.1. Основные принципы разработки лингвистических ресурсов для автоматического концептуального индексирования 2.2. Модель отношений в ЛО 2.2.1. Таксономическое отношение выше-ниже 2.2.2. Отношение онтологической зависимости 2.2.3. Отношение часть-целое 2.2.4. Отношение внешней онтологической зависимости в модели ЛО -3Отношение симметричной ассоциации 2.3. Группировки понятий и отношений в ЛО 2.4. Лингвистические онтологии, созданные на основе описанной модели Заключение к главе 2 Глава 3. Лингвистическая онтология как средство моделирования структуры связного текста 3.1. Моделирование структуры связного текста 3.1.1. Тематическая структура и тематическая связность текста 3.1.2. Когезия как структурная связность текста 3.2. Моделирование лексической связности на основе тезаурусов 3.3. Автоматическое аннотирование 3.4. Проблемы автоматического построения лексических цепочек 3.4.1. Субъективность выделения лексических цепочек 3.4.2. Построение лексических цепочек с учетом ситуативных отношений 3.5. Модель тематического представления текста 3.5.1. Лексические цепочки и тематическая структура текста 3.5.2. Примеры разбора лексических цепочек с учетом тематической структуры текста 3.5.3. Автоматическое построение тематического представления 3.5.4. Сопоставление метода построения тематического представления текстов и вероятностных тематических моделей Заключение к главе 3 Глава 4. Автоматическая обработка текстов на основе лингвистической онтологии и приложения информационного поиска 4.1. Этапы обработки текстов на основе ЛО -4Автоматическое разрешение многозначности 4.2.1. Метод глобального подтверждения разрешения лексической многозначности 4.2.2. Метод взвешивания подтверждения от локального и глобального контекстов 4.2.3. Организация тестирования алгоритмов разрешения 4.3.1. Концептуальный индекс, веса понятий и отношений 4.3.2. Тестирование эффективности информационного поиска 4.3.3. Лингвистическая онтология и векторная модель в задаче поиска по коллекции нормативно-правовых актов РОМИП 4.3.4. Использование комбинированных моделей для поиска документов по запросам типа «формулировка проблемы» 4.4. Лингвистическая онтология как ресурс для автоматической 4.4.1. Технология автоматического рубрицирования на основе ЛО 4.4.3. Автоматическое рубрицирование на основе 4.4.4. Эксперимент по автоматической рубрикации текстов в 4.5. Методы автоматического аннотирования текстов на 4.5.1. Метод автоматического аннотирования отдельного текста 4.5.2. Построение структурной тематической аннотации текста 4.5.3. Построение аннотации для новостного кластера на основе тематического представления текстов кластера для автоматической обработки текстов в различных проектах 4.6.3. Общественно-политический тезаурус как поисковое Глава 5. Многофакторная модель автоматического извлечения 5.1. Необходимость разработки многофакторной модели 5.2. Особенности многофакторной модели извлечения терминов 5.2.1. Основные типы признаков для извлечения терминов 5.2.2. Математические методы для комбинирования факторов 5.2.3. Логистическая регрессия как метод машинного обучения 5.3. Постановка эксперимента по оценке качества извлечения словосочетаний. Используемые терминологические ресурсы 5.4.1. Признаки, полученные на коллекции текстов 5.4.2. Признаки, полученные на основе выдачи глобальной 5.4.3. Признак встречаемости слова в терминах тезауруса 5.4.4. Оценка качества извлечения терминологических слов 5.5. Алгоритм комбинирования признаков для извлечения 5.5.1. Признаки, полученные по коллекции документов 5.5.2. Признаки, полученные по сниппетам глобальной 5.5.4. Оценка качества извлечения двухсловных терминов В настоящее время в связи с огромными объемами электронных документов имеется все возрастающая потребность в обработке неструктурированной текстовой информации, повышению качества и эффективности имеющихся методов обработки текстов. В число активно развивающихся направлений обработки неструктурированной текстовой информации входят такие задачи, как собственно поиск информации, фильтрация, рубрикация и кластеризация документов, поиск ответов на вопросы, автоматическое аннотирование документа и группы документов, поиск похожих документов и дубликатов, сегментирование документов и многое другое.



Современные информационно-поисковые и информационноаналитические системы работают с текстовой информацией в широких или неограниченных предметных областях, поэтому характерной чертой современных методов обработки текстовой информации стало минимальное использование знаний о мире и о языке, опора на статистические методы учета частотностей встречаемости слов в предложении, тексте, наборе документов, совместной встречаемости слов и т.п. В то же время когда подобные операции выполняет человек, ему необходимо выявить основное содержание документа, его основную тему и подтемы, и для этого обычно используется большой объем знаний о языке, мире, организации связного текста.

Недостаток лингвистических и онтологических знаний (знаний о мире), используемых в приложениях информационного поиска и автоматической обработки текстов, приводит к разнообразным проблемам. Нехватка знаний приводит к нерелевантному поиску в тех случаях, если способы формулировки запросов отличаются от способов описания релевантных ситуаций в документах. Эта проблема усугубляется при обработке длинных запросов, при поиске ответов на вопросы в вопросно-ответных системах.

информационному поиску TREC и семинаре «Надежный доступ к информации» (Reliable Information Access), проведенном в 2003 году, существуют типы запросов к поисковым системам, которые являются сложными для современных технологий информационного поиска, и, следовательно, качество поиска по этим запросам достаточно низкое. Среди потенциальных методов, которые могли бы улучшить выдачу поисковых систем по таким запросам, указывались методы расширения запросов, в том числе, и с использованием специальных ресурсов, описывающих знания о предметной области.

медицинский, патентный, научный поиск, и роль знаний о предметной области в обеспечении качества работы таких информационных системах, безусловно, значительна. Кроме того, при поиске в отличных от Интернета коллекциях документов, таких, как профессиональные информационные базы, внутрикорпоративные ресурсы, отличающиеся относительно небольшим (по сравнению с Интернет) размером, несоответствие языка запроса и языка документов считается достаточно серьезной проблемой.

Нехватка знаний приводит к снижению качества при автоматической фильтрации и рубрикации документов, к излишним повторам или нарушению связности при автоматическом аннотировании и др.

Одним из типов обычно недостаточно используемых лингвистических знаний в приложениях информационного поиска является неучет структурных свойств связного текста. Как известно, связный текст имеет сложную иерархическую структуру. Одним из существенных проявлений связности текста является так называемая глобальная связность текста, когда в тексте имеется одна главная тема, а вся остальная информация подчинена изложению этой основной темы. Другим способом проявления связности текста является его лексическая связность, когда в тексте содержится большинство подходов рассматривает текст как совокупность независимых друг от друга слов (”bag of words”), характеризующихся частотностью встречаемости в документе и коллекции.

В то же время внедрение в современные методы автоматической обработки текстов дополнительных объемов знаний о языке и мире является сложной задачей. Это связано с тем, что такие знания должны описываться в специально создаваемых ресурсах (тезаурусах, онтологиях), которые должны содержать описания десятков тысяч слов и словосочетаний, иметь такие возможности, как логический вывод. При применении таких ресурсов обычно необходимо автоматически разрешать многозначность слов, т.е.

выбирать их правильное значение. Кроме того, поскольку ведение любых ресурсов отстает от развития предметной области необходимо развитие комбинированных методов, учитывающих как знания, так и лучшие современные статистические методы обработки текстов.

В настоящее время обсуждаются три основные парадигмы ресурсов, содержащих знания о мире и языке широких предметных областей для использования в информационно-поисковых и информационноаналитических системах.

традиционные информационно-поисковые тезаурусы, разработка и использование которых регламентируется национальными и международными стандартами. Однако такие тезаурусы создавались для ручного индексирования документов людьми-индексаторами, и в последние десятилетия, характеризующиеся резким ростом объемов электронной информации, их роль резко снизилась.

После появления в середине 90-х годов тезауруса WordNet, структура которого представляет собой иерархическую сеть лексикализованных понятий английского языка – синсетов, появились многочисленные работы по использованию такого рода ресурсов в качестве источника психолингвистической теории, и не учитывает особенностей автоматической обработки текстов, из-за чего имеется много проблем в его использовании в прикладных разработках.

Наконец, современной парадигмой компьютерных ресурсов для приложений информационного поиска являются формальные онтологии, выдвинута концепция Семантической сети (Semantic Web), базирующая на построении онтологических ресурсов большого объема. Однако автоматическую обработку неструктурированных текстов на естественном языке с их неоднозначностью и неточностью трудно проводить с помощью аксиоматизированных теорий, к построению которых стремятся приверженцы формальных онтологий.

Часть исследователей считает, что формальные онтологии должны описывать знания о мире и быть независимыми от конкретного языка.

Однако для того, чтобы применить такого рода независимую от языка онтологию в практических задачах информационных технологий, которые во многом связаны с переработкой неструктурированной информации, текстов, необходимо установить отношения между понятиями языково-независимой онтологии и значениями лексических единиц конкретного естественного языка. Кроме того, часть исследователей (см. например, [218]) подвергают сомнению возможность создания большой онтологии совершенно независимо от естественного языка.

Таким образом, при всем обилии научной литературы по вопросам построения информационно-поисковых тезаурусов, тезаурусов типа WordNet, онтологий открытыми остаются следующие вопросы:

- какая модель базы знаний для описания неструктурированной широкой предметной области наиболее оптимальна для того, чтобы, с одной стороны, создать ее в разумные сроки и охватить всю важную для предметной области терминологию, с другой стороны, чтобы созданная информационного поиска и автоматической обработки текстов, - как необходимо использовать построенный ресурс для отображения основного содержания текста, с учетом той информации, которая описана в данном ресурсе, - каковы методы применения полученного ресурса и построенного информационного поиска, и какого качества решения этих задач можно достигнуть.

Целями исследования, проведенного в диссертации, являются 1) разработка модели представления знаний в предметно-оринтированной возможностью логического вывода, которая применима для описания многих предметных областей и эффективна при автоматическом построении тематического представления текста, а также в широком круге приложений информационного поиска и автоматической обработки текстов;

2) разработка моделей и алгоритмов для автоматического построения тематического представления текста как иерархической структуры;

информационного поиска и приложений автоматической обработки неструктурированной информации на основе созданных предметноориентированных баз знаний и тематического представления текстов;

4) разработка алгоритмов автоматизированного пополнения предметноориентированных баз знаний для приложений автоматической обработки неструктурированной информации.

Научная новизна работы. В диссертации разрабатывается система моделей и алгоритмов, направленных на комплексное решение задачи применения знаний о языке и о мире при автоматической обработке текстов для улучшения качества приложений информационного поиска.

онтологического типа – лингвистической онтологии, предназначенной для использования в автоматической обработке текстов в широких предметных областях. Модель основывается на сочетании принципов трех различных методологий разработки компьютерных ресурсов:

Модель основывается на сочетании принципов трех различных методологий разработки компьютерных ресурсов:

- методологии разработки традиционных информационно-поисковых - методологии разработки лингвистических ресурсов типа WordNet (Принстонский университет);

- методологии создания формальных онтологий.

онтологические ресурсы в неструктурированных предметных областях. При этом созданный ресурс, с одной стороны, будет содержать подробное описание терминологии предметной области, и, с другой стороны, будет онтологическим принципам разработки онтологий в виде отличимых понятий и формальных отношений между понятиями, позволяет проведение логического вывода. Особенностью предлагаемого подхода к описанию предметной области является то, что создаваемые предметноориентированные базы знаний направлены на эффективное применение в различных задачах информационного поиска, что показано в целом ряде экспериментов.

Предложена модель представления тематической структуры текстов на основе свойств лексической и глобальной связности текста. Предложен и реализован алгоритм автоматического построения тематического представления содержания текстов, которое моделирует основное совокупностей близких по смыслу понятий текста. Выделяются основные тематические узлы, соответствующие подтемам документа.

Предложен метод концептуального индексирования документов для информационно-поисковой системы, базирующийся на знаниях, описанных в предметно-ориентированной базе знаний, и построенном тематическом представлении документов. Концептуальный индекс, порождаемый на основе Общественно-политического тезауруса – предметно-ориентированной базе знаний в широкой области общественной жизни современного общества используется в Университетской информационной системе РОССИЯ (www.cir.ru).

Предложен и реализован алгоритм автоматического разрешения лексической многозначности на основе тезаурусных знаний, сочетающий многозначного слова. Для задачи «все слова текста» результаты алгоритма комбинированными методами с использованием семантически размеченных корпусов и информации о наиболее частотном значении. Метод разрешения многозначности базируется на совокупности различных контекстных признаков и для нахождения их оптимальной комбинации был использован численный метод координатного спуска.

Предложен и реализован алгоритм автоматической рубрикации документов, основанный на использовании тематического представления документов и описании рубрик в виде булевских выражений над понятиями тезауруса и способный обрабатывать тексты различных типов (официальные документы, сообщения информационных агентств, газетные статьи). Система рубрикации легко настраивается на новый рубрикатор и новые типы текстов, рубрицирование можно осуществлять сразу по нескольким рубрикаторам. На основе предложенного метода было реализовано более 20 систем автоматической рубрикации текстов с количеством тематических рубрик от 35 до 3000. Возможности быстрой настройки системы рубрикации на новый продемонстрирован на Российском семинаре по информационному поиску РОМИП в 2007 и 2010 годах. Создание системы рубрикации заняло 8 часов, качество рубрикации было оценено как более чем 70% F-меры.

Предложен и реализован алгоритм автоматического многошагового построения булевского выражения по длинному поисковому запросу на естественном языке, включающий расширение запроса по тезаурусным отношениям, подтвержденным поисковой выдачей. Для обеспечения устойчивости обработки длинного поискового запроса метод построения булевских выражений используется в сочетании с совокупностью различных признаков запроса, документа и коллекции, и для нахождения оптимальной функции соответствия между запросом и документом был использован численный метод координатного спуска.

Предложен и реализован метод автоматического аннотирования отдельного документа, который базируется на тематическом представлении содержания текстов, что позволяет повысить связность создаваемой аннотации. Реализованная система автоматического аннотирования одного документа получила наилучший результат в одной из номинаций на конференции SUMMAC в 1998 году.

Предложен и реализован метод автоматического аннотирования новостного кластера на основе тематического представления кластера и моделировании лексической связности. Показано, что предложенная модель позволяет значительно улучшить связность порождаемой аннотации, а также снизить повторы информации, ухудшающие восприятие порожденного текста человеком.

Предложена и обоснована многофакторная модель извлечения терминов предметной области из текстов. Реализован новый метод автоматизированного извлечения терминов предметной области для пополнения предметно-ориентированной базы знаний. Метод основывается характеристик предметной области, глобальных поисковых систем, предметной области, что очень важно для пополнения предметноориентированной базы знаний, учета появляющихся новых терминов в развивающейся предметной области. Для нахождения оптимальной терминологичности выражения применяется метод машинного обучения логистическая регрессия.

1.1. Формальные и лингвистические онтологии В настоящее время наиболее распространенной формой баз знаний являются базы знаний онтологического типа [64, 67, 186, 239, 249].

Онтологии представляют собой компьютерные ресурсы, содержащие формализованное описание фрагмента знаний о мире. Различные авторы дают разные определения для понятия онтологии [66, 268]. При всем различии к определению онтологии многие авторы соглашаются в наборе основных компонентов онтологии: классы или понятия; атрибуты (свойства);

экземпляры (отдельные индивиды), отношения между классами или экземплярами; аксиомы онтологии [36].

Таким образом, формальным определением онтологий может служить следующее:

где С – понятия (классы) онтологии), E – экземпляры онтологии, At – атрибуты понятий и экземпляров онтологии, R – отношения между понятиями, А – аксиомы онтологии.

Термину «онтология» удовлетворяет широкий спектр структур, представляющих знания о той или иной предметной области. В качестве в разной степени формализованных онтологий разными авторами рассматривается множество различных компьютерных ресурсов [156, 216, 268, 312], в том числе и известных задолго до начала исследований по онтологиям таких, как рубрикаторы или тезаурусы.

вышеперечисленных компонентов онтологий могут быть не определены [239]. Так, рубрикаторы обычно не включают экземпляры и атрибуты, т.е.

распространенной формальной моделью рубрикаторов является модель вида:

утверждениях о понятиях – аксиомах. Для описания таких формальных онтологий применяются различные логики (дескриптивные логики, модальные логики, логика предикатов первого порядка) и различные языки описания онтологий DAML+OIL, OWL, CycL, Ontolingua.

Онтологии, такие, как тезаурусы, рубрикаторы, понятия которых не определяются полностью в терминах формальных свойств и аксиом, иногда называются легкими онтологиями (lightweight ontologies) [60]. Дж. Сова (http://www.jfsowa.com/ontology/ontoshar.htm) называет такие онтологии терминологическими онтологиями.

Разработчики онтологий по-разному трактуют взаимоотношения между онтологией и естественным языком. Некоторые исследователи трактуют онтологию как структуру, независимую от естественного языка, другие – как структуру, независимую от конкретного естественного языка, третьи вводят элементы языкового лексикона в формальное определение онтологии [75, 82, 121,122, 151].

Обсуждая вопросы построения онтологий, многие исследователи подчеркивают значимость текстов как источника знаний о предметной области. Так, в работе [200] указывается, что тогда как небольшие онтологии могут быть построены методом сверху-вниз, разработка подробных онтологий для реальных приложений – нетривиальная задача. Более того, во многих предметных областях, знание, нужное для распространения и интеграции, содержится в основном в текстах. Из-за внутренних свойств человеческого языка, непростой задачей является связать знания, содержащиеся в текстах, с онтологиями, даже если бы они были построены для данной предметной области. Авторы вышеуказанной работы делают вывод, что такие однозначные и последовательные концептуальные модели предполагают сторонники формального онтологического подхода.

Еще одной важной проблемой построения онтологий, частично связанная с естественным языком, является проблема понятности онтологии для пользователей так, чтобы она могла правильно применяться и интерпретироваться [19, 51, 217]. На основе спецификаций и документации онтологии пользователи должны правильно интерпретировать семантику всех ее элементов. Кроме того, как показывает практика, далеко не всякий специалист в предметной области может хорошо разбираться в формальных онтологических спецификациях. Чем больше степень формализованности онтологии, тем труднее ее понять пользователю.

Вместе с тем имеется немало подходов к построению онтологий, в которых компоненты лексикона предметной области непосредственно вводятся в формальное определение онтологии [121, 122, 309]. Так, одной из известных формальных моделей онтологии является модель, описанная в [121]:

где L = LC LR – словарь онтологии, содержащий набор лексических единиц (знаков) для понятий LC и набор знаков для отношений LR;

- C – набор понятий онтологии;

- F и G связывают наборы лексических единиц {lj} L c наборами понятий и отношений данной онтологии;

- H – фиксирует таксономический характер отношений (связей), при ациклическими, транзитивными отношениями H C x C;

- R – обозначает нетаксономические отношения между понятиями Вместе с тем, даже в таких подходах, рассматривающих лексикон естественного языка как один из компонентов онтологической модели, ничего не говорится о методах установления соответствия между совокупностью лексических значений текстов предметной области и онтологии, лексические выражения представлены как вспомогательные элементы, называющие понятия и отношения онтологии.

Однако в установлении взаимоотношений между понятиями и словами и выражениями естественного языка имеется много проблем, начиная с того, как ввод нового понятия в онтологию связан с существующими языковыми выражениями. Кроме того, стремление к четкой формализации отношений между понятиями в онтологии чрезвычайно трудно соблюсти в ситуации, когда необходимо создавать сверхбольшие ресурсы, и, кроме того, приводит к проблемам при установлении связей «понятие – языковое выражение» [77, 125, 152].

Поэтому значительно большее распространение в приложениях автоматической обработки текстов получили вышеупомянутые "легкие" онтологии. Так, большое количество широкоизвестных медицинских онтологических ресурсов представляет собой тезаурусы, не обладающие высокой степенью формализации своей структуры [55].

Тезаурусы представляют собой так называемые лингвистические онтологии, т.е. онтологии, опирающиеся в своем построении на значения реально существующих выражений естественного языка. Наиболее известными типами тезаурусов, обсуждаемыми в качестве источников знаний для приложений обработки неструктурированной информации, являются информационно-поисковые тезаурусы и тезаурусы типа WordNet, структура которых будет рассмотрена ниже.

1.1.1. Информационно-поисковые тезаурусы Информационно-поисковый тезаурус (в соответствии с определениями стандартов) – это нормативный словарь терминов на естественном языке, описания содержания документов и поисковых запросов [83, 84, 223, 245].

Основными целями разработки традиционных информационнопоисковых тезаурусов являются следующие:

пользователей на контролируемый словарь, применяемый для индексирования и поиска;

индексирования [243-246];

описание отношений между терминами;

использование как поискового средства при поиске документов.

разделяются на дескрипторы (=авторизованные термины) и недескрипторы (=аскрипторы). По своей сути дескрипторы однозначно соответствуют понятиям предметной области [223].

Отношения между дескрипторами обычно разделяются на два типа:

иерархические и ассоциативные. Иерархические отношения обычно рассматриваются как несимметричные и транзитивные.

По ГОСТУ 7.25-2001 [245] иерархические отношения обладают свойствами транзитивности и антисимметричности, которые могут быть использованы при избыточном индексировании в интересах повышения эффективности информационного поиска. Предпочтительно указывать связи между дескрипторами как отношения иерархического вида, если они обладают этими свойствами. Применяемые в ИПТ иерархические отношения могут дифференцироваться на отдельные виды.

информационно-поисковых тезаурусах, является родовидовое отношение выше-ниже. Родовидовая связь устанавливается между двумя дескрипторами, если объем понятия нижестоящего дескриптора входит в отношения в информационно-поисковых тезаурусах может устанавливаться отношение часть-целое.

Отношение ассоциации является неиерархическим и ассоциативным.

Основное назначение установления ассоциативных отношений между дескрипторами информационно-поискового тезауруса – указание на дополнительные дескрипторы, полезные при индексировании или поиске.

Основной целью разработки традиционных информационно-поисковых тезаурусов является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. Поэтому важно, чтобы набор дескрипторов информационно-поискового тезауруса позволял описывать тематику документов предметной области [106].

При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной области, которые имеются у профессиональных индексаторов текстов.

Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами, указанными в информационнопоисковом тезаурусе. Индексатор должен хорошо понимать всю терминологию, использованную в тексте, – для описания основной темы текста ему понадобится значительно меньшее количество терминов.

Таким образом, формальную модель информационно-поискового тезауруса можно представить следующим образом:

где Dth – набор дескрипторов предметной области, соответствующий понятиям данной предметной области, индекс означает в данном случае тот, факт что разработчики информационно-поисковых тезаурусов включают в состав дескрипторов термины предметной области, которые необходимы для выражения основных тем документов этой ПО [106];

отношения информационно-поискового тезауруса; RA – ассоциативные отношения информационно-поискового тезауруса; AT – аксиомы транзитивности иерархических отношений.

Отметим, что описанная в национальных и международных стандартах модель информационно-поискового тезауруса предназначена для его использования в процессе ручного, экспертного анализа документов [83, 223]. Информационно-поисковый тезаурус, предназначенный для автоматической обработки текстов, должен содержать значительно больше информации о структуре и языке предметной области. Кроме того, отношения между терминами, указанные в тезаурусе, должны быть значительно более формализованы для использования их в автоматических режимах. Если применять традиционные информационно-поисковые тезаурусы в автоматической обработке текстов, то возникает ряд существенных проблем.

университете США. WordNet относится к классу лексических онтологий, свободно доступен в Интернет, и на его основе были выполнены тысячи экспериментов в области информационного поиска [138]. WordNet версии 3. охватывает приблизительно 155 тысяч различных лексем и словосочетаний, организованных в 117 тысяч понятий, или совокупностей синонимов (synset);

общее число пар лексема-значение насчитывает 200 тысяч. В разных странах предприняты усилия по созданию ресурсов для своих языков по модели WordNet [12, 13, 211, 212, 231, 308].

Основным отношением в WordNet является отношение синонимии.

Наборы синонимов – синсеты – основные структурные элементы WordNet.

Понятие синонимии базируется на критерии, что два выражения являются меняет значения истинности этого высказывания.

Именно определение синонимии в терминах заменимости делает необходимым разделение WordNet на отдельные подструктуры по частям речи. В состав словаря входят лексемы, относящиеся к четырем частям речи:

прилагательное, существительное, глагол и наречие. Лексемы различных частей речи хранятся отдельно и описания, соответствующие каждой части речи, имеют различную структуру.

Синсет может рассматриваться как представление лексикализованного понятия (концепта) английского языка. Авторы считают, что синсет существительных представляет понятия существительных, глаголы прилагательных и т.п. Кроме того, авторы считают, что такое разделение соответствует психолингвистическим экспериментам, что представление информации о прилагательных, существительных, глаголах и наречиях устроено в человеческой памяти по-разному.

Большинство синсетов снабжены толкованием, подобным толкованиям в традиционных словарях, — это толкование рассматривается как одно для всех синонимов синсета. Если слово имеет несколько значений, то оно входит в несколько различных синсетов.

Каждая часть речи в WordNet имеет свой набор отношений. В различных компьютерных приложениях чаще всего используются существительные, между которыми установленя отношения синонимии, антонимии, гипонимии (гиперонимии), меронимии (часть-целое).

Основным отношением между синсетами существительных является родовидовое отношение, при этом видовой синсет называется гипонимом, а родовой — гиперонимом. Это транзитивное иерархическое отношение, которое может быть также названо isA-отношение. Синсет X называется гипонимом синсета Y, если носители английского языка считают нормальными предложения типа «An X is a (kind of) Y”.

структуру. При построении иерархических систем на базе родовидовых отношений обычно предполагается, что свойства вышестоящих понятий наследуются на нижестоящие – так называемое свойство наследования.

Таким образом, существительные в WordNet организованы в виде иерархической системы с наследованием; были сделаны систематические усилия, чтобы для каждого синсета найти его родовое понятие, его гипероним.

Появление WordNet и возможность его свободного использования вызвали большое число исследований по применению этого тезауруса в самых различных приложениях автоматической обработки текстов. Большое количество экспериментов привело к массовому выявлению и обсуждению проблем и недостатков WordNet, препятствующих его эффективному применению.

Так, при разработке WordNet был выдвинут принцип раздельного описания разных частей речи. Между различными частями речи, имеющими одинаковое значение, не было установлено никаких отношений. Это вызывало серьезные проблемы в приложениях, поскольку одно и та же мысль могла быть выражена разными частями речи [35]. Кроме того, в различных языках для выражения одной и той же идеи могут использоваться лексемы разных частей речи. Поэтому иерархии синсетов, построенные на основе конкретных частей речи, становятся в большой мере зависимыми от естественного языка разработки, поскольку в некотором естественном языке может не оказаться возможности выразить некоторое понятие той или иной частью речи. Начиная с версии WordNet 2.0, в ресурс были введены отношения между однокоренными синсетами, относящимися к разным частям речи и связанными между собой по смыслу [139].

Другой проблемой, вызвавшей серьезное обсуждение среди исследователей, стало описание значений многозначных слов в WordNet. Во многих работах признается, что различия значений в WordNet слишком информационный поиск, классификация текстов, вопросно-ответные системы и др. В [33] было показано, что среднее количество значений в WordNet больше, чем в традиционных лексикографических словарях. Эти проблемы привели к постановке вопроса о том, каким образом и какие типы значений многозначного слова могут быть объединены («кластеризованы») [32, 163] для целей работы в приложениях автоматической обработки текстов, когда для значений многозначного слова из кластера можно не делать различий, и это не приведет к снижению качества работы этого приложения.

Современные версии WordNet содержат для каждого многозначного слова указание на самое частотное значение по корпусу SemCor [94], что дает возможность в случае проблем при процедуре автоматического разрешения многозначности выбирать это самое частотное значение.

использованию в приложениях, является нехватка разнообразных отношений между синсетами. В частности, исследователями широко обсуждалась так называемая «теннисная проблема»: принадлежащие одной предметной области, сфере деятельности, ситуации синсеты оказываются очень далеко друг от друга в структуре WordNet [138]. Отсутствие такого рода отношений оказывает серьезное негативное воздействие на использование WordNet в автоматических процедурах разрешения лексической многозначности, вызывает проблемы в информационном поиске.

Формальную модель ресурса типа WordNet можно представить следующим образом:

где LCn,adj,v,adv = {LCn, LCadj, LCv, LCadv} – совокупность лексикализованных совокупность синонимичных лексем, - Rn,adj,v,adv= {Rn, Radj, Rv, Radv} – наборы отношений синсетов, различающиеся для разных частей речи, - T – текстовые выражения (слова и словосочетания), описанные в ресурсе, - S – отношения между текстовыми выражениями и синсетами, - M – совокупность неоднозначных текстовых выражений: M T, - An – аксиомы транзитивности и наследования, индекс n отражает тот большинстве случаев только для синсетов существительных.

информационно-поисковых тезаурусов и тезаурусов типа WordNet, можно сделать следующие выводы о сходстве и различии используемых моделей представления знаний в этих тезаурусах.

Наиболее бросающееся в глаза различие состоит в том, что информационно-поисковые тезаурусы описывают определенную предметную область, а WordNet содержит информацию о значениях общей лексики языка. Однако это различие не является принципиальным, поскольку можно строить тезаурусы типа WordNet и для конкретных предметных областей [15, 24, 124, 131, 175, 176]. Более значимые различия имеются в выборе единиц тезаурусов.

ограничений на включение в тезаурус языковых единиц: дескрипторы должны быть четко отделены по смыслу друг от друга, многозначность языковых единиц практически не представлена, ограничивается глубина иерархий и т.д. Это приводит к возникновению существенного расхождения между единицами тезауруса и языковыми единицами, упоминаемыми в текстах предметной области. В тезаурусах типа Wordnet такой разницы нет:

включается в тезаурус в соответствующем количестве значений.

Существенно различным является подход к включению в эти два типа тезаурусов словосочетаний. В информационно-поисковых тезаурусах имеется достаточно подробный перечень правил, которыми должен руководствоваться разработчик тезауруса при вводе в тезаурус многословных дескрипторов. Разработчики WordNet заявляют о необходимости того, чтобы словосочетание было «лексикализовано» без уточнения критериев, а это, в свою очередь, приводит к тому, что ввод новых словосочетаний в WordNet, а особенно в тезаурусы типа Wordnet, создаваемые для других языков, серьезно ограничивается.

Если сравнивать систему отношений в стандартных информационнопоисковых тезаурусах и тезаурусах типа WordNet, то, прежде всего, нужно брать для сравнения отношения между синсетами существительных WordNet, поскольку дескрипторы информационно-поисковых тезаурусов – это обычно существительные и группы существительного.

Оба типа тезаурусов имеют небольшой набор отношений, что, несомненно, объясняется разнообразием описываемых сущностей. При этом, однако, в наборе отношений информационно-поискового тезауруса имеется отношение ассоциации, которое при всей высказанной по поводу его критики [102, 201, 202] позволяет лучше описать отношения между сущностями предметной области, чем отношение часть-целое в версии WordNet и антонимии.

В последнее время в ряде работ отмечается, что и разработчики информационно-поисковых тезаурусов и разработчики ворднетов включают в свои тезаурусы более разнообразные наборы отношений между единицами [34, 188].

обработки неструктурированной информации 1.2.1. Автоматическое концептуальное индексирование на основе информационно-поисковых тезаурусов Онтологии и тезаурусы могут применяться в так называемом концептуальном индексировании текстов в рамках информационных систем.

В концептуальном индексе, в отличие от пословного индекса, словасинонимы должны быть соединены вместе, в один элемент индекса, а разные значения многозначных слов разделены [31, 114, 135, 221, 250].

Поскольку основными элементами информационно-поискового тезауруса являются термины, описанные как дескрипторы и аскрипторы, может показаться, что достаточно просто осуществить автоматическое индексирование по информационно-поисковым тезаурусам путем простого сопоставления дескрипторов и аскрипторов с документами.

сопоставление не сможет отразить основное содержание документа:

важные термины документа могут быть не найдены в тезаурусе, поскольку выражены в нем несколько иначе;

менее значимые термины найдут прямое отражение в тезаурусе и выйдут на первый план и т.п.;

В работе [167] приводятся данные, полученные на основе документов, проиндексированных вручную дескрипторами тезауруса EUROVOC. Только 31% документов явно содержит в тексте дескрипторы, приписанные документу индексаторами. При этом в 9 из 10 случаев дескрипторы, найденные в тексте документа, не приписаны индексаторами.

индексирования по информационно-поисковым тезаурусам.

традиционным информационно-поисковым тезаурусам является подход, основанный на правилах. Такой подход к автоматическому индексированию был реализован по тезаурусу EUROVOC [265], для чего было создано около 40 тысяч правил [79].

используются статистические методы и машинное обучение [144, 167, 195].

При таких подходах процесс автоматического приписывания дескрипторов информационно-поискового тезауруса полнотекстовым документам включает две стадии.

На первой стадии (этап обучения) на основе документов, вручную проиндексированных индексаторами, устанавливается соответствие между словами, встретившимися в тексте документа, и приписанными дескрипторами тезауруса. На второй стадии (собственно, индексирование) для каждого слова документа проверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторы имеются, то слово добавляет к весу дескриптора для данного текста натуральный логарифм веса, полученного на первом этапе. После обработки всех слов текущего текста получается суммированный вес дескрипторов тезауруса.

Понятно, что применение таких методов для автоматического индексирования по традиционым информационно-поисковым тезаурусам требует создания большой обучающей выборки, представляет собой по сути классификацию текстов на большое количество классов (по числу дескрипторов тезауруса), с чем в настоящее время системы машинного обучения справляются не очень хорошо. К тому же серьезным фактором, затрудняющим обучение, является субъективность ручного индексирования.

дескрипторами тезауруса дает возможность использовать эти корреляции для обработки поисковых запросов пользователя.

автоматическому расширению свободного запроса пользователя дескрипторами двуязычного тезауруса по социальным наукам [182], которые проводились на двуязычной коллекции немецких и английских документов по общественным наукам. База включает в себя более 150 тысяч немецких документов и 26 тысяч — английских. Документы реферативного характера содержат заголовок публикации, реферат и дескрипторы Тезауруса по общественным наукам, приписанные индексаторами. Эксперименты выполнялись в рамках предметно-ориентированного задания форума по многоязыковым информационным системам CLEF [91].

Для каждого слова запроса выявлялись два наиболее коррелирующих с этим словом дескриптора тезауруса и добавлялись в запрос. Было получено, что в этом случае показатель средней точности поиска для 25 запросов возросла с 45.5% до 51.4%, т.е. более чем на 13% для немецкого языка, и с 45.1% до 48.2% для английского языка.

1.2.2. Автоматическое разрешение лексической многозначности В случае если в используемом для концептуального индексирования ресурсе (например, тезаурусе типа WordNet) представлены разные значения многозначных слов, то важным является обеспечение качественной процедуры разрешения лексической многозначности, т.е. автоматического выбора между разными значениями слов и словосочетаний, перечисленных в лингвистическом ресурсе.

Применение тезаурусов и онтологий в информационном поиске требует высокого качества разрешения многозначности слов. Так, в работе [178] обосновывалось, что для того, чтобы в информационном поиске мог проявиться положительный эффект от разрешения лексической многозначности, точность разрешения многозначности должна быть не меньше 90%, в работе [63] на основании результатов проведенных многозначности – 70%.

В последние годы проблема разрешения лексической многозначности стала исследоваться как отдельная задача. С 1998 года для тестирования систем автоматического разрешения лексической многозначности проводится специальная конференция Senseval (www.senseval.org).

Подходы к разрешению лексической многозначности достаточно разнообразны. Для разрешения многозначности могут использоваться некоторые внешние источники информации, например, электронные словари и тезаурусы. В качестве тезауруса обычно используется тезаурус английского языка WordNet. Кроме того, для разрешения многозначности активно исследуется возможность применения методов машинного обучения, для чего обычно используются семантически размеченные корпуса.

Применяются и различные комбинации отдельных методов.

Исследования методов автоматического разрешения лексической многозначности как отдельной задачи обычно делятся на два направления:

разрешение лексической многозначности некоторой совокупности слов (чаще всего, несколько десятков) и разрешение лексической многозначности всех слов текста [90, 187].

автоматического разрешения многозначности, ограничивается согласием между ручной разметкой, сделанной разными экспертами. В настоящее время, согласие между экспертами достигает 95% и выше для четко различимых значений. Для многозначных слов со значениями, близкими по смыслу, согласие между экспертами может составлять 65-70%.

Нижняя граница качества разрешения многозначности определяется на основе случайно выбранного значения (предполагается равновероятность значений) или наиболее частотного значения (предполагается, что вероятность одного значения многократно превышает вероятности других значений). Также в качестве базового метода для сравнения используется так толкований слов, упомянутых в анализируемом фрагменте текста [90, 98].

Для автоматической обработки текстов наиболее существенны результаты, которые достигаются современными системами в задаче разрешения всех многозначных слов текста. Для тестирования задачи «все слова текста» на конференции Senseval-3 использовались три текста: две статьи из Wall Street Journal и фрагмент из Брауновского корпуса – общий объем 5000 слов [90, 187]. Всего для тестирования использовались 2081 слов.

Семантическая разметка текстов проводилось по набору значений тезауруса WordNet. Если в WordNet не было подходящего значения, то проставлялась помета U.

По результатам конференции SENSEVAL-3 для английского языка в задаче разрешения многозначности для всех слов текста точность лучшей системы составляет 65.2% [187].

Все лучшие в SENSEVAL-3 алгоритмы разрешения многозначности используют семантически размеченные корпуса по значениям WordNet.

Семантическая разметка корпуса обычно используется двумя основными способами: как основа для обучения программы разрешения многозначности, и как информация о наиболее частотном значении, которое выбирается в тех случаях, когда не удалось выбрать значение с помощью основного алгоритма. По оценкам, порядка 60% слов в тестовых текстах употреблены в наиболее частотном значении, полученному по семантически размеченному корпусу SemCor [187].

Согласие между лексикографами-аннотаторами значений достигало – 72,5%. Наибольший процент разногласий по разметке значений был связан с небольшим набором трудных слов, например, national.

Рассмотрим алгоритмы разрешения лексической многозначности на основе структуры тезауруса английского языка WordNet.

семантической близости контекста вхождения того или иного многозначного близости может рассчитываться на основе сравнения путей между синсетами слов контекста и синсетами рассматриваемого многозначного слова.

В работе [96] предполагается, что два значения тем семантически ближе, чем короче связывающий их путь. Упор делается на отношения гипонимии-гиперонимии и взвешивается длина пути относительно всей глубины таксономии (D):

В работе [76] предполагается, что два синсета семантически близки, если соединены достаточно коротким путем, который имеет малое количество перегибов:

где d – количество перегибов на протяжении пути; c0 и k – константы. Если такого пути не существует, то Sim (C1, C2) = 0. В экспериментах использовались значения констант c0 = 8, k = 1, максимальная длина пути 5 шагов.

В ряде работ концептуальное расстояние между синсетами учитывает большее число параметров. Так, для подсчета концептуального расстояния в работе [5, 6] вводится понятие концептуальной плотности и формула ее вычисления, которая, по мнению авторов, наилучшим способом описывает близость между словами. В формуле учитываются следующие параметры:

- длина самого короткого пути в иерархии;

- глубина в иерархии;

- плотность понятий в иерархии;

- число концептов.

Формула вычисления концептуальной плотности выглядит следующим образом:

- c-корень (вершина);

- h – высоту иерархии;

- m – число слов из контекста, которые попали в иерархию.

Тогда формула, которая вычисляет плотность (1.3).

Эти формулы автор пытался улучшить опытным путем, вводя параметры, и смотря, при каких значениях формула дает наилучшие результаты. В итоге выбор был остановлен на формуле (1.4).

Другим направлением выбора значения многозначного слова на основе близости контекста в тексте и окружения слов в тезаурусе являются подходы, основанные на оценке так называемого информационного содержания.

Ф. Резник [171] вводит характеристику «информационное содержание»

(information content), которая определяется как величина вероятности встретить пример понятия С в большом корпусе P(C). Эта вероятностная функция обладает следующим свойством: если C1 вид для C2, то P(C1) =< P(C2). Значение вероятности для наиболее верхней вершины иерархии равно 1. Следуя обычной аргументации теории информации, информационное содержание понятия C может быть представлено как отрицательный логарифм этой вероятности:

Чем более абстрактным является понятие, тем меньше величина его информационного содержания.

вводится понятие наименьшего общего вышестоящего (LCS = Least Common Subsumer). Алгоритм базируется на идее, что нужно выбирать такое значение многозначного слова, наименьшее общее вышестоящее которого наиболее информативно.

Авторы работы [87] развивают формулу (1.7) следующим образом:

т.е. учитывается не только коэффициент информационного содержания пересечения путей от синсетов, то и исходное местоположение самих исходных синсетов.

Подчеркнем, что для вычисления информационного содержания, а, значит, и применения описанных выше подходов необходимо иметь семантически размеченный корпус.

В работе [161] описывается тестирование ряда предложенных на базе WordNet метрик на материалах конференции Senseval-2. Для многозначных существительных коллекции метрики применялись в контексте длиной одно слово. Например, для выражения Plant with flowers, по этим мерам вычислялось сходство существительных plant и flower.

Лучший результат был получен для метрики, предложенной в работе [87], и составил 39% точности.

В работе [213] предлагается алгоритм разрешения лексической многозначности на основе разметки предметных областей Wordnet [123], при которой большинство синсетов тезауруса Wordnet отнесены к той или иной предметной области, а если подходящей предметной области нет, то к специальной области Factotum.

Выбор значения многозначного слова основывается на проверке соответствия предметных областей этих значений и слов в локальном тексте. Приводятся данные, что с помощью данной системы разрешения многозначности удалось сократить количество значений на 57-65%. При этом подчеркивается, что большинство сокращений относятся к словам из области Factotum, т.е. к словам, не относящимся к конкретным предметным областям таким, как быть, начинаться, человек.

Подход к разрешению многозначности на основе содержания целого текста тестируется в работе [52]. На первом этапе происходит сопоставление с текстом, и в специальную структуру, называемую disambiguation graph, записываются все встретившиеся значения. Устанавливаются связи между узлами: гипонимы (видовые понятия), гиперонимы (родовые понятия) и понятия, имеющие с данным понятием одно и то же родовое понятие, так называемые сестры. На втором этапе происходит разрешение многозначности в предположении, что в тексте встречается только одно значение многозначного слова.

Для каждого значения насчитывается его вес, который представляется как функция, зависящая от типа отношения и от расстояния в тексте между анализируемым вхождением и близким по смыслу значением в тексте. Так, например, синонимы, родовые и видовые значения добавляют вес к соответствующему значению, независимо от своего местоположения в тексте. Выбирается значение, получившее максимальный вес. Если выбрать значение на основе полученных весов не удалось, то выбирается первое по порядку значение WordNet, которое является наиболее частотным в коллекции SemCor, семантически размеченной по значениям WordNet.

Точность разрешения многозначности на основе данного алгоритма на существительных 74 текстов корпуса Semcor оценивается как 62.09%.

Авторы работы [137] используют известный алгоритм PageRank [158] для разрешения многозначности на основе WordNet и целого текста как контекста. Сначала для каждого значимого слова текста отмечаются все синсеты, в которые входит это слово. Такие синсеты становятся вершинами отношений, описанных в WordNet. В результате выбирается значение, получившее максимальный PageRank.

Точность разрешения многозначности данного алгоритма для задачи «все слова текста» на тестовом материале Senseval-3 – 50.89%, с учетом наиболее частотного значения – 63.27%.

Таким образом, достигнутые показатели разрешения многозначности для задачи «все слова текста», которые собственно и является базой для последующей обработки текста, не кажутся достаточно высокими, поскольку не достигают и 70% точности.

1.2.3. Тезаурусы типа WordNet в информационном поиске В работах [207, 208] описываются эксперименты по интеграции WordNet в поиск по векторной модели.

независимость употребления слов в тексте и представляет поисковый запрос и документ в виде векторов слов с весами [177]:

где dj – векторное представление j-го документа, wij – вес i-го слова в j-м документе, n – общее количество различных слов во всех документах коллекции.

Основным способом вычисления весов слова wij в векторе документа является мера tf.idf (term frequency – inverse document frequency, частота терма - обратная частота документа), т.е. вес определяется как произведение функции от количества вхождений терма в документ и функции от величины, обратной количеству документов коллекции, в которых встречается этот терм. Idf часто вычисляется по следующей формуле [129]:

встретилось слово wj.

Для определения сходства между векторами запроса и документа используется так называемая косинусная мера.

Таким образом, теперь соответствие запроса документу измеряется конкретным числом, и все документы могут быть упорядочены в выдаче поисковой системы по этому числу.

Целью экспериментов в работах [207, 208] была попытка выполнить поиск документов на основе не отдельных слов, а значений WordNet. Для многозначности существительных, которая выдает единственный синсет, и в результате которой каждому тексту ставится в соответствие вектор синсетов WordNet. После того, как вектор создан, с ним могут выполняться такие же операции, как и с пословными векторами.

Эффективность использования векторов синсетов сравнивалась с эффективностью информационного поиска на основе стандартного вектора слов. В стандартном прогоне и документы, и запросы представляются как вектора лемм всех значимых слов. Для экспериментов было использовано разных коллекций документов (компьютерная область, медицинская область, газетные статьи и др.), и для каждой коллекции было выполнено более различных запросов.

Эффективность информационного поиска оценивалась на основе меры средней точности (average precision), которая усредняет точность при выдаче каждого из K релевантных документов.

Данная мера считается следующим образом. Точность на уровне i-го релевантного документа prec_rel(i) равна precision (pos(i)), если релевантный релевантный документ не найден, то prec_rel(i)=0. Средняя точность для заданного запроса равна среднему значению величины prec_rel(i) по всем k релевантным документам:

Было показано, что возникает значительное ухудшение качества поиска для векторов, включающих синсеты (от 6.2 до 42.3%), что связано с тем, что часто возникают несоответствия между значением слова, выбранным в запросе, и значением того же слова, выбранным в релевантном документе.

В другой группе экспериментов по использованию WordNet в информационном поиске исследовалась возможность расширения запроса синонимами или другими словами, связанными со словами запроса отношениями, описанными в WordNet. В таких экспериментах нет необходимости выбора единственного значения слова, что в случае ошибки приводит к серьезному ухудшению результатов поиска. Сначала для каждого слова запроса, частотность которых меньше некоторого числа N, и каждого синсета для значений этого слова извлекается список близких по WordNet слов. Те слова, которые встретились, по крайней мере, в двух таких списках, добавляются к исходному запросу. Максимальное улучшение, которое удалось получить – 0.7% средней точности, что не является статистически значимой величиной (N=5%, расстояние – 2, вес расширения w=0.3).

Основные выводы автора работы [208] заключались в том, что для успешного применения WordNet в информационном поиске необходимо значительно улучшить эффективность автоматического расширения лексической многозначности.

проекта EuroWordNet, голландская компания Irion Technologies разработала технологию концептуального индексирования TwentyOne, комбинирующую лингвистический и статистический подходы [213, 214]. Авторы разработки считают, что неудачи с использованием WordNet в информационнопоисковых приложениях связаны с трудностями встраивания такого рода лингвистических ресурсов в приложения, оптимального использования содержащейся в ворднетах информации.

базирующаяся на стандартной векторной модели и обеспечивающая быстрый поиск документов. Лингвистические технологии используются в двух ролях:

максимизация полноты выдачи статистической машины за счет синонимии ворднетов;

максимизация точности выдачи за счет сравнения запросов с конкретными фразами документов, а не с целыми документами.

Фраза представляет собой именную группу (noun phrase). Каждая фраза ассоциируется с отдельными словами, определенной комбинацией слов, а также комбинацией частей слов. Система TwentyOne использует совокупность факторов для сравнения запроса с фразами текста, например:

число совпадающих синсетов между запросом и каждой фразой, степень нечеткого сопоставления между запросом и каждой фразой, степень деривационного несовпадения, слитного-раздельного написания и др.

При обработке запроса сначала с помощью векторной модели находятся документы, соответствующие запросу. Затем выданные документы переранжируются так, что сначала выдаются документы, которые имеют наибольшее совпадение по синсетам фраз с запросом. Среди документов, имеющих одинаковое количество сопоставленных синсетов между собственными фразами и запросом, первыми выдаются наиболее похожие по если вес по фразам текста получился одинаковым.

Разрешение многозначности в данной системе делается на основе технологии, описанной в [123], и базируется на разметке предметных областей wordnet. В результате проведенного тестирования авторы работ [213, 214] делают вывод о полезности тезаурусов типа WordNet для информационного поиска, однако из-за специфической процедуры формирования тестового набора запросов трудно оценить, насколько этот вывод обоснован в данных экспериментах.

Вопрос о том, улучшит ли разрешение многозначности слова поиск по словам в правильном значении, остается дискуссионным. Некоторые авторы (Voorhees, Sanderson) полагают, что если запрос однозначно определяет значение многозначного слова в своем составе, то и в найденных документах, это слово окажется в окружении тех же слов запроса, и тем самым с большой вероятностью будет употребляться в том же значении.

Если же выполняется автоматическая процедура разрешения лексической многозначности, то ошибки в работе этой процедуры могут привести к значительному снижению качества информационного поиска, как это и было показано в экспериментах Н.Voorhees [207-208]. В работе [178] автор вводит в коллекцию искусственную многозначность и тем самым может контролировать процент ее ошибочного разрешения. В исследовании было показано, что при качестве разрешения многозначности хуже 90% эффективность информационного поиска начинает резко снижаться.

В исследовании [63] авторы ставят перед собой два вопроса:

1) Абстрагируясь от проблемы разрешения многозначности, какой потенциал несет использование ресурсов типа WordNet для информационного поиска. Такой эксперимент можно выполнить, если сделать вручную разрешение лексической многозначности разрешенной многозначностью известна, то можно измерить чувствительность качества информационного поиска к ошибкам разрешения многозначности, искусственно внося некоторый процент ошибок в разметку по значениям.

Исследования выполнялись на корпусе SemCor, размеченного значениями WordNet. Были выбраны 171 текстовых фрагментов со средней длиной 1331 слова на документ. Для каждого текста была написана краткая аннотация длиной от 4 до 50 слов, в среднем 22 слова на документ. Эти аннотации использовались как запросы по текстовой коллекции, т.е. был ровно один релевантный документ на запрос. Аннотации также были размечены по значениям WordNet. На основе стандартного списка стоп-слов английского языка был также автоматически порожден список стопсинсетов.

информационно-поисковой системы SMART [177] и три типа векторов:

исходные слова документа, значения слов, соответствующие словам документа, и синсеты WordNet, соответствующие словам документа (в последнем случае фактически производится дополнение документа синонимами слов). В процессе эксперимента выяснялось, какой процент документов был возвращен на первом месте в выдаче. Эксперименты показали, что стандартная векторная модель дает 48% первых релевантных документов, индексирование по значениям слов – 53.2% и индексирование по синсетам – 62%.

Внесение ошибок разрешения многозначности в индексирование по синсетам показало, что 10% ошибок не влияет на качество поиска, что находится в соответствии с работой [178]. При этом выяснилось, что при уровне 30% ошибок качество поиска превосходит поиск по стандартной модели SMART (54.4%). Таким образом, авторы делают вывод, что если преимущество по сравнению с пословными векторными моделями.

Для того чтобы изучить, насколько в приложениях информационного поиска можно использовать системы разрешения многозначности с такими (http://nlp.cs.swarthmore.edu/semeval/), одним из заданий которой является применение алгоритмов разрешения многозначности в рамках задачи информационного поиска [6]. Суть задания заключается в следующем: все участники должны выполнять поиск на одной и той же поисковой машине, однако перед поиском необходимо расширить запросы или тексты синонимами или переводами, соответствующими выбранным значениям.

Результаты систем сравниваются с базисными уровнями: поиск без расширений (noexp), и поиск с полным расширением – запросы расширяются синонимами, соответствующими всем возможным значениям (expall). В проведенных экспериментах в одноязычном поиске лучший результат был получен при поиске без расширения синонимами, в двуязычном информационном поиске использованием переводов по всем значениям expall.

Таким образом, в первом проведенном соревновании с использованием методов автоматического разрешения многозначности системам не удалось получить результаты, превышающие результаты методов, не использующих процедуру автоматического разрешения многозначности. Организаторы процедуры оценки связывают часть проблем с выбранной базовой системой поиска и намерены продолжать исследования роли автоматического разрешения многозначности в информационном поиске.

В работе [105] в качестве базовой модели информационного поиска используется формула Bm25, построенная на основе вероятностной модели информационного поиска (иначе называемая модель OKAPI [173]. Вес терма (слова) в документе вычисляется в этой модели по следующей формуле:

документа D в словах, avgdl – средняя длина документов в коллекции, k1 и b – это параметры формулы, обычно принимающие значения k1=2.0, b = 0.75.

IDF(qi) (обратная частота встречаемости терма в документах коллекции) в данном случае вычисляется как:

где N – это общее число документов в коллекции и n(qi) – число документов, содержащих qi.

К модели OKAPI в работе [105] добавлен поиск по фразам и разрешения многозначности слов к запросу добавляются синонимы, гипонимы и слова из определений синсетов. Основное свое внимание авторы концентрируют на коротких (двух или трехсловных) запросах.

Значение многозначного слова в запросе выбирается на основе толкований синсетов WordNet. При этом выбранные значения используются не для того, чтобы построить концептуальный индекс (индекс синсетов), а для того, чтобы найти подходящее расширение запроса.

Учитывая предшествующие неудачи использования WordNet для расширения запросов, авторы вводят дополнительные проверки возможности расширения, а также вес расширения. Важным элементом проверки возможности расширения запросов является предварительная оценка глобальной корреляции между отдельными словами.

Для оценки глобальной корреляции между словами используется следующая формула:

где s – элемент запроса (отдельное слово или словарное выражение), ti – некоторое другое выражение, dfi и sdf – это количество документов, содержащее ti и s соответственно, N – число документов в коллекции, idf (s) – обратная частота встречаемости s в коллекции, co-occurrence (ti, s) – число документов, в которых встречаются ti и s, dev (ti, s) показывает степень отклонения совместной встречаемости ti и s от независимого употребления.

Авторы предлагают расширять запрос, состоящий из двух термов t1 и t2, синонимами следующим образом.

Терм t11, который является синонимом к терму запроса t1 в синсете S, может быть добавлен в качестве расширения запроса, в одном из двух случаев:

- или S – является доминантным синсетом для терма t11, т.е. t наиболее часто употребляется в значении, соответствующем - или t2 имеет высокую степень корреляции с t11, и величина корреляции между t2 и t11 больше, чем величина корреляции между - При этом расширение производится со следующим весом:

где f (t11, S) – это частота встречаемости терма t11 в значении S, F (t11) – это сумма всех частот для всех значений t11. Частота значений берется из информации, приписанной синсетам в WordNet, которая, в свою очередь, получена на основе разметки текстового корпуса значениями WordNet. Этот вес интерпретируется как вероятность того, что терм t11 имеет значение S.

Для расширения запроса гипонимами проводятся проверки другого рода. Пусть U – синсет-гипоним для t1. Синоним из U добавляется к запросу в следующих случаях:

терма t11 из U этот терм добавляется к запросу, с весом (*), если U – это доминантный синсет t11;

2) U – это не единственный гипоним синсета S терма t1, при этом определение U содержит либо термин t2 или его синонимы. Тогда для каждого терма t11 из U этот терм добавляется к запросу, с весом (*), если U – это доминантный синсет t11.

Авторы работы показывают на пяти разных текстовых коллекциях многозначности к коротким запросам и на этой основе расширение запроса приводит к росту средней точности поиска от 4% до 34%.

Результаты по улучшению информационного поиска с использованием WordNet и информации о совместной встречаемости слов в рамках языковой (порождающей) модели информационного поиска получены в работе [27].

«Языковые порождающие модели» – это группа статистических методов, которые оценивают вероятность появления последовательности из m слов P(w1,…, wm) посредством вычисления вероятностного распределения.

В информационном поиске языковые модели используются для установления отношений между запросом Q и документами коллекции, в том смысле, что упорядочение документов при выдаче ответов на запрос определяется на основе оценки вероятности того, что языковая модель, построенная по документу, породит совокупность слов запроса P(Q|Md) [166, 189].

Основной формулой языковой модели информационного поиска для так называемой униграммной модели, т.е. в том случае, если все слова запроса рассматриваются как независимые друг от друга сущности, является следующая:

документа в униграммной модели оценивается как произведение вероятности порождения отдельного элемента запроса из документа. Наиболее естественным способом оценки P(qi|d) является оценка вероятности встречаемости терма qi в документе d посредством так называемой оценки максимального правдоподобия (maximal likelihood estimate – MLE), т.е.

Оценка вероятности последовательностей слов может оказаться достаточно сложной для текстовых коллекций, поскольку некоторые возможные последовательности слов могли никогда не встречаться в базовой коллекции, и не могли использоваться для качественной настройки языковой модели (training of language model), т.е. возникает - так называемая проблема нехватки данных (data sparceness). По этой причине важным элементом языковых моделей является процедура сглаживания (smoothing) [129, 224].

Большинство формул сглаживания предложено в рамках моделей, созданных для распознавания речи. В сфере языковых моделей для информационного поиска ситуация нехватки данных проявляется в том, что если элемент запроса не содержится в документе, то при выбранном способе оценки вероятности получается P(qi|d)=0 и, следовательно, Одной из распространенных техник сглаживания является учет вероятности появления слова в коллекции P(qi|C), и тогда обобщенная формула сглаживания выглядит следующим образом:

P (w|d) = Ps(w|d), если слово запроса встречалось в документе, d P (w|C), если слово не встречалось в документе.

где Ps(w|d) – это сглаженная вероятность P(w|d), P(w|C) – это вероятность появления слова в коллекции, d – коэффициент учета каждой из моделей, в общем случае может зависеть от документа.

Jelinek-Mercer, выглядит следующим образом:

Другим примером формулы сглаживания является так называемая формула абсолютного дисконтирования (absolute discounting). Идея метода заключается в понижении вероятности встреченных слов путем вычитания констант вместо умножения их на коэффициенты и (1-):

где M – модель сглаживания, – сглаживающая константа величиной от 0 до 1; ; |du| – число уникальных слов в документе; |d| - общее количество слов в документе, т.е.

Учет P(qi|C) в языковых моделях играет роль, сходную с учетом обратной частотности (idf) в векторной модели информационного поиска [224]. Эксперименты в рамках конференции TREC [129, 166] показали эффективность языковых моделей для информационного поиска, однако существенным для эффективной работы методов является процедура подбора подходящей процедуры сглаживания. В работе [224] исследовались различные виды сглаживания. На основе этого исследования авторы делают выводы, что некоторые виды сглаживания в информационном поиске лучше подходят для коротких запросов, а другие для более длинных сложных запросов.

Авторы работы [27] подчеркивают, что классическая языковая модель информационного поиска основана на независимости слов в текстах друг от друга, что не соответствует реальному положению дел.

некотором текстовом окне.

- во-вторых, извлекая вручную описанные отношения из WordNet, поскольку некоторые указанные лингвистами отношения между словами может быть невозможно извлечь из рабочей коллекции.

При этом отношениям из WordNet предлагается приписывать вес также на основе их совместной встречаемости в текстовом окне заданной величины.

Таким образом, оценивая вероятность порождения запроса из документа, предлагается использовать три источника информации по следующей формуле:

P(q|d)=I=1 [L PL(qi|d) + CO PCO(qi|d) + U PU (qi|d)], где PU(qi|d) – вероятность, полученная по классической униграммной языковой модели, – далее модель UM; PL(qi|d) – вероятность порождения запроса из документа, полученная на основе отношений лингвистического ресурса WordNet, – далее модель LM; PCO(qi|d) – вероятность порождения запроса из документа, полученная на основе совместной встречаемости двух слов в текстовом окне, – далее модель CM; L, CO, U – подбираемые коэффициенты. В базовой униграммной языковой модели в качестве дисконтирования.

Исследовался и другой вариант формулы, который приписывал отдельные веса разным типам связей WordNet: синонимам, гипонимам и гиперонимам:

где 1…5 – весовые коэффициенты каждого типа отношений.

оценивалась в пределах абзаца. Совместная встречаемость слов, не поддержанных отношениями в WordNet, оценивалась в окне из 7 слов.

Для оценки совместной встречаемости в обоих случаях была также применена формула в духе языковых моделей с типом сглаживания по абсолютному дисконтированию. Так, формула для слов, между которыми описаны отношения в WordNet, такова:

где С (wi,w|W,L) – число совместных встречаемостей слов wi и w, связанных отношениями в WordNet, в пределах окна, С(*, w|W,L) – число уникальных терминов встречающихся в окне W. Данная формула соответствует так называемой битермной языковой модели [193].

конференции по методам информационного поиска TREC общим размером более 1200 мегабайт. Оба варианта модели показали лучшие характеристики средней точности, по сравнению с базовой моделью. Большее увеличение показал второй вариант модели, который использовал разные весовые коэффициенты для разных типов отношений WordNet.

Анализ различных комбинаций подэлементов модели показал, что комбинация всех трех элементов модели (UM+LM+CM) всегда превышает показатели частичных комбинаций моделей. Это подтверждает мысль авторов, что посредством привлечения знаний из WordNet удалось использовать в поиске дополнительные сведения, которые не удалось получить на базе только использования информации о совместной встречаемости слов в текстовом окне.

систем информационного поиска в смысле обеспечения высокой точности выдачи в первых документах выдачи. Исследуя результаты поиска системы Lemur [157] по заголовкам запросов TREC, они показали, что только в 40% из 150 исследуемых запросов на первом месте поисковой выдачи находился релевантный документ.

Проанализировав причины такой ситуации, авторы работы установили, что для улучшения качества поиска необходимо производить расширение поискового запроса. При этом для обеспечения качественного расширения запроса необходимо определить, какие именно слова можно дополнить близкими по смыслу словами в контексте данного запроса, и какими именно из близких по смыслу слов. Так, включение в запрос многозначного слова может привести к резкому снижению качества поиска.

Для определения критериев расширения запроса близкими по смыслу словами авторы предлагают использовать показатель ясности (“clarity”) слов.

Вычисление этого параметра основывается на следующих наблюдениях.

Если в ответ на запрос получены релевантные документы, то первые документы выдачи характеризуются относительно высокой частотностью небольшого числа тематических терминов. С другой стороны, если в ответ на запрос выдаются нерелевантные документы разнообразной тематики, то по распределению частот документы выдачи должны быть сходны с коллекцией в целом. В результате экспериментов было получено, что при поиске по заголовкам запросов мера точности поиска Precision (1) повысилась на 16.40% с 40.67% до 46.67%, средняя точность выросла на 0.89%. При поиске по полю описание (description) запроса Precision(1) повысилась на 18.18% с 44.00% до 52.00%, средняя точность выросла на 11.45%.

Таким образом, выборочное расширение запроса синонимами из WordNet привело к значимому улучшению результата поиска как по критерию Precision(1), так и по показателю средней точности.

1.2.4.1. Методы применения лингвистических онтологий информационного поиска является разработка вопросно-ответных систем. От системы отличаются тем, что должны предоставить пользователю не набор документов, которые наиболее релевантны поставленному вопросу, но выдать фрагмент текста, содержащий точный ответ на заданный вопрос.

В 1999 году стало проводиться тестирование вопросно-ответных систем в рамках конференции по информационному поиску TREC [210], в которых системы должны были искать ответы на вопросы вида: What is the (Какая звезда, видимая с Земли, является самой яркой?) Основными этапами поиска ответа на вопрос в современных вопросноответных системах являются следующие (см. рис. 1.1):

Рис. 1.1. Основные этапы обработки вопроса и формирования ответа которого определяется тип вопроса (вопрос времени, места, количества и другие) и соответствующий тип ответа, а также формируется запрос к информационно-поисковой системе. На втором этапе производится поиск релевантных документов или абзацев информационно-поисковой системой, формируется упорядоченный список наиболее релевантных документов (абзацев), из которого выбирается первых n (например, n=100-1000) документов (абзацев) для дальнейшей обработки. На третьем этапе производится подробный анализ полученных абзацев: содержит ли абзац требуемый тип ответа, близость слов ответа и вопроса, сходство синтаксических структур и т.п. В ходе такого анализа полученные абзацы оцениваются по мере возможности вхождения в них ответа на заданный вопрос, и переупорядочиваются на основе полученных оценок.

Обработка поискового запроса в рамках вопросно-ответной системы имеет свою специфику по сравнению с обработкой типичного запроса при поиске в Интернет. Как известно, запросы в глобальных информационнопоисковых системах обычно очень короткие – 2-3 слова, и по ним находятся сотни и тысячи документов. Запросы в форме вопросов обычно значительно длиннее, поэтому если требовать присутствия в документе сразу всех слов запроса, то чаще всего не будет найдено ни одного документа, что означает, что поисковая система должна автоматически определить, какие слова такого запроса должны быть отброшены или заменены.

Классическая векторная модель на основе сравнения векторов запроса и документа позволяет найти наиболее релевантные документы и по частично совпадающему запросу [306]. Однако при формальном выполнении пословных векторных моделей важные для ответа слова вопроса могут быть автоматически отброшены, поэтому в некоторых современных исследованиях по вопросно-ответным системам стали использоваться не векторные модели поиска, а выполняется булевский поиск.

логическими связками: AND ( & ), OR( ), NOT( ), которые могут быть сгруппированы при помощи скобок. Таким образом, запрос пользователя представляется логической формулой, в которой атомами могут быть термины или какие-либо дополнительные условия (например, тип коллекции или документа, ограничение на расстояние между словами запроса и т.п.).

Каждый атом формулы соответствует булевской функции, проверяющей вхождение заданного термина или выполнение заданного условия в анализируемом документе.

Поисковая машина, основанная на булевом поиске, возвращает документы, для которых формула запроса принимает истинные значения.

Каждому атому формулы сопоставляется множество документов, для которых значение атома истинно. Если атом является термином, то ему сопоставляется множество документов, в которых термин встречается. Затем над множествами выполняются элементарные операции — объединения, пересечения и дополнения, соответствующие логическим связкам между атомами.

Использование булевской модели поиска, которая при выполнении стандартного информационного поиска, считается менее качественной, чем векторная модель [130], связано с тем, что при выполнении задачи сокращения формулировки запроса необходимо осуществлять дополнительный контроль, какие слова формулировки вопроса обязательно должны присутствовать в тексте ответа, а какие могут быть пропасть в тексте ответа с минимальным ущербом для релевантности ответа [71, 82, 93].

Булевский запрос обычно формируется как конъюнкция всех значимых слов формулировки вопроса. Если проводится морфологический анализ запроса или добавляются синонимы, то они объединяются в дизъюнкцию.

Поскольку стандартной является ситуация, когда не находится документов, которые содержат все значимые слова вопроса, поэтому при обработке вопроса часто необходимо определить, какие именно слова формулировки вопроса.

Так, упомянутый в начале раздела вопрос «Какая звезда, видимая с Земли, является самой яркой» может быть преобразован в следующий булевский запрос, в котором часть слов из запроса пропадает, а близкие по смыслу слова образуют дизъюнкции:

ЗВЕЗДА AND (ЯРКИЙ OR ЯРЧАЙШИЙ) AND ЗЕМЛЯ

формулировки вопроса могут быть отброшены, обычно предлагается система модификаций, упрощающих исходный булевский запрос, после каждой из которых опять происходит обращение к поисковой системе для проверки, не появились ли релевантные документы.

Обычно используются два основных способа упрощения булевского запроса. Во-первых, можно часть конъюнкций переводить в дизъюнкции.

Вторым способом является поочередное исключение членов конъюнкции, на основе некоторого множества эвристик, определяющих значимость членов конъюнкции.

В связи с длинной формулировкой естественно-языкового вопроса и частым отсутствием в самых больших текстовых коллекциях ответов, содержащих все или большинство слов формулировки вопроса, значимой становится роль лексических ресурсов, позволяющих найти ответы в тех предложениях, в которых часть слов заменена на близкие по смыслу слова.

Таким образом, роль лексических ресурсов, онтологий, тезаурусов при обработке вопросов в вопросно-ответных системах представляется достаточно важной.

Многие современные вопросно-ответные системы используют в качестве лексического источника WordNet. В таких системах WordNet может использоваться для решения следующих задач:

- распознавания типа вопроса;

- для реализации лексических и семантических замен.

Одной из самых эффективных систем в вопросно-ответной дорожке конференции TREC 1999 стала вопросно-ответная система Южного Методистского университета, которая на нескольких этапах обработки вопроса и поиска ответа обращается к информации, хранимой в тезаурусе WordNet [71].

Лексические и семантические замены осуществляются в момент сопоставления формальной структуры вопроса и ответа. Поиск в системе организован на основе обработки булевских запросов, в качестве единиц поиска выступают не целые документы, а абзацы [71].

На этапе обработки вопроса WordNet используется для определения типа вопроса и типа ответа. Например, если вопрос начинается со слов «what company» – этот вопрос классифицируется как вопрос об организации.

На некоторые типы вопросов, кандидаты-ответы могут быть получены непосредственно из WordNet. Например, если задан такой вопрос как «What flowers did Van Gogh paint?» (Какие цветы рисовал Ван Гог), то может быть извлечен список всех 470 видов цветов, упомянутых в WordNet, и использован для проверки в качестве подходящего ответа.

Для организации поиска ответов была разработана классификация ответов на вопросы конференции TREC, которая включала такие типы, как:

время, дата, продукция, организация, деньги, место, язык, человек.

После этого WordNet был преобразован в таксономию ответов, релевантные синсеты были сгруппированы под своим типом ответа, а нерелевантные синсеты были удалены. В результате полученная таксономия ответов включала 8707 синсетов, 20 верхних типов. Было добавлено отношений, отсутствующих в WordNet, но полезных для ответов на вопрос.

Таким образом, в значительной мере для нужд классификации вопросов и ответов на основе информации WordNet был построен новый ресурс, настроенный на вопросы, предлагаемые в рамках конференции идентификация типа ответа для 79% вопросов на конференции TREC-9.

В данной вопросно-ответной системе тезаурус WordNet совместно с серией булевских запросов используется для подбора необходимых лексических и семантических замен. При обработке формулировки запроса строится синтаксическая структура предложения, которая называется семантической формой запроса, а также создается булевское выражение, состоящее из слов запроса. Выполняется поиск, и отбираются абзацы текста, удовлетворяющие запросу и содержащие, по крайней мере, одно языковое выражение, подходящее по типу к требуемому типу ответа. После этого могут быть инициализированы три цикла расширения запроса, в процессе которого булевское выражение запроса пополняется семантически близкими словами из WordNet, которые связаны между собой в запросе дизъюнктивно.

В результате, качество поиска ответов на вопросы TREC при возвращении короткого 50-байтного ответа улучшилось на 76%.

1.2.4.2. Предметные области вопросно-ответных систем Современные вопросно-ответные системы можно подразделить на два больших класса.

Первый класс – это вопросно-ответные системы общего назначения, которые должны отвечать на широкий круг вопросов на базе сверхбольших текстовых коллекций, например, информации, хранящейся на интернетсайтах. Величина используемых текстовых коллекций часто позволяет такой системе воспользоваться избыточностью информации, и находить такой текст, в котором ответ может быть получен системой наилучшим образом.

Второй класс вопросно-ответных систем – это вопросно-ответные системы, созданные для ответов на вопросы в рамках конкретных предметных областей, например, поиска информации в технической документации, в коллекции ответов на частые вопросы пользователей и другие. Такие системы располагают значительно меньшей коллекцией вопросы эти системы должны пользоваться знаниями о предметной области, хранимых, в частности, в форме онтологий и тезаурусов [143].

Примерами сфер приложений специальных вопросно-ответных систем являются правовая сфера, а также многочисленные форумы по техническим проблемам, программному обеспечению, куда обращаются пользователи со своими проблемами.

Представляется, что сужение сферы деятельности позволяет точнее настроить вопросно-ответную систему, и это действительно так. Однако в предметных областях возникает другая проблема: реальные вопросы пользователей не представляют собой аккуратно построенный в виде одного предложения вопрос. Чаще, вопрос реального пользователя включает предварительное описание проблемной ситуации, своих действий в этой ситуации, может содержать несколько подвопросов с отдельными вопросительными словами, а также может содержать значительно количество вводных слов, и другого рода, бессодержательных слов (помогите, пожалуйста, поясните, help и т.п.).

Приведем пример реального вопроса в правовой области: • Расскажите, пожалуйста, о туристических и транзитных визах в США. Что собой представляют визы, выдаваемые супругам, и визы, связанные с обучением? Сколько стоит оформление визы?

В работе [86] указывается, что «если современные интернетпоисковики демонстрируют достаточно высокое качество обработки 2- словных запросов, их способность отвечать на сложные вопросы... является явно недостаточными».

Авторы работы [103] также пишут о том, что исследования вопросноответных систем в рамках TREC в наибольшей степени было сконцентрировано на коротких, направленных на поиск фактов общезначимых вопросов, поиск ответов на многие из которых базируется на хорошо работают для вопросов типа TREC, однако хорошие результаты не обязательно обеспечивают успех при обработке вопросов вне конференции TREC.

В [103] описывается система обработки реальных вопросов в рамках более широкой области аэрокосмической индустрии. Основные компоненты вопросно-ответной системы включают: 1)обработка документов 2) модуль язык – логика (L2L) 3) поисковая машина и 4) нахождение абзацев с ответом.

Когда пользователь спрашивает систему, его вопрос сначала посылается в L2L модуль, который порождает внутреннее представление вопроса и идентифицирует фокус вопроса. Поисковая машина возвращает 50 лучших документов. В качестве ответов возвращается 20 лучших абзацев.

Вопросы NASA отличаются от вопросов TREC в нескольких аспектах.

Во-первых, вопросы NASA задаются в реальное время студентом, и вопрос может быть многозначным или предполагает неявное знание, которое не эксплицировано в вопросе. Реальные вопросы обычно пишутся в спешке и могут быть сформулированы с нарушением грамматической структуры или содержать орфографические ошибки.

1.2.4.3. Поиск ответов на вопрос в вопросно-ответных сервисах Отдельным направлением в развитии вопросно-ответных систем может рассматриваться поиск уже существующих ответов в вопросо-ответных сервисах глобальных интернет-поисковиков.

Во многих странах стали популярными вопросно-ответные сервисы, когда пользователь может обратиться к сообществу пользователей или к экспертам за ответом на свой вопрос. Такие службы обычно накапливают большие объемы уже отвеченных вопросов, т.е. документов типа «вопросответ». При задании вопроса сервис может, прежде всего, выполнить поиск на предмет того, нет ли уже в его базе вопросно-ответных документов ответа на подобный вопрос.

быть сформулированы с помощью совершенно разных лексических средств.

[86] приводят такие примеры близких по содержанию вопросов, не содержащих ни одного общего слова:

1. Is downloading movies illegal?

2. Can I share a copy of a DVD online?

Поиск ответов на такие вопросы отличается от основной парадигмы современных вопросно-ответных систем тем, что нужно найти не короткий ответ на относительно ограниченный список типов вопросов, а документ, отвечающий на неограниченный список типов вопросов.

1.2.5. Лингвистические онтологии в системах автоматической информации к одной или нескольким категориям из ограниченного множества) является традиционной задачей организации знаний и обмена информацией, рассматривается как одна из классических задач информационного поиска. Распространенность больших информационных коллекций делает необходимым развитие автоматических методов рубрикации.

Таким образом, имеется следующая постановка задачи [180]:

- имеется множество категорий (классов, меток): С = {c1,...c|c|}, - имеется множество документов: D = {d1,...d|d|}, - существует неизвестная целевая функция Ф: С х D{0, 1} Необходимо построить классификатор Ф', максимально близкий к Ф.

1.2.5.1. Методы автоматической рубрикации Известны две основных технологии автоматической рубрикации:

подход"), при применении которых правила отнесения текстов к рубрикам строятся инженерами по знаниям в форме булевских выражений, правил продукций и т.п.

- методы на основе машинного обучения, при применении которых отрубрицированная человеком.

Алгоритм машинного обучения строит процедуру классификации документов на основе автоматического анализа заданного множества отрубрицированных текстов, т.е. имеется некоторая начальная коллекция размеченных документов R С х D, для которых известны значения Ф.

Данная размеченная коллекция делится на обучающую и тестировочную части. Первая используется для обучения классификатора, вторая – для проверки качества классификации.

Классификаторы обоих типов могут выдавать точный ответ Ф':

С х D{0, 1} или степень подобия Ф': С х D[0, 1] [180].

Оценка качества автоматической классификации производится путем сравнения с эталонной («правильной») классификацией набора документов, т.е. на основе коллекции документов, отрубрицированных вручную. Для оценки эффективности работы систем рубрицирования используются такие характеристики, как полнота, точность, F-мера, аккуратность [227].

Полнота (r – recall) - это отношение R/Q, где R - количество текстов, правильно отнесенных к некоторой рубрике, а Q – общее количество текстов, которые должны быть отнесены к этой рубрике.

Точность (p – precision) – это отношение R/L, где R – количество текстов, правильно отнесенных системой к некоторой рубрике, а L – общее количество текстов, отнесенных системой к этой рубрике.

объединяющая метрики полноты и точности в одну метрику. F-мера для данного запроса (рубрики) вычисляется по формуле:

Также иногда используется метрика аккуратности (accuracy), которая вычисляется как отношение правильно принятых системой решений к общему числу решений. Формально где R – количество текстов, правильно отнесенных системой к рубрике, R – число текстов, правильно не отнесенных системой к рубрике, D – общее число документов в коллекции. Таким образом, знаменатель не зависит от рассматриваемой рубрики.

трудозатратными, является методы автоматического рубрицирования, основанные на знаниях. При рубрицировании текстов на основе знаний используются заранее сформированные базы знаний, в которых описываются языковые выражения, соответствующие той или иной рубрике, правила выбора между рубриками и др. [74].

Так, например, в классической работе по инженерному подходу к автоматической рубрикации текстов [74] рубрики определяются на основе сопоставления каждой рубрике совокупности специальных шаблонов.

Шаблон определяется как конструкция, состоящая из произвольного количества дизъюнкций, конъюнкций, отрицаний, пропусков слов и операторов необязательности. В такой конструкции могут быть также заданы части речи, способ написания (с большой или маленькой буквы), знаки препинания. Каждому такому шаблону приписан вес, определяющий, насколько сильно этот шаблон соответствует той или иной рубрике.

Суммирование весов шаблонов, сопоставленных одной и той же рубрике по тексту, дает величину соответствия этой рубрики тексту. Решение о выборе рубрик для текста принимаются на основе правил, в которых учитывается, соответствующие шаблоны, и какой суммарный вес имеет каждая рубрика.



Pages:     || 2 | 3 |


Похожие работы:

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Билан, Ольга Александровна Индетерминизм в системе предпосылок философского постмодернизма Москва Российская государственная библиотека diss.rsl.ru 2006 Билан, Ольга Александровна.    Индетерминизм в системе предпосылок философского постмодернизма  [Электронный ресурс] : Дис. . канд. филос. наук  : 09.00.01. ­ СПб.: РГБ, 2006. ­ (Из фондов Российской Государственной Библиотеки). Философия ­­ Гносеология ­­ Основные гносеологические концепции...»

«Удалено...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Нуржасарова, Майра Абдрахмановна Теоретические и методологические принципы проектирования современной одежды на основе традиционного казахского костюма Москва Российская государственная библиотека diss.rsl.ru 2006 Нуржасарова, Майра Абдрахмановна.    Теоретические и методологические принципы проектирования современной одежды на основе традиционного казахского костюма  [Электронный ресурс] : Дис. . д­ра техн. наук  : 05.19.04. ­ Алматы: РГБ,...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Попова, Елена Викторовна Обоснование оросительных мелиораций на основе гидрологических характеристик рек юга Амурской области Москва Российская государственная библиотека diss.rsl.ru 2006 Попова, Елена Викторовна.    Обоснование оросительных мелиораций на основе гидрологических характеристик рек юга Амурской области  [Электронный ресурс] : Дис. . канд. техн. наук  : 06.01.02. ­ Благовещенск: РГБ, 2006. ­ (Из фондов...»

«ВАВИЛОВА Татьяна Александровна НЕПСИХОТИЧЕСКИЕ ПСИХИЧЕСКИЕ РАССТРОЙСТВА У ПОДРОСТКОВ С КОМОРБИДНОЙ ХРОНИЧЕСКОЙ СОМАТИЧЕСКОЙ ПАТОЛОГИЕЙ Специальность 14.01.06 – психиатрия Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : доктор медицинских наук Макаров Игорь Владимирович Санкт-Петербург...»

«Бородин Сергей Сергеевич СВОБОДНОЕ ИСПОЛЬЗОВАНИЕ ПРОИЗВЕДЕНИЙ В АСПЕКТЕ СИСТЕМНОГО ВЗАИМОДЕЙСТВИЯ ПРИНЦИПОВ АВТОРСКОГО ПРАВА 12.00.03 – гражданское право; предпринимательское право; семейное право; международное частное право ДИССЕРТАЦИЯ на соискание ученой степени кандидата юридических наук Научный руководитель – кандидат юридических...»

«САЙТАЕВА Татьяна Ильинична ЯЗЫКОВАЯ ПРИРОДА СОЦИАЛЬНЫХ СТЕРЕОТИПОВ 09.00.11 – социальная философия Диссертация На соискание ученой степени Кандидата философских наук Научный руководитель : доктор философских наук, профессор О.Н. Бушмакина. Ижевск 2006 СОДЕРЖАНИЕ Введение.. ГЛАВА I. Стереотипизация социальной...»

«Оганесов Владимир Армаисович Подготовка конкурентоспособного специалиста в условиях диверсификации высшего образования Специальность 13.00.08 – Теория и методика профессионального образования Диссертация на соискание учёной степени кандидата педагогических наук Научный руководитель доктор педагогических наук, профессор Беляев А.В. Ставрополь - 2003 2 СОДЕРЖАНИЕ Введение.. Глава 1. Теоретические основы подготовки специалиста в системе...»

«ШАНДЫБО Светлана Викторовна ФОРМИРОВАНИЕ ПРОФЕССИОНАЛЬНОЙ ПОЗИЦИИ ПРИНЯТИЯ РЕБЕНКА У БУДУЩЕГО ПЕДАГОГА В ВУЗЕ 13.00.08 – теория и методика профессионального образования ДИССЕРТАЦИЯ на соискание ученой степени кандидата педагогических наук Научный руководитель : доктор педагогических наук, профессор...»

«Кобзарь Ирина Владиславовна СТРАТЕГИЯ УПРАВЛЯЕМОГО РАЗВИТИЯ ПРОМЫШЛЕННЫХ ПРЕДПРИЯТИЙ Специальность 08.00.05 – Экономика и управление народным хозяйством (экономика, организация и управление предприятиями, отраслями, комплексами: промышленность) Диссертация на соискание ученой степени кандидата экономических наук...»

«Розбаева Галина Леонидовна ДЕТАЛЬНАЯ ЛИТОЛОГО-ФАЦИАЛЬНАЯ МОДЕЛЬ ОТЛОЖЕНИЙ НИЖНЕХЕТСКОЙ СВИТЫ В СУЗУНСКОМ НГР (ЗАПАДНАЯ СИБИРЬ) Специальность 25.00.12 - Геология, поиски и разведка нефтяных и газовых месторождений Диссертация на соискание ученой степени кандидата геолого-минералогических наук Научный руководитель кандидат физикоматематических наук,...»

«Жижимов Олег Львович ПОСТРОЕНИЕ РАСПРЕДЕЛЕННЫХ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ПРОТОКОЛА Z39.50 Специальность 05.25.05 – информационные системы и процессы, правовые аспекты информатики Диссертация на соискание ученой степени доктора технических наук Научный консультант : доктор физ.-мат. наук, чл.-корр. РАН Федотов Анатолий Михайлович НОВОСИБИРСК -...»

«Харин Егор Сергееевич Древнерусское монашество в XI – XIII вв: быт и нравы. Специальность 07.00.02 – отечественная история Диссертация на соискание ученой степени кандидата исторических наук Научный руководитель кандидат исторических наук, доцент В.В. Пузанов Ижевск 2007 Оглавление Введение..3 ГЛАВА I. ИНСТИТУТ МОНАШЕСТВА...»

«ПАВРОЗИН Александр Васильевич ПРОФЕССИОНАЛЬНАЯ АДАПТАЦИЯ ПРЕПОДАВАТЕЛЕЙ–СЛУЖАЩИХ РОССИЙСКОЙ АРМИИ К ПЕДАГОГИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ В ВОЕННОМ ВУЗЕ 13. 00. 08 – Теория и методика профессионального образования Диссертация на соискание учёной степени кандидата педагогических наук Научный руководитель – доктор педагогических наук, профессор АЩЕПКОВ В. Т. Ставрополь – 2003 г. СОДЕРЖАНИЕ Стр. ВВЕДЕ- 3- НИЕ... Глава 1. Теоретические основы...»

«Штыковский Павел Евгеньевич Массивные рентгеновские двойные в близких галактиках 01.03.02 Астрофизика и радиоастрономия ДИССЕРТАЦИЯ на соискание ученой степени кандидата физико-математических наук Научный руководитель д.ф.-м.н. М.Р. Гильфанов Москва 2007 2 Эта работа - результат исследований, проведенных в отделе Астрофизики высоких энергий Института Космических Исследований РАН. Я глубоко благодарен своему научному...»

«Говоров Александр Викторович ОПТИМИЗАЦИЯ ТРАНСРЕКТАЛЬНОЙ БИОПСИИ ПРОСТАТЫ В ДИАГНОСТИКЕ РАКА ПРЕДСТАТЕЛЬНОЙ ЖЕЛЕЗЫ 14.00.40 - Урология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель доктор медицинских наук, профессор Пушкарь Дмитрий Юрьевич Москва - 2002 Оглавление Список сокращений Введение Глава 1. Обзор литературы:...»

«Чехранова Светлана Викторовна ЭФФЕКТИВНОСТЬ ИСПОЛЬЗОВАНИЯ ПРЕМИКСОВ В КОРМЛЕНИИ ДОЙНЫХ КОРОВ 06.02.08 – кормопроизводство, кормление сельскохозяйственных животных и технология кормов ДИССЕРТАЦИЯ на соискание ученой степени кандидата сельскохозяйственных наук Научный руководитель : доктор сельскохозяйственных наук, профессор...»

«C.Z.U.: 330.332:658:005(043.3)161.1 S-58 СИМОВ ДЕНИС ВЛАДИМИРОВИЧ РАЗРАБОТКА И РЕАЛИЗАЦИЯ ИНВЕСТИЦИОННОЙ СТРАТЕГИИ, ОРИЕНТИРОВАННОЙ НА ЭКОНОМИЧЕСКУЮ РЕНТАБЕЛЬНОСТЬ СОВРЕМЕННОГО ПРЕДПРИЯТИЯ 08.00.05 – Экономика и менеджмент (предпринимательская деятельность предприятия) Диссертация на соискание ученой степени доктора экономики Научный руководитель доктор экономики, конф. универ. _ Благоразумная Ольга Автор _ Кишинев, © Симов Денис,...»

«ЖАРКОВ Александр Александрович ФОРМИРОВАНИЕ МАРКЕТИНГОВЫХ ИНСТРУМЕНТОВ СОЗДАНИЯ ПОТРЕБИТЕЛЬСКОЙ ЦЕННОСТИ СУБЪЕКТАМИ РЫНКА ЖИЛОЙ НЕДВИЖИМОСТИ Специальность 08.00.05 – Экономика и управление народным хозяйством (маркетинг) Диссертация на соискание ученой степени...»

«Кайгородова Ирина Михайловна УДК 635.656 : 631.52 СОЗДАНИЕ ИСХОДНОГО МАТЕРИАЛА ГОРОХА ОВОЩНОГО (PISUM SATIVUM L.) РАЗНЫХ ГРУПП СПЕЛОСТИ ДЛЯ СЕЛЕКЦИИ НА ПРИГОДНОСТЬ К МЕХАНИЗИРОВАННОЙ УБОРКЕ Специальность: 06.01.05 – селекция и семеноводство сельскохозяйственных растений 06.01.09 – овощеводство ДИССЕРТАЦИЯ на соискание ученой степени кандидата сельскохозяйственных наук Научные...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.