Московский Государственный Университет имени М.В.Ломоносова
Факультет Вычислительной Математики и Кибернетики
Кафедра системного программирования
Дипломная работа
Исследование и разработка методов измерения
семантической близости концепций
на основе шаблонов Википедии
Станислав Воробьев, гр.527
Научные руководители: ак. РАН Иванников Виктор Петрович,
н.с. Недумов Ярослав Ростиславович Москва, 2012 Аннотация Исследование и разработка методов измерения семантической близости концепций Станислав Воробьев Определение семантической близости важная задача, имеющая применения в анализе текстов: их классификации, аннотировании, разрешении лексической многозначности, а также биоинформатике. Данная работа посвящена исследованию семантической близости концепций на основе шаблонов Википедии.
Шаблон Википедии блок в тексте статьи, содержащий ссылки на тематически связанные статьи.
В сравнении рассматриваются методы Дайса, Жаккарда, Симпсона, Кульчинского.
В работе показано, что топологические методы измерения семантической близости на основе шаблонных связей могут эффективно применяться при решении задачи разрешения лексической многозначности (определении значений многозначных слов).
Содержание Введение 1 Постановка задачи 2 Обзор существующих решений задачи 2.1 Статистические методы............................. 2.1.1 Латентно-семантический анализ.................... 2.1.2 Поточечная взаимная информация.................. 2.1.3 Непосредственный семантический анализ.............. 2.2 Топологические методы............................. 2.2.1 Методы Жаккарда, Дайса, Симпсона, Кульчинского........ 2.2.2 Меры WordNet.............................. 2.2.3 SimRank.................................. 2.2.4 Google Distance.............................. 2.3 Выводы...................................... 3 Исследование и построение решения задачи 3.1 Построение парсера............................... 3.2 Генерация..................................... 3.3 Методика сравнения............................... 3.4 Набор тестов Texterra.............................. 3.4.1 Результаты сравнения.......................... 4 Описание практической части 4.1 Инструменты................................... Содержание 4.1.1 Texterra.................................. 4.2 Структура Википедии.............................. 4.3 Построение графа связей............................ Заключение Литература Введение В начале XXI века исследователи в области обработки естественного языка заинтересовались возможностью использования открытой энциклопедии Википедия [20] применительно к задаче определения семантической близости.
Википедия содержит подробное описание различных понятий (более 3.9 млн. статей на данный момент), дополненное также большим количеством ссылочных связей.
Концепция в данной работе некоторое понятие, описываемое статьёй Википедии.
Термин в тексте может представлять различные концепции, равно как и различные термины могут указывать на одну и ту же концепцию.
Под семантической близостью понимают меру, позволяющую оценить, насколько выбранные концепции связаны по смыслу и/или контексту [18]. Обычно это число от до 1, достигающее 1 для пары совпадающих концепций и имеющее большее значение для связанных по смыслу концепций.
Задача нахождения семантической близости имеет приложения в областях классификации текстов [19], разрешения лексической многозначности [24, 25], аннотирования, решения задач дедупликации, а также в био- [21], геоинформатике и других областях.
В дипломной работе рассматривается семантическая близость концепций на основе связей в шаблонах Википедии. Шаблон это блок, включающийся в одну или более статей, содержащий, как правило, ссылки на связанные статьи. Наибольшее внимание уделено ссылочным связям в навигационных шаблонах блоках, располагающихся в нижней части страницы и содержащих ссылки на тематически связанные понятия.
Редакторы Википедии обращают на качество ссылок в шаблонах особое внимание. Таким образом, спользование этих ссылок для анализа текстов может давать более качественные результаты о близости понятий, чем использование всей ссылочной сети Википедии в целом [7].
Содержание Целью работы является исследование и разработка методов измерения семантической близости концепций на основе навигационных шаблонов Википедии. В качестве программного окружения для анализа используется Texterra система обработки текстов, использующая сеть документов Википедии, разработанная в ИСП РАН.
Работа состоит из введения, постановки задачи, исследования, описания практической части, заключения и списка литературы.
1 Постановка задачи Определение 1. Семантической близостью называется отображение f : X X R, ставящее в соответствие паре концепций действительное число, обладающее следующими свойствами:
В модели данных Texterra, считается, что каждая статья Википедии описывает некоторую концепцию. Шаблон блок, включающийся в каждую из тематически связанных статей, содержащий ссылки на другие связанные статьи.
Для реализации целей работы были поставлены следующие задачи:
1. Исследование существующих методов определения семантической близости концепций;
2. Разработка метода определения семантической близости концепций на основе связей в шаблонах Википедии;
3. Сравнение полученных результатов с другими методами.
2 Обзор существующих решений задачи Характеристиками метода определения семантической близости являются алгоритмическая сложность, требуемые для анализа данные (метаинформация), а также результаты при решении смежных задач (классификации, устранения многозначности, синонимии и др.) с применением данного метода определения семантической близости.
Задача определения значений многозначных терминов одна из открытых проблем в обработке текстов на естественном языке, определения смысла многозначного слова (термина) в предложении. Используя определение семантической близости, можно оценить близость между уже найденными терминами и тем, значение которого требуется определить.
Методы определения семантической близости бывают топологическими и статистическими. Топологические методы учитывают положение терминов в таксономическом графе и делятся, в свою очередь, на рёберные (edge-based) где данные находятся в ребрах графа связей и вершинные (node-based) где данные, соответственно, в вершинах [2]. Рёберные методы имеют приложения, в основном, в биоинформатике, где классифицируются и исследуются, прежде всего, отношения между сущностями (генами, белками и др.), а не сами сущности. Статистические методы применяются для сравнения текстов, в контексте данной работы их применение обосновано тем, что каждый термин (вершина в графе ссылочных связей Википедии) снабжен также текстом статьи-определения.
В литературе задача измерения семантической близости рассматривается с 1971 г., когда она применялась к информационному поиску и классификации текстов [19]. В работе [16] рассматриваются основные классы таких метрик (основанные на корпусе текГлава 2. Обзор существующих решений задачи стов и на знании). Источником данных в таких классах метрик являются, соответственно, большие корпуса текстов и семантические сети.
Различные методы позволяют достичь высокой точности определения близости для концепций заданной тематики (этому способствовали ранее построенные экспертами таксономии), для анализа более широкого диапазона концепций исследователи обратились к веб-графам, применительно к которым были разработаны алгоритмически эффективные метрики (соответствие экспертным до 75% [9]).
2.1 Статистические методы Статистические методы определения семантической близости основаны на анализе корпусов текстов и выделении информации о семантической близости исходя из близости слов в корпусе.
2.1.1 Латентно-семантический анализ Для неразмеченных корпусов, применяется метод латентного семантического анализа [10]. Латентно-семантический анализ (ЛСА) это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами, в них встречающимися, сопоставлящий некоторые факторы (тематики) всем документам и термам. Для анализа используются методы линейной алгебры, в частности, сингулярное разложение для нахождения низкоранговой аппроксимации к матрице терм-документ.
Вероятностный латентно-семантический анализ (pLSA) метод, использующий для анализа представление вероятности вхождения терм-документ в виде многомерного распределения. [6] В данном методе выделяются наборы совместно встречающихся терминов, объединённых общей тематикой. Показатель близости для текстов вычисляется следующим образом:
где maxSim(w, T ) максимальная из возможных близостей (в различных текстах) между термином из текста и заданным термином, idf(w) обратная частота встречаемости.
Данный метод предполагает многократную итерацию для получения матрицы термдокумент и редко применяется для больших коллекций.
2.1.2 Поточечная взаимная информация Другой метод, применимый к неразмеченным корпусам поточечная взаимная информация (PMI) [26]. В нём показатель близости терминов получается следующим образом:
встречаемости слов · и. На наборе тестов TOEFL на поиск синонимов (с применением определения семантической близости), данный алгоритм превзошёл [26] средний результат иностранца, успешно сдавшего данный экзамен (72.5% против 64.4%).
В силу того, что тексты в Википедии могут непропорционально различаться, в контексте задачи предпочтительно применение топологических методов.
2.1.3 Непосредственный семантический анализ Мера непосредственного семантического анализа применяется для определения семантической близости терминов или коротких текстов. Метод применяется как на вебграфе Википедии, так и на онтологии WordNet.
В данном методе термин представляется вектором значений, вычисляемых по схеме TF-IDF. Вес w термина t (атрибут документа d) вычисляется как где tf t,d частота встречаемости (term frequency) термина t в документе d (локальное свойство), log |{dD | td}| обратная частота встречаемости (inverse document frequency) документов, содержащих термин t.
Семантическая близость документов в векторной модели определяется, например как косинус угла между векторами атрибутов:
где A и B векторы атрибутов документа, атрибут документа показатель TF-IDF для заданного термина.
Точность определения на тесте WordSimilarity-353 (определение близости согласно экспертным оценкам) достигает 75% [9]).
2.2 Топологические методы Топологические методы основаны на анализе связей между концепциями в графе связей или онтологии (иерархической схеме представления знаний).
2.2.1 Методы Жаккарда, Дайса, Симпсона, Кульчинского Коэффициент Жаккарда (coecient de communaut) представляет собой результат деления мощности пересечения множеств A и B на мощность их объединения.
Расстояние Жаккарда метрика различия между множествами, дополняющая коэффициент Жаккарда, получается вычитанием коэффициента Жаккарда из 1:
Расстояние Жаккарда является метрикой, поскольку для него выполняется неравенство треугольника, и рассматривается в качестве меры семантической близости.
Данный метод показал F -меру 52% на задаче определения значений многозначных слов [4].
Мера Дайса мера близости, похожая на расстояние Жаккарда, используемая в информационном поиске. Пусть имеем два документа X и Y. Тогда Меру Дайса можно вычислить, используя расстояние Жаккарда следующим образом:
Также существуют топологические меры Симпсона:
Кульчинского:
где N1 = |X|, N2 = |Y |, C = |X Y |. Алгоритмическая сложность данных методов O(N1 + N2 ).
Метод Дайса уже используется в системе Texterra для определения семантической близости на графе ссылочных связей Википедии, F-мера на различных тестах достигает 86%.
2.2.2 Меры WordNet WordNet1) это семантическая сеть для английского языка, разработанная в Принстонском университете. До появления веб-графов данная сеть, наряду с таксономией ODP (Open Directory Project), часто использовалась для исследования семантической близости.
Словарь WordNet состоит из 4 сетей для основных знаменательных частей речи, и содержит, наряду с определениями терминов, различные семантические отношения между ними (гиперонимия, гипонимия, антонимия и др.) высокий результат корреляции с экспертным (0.79 при корреляции показаний экспертов 0.9).
Метрика Ву и Палмер [27] семантической близости терминов:
http://wordnet.princeton.edu/ учитывает глубину терминов в таксономии WordNet и глубину их наименьшего общего рода (least common subsumer).
В работе Резник [18] вводится следующая мера:
где IC(c) = logP (c), а P (c) вероятность встречи термина c в корпусе. Данная метрика была улучшена в работах [5, 12]. Точность достигала 79%.
В последнее время исследователи чаще используют меры на веб-графе, т.к. вебграфы представляют больший объем информации, чем таксономии, составленные экспертами, покрывая, таким образом, больший диапазон тем.
2.2.3 SimRank Мера близости SimRank разработана для веб-графов и учитывает структурный контекст документов и связи между ними. Рассмотрим граф документов, для вершины v обозначим через I(v) и O(v) наборы входящих ссылок и исходящих ссылок, соответственно. Отдельные ссылки обозначим через Ii (v), для 1 i |I(v)|, и Oi (v), для 1 i |O(v)|, соответственно.
Обозначим семантическую близость между a и b как s(a, b) [0, 1]. Запишем рекурсивное уравнение для s(a, b): Если a = b, то s(a, b) равно 1. Иначе, где C константа между 0 и 1. Бывают случаи, когда у a или b нет входящих ссылок.
Тогда определить семантическую близость a и b невозможно, и ещё считают равной 0, верхняя сумма равна 0 если I(a) = или I(b) =.
Метрика SimRank в чистом виде нечасто применяется для веб-графов в силу высокой алгоритмической сложности (O(n3 )).
2.2.4 Google Distance Google distance мера близости терминов, при измерении которой используется количество результатов в выборке поисковой системы Google для заданных наборов терминов.
Нормализованный показатель Google Distance (NGD) между терминами x и y определяется следующим образом:
где M число документов в базе Google, f (x) и f (y) количество хитов для x и y, соответственно; а f (x, y) число хитов для совместного вхождения x и y. Если термины x и y не встречаются вместе, но встречаются по отдельности, то N GD(x, y) =. Если они встречаются только вместе, то N GD(x, y) = 0.
Данный метод показал точность до 75% при решении задачи выделения тематики непредвиденных случаев в новостях. Трудность применения данного метода лежит в технологических ограничения поисковой системы Google.
Наиболее предпочтительными для решения поставленной задачи являются локальные топологические методы (Жаккарда, Симпсона, Кульчинского, Дайса), в силу невысокой алгоритмической сложности, что наиболее важно при работе с такими объёмными графами, как графы связей Википедии (более 3.9 млн. вершин), а также хороших показателей на смежных задачах.
Так как используемая система анализа текстов содержит лишь один из возможных локальных алгоритмов (Дайса), и не содержит инструментов для выделения ссылок из дампа Википедии, для выполнения исследования требуется их практическая реализация.
3 Исследование и построение решения задачи Как показал обзор, наибольший интерес представляют локальные топологические методы.
Определение 2. Шаблонной связью будем называть бинарное отношение между статьями, имеющими хотя бы один общий навигационный шаблон.
Для решения задачи необходимо построить граф шаблонных связей между статьями, и применить к нему эти методы.
Чтобы построить граф связей необходимо получить информацию о шаблонах в статьях Википедии. Данная задача решается парсером и описывается в секции 3.1. Далее необходимо выделить получить граф связей в формате, принимаемом сооветствующей подсистемой Texterra, это рассматривается в секции 3.2.
На следующем этапе необходимо разработать алгоритм определения семантической близости. Данный алгоритм получает из графа множество связанных по шаблону концепций, определяет количество общих концепций для пары и вычисляет семантическую близость, используя топологические методы, рассмотренные в обзоре.
Далее необходимо проанализировать качество, применив разработанный метод к решению одной из смежных задач. В рамках системы Texterra разработан тестовый набор терминов на музыкальную тематику применительно к задаче разрешения лексической многозначности (определения значений многозначных терминов). Данный набор тестов и исполузуется для оценки качества метода. Этот шаг подробно рассматривается в секции 3.4.
В работе рассматриваются меры Дайса:
Жаккарда:
Симпсона:
Кульчинского:
где C количество общих (шаблонных) ссылок у выбранной пары концепций, N количество (шаблонных ссылок) у первой концепции, N2 количество (шаблонных ссылок) у второй концепции.
Для исследования были выбраны именно контекстные меры, т.к. глубокой иерархией, при которой эффективны меры, аналогичные WordNet, шаблоны не обладают (наибольшая глубина не более 4).
Для применения топологических методов определения семантической близости необходимо построить граф связей, основанный на шаблонах. Для решения поставленной задачи необходимо извлечь информацию о шаблонных связях из дампа Википедии.
В данном графе вершины будут соответствовать концепциям в выбранной модели, а ребра связям по наличию хотя бы одного общего шаблона.
3.1 Построение парсера Особенностью дампа Википедии является его большой размер (33ГБ) и структура информации, которую необходимо извлечь (карта ссылочных связей).
Существующие парсеры Википедии (wikidump1), wikixmlj2) ) не выделяют отдельного типа шаблонных связей, и обладают низкой производительностью [13], поэтому доработка их нецелесообразна. Также, для ускорения доступа требуется хранить граф связей в основной памяти, что требует минимизации хранимых в памяти данных, поэтому целесообразна реализация собственного парсера. Для реализации в качестве инструмента выбран язык Python.
https://github.com/saffsd/wikidump http://code.google.com/p/wikixmlj/ В силу того, что необходимо выделять лишь включения шаблонов и ссылки в шаблонах (и те и другие элементы выделяются в тексте однозначно по соответствующим сигнатурам начала и конца), то для анализа достаточно построить автоматный парсер, например, используя регулярные выражения.
3.2 Генерация На этапе генерации необходимо получить из графа связей во внутреннем формате текстовые файлы специального вида, для дальнейшего использования системой Texterra.
Промежуточный формат необходим для обеспечения возможности повторного использования системы.
Текстовое представление графа для Texterra состоит из двух файлов:
1. id2title.txt файл, содержащий на каждой строке число (идентификатор концепции) и заголовок соответствующей статьи через пробел 2. sorted_links.txt содержит для каждого идентификатора список связанных с ним (через шаблон), отсортированный по идентификатору выбранной вершины по возрастанию.
3.3 Методика сравнения Сравнение производилось на тестовом наборе терминов о музыке Texterra, содержащем порядка 1500 наборов связанных терминов. В сравнении участвовали методы определения значений многозначных терминов, основанные на соответствующих методах определения семантической близости. В качестве критериев сравнения выбраны:
1. точность отношение верно определенных терминов к количеству терминов, значение которых определено;
2. полнота отношение верно определенных терминов к количеству всевозможных релевантных значений;
3. F-мера усредненная величина, Данные показатели традиционно используются для оценки эффективности методов в задачах информационого поиска.
3.4 Набор тестов Texterra Набор тестов Texterra представляет собой набор предложений, содержащих термины в контексте и связанных с ними концепций. В тесте определяется значение многозначного термина, при необходимости определяется семантическая близость между каждой из выбранных концепций и окружающими терминами.
Определение семантической близости по методу Дайса реализовано в Texterra, соответственно, достаточно подготовить для Texterra граф шаблонных связей вместо графа по всем возможным ссылочным связям, используемого по умолчанию.
В сравнительном анализе стоит рассмотреть выбранные алгоритмы применительно к графу связей по всем возможным типам ссылок и только по шаблонным.
3.4.1 Результаты сравнения В результате исследования было обнаружено, что использование графа шаблонных связей не дает значительного прироста в качестве (частота ошибок понизилась примерно на 6%), однако, повышает эффективность, сокращая объем используемой памяти за счет уменьшения размеров графа связей.
В сравнении были рассмотрены методы Дайса (MD ), Жаккарда (MJ ), Кульчинского (MK2 ), Симпсона (MS ). Для сравнения использовался тест на определение значений многозначных терминов с использованием определителя семантической близости по тематике музыки из набора тестов Texterra. Данный тест позволяет сравнить выбранные методы по точности, полноте и F-мере.
Наилучшим образом показал себя метод Дайса, F-мера которого на тесте Texterra для шаблонного графа составила почти 87%. Полные результаты сравнения на тестах Texterra приведены в таблице 3.1.
4 Описание практической части Для решения поставленной задачи необходимо разработать программное средство для анализа дампа Википедии, решающее 3 подзадачи:
1. парсинг (извлечение из дампа шаблонных ссылок);
2. генерация (построение графа связей для программной системы Texterra и дальнейшего анализа);
3. анализ (определение семантической близости по полученному графу связей на наборе тестов).
4.1 Инструменты Исследователи в области компьютерной лингвистики и автоматической обработки текстов разработали большое количество инструментов, автоматизирующих труд исследователя. В основном данные инструменты являются моноцелевыми, направленными на решение выбранным методом одной из подзадач. В качестве базы системы для выполнения исследования используется система анализа текстов Texterra.
4.1.1 Texterra Система анализа текстов Texterra1) была разработана в ИСП РАН, с целью реализации методов анализа текстов на веб-графах. Основой системы является онтология Википедии, применения включают в себя:
• эффективную классификацию документов;
http://modis.ispras.ru/texterra/ • извлечение фактов;
• извлечение именованных сущностей.
Система организует работу с коллекциями документов, а также содержит модули:
• управление онтологиями;
• категоризации текстов;
• извлечения смысла;
• поиска и навигации.
Модель данных Texterra состоит из двух уровней: концепций и текстовых представлений. На уровне концепций рассматриваются сущности и понятия в выбранном языке. Концепции имеют различные атрибуты (имя, синонимы, переводы, семантические связи). На уровне текстовых представлений рассматриваются термины и сущности в тексте. Термин может иметь несколько значений (связанных концепций), в разных контекстах концепция может обозначаться разными словами (синонимами).
Система Texterra содержит набор тестов, использующих для определения значений терминов алгоритм определения семантической близости концепций, а также интерфейс для замещения данного алгоритма и дальнейшего сравнительного анализа.
4.2 Структура Википедии Навигационный шаблон Википедии блок в тексте статьи, либо в отдельной статье со специальным заголовком Шаблон:Имя {{Навигационная таблица, {{Навигационная полоса (в случае англоязычной Википедии {{Navbox). Данный блок содержит ссылки на связанные по смыслу статьи. Таким образом, извлекая ссылки из навигационных шаблонов, можно построить граф шаблонных связей, который необходим для вычисления топологических мер близости.
Структура Википедии (расположение шаблонных связей в отдельных блоках) позволяет выделить группы связей, относящиеся к каждому конкретному шаблону за один проход, построив далее для каждой статьи объединение множеств связей по каждому включенному шаблону.
4.3 Построение графа связей Граф связей строится в два этапа: сперва выделяются именованные шаблоны и ссылки в них (в том случае, если шаблон является навигационным), на следующем этапе для каждой статьи получается множество статей, связанных с ней через один из шаблонов (см. рис. 4.3). Полученная карта сохраняется в промежуточном представлении в формате Pickle (двоичный формат данных Python), для дальнейшего представления в нужном формате (текстовое представление графа Texterra).
Для программной системы Texterra, реализованы алгоритмы определения семантической близости, учитывающие взаимное положение в иерархии шаблонов (контекстная близость) и информацию из внешних источников, см. рис. 4.1. Данная диаграмма показывает, что класс DiceSimilarityComputer реализует интерфейс ISimilarityComputer, что позволяет встраивать его в конвейер обработки данных Texterra. Аналогичным образом данный интерфейс реализуют и другие классы. Непосредственно алгоритм определения семантической близости реализуется в методе computeSimilarity.
Рис. 4.1: Диаграмма классов, дополняющих Texterra Далее с использованием полученного графа могут быть выполнены тесты на определение значений многозначных терминов.
Инструмент также сохраняет промежуточное состояние при прерывании (т.к. обработка дампа может занять более часа), либо через определенные промежутки времени, позволяя вернуться к сохраненному состоянию в дальнейшем.
Общая архитектура системы (рис. 4.2) диктуется схемой обработки входных данных.
Полученные показатели производительности указаны в таблице 4.1.
Парсер, основанный на регулярных выражениях, был разработан на ЯП Python.
Данный язык активно используется для решения задач, связанных с анализом текстов, разработаны обширные прикладные библиотеки (в частности, NLTK). Для сохранения состояния, в процессе обработки граф связей сохраняется на диск в формате Pickle2).
Для анализа свойств графа и генерации данных в формате Texterra было разработано несколько сценариев на языках PHP и Go (данные инструменты были выбраны в силу простоты), а также реализованы необходимые алгоритмы определения семантической близости.
При анализе дампов были получены характеристики графа связей, приведеннные в таблице 4.2. Характеристики тестового стенда приведены в таблице 4.3.
Полученные результаты показывают, что граф, доступный для анализа, хотя и имеет меньший размер, чем общий граф Википедии, обладает более высокой связностью.
http://docs.python.org/library/pickle.html Таблица 4.3: Характеристики тестового стенда Заключение В результате работы были проанализированы различные методы определения семантической близости концепций.
Был разработан метод определения семантической близости концепций на основе шаблонов.
В ходе работы были реализованы инструменты для извлечения шаблонных ссылок из дампа Википедии и построения графа шаблонных связей, а также анализа распределения степеней его вершин.
В сравнительном анализе рассмотрены методы Дайса, Жаккарда, Кульчинского, Симпсона применительно к графу шаблонных связей и графу всех возможных связей Википедии. Наибольшую эффективность показал метод Дайса. Частота ошибок на тесте по определению значений многозначных терминов снизилась на 6%.
Разработанный метод оценки семантической близости с использованием шаблонов позволяет сократить использование памяти системой, упростив работу исследователей.
Литература [1] Albert, R. Statistical mechanics of complex networks / R. Albert, B. A.-L. // Rev. Mod.
[2] Algorithmic detection of semantic similarity / A. G. Maguitman, F. Menczer, H. Roinestad, A. Vespignani // In Proceedings of the 14th Annual WWW Conference.
2005.
[3] Boldi, P. The webgraph framework i: Compression techniques. / P. Boldi, S. Vigna // In Proc. of the Thirteenth International World Wide Web Conference (WWW 2004).
Manhattan, USA: ACM Press, 2004. Pp. 595–601. http://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.2.993&rep=rep1&type=pdf.
[4] Bollegala, D. Measuring semantic similarity between words using web search engines / D. Bollegala, Y. Matsuo, M. Ishizuka // In Proceedings of the 16th Annual WWW [5] Chin-Yew, L. Automatic evaluation of summaries using n-gram co-occurrence statistics / L. Chin-Yew, E. Hovy // In Proceedings of Human Language Technology [6] David M. Bley Andrew Y. Ng, M. I. J. Latent dirichlet allocation / M. I. J. David M. Bley, Andrew Y. Ng // Journal of Machine Learning Research. 2003. Vol. 3.
Pp. 993–1022.
[7] Dennis M. Wilkinson, B. A. H. Cooperation and quality in wikipedia / B. A. H. Dennis M. Wilkinson // WikiSim 07: Proceedings of the 2007 international symposium on [8] Dice, L. R. Measures of the amount of ecologic association between species / L. R. Dice // Ecology. 1945. Vol. 26. Pp. 297–302.
[9] Gabrilovich, E. Computing semantic relatedness using wikipedia-based explicit semantic analysis / E. Gabrilovich, S. Markovitch // Proceedings of the 20th International Joint Conference on Articial Intelligence. 2007. January. Pp. 1606–1611.
[10] Indexing by latent semantic analysis / S. Deerwester, T. D. Susan, G. W. Furnas et al. // Journal of the American Society for Information Science. 1990. Vol. 41.
[11] Jeh, G. Simrank: a measure of structural-context similarity / G. Jeh, J. Widom // Proceedings of the eighth ACM SIGKDD international conference on Knowledge 543. http://doi.acm.org/10.1145/775047.775126.
[12] Jiang, J. Semantic similarity based on corpus statistics and lexical taxonomy / J. Jiang, D. Conrath // In Proceedings of the International Conference on Research in Computational Linguistics. 1997.
[13] Kurmas, Z. Zawilinski: a library for studying grammar in wiktionary / Z. Kurmas // Proceedings of the 6th International Symposium on Wikis and Open Collaboration.
[14] Leacock, C. Combining local context and wordnet sense similarity for word sense identication / C. Leacock, M. Chodorow // WordNet, An Electronic Lexical Database. 1998.
[15] Liu, B. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (DataCentric Systems and Applications) / B. Liu. Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006.
[16] Mihalcea, R. Corpus-based and knowledge-based measures of text semantic similarity / R. Mihalcea, C. Corley, C. Strapparava // AAAI. 2006. Vol. 23.
[17] Milne, D. Computing semantic relatedness using wikipedia link structure / D. Milne // Proceedings of New Zealand Computer Science Research Student Conference [18] Resnik, P. Semantic similarity in a taxonomy: An information-based measure and its application to problems of ambiguity in natural language / P. Resnik // Journal of Articial Intelligence Research - JAIR. 1999. Vol. 11. Pp. 95–130. http://www.
jair.org/media/514/live-514-1722-jair.pdf.
[19] Rocchio, J. Relevance feedback in information retrieval / J. Rocchio. Prentice Hall, Ing. Englewood Clis, New Jersey., 1971.
[20] Sanger, L. Open Sources. The early history of Nupedia and Wikipedia: a memoir / [21] Semantic similarity in biomedical ontologies / C. Pesquita, D. Faria, A. O. Falco et al. // PLoS Computational Biology. 2009. Vol. 5.
[22] Sprck Jones, K. A statistical interpretation of term specicity and its application in retrieval / K. Sprck Jones // Journal of Documentation 28.
P. 11–21.
[23] Strube, M. Wikirelate! computing semantic relatedness using wikipedia / M. Strube, S. P. Ponzetto // AAAI’06 proceedings of the 21st national conference on Articial intelligence. 2006.
[24] Turdakov, D. Recommender system based on user-generated content / D. Turdakov // Proceedings of the SYRCODIS 2007 Colloquium. 2007.
[25] Turdakov, D. Semantic relatedness metric for wikipedia concepts based on link analysis and its application to word sense disambiguation / D. Turdakov, P. Velikhov // Proceedings of the SYRCODIS 2008 Colloquium on Databases and Information [26] Turney, P. Mining the web for synonyms: Pmi-ir versus lsa on toe / P. Turney // In Proceedings of the Twelfth European Conference on Machine Learning (ECML-2001).
[27] Wu, Z. Verb semantics and lexical selection / Z. Wu, M. Palmer // Proceedings of the Annual Meeting of the Association for Computational Linguistics. 1994.