WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Московский Государственный Университет имени М.В.Ломоносова

Факультет Вычислительной Математики и Кибернетики

Кафедра системного программирования

Дипломная работа

Исследование и разработка методов измерения

семантической близости концепций

на основе шаблонов Википедии

Станислав Воробьев, гр.527

Научные руководители: ак. РАН Иванников Виктор Петрович,

н.с. Недумов Ярослав Ростиславович Москва, 2012 Аннотация Исследование и разработка методов измерения семантической близости концепций Станислав Воробьев Определение семантической близости важная задача, имеющая применения в анализе текстов: их классификации, аннотировании, разрешении лексической многозначности, а также биоинформатике. Данная работа посвящена исследованию семантической близости концепций на основе шаблонов Википедии.

Шаблон Википедии блок в тексте статьи, содержащий ссылки на тематически связанные статьи.

В сравнении рассматриваются методы Дайса, Жаккарда, Симпсона, Кульчинского.

В работе показано, что топологические методы измерения семантической близости на основе шаблонных связей могут эффективно применяться при решении задачи разрешения лексической многозначности (определении значений многозначных слов).

Содержание Введение 1 Постановка задачи 2 Обзор существующих решений задачи 2.1 Статистические методы............................. 2.1.1 Латентно-семантический анализ.................... 2.1.2 Поточечная взаимная информация.................. 2.1.3 Непосредственный семантический анализ.............. 2.2 Топологические методы............................. 2.2.1 Методы Жаккарда, Дайса, Симпсона, Кульчинского........ 2.2.2 Меры WordNet.............................. 2.2.3 SimRank.................................. 2.2.4 Google Distance.............................. 2.3 Выводы...................................... 3 Исследование и построение решения задачи 3.1 Построение парсера............................... 3.2 Генерация..................................... 3.3 Методика сравнения............................... 3.4 Набор тестов Texterra.............................. 3.4.1 Результаты сравнения.......................... 4 Описание практической части 4.1 Инструменты................................... Содержание 4.1.1 Texterra.................................. 4.2 Структура Википедии.............................. 4.3 Построение графа связей............................ Заключение Литература Введение В начале XXI века исследователи в области обработки естественного языка заинтересовались возможностью использования открытой энциклопедии Википедия [20] применительно к задаче определения семантической близости.

Википедия содержит подробное описание различных понятий (более 3.9 млн. статей на данный момент), дополненное также большим количеством ссылочных связей.

Концепция в данной работе некоторое понятие, описываемое статьёй Википедии.

Термин в тексте может представлять различные концепции, равно как и различные термины могут указывать на одну и ту же концепцию.

Под семантической близостью понимают меру, позволяющую оценить, насколько выбранные концепции связаны по смыслу и/или контексту [18]. Обычно это число от до 1, достигающее 1 для пары совпадающих концепций и имеющее большее значение для связанных по смыслу концепций.

Задача нахождения семантической близости имеет приложения в областях классификации текстов [19], разрешения лексической многозначности [24, 25], аннотирования, решения задач дедупликации, а также в био- [21], геоинформатике и других областях.

В дипломной работе рассматривается семантическая близость концепций на основе связей в шаблонах Википедии. Шаблон это блок, включающийся в одну или более статей, содержащий, как правило, ссылки на связанные статьи. Наибольшее внимание уделено ссылочным связям в навигационных шаблонах блоках, располагающихся в нижней части страницы и содержащих ссылки на тематически связанные понятия.

Редакторы Википедии обращают на качество ссылок в шаблонах особое внимание. Таким образом, спользование этих ссылок для анализа текстов может давать более качественные результаты о близости понятий, чем использование всей ссылочной сети Википедии в целом [7].

Содержание Целью работы является исследование и разработка методов измерения семантической близости концепций на основе навигационных шаблонов Википедии. В качестве программного окружения для анализа используется Texterra система обработки текстов, использующая сеть документов Википедии, разработанная в ИСП РАН.

Работа состоит из введения, постановки задачи, исследования, описания практической части, заключения и списка литературы.

1 Постановка задачи Определение 1. Семантической близостью называется отображение f : X X R, ставящее в соответствие паре концепций действительное число, обладающее следующими свойствами:



В модели данных Texterra, считается, что каждая статья Википедии описывает некоторую концепцию. Шаблон блок, включающийся в каждую из тематически связанных статей, содержащий ссылки на другие связанные статьи.

Для реализации целей работы были поставлены следующие задачи:

1. Исследование существующих методов определения семантической близости концепций;

2. Разработка метода определения семантической близости концепций на основе связей в шаблонах Википедии;

3. Сравнение полученных результатов с другими методами.

2 Обзор существующих решений задачи Характеристиками метода определения семантической близости являются алгоритмическая сложность, требуемые для анализа данные (метаинформация), а также результаты при решении смежных задач (классификации, устранения многозначности, синонимии и др.) с применением данного метода определения семантической близости.

Задача определения значений многозначных терминов одна из открытых проблем в обработке текстов на естественном языке, определения смысла многозначного слова (термина) в предложении. Используя определение семантической близости, можно оценить близость между уже найденными терминами и тем, значение которого требуется определить.

Методы определения семантической близости бывают топологическими и статистическими. Топологические методы учитывают положение терминов в таксономическом графе и делятся, в свою очередь, на рёберные (edge-based) где данные находятся в ребрах графа связей и вершинные (node-based) где данные, соответственно, в вершинах [2]. Рёберные методы имеют приложения, в основном, в биоинформатике, где классифицируются и исследуются, прежде всего, отношения между сущностями (генами, белками и др.), а не сами сущности. Статистические методы применяются для сравнения текстов, в контексте данной работы их применение обосновано тем, что каждый термин (вершина в графе ссылочных связей Википедии) снабжен также текстом статьи-определения.

В литературе задача измерения семантической близости рассматривается с 1971 г., когда она применялась к информационному поиску и классификации текстов [19]. В работе [16] рассматриваются основные классы таких метрик (основанные на корпусе текГлава 2. Обзор существующих решений задачи стов и на знании). Источником данных в таких классах метрик являются, соответственно, большие корпуса текстов и семантические сети.

Различные методы позволяют достичь высокой точности определения близости для концепций заданной тематики (этому способствовали ранее построенные экспертами таксономии), для анализа более широкого диапазона концепций исследователи обратились к веб-графам, применительно к которым были разработаны алгоритмически эффективные метрики (соответствие экспертным до 75% [9]).

2.1 Статистические методы Статистические методы определения семантической близости основаны на анализе корпусов текстов и выделении информации о семантической близости исходя из близости слов в корпусе.

2.1.1 Латентно-семантический анализ Для неразмеченных корпусов, применяется метод латентного семантического анализа [10]. Латентно-семантический анализ (ЛСА) это метод обработки информации на естественном языке, анализирующий взаимосвязь между коллекцией документов и терминами, в них встречающимися, сопоставлящий некоторые факторы (тематики) всем документам и термам. Для анализа используются методы линейной алгебры, в частности, сингулярное разложение для нахождения низкоранговой аппроксимации к матрице терм-документ.

Вероятностный латентно-семантический анализ (pLSA) метод, использующий для анализа представление вероятности вхождения терм-документ в виде многомерного распределения. [6] В данном методе выделяются наборы совместно встречающихся терминов, объединённых общей тематикой. Показатель близости для текстов вычисляется следующим образом:

где maxSim(w, T ) максимальная из возможных близостей (в различных текстах) между термином из текста и заданным термином, idf(w) обратная частота встречаемости.

Данный метод предполагает многократную итерацию для получения матрицы термдокумент и редко применяется для больших коллекций.

2.1.2 Поточечная взаимная информация Другой метод, применимый к неразмеченным корпусам поточечная взаимная информация (PMI) [26]. В нём показатель близости терминов получается следующим образом:

встречаемости слов · и. На наборе тестов TOEFL на поиск синонимов (с применением определения семантической близости), данный алгоритм превзошёл [26] средний результат иностранца, успешно сдавшего данный экзамен (72.5% против 64.4%).

В силу того, что тексты в Википедии могут непропорционально различаться, в контексте задачи предпочтительно применение топологических методов.

2.1.3 Непосредственный семантический анализ Мера непосредственного семантического анализа применяется для определения семантической близости терминов или коротких текстов. Метод применяется как на вебграфе Википедии, так и на онтологии WordNet.

В данном методе термин представляется вектором значений, вычисляемых по схеме TF-IDF. Вес w термина t (атрибут документа d) вычисляется как где tf t,d частота встречаемости (term frequency) термина t в документе d (локальное свойство), log |{dD | td}| обратная частота встречаемости (inverse document frequency) документов, содержащих термин t.

Семантическая близость документов в векторной модели определяется, например как косинус угла между векторами атрибутов:

где A и B векторы атрибутов документа, атрибут документа показатель TF-IDF для заданного термина.

Точность определения на тесте WordSimilarity-353 (определение близости согласно экспертным оценкам) достигает 75% [9]).

2.2 Топологические методы Топологические методы основаны на анализе связей между концепциями в графе связей или онтологии (иерархической схеме представления знаний).

2.2.1 Методы Жаккарда, Дайса, Симпсона, Кульчинского Коэффициент Жаккарда (coecient de communaut) представляет собой результат деления мощности пересечения множеств A и B на мощность их объединения.

Расстояние Жаккарда метрика различия между множествами, дополняющая коэффициент Жаккарда, получается вычитанием коэффициента Жаккарда из 1:

Расстояние Жаккарда является метрикой, поскольку для него выполняется неравенство треугольника, и рассматривается в качестве меры семантической близости.

Данный метод показал F -меру 52% на задаче определения значений многозначных слов [4].

Мера Дайса мера близости, похожая на расстояние Жаккарда, используемая в информационном поиске. Пусть имеем два документа X и Y. Тогда Меру Дайса можно вычислить, используя расстояние Жаккарда следующим образом:

Также существуют топологические меры Симпсона:

Кульчинского:

где N1 = |X|, N2 = |Y |, C = |X Y |. Алгоритмическая сложность данных методов O(N1 + N2 ).

Метод Дайса уже используется в системе Texterra для определения семантической близости на графе ссылочных связей Википедии, F-мера на различных тестах достигает 86%.

2.2.2 Меры WordNet WordNet1) это семантическая сеть для английского языка, разработанная в Принстонском университете. До появления веб-графов данная сеть, наряду с таксономией ODP (Open Directory Project), часто использовалась для исследования семантической близости.

Словарь WordNet состоит из 4 сетей для основных знаменательных частей речи, и содержит, наряду с определениями терминов, различные семантические отношения между ними (гиперонимия, гипонимия, антонимия и др.) высокий результат корреляции с экспертным (0.79 при корреляции показаний экспертов 0.9).

Метрика Ву и Палмер [27] семантической близости терминов:

http://wordnet.princeton.edu/ учитывает глубину терминов в таксономии WordNet и глубину их наименьшего общего рода (least common subsumer).

В работе Резник [18] вводится следующая мера:

где IC(c) = logP (c), а P (c) вероятность встречи термина c в корпусе. Данная метрика была улучшена в работах [5, 12]. Точность достигала 79%.

В последнее время исследователи чаще используют меры на веб-графе, т.к. вебграфы представляют больший объем информации, чем таксономии, составленные экспертами, покрывая, таким образом, больший диапазон тем.

2.2.3 SimRank Мера близости SimRank разработана для веб-графов и учитывает структурный контекст документов и связи между ними. Рассмотрим граф документов, для вершины v обозначим через I(v) и O(v) наборы входящих ссылок и исходящих ссылок, соответственно. Отдельные ссылки обозначим через Ii (v), для 1 i |I(v)|, и Oi (v), для 1 i |O(v)|, соответственно.

Обозначим семантическую близость между a и b как s(a, b) [0, 1]. Запишем рекурсивное уравнение для s(a, b): Если a = b, то s(a, b) равно 1. Иначе, где C константа между 0 и 1. Бывают случаи, когда у a или b нет входящих ссылок.

Тогда определить семантическую близость a и b невозможно, и ещё считают равной 0, верхняя сумма равна 0 если I(a) = или I(b) =.

Метрика SimRank в чистом виде нечасто применяется для веб-графов в силу высокой алгоритмической сложности (O(n3 )).

2.2.4 Google Distance Google distance мера близости терминов, при измерении которой используется количество результатов в выборке поисковой системы Google для заданных наборов терминов.

Нормализованный показатель Google Distance (NGD) между терминами x и y определяется следующим образом:

где M число документов в базе Google, f (x) и f (y) количество хитов для x и y, соответственно; а f (x, y) число хитов для совместного вхождения x и y. Если термины x и y не встречаются вместе, но встречаются по отдельности, то N GD(x, y) =. Если они встречаются только вместе, то N GD(x, y) = 0.

Данный метод показал точность до 75% при решении задачи выделения тематики непредвиденных случаев в новостях. Трудность применения данного метода лежит в технологических ограничения поисковой системы Google.

Наиболее предпочтительными для решения поставленной задачи являются локальные топологические методы (Жаккарда, Симпсона, Кульчинского, Дайса), в силу невысокой алгоритмической сложности, что наиболее важно при работе с такими объёмными графами, как графы связей Википедии (более 3.9 млн. вершин), а также хороших показателей на смежных задачах.

Так как используемая система анализа текстов содержит лишь один из возможных локальных алгоритмов (Дайса), и не содержит инструментов для выделения ссылок из дампа Википедии, для выполнения исследования требуется их практическая реализация.

3 Исследование и построение решения задачи Как показал обзор, наибольший интерес представляют локальные топологические методы.

Определение 2. Шаблонной связью будем называть бинарное отношение между статьями, имеющими хотя бы один общий навигационный шаблон.

Для решения задачи необходимо построить граф шаблонных связей между статьями, и применить к нему эти методы.

Чтобы построить граф связей необходимо получить информацию о шаблонах в статьях Википедии. Данная задача решается парсером и описывается в секции 3.1. Далее необходимо выделить получить граф связей в формате, принимаемом сооветствующей подсистемой Texterra, это рассматривается в секции 3.2.

На следующем этапе необходимо разработать алгоритм определения семантической близости. Данный алгоритм получает из графа множество связанных по шаблону концепций, определяет количество общих концепций для пары и вычисляет семантическую близость, используя топологические методы, рассмотренные в обзоре.

Далее необходимо проанализировать качество, применив разработанный метод к решению одной из смежных задач. В рамках системы Texterra разработан тестовый набор терминов на музыкальную тематику применительно к задаче разрешения лексической многозначности (определения значений многозначных терминов). Данный набор тестов и исполузуется для оценки качества метода. Этот шаг подробно рассматривается в секции 3.4.

В работе рассматриваются меры Дайса:

Жаккарда:

Симпсона:

Кульчинского:

где C количество общих (шаблонных) ссылок у выбранной пары концепций, N количество (шаблонных ссылок) у первой концепции, N2 количество (шаблонных ссылок) у второй концепции.

Для исследования были выбраны именно контекстные меры, т.к. глубокой иерархией, при которой эффективны меры, аналогичные WordNet, шаблоны не обладают (наибольшая глубина не более 4).

Для применения топологических методов определения семантической близости необходимо построить граф связей, основанный на шаблонах. Для решения поставленной задачи необходимо извлечь информацию о шаблонных связях из дампа Википедии.

В данном графе вершины будут соответствовать концепциям в выбранной модели, а ребра связям по наличию хотя бы одного общего шаблона.

3.1 Построение парсера Особенностью дампа Википедии является его большой размер (33ГБ) и структура информации, которую необходимо извлечь (карта ссылочных связей).

Существующие парсеры Википедии (wikidump1), wikixmlj2) ) не выделяют отдельного типа шаблонных связей, и обладают низкой производительностью [13], поэтому доработка их нецелесообразна. Также, для ускорения доступа требуется хранить граф связей в основной памяти, что требует минимизации хранимых в памяти данных, поэтому целесообразна реализация собственного парсера. Для реализации в качестве инструмента выбран язык Python.

https://github.com/saffsd/wikidump http://code.google.com/p/wikixmlj/ В силу того, что необходимо выделять лишь включения шаблонов и ссылки в шаблонах (и те и другие элементы выделяются в тексте однозначно по соответствующим сигнатурам начала и конца), то для анализа достаточно построить автоматный парсер, например, используя регулярные выражения.

3.2 Генерация На этапе генерации необходимо получить из графа связей во внутреннем формате текстовые файлы специального вида, для дальнейшего использования системой Texterra.

Промежуточный формат необходим для обеспечения возможности повторного использования системы.

Текстовое представление графа для Texterra состоит из двух файлов:

1. id2title.txt файл, содержащий на каждой строке число (идентификатор концепции) и заголовок соответствующей статьи через пробел 2. sorted_links.txt содержит для каждого идентификатора список связанных с ним (через шаблон), отсортированный по идентификатору выбранной вершины по возрастанию.

3.3 Методика сравнения Сравнение производилось на тестовом наборе терминов о музыке Texterra, содержащем порядка 1500 наборов связанных терминов. В сравнении участвовали методы определения значений многозначных терминов, основанные на соответствующих методах определения семантической близости. В качестве критериев сравнения выбраны:

1. точность отношение верно определенных терминов к количеству терминов, значение которых определено;

2. полнота отношение верно определенных терминов к количеству всевозможных релевантных значений;

3. F-мера усредненная величина, Данные показатели традиционно используются для оценки эффективности методов в задачах информационого поиска.

3.4 Набор тестов Texterra Набор тестов Texterra представляет собой набор предложений, содержащих термины в контексте и связанных с ними концепций. В тесте определяется значение многозначного термина, при необходимости определяется семантическая близость между каждой из выбранных концепций и окружающими терминами.

Определение семантической близости по методу Дайса реализовано в Texterra, соответственно, достаточно подготовить для Texterra граф шаблонных связей вместо графа по всем возможным ссылочным связям, используемого по умолчанию.

В сравнительном анализе стоит рассмотреть выбранные алгоритмы применительно к графу связей по всем возможным типам ссылок и только по шаблонным.

3.4.1 Результаты сравнения В результате исследования было обнаружено, что использование графа шаблонных связей не дает значительного прироста в качестве (частота ошибок понизилась примерно на 6%), однако, повышает эффективность, сокращая объем используемой памяти за счет уменьшения размеров графа связей.

В сравнении были рассмотрены методы Дайса (MD ), Жаккарда (MJ ), Кульчинского (MK2 ), Симпсона (MS ). Для сравнения использовался тест на определение значений многозначных терминов с использованием определителя семантической близости по тематике музыки из набора тестов Texterra. Данный тест позволяет сравнить выбранные методы по точности, полноте и F-мере.

Наилучшим образом показал себя метод Дайса, F-мера которого на тесте Texterra для шаблонного графа составила почти 87%. Полные результаты сравнения на тестах Texterra приведены в таблице 3.1.

4 Описание практической части Для решения поставленной задачи необходимо разработать программное средство для анализа дампа Википедии, решающее 3 подзадачи:

1. парсинг (извлечение из дампа шаблонных ссылок);

2. генерация (построение графа связей для программной системы Texterra и дальнейшего анализа);

3. анализ (определение семантической близости по полученному графу связей на наборе тестов).

4.1 Инструменты Исследователи в области компьютерной лингвистики и автоматической обработки текстов разработали большое количество инструментов, автоматизирующих труд исследователя. В основном данные инструменты являются моноцелевыми, направленными на решение выбранным методом одной из подзадач. В качестве базы системы для выполнения исследования используется система анализа текстов Texterra.

4.1.1 Texterra Система анализа текстов Texterra1) была разработана в ИСП РАН, с целью реализации методов анализа текстов на веб-графах. Основой системы является онтология Википедии, применения включают в себя:

• эффективную классификацию документов;

http://modis.ispras.ru/texterra/ • извлечение фактов;

• извлечение именованных сущностей.

Система организует работу с коллекциями документов, а также содержит модули:

• управление онтологиями;

• категоризации текстов;

• извлечения смысла;

• поиска и навигации.

Модель данных Texterra состоит из двух уровней: концепций и текстовых представлений. На уровне концепций рассматриваются сущности и понятия в выбранном языке. Концепции имеют различные атрибуты (имя, синонимы, переводы, семантические связи). На уровне текстовых представлений рассматриваются термины и сущности в тексте. Термин может иметь несколько значений (связанных концепций), в разных контекстах концепция может обозначаться разными словами (синонимами).

Система Texterra содержит набор тестов, использующих для определения значений терминов алгоритм определения семантической близости концепций, а также интерфейс для замещения данного алгоритма и дальнейшего сравнительного анализа.

4.2 Структура Википедии Навигационный шаблон Википедии блок в тексте статьи, либо в отдельной статье со специальным заголовком Шаблон:Имя {{Навигационная таблица, {{Навигационная полоса (в случае англоязычной Википедии {{Navbox). Данный блок содержит ссылки на связанные по смыслу статьи. Таким образом, извлекая ссылки из навигационных шаблонов, можно построить граф шаблонных связей, который необходим для вычисления топологических мер близости.

Структура Википедии (расположение шаблонных связей в отдельных блоках) позволяет выделить группы связей, относящиеся к каждому конкретному шаблону за один проход, построив далее для каждой статьи объединение множеств связей по каждому включенному шаблону.

4.3 Построение графа связей Граф связей строится в два этапа: сперва выделяются именованные шаблоны и ссылки в них (в том случае, если шаблон является навигационным), на следующем этапе для каждой статьи получается множество статей, связанных с ней через один из шаблонов (см. рис. 4.3). Полученная карта сохраняется в промежуточном представлении в формате Pickle (двоичный формат данных Python), для дальнейшего представления в нужном формате (текстовое представление графа Texterra).

Для программной системы Texterra, реализованы алгоритмы определения семантической близости, учитывающие взаимное положение в иерархии шаблонов (контекстная близость) и информацию из внешних источников, см. рис. 4.1. Данная диаграмма показывает, что класс DiceSimilarityComputer реализует интерфейс ISimilarityComputer, что позволяет встраивать его в конвейер обработки данных Texterra. Аналогичным образом данный интерфейс реализуют и другие классы. Непосредственно алгоритм определения семантической близости реализуется в методе computeSimilarity.

Рис. 4.1: Диаграмма классов, дополняющих Texterra Далее с использованием полученного графа могут быть выполнены тесты на определение значений многозначных терминов.

Инструмент также сохраняет промежуточное состояние при прерывании (т.к. обработка дампа может занять более часа), либо через определенные промежутки времени, позволяя вернуться к сохраненному состоянию в дальнейшем.

Общая архитектура системы (рис. 4.2) диктуется схемой обработки входных данных.

Полученные показатели производительности указаны в таблице 4.1.

Парсер, основанный на регулярных выражениях, был разработан на ЯП Python.

Данный язык активно используется для решения задач, связанных с анализом текстов, разработаны обширные прикладные библиотеки (в частности, NLTK). Для сохранения состояния, в процессе обработки граф связей сохраняется на диск в формате Pickle2).

Для анализа свойств графа и генерации данных в формате Texterra было разработано несколько сценариев на языках PHP и Go (данные инструменты были выбраны в силу простоты), а также реализованы необходимые алгоритмы определения семантической близости.

При анализе дампов были получены характеристики графа связей, приведеннные в таблице 4.2. Характеристики тестового стенда приведены в таблице 4.3.

Полученные результаты показывают, что граф, доступный для анализа, хотя и имеет меньший размер, чем общий граф Википедии, обладает более высокой связностью.

http://docs.python.org/library/pickle.html Таблица 4.3: Характеристики тестового стенда Заключение В результате работы были проанализированы различные методы определения семантической близости концепций.

Был разработан метод определения семантической близости концепций на основе шаблонов.

В ходе работы были реализованы инструменты для извлечения шаблонных ссылок из дампа Википедии и построения графа шаблонных связей, а также анализа распределения степеней его вершин.

В сравнительном анализе рассмотрены методы Дайса, Жаккарда, Кульчинского, Симпсона применительно к графу шаблонных связей и графу всех возможных связей Википедии. Наибольшую эффективность показал метод Дайса. Частота ошибок на тесте по определению значений многозначных терминов снизилась на 6%.

Разработанный метод оценки семантической близости с использованием шаблонов позволяет сократить использование памяти системой, упростив работу исследователей.

Литература [1] Albert, R. Statistical mechanics of complex networks / R. Albert, B. A.-L. // Rev. Mod.

[2] Algorithmic detection of semantic similarity / A. G. Maguitman, F. Menczer, H. Roinestad, A. Vespignani // In Proceedings of the 14th Annual WWW Conference.

2005.

[3] Boldi, P. The webgraph framework i: Compression techniques. / P. Boldi, S. Vigna // In Proc. of the Thirteenth International World Wide Web Conference (WWW 2004).

Manhattan, USA: ACM Press, 2004. Pp. 595–601. http://citeseerx.ist.psu.edu/ viewdoc/download?doi=10.1.1.2.993&rep=rep1&type=pdf.

[4] Bollegala, D. Measuring semantic similarity between words using web search engines / D. Bollegala, Y. Matsuo, M. Ishizuka // In Proceedings of the 16th Annual WWW [5] Chin-Yew, L. Automatic evaluation of summaries using n-gram co-occurrence statistics / L. Chin-Yew, E. Hovy // In Proceedings of Human Language Technology [6] David M. Bley Andrew Y. Ng, M. I. J. Latent dirichlet allocation / M. I. J. David M. Bley, Andrew Y. Ng // Journal of Machine Learning Research. 2003. Vol. 3.

Pp. 993–1022.

[7] Dennis M. Wilkinson, B. A. H. Cooperation and quality in wikipedia / B. A. H. Dennis M. Wilkinson // WikiSim 07: Proceedings of the 2007 international symposium on [8] Dice, L. R. Measures of the amount of ecologic association between species / L. R. Dice // Ecology. 1945. Vol. 26. Pp. 297–302.

[9] Gabrilovich, E. Computing semantic relatedness using wikipedia-based explicit semantic analysis / E. Gabrilovich, S. Markovitch // Proceedings of the 20th International Joint Conference on Articial Intelligence. 2007. January. Pp. 1606–1611.

[10] Indexing by latent semantic analysis / S. Deerwester, T. D. Susan, G. W. Furnas et al. // Journal of the American Society for Information Science. 1990. Vol. 41.

[11] Jeh, G. Simrank: a measure of structural-context similarity / G. Jeh, J. Widom // Proceedings of the eighth ACM SIGKDD international conference on Knowledge 543. http://doi.acm.org/10.1145/775047.775126.

[12] Jiang, J. Semantic similarity based on corpus statistics and lexical taxonomy / J. Jiang, D. Conrath // In Proceedings of the International Conference on Research in Computational Linguistics. 1997.

[13] Kurmas, Z. Zawilinski: a library for studying grammar in wiktionary / Z. Kurmas // Proceedings of the 6th International Symposium on Wikis and Open Collaboration.

[14] Leacock, C. Combining local context and wordnet sense similarity for word sense identication / C. Leacock, M. Chodorow // WordNet, An Electronic Lexical Database. 1998.

[15] Liu, B. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (DataCentric Systems and Applications) / B. Liu. Secaucus, NJ, USA: Springer-Verlag New York, Inc., 2006.

[16] Mihalcea, R. Corpus-based and knowledge-based measures of text semantic similarity / R. Mihalcea, C. Corley, C. Strapparava // AAAI. 2006. Vol. 23.

[17] Milne, D. Computing semantic relatedness using wikipedia link structure / D. Milne // Proceedings of New Zealand Computer Science Research Student Conference [18] Resnik, P. Semantic similarity in a taxonomy: An information-based measure and its application to problems of ambiguity in natural language / P. Resnik // Journal of Articial Intelligence Research - JAIR. 1999. Vol. 11. Pp. 95–130. http://www.

jair.org/media/514/live-514-1722-jair.pdf.

[19] Rocchio, J. Relevance feedback in information retrieval / J. Rocchio. Prentice Hall, Ing. Englewood Clis, New Jersey., 1971.

[20] Sanger, L. Open Sources. The early history of Nupedia and Wikipedia: a memoir / [21] Semantic similarity in biomedical ontologies / C. Pesquita, D. Faria, A. O. Falco et al. // PLoS Computational Biology. 2009. Vol. 5.

[22] Sprck Jones, K. A statistical interpretation of term specicity and its application in retrieval / K. Sprck Jones // Journal of Documentation 28.

P. 11–21.

[23] Strube, M. Wikirelate! computing semantic relatedness using wikipedia / M. Strube, S. P. Ponzetto // AAAI’06 proceedings of the 21st national conference on Articial intelligence. 2006.

[24] Turdakov, D. Recommender system based on user-generated content / D. Turdakov // Proceedings of the SYRCODIS 2007 Colloquium. 2007.

[25] Turdakov, D. Semantic relatedness metric for wikipedia concepts based on link analysis and its application to word sense disambiguation / D. Turdakov, P. Velikhov // Proceedings of the SYRCODIS 2008 Colloquium on Databases and Information [26] Turney, P. Mining the web for synonyms: Pmi-ir versus lsa on toe / P. Turney // In Proceedings of the Twelfth European Conference on Machine Learning (ECML-2001).

[27] Wu, Z. Verb semantics and lexical selection / Z. Wu, M. Palmer // Proceedings of the Annual Meeting of the Association for Computational Linguistics. 1994.





Похожие работы:

«ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПРОГРАММА РАЗВИТИЯ государственного образовательного учреждения высшего профессионального образования Томский государственный университет на 2010–2019 годы Томск 2010 2 Содержание I. Основные предпосылки и обоснование создания национального исследовательского университета, характеристика приоритетных направлений развития национального исследовательского университета ПНР 1. Кадровое и научно-инновационное обеспечение в области нанотехнологий и материалов ПНР...»

«Семинар и мастер-класс Москва: 26-27 октября 2010 г. Санкт-Петербург: 2-3 ноября 2010 г. Разработка современных преобразователей электроэнергии Особенности семинара: Автор семинара—один из наиболее авторитетных в мире специалистов в области силовой электроники Программа семинара разработана специально для России при участии профессора, д.т.н. Мелешина В.И. В обсуждениях примут учаУважаемые российские коллеги! стие ведущие российские специалисты разработчики преобразователей электроЯ рад...»

«2 Содержание: Аннотация..3 Анализ социально-экономического положения района.4 Социально-демографическая ситуация.4 Экономический потенциал..7 Социальная инфраструктура..13 Инженерная инфраструктура..21 Структура местного бюджета, основные показатели его исполнения.23 Ключевые проблемы социально-экономического развития района.28 Ресурсный потенциал муниципального района.28 Задачи социально-экономического развития района.29 Ожидаемые результаты социально-экономического развития района.31 3...»

«ФГБОУ ВПО Марийский государственный университет Институт экономики, управления и финансов УТВЕРЖДАЮ Директор института экономики, управления и финансов _ /Лебедев И. А. / (подпись/ Ф.И.О.) _2012 г. РАБОЧАЯ ПРОГРАММА Учебная дисциплина Б.3.3 - _УЧЁТ И АНАЛИЗ _ (наименование) Направление подготовки 080200.62 – Менеджмент_ Профиль подготовки Производственный менеджмент Квалификация (степень) выпускника Бакалавр_ Кафедры - Бухгалтерского учета, аудита и налогообложения, Анализа, финансов и...»

«Пермская государственная академия искусства и культуры Факультет повышения квалификации Управление культуры и работы с молодежью администрации Горнозаводского муниципального района МБОУ ДОД Детская школа искусств г.Горнозаводск ПРОГРАММА краевой методической конференции 14.03.2014г. Тема: Формы организации методической работы преподавателя и презентация педагогического опыта. Цель: Выявление и обобщение передового педагогического опыта, повышение профессионального мастерства преподавателей....»

«П Р О Г Р А М М А К Л У Б А Ф У Т Б О Л О Ф ИЛ О В Т А Г А Н Р О Г А ФК ТАГАНРОГ БИОЛОГФУТБОЛ ТАГАНРОГ НОВОКУБАНСК ПРОГРЕСС Президент ФК – Николай Дмитриевич Директор - Владимир ФЕДЯНИН (19.11.56) Амаякович НЕРСЕСЯН Генеральный дирек- (02.02.56) тор, офицер по Офицер по безопасКУБОК РОССИИ безопасности – Владимир Евгеньевич ru ности – Анатолий Иванович ЧЕРНОВ КАЗИМИРОВ (21.01.57) (06.07.55) Офицер по безопасности – Влади- Главный тренер – Сергей КонстантиноПО ФУТБОЛУ 2011/ слав Владимирович...»

«03.11.2012 ПРОГРАММА МАТЧА №11 (342) 17:00 ШАХТЕР МЕТАЛЛУРГ З ЗАЙМИ СЕБЯ В ПЕРЕРЫВЕ Какой Серега круче? ЦЕНТР ВНИМАНИЯ Кирпичи большие и маленькие НАШИ ПАРНИ Пятов и медведь НИКТО, КРОМЕ ДЕВИЧА +Постер внутри 1 ШАХТЕР ПУТЕВОДИТЕЛЬ www.shakhtar.com метаЛЛург З ПредматчеВая Программа № 11 (342) 03.11.2012 Руководитель проекта: Пресс-служба ФК Шахтер Внутри Руслан МАРМАЗОВ. Над программой работали: Олег АНТИПОВ, Дмитрий ГУЦ, Регина ЗИННАТУЛЛИНА, Александр ИЛЬИН, 04 только цифры. Пальцы веером...»

«ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА НАЧАЛЬНОГО ОБЩЕГО ОБРАЗОВАНИЯ ТЕХНОЛОГИЯ ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Статус документа Образовательная программа Муниципального бюджетного общеобразовательного учреждения средней общеобразовательной школы №14 города Кузнецка начального общего образования по технологии создана на основе примерной программы начального общего образования по технологии. Образовательная программа дает распределение учебных часов по крупным разделам курса, определяет минимальный набор практических...»

«Министерство образования и науки РФ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Калужский государственный университет им. К.Э. Циолковского УТВЕРЖДАЮ ректор Калужского государственного университета им. К. Э. Циолковского М.А. Казак _ Основная профессиональная образовательная программа послевузовского профессионального образования (аспирантура) по специальности 19.00.06 Юридическая психология по отрасли 19.00.00 психологические науки...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное образовательное учреждение высшего профессионального образования КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ УТВЕРЖДАЮ Декан факультета Перерабатывающих технологий доцент _А.И. Решетняк _ 2010 г РАБОЧАЯ ПРОГРАММА дисциплины Основы научных исследований для специальности 110305.65 Технология производства и переработки сельскохозяйственной продукции факультета Перерабатывающих технологий Ведущая кафедра –...»

«Государственное образовательное учреждение высшего профессионального образования Липецкий государственный технический университет Экономический факультет УТВЕРЖДАЮ Декан ЭФ Московцев В.В.. _2011 г. РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ МИРОВАЯ ЭКОНОМИКА И МЕЖДУНАРОДНЫЕ ЭКОНОМИЧЕСКИЕ ОТНОШЕНИЯ Направление подготовки: 080100.62 Экономика Профиль подготовки: Экономика предприятий и организаций; Квалификация (степень) выпускника: бакалавр Форма обучения: очная Составитель: к.э.н., доцент кафедры...»

«ЛИПЕЦКИЙ ФИЛИАЛ ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ ПРОГРАММА вступительных испытаний по направлению подготовки 38.03.02 Менеджмент (для заочной формы обучения на базе профессионального образования) Липецк – 2014 ПРОГРАММА устного экзамена по направлению Менеджмент 1. Менеджмент: основные понятия и содержание. Основные...»

«ЭКСПЕРТНОЕ ЗАКЛЮЧЕНИЕ О КАЧЕСТВЕ И ГАРАНТИЯХ КАЧЕСТВА ОБРАЗОВАНИЯ ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА 280200.04 Комплексное использование водных ресурсов ФГБОУ ВПО ТАМБОВСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ Образовательная программа 280200.04 Комплексное использование водных ресурсов реализуется в рамках направления 280200 Защита окружающей среды кафедрой Природопользования и защиты окружающей среды, входящей в настоящее время в состав факультета Магистратура, и ведет к присуждению...»

«АКАДЕМИЯ УПРАВЛЕНИЯ ПРИ ПРЕЗИДЕНТЕ РЕСПУБЛИКИ БЕЛАРУСЬ УТВЕРЖДЕНО Проректором по учебной работе 18.06.2010 Регистрационный № УД- 18.Пп/уч. УЧЕБНАЯ ПРОГРАММА ПО ДИСЦИПЛИНЕ НАЦИОНАЛЬНАЯ БЕЗОПАСНОСТЬ специальность переподготовки 1-26 01 73 Государственное и местное управление квалификация специалист в области государственного управления в соответствии с типовым учебным планом переподготовки, утвержденным 24.01.2011, регистрационный № 25-11/322 1-26 01 73 Государственное управление национальной...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное образовательное учреждение высшего профессионального образования КУБАНСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ УТВЕРЖДАЮ: Декан экономического факультета _В.И. Гайдук _ 2010 г. РАБОЧАЯ ПРОГРАММА дисциплины Технология производства продукции растениеводства для специальности 080502.65 Экономика и управление на предприятии АПК факультета – экономического Ведущая кафедра - Растениеводства Всего часов Лекции 38 1...»

«УДК 334 ББК65.9(2Ки)29 П 71 Подготовлено Международным Центром Некоммерческого Права (ICNL) в рамках проекта Правовая поддержка организаций гражданского общества в Центрально-Азиатских республиках, финансируемого Агентством США по международному развитию (USAID). ICNL несет ответственность за содержание публикации, которое не обязательно отражает позицию USAID или Правительства США. Автор и составитель: Асель Жунусова, Юридический консультант ICNL П 71 Предпринимательская деятельность...»

«Обеспеченность учебного процесса учебно-методическими материалами по магистерской программеМеталлургия цветных металлов Учебно-методический комплекс Программа учебной дисциплины дисциплины (УМКД) (практикум, метод.указания) (практикум, метод.указания) Закрепленная кафедра Самостоятельная работа Практические занятия Лабораторные работы (тесты, контрольные (конспект лекций) (метод.указания) Зачет, экзамен № вопросы) Название дисциплины Ф.И.О. исполнителя Лекции п/п Микешин М.И. + + + +...»

«Российский университет дружбы народов Инжиниринговая компания ТЕСИС ПРОГРАММА МЕЖДУНАРОДНОЙ НАУЧНО - ПРАКТИЧЕСКОЙ КОНФЕРЕНЦИИ ИНЖЕНЕРНЫЕ СИСТЕМЫ – 2009 Москва, 6 – 9 апреля 2009 г. Москва Издательство Российского университета дружбы народов 2009 Российский университет дружбы народов Инжиниринговая компания ТЕСИС МЕЖДУНАРОДНАЯ НАУЧНО - ПРАКТИЧЕСКАЯ КОНФЕРЕНЦИЯ Инженерные системы -2009 Москва, 6 – 9 апреля 2009 г. Программа Издательство Российского университета дружбы народов Москва...»

«Вершина Европы Международный информационный бюллетень Северного Совета и Совета Министров Северных Стран Октябрь 2010 Содержание: Молодежь – Голос будущего Торговля людьми – вопрос здравоохранения Небывалый интерес к магистерским программам Достижения в области научных исследований в Северных странах На повестке дня – конкуренция в области экологически чистого строитель- Соглашение с Белизом поможет ства и чистых технологий предотвратить уклонение от уплаты налогов Подписано соглашение о...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФГБОУ ВПО Кемеровский государственный университет Новокузнецкий институт (филиал) Факультет гуманитарный РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ ДС. В.4 Этническая психология для специальности 030301.65 Психология специализации 020403 Социальная психология Новокузнецк 2013 Сведения о разработке и утверждении рабочей программы дисциплины Рабочая программа дисциплины ДС. В.4 Этническая психология входит в состав цикла специальных дисциплин курсов по...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.