WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Московский государственный университет имени М.В. Ломоносова

На правах рукописи

Алексеев Алексей Александрович

Метод автоматического аннотирования новостных кластеров на

основе тематического анализа

Специальность 05.13.11 – математическое и программное обеспечение

вычислительных машин, комплексов и компьютерных сетей

Автореферат диссертации на соискание ученой степени кандидата физико-математических наук

Москва – 2014

Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова.

Научный руководитель: доктор физико-математических наук, профессор, зав. каф. алгоритмических языков ВМиК МГУ имени М.В. Ломоносова, Мальковский Михаил Георгиевич

Официальные оппоненты: Фомичев Владимир Александрович доктор технических наук, профессор, НИУ ВШЭ, факультет бизнес-информатики, профессор кафедры инноваций и бизнеса в сфере информационных технологий Васильев Виталий Геннадьевич кандидат технических наук, доцент, ООО «ЛАН-ПРОЕКТ», научный консультант

Ведущая организация: Казанский (Приволжский) Федеральный Университет

Защита состоится 19 сентября 2014 г. в 11 часов на заседании диссертационного совета Д.501.001.44 при Московском государственном университете имени М.В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет Вычислительной математики и кибернетики, аудитория 685. Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за 2 дня до указанной даты по тел. (495) 939-30-10 (для оформления заявки на пропуск).

С диссертацией можно ознакомиться в Фундаментальной библиотеке МГУ имени М.В. Ломоносова. С текстом автореферата можно ознакомиться на официальном сайте ВМК МГУ имени М.В. Ломоносова http://www.cmc.msu.ru в разделе «Наука» – «Работа диссертационных советов» – «Д 501.001.44».

Автореферат разослан «_» августа 2014 года.

Ученый секретарь диссертационного совета Д 501.001.44, к. т. н., в. н. с. Костенко В.А.

Общая характеристика работы

Актуальность темы. Развитие информационных технологий и появление сети Интернет явились причиной экспоненциального роста объемов электронной информации, начавшегося приблизительно два десятилетия назад и стремительно продолжающегося в настоящее время.

Объемы информации уже сейчас достигли таких размеров, что человек не способен самостоятельно ознакомиться с материалами всех информационных источников, зачастую даже в контексте специализированных информационных потребностей. Данный факт обусловил активное развитие исследований в области задачи автоматического аннотирования – представления релевантной и наиболее значимой информации, необходимой пользователю, в сжатом, лаконичном виде.

Методы автоматического аннотирования исследовались в трудах российских и зарубежных ученых, таких как Барзилай Р., Добров Б.В., Лукашевич Н.В., Лун Х., МакКьюин К., Мальковский М.Г., Мани И., Машечкин И.В., Ненкова А., Петровский М.И., Севбо И.П., Тарасов С.Д., Фомичев В.А., Шиффман Б., Эдмундсон Х. и многих других авторов. Спектр областей применения систем автоматического аннотирования обширен, от бытовых информационных потребностей обычных пользователей до узкоспециализированных аналитических задач. Например, в рамках исследовательской программы SUMMAC 1 (США) установлено, что время принятия аналитиком решения о релевантности текстового документа некоторой тематике может быть сокращено в 2 раза за счет использования аннотации исходного документа, без статистически значимого ухудшения точности данного решения. Подготовка обзорных рефератов для коллекции документов уже давно является одним из ключевых элементов в организации http://www.itl.nist.gov/iaui/894.02/related_projects/tipster_summac/ которого является минимизация его общего времени.

При этом как сами задачи аннотирования, так и предметные области необходимость разработки индивидуальных алгоритмов аннотирования.

Современные технологии автоматической обработки новостных потоков основаны на тематической кластеризации новостных сообщений, т. е.

выделении совокупностей новостей, посвященных одному и тому же событию – новостных кластеров. Одной из важных и актуальных специализированных задач аннотирования является автоматическое аннотирование новостных кластеров. Новостной кластер и методы автоматического аннотирования новостных кластеров являются основными объектами рассмотрения данной кандидатской диссертации.

совокупности связанных ситуаций), со своим набором участников, которые в исходном кластере могут быть представлены различными языковыми выражениями, то есть словами или словосочетаниями. Например, международный аэропорт «Внуково», расположенный в Москве, может упоминаться в рамках некоторого новостного кластера как московский международный аэропорт Внуково, московский аэропорт, столичный аэропорт, аэропорт Внуково, международный аэропорт и так далее.

Качественное выделение участников ситуации, включая различные варианты их наименования в различных документах кластера, может помочь лучше определять основную тему новостного кластера и, таким образом, позволит повысить качество различных операций с новостными кластерами, таких как автоматическое аннотирование, определение новизны информации и других автоматических операций.



Таким образом, актуальной является задача выявления различных вариантов именования основных участников ситуации, описываемой в рамках новостного кластера. В данной работе предлагается модель участников ситуации с учетом вариативности их именования – тематических цепочек новостного кластера. Рассматриваются методы улучшения качества извлечения основных участников новостного события, что включает нахождение совокупности слов и выражений, с помощью которых тот или иной значимый участник события именовался в документах новостного кластера. Предлагаемый подход основан на совместном использовании совокупности факторов, в том числе разного рода контекстов употребления слов в документах кластера, информации из предопределенных источников (тезаурус русского языка), а также особенностях построения текстов на естественном языке.

Целью диссертационной работы являются разработка методов и программных средств построения модели основных участников новостного кластера с учетом вариативности их именования на основе комбинации разнородных факторов схожести и интеграция построенной модели в методы автоматического аннотирования. Разрабатываемые программные средства и полученная модель должны удовлетворять следующим требованиям: высокая точность выявления различных вариантов именования основных участников;

возможность интеграции построенной модели в другие задачи автоматической обработки текста; независимость от предметной области.

Для достижения этой цели были решены следующие задачи:

1. исследование и построение модели основных участников новостного кластера с учетом вариативности их именования и специфики внутреннего устройства текстов на естественном языке;

2. разработка методов интеграции построенной модели в методы автоматического аннотирования, а также разработка двух новых метод на основе построенной модели;

3. разработка и реализация программного модуля для построения тематических цепочек новостного кластера;

аннотирования новостного кластера, реализующего методы аннотирования на базе построенных тематических цепочек.

Основные положения, выносимые на защиту:

1. Предложен и реализован новый метод автоматического построения модели основных участников новостного кластера (выражаемых тематическими цепочками), основанный на комбинировании разнородных признаков сходства;

2. Предложен метод применения построенной модели в существующих методах автоматического аннотирования;

3. На основе построенной модели предложены и реализованы два новых метода автоматического аннотирования;

4. Показано улучшение качества работы алгоритмов аннотирования на основе тематических цепочек.

Научная новизна настоящей диссертационной работы заключается в том, что предложен новый метод построения модели совокупности участников новостного кластера, основанный на комбинации признаков различной природы: как статистических контекстных, так и априорных.

Применимость данного метода обоснована теоретически – на основе анализа полезности отдельных признаков для определения близости языковых выражений, а также численно – на основе экспериментов по интеграции в методы автоматического аннотирования. Разработанная модель не зависит от предметной области и может применяться в различных задачах автоматической обработки новостных кластеров.

Практическая значимость. На основе предложенного алгоритма спроектирована и реализована многомодульная программная система со следующими функциональными возможностями:

построение тематических цепочек новостного кластера;

различными алгоритмами аннотирования;

автоматическая оценка конкурсных аннотаций.

Таким образом, разработанная система может быть использована как для подготовки дополнительной входной информации для других систем автоматической обработки новостных кластеров, так и для формирования автоматических аннотаций новостного кластера.

Апробация работы. Основные результаты работы докладывались на следующих конференциях и семинарах:

всероссийской научной конференции «Электронные библиотеки:

перспективные методы и технологии, электронные коллекции»

(Казань, 13-17 октября 2010 г.);

Образование» (Дубна, 25-30 января 2010 г.);

информации (CDUD), проходящему совместно с конференцией RSFDGrC (Москва, 25-30 июня 2011 г.);

семиотическое моделирование» (Казань, 24-27 февраля 2011 г.);

международной конференции «Диалог» (Московская область, 25мая 2011 г.);

летней школе по информационному поиску RUSSIR (Ярославль, международной конференции «Spring Researchers Colloquium on Databases and Information Systems» (Москва, 1 июня 2012 г.);

всероссийской научной конференции «Электронные библиотеки:

перспективные методы и технологии, электронные коллекции»

(Ярославль, 14-17 октября 2013 г.);

информационных ресурсов НИВЦ МГУ, на семинаре в НИУ ВШЭ и на регулярном семинаре ACM SIGMOD в Москве.

Личный вклад автора заключается в выполнении основного объема теоретических и экспериментальных исследований, изложенных в диссертационной работе, включая разработку теоретической модели, методик экспериментальных исследований, проведение исследований, анализ и оформление результатов в виде публикаций и научных докладов.

Основные положения, выносимые на защиту, описанные в совместных публикациях, принадлежат автору диссертации.

Публикации. Основные результаты по теме диссертации изложены в 14 печатных работах, в том числе 3 статьях в журналах из списка ВАК ([1], [2], [3]) и 3 статьях, входящих в базу SCOPUS ([4], [5], [6]).

Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения и двух приложений. Полный объем диссертации составляет 122 страницы с 15 рисунками и 7 таблицами, объем приложений – 9 страниц. Список литературы содержит 82 наименования.

Содержание работы Во введении обоснована актуальность диссертационной работы, сформулирована цель исследований, показаны их научная новизна и практическая значимость, представлены научные положения, выносимые на защиту.

аннотирования, классификации типов аннотаций и областей применимости систем автоматического аннотирования. Также в данной главе приводится обзор алгоритмов построения аннотаций, базовых идей, моделей и принципов построения автоматических аннотаций, а также методов оценки качества и сравнения результатов работы различных систем автоматического аннотирования. Особое внимание уделяется задаче и алгоритмам построения кандидатской диссертации является новостной кластер. Целью данной главы автоматического аннотирования, а также проблем в данной области, в частности обоснование важности учета лексическо-семантической вариативности, широко присутствующей в текстах на естественном языке.

аннотирования работает на основе экстрактивного подхода к аннотированию, т. е. выбора целых предложений исходной коллекции S для автоматической аннотации S`, удовлетворяющей ограничению на длину L:

где S* - подмножество предложений S, f() – некоторая мера качества для аннотации. Оценка информативности предложений, на базе которой происходят ранжирование и отбор предложений в результирующую аннотацию, строится на основе слов и выражений, входящих в данное аннотирования работает с пословной моделью представления предложений входной коллекции:

где wW - словарь, m – количество слов в предложении sS.

Данная модель обладает рядом ограничений, связанных с лексикосемантической вариативностью, широко встречающейся в текстах на естественном языке. Это означает, что для качественного решения задачи автоматического аннотирования необходима более комплексная модель, содержащая информацию о:

содержащихся в языковом выражении ti, M – общее количество языковых выражений в рассматриваемой коллекции;

Вторая глава посвящена проблеме вариативности терминов в текстах на естественном языке, описываются существующие методы выявления различных типов вариативности, а также вводится формальная модель совокупности участников ситуации, описываемой в текстовой коллекции, с Предлагаемые модель и алгоритм построения тематических цепочек основаны на свойствах глобальной и локальной связности текстов на естественном языке. Ван Дейк и Кинч2 описывают тематическую структуру текста как иерархическую, в том смысле что тема всего текста описывается посредством более конкретных подтем, которые в свою очередь могут быть охарактеризованы посредством еще более конкретных подтем текста и т.д.

Под темой/подтемой при этом понимается предикат P(C1, …, Cn ), его атрибуты C1,…,Cn будем называть тематическими элементами. Каждое предложение s связного текста посвящено раскрытию той или иной подтемы Pi уровня level основной темы текста: s Pi (Ci_1, …, Ci_n ), раскрывающей один из аспектов взаимоотношений тематических элементов Ci_1, …, Ci_n.

При этом отнесение к тематическим элементам Ci_1, …, Ci_n внутри s осуществляется с помощью конкретных языковых выражений, упомянутых в s Pilevel (Ci_1, …, Ci_n ) Pi level (Ci_1 {t i_1 }, …, Ci_n {t i_n }), t i_1,..., t i_n s Таким образом, для отнесения к некоторому тематическому элементу Сm используется определенный набор языковых выражений, каждое из которых применяется для раскрытия определенных подтем текста: Cm {t m,..., t m,... }.

Дейк В., Кинч В. Стратегии понимания связного текста // Новое в зарубежной лингвистике, Выпуск 23, Москва, 1988. - С. 153-211.

языковые выражения t1 и t2 часто встречаются в анализируемом тексте в одних и тех же простых предложениях, то это означает, что данный текст посвящен рассмотрению отношений между этими сущностями, т. е. t1 и t соответствуют разным тематическим элементам. С другой стороны, если два языковых выражения t1 и t2 редко встречаются в одних и тех же предложениях текстов, но при этом часто упоминаются в соседних используются для осуществления локальной связности, то есть между ними имеется смысловая связь.

Гипотеза о совместной встречаемости связанных языковых выражений легла в основу ограничивающего фактора IsNSCriterion(ti,tj), который является управляющим в предлагаемом алгоритме построения тематических цепочек:

где count(A|B) – количество элементов A, удовлетворяющих условию B (в данном случае предложений и пар предложений); NS (sk, sm ) – признак последовательного появления предложений sk и sm в исходном новостном IsNSCriterion(ti,tj), не использовалась ранее для решения таких задач, как установление вариантов именования основных участников ситуации, построение рядов квазисинонимов, лексических цепочек и т.п. Таким образом, задача построения тематических цепочек представляет собой задачу кластеризации с ограничениями:

языковых выражений с выделенным центральным элементом Ограничения:

содержит один и только один центральный элемент;

выражение является элементом не более чем двух и не менее чем одной тематической цепочки либо центром единственной tci : (tcij 0 tcik 0) IsNSCriterion (tcij, tcik ) true – выполнено ограничивающее условие на объединение языковых выражений в В диссертации предложен алгоритм построения тематических цепочек, объединяющий характеристики схожести различной природы – контекстнозависимых и контекстно-независимых признаков. Каждая характеристика имеет вещественный вес в диапазоне [0,1].

Контекстно-зависимые характеристики Количество вхождений в соседние предложения (Neighboring Sentence Feature, NSF). Данная характеристика основана на гипотезе глобальной связности текстов на естественном языке и её следствии о том, что элементы одной тематической цепочки чаще появляются в соседних предложениях исходных документов, чем в одних и тех же предложениях.

Характеристика NSF вычисляется на основе контекстных параметров AcrossVerb (количество вхождений в одно предложение через глагол), Near (количество вхождений в одно предложение непосредственно рядом), NotNear (количество вхождений в одно предложение не рядом) и NS (количество вхождений в соседние предложения), а также распределения их средних значений внутри исходного новостного кластера:

где Avg(C) является средним значением C среди всех положительных значений в рамках кластера.

сравнении строгих контекстов употреблений слов – текстовых шаблонов. В качестве шаблонов рассматриваются 4-граммы, два выражения влево и вправо от рассматриваемого выражения: si (ti1,.., tij 2, tij 1, tij, tij 1, tij 2,.. ), где (tij-2, tij-1, tij+1, tij+2) является строгим контекстом выражения tij в некотором предложении si. Итоговая схожесть по характеристике SC для выражений t i и t j имеет следующий вид:

Схожесть контекстов употребления по внутренним характеристикам предложения (Scalar Product Similarity, SPS). Анализу подвергаются вектора контекстов сравниваемых языковых выражений, сравнение производится по классической косинусной мере:

Vi AcrossVerb (viAcrossVerb,.., viAcrossVerb ) где Context={AcrossVerb, Near, NotNear, NS} – различные типы контекстов.

Контекстно-независимые характеристики Формальное сходство (Beginning Similarity, BS). Рассмотрение формального модифицированной меры Жаккара:

Информация о схожести, описанная во внешнем ресурсе – тезаурусе РуТез (Thesaurus Similarity, TS). Анализ информации из внешнего ресурса – тезауруса РуТез, а именно, следующих видов связей: синонимия, часть – целое, род – вид. Вес схожести убывает с ростом длины пути по отношениям и имеет следующий вид:

где Nrel – длина пути по отношениям тезауруса (количество связей), {Reltype} – информация о типах связей по данному пути.

Наличие одинаковых языковых выражений (Embedded Objects Similarity, EOS). При анализе схожести тематических цепочек, включающих в себя несколько языковых выражений, важным фактором схожести является наличие общих языковых выражений:

Алгоритм построения тематических цепочек является итеративным, в рамках каждой из итераций происходят ранжирование всех пар – кандидатов на объединение – по суммарному весу характеристик схожести и продолжается до тех пор, пока есть пары – кандидаты для объединения с предварительным этапом построения тематических цепочек является сборка многословных выражений, которая основана на естественном принципе превышения встречаемости слов непосредственно рядом друг с другом по сравнению с раздельной встречаемостью:

следующие этапы в процессе построения:

Итерация 7: (Отставка) (Отставка с должности) Итерация 33: (Отставка, Отставка с должности) (Уход в отставку) Итерация 44: (Отставка, Отставка с должности, Уход в отставку) (Отставка президента) Итерация 61: (Уход с поста) (Уход в отставку) Итерация 62: (Отставка, Отставка с должности, Уход в отставку, Отставка президента) (Уход с поста, Уход в отставку) Итерация 102: (Отставка, Отставка с должности, Уход в отставку, Отставка президента, Уход с поста) (Пост) Итерация 103: (Пост, Отставка, Отставка с должности, Уход в отставку, Отставка президента, Уход с поста) (Должность) Итерация 104: (Пост, Отставка, Отставка с должности, Уход в отставку, Отставка президента, Уход с поста, Должность) (Уход) Псевдокод алгоритма построения тематических цепочек:

Процедура: Построение тематических цепочек Вход: 1. Новостной кластер D с выделенными языковыми 2. Similarity_Score(tc1, tc2) – общий вес по характеристикам Выход: 1. Набор тематических цепочек TC новостного кластера D // Инициализируем множество тематических цепочек отдельными языковыми выражениями TC = T;

joinFlag = true;

while(joinFlag) joinFlag = false;

// Сформировать пары цепочек, удовлетворяющих ограничению Pairs = {(tci, tcj) | IsNSCriterion(tci, tcj)=true, tci, tcj TС};

Pairs.OrderByDescending(Similarity_Score(tci, tcj) );

// Выбрать пару для объединения { tci, tcj } = Pairs[0];

// Объединение в случае достаточной схожести if ( Similarity_Score(tci, tcj) > C) if ( Frequency(tci) > Frequency(tcj) ) tcnew={tmain=tmain_i, ti1, …, tin, tj1, …, tjm};

TC.Remove(tci);

tcnew={tmain=tmain_j, ti1, …, tin, tj1, …, tjm};

TC.Remove(tcj);

// Произвести расчет характеристик для новой пары tcnew CalculateParameters (D, TС, tcnew);

TC.Add ( tcnew );

joinFlag = true;

end-if;

end-while;

цепочек новостного кластера с m итерациями работы имеет следующий вид:

O(n 2 ) m O(2 n), где n количество языковых выражений Одной из базовых задач автоматической обработки естественного языка является установление схожести фрагментов текстов, в частности, установление схожести предложений. Соответствующая операция лежит в основе большинства алгоритмов аннотирования, работающих по принципу выделения наиболее значимых предложений исходной коллекции. В рамках диссертационной работы сформулирована и доказана лемма, описывающая влияние операций, выполняемых при построении модели основных участников ситуации, на установление схожести фрагментов текста.

Лемма. Последовательное применение операций добавления многословного выражения f MWE ( wi, w j, s1 ) и установления схожести fTC (w1, wm, tc, s1, s2 ) при выполнении условия на установление схожести для одной из частей схожести между предложениями f MWE (wi1, w1j, s1 ) (wi1 s2 ) (w1j s2 ) tc`: (wi1 w1j tc`) ((wi1 tc`) (w1j tc`)) (*) Эта лемма подтверждает возможность повышения качества методов описывающих основных участников входной текстовой коллекции.

В третьей главе описывается алгоритм интеграции построенной модели тематических цепочек в существующие методы автоматического аннотирования Maximal Marginal Relevance4 (MMR) и Sumbasic5. Интеграция заключается в двухступенчатом переходе от пространства отдельных слов (bag-of-words model) к пространству языковых выражений:

Слова Объекты (слова + мног.выр.) Тематические цепочки информации о многословных выражениях – переход от слова к объекту (отдельные слова или многословные выражения);

тематических цепочек каждый объект может принадлежать к Каждая тематическая цепочка имеет вес, равный сумме частот его элементов:

Элементы цепочек имеют вес схожести с центральным элементом, равный отношению набранного суммарного балла по характеристикам схожести (при Добавление многословного выражения wi1 w1j в предложение s1 в случае вхождения компонентов данного выражения wi1 и w1j в предложение s2 требует установления дополнительной связи нового выражения wi1 w1j с одним из его компонентов Carbonell J., Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries // Proceedings of ACM SIGIR`1998, Australia, pp. 335 – Nenkova, A. and L. Vanderwende. The impact of frequency on summarization // Microsoft Research Technical Report, MSR-TR-2005-101, схожести:

Кроме того, на основе сконструированных тематических цепочек предлагаются два новых метода автоматического аннотирования:

тематическим цепочкам):

Отбор предложений на основе взаимоотношений участников ситуации (по связям тематических цепочек):

где tcrel = {tc1, tc2} – пара тематических цепочек; weight(tcrel) – число вхождений пары в одни и те же предложения кластера; tcrel_new – новая пара тематических цепочек, не упомянутая в одних и тех же предложениях, уже отобранных в аннотацию.

Оценка качества полученных автоматических аннотаций, а именно, построенных тематических цепочек является мерой качества самих тематических цепочек. Для проведения оценки были подготовлены новостных кластеров различной тематики (спорт, политика, происшествия), профессиональными лингвистами были подготовлены от 2 до 4 ручных (классические методы аннотирования 4, 5, 9; классические методы с интеграцией тематических цепочек 1, 7, 10; новые методы аннотирования на основе тематических цепочек 2, 3, 6, 9 с учетом и без учета IDF).

3. OurSummary (Nodes) 6. OurSummary (Relations) 9. OurSummary (Relations) with IDF 10. MMR with IDF + Процедура оценки состояла из двух этапов. Сначала все модификации методов были оценены автоматическими мерами качества официального пакета ROUGE6. В Табл. 1 представлены результаты ROUGE по основным мерам качества (Avg – средняя позиция по всем мерам качеств).

Наиболее значимыми являются следующие результаты:

Интеграция построенных тематических цепочек в классические методы автоматического аннотирования MMR и SumBasic Для подтверждения результатов оценки методом ROUGE лучшие и наиболее приоритетные модификации методов были дополнительно оценены методом «Пирамиды»7 (Табл. 2).

Lin C.-Y. ROUGE: a Package for Automatic Evaluation of Summaries // Proceedings of ACL’2004, pp. 74- Harnly A., Nenkova A., Passonneau R., Rambow O. Automation of summary evaluation by the pyramid method // Proceedings of RANLP’2005, Bulgaria, Табл. 2: Результаты оценки методом «Пирамиды»

Результаты оценки методом «Пирамиды» подтверждают факты, установленные при оценке методом ROUGE, а именно, улучшение качества методов автоматического аннотирования при интеграции в них построенных тематических цепочек на основе совокупности разнородных факторов.

В рамках проведенного диссертационного исследования разработан программный комплекс по автоматической обработке новостных кластеров, описание которого приведено в четвертой главе. Данный комплекс включает в себя следующие независимые модули:

построения тематических цепочек новостного кластера на основе разработанного алгоритма;

автоматического аннотирования, реализующий более 10 различных методов аннотирования;

автоматической оценки аннотаций новостного кластера на основе Модули объединены в единое приложение и могут взаимодействовать друг с другом по принципу конвейера в указанной последовательности, обеспечивая замкнутый цикл обработки новостного кластера всеми функциональными блоками.

В заключении приведены основные результаты работы, которые состоят в следующем:

1. Предложена модель, позволяющая с помощью тематических цепочек новостного кластера описывать основных участников этого кластера с учетом вариативности их именования и специфики внутреннего устройства текстов на естественном языке;

тематических цепочек новостного кластера, основанный на комбинировании разнородных признаков схожести;

3. Предложен и реализован метод интеграции построенной модели в существующие методы автоматического аннотирования, а также два новых метода автоматического аннотирования на основе тематических цепочек. Показано улучшение качества работы алгоритмов аннотирования на основе построенной модели.

Издания из списка ВАК:

[1] Алексеев А.А. Тематический анализ новостного кластера как основа для автоматического аннотирования // Программная инженерия. – 2014. – № 3. – C. 41-48.

[2] Алексеев А.А., Лукашевич Н.В. Комбинирование признаков для извлечения тематических цепочек в новостном кластере // Труды Института системного программирования РАН. – 2012. – Т. 23. – C. 257-276.

[3] Алексеев А.А., Лукашевич Н.В. Автоматическое извлечение сущностей на основе структуры новостного кластера // Искусственный интеллект и принятие решений. – 2011. – № 4. – С. 51-59.

Издания из списка SCOPUS:

[4] Alekseev A.A., Loukachevitch N.V. Use of Multiple Features for Extracting Topics from News Clusters // Proceedings of the Spring Researchers Colloquium on Databases and Information Systems. – 2012. – P. 3-11.

[5] Alekseev A.A., Loukachevitch N.V. The automatic retrieval of news entities based on the structure of a news cluster // Scientific and Technical Information Processing. – 2012. – Vol. 39, № 6. – P. 303-309.

[6] Alekseev A.A., Loukachevitch N.V. Automatic Entity Detection Based on News Cluster Structure // Proceedings of the International Workshop on Concept Discovery in Unstructured Data. – 2011. – P. 1-10.

Другие публикации:

[7] Алексеев А.А., Мальковский М.Г. Автоматическое аннотирование новостного кластера на основе тематического анализа // Тезисы докладов конференции «Тихоновские чтения». – М.: МГУ, 2013. – С. 55.

[8] Алексеев А.А. Тематическое представление новостного кластера как основа для автоматического аннотирования // Труды всероссийской конференции RCDL. – 2013. – С. 359-369.





Похожие работы:

«УДК: 338.001.76(575.1) РАЗЫКОВА ГУЛЬНОРА ХИКМАТОВНА ЭКОНОМИЧЕСКИЙ МЕХАНИЗМ РЕАЛИЗАЦИИ ПРОМЫШЛЕННОЙ ПОЛИТИКИ В УСЛОВИЯХ МОДЕРНИЗАЦИИ ЭКОНОМИКИ 08.00.01 – Экономическая теория АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Ташкент - 2011 Диссертационная работа выполнена в Национальном университете Узбекистана имени Мирзо Улугбека....»

«Крекотень Анна Валериевна ФИЗИКО-ХИМИЧЕСКОЕ ИЗУЧЕНИЕ НАНОКОМПОЗИТНЫХ МАТЕРИАЛОВ, ПОЛУЧАЕМЫХ ТЕМПЛАТНО МЕТОДОМ УПРАВЛЯЕМОГО ЗОЛЬ-ГЕЛЬ СИНТЕЗА 02.00.04 – физическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Владивосток – 2013 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте химии Дальневосточного отделения Российской академии наук (ИХ ДВО РАН) Научный руководитель : член-корреспондент РАН, доктор...»

«БРУТЯН КРИСТИНА ГАГИКОВНА ФОРМИРОВАНИЕ НИЗКОТОКСИЧНЫХ ДРЕВЕСНЫХ МАТЕРИАЛОВ С ИСПОЛЬЗОВАНИЕМ КЛЕЕВ, МОДИФИЦИРОВАННЫХ ШУНГИТОВЫМИ СОРБЕНТАМИ 05.21.05 – Древесиноведение, технология и оборудование деревопереработки АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт – Петербург 2010 2 Диссертационная работа выполнена в Санкт – Петербургской государственной лесотехнической академии имени С.М. Кирова Научный руководитель : Чубинский Анатолий...»

«МИЛОВЗОРОВ АЛЕКСЕЙ ГЕОРГИЕВИЧ УСТРОЙСТВА КОНТРОЛЯ ПАРАМЕТРОВ И ГЕНЕРИРОВАНИЯ ЛОКАЛЬНЫХ ГЕОМАГНИТНЫХ ВОЗМУЩЕНИЙ В ЗАДАЧАХ МОДЕЛИРОВАНИЯ И ОБНАРУЖЕНИЯ МАГНИТОПАТОГЕННЫХ ЗОН Специальность 05.11.13 – Приборы и методы контроля природной среды, веществ, материалов и изделий Автореферат диссертации на соискание ученой степени кандидата технических наук Ижевск 2010 Работа выполнена на кафедре Приборы и методы контроля качества ГОУ ВПО Ижевский государственный технический университет...»

«Онегова Ольга Васильевна ЧИСЛЕННЫЕ МЕТОДЫ РЕШЕНИЯ НАЧАЛЬНОЙ И КРАЕВОЙ ЗАДАЧ ДЛЯ ФУНКЦИОНАЛЬНО-ДИФФЕРЕНЦИАЛЬНЫХ УРАВНЕНИЙ И ИХ КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ 05.13.18 математическое моделирование, численные методы и комплексы программ Автореферат диссертации на соискание ученой степени кандидата физико-математических наук ЕКАТЕРИНБУРГ -2002 Работа выполнена на кафедре вычислительной математики Уральского государственного университета им. A.M. Горького. Научный...»

«ПРИЩЕПИН БОРИС ИВАНОВИЧ РАЗРАБОТКА И АПРОБАЦИЯ МОДЕЛЕЙ СИСТЕМЫ ПОВЫШЕНИЯ КВАЛИФИКАЦИИ ПЕРСОНАЛА ЕС ОрВД РФ Специальность – 05.22.13. Навигация и управление воздушным движением АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2005 2 Работа выполнена в Федеральном государственном образовательном учреждении высшего профессионального образования СанктПетербургский государственный университет гражданской авиации на кафедре Организация...»

«Волков Андрей Александрович УПРАВЛЕНИЕ ВНЕШНЕЭКОНОМИЧЕСКИМ КОМПЛЕКСОМ РЕГИОНА (на примере Удмуртской Республики) Специальность: 08.00.05 – Экономика и управление народным хозяйством (региональная экономика) Автореферат диссертации на соискание ученой степени кандидата экономических наук Ижевск - 2004 Работа выполнена в ГОУ ВПО Удмуртский государственный университет Научный руководитель : Заслуженный деятель науки Российской Федерации, доктор экономических наук, профессор...»

«МАРЧЕНКОВА ИРИНА СЕРГЕЕВНА УГЛЕВОДНЫЙ ПРОФИЛЬ ФАКТИЧЕСКОГО ПИТАНИЯ НАСЕЛЕНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ 14.02.01. – гигиена Автореферат диссертации на соискание ученой степени кандидата медицинских наук Москва – 2010 Работа выполнена в Учреждении Российской академии медицинских наук Научно-исследовательском институте питания Российской академии медицинских наук Научный руководитель : Гаппаров Минкаил Магомед-Гаджиевич доктор медицинских наук, профессор, член-корреспондент РАМН...»

«ЛИЗИН Сергей Николаевич СОВЕРШЕНСТВОВАНИЕ ПРОЦЕССОВ КОЛЛЕКТИВНОЙ ОБРАБОТКИ ИНФОРМАЦИИ НА ОСНОВЕ ТЕМПОРАЛЬНОЙ ОРГАНИЗАЦИИ ДАННЫХ И МЕТАДАННЫХ Специальность 05.13.17 – Теоретические основы информатики (технические наук и) Автореферат диссертации на соискание ученой степени кандидата технических наук ПЕНЗА 2011 Работа выполнена на кафедре Автоматизированные системы обработки информации и управления Федерального государственного бюджетного образовательного учреждения высшего...»

«Пардабаева Римма Минихановна КАДРОВАЯ ПОЛИТИКА КАК ФАКТОР ПОВЫШЕНИЯ КОНКУРЕНТОСПОСОБНОСТИ РЕГИОНА Специальность 08.00.05 Экономика и управление народным хозяйством (экономика труда) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Ижевск – 2005 Диссертационная работа выполнена в Пермском филиале Института экономики Уральского отделения Российской академии наук Научный руководитель – доктор экономических наук, профессор Пыткин Александр...»

«ТОГАНОВА Наталья Владимировна ТРАНСФОРМАЦИЯ ЭКОНОМИЧЕСКОЙ СТРУКТУРЫ НОВЫХ ЗЕМЕЛЬ ГЕРМАНИИ Специальность 08.00.14 – Мировая экономика Автореферат на соискание ученой степени кандидата экономических наук Москва - 2009 Работа выполнена в Центре европейских исследований Учреждения Российской академии наук Института мировой экономики и международных отношений РАН. Научные руководители: доктор экономических наук Гутник Владимир Петрович доктор экономических наук Кузнецов Алексей...»

«КОСОЛАПОВА ЛИЛИЯ СЕРГЕЕВНА СИНТЕЗ, СТРОЕНИЕ И СВОЙСТВА НОВЫХ ТИОПРОИЗВОДНЫХ АЗОТСОДЕРЖАЩИХ ГЕТЕРОЦИКЛОВ НА БАЗЕ 3-ПИРРОЛИН-2-ОНА 02.00.03 – органическая химия АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Казань – 2013 2 Работа выполнена на кафедре органической химии Химического института им. А.М. Бутлерова федерального государственного автономного образовательного учреждения высшего профессионального образования Казанский (Приволжский)...»

«МИНГАЛЕВА Нина Анатольевна ЖИЗНЕННОЕ СОСТОЯНИЕ ЗЕЛЕНЫХ НАСАЖДЕНИЙ В УРБАНИЗИРОВАННОЙ СРЕДЕ (НА ПРИМЕРЕ Г. СЫКТЫВКАР) 03.02.08 – экология Автореферат диссертации на соискание ученой степени кандидата биологических наук Сыктывкар - 2012 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Сыктывкарский государственный университет Научный руководитель : Загирова Светлана Витальевна доктор биологических наук,...»

«ГУЩИНА Анна Маратовна РАЗВИТИЕ МЕЖДУНАРОДНОЙ ДЕЯТЕЛЬНОСТИ НГТУ (НЭТИ) в 1953-1992 гг. Специальность 07.00.02 – Отечественная история А В Т О Р Е Ф Е РА Т диссертации на соискание ученой степени кандидата исторических наук Томск, 2006 Диссертация выполнена на кафедре отечественной истории ГОУ ВПО Томский государственный университет. Научный руководитель : доктор исторических наук, профессор Василий Павлович Зиновьев Официальные оппоненты : доктор исторических наук, профессор...»

«КРИВОЛУЦКАЯ Надежда Александровна ЭВОЛЮЦИЯ ТРАППОВОГО МАГМАТИЗМА И Pt-Cu-Ni РУДООБРАЗОВАНИЕ В НОРИЛЬСКОМ РАЙОНЕ Специальность 25.00.11 - геология, поиски и разведка твердых полезных ископаемых; минерагения Автореферат диссертации на соискание ученой степени доктора геолого-минералогических наук Москва – 2012 г. 1 Работа выполнена в Учреждении Российской академии наук Ордена Ленина и Ордена Октябрьской революции Институте геохимии и аналитической химии им. В.И. Вернадского РАН...»

«Терентьева Людмила Казимировна ИНОЯЗЫЧНАЯ ЛЕКСИКА И ЕЕ АДАПТАЦИЯ В ДОКУМЕНТАХ ЦЕРКОВНОГО И АДМИНИСТРАТИВНОГО ДЕЛОПРОИЗВОДСТВА XVIII В. г. ТОБОЛЬСКА Специальность 10.02.01 – Русский язык АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук Челябинск – 2012 Работа выполнена в федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Тобольская государственная социально-педагогическая академия им Д.И....»

«СЕТОВ Никита Романович Политический реализм как теоретико-методологический подход в политической наук е ХХ в.: сущность, эволюция, основные направления Специальность 23.00.01 – теория и философия политики, история и методология политической науки Автореферат диссертации на соискание ученой степени кандидата политических наук Москва – 2011 Диссертационная работа выполнена на кафедре истории социальнополитических учений факультета политологии МГУ имени М.В. Ломоносова. Научный...»

«Карминская Татьяна Юрьевна Эффект Джозефсона в контактах, содержащих многослойные FN структуры Специальность 01.04.04 - физическая электроника Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва - 2009 Работа выполнена на кафедре атомной физики, физики плазмы и микроэлектроники физического факультета Московского государственного университета имени М.В. Ломоносова. Научный руководитель : доктор физико-математических наук, профессор...»

«ЛЫСЕНКОВ СЕРГЕЙ АЛЕКСАНДРОВИЧ БОРЬБА С БЕЗРАБОТИЦЕЙ И САМАРСКАЯ БИРЖА ТРУДА: СРАВНИТЕЛЬНЫЙ АНАЛИЗ (80-е гг. XIX - ПЕРВАЯ ТРЕТЬ XX вв.) Специальность 07.00.02 - Отечественная история АВТОРЕФЕРАТ Диссертации на соискание ученой степени кандидата исторических наук Самара - 2003 2 Работа выполнена в Самарском государственом педагогическом университете на кафедре истории Научный руководитель : кандидат исторических наук, профессор Семашкин Анатолий Алексеевич Официальные...»

«ЛЕБЕДЕВ Леонид Рудольфович ЭКСПЕРИМЕНТАЛЬНЫЕ ПРЕПАРАТЫ НА ОСНОВЕ РЕКОМБИНАНТНЫХ ДНК И БЕЛКОВ ДЛЯ ЛЕЧЕНИЯ И ПРОФИЛАКТИКИ ИНФЕКЦИОННЫХ ЗАБОЛЕВАНИЙ 03.02.02 - вирусология АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора медицинских наук Кольцово - 2010 2 Работа выполнена в Федеральном государственном учреждении науки Государственный научный центр вирусологии и биотехнологии Вектор Федеральной службы по надзору в сфере защиты прав потребителей и благополучия человека...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.