Московский государственный университет имени М.В. Ломоносова
На правах рукописи
Алексеев Алексей Александрович
Метод автоматического аннотирования новостных кластеров на
основе тематического анализа
Специальность 05.13.11 – математическое и программное обеспечение
вычислительных машин, комплексов и компьютерных сетей
Автореферат диссертации на соискание ученой степени кандидата физико-математических наук
Москва – 2014
Работа выполнена на кафедре алгоритмических языков факультета вычислительной математики и кибернетики Московского государственного университета имени М.В. Ломоносова.
Научный руководитель: доктор физико-математических наук, профессор, зав. каф. алгоритмических языков ВМиК МГУ имени М.В. Ломоносова, Мальковский Михаил Георгиевич
Официальные оппоненты: Фомичев Владимир Александрович доктор технических наук, профессор, НИУ ВШЭ, факультет бизнес-информатики, профессор кафедры инноваций и бизнеса в сфере информационных технологий Васильев Виталий Геннадьевич кандидат технических наук, доцент, ООО «ЛАН-ПРОЕКТ», научный консультант
Ведущая организация: Казанский (Приволжский) Федеральный Университет
Защита состоится 19 сентября 2014 г. в 11 часов на заседании диссертационного совета Д.501.001.44 при Московском государственном университете имени М.В. Ломоносова по адресу: 119991, ГСП-1, Москва, Ленинские горы, МГУ, 2-й учебный корпус, факультет Вычислительной математики и кибернетики, аудитория 685. Желающие присутствовать на заседании диссертационного совета должны сообщить об этом за 2 дня до указанной даты по тел. (495) 939-30-10 (для оформления заявки на пропуск).
С диссертацией можно ознакомиться в Фундаментальной библиотеке МГУ имени М.В. Ломоносова. С текстом автореферата можно ознакомиться на официальном сайте ВМК МГУ имени М.В. Ломоносова http://www.cmc.msu.ru в разделе «Наука» – «Работа диссертационных советов» – «Д 501.001.44».
Автореферат разослан «_» августа 2014 года.
Ученый секретарь диссертационного совета Д 501.001.44, к. т. н., в. н. с. Костенко В.А.
Общая характеристика работы
Актуальность темы. Развитие информационных технологий и появление сети Интернет явились причиной экспоненциального роста объемов электронной информации, начавшегося приблизительно два десятилетия назад и стремительно продолжающегося в настоящее время.
Объемы информации уже сейчас достигли таких размеров, что человек не способен самостоятельно ознакомиться с материалами всех информационных источников, зачастую даже в контексте специализированных информационных потребностей. Данный факт обусловил активное развитие исследований в области задачи автоматического аннотирования – представления релевантной и наиболее значимой информации, необходимой пользователю, в сжатом, лаконичном виде.
Методы автоматического аннотирования исследовались в трудах российских и зарубежных ученых, таких как Барзилай Р., Добров Б.В., Лукашевич Н.В., Лун Х., МакКьюин К., Мальковский М.Г., Мани И., Машечкин И.В., Ненкова А., Петровский М.И., Севбо И.П., Тарасов С.Д., Фомичев В.А., Шиффман Б., Эдмундсон Х. и многих других авторов. Спектр областей применения систем автоматического аннотирования обширен, от бытовых информационных потребностей обычных пользователей до узкоспециализированных аналитических задач. Например, в рамках исследовательской программы SUMMAC 1 (США) установлено, что время принятия аналитиком решения о релевантности текстового документа некоторой тематике может быть сокращено в 2 раза за счет использования аннотации исходного документа, без статистически значимого ухудшения точности данного решения. Подготовка обзорных рефератов для коллекции документов уже давно является одним из ключевых элементов в организации http://www.itl.nist.gov/iaui/894.02/related_projects/tipster_summac/ которого является минимизация его общего времени.
При этом как сами задачи аннотирования, так и предметные области необходимость разработки индивидуальных алгоритмов аннотирования.
Современные технологии автоматической обработки новостных потоков основаны на тематической кластеризации новостных сообщений, т. е.
выделении совокупностей новостей, посвященных одному и тому же событию – новостных кластеров. Одной из важных и актуальных специализированных задач аннотирования является автоматическое аннотирование новостных кластеров. Новостной кластер и методы автоматического аннотирования новостных кластеров являются основными объектами рассмотрения данной кандидатской диссертации.
совокупности связанных ситуаций), со своим набором участников, которые в исходном кластере могут быть представлены различными языковыми выражениями, то есть словами или словосочетаниями. Например, международный аэропорт «Внуково», расположенный в Москве, может упоминаться в рамках некоторого новостного кластера как московский международный аэропорт Внуково, московский аэропорт, столичный аэропорт, аэропорт Внуково, международный аэропорт и так далее.
Качественное выделение участников ситуации, включая различные варианты их наименования в различных документах кластера, может помочь лучше определять основную тему новостного кластера и, таким образом, позволит повысить качество различных операций с новостными кластерами, таких как автоматическое аннотирование, определение новизны информации и других автоматических операций.
Таким образом, актуальной является задача выявления различных вариантов именования основных участников ситуации, описываемой в рамках новостного кластера. В данной работе предлагается модель участников ситуации с учетом вариативности их именования – тематических цепочек новостного кластера. Рассматриваются методы улучшения качества извлечения основных участников новостного события, что включает нахождение совокупности слов и выражений, с помощью которых тот или иной значимый участник события именовался в документах новостного кластера. Предлагаемый подход основан на совместном использовании совокупности факторов, в том числе разного рода контекстов употребления слов в документах кластера, информации из предопределенных источников (тезаурус русского языка), а также особенностях построения текстов на естественном языке.
Целью диссертационной работы являются разработка методов и программных средств построения модели основных участников новостного кластера с учетом вариативности их именования на основе комбинации разнородных факторов схожести и интеграция построенной модели в методы автоматического аннотирования. Разрабатываемые программные средства и полученная модель должны удовлетворять следующим требованиям: высокая точность выявления различных вариантов именования основных участников;
возможность интеграции построенной модели в другие задачи автоматической обработки текста; независимость от предметной области.
Для достижения этой цели были решены следующие задачи:
1. исследование и построение модели основных участников новостного кластера с учетом вариативности их именования и специфики внутреннего устройства текстов на естественном языке;
2. разработка методов интеграции построенной модели в методы автоматического аннотирования, а также разработка двух новых метод на основе построенной модели;
3. разработка и реализация программного модуля для построения тематических цепочек новостного кластера;
аннотирования новостного кластера, реализующего методы аннотирования на базе построенных тематических цепочек.
Основные положения, выносимые на защиту:
1. Предложен и реализован новый метод автоматического построения модели основных участников новостного кластера (выражаемых тематическими цепочками), основанный на комбинировании разнородных признаков сходства;
2. Предложен метод применения построенной модели в существующих методах автоматического аннотирования;
3. На основе построенной модели предложены и реализованы два новых метода автоматического аннотирования;
4. Показано улучшение качества работы алгоритмов аннотирования на основе тематических цепочек.
Научная новизна настоящей диссертационной работы заключается в том, что предложен новый метод построения модели совокупности участников новостного кластера, основанный на комбинации признаков различной природы: как статистических контекстных, так и априорных.
Применимость данного метода обоснована теоретически – на основе анализа полезности отдельных признаков для определения близости языковых выражений, а также численно – на основе экспериментов по интеграции в методы автоматического аннотирования. Разработанная модель не зависит от предметной области и может применяться в различных задачах автоматической обработки новостных кластеров.
Практическая значимость. На основе предложенного алгоритма спроектирована и реализована многомодульная программная система со следующими функциональными возможностями:
построение тематических цепочек новостного кластера;
различными алгоритмами аннотирования;
автоматическая оценка конкурсных аннотаций.
Таким образом, разработанная система может быть использована как для подготовки дополнительной входной информации для других систем автоматической обработки новостных кластеров, так и для формирования автоматических аннотаций новостного кластера.
Апробация работы. Основные результаты работы докладывались на следующих конференциях и семинарах:
всероссийской научной конференции «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции»
(Казань, 13-17 октября 2010 г.);
Образование» (Дубна, 25-30 января 2010 г.);
информации (CDUD), проходящему совместно с конференцией RSFDGrC (Москва, 25-30 июня 2011 г.);
семиотическое моделирование» (Казань, 24-27 февраля 2011 г.);
международной конференции «Диалог» (Московская область, 25мая 2011 г.);
летней школе по информационному поиску RUSSIR (Ярославль, международной конференции «Spring Researchers Colloquium on Databases and Information Systems» (Москва, 1 июня 2012 г.);
всероссийской научной конференции «Электронные библиотеки:
перспективные методы и технологии, электронные коллекции»
(Ярославль, 14-17 октября 2013 г.);
информационных ресурсов НИВЦ МГУ, на семинаре в НИУ ВШЭ и на регулярном семинаре ACM SIGMOD в Москве.
Личный вклад автора заключается в выполнении основного объема теоретических и экспериментальных исследований, изложенных в диссертационной работе, включая разработку теоретической модели, методик экспериментальных исследований, проведение исследований, анализ и оформление результатов в виде публикаций и научных докладов.
Основные положения, выносимые на защиту, описанные в совместных публикациях, принадлежат автору диссертации.
Публикации. Основные результаты по теме диссертации изложены в 14 печатных работах, в том числе 3 статьях в журналах из списка ВАК ([1], [2], [3]) и 3 статьях, входящих в базу SCOPUS ([4], [5], [6]).
Объем и структура диссертации. Диссертация состоит из введения, четырех глав, заключения и двух приложений. Полный объем диссертации составляет 122 страницы с 15 рисунками и 7 таблицами, объем приложений – 9 страниц. Список литературы содержит 82 наименования.
Содержание работы Во введении обоснована актуальность диссертационной работы, сформулирована цель исследований, показаны их научная новизна и практическая значимость, представлены научные положения, выносимые на защиту.
аннотирования, классификации типов аннотаций и областей применимости систем автоматического аннотирования. Также в данной главе приводится обзор алгоритмов построения аннотаций, базовых идей, моделей и принципов построения автоматических аннотаций, а также методов оценки качества и сравнения результатов работы различных систем автоматического аннотирования. Особое внимание уделяется задаче и алгоритмам построения кандидатской диссертации является новостной кластер. Целью данной главы автоматического аннотирования, а также проблем в данной области, в частности обоснование важности учета лексическо-семантической вариативности, широко присутствующей в текстах на естественном языке.
аннотирования работает на основе экстрактивного подхода к аннотированию, т. е. выбора целых предложений исходной коллекции S для автоматической аннотации S`, удовлетворяющей ограничению на длину L:
где S* - подмножество предложений S, f() – некоторая мера качества для аннотации. Оценка информативности предложений, на базе которой происходят ранжирование и отбор предложений в результирующую аннотацию, строится на основе слов и выражений, входящих в данное аннотирования работает с пословной моделью представления предложений входной коллекции:
где wW - словарь, m – количество слов в предложении sS.
Данная модель обладает рядом ограничений, связанных с лексикосемантической вариативностью, широко встречающейся в текстах на естественном языке. Это означает, что для качественного решения задачи автоматического аннотирования необходима более комплексная модель, содержащая информацию о:
содержащихся в языковом выражении ti, M – общее количество языковых выражений в рассматриваемой коллекции;
Вторая глава посвящена проблеме вариативности терминов в текстах на естественном языке, описываются существующие методы выявления различных типов вариативности, а также вводится формальная модель совокупности участников ситуации, описываемой в текстовой коллекции, с Предлагаемые модель и алгоритм построения тематических цепочек основаны на свойствах глобальной и локальной связности текстов на естественном языке. Ван Дейк и Кинч2 описывают тематическую структуру текста как иерархическую, в том смысле что тема всего текста описывается посредством более конкретных подтем, которые в свою очередь могут быть охарактеризованы посредством еще более конкретных подтем текста и т.д.
Под темой/подтемой при этом понимается предикат P(C1, …, Cn ), его атрибуты C1,…,Cn будем называть тематическими элементами. Каждое предложение s связного текста посвящено раскрытию той или иной подтемы Pi уровня level основной темы текста: s Pi (Ci_1, …, Ci_n ), раскрывающей один из аспектов взаимоотношений тематических элементов Ci_1, …, Ci_n.
При этом отнесение к тематическим элементам Ci_1, …, Ci_n внутри s осуществляется с помощью конкретных языковых выражений, упомянутых в s Pilevel (Ci_1, …, Ci_n ) Pi level (Ci_1 {t i_1 }, …, Ci_n {t i_n }), t i_1,..., t i_n s Таким образом, для отнесения к некоторому тематическому элементу Сm используется определенный набор языковых выражений, каждое из которых применяется для раскрытия определенных подтем текста: Cm {t m,..., t m,... }.
Дейк В., Кинч В. Стратегии понимания связного текста // Новое в зарубежной лингвистике, Выпуск 23, Москва, 1988. - С. 153-211.
языковые выражения t1 и t2 часто встречаются в анализируемом тексте в одних и тех же простых предложениях, то это означает, что данный текст посвящен рассмотрению отношений между этими сущностями, т. е. t1 и t соответствуют разным тематическим элементам. С другой стороны, если два языковых выражения t1 и t2 редко встречаются в одних и тех же предложениях текстов, но при этом часто упоминаются в соседних используются для осуществления локальной связности, то есть между ними имеется смысловая связь.
Гипотеза о совместной встречаемости связанных языковых выражений легла в основу ограничивающего фактора IsNSCriterion(ti,tj), который является управляющим в предлагаемом алгоритме построения тематических цепочек:
где count(A|B) – количество элементов A, удовлетворяющих условию B (в данном случае предложений и пар предложений); NS (sk, sm ) – признак последовательного появления предложений sk и sm в исходном новостном IsNSCriterion(ti,tj), не использовалась ранее для решения таких задач, как установление вариантов именования основных участников ситуации, построение рядов квазисинонимов, лексических цепочек и т.п. Таким образом, задача построения тематических цепочек представляет собой задачу кластеризации с ограничениями:
языковых выражений с выделенным центральным элементом Ограничения:
содержит один и только один центральный элемент;
выражение является элементом не более чем двух и не менее чем одной тематической цепочки либо центром единственной tci : (tcij 0 tcik 0) IsNSCriterion (tcij, tcik ) true – выполнено ограничивающее условие на объединение языковых выражений в В диссертации предложен алгоритм построения тематических цепочек, объединяющий характеристики схожести различной природы – контекстнозависимых и контекстно-независимых признаков. Каждая характеристика имеет вещественный вес в диапазоне [0,1].
Контекстно-зависимые характеристики Количество вхождений в соседние предложения (Neighboring Sentence Feature, NSF). Данная характеристика основана на гипотезе глобальной связности текстов на естественном языке и её следствии о том, что элементы одной тематической цепочки чаще появляются в соседних предложениях исходных документов, чем в одних и тех же предложениях.
Характеристика NSF вычисляется на основе контекстных параметров AcrossVerb (количество вхождений в одно предложение через глагол), Near (количество вхождений в одно предложение непосредственно рядом), NotNear (количество вхождений в одно предложение не рядом) и NS (количество вхождений в соседние предложения), а также распределения их средних значений внутри исходного новостного кластера:
где Avg(C) является средним значением C среди всех положительных значений в рамках кластера.
сравнении строгих контекстов употреблений слов – текстовых шаблонов. В качестве шаблонов рассматриваются 4-граммы, два выражения влево и вправо от рассматриваемого выражения: si (ti1,.., tij 2, tij 1, tij, tij 1, tij 2,.. ), где (tij-2, tij-1, tij+1, tij+2) является строгим контекстом выражения tij в некотором предложении si. Итоговая схожесть по характеристике SC для выражений t i и t j имеет следующий вид:
Схожесть контекстов употребления по внутренним характеристикам предложения (Scalar Product Similarity, SPS). Анализу подвергаются вектора контекстов сравниваемых языковых выражений, сравнение производится по классической косинусной мере:
Vi AcrossVerb (viAcrossVerb,.., viAcrossVerb ) где Context={AcrossVerb, Near, NotNear, NS} – различные типы контекстов.
Контекстно-независимые характеристики Формальное сходство (Beginning Similarity, BS). Рассмотрение формального модифицированной меры Жаккара:
Информация о схожести, описанная во внешнем ресурсе – тезаурусе РуТез (Thesaurus Similarity, TS). Анализ информации из внешнего ресурса – тезауруса РуТез, а именно, следующих видов связей: синонимия, часть – целое, род – вид. Вес схожести убывает с ростом длины пути по отношениям и имеет следующий вид:
где Nrel – длина пути по отношениям тезауруса (количество связей), {Reltype} – информация о типах связей по данному пути.
Наличие одинаковых языковых выражений (Embedded Objects Similarity, EOS). При анализе схожести тематических цепочек, включающих в себя несколько языковых выражений, важным фактором схожести является наличие общих языковых выражений:
Алгоритм построения тематических цепочек является итеративным, в рамках каждой из итераций происходят ранжирование всех пар – кандидатов на объединение – по суммарному весу характеристик схожести и продолжается до тех пор, пока есть пары – кандидаты для объединения с предварительным этапом построения тематических цепочек является сборка многословных выражений, которая основана на естественном принципе превышения встречаемости слов непосредственно рядом друг с другом по сравнению с раздельной встречаемостью:
следующие этапы в процессе построения:
Итерация 7: (Отставка) (Отставка с должности) Итерация 33: (Отставка, Отставка с должности) (Уход в отставку) Итерация 44: (Отставка, Отставка с должности, Уход в отставку) (Отставка президента) Итерация 61: (Уход с поста) (Уход в отставку) Итерация 62: (Отставка, Отставка с должности, Уход в отставку, Отставка президента) (Уход с поста, Уход в отставку) Итерация 102: (Отставка, Отставка с должности, Уход в отставку, Отставка президента, Уход с поста) (Пост) Итерация 103: (Пост, Отставка, Отставка с должности, Уход в отставку, Отставка президента, Уход с поста) (Должность) Итерация 104: (Пост, Отставка, Отставка с должности, Уход в отставку, Отставка президента, Уход с поста, Должность) (Уход) Псевдокод алгоритма построения тематических цепочек:
Процедура: Построение тематических цепочек Вход: 1. Новостной кластер D с выделенными языковыми 2. Similarity_Score(tc1, tc2) – общий вес по характеристикам Выход: 1. Набор тематических цепочек TC новостного кластера D // Инициализируем множество тематических цепочек отдельными языковыми выражениями TC = T;
joinFlag = true;
while(joinFlag) joinFlag = false;
// Сформировать пары цепочек, удовлетворяющих ограничению Pairs = {(tci, tcj) | IsNSCriterion(tci, tcj)=true, tci, tcj TС};
Pairs.OrderByDescending(Similarity_Score(tci, tcj) );
// Выбрать пару для объединения { tci, tcj } = Pairs[0];
// Объединение в случае достаточной схожести if ( Similarity_Score(tci, tcj) > C) if ( Frequency(tci) > Frequency(tcj) ) tcnew={tmain=tmain_i, ti1, …, tin, tj1, …, tjm};
TC.Remove(tci);
tcnew={tmain=tmain_j, ti1, …, tin, tj1, …, tjm};
TC.Remove(tcj);
// Произвести расчет характеристик для новой пары tcnew CalculateParameters (D, TС, tcnew);
TC.Add ( tcnew );
joinFlag = true;
end-if;
end-while;
цепочек новостного кластера с m итерациями работы имеет следующий вид:
O(n 2 ) m O(2 n), где n количество языковых выражений Одной из базовых задач автоматической обработки естественного языка является установление схожести фрагментов текстов, в частности, установление схожести предложений. Соответствующая операция лежит в основе большинства алгоритмов аннотирования, работающих по принципу выделения наиболее значимых предложений исходной коллекции. В рамках диссертационной работы сформулирована и доказана лемма, описывающая влияние операций, выполняемых при построении модели основных участников ситуации, на установление схожести фрагментов текста.
Лемма. Последовательное применение операций добавления многословного выражения f MWE ( wi, w j, s1 ) и установления схожести fTC (w1, wm, tc, s1, s2 ) при выполнении условия на установление схожести для одной из частей схожести между предложениями f MWE (wi1, w1j, s1 ) (wi1 s2 ) (w1j s2 ) tc`: (wi1 w1j tc`) ((wi1 tc`) (w1j tc`)) (*) Эта лемма подтверждает возможность повышения качества методов описывающих основных участников входной текстовой коллекции.
В третьей главе описывается алгоритм интеграции построенной модели тематических цепочек в существующие методы автоматического аннотирования Maximal Marginal Relevance4 (MMR) и Sumbasic5. Интеграция заключается в двухступенчатом переходе от пространства отдельных слов (bag-of-words model) к пространству языковых выражений:
Слова Объекты (слова + мног.выр.) Тематические цепочки информации о многословных выражениях – переход от слова к объекту (отдельные слова или многословные выражения);
тематических цепочек каждый объект может принадлежать к Каждая тематическая цепочка имеет вес, равный сумме частот его элементов:
Элементы цепочек имеют вес схожести с центральным элементом, равный отношению набранного суммарного балла по характеристикам схожести (при Добавление многословного выражения wi1 w1j в предложение s1 в случае вхождения компонентов данного выражения wi1 и w1j в предложение s2 требует установления дополнительной связи нового выражения wi1 w1j с одним из его компонентов Carbonell J., Goldstein J. The use of MMR, diversity-based reranking for reordering documents and producing summaries // Proceedings of ACM SIGIR`1998, Australia, pp. 335 – Nenkova, A. and L. Vanderwende. The impact of frequency on summarization // Microsoft Research Technical Report, MSR-TR-2005-101, схожести:
Кроме того, на основе сконструированных тематических цепочек предлагаются два новых метода автоматического аннотирования:
тематическим цепочкам):
Отбор предложений на основе взаимоотношений участников ситуации (по связям тематических цепочек):
где tcrel = {tc1, tc2} – пара тематических цепочек; weight(tcrel) – число вхождений пары в одни и те же предложения кластера; tcrel_new – новая пара тематических цепочек, не упомянутая в одних и тех же предложениях, уже отобранных в аннотацию.
Оценка качества полученных автоматических аннотаций, а именно, построенных тематических цепочек является мерой качества самих тематических цепочек. Для проведения оценки были подготовлены новостных кластеров различной тематики (спорт, политика, происшествия), профессиональными лингвистами были подготовлены от 2 до 4 ручных (классические методы аннотирования 4, 5, 9; классические методы с интеграцией тематических цепочек 1, 7, 10; новые методы аннотирования на основе тематических цепочек 2, 3, 6, 9 с учетом и без учета IDF).
3. OurSummary (Nodes) 6. OurSummary (Relations) 9. OurSummary (Relations) with IDF 10. MMR with IDF + Процедура оценки состояла из двух этапов. Сначала все модификации методов были оценены автоматическими мерами качества официального пакета ROUGE6. В Табл. 1 представлены результаты ROUGE по основным мерам качества (Avg – средняя позиция по всем мерам качеств).
Наиболее значимыми являются следующие результаты:
Интеграция построенных тематических цепочек в классические методы автоматического аннотирования MMR и SumBasic Для подтверждения результатов оценки методом ROUGE лучшие и наиболее приоритетные модификации методов были дополнительно оценены методом «Пирамиды»7 (Табл. 2).
Lin C.-Y. ROUGE: a Package for Automatic Evaluation of Summaries // Proceedings of ACL’2004, pp. 74- Harnly A., Nenkova A., Passonneau R., Rambow O. Automation of summary evaluation by the pyramid method // Proceedings of RANLP’2005, Bulgaria, Табл. 2: Результаты оценки методом «Пирамиды»
Результаты оценки методом «Пирамиды» подтверждают факты, установленные при оценке методом ROUGE, а именно, улучшение качества методов автоматического аннотирования при интеграции в них построенных тематических цепочек на основе совокупности разнородных факторов.
В рамках проведенного диссертационного исследования разработан программный комплекс по автоматической обработке новостных кластеров, описание которого приведено в четвертой главе. Данный комплекс включает в себя следующие независимые модули:
построения тематических цепочек новостного кластера на основе разработанного алгоритма;
автоматического аннотирования, реализующий более 10 различных методов аннотирования;
автоматической оценки аннотаций новостного кластера на основе Модули объединены в единое приложение и могут взаимодействовать друг с другом по принципу конвейера в указанной последовательности, обеспечивая замкнутый цикл обработки новостного кластера всеми функциональными блоками.
В заключении приведены основные результаты работы, которые состоят в следующем:
1. Предложена модель, позволяющая с помощью тематических цепочек новостного кластера описывать основных участников этого кластера с учетом вариативности их именования и специфики внутреннего устройства текстов на естественном языке;
тематических цепочек новостного кластера, основанный на комбинировании разнородных признаков схожести;
3. Предложен и реализован метод интеграции построенной модели в существующие методы автоматического аннотирования, а также два новых метода автоматического аннотирования на основе тематических цепочек. Показано улучшение качества работы алгоритмов аннотирования на основе построенной модели.
Издания из списка ВАК:
[1] Алексеев А.А. Тематический анализ новостного кластера как основа для автоматического аннотирования // Программная инженерия. – 2014. – № 3. – C. 41-48.
[2] Алексеев А.А., Лукашевич Н.В. Комбинирование признаков для извлечения тематических цепочек в новостном кластере // Труды Института системного программирования РАН. – 2012. – Т. 23. – C. 257-276.
[3] Алексеев А.А., Лукашевич Н.В. Автоматическое извлечение сущностей на основе структуры новостного кластера // Искусственный интеллект и принятие решений. – 2011. – № 4. – С. 51-59.
Издания из списка SCOPUS:
[4] Alekseev A.A., Loukachevitch N.V. Use of Multiple Features for Extracting Topics from News Clusters // Proceedings of the Spring Researchers Colloquium on Databases and Information Systems. – 2012. – P. 3-11.
[5] Alekseev A.A., Loukachevitch N.V. The automatic retrieval of news entities based on the structure of a news cluster // Scientific and Technical Information Processing. – 2012. – Vol. 39, № 6. – P. 303-309.
[6] Alekseev A.A., Loukachevitch N.V. Automatic Entity Detection Based on News Cluster Structure // Proceedings of the International Workshop on Concept Discovery in Unstructured Data. – 2011. – P. 1-10.
Другие публикации:
[7] Алексеев А.А., Мальковский М.Г. Автоматическое аннотирование новостного кластера на основе тематического анализа // Тезисы докладов конференции «Тихоновские чтения». – М.: МГУ, 2013. – С. 55.
[8] Алексеев А.А. Тематическое представление новостного кластера как основа для автоматического аннотирования // Труды всероссийской конференции RCDL. – 2013. – С. 359-369.