На правах рукописи
КОЖУНОВА ОЛЬГА СЕРГЕЕВНА
ТЕХНОЛОГИЯ РАЗРАБОТКИ СЕМАНТИЧЕСКОГО СЛОВАРЯ
СИСТЕМЫ ИНФОРМАЦИОННОГО МОНИТОРИНГА
Специальность 05.13.17 – Теоретические основы информатики
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Москва, 2009 2
Работа выполнена в Учреждении Российской академии наук Институт проблем информатики РАН
Научный руководитель – кандидат технических наук Зацман Игорь Моисеевич
Официальные оппоненты – доктор технических наук, профессор Хорошевский Владимир Федорович кандидат технических наук, доцент Тарасов Валерий Борисович
Ведущая организация – Всероссийский научно-исследовательский институт проблем вычислительной техники и информатизации (ВНИИПВТИ)
Защита диссертации состоится декабря 2009 года в часов мин. на заседании диссертационного совета Д002.073.01 при Учреждении Российской академии наук Институт проблем информатики РАН по адресу: 119333, Москва, ул. Вавилова, 44, корп. 2.
С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Институт проблем информатики РАН.
Отзывы в одном экземпляре, с заверенной подписью, просим направлять по адресу: 119333, г. Москва, ул. Вавилова, 44, корп. 2, в диссертационный совет.
Автореферат разослан «» 200 г.
Ученый секретарь диссертационного совета Д002.073. доктор технических наук, профессор С.Н. Гринченко
Общая характеристика работы
Актуальность темы. В настоящее время существенно изменилась значимость данных информационного мониторинга научных исследований и программной деятельности в сфере науки. Ранее данные мониторинга и определенные на их основе значения индикаторов практически не влияли на бюджетный процесс. Однако уже через несколько лет планируется значительную часть научного бюджета распределять с учетом значений индикаторов результативности научных исследований. Это коренным образом меняет роль систем информационного мониторинга, анализа и оценивания программной деятельности в сфере науки (далее - систем информационного мониторинга) и определяемых с их помощью значений индикаторов. На сегодняшний день уже накоплен отечественный и зарубежный опыт проведения мониторинга, анализа, индикаторного и экспертного оценивания результативности в сфере науки. Изучение этого опыта позволяет утверждать, что повышение роли систем мониторинга придает весьма актуальный характер задаче построения словаря показателей мониторинга как для описания, так и для решения широкого спектра задач индикаторного и экспертного оценивания результативности в сфере науки. Здесь особую значимость приобретает создание технологии разработки средств лингвистического обеспечения системы информационного мониторинга, основанного на использовании семантического словаря показателей мониторинга.
Целью диссертационного исследования является создание и исследование технологии разработки семантического словаря показателей для систем информационного мониторинга.
Для достижения поставленной цели диссертационного исследования были решены следующие задачи:
• разработка структуры семантического словаря показателей для систем информационного мониторинга;
• создание технологии разработки семантического словаря показателей и ее интеграция в системы информационного мониторинга;
• разработка метода построения комплексных запросов на поиск в БД и вычисление значений индикаторов;
• представление комплексных запросов на поиск в БД, вычисление индикаторов в виде статей семантического словаря и программная реализация запросов.
Методы исследования. Теоретические и практические исследования базируются на методах системного анализа, искусственного интеллекта, в том числе, методах классификации показателей мониторинга и методах построения и обработки запросов на поиск слабоструктурированных полнотекстовых документов.
Новизна работы. Выполненная диссертационная работа является одной из первых попыток создания технологии разработки лингвистического ресурса для системы информационного мониторинга. При ее реализации автором достигнуты новые результаты, основные из которых заключаются в следующем:
модификации семантических словарей на разработанном автором макете системы пополнения семантического словаря, в основе которой лежит механизм пополнения и порождения гипотез разного уровня на основе готового списка понятий и примеров понятий;
• проведен когнитивно-лингвистический анализ экспериментального массива текстов, содержащих термины области мониторинга, анализа и оценки научной деятельности, и согласование извлеченных из них понятий с классификационной схемой показателей мониторинга;
• разработана структура семантического словаря системы информационного мониторинга на основе гибкой и легко модифицируемой классификационной схемы;
• впервые предложена и реализована возможность установления взаимосвязей между словарными статьями индикаторов и алгоритмическими, информационными и нормативными ресурсами для прояснения их смысла и выработки согласованных терминов мониторинга;
• впервые в качестве статей семантического словаря предложено использовать параметризуемую статью: текстовые дефиниции на естественном языке с интегрированными параметрами на поиск в базах данных и вычисление значений индикаторов;
• предложен новый комплексный метод построения запросов на поиск в базах данных и вычисление значений индикаторов в виде параметризуемых статей семантического словаря Информационно-технологической системы мониторинга РАН (ИТСМ РАН).
Разработанный в ходе выполнения данной работы программный модуль ИТСМ РАН «Семантический словарь», функционирующий совместно с основными модулями этой системы, но независящий от других структур классификации индикаторов мониторинга, является уникальным как по самой разработке, так и по своему назначению.
Практическая значимость работы заключается:
• в разработке структуры семантического словаря показателей мониторинга;
• в создании технологии разработки семантического словаря показателей, обеспечивающей построение комплексных запросов на поиск в БД и вычисления значений индикаторов информационного мониторинга;
• в разработке и программной реализации функционального модуля «Семантический словарь», интегрированного в экспериментальный макет ИТСМ РАН;
Финн В.К. О базах знаний интеллектуальных систем типа ДСМ // II Всесоюзная конференция «Искусственный интеллект-90», Минск, 1990 – с. 180-182.
• в программной реализации параметризуемой статьи семантического словаря для индикатора «индексы самоцитирования в патентах»;
• в использовании результатов, полученных в ходе выполнения диссертационной работы, в следующих проектах Российского фонда фундаментальных исследований и Российского гуманитарного научного фонда:
РФФИ, грант № 09-07-00156; РФФИ, грант № 06-07-07001ано; РГНФ, грант № 05-03-03230а; РГНФ, грант № 06-02-04043a; РГНФ, грант № 05-03-12328в.
На защиту выносятся следующие результаты:
1. когнитивная технология разработки семантического словаря системы информационного мониторинга;
2. подход к модификации семантических словарей на основе ДСМ-метода применительно к разработанному автором макету системы пополнения семантического словаря, в основе которой лежит механизм порождения гипотез разного уровня на основе списка понятий и примеров понятий;
3. метод когнитивно-лингвистического анализа экспериментального массива текстов, содержащих термины области мониторинга, анализа и оценки;
4. механизм извлечения понятий из текстов и их согласовывания в соответствии с классификационной схемой показателей мониторинга;
5. метод построения комплексных запросов на поиск в БД и вычисления значений индикаторов на основе статей семантического словаря системы информационного мониторинга;
6. структура словарных статей семантического словаря с интегрированными параметрами поиска в БД и вычисления значений индикаторов (параметризуемых словарных статей);
7. программная реализация функционального модуля семантического словаря и технология его интеграции в систему информационного мониторинга;
Апробация работы и публикации. Материалы диссертации докладывались на следующих международных конференциях и семинарах:
Международная конференция по компьютерной лингвистике «Диалог-2006;
Международная конференция по компьютерной лингвистике «Диалог-2007»;
Международная конференция по компьютерной лингвистике «Диалог-2008»;
Международная конференция «MEGALING-2006» «Горизонты прикладной лингвистики и лингвистических технологий»; Международная конференция «MEGALING-2007» «Горизонты прикладной лингвистики и лингвистических технологий»; Atlanta Conference on Science, Technology and Innovation Policy (ATLC-2007); Atlanta Conference on Science and Innovation Policy (ATLC-2009);
10th International Conference on Science and Technology Indicators; The World Congress in Computer Science, Computer Engineering, and Applied Computing (WORLDCOMP’09); Information and Brokerage Conference on Information and Communication Technologies in the EU's 7th Framework Programme (Moscow-2008); ICT Proposers' Day (Budapest-2009).
Основные результаты диссертации опубликованы в 18 публикациях, в том числе в трех публикациях в рекомендованных ВАК журналах, и в двух научноисследовательских отчетах плановых НИР ИПИ РАН.
Структура диссертации. Диссертация состоит из введения, четырех глав, заключения, списка литературы (80 наименований) и 4 приложений. Работа изложена на 146 страницах, включающих 43 рисунка и 1 таблицу.
СОДЕРЖАНИЕ РАБОТЫ
Во введении обоснована актуальность исследования, сформулированы цель и задачи исследования, научная новизна исследования и приведены основные результаты работы.
В первой главе проводится анализ и обзор видов лингвистического обеспечения, в частности, словарей и тезаурусов, поскольку именно они наиболее часто используются в качестве средств лингвистического обеспечения информационных систем. Среди словарей были рассмотрены традиционные и электронные словари, идеографические словари и тезаурусы. Они проанализированы с точки зрения задач, функций и назначения в сравнении с аналогичными аспектами технологии разработки семантического словаря ИТСМ РАН с целью его позиционирования среди рассмотренных словарей и тезаурусов.
Кроме того, поскольку описываемый в данной работе семантический словарь ИТСМ РАН содержит в себе некоторые черты формальных и неформальных (лингвистических) онтологий, то был проведен соответствующий сопоставительный анализ и позиционирование словаря в рамках системы классификации онтологий, предложенной McGuiness2. В частности, в параграфе 1.1 подробно описан ресурс EuroWordNet, построенный по модели WordNet. Словари такого типа объединяют в себе результаты современных разработок в области компьютерной лингвистики и широко применяются для решения различных задач, в том числе в качестве справочной системы и инструмента для проведения лингвистических исследований.
Далее на основании проведенного анализа в работе приводится описание специфики предлагаемого семантического словаря, существенной для создания технологии его разработки. При этом, использовались такие базовые понятия как показатели, индикаторы, параметры, экспертные оценки и критерии, используемые в процессе информационного мониторинга в сфере науки, в том числе связи между ними, заданные при помощи иерархических отношений и ассоциаций3. Отметим, что словарь содержит формально определенное отношение класс-подкласс (показатели-индикаторы, показатели - индикаторы результатов программ фундаментальных научных исследований, и т.д.).
McGuinness, D. L. (2003) Ontologies come of age. In: Fensel, D.; Hendler, J.; Lieberman, H.;
Wahlster, W. (Eds). Spinning the Semantic Web: Bringing the World Wide Web to Its Full Potential. MIT Press, Cambridge, MA, USA, pp. 171–194.
Зацман И.М Терминологический анализ нормативно-правового обеспечения создания систем мониторинга в сфере науки // Экономическая наука современной России. № 4, 2005. - С. 114-129.
В следующем параграфе главы 1 рассматривается назначение средств лингвистического обеспечения систем информационного мониторинга и приводится описание функций семантического словаря. В частности, различия в понимании экспертами смысла индикаторов являются серьезным препятствием в реализации всех трех основных процедур, необходимых для оценивания программной деятельности в сфере науки: информационный мониторинг, анализ, получение количественных и экспертных оценок ее результатов, эффективности и результативности. Это вызвало необходимость решения задачи согласования понимания индикаторов разными экспертами.
Отмечено, что в силу особенностей формирования терминов мониторинга возникает также задача частной референции, когда одно название индикатора может обозначать целый класс индикаторов (например, индексы цитирования, смысл которых зависит от учета самоцитирования, а также цитирования соавторами и т.п.).
Для обеспечения необходимой функциональности словаря необходима экспликация видов референции для индикаторов. Для этого в системе мониторинга в момент времени использования каждого названия индикатора предлагается различать три основных вида референции:
• название индикатора относится ко всем вариантам алгоритма, которые могут использоваться для вычисления его значений;
• название индикатора относится только к части (подклассу) вариантов алгоритма;
• название индикатора относится только к одному варианту.
Для экспликации используемого вида референции в словарной статье семантического словаря, посвященной некоторому индикатору, предлагается включить список всех вариантов алгоритма, которые могут использоваться для вычисления его значений. Упомянутая функция дополняет классификационную функцию словаря по отношению ко всему набору индикаторов и других показателей системы мониторинга.
В результате обзора традиционных словарей и электронных лингвистических ресурсов показано, что новизна предлагаемого семантического словаря состоит в том, что он содержит ссылки на алгоритмические и информационные ресурсы системы информационного мониторинга, а также нормативные документы как источники терминов рассматриваемой предметной области. Инструмент с таким сочетанием функций для области информационного мониторинга разработан впервые.
В последнем параграфе главы 1 рассматриваются аспекты обработки исходных ресурсов словаря системы информационного мониторинга. По результатам отбора текстовых массивов, содержащих термины информационного мониторинга, был произведен когнитивно-лингвистический анализ текста. Формализация процесса извлечения знаний об индикаторах из текстовых массивов (в частности, нормативных документов) была осуществлена автором (в режиме экспертного анализа) на языке логики предикатов первого порядка для лексического и семантического уровней лексического уровня приведены ниже.
M={t1, t2, t3,…tn} – исходный корпус текстов, содержащих термины мониторинга, в частности, имена индикаторов (tj – некоторый нормативный документ);
I={i1, i2, i3,… iy} – система терминов мониторинга, построенная на основе корпуса М, где y – число терминов системы;
Def={def1, def2,…defv} – множество определений системы терминов мониторинга, заданных в корпусе M, где v – количество определений;
Def j = {def j1, def j2,… def jz } – множество определений смысла индикаторов, содержащихся в корпусе M (z – количество определений индикаторов, 0zy) определено для некоторого tj M, Def Def j ;
I ind = {iind1, iind 2, iind3, ….iindu } – подсистема терминов мониторинга – множество индикаторов, I I ind, u – число индикаторов;
I j = {i j1, i j2, i j3, ….i jd } – множество индикаторов документа tj, I I j, d – число индикаторов (дефиниции этих индикаторов приведены в M);
Базовая аксиома 1 (о существовании текста для произвольного термина из системы терминов мониторинга) для I={i1, i2, i3,… iy}, y-число терминов