WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Соченков Илья Владимирович

РЕЛЯЦИОННО-СИТУАЦИОННЫЕ СТРУКТУРЫ

ДАННЫХ, МЕТОДЫ И АЛГОРИТМЫ РЕШЕНИЯ

ПОИСКОВО-АНАЛИТИЧЕСКИХ ЗАДАЧ

Специальность: 05.13.17 – Теоретические основы информатики

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата физико-математических наук

Москва, 2014

Работа выполнена в лаборатории динамических интеллектуальных систем федерального государственного бюджетного учреждения науки Института системного анализа Российской академии наук.

доктор физико-математических наук, профессор

Научный руководитель:

Осипов Геннадий Семенович

Официальные оппоненты: Аншаков Олег Михайлович доктор физико-математических наук, профессор, профессор кафедры математики, логики и интеллектуальных систем в гуманитарной сфере отделения интеллектуальных систем в гуманитарной сфере федерального государственного бюджетного учреждения высшего профессионального образования «Российский государственный гуманитарный университет»

Чеповский Андрей Михайлович кандидат технических наук, доцент, доцент кафедры анализа данных и искусственного интеллекта федерального государственного автономного образовательного учреждения высшего профессионального образования «Национальный исследовательский университет "Высшая школа экономики"»

федеральное государственное бюджетное

Ведущая организация:

образовательное учреждение высшего профессионального образования «Национальный исследовательский университет "МЭИ"»

Защита состоится «16» октября 2014 г. в 16 часов 00 минут на заседании диссертационного совета Д 002.017.02 в федеральном государственном бюджетном учреждении науки Вычислительном центре им. А.А. Дородницына Российской академии наук по адресу: 119333, Москва, ул. Вавилова, д. (конференц-зал).

С диссертацией можно ознакомиться в библиотеке ВЦ РАН и на официальном сайте ВЦ РАН: http://www.ccas.ru/

Автореферат разослан « 28 » августа 2014 г.

Ученый секретарь диссертационного совета Д 002.017.02, доктор физико-математических наук Рязанов В.В.

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы исследования. Развитие Интернета привело к росту объёмов доступной информации, которая может быть использована при решении важных задач в ходе научно-исследовательской и экспертной деятельности, для поддержки принятия решений в научно-технической, социальной и других сферах. Анализ этой информации и её использование при принятии стратегических решений даёт преимущество в развитии экономики, науки и технологий. Поисково-аналитическая обработка информации в условиях динамично растущего Интернета не может быть выполнена без автоматизированных информационно-аналитических систем (ИАС).

Современные ИАС включают в себя инструменты решения следующих задач:

полнотекстовый поиск документов, релевантных информационной потребности пользователя, сформулированной в виде набора ключевых слов, осмысленной фразы, предложения или вопроса на естественном языке (ЕЯ) с дополнительными ограничениями на метаданные, которые могут задаваться как в текстовом, так и нетекстовом виде;

реферирование результатов полнотекстового поиска, а также отдельных документов;

поиск текстовых заимствований в коллекциях документов;

поиск содержательно и тематически близких документов, включая тематическую кластеризацию и классификацию;

извлечение из текстов ЕЯ структурированных данных и фактов, установление зависимостей и связей между ними, например, выявление отзывов о товарах и услугах и анализ тональности высказанных мнений.

В центре внимания пользователей ИАС находится именно текстовая информация и её содержание. Многие факторы, успешно используемые при ранжировании результатов поиска в поисковых машинах Интернета, не применимы в ИАС. Поэтому современные исследования в области информационно-аналитической обработки текстов направлены на развитие методов, основанных на анализе лингвистической информации. При этом текст и составляющие его элементы характеризуется лексико-морфологическими, синтаксическими и семантическими признаками.

В настоящее время созданы методы лингвистического анализа текстов и разработаны программные системы, позволяющие автоматически выполнять морфологический, синтаксический и семантический анализ предложений текста: АОТ1, Solarix2, NLTK3, FreeLing4 и другие. Вычислительная Автоматическая Обработка Текста (АОТ). / [Электронный ресурс] URL:

http://www.aot.ru (дата обращения 23.01.2014) эффективность этих систем и уровень качества лингвистического анализа позволяют применять их для обработки больших коллекций текстов. Однако в существующих ИАС, как правило, не применяются наукоёмкие методы лингвистического анализа текстов, поскольку в настоящее время отсутствуют эффективные методы хранения и обработки лингвистической информации, необходимой для решении поисково-аналитических задач, например, морфологических признаков, синтаксических связей, категориальносемантических значений (ролей) и семантических отношений на структурах текстов. Реляционные базы данных и стандартные инвертированные индексы не позволяют эффективно хранить и совместно использовать эту лингвистическую информацию, в то время как использование этой информации обеспечивает повышение качества решения задач аналитической обработки больших коллекций текстовых документов. В настоящей диссертационной работе предложен метод оценки сходства текстов с использованием лексикоморфологической, синтаксической и семантической информации, а также структуры данных и алгоритмы информационного поиска на основе этого метода, обладающие большей эффективностью и обеспечивающие более высокое качество результатов, нежели существующие методы решения поисково-аналитических задач в ИАС, что свидетельствует об актуальности темы исследования.



Предмет исследования – методы оценки сходства текстов с использованием лексико-морфологической, синтаксической и семантической информации; метод поиска информации на основе оценки сходства текстов, а также структуры данных и алгоритмы, реализующие указанные методы.

Целью исследования является повышение качества (полноты и точности) и вычислительной эффективности решения поисково-аналитических задач за счёт разработки и применения метода оценки сходства текстов, учитывающего лексико-морфологическую, синтаксическую и семантическую информацию, и создания структур данных и алгоритмов информационного поиска, реализующих этот метод.

Solarix: Компьютерная лингвистика. / [Электронный ресурс] URL:

http://www.solarix.ru/ (дата обращения 05.03.2014) Natural Language Toolkit. / [Электронный ресурс] URL: http://nltk.org/ (дата обращения 05.03.2014).

Bird S. Natural Language Processing with Python. / O'Reilly Media Inc, Freeling: An Open Source Suite Of Language Analyzers. / [Электронный ресурс] URL:

http://nlp.lsi.upc.edu/freeling/ (дата обращения 05.03.2014) Justin Zobel, Alistair Moffat. «Inverted files for text search engines». /ACM Computing Surveys (CSUR). Vol. 38, №2, 2006. Article 6. doi:10.1145/1132956. Задачи исследования:

1. Разработка лексико-морфологических, синтаксических и семантических критериев оценки сходства текстов, а также метода оценки сходства текстов на основе этих критериев.

2. Разработка модели данных, предназначенной для исследования свойств структур данных и алгоритмов поисково-аналитической обработки текстовой информации.

3. Разработка и программная реализация структур данных, необходимых для решения задачи оценки сходства текстов и предназначенных для представления, хранения и обработки лексико-морфологической, синтаксической и семантической информации, являющейся результатом компьютерного лингвистического анализа текстов.

4. Разработка и программная реализация алгоритмов информационного поиска на основе многокритериальной оценки сходства текстов.

5. Экспериментальные исследования разработанных структур данных, алгоритмов формирования инвертированных индексов и многокритериальной оценки сходства текстов.

Для решения поставленных задач применены следующие методы исследования:

1. Методы теории множеств и алгебры логики.

2. Методы объектно-ориентированного проектирования программного обеспечения.

3. Методы исследования качества результатов информационного поиска.

В ходе решения поставленных задач получены следующие новые научные результаты:

1. Разработаны лексико-морфологические, синтаксические и семантические критерии оценки сходства текстов, а также метод многокритериальной оценки сходства текстов.

2. Предложена и исследована модель данных, предназначенная для анализа свойств структур данных и алгоритмов поисково-аналитической обработки текстовой информации.

3. Разработаны структуры данных инвертированного поискового индекса, предназначенные для хранения и обработки лексикоморфологической, синтаксической и семантической информации, являющейся результатом компьютерного лингвистического анализа текстов документов. Эти структуры данных применяются для эффективного решения задач информационного поиска, в частности, многокритериальной оценки сходства текстов.

4. Разработаны и исследованы следующие алгоритмы поисковоаналитической обработки текстовой информации:

алгоритм построения инвертированного поискового индекса алгоритм поиска информации по запросу, основанный на разработанном методе многокритериальной оценки сходства текстов, реализующий следующие типы поиска с учётом метаданных документов: поиск по ключевым словам, фразовый поиск, семантический и вопросно-ответный поиск.

5. Теоретически исследованы свойства разработанных структур данных и алгоритмов поисково-аналитической обработки текстовой информации, в том числе получены оценки вычислительной сложности и доказаны утверждения, обосновывающие корректность указанных алгоритмов.

Теоретическая значимость. Разработанные метод многокритериальной оценки сходства текстов, представление текстовой информации, алгоритмы и структуры данных информационного поиска служат основой решения ряда поисково-аналитических задач. Методы семантического аннотирования текстов и поиска потенциально некорректных заимствований (рассмотрение которых выходит за рамки диссертационной работы) опираются на разработанный метод многокритериальной оценки сходства текстов и используют алгоритмы и структуры данных, предложенные и исследованные в настоящей работе.

Практическая значимость. Разработанный метод многокритериальной оценки сходства текстов, в основе которого лежит сопоставление лексикоморфологической, синтаксической, семантической информации, а также алгоритмы и структуры данных для решения поисково-аналитических задач нашли применение в ИАС. Программная реализация указанных алгоритмов и структур данных ориентирована на обработку больших коллекций текстовых документов в ИАС для информационной поддержки аналитической деятельности в научно-технической сфере.

Результаты исследований по теме диссертационной работы использованы при выполнении научно-исследовательских работ по следующим проектам Минобрнауки РФ, программам ОНИТ РАН и грантам РФФИ:

1. «Создание методов и программных средств выявления перспективных направлений научных исследований в России и за рубежом по данным из открытых источников на основе потребностей реального сектора экономики и обеспечения конкурентных позиций отечественных производителей на перспективных рынках инновационных товаров и услуг и созданных научно-технических заделов» (в рамках ФЦП «Научные и научно-педагогические кадры инновационной России», ГК № 16.740.11.0753, 2011–2013 г.г.).

2. «Создание программного комплекса информационно-аналитической поддержки научно-технической деятельности на основе вычислительного семантического поиска и анализа неструктурированной текстовой информации» (в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы», ГК № 07.551.11.4003, 2011– 3. «Разработка вычислительных методов объективной оценки качества научно-технических документов на естественных языках» (в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы», ГК № 14.514.11.4018, 2011–2013 г.г.).

4. «Исследование и разработка методов и алгоритмов анализа связанности сложно-структурированных данных в научно-технической сфере» (в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы», ГК № 14.514.11.4024, 2011–2013 г.г.).

5. «Исследование и разработка программного обеспечения понимания неструктурированной текстовой информации на русском и английском языках на базе создания методов компьютерного полного лингвистического анализа» (в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007—2013 годы», ГК № 07.514.11.4134, 2011– 6. «Развитие методов анализа полуструктурированной информации и моделирования целенаправленного поведения» (в рамках ФЦП «Научные и научно-педагогические кадры инновационной России», ГК № П952, 2009–2011 г.г.).

7. Проект «Система высокоточного интеллектуального поиска, индексации и анализа информации для поддержки принятия решений»

(проект ПР4 «Исследование и разработка параллельных алгоритмов анализа больших объемов текстовой информации из глобальной сети и алгоритмов принятия решений на основе когнитивных методов»

программы «ТРИАДА», 2006–2007 г.г.).

8. «Развитие методов и программных средств многоязычного семантического поиска» (в рамках проекта 2.6 ОНИТ РАН 2009– 9. «Развитие методов и технологии семантического поиска и анализа научных публикаций Exactus Expert» (в рамках проекта 2.9 ОНИТ РАН 2012–2013 г.г.).

10. «Разработка и исследование структур данных и алгоритмов поисковоаналитической обработки текстовой информации» (в рамках проекта 14мол_а РФФИ 2014–2015 г.г.) Созданное программное обеспечение (ПО), включающее программную реализацию структур данных и алгоритмов поисково-аналитической обработки текстовой информации, внедрено в следующих системах:

электронная библиотека международных клинических руководств6 в Медицинском центре Банка России;

портал «Руконт» – национальный цифровой ресурс7 в виде информационно-поисковых сервисов портала;

информационно-аналитическая система Exactus Expert8 и поисковая машина Exactus9.

Достоверность результатов подтверждена строгой математической формализацией основных положений диссертационного исследования и доказательствами теоретических утверждений, а также результатами экспериментальных исследований разработанных программных средств, реализующих предложенные методы, структуры данных и алгоритмы.

Апробация результатов исследования. Основные положения диссертации докладывались и обсуждались на следующих конференциях и семинарах:

XIII национальная конференция по искусственному интеллекту с международным участием (КИИ: Россия, Белгород, Белгородский государственный технологический университет, 2012 г.);

European Intelligence and Security Informatics Conference (IEEE EISIC: (Greece, Athens);

Назаренко Г.И., Плотникова В.А., Смирнов И.В., Соченков И.В., Тихомиров И.А.

Программные средства создания и наполнения полнотекстовых электронных библиотек / «Электронные библиотеки: перспективные методы и технологии, электронные коллекции: XII Всероссийская научная конференция RCDL’ 2010, Казань, Россия - 2010. – С38-42.

Национальный цифровой ресурс Руконт - межотраслевая электронная библиотека на базе технологии Контекстум / [Электронный ресурс] URL: http://www.rucont.ru/ (дата обращения 16.02.2014) Osipov, G.; Smirnov, I.; Tikhomirov, I. and Shelmanov, A. Relational-Situational Method for Intelligent Search and Analysis of Scientific Publications. / In Proceedings of the Workshop on Integrating IR technologies for Professional Search Moscow, Russian Federation, March 24, 2013, p.57- Завьялова О.С., Киселёв А.А., Осипов Г.С., Смирнов И.В., Тихомиров И.А., Соченков И.В. Система интеллектуального поиска и анализа информации Exactus на РОМИП-2010 / Труды российского семинара по оценке методов информационного поиска РОМИП'2010. - Казань: Казан. ун-т, 2010. С49-69.

Информационно-телекоммуникационные технологии и математическое моделирование высокотехнологичных систем – всероссийская конференция с международным участием в 2010, 2011 г.г. (Россия, Москва, Российский университет дружбы народов) XII Всероссийская научная конференция RCDL’ 2010: «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» (Россия, Казань, 2010 г.) Российский семинар по оценке методов информационного поиска в 2008– Семнадцатая международная Конференция "Крым 2010" (Россия, Геленджик, 2010 г.).

Информационные системы, содержащие в своём составе программную реализацию разработанных структур данных и алгоритмов поисковоаналитической обработки текстовой информации, представлены на российских и международных выставках программного обеспечения и информационных технологий SofTool (в 2010–2013 г.г.) и CeBIT (в 2008–2014 г.г.).

Публикации. Всего по теме исследования опубликовано 14 работ: 6 из них в рецензируемых журналах из списка ВАК РФ, 8 в материалах российских и международных конференций. Получен патент Российской Федерации на изобретение и 3 свидетельства о государственной регистрации программ для ЭВМ.

Структура и объем работы. Диссертация состоит из введения, четырёх глав, заключения, списка сокращений и условных обозначений, а также списка использованной литературы. Диссертация содержит 148 страниц, 25 рисунков, 2 таблицы, 152 источника в списке используемой литературы.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обоснована актуальность темы, определен предмет исследования, сформулированы цель и задачи исследования, научная новизна, практическая значимость полученных результатов, а также приведены данные о структуре и объеме диссертации.

В первой главе приведен обзор методов компьютерного анализа и информационного поиска текстовой информации. Обзор включает в себя рассмотрение различных моделей, предназначенных для представления и анализа текстовой ЕЯ информации в системах информационного поиска.

Рассматриваются существующие методы компьютерного анализа текстов:

токенизация, морфологический анализ и лемматизация (определение леммы по словоформе некоторой лексемы11), синтаксический анализ и семантический анализ (включающий в себя установление семантических значений («ролей») слов и понятий в текстах (semantic role labeling, или SLR) и разрешение кореференции). Описаны также программные системы, реализующие рассмотренные методы.

Далее рассматриваются структуры данных (инвертированные поисковые индексы (ИПИ)), применяемые для представления текстовой информации в задачах информационного поиска, и методы ранжирования результатов информационного поиска: булев поиск (Boolean search), ранжирование на основе TF-IDF и их модификации. В заключительной части главы обоснована необходимость разработки и исследования метода оценки сходства текстов, использующего результаты лексико-морфологического, синтаксического и семантического анализа, поставлена цель и сформулированы задачи исследования.

Вторая глава посвящена методу многокритериальной оценки сходства текстов на основе сопоставления лексико-морфологической, синтаксической и семантической информации. В первом параграфе представлено разработанное представление текстовой информации для решения задачи многокритериальной оценки сходства текстов.

Рассматриваются универсальное множество D лемм – словарь нормальных форм всех лексем ЕЯ, – множество всевозможных форм (словоформ) всех лексем ЕЯ, множество текстов E и произвольный текст E. Этот текст содержит конечное множество словоупотреблений W wi.

Далее определены:

Лемма – каноническая (словарная) форма слова Лексема – совокупность парадигматических форм одного слова, как элемента лексики естественного языка. Одной лексеме, как правило, соответствует одна статья в словаре – Бинарное отношение на множестве словоупотреблений W текста и множестве D нормальных форм лексем: W D, сопоставляющее w W d D : w, d. При этом, вообще говоря, у каких-либо словоупотреблений имеется более одного варианта нормализации (для – Бинарное отношение на множестве словоупотреблений W текста и множестве всевозможных форм различных лексем: W. Это отношение определяет форму каждого словоупотребления в тексте:

– Конечное множество меток (тегов) T={ti}, и бинарное отношение W T, сопоставляющее каждому словоупотреблению некоторую метку (тег гипертекстовой разметки или разметки по метаданным, например, для словоупотреблений в заголовке текста, в списке авторов и – Числовая функция, задающая вес («значимость») меток: (t).

– Числовая функция, задающая вес словоупотребления в тексте: v( w ).

Разбиение множества словоупотреблений на предложения (возможно, ik,…,jk – последовательность индексов словоупотреблений в тексте, входящих в k-е предложение.

Для учёта синтаксических зависимостей между словоупотреблениями в тексте определены следующие объекты:

– Конечное множество типов синтаксических связей: SR12.

– Бинарное отношение на множестве словоупотреблений: W W, представляющее всевозможные синтаксические связи между словоупотреблениями. Синтаксические структуры рассматриваются в виде деревьев, и считается, что в паре элементов wi, w j первый элемент – wi W – соответствует главному словоупотреблению (ГС), а словоупотреблению.

А.Сокирко. Семантические словари в автоматической обработке текста (по материалам системы ДИАЛИНГ) / Дисс канд.т.н. // [Электронный ресурс] URL:

http://www.aot.ru/docs/sokirko/sokirko-candid-1.html (дата обращения 23.01.2014) разбиение множества, где каждое из отношений z определяет тип синтаксической связи z SR для пар словоупотреблений wi, w j z.

Для представления семантической информации в текстах определены:

Конечное множество категориально-семантических значений синтаксем Roles, называемых для краткости "семантическими значениями".

словоупотреблениям текста семантические значения соответствующих синтаксем15. Каждое словоупотребление может иметь 0 и более семантических значений в тексте.

Множество типов отношений R на множестве значений синтаксем16.

Бинарное отношение W W, определяющее семантически связанные словоупотребления в тексте17.

разбиение множества, где каждое отношение x определяет тип семантической связи x R для пар словоупотреблений wi, w j x, где Разработанное представление текстовой информации является модификацией реляционно-ситуационной модели (РСМ) текстовой информации, предложенной Г.С. Осиповым и Г.А. Золотовой, для решения информационно-аналитических задач.

Во втором параграфе второй главы введены критерии оценки сходства текстов и описан метод многокритериальной оценки сходства текстов.

Золотова Г.А., Онипенко Н.К., Сидорова М.Ю. Коммуникативная грамматика русского языка. – М. 2004. – 544 с.

G. Osipov. Methods for extracting semantic types of natural language statements from texts. // In 10th IEEE International Symposium on Intelligent Control, Monterey, California, USA, В общем случае в тексте синтаксема является некоторой синтаксической конструкцией. Например, синтаксема может быть представлена синтаксической группой (предложной или именной). При решении задачи информационного поиска будем связывать семантическое значение не с синтаксемой в целом, а с главным словом синтаксической конструкции, представляющей синтаксему.

Осипов Г.С. Приобретение знаний интеллектуальными системами. // М.: Наука.

Физматлит, Осипов Г.С. Методы искусственного интеллекта. – М.: ФИЗМАТЛИТ, 2011. – Сходство эталонного текста E и сопоставляемого с ним текста E оценивается по множествам предложений этих текстов: S и S соответственно. Для произвольных предложений s S и s S определено множество w, d & w, d – множество пар совпадающих по нормальной форме словоупотреблений, называемых соответственными.

Далее определены критерии оценки сходства предложений s и s.

1. Покрытие предложения-эталона предложением сопоставляемого текста :

В качестве функции для определения весов v( w ) может применяться классическая оценка информационной значимости на основе inverse document Frequency18 (IDF) или характеристика тематической значимости (ХТЗ), если для эталонного текста s известна его тематическая принадлежность.

2. Общая оценка информационной значимости слов предложенияэталона s в предложении s сопоставляемого текста :

В этой формуле функционал несовпадение форм словоупотреблений w, w :

В качестве весов v( w ) могут использоваться IDF или ХТЗ, а в качестве функции для определения весов v '( w ) – классическая оценка term frequency20 (TF) или её модификации21.

S.E. Robertson, C.J. van Rijsbergen and P.W. Williams. «Probabilistic models of indexing and searching». / In R.N. Oddy Information Retrieval Research, pp. 35-56, London, 1981. Butterworths.

Р.Е. Суворов, И.В. Соченков. Определение связанности научно-технических документов на основе характеристики тематической значимости. // Искусственный интеллект и принятие решений. М.: ИСА РАН, №1, 2013. C.33- Joachims, T. «A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization». / DTIC Document, 1996.

3. Оценка сходства предложения-эталона s и предложения s сопоставляемого текста на основе совпадения синтаксических множество пар соответственных словоупотреблений в эталонном предложении s и сопоставляемом предложении s, для которых совпадают (по нормальным формам лексем) главные w, w N s,s и зависимые w, w N s,s слова, а сами словоупотребления связаны в контексте эталонного и сопоставляемого предложения однотипными 4. Оценка сходства предложения-эталона s и предложения s сопоставляемого текста на основе совпадения семантических словоупотреблений с семантическими значениями в предложении эталонного текста, что для них в сопоставляемом тексте имеются соответственные словоупотребления, которым приписаны такие же семантические значения.

5. Оценка сходства предложения-эталона s и предложения s сопоставляемого текста на основе семантических связей:

Joaquin Perez-Iglesias. «Integrating the Probabilistic Model BM25: BM25F into Lucene», 2009 / [Электронный ресурс] URL: http://nlp.uned.es/~jperezi/Lucene-BM25/ (дата обращения 23.03.2014) w ', a SemRoles – множество значений синтаксем, приписанных в тексте тем словоупотреблениям w’, которые связаны в этом тексте со словоупотреблением w всевозможными семантическими связями.

Общая оценка сходства предложения s текста-эталона и предложения s сопоставляемого текста определяется взвешенной суммой:

В формуле (7) набор L={i|i=1..5} ( n 1 ) задаёт набор параметров метода, определяющих вклад каждого из критериев оценки сходства в итоговую величину. Из всех возможных предложений s в сопоставляемом тексте выбираются те, которые наилучшим образом (в смысле максимизации оценки (7)) соответствуют предложению эталона s :

Общая оценка сходства текста-эталона по отношению к тексту выражается следующей формулой:

В завершение второго параграфа второй главы сформулированы и доказаны следующие утверждения, представляющие интерес с точки зрения практического применения величины, заданной формулой (9), для оценки сходства текстов в ИАС и ранжирования результатов поиска.

В третьем параграфе второй главы рассмотрено применение разработанного метода оценки сходства текстов для решения задач полнотекстового поиска по ключевым словам и словосочетаниям, а также фразового, семантического и вопросно-ответного поиска. Под фразовым поиском подразумевается такой вид поиска, когда фрагмент предложения (фраза) запроса и фрагменты предложений в текстах найденных документов совпадают по синтаксическим структурам (но при этом они могут отличаться порядком и формой словоупотреблений). При семантическом и вопросноответном поиске предложения запроса и найденных текстов должны совпадать по семантическим значениям и связям словоупотреблений. В этом же параграфе описана процедура расширения поискового запроса (в общем случае – произвольного эталонного текста) с помощью концептов из тезауруса, связанных некоторыми отношениями с фразами запроса. Показано, как в рамках предложенного представления учитывается кореферентность.

В заключение второй главы на основе многокритериальной оценки сходства текстов предложен метод ранжирования результатов поиска и сделан вывод о необходимости разработки новых алгоритмов и структур данных информационного поиска, поскольку известные структуры данных и алгоритмы не позволяют эффективно работать с предложенным представлением текстовой информации.

Третья глава посвящена разработке и исследованию модели данных, структурам данных и алгоритмам для решения поисково-аналитических задач.

Представлены разработанные структуры данных, необходимые для представления информации о текстовых документах в ИАС, структуры инвертированных индексов, а также алгоритмы их построения на этапе индексирования документов.

Индекс текста документа (ИТД) представляет собой последовательность (массив) элементов данных (ЭД). Каждый ЭД имеет фиксированный размер в памяти и содержит набор полей данных, представляющих лексикоморфологическую, синтаксическую и семантическую информацию словоупотреблений текста документа. В ИТД присутствуют ЭД нескольких видов, различающиеся (в зависимости от вида ЭД) конкретным набором полей данных. Каждому словоупотреблению текста соответствует один или более ЭД различных видов в зависимости от информации, сопоставленной этому словоупотреблению. В реляционно-ситуационной модели семантические значения и связи назначаются не всем синтаксическим структурам, а только именным синтаксемам. Поэтому ЭД, содержащие поля данных с семантическими значениями и связями, присутствуют в ИТД только для таких словоупотреблений, которые входят в состав именных синтаксем, имеющих семантические значения и участвующих в семантических связях. Такой подход позволяет уменьшить количество памяти, необходимой для хранения информации в индексных структурах данных.

Для эффективной реализации процедуры поиска разработан ИПИ, ориентированный на хранение информации о текстах масштабных коллекций текстовых документов с возможностью поиска с учётом синтаксической и семантической информации. ИПИ реализуется в виде хеш-таблицы. В качестве ключа ИПИ выступает идентификатор нормальной формы лексемы (ИНФЛ).

Каждому ключу сопоставлена последовательность -ЭД – пост-лист. Схема ЭД ИПИ представлена на рисунке 1. Каждый -ЭД занимает в памяти ЭВМ байт, что позволяет эффективно реализовать представление последовательностей в памяти ЭВМ в виде массивов.

РЕЗЕРВ

Рисунок 1 – Схема элементов данных разработанного Для описания модели данных ИПИ в диссертации введены следующие определения.

Определение 3.1. Последовательность -ЭД, относящихся к употреблениям некоторой лексемы в тексте отдельно взятого документа назовём -цепочкой; -цепочка строится по следующим правилам:

1. В начале цепочки размещается 1-ЭД.

2. За ним следует 2-ЭД, соответствующий первому (по порядку) употреблению лексемы в тексте.

3. За ним опционально следует 3-ЭД, если с рассматриваемым употреблением лексемы связана некоторая семантическая информация.

4. Далее следуют чередующиеся 2-ЭД и 3-ЭД (опционально), соответствующие остальным употреблениям рассматриваемой лексемы в Определение 3.2. Для представления информации обо всех употреблениях некоторой лексемы всех документах коллекции применяется последовательность -цепочек – -последовательность. -последовательность формируется с помощью конкатенации -цепочек по следующему правилу: цепочка 1 предшествует 2 тогда и только тогда, когда код документа, представляемого -цепочкой 1 меньше кода документа, представляемого цепочкой 2.

Определение 3.3. Объект, указывающий на текущий обрабатываемый ЭД в последовательности элементов, называется итератором.

На классе -цепочек индуцируется линейный порядок (-правило-1) и частичный порядок на классе -ЭД внутри -цепочки (-правило-2). В совокупности -правило-1 и -правило-2 вводят отношение частичного порядка на классе -ЭД в -последовательностях – рисунок 2.

Рисунок 2 – Пример упорядочения -ЭД в -последовательностях Это отношение частичного порядка, однако, не позволяет сравнивать ЭД двух -последовательностей, что требуется, например, в алгоритме слияния (merge) двух упорядоченных множеств. Вводимое Для устранения этого недостатка введено следующее -правило-3: из двух сравниваемых -ЭД m1 и m2, входящих в некоторую -последовательность ( m1, m2 ), ЭД m



Похожие работы:

«Старков Алексей Иннокентьевич ЭКОЛОГИЯ ДАУРСКОЙ ПИЩУХИ OCHOTONA DAUURICA PALLAS, 1776 В ЮГО-ЗАПАДНОМ ЗАБАЙКАЛЬЕ Специальность 03.02.08 — экология (биологические наук и) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук Улан-Удэ – 2014 Работа выполнена в лаборатории экологии и систематики животных Федерального государственного бюджетного учреждения науки Институт общей и экспериментальной биологии СО РАН Научный руководитель : кандидат...»

«ЧИСЛИН ВИТАЛИЙ ПЕТРОВИЧ УГОЛОВНО-ПРАВОВЫЕ МЕРЫ ЗАЩИТЫ ИНФОРМАЦИИ ОТ НЕПРАВОМЕРНОГО ДОСТУПА Специальность: 12.00.08 – уголовное право и криминология; уголовно-исполнительное право АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Москва 2004 Работа выполнена на кафедре уголовно-правовых дисциплин и кафедре правоведения Коломенского государственного педагогического института Научный руководитель доктор юридических наук, доцент Середа Елена...»

«Бородин Сергей Сергеевич СВОБОДНОЕ ИСПОЛЬЗОВАНИЕ ПРОИЗВЕДЕНИЙ В АСПЕКТЕ СИСТЕМНОГО ВЗАИМОДЕЙСТВИЯ ПРИНЦИПОВ АВТОРСКОГО ПРАВА Специальность 12.00.03 – гражданское право; предпринимательское право; семейное право; международное частное право АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Москва – 2014 Работа выполнена на кафедре гражданского и предпринимательского права Федерального государственного бюджетного образовательного учреждения высшего...»

«РЫСАЕВ ВИЛЬДАН УРАЛОВИЧ РЕСУРСОСБЕРЕГАЮЩИЕ, МАЛООТХОДНЫЕ ТЕХНОЛОГИИ ПОЛУЧЕНИЯ ТЕРМОСТАБИЛИЗАТОРОВ ХЛОРСОДЕРЖАЩИХ ПОЛИМЕРОВ И УГЛЕВОДОРОДОВ Специальности: 02.00.13 – Нефтехимия 02.00.06 – Высокомолекулярные соединения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Уфа – 2004 www.sp-department.ru Работа выполнена в Уфимском государственном нефтяном техническом университете. Научный руководитель доктор технических наук, Гильмутдинов Амир...»

«УДК537.622.5;537.956;534.321.9 СТРУГАЦКИЙ Марк Борисович ИЗОМЕТРИЧНЫЕ МОНОКРИСТАЛЛЫ БОРАТА ЖЕЛЕЗА: МАГНИТНЫЕ И МАГНИТОАКУСТИЧЕСКИЕ ЭФФЕКТЫ Специальность 01.04.11 – физика магнитных явлений АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора физико-математических наук Москва - 2008 Работа выполнена в Таврическом национальном университете им. В.И. Вернадского и на кафедре магнетизма...»

«ПОПКОВ Евгений Николаевич ТЕОРИЯ И АЛГОРИТМЫ ИМИТАЦИОННОГО МОДЕЛИРОВАНИЯ МАШИННО-ВЕНТИЛЬНЫХ СИСТЕМ МЕТОДОМ СТРУКТУРНЫХ ОРИЕНТИРОВАННЫХ ЧИСЕЛ Специальность 05.14.02 – Электростанции и электроэнергетические системы Автореферат диссертации на соискание ученой степени доктора технических наук Санкт-Петербург 2004 1 Работа выполнена в государственном образовательном учреждении высшего профессионального образования Санкт-Петербургский государственный политехнический университет...»

«Раевская Татьяна Сергеевна Правовое регулирование отношений зависимости между юридическими лицами по законодательству Российской Федерации и Англии Специальность: 12.00.03 – гражданское право; предпринимательское право; семейное право; международное частное право Автореферат диссертации на соискание ученой степени кандидата юридических наук Москва-2011 2 Диссертация выполнена на кафедре частного права международно-правового факультета Всероссийской академии внешней торговли....»

«Московский государственный университет имени М.В. Ломоносова Бродский Дмитрий Александрович ИНВЕСТИЦИОННАЯ СТРАТЕГИЯ ХОЛДИНГОВОЙ ОРГАНИЗАЦИИ Специальность 08.00.01 - Экономическая теория АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Москва-2010 Работа выполнена на кафедре политической экономии экономического факультета Московского Государственного Университета им.М.В. Ломоносова Научный руководитель – доктор экономических наук, профессор...»

«ПЕРЕЧИЦКАЯ СВЕТЛАНА ЛЕОНИДОВНА КУПЕЧЕСТВО ДУБОВСКОГО ПОСАДА В ПРАВИТЕЛЬСТВЕННЫХ ПЛАНАХ ОСВОЕНИЯ ЮГА РОССИЙСКОЙ ИМПЕРИИ В ПОСЛЕДНЕЙ ЧЕТВЕРТИ XVIII ВЕКА Специальность 07.00.02 – отечественная история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Москва 2013 Работа выполнена на кафедре отечественной истории в Государственном бюджетном образовательном учреждении высшего профессионального образования города Москвы Московский городской...»

«ГУСЕВА Дарья Викторовна КОМПЬЮТЕРНОЕ МОДЕЛИРОВАНИЕ ПОЛИМЕРНЫХ СИСТЕМ С ПРОТЕКАЮЩИМИ МАКРОМОЛЕКУЛЯРНЫМИ РЕАКЦИЯМИ Специальности 02.00.06 высокомолекулярные соединения, 01.04.07 – физика конденсированного состояния Автореферат диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2012 Работа выполнена на кафедре физики полимеров и кристаллов физического факультета Московского Государственного Университета имени М. В. Ломоносова. Научные...»

«ГАСАНОВ РУСЛАН НАЗИРОВИЧ СОЦИАЛЬНО-ЭКОНОМИЧЕСКАЯ ПОЛИТИКА РОССИЙСКОГО ГОСУДАРСТВА КАК ФАКТОР ПОЛИТИЧЕСКОЙ СТАБИЛИЗАЦИИ В РЕСПУБЛИКЕ ДАГЕСТАН Специальность 23.00.02 – Политические институты, процессы и технологии АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата политических наук Москва – 2014 Диссертация выполнена на кафедре политологии и политического управления Факультета государственного управления Федерального государственного бюджетного образовательного...»

«ДАВЫДОВ Максим Владимирович МОНИТОРИНГ КАК СРЕДСТВО УПРАВЛЕНИЯ КАЧЕСТВОМ ОБУЧЕНИЯ СПЕЦИАЛИСТОВ ТЕХНИЧЕСКИХ ПРОФЕССИЙ В УЧРЕЖДЕНИЯХ ДОПОЛНИТЕЛЬНОГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ 13.00.08 – теория и методика профессионального образования АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Уфа 2011 Работа выполнена в Государственном образовательном учреждении высшего профессионального образования Башкирский государственный педагогический университет...»

«Байдин Василий Григорьевич Математические и вычислительные подходы к повышению качества сейсмических изображений на основе моделирования упругих волновых полей Специальность 05.13.18 – Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2013 Работа выполнена на кафедре вычислительной математики Московского физико-технического института (государственного...»

«Левчишин Станислав Юрьевич ЭКСТРАГЕНТ-СОДЕРЖАЩИЕ МИКРОЭМУЛЬСИИ ДИ-(2-ЭТИЛГЕКСИЛ)ФОСФАТА НАТРИЯ 02.00.11 – Коллоидная химия АВТОРЕФЕРАТ диссертации на соискание учной степени кандидата химических наук Москва 2012 www.sp-department.ru Работа выполнена на кафедре нанотехнологии и наноматериалов ФГБОУ ВПО Российский химико-технологический университет имени Д.И. Менделеева доктор химических наук, профессор,...»

«МАРЧЕНКО Наталья Анатольевна ПРОФЕССИОНАЛЬНО-ЦЕННОСТНОЕ САМООПРЕДЕЛЕНИЕ СТУДЕНТОВ ПЕДАГОГИЧЕСКОГО ВУЗА ПРИ ИЗУЧЕНИИ ИНОСТРАННЫХ ЯЗЫКОВ 13.00.08 – Теория и методика профессионального образования АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата педагогических наук Ростов-на-Дону – 2010 2 Работа выполнена в Педагогическом институте Южного федерального университета на кафедре педагогики. Научный руководитель доктор педагогических наук, профессор, академик РАО...»

«Бедулина Ирина Павловна Становление и развитие государственной архивной службы Иркутской области (1920–1938 годы) Специальность 07.00.02 – Отечественная история АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Барнаул 2009 Работа выполнена на кафедре истории России ГОУ ВПО Иркутский государственный педагогический университет Научный руководитель : доктор исторических наук, профессор Занданова Лариса Викторовна Официальные оппоненты : доктор...»

«ПОПОВА ЗИНАИДА ВИКТОРОВНА Санкции норм процессуальных отраслей права Специальность 12.00.01 – Теория и история права и государства; история учений о праве и государстве АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Санкт-Петербург - 2012 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Владимирский государственный университет имени Александра Григорьевича и Николая...»

«ОНУФРИЕВА ОЛЬГА АЛЕКСЕЕВНА Cостояние и перспективы российско-европейского экономического сотрудничества в газовой сфере (на примере реализации совместных инфраструктурных проектов Nord Stream и South Stream) Специальность 08.00.14 – Мировая экономика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург – 2011 2 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования...»

«НОР-АРЕВЯН Оксана Аведиковна КОНФЛИКТОГЕННОСТЬ ВЗАИМОДЕЙСТВИЯ ПОКОЛЕНИЙ В УСЛОВИЯХ СОЦИАЛЬНОЙ ТРАНЗИЦИИ РОССИЙСКОГО ОБЩЕСТВА (микросоциологический анализ) 22.00.04 - социальная структура, социальные институты и процессы АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата социологических наук Ростов-на-Дону - 2003 Диссертация выполнена в Институте по переподготовке и повышению квалификации преподавателей социальных и гуманитарных наук при Ростовском государственном...»

«БАТАЙКИНА Светлана Валерьевна ИМИДЖ ГОСУДАРСТВЕННОЙ СЛУЖБЫ КАК СОЦИАЛЬНЫЙ КОНСТРУКТ Специальность 22.00.08 – социология управления АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата социологических наук Казань – 2009 Диссертация выполнена на кафедре государственного, муниципального управления и социологии Государственного образовательного учреждения высшего профессионального образования Казанский государственный технологический университет. Научный руководитель :...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.