WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Особенности поискового алгоритма

и архитектуры Exactus

© Тихомиров И. А.

Институт системного анализа РАН

[email protected]

Аннотация

В статье описаны проблемы, возникающие при

использовании лингвистических методов поиска.

Приведены особенности поискового алгоритма и

архитектуры Exactus. Проанализированы результаты

участия Exactus в РОМИП’2007, сделаны выводы о перспективе использования лингвистических алгоритмов поиска и дальнейших направлений исследований.

1. Введение Специалисты в области поисковых технологий сосредоточили свое внимание на методах поиска, основанных на статистических характеристиках документов (TF*IDF-веса термов, ссылочное ранжирование и т.д.). Становится очевидным, что, несмотря на относительную языковую независимость этих методов, простоту реализации и определенные плюсы с точки зрения вычислительных ресурсов дальнейшее развитие этих методов является малоперспективным, и значительного увеличения качества поиска добиться на этом пути не удастся [1].

С другой стороны, коллективами лингвистов разработаны новые методы поиска и анализа текстов [1,2]. Очевидно, что в перспективе эти методы могут принести существенный выигрыш в точности и полноте поиска. Основным препятствием к непосредственному использованию лингвистических методов в популярных поисковых машинах является отсутствие их четкой оценки. Неизвестно, насколько хорошо работает метод, пока он не проверен на больших объемах данных. На отсутствие оценки влияет и тот фактор, что коллективы лингвистов, как правило, не имеют хорошей аппаратной базы и опыта реализации задач в области программирования.

Доведение лингвистического алгоритма «до ума» и его проверка в рамках серьезного соревнования (например, РОМИП) весьма трудоемкая и неподъемная для лингвистов задача.

Серьезную проблему составляет отсутствие у лингвистов опыта в области математики, что приводит к непониманию статистических формул и методов, используемых подавляющим большинством поисковых машин. Это приводит к тому, что лингвистические алгоритмы никак не учитывают хорошо зарекомендовавшую себя статистическую составляющую алгоритмов поиска. В результате имеем только статистические алгоритмы поиска (с поддержкой морфологии в лучшем случае) и лингвистические алгоритмы поиска (не учитывающие статистику).

В последние несколько лет целью разработчиков Exactus является эффективное взаимодействие лингвистов, математиков, программистов на пути решения задачи объединения статистических и лингвистических методов поиска [2]. В результате на семинар РОМИП был представлен экспериментальный алгоритм поисковой машины Exactus, включающий как статистические критерии поиска, так и языковые особенности естественного языка (русский синтаксис и семантику).

2. Несколько слов об алгоритме поиска Exactus Алгоритм поиска Exactus объединяет статистическую и лингвистическую составляющие. Из статистических характеристик текста Exactus учитывает TF*IDF веса термов и значимость фрагментов текстов (на основе HTML-разметки документов).

Лингвистическая составляющая – значения синтаксем и их сочетаемость в конкретном предложении [4,5]. Это позволяет отбирать только те тексты, в которых значение синтаксемы совпадает с ее значением в запросе (что невозможно в обычных статистических методах). Кроме того, это позволяет обработать ситуацию, когда целевая синтаксема является элементом более сложной синтаксической конструкции (например, находится в отношении подчинения). Пример:

Запрос: «Кто выиграл выборы на Украине».

Документ1: «Выборы на Украине выиграл Янукович».

Документ2: «Выборы на Украине выиграла партия Януковича».

В результате для системы Exactus первый документ наиболее предпочтителен, так как во втором документе «Янукович»

находится в отношении подчинения слова «партия» и в другом семантическом значении [6]. Тут следует отметить, что вопросноответный поиск в Exactus реализуется естественным образом (вопросительным конструкциям автоматически производится сопоставление их заместителей из индекса в рамках того же предложения, где находятся другие слова запроса).

Поиск в Excatus может быть проведен только после предварительной индексации документов. На этапе индексации производится преобразование документов к внутреннему формату Exactus, обсчет TF*IDF весов термов с учетом морфологии русского языка. Параллельно этому производится синтаксический и семантический анализ текстов, что позволяет выявить подчинения синтаксем в тексте и их семантические значения. Полученные в результате анализа данные укладываются в линейные упорядоченные списки.

Очевидно, что уложить семантическую сеть текста, полученную после синтаксического и семантического анализа, в линейные списки не простая задача [6]. Разработчики Exactus в своем экспериментальном алгоритме пожертвовали сетевой структурой, трансформировали сеть в дерево и уже его отражали в списочную структуру.

Алгоритм поиска Exactus представляет собой слияние и переранжирование линейных упорядоченных списков, что опять же аналогично концепции большинства поисковых машин.

Особенностью алгоритма являются весовые коэффициенты и алгоритм предварительной индексации текстов, которые позволяют учесть как статистические, так и семантические составляющие текстов.

3. Особенности архитектуры и программноаппаратных средств Exactus Современная архитектура Exactus имеет модульную структуру, модули расположены на узлах кластерной установки с возможностью параллельного выполнения задач [3]. Основным способом параллелизма является позадачное распараллеливание.



Управление задачами осуществляется посредством PVM-машины (Parallel Virtual Machine). Модули можно разделить на два типа:

основные (лингвистические процессоры, индексаторы и т.д.) и вспомогательные (агрегаторы, синхронизаторы и т.д.). Задачей основных модулей является решение конкретных задач поисковой машины. Задачей вспомогательных модулей является сервисная составляющая: обеспечение масштабируемости системы, распределенное хранение индекса, объединение результатов поиска и много другое [3].

Система Exactus является кросс-платформенной и может функционировать на широком спектре Unix-подобных операционных систем. Версия, используемая для РОМИП’2007, функционирует на Linux Debian 4.0. Экспериментальная установка состоит из 8-и задействованных узлов кластера пиковой производительностью 100 Gigaflops. Особенностью Exactus является то, что в качестве вычислительных узлов используются обычные персональные компьютеры, объединенные в стойку (концепция, аналогичная Google). Узлы неравнозначны по своим аппаратным характеристикам, так, например, для хранения индекса нужны большие винчестеры и большой объем оперативной памяти, а для лингвистических процессоров – высокая производительность центрального процессора и большой объем оперативной памяти.

Для взаимодействия узлов используется Gigabit Ethernet.

4. Краткий анализ результатов Exactus на РОМИП’ Одним из замечательных моментов является то, что представленный в РОМИП алгоритм Exactus не использует ссылочное ранжирование (в отличие от подавляющего большинства поисковых алгоритмов). По обеим дорожкам (LEGAL и BY) был проведен всего один прогон экспериментального алгоритма Exactus.

Несмотря на указанное выше, удалось продемонстрировать неплохие результаты по коллекции LEGAL и очень хорошие результаты по коллекции BY.

Наилучшие результаты достигнуты в AND-оценке по точности, которая с точки зрения разработчиков Exactus является доминирующей. Хорошие результаты по AND-оценке объясняются тем, что в случае OR-оценки не удалось обеспечить согласованного мнения экспертов по поводу релевантности того или иного документа.

В предыдущих версиях Exactus использовались по большей части лингвистические критерии оценки релевантности, что на предыдущих семинарах РОМИП приводило к большому числу слаборелевантных ответов (в предыдущих семинарах РОМИП у Exactus оценки по OR относительно других участников были лучше, чем AND) [7].

Можно полагать, что при поиске по легальной коллекции лингвистическая составляющая для узкоспециализированных текстов не дает ощутимого выигрыша (без настройки семантических словарей на предметную область). Более качественные результаты на специфических тематических коллекциях можно получить с использованием долгой настройки и подгонки весовых коэффициентов при подсчете статистики.

5. Заключение Полученные в ходе экспериментов РОМИП результаты показывают перспективность применения лингвистических алгоритмов анализа текстов и возможность их применения в реальных условиях, тем более что одно из препятствий (отсутствие достоверных оценок лингвистических алгоритмов) частично снято.

Эксперименты показывают, что скорость поиска в Exactus сравнима по скорости с современными поисковыми машинами на больших объемах данных. Все проблемы поиска удалось перенести на задачу индексации, которая, по-прежнему, остается узким местом лингвистического анализа. Однако, за счет использования современных вычислительных систем и параллельных вычислений синтаксический и семантический анализ больших коллекций текстов становятся вполне разрешимыми задачами.

Среди ближайших направлений исследований – включение в алгоритм индексации ссылочного ранжирования и заранее составленного каталога ресурсов. Кроме того, существуют определенные соображения по методам трансформирования семантической сети текста в линейные упорядоченные списки для последующего использования при поиске, что также должно повысить точность последнего.

В перспективе, лаборатория интеллектуальных динамических систем ИСА РАН планирует расширить свое участие в дорожках РОМИП и проверить таким образом новые алгоритмы каталогизации и контекстно-зависимого аннотирования.

Литература [1] Осипов Г.С., Завьялова О.С., Климовский А.А., Кузнецов И.А., Смирнов И.В., Тихомиров И.А. Проблемы обеспечения точности и полноты поиска: Пути решения в интеллектуальной метапоисковой системе "Сириус". //Труды межденародной конференции Диалог'2005, с. 390-395, Москва, Наука, 2005.

[2] Osipov G. S., Smirnov I. V., Tikhomirov I. A., Vybornova O.V, Zavjalova O. S. Linguistic Knowledge for Search Relevance Improvement.// Papers of Joint conference on knowledge-based software engineering JCKBSE'06, IOS Press, 2006. - P. 294-302.

[3] Осипов Г.С., Тихомиров И.А., Смирнов И.В. Exactus – система интеллектуального метапоиска в сети Интернет. // Труды десятой национальной конференции по искусственному унтеллекту с международным участием КИИ-2006. М:

Физматлит, 2006. т. 3. - С. 859-866.

[4] Золотова Г.А., Онипенко Н. К., Сидорова М. Ю.

Коммуникативная грамматика русского языка. Институт русского языка РАН им. В. В. Виноградова, М. 2004 – 544 с.

[5] Золотова Г.А. Синтаксический словарь: Репертуар элементарных единиц русского синтаксиса. – М.: Наука, 1988 – [6] Осипов Г.С. Приобретение знаний интеллектуальными системами: Основы теории и технологии. – М.: Наука, Физматлит, 1997.

[7] Тихомиров И. А. Вопросно-ответный поиск в интеллектуальной поисковой системе Exactus.//Труды четвертого российского семинара по оценке методов информационного поиска РОМИП'2006. Санкт-Петербург: НУ ЦСИ, 2006. - с. 80-85.





Похожие работы:

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Государственное образовательное учреждение высшего профессионального образования НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ТОМСКИЙ ПОЛИТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ УТВЕРЖДАЮ Проректор-директор ИПР. А.Ю. Дмитриев 2012 г. ПРОГРАММА вступительного испытания (междисциплинарного экзамена) для поступающих в магистратуру по направлению по направлению подготовки 131000 Нефтегазовое дело, специализации: Надежность газонефтепроводов и хранилищ; Строительство...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РФ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Тверской государственный университет Кафедра биологии УТВЕРЖДАЮ Декан биологического факультета С.М. Дементьева 19 сентября 2013 г. Рабочая программа дисциплины МЕТОДИКА ПОЛЕВЫХ ИССЛЕДОВАНИЙ ПО ЗООЛОГИИ Для студентов I курса Направление подготовки 250100 – ЛЕСНОЕ ДЕЛО Профиль подготовки – общий Квалификация (степень) Бакалавр Форма обучения Очная Обсуждено...»

«МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ Государственное бюджетное образовательное учреждение высшего профессионального образования Оренбургская государственная медицинская академия Министерства здравоохранения Российской Федерации Кафедра стоматологии и челюстно-лицевой хирургии УТВЕРЖДАЮ проректор по научной и клинической работе профессор Н.П. Сетко _ 20_ г. РАБОЧАЯ ПРОГРАММА смежной дисциплины Стоматология детского возраста основной профессиональной образовательной программы...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное образовательное учреждение высшего профессионального образования Санкт-Петербургский государственный университет ВЫСШАЯ ШКОЛА МЕНЕДЖМЕНТА ПРОГРАММА ВСТУПИТЕЛЬНОГО ЭКЗАМЕНА В АСПИРАНТУРУ ПО СПЕЦИАЛЬНОЙ ДИСЦИПЛИНЕ Специальность 05.02.22 – Организация производства (экономические науки) 2 Санкт-Петербург 2009 Общие положения Программа вступительного экзамена в аспирантуру Высшей школы менеджмента СПбГУ по...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования КАФЕДРА ОСНОВ АРХИТЕКТУРНОГО ПРОЕКТИРОВАНИЯ, ИСТОРИИ АРХИТЕКТУРЫ И ГРАДОСТРОИТЕЛЬСТВА УТВЕРЖДАЮ Проректор по НР, председатель Совета по науке НГАХА Е.Н. Лихачев РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ МИРОВОЗЗРЕНЧЕСКИЕ ТРАДИЦИИ В ХУДОЖЕСТВЕННОЙ КУЛЬТУРЕ (РЕЛИГИОЗНЫЙ АСПЕКТ) Специальность : 17.00.04 Изобразительное и декоративно-прикладное искусство и...»

«Рассмотрено Утверждаю на заседании Директор МОУ Красненская сош педагогического совета школы имени М.И. Светличной протокол № 1 от 31 августа 2012 г. Приказ от 31 августа 2012 г. № 256 Т.Н.Федосова ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ОСНОВНОГО ОБЩЕГО ОБРАЗОВАНИЯ муниципального общеобразовательного учреждения Красненская средняя общеобразовательная школа имени М.И. Светличной Красненского района Белгородской области на 2012-2016 гг. Красное - 2012 ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Программа составлена на...»

«Дополнительное образование детей Москвы от А до Я. 2014. Т. 3. № 1. http://додмск.рф ДОПОЛНИТЕЛЬНАЯ ОБЩЕРАЗВИВАЮЩАЯ ПРОГРАММА Этнические танцы Возраст детей: 10-18 лет Срок реализации: 2 года Автор: Плаксин Александр Станиславович, педагог дополнительного образования ГБОУ Центр детского творчества Созвездие, г. Москва Спецвыпуск. Образовательные программы ДОД. Дополнительное образование детей Москвы от А до Я. 2014. Т. 3. № 1. http://додмск.рф Пояснительная записка В современных организациях,...»

«Записи выполняются и используются в СО 1.004 Предоставляется в СО 1.023. СО 6.018 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Саратовский государственный аграрный университет имени Н.И. Вавилова Факультет экономики и менеджмента СОГЛАСОВАНО УТВЕРЖДАЮ Декан факультета Проректор по учебной работе экономики и менеджмента /С.В.Ларионов/ / Е.Б. Дудникова/ _ г. _ г. РАБОЧАЯ ПРОГРАММА (МОДУЛЬНАЯ) дисциплина Международный маркетинг...»

«Программы получения европейского вида на жительство через Грецию Указанная программа базируется на Законе Греции №3386, параграф 36 от 2005 года. Клиент — гражданин страны-не члена Европейского Сообщества, получает вид на жительство как экономически независимое лицо. Оформленный на Принципиального Заявителя (Клиента) вид на жительство является деривативным статусом, т.е. распространяет свое действие на всех членов семьи по линии прямого родства. Обладатель этого статуса имеет право: • постоянно...»

«УТВЕРЖДЕН решением ученого совета ФГОУ ВПО Саратовский ГАУ от _ _ 2009 г., протокол № _ Председатель ученого совета, ректор университета _ Н.И. Кузнецов ОТЧЕТ О САМООБСЛЕДОВАНИИ  федерального государственного образовательного учреждения высшего профессионального образования Саратовский государственный аграрный университет имени Н.И. Вавилова Саратов 2009 СОДЕРЖАНИЕ ВВЕДЕНИЕ 1. ОРГАНИЗАЦИОННО-ПРАВОВОЕ ОБЕСПЕЧЕНИЕ ОБРАЗОВАТЕЛЬНОЙ ДЕЯТЕЛЬНОСТИ 2. СТРУКТУРА УНИВЕРСИТЕТА И СИСТЕМА ЕГО УПРАВЛЕНИЯ 3....»

«ПРОГРАММА - МИНИМУМ кандидатского экзамена по курсу История и философия науки Философия естественных наук Введение Программа кандидатского экзамена по курсу Философия науки разработана для аспирантов и соискателей всех научных специальностей. Программа разработана Институтом философии РАН при участии ведущих специалистов из МГУ, СПбГУ, ИИЕиТ, РАМН, МГПУ, ММА и ряда других университетов. Все сдающие этот экзамен должны освоить содержание первой части Программы Основы философии науки, а также...»

«ПЛАН МЕРОПРИЯТИЙ ГОУ ВПО Дагестанский государственный университет, направленный на развитие информационно –коммуникационных технологий в университете в 2010 году 1. Концепция развития информационно-коммуникационных технологий в университете. Основная цель Программы — создание единой информационно-образовательной среды университета, обеспечение потребностей участников учебного и научного процесса в средствах и технологиях обмена информацией, оснащение университета электронными средствами...»

«Институт Вычислительной Математики и Математической Геофизики лаборатория Синтеза Параллельных Программ Обзор конференции НСКФ-2013 Национальный СуперКомпьютерный Форум 2013 г. Переславль-Залесский Институт программных систем имени А.К. Айламазяна РАН 26-29 ноября 2013г. Константин Калгин [email protected] Переславль-Залесский 140 км Переславль-Залесский 140 км География участников 48 городов, 157 организаций, 406 участников. Тематика НСКФ посвящен вопросам создания и практики применения...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ Аннотированный сборник научно-исследовательских выпускных квалификационных работ студентов СПбГУ ИТМО Санкт-Петербург 2010 Аннотированный сборник научно-исследовательских выпускных квалификационных работ студентов СПбГУ ИТМО / Главный редактор д.т.н., профессор В.О. Никифоров. – СПб: СПбГУ ИТМО, 2010. – 135 с....»

«РОССИЙСКАЯ АКАДЕМИЯ НАУК ИНСТИТУТ МИКРОБИОЛОГИИ ИМ. С.Н. ВИНОГРАДСКОГО РАН НАУЧНЫЙ СОВЕТ ПО МИКРОБИОЛОГИИ РАН РОССИЙСКИЙ ФОНД ФУНДАМЕНТАЛЬНЫХ ИССЛЕДОВАНИЙ МОО МИКРОБИОЛОГИЧЕСКОЕ ОБЩЕСТВО ПРОГРАММА IX МОЛОДЕЖНОЙ ШКОЛЫ–КОНФЕРЕНЦИИ С МЕЖДУНАРОДНЫМ УЧАСТИЕМ АКТУАЛЬНЫЕ АСПЕКТЫ СОВРЕМЕННОЙ МИКРОБИОЛОГИИ 21 – 23 ОКТЯБРЯ 2013 г. Москва - 2013 Организационный комитет конференции Председатель Гальченко В.Ф., член-корр. РАН, директор Института микробиологии им. С.Н. Виноградского РАН Сопредседатель...»

«Министерство образования Республики Мордовия Мордовский республиканский институт образования Развиваем талант читателя Сборник заданий по литературе для 6 класса Саранск 2006 3 ББК 74.261.8 Р 17 Редактор-консультант: В.Д. Маркеева, методист кафедры педагогики, психологии и управления образованием МРИО Развиваем талант читателя: Сборник заданий по литературе для 6 класса/Авт.- сост.: Гонцова О.А.; МО РМ, МРИО. – Саранск, 2006. – 18 с. Сборник содержит задания, соответствующие программе и...»

«Министерство образования и науки Российской Федерации ПРОГРАММА-МИНИМУМ кандидатского экзамена по специальности 13.00.02 - Теория и методика обучения и воспитания (изобразительное искусство) по педагогическим наукам Программа минимум содержит 17 стр. 2007 2 Введение Подготовка научно-педагогических кадров по данной специальности осуществляется по проблемам методики преподавания изобразительного искусства в средней общеобразовательной школе на художественнографических факультетах педагогических...»

«ПРАВИТЕЛЬСТВО РОССИЙСКОЙ ФЕДЕРАЦИИ ПОСТАНОВЛЕНИЕ от 28 августа 2001 г. № 630 МОСКВА О федеральной целевой программе Развитие единой образовательной информационной среды (2001-2005 годы) Правительство Российской Федерации п о с т а н о в л я е т : Утвердить прилагаемую федеральную целевую программу Развитие единой образовательной информационной среды (2001-2005 годы ). Министерству экономического развития и торговли Российской Федерации, Министерству финансов Российской Федерации и Министерству...»

«2 Годовой отчет ОАО МЭС Республики Коми 2006 год. Содержание: Раздел 1. Обращение к акционерам Председателя Совета директоров и Генерального директора Общества. Раздел 2. Общие сведения, положение Общества в отрасли 2.1. Географическое положение 2.2. Краткая история. 2.3. Организационная структура 2.4. Основные технические показатели, включая численность работников. 2.5. Конкурентное окружение Общества и факторы риска. 2.6. Приоритетные направления деятельности Общества Раздел 3. Корпоративное...»

«1 Департамент образования города Москвы Северо-Западный административный округ Государственное бюджетное образовательное учреждение города Москвы средняя общеобразовательная школа № 827 Основная образовательная программа ГБОУ СОШ № 827 Основная школа Москва 2012-2013 2 I ОБЩИЕ ПОЛОЖЕНИЯ Основная образовательная программа основного общего образования ГБОУ СОШ № 827 (далее – ООП ООО) разработана в соответствии с требованиями федерального государственного образовательного стандарта основного...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.