WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     | 1 ||

«Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов ...»

-- [ Страница 2 ] --

При создании правил описания рубрик эксперты используют свои знания о свойствах текстов, принадлежащих рубрике. Знания эксперта основываются, в первую очередь, на предыдущем опыте, в частности, на большой коллекции прочитанных ранее текстов, и во вторую очередь, на части текстов, подлежащих рубрицированию. Так как объем документов коллекции может быть очень большим, знания эксперта могут не отражать всё разнообразие тематики текстов, подлежащих рубрицированию. Основная идея предлагаемого подхода к повышению качества рубрицирования состоит в создании программ-помощников, которые предоставляют эксперту информацию о тематике текстов, подлежащих рубрицированию, основываясь на анализе полных текстов коллекции и рубрик, присвоенных документам (при наличии размеченной коллекции текстов).

статистическом анализе коллекции документов с привлечением методов машинного обучения. Одним из таких алгоритмов является метод машинного обучения, описанный в разделе 3.

Программы-помощники позволяют ускорить описание рубрики, повысить точность описания, выявить некоторые ошибки классификации.

Кроме того, некоторые средства оказались очень эффективны для использования в поисковой системе для расширения и уточнения запросов.

Мы опишем различные алгоритмы программ-помощников и примеры применения для реальных задач поиска документов и классификации текстов.

Описанные алгоритмы реализованы и встроены в полнотекстовую информационную систему УИС РОССИЯ.

4.1 Тематический анализ коллекции документов on-line Вспомогательные средства поиска, основанные на статистическом анализе запроса и содержания документов, постепенно получают широкое распространение и внедряются в различных поисковых системах. Стоит отметить развитые средства анализа коллекции документов и агрегирования (http://www.textwise.com) и Inxight (http://www.inxight.com). В поисковых (http://www.vivisimo.com) используется кластеризация найденных документов по классификатору тем, описываемых словосочетаниями. Из российских систем можно отметить Галактика-Зум (http://zoom.galaktika.ru) [21], основанную на выделении наиболее значимых слов и словосочетаний типа прилагательное/местоимение+существительное; различные подходы к (http://research.metric.ru).

4.1.1 Анализ по тезаурусу Особенностью нашего подхода [4, 10] является использование качественного терминологического ресурса — Тезауруса РуТез.

Тематический анализ результатов запроса производится при помощи выделения понятий Тезауруса, наиболее характерных (контрастных) для документов, полученных в результате исполнения запроса. Список дескрипторов понятий упорядочивается по убыванию значимости и показывается рядом с результатами запроса. Степень важности понятия обозначается цветом — более значимые понятия имеют более теплые цвета.

Интерфейс пользователя [17, 15] позволяет уточнить запрос, добавив или удалив заинтересовавшее понятие в/из строки запроса (для этого достаточно одного нажатия клавиши "мыши"). Можно также войти в тезаурус, воспользоваться навигацией по иерархии понятий тезауруса для расширения/сужения запроса.

Опишем алгоритм вычисления коэффициента значимости (веса) понятия в результатах запроса. Для каждого понятия в документе на этапе значимости (ранг) понятия в данном документе — число от 1 до 100. Ранг понятия в документе зависит от частоты встречаемости в документе и от тематической структуры документа (места в иерархии, так называемого, "тематического представления" содержания документа), вычисляемой на основе связей тезауруса [31]. Для всех понятий, встречающихся в результатах запроса) по формуле:

где • Weight(t,q) - вес понятия t;

встретившихся в результатах запроса q и содержащих данное понятие;

• Recl(t,q) - "полнота покрытия" понятия t по результатам запроса q, то есть отношение количества найденных документов, которые содержат документов;

• Cnt(t) - частотность встречаемости понятия t по всей коллекции, то есть количество документов коллекции, которые содержат термины данного Полученный список понятий упорядочивается по убыванию веса и выдаётся на странице результатов запроса.

Отметим, что формула (4.1) аналогична TF*IDF, но адаптирована для коллекции документов.

Тематический анализ результатов запроса реализован средствами СУБД Oracle9i, где хранятся все данные УИС РОССИЯ. Для быстрого тематического анализа документов применяется приближенная оценка по сокращенному списку найденных документов. В результате вычисление краткого тематического анализа результатов запроса занимает 1-2 секунды для любого запроса к информационной системе.

4.1.2 Анализ по метаданным В УИС РОССИЯ поддерживаются различные типы коллекций из разных источников информации. Для каждого источника информации определено множество атрибутов (метаданных), в том числе:

1. дата публикации;

2. имена авторов;

3. название источника информации;

4. название организации, где проводилось исследование (для научных отчетов);

5. рубрики;

6. ключевые слова;

7. и т.п.

Алгоритм анализа результатов запроса по метаданным аналогичен алгоритму тематического анализа по понятиям Тезауруса, за исключением функции ранжирования. В качестве функции ранжирования используется количество документов, содержащих тот или иной атрибут.

';

4.1.3 Анализ с использованием алгоритма построения формул Одним из алгоритмов интерактивного анализа результатов запроса является алгоритм построения формул над понятиями тезауруса, описанный в разделе 3.1. В данном случае в качестве обучающией выборки на вход алгоритма ПФА подаётся всё множество документов коллекции, по которой производится поиск. При этом множество документов, попавших в результаты запроса, образуют множество положительных примеров, а остальные документы коллекции — множество отрицательных документов.

В качестве результатов анализа пользователю показывается формула, построенная алгоритмом ПФА и описывающая множество документов, найденных по запросу пользователя.

Всвязи с тем, что алгоритм ПФА требует значительно больших временных ресурсов, чем алгоритм тематического анализа, описанный в разделе 4.1.1, интерактивный анализ с использованием алгоритма ПФА используется только для относительно небольших (до 50000) коллекций документов.

4.1.4 Применение тематического анализа в ИС Тематический анализ и анализ по метаданным являются эффективным инструментом, повышающим функциональность информационной системы.

В этом разделе мы опишем применения тематического анализа для поиска документов. Методы повышения эффективности рубрицирования, основанные на тематическом анализе, мы опишем более подробно в следующем разделе.

4.1.4.1 Оценка тематики документов, найденных пользователем по запросу к поисковой системе Выдаваемые поисковой системой УИС РОССИЯ списки представляют собой набор ключевых понятий для данной выборки документов. Это просматривая каждый документ. Также можно оценить количество документов, относящихся к той или иной теме.

Рис. 6 Страница результатов запроса для запроса «разведка». В правой колонке — результаты тематического анализа результатов запроса. В левой колонке — анализ по Например, по запросу "разведка" по коллекции нормативно-правовых актов РФ (НТЦ "Система") получаем список понятий (см. рис. 6):

+(277) +t(278) СЛУЖБА ВНЕШНЕЙ РАЗВЕДКИ;

+(141) +t(414) ПОЛЕЗНЫЕ ИСКОПАЕМЫЕ;

+(144) +t(144) ФЕДЕРАЛЬНОЕ АГЕНТСТВО

ПРАВИТЕЛЬСТВЕННОЙ СВЯЗИ И ИНФОРМАЦИИ;

+(207) +t(350) ДОБЫЧА ПОЛЕЗНЫХ ИСКОПАЕМЫХ;

+(140) +t(410) НЕДРА;

+(126) +t(372) МЕСТОРОЖДЕНИЕ;

+(202) +t(202) ФЕДЕРАЛЬНАЯ СЛУЖБА БЕЗОПАСНОСТИ;

+(253) +t(276) МИНИСТЕРСТВО ОБОРОНЫ В этом списке для каждого понятия около знака "+" указано количество документов, содержащих данное понятие и около знака "+t" количество документов, содержащих термины понятия при расширении по иерархии тезауруса (“дереву тезауруса”).

4.1.4.2 Интерактивное уточнение (сужение) запроса С помощью тематического анализа легко обрабатывать многозначные запросы, в частности приведённый в предыдущем примере. Здесь множество документов, найденных по слову "разведка" распадается на две темы:

"геологическая разведка" и "разведывательная деятельность". Можно уточнить запрос, "кликнув" один раз "мышкой" на ссылку "+" или "+t" рядом с нужным понятием, что приведет к появлению в текстовом поле запроса дополнительного условия, например:

/Термин_расш="ГЕОЛОГИЧЕСКАЯ РАЗВЕДКА".

Исполняя модифицированный запрос, можно получить документы, относящиеся только к указанной теме, включая документы, содержащие

"ГЕОЛОГИЧЕСКИЙ ПОИСК", "ГЕОЛОГИЧЕСКОЕ ИЗУЧЕНИЕ";

"ГЕОЛОГИЧЕСКОЕ ИССЛЕДОВАНИЕ" и т.д.

4.1.4.3 Двуязычный поиск документов Так как тезаурус двуязычен, то можно получить тематический анализ коллекции англоязычных документов на русском языке и наоборот (см.

рис. 7 ниже).

4.1.4.4 Поиск документов, похожих на данный Данную функцию сейчас реализуют многие системы, хотя результат, зачастую, оставляет желать лучшего. При помощи средств анализа результатов запроса пользователь может сформировать запрос, используя понятия, содержащиеся в найденном документе. Данный подход отличается большей гибкостью по сравнению с жестким заданием функции похожести документов, так как пользователь может самостоятельно задать "в каком смысле" нужно искать похожие документы.

4.1.4.5 Выявление скрытых зависимостей между темами, объектами, событиями на основе анализа коллекции Список поняий, полученный в результате анализа результатов запроса, иногда содержит понятия, связь которых с тематикой запроса неочевидна.

Интерактивные средства уточнения запроса позволяют выявить связь между тематикой запроса и найденными в результате анализа понятиями.

4.1.4.6 Отслеживание временных закономерностей обсуждения предоставляет пользователю информацию о количестве документов, относящихся к теме запроса и опубликованных в данный период времени (день/месяц/год). Пользователь может исследовать временные закономерности обсуждения заданной теме по количеству публикаций, релевантных данной теме.

(/Термин_расш=«ИРАК» AND /Дата=«2003») и выполняет поиск по коллекции средств массовой информации. Результатом запроса является статей СМИ, выпущенных в 2003 году (см. рис. 7). Каждый документ содержит слово «ИРАК», либо его синонимы (ИРАКСКИЙ, ИРАКСКАЯ РЕСПУБЛИКА), либо понятия, расположенные ниже по иерархии тезауруса (БАГДАД, БАСРА, КИРКУК, ИРАКСКИЙ ДИНАР и т.д.).

В левой панели результатов запроса показана диаграмма распределения документов по датам. Для каждого месяца 2003 года указано количество документов, выпущенных в этом месяце. Из диаграммы явно видно, что большинство документов были опубликованы в марте и апреле (это время начала войны в Ираке).

Рис. 7 результаты запроса (/Термин_расш=«ИРАК» AND /Дата=«2003»). В левой панели — диаграмма анализа по датам и частотность документов по месяцам.

4.1.4.7 Анализ связей между авторами статей, научными организациями и изучаемыми темами Вот ряд задач, которые можно решать при помощи средств анализа результатов запроса по метаданным:

• Найти авторов, занимающихся данной проблемой • Найти организации, которые исследуют данные вопросы • Найти журналы, где публикуются данные авторы • Найти соавторов данных авторов авторы/организации Рассмотрим пример. Пользователь вводит запрос «migration» и выбирает поиск по коллекции научных материалов Соционет/RePec. В результате запроса найдено 1419 документов (см. рис. 8).

Пользователь может выбрать анализ результатов запроса по любому из полей метаданных для коллекции Соционет (автор статьи, организация, где работает автор, название дисциплины, ключевые слова, рубрики JEL). Если выбрать «анализ по авторам», то в правой панели появится список авторов, опубликовавших статьи по теме миграции. Далее, можно найти все документы одного из авторов, и проанализировать тематику публикаций (по рубрикам JEL, ключевым словам или понятиям Тезауруса). Таким образом, с помощью интерактивных средств анализа по тезаурусу и метаданным можно анализировать взаимное распределение различных атрибутов для любого запроса к информационной системе.

Рис. 8. Анализ по атрибутам документов, найденных в результате запроса. В правой основанное на тематическом анализе В сложных задачах рубрикации единственным способом решения задачи является итерационное уточнение правил рубрицирования. Уточнение рубрикации производится на основе сравнения результатов автоматической рубрикации и результатов ручного рубрицирования. Выявленные несоответствия могут происходить как от некорректной классификации документов вручную, так и по причине некорректного описания рубрик для классификацию различных проблем ручного и автоматического рубрицирования и опишем способы ускорения процедур уточнения рубрикации, базирующиеся на интерактивном использовании тематического анализа коллекции документов.

Данный раздел разработан автором при взаимодействии с экспертами проекта УИС РОССИЯ, составляющими описания рубрик. Экспертами были выявлены проблемы, возникающие при описании рубрикатора в «традиционной» для УИС РОССИЯ технологии построения системы рубрицирования. Автором были предложены методы решения возникающих проблем на основе использования тематического анализа коллекции документов и разработаны соответствующие инструменты, встроенные в УИС РОССИЯ.

4.2.1 Общие проблемы ручной классификации для больших рубрикаторов В процессе анализа результатов ручного рубрицирования по большим рубрикаторам, даже проводимого высококвалифицированными экспертами, было выявлено три типа проблем ручного рубрицирования [5].

4.2.1.1 Проблема определения и соблюдения ограничивающих правил рубрицирования Суть проблемы заключается в том, что ограничивающие правила рубрицирования, не связанные непосредственно с формулировкой конкретной рубрики, являются серьезной базой для субъективизма:

• об этих правилах забывает часть экспертов, • для разных рубрик эти правила соблюдаются с разной степенью последовательности, • эти правила неизвестны пользователю, в большой степени он опирается на буквальную формулировку рубрики.

Выбор такого рода правил напрямую зависит от четкого определения ролей рубрикатора в информационно-правовой системе, взаимодействия этих ролей с ролями других типов информации (например, указателей – действующий или не действующий документ), моделью пользователя системы, сценариями работы различных типов пользователей с рубрикатором [40].

4.2.1.2 Проблема документов, отнесенных экспертами к рубрике Процент таких документов в общем количестве документов обычно невелик. Важность нахождения такого рода документов состоит в том, что с большой вероятностью ошибочная рубрика проставлена вместо правильной рубрики, и данный документ не будет найден по правильной рубрике.

4.2.1.3 Проблема пропущенных экспертами документов Нахождение пропущенных экспертами документов является непростой задачей, и может усугубляться проблемой существования ограничивающих правил, по которым не приняты окончательные решения, и большого количества «промежуточных документов», для которых неясно, должны ли они принадлежать рубрике или нет.

Важным шагом является определение набора документов-кандидатов в рубрику для дополнительного просмотра. Наиболее оптимальным здесь, видимо, является опора на результаты анализа результатов автоматического и ручного рубрицирования. Представляются полезными следующие шаги:

• первичный анализ результатов автоматического и ручного рубрицирования, выявление рубрик, в которых явление пропуска релевантных документов носит массовый характер;

• консультация с экспертами, что документы, которые показались релевантными, действительно такими являются;

• по результатам классификации исправление результатов автоматического рубрицирования, чтобы достичь максимального значения полноты без снижения содержательной точности (т.е. без дополнительного появления в результатах автоматического рубрицирования явно нерелевантных документов);

• представление экспертам новых результатов автоматического рубрицирования;

• на множестве документов, помещенных в рубрику автоматической системой, но не взятых в рубрику экспертами, эксперты должны просмотреть практически все документы в этом множестве один за другим и решить, каким документам добавить анализируемую рубрику;

• возможно, необходимо использовать систему решений не из двух значений (принадлежит рубрике или не принадлежит), а из трех:

добавить еще – условно принадлежит – в случаях расхождения между экспертами или неясности решения.

классификации При формировании или модифицировании логической формулы, описывающей рубрику, необходимо производить различные оценки полноты и точности рубрикации. Информеры УИС РОССИЯ (см. рис. 6-8) позволяют экспертам производить данные оценки интерактивно, что повышает эффективность труда — работа ускоряется, и результаты имеют лучшие показатели по критерию полноты и точности.

Опишем алгоритм работы специалиста по рубрикации для решения различных задач поддержки рубрицирования по сложному рубрикатору.

4.2.2.1 Создание терминологического описания для рубрики элементарных единиц, упоминания которых прямо или косвенно должны быть найдены в тексте документов рубрики.

Для того чтобы составить для рубрики терминологическое описание, необходимо выявить элементарные смыслы рубрики, найти, какими терминами эти смыслы могут выражаться. Далее необходимо записать булевское выражение, в котором понятия, выражающие разные составляющие смыслы рубрики, будут соединяться конъюнкцией, а понятия, выражающие один и тот же смысл дизъюнкцией.

Одним из способов начального набора понятий в рубрику является использование алгоритма построения формул, описанного в разделе 3.

Другим способом является набор формулы вручную с использованием инструментов тематического анализа коллекции документов.

Рассмотрим «модельную» рубрику «ИСЧИСЛЕНИЕ АКЦИЗОВ ПРИ ИМПОРТЕ».

Каждый текст, относящийся к этой рубрике, должен содержать термины, относящиеся к сфере импорта, и термины, относящиеся к сфере акцизов.

Выполняем поиск по рубрике – получаем набор документов, отнесенных к рубрике экспертами.

ПОДАКЦИЗНЫЙ ТОВАР, АКЦИЗ, МАРКА АКЦИЗНОГО СБОРА. Удаляем из выдачи документы, содержащие эти понятия, чтобы определить, какие еще понятия могут относиться к сфере акцизов.

Собираем теперь понятия, относящиеся к импорту. Возвращаемся к запросу по рубрике. Изучаем информер — имеется понятие ИМПОРТ.

Удаляем документы, включающие это понятие, из выдачи.

Информер больше понятий не дает. Начинаем изучать оставшиеся тексты. В текстах содержатся слова ввоз, ввезти, ввозить, ввозной. Убираем эти документы.

ТАМОЖЕННОЕ ОФОРМЛЕНИЕ ТОВАРОВ, ГОСУДАРСТВЕННЫЙ

ТАМОЖЕННЫЙ КОМИТЕТ. В сочетании с вопросами акцизами эти понятия должны указывать на импорт.

Таким образом, мы получаем формулу:

(ПОДАКЦИЗНЫЙ ТОВАР

или МАРКА АКЦИЗНОГО СБОРА) или ТАМОЖЕННАЯ ПОШЛИНА

или ТАМОЖЕННОЕ ОФОРМЛЕНИЕ ТОВАРОВ

или ТАМОЖЕННЫЙ КОМИТЕТ) На каждом шаге происходит контроль оставшегося количества документов. Процесс уточнения формулы прекращается, если достигнут требуемый уровень ошибки.

Если название рубрики выглядит как состоящее из одного термина, то это часто не означает, что достаточно упоминания этого термина в тексте, чтобы присвоить тексту рубрику. Часто такой текст должен обсуждать какието значимые для данного понятия части, свойства и ситуации.

Так, тексты в рубрике «ОБЩЕСТВА С ОГРАНИЧЕННОЙ И С ДОПОЛНИТЕЛЬНОЙ ОТВЕТСТВЕННОСТЬЮ» должны содержать не только термины «общество с ограниченной ответственностью» или «общество с дополнительной ответственностью», но и обсуждать такие важнейшие аспекты для этих организаций, как создание, регистрация, учредители, уставный капитал, собственность и т.п.

Таким образом, реально рубрика также разлагается на два элементарных смысла — тот, что назван в формулировке, и что-то вроде «общие вопросы», и описывать рубрику нужно в виде конъюнкции двух частей. Понятия, которые нужно включить во вторую часть конъюнкции, т.е.

те которые важны для функционирования первой части, могут быть набраны из правой панели экранного интерфейса. Для упомянутой рубрики на правой панели мы увидим: УСТАВНЫЙ КАПИТАЛ, УЧРЕДИТЕЛЬ, РЕГИСТРАЦИЯ

ЮРИДИЧЕСКИХ ЛИЦ, СОВЕТ ДИРЕКТОРОВ.

4.2.2.2 Использование программы автоматической рубрикации для нахождения ошибок ручного рубрицирования Для нахождения ошибочных документов в совокупности документов, приписанных рубрике экспертами, необходимо убедиться, что каждый из документов рубрики, упоминает явно или косвенно каждый их элементарных смыслов.

Выполним запрос на поиск документов, приписанных экспертами рубрике «СТРАХОВЫЕ ВЗНОСЫ В ПЕНСИОННЫЙ ФОНД».

Выберем и мысленно зафиксируем один из элементарных смыслов.

Например, выберем понятие ПЕНСИОННЫЙ ФОНД. Нам нужно проследить его наличие в каждом документе рубрики. Для этого будем выбирать на правой панели понятия, которые могут выражать в тексте этот смысл, например, ГОСУДАРСТВЕННЫЙ ПЕНСИОННЫЙ ФОНД, ПЕНСИОННОЕ

СТРАХОВАНИЕ, ПЕНСИОННЫЙ ФОНД.

Используя кнопку “-“, удаляем из выдачи документы, содержащие эти понятия. То есть на множестве документов рубрики выполняем запрос:

/CLASS= "СТРАХОВЫЕ ВЗНОСЫ В ПЕНСИОННЫЙ ФОНД"

AND NOT /Термин="ГОСУДАРСТВЕННЫЙ ПЕНСИОННЫЙ ФОНД" AND NOT /Термин="ПЕНСИОННОЕ СТРАХОВАНИЕ" AND NOT /Термин="ПЕНСИОННЫЙ ФОНД" Смотрим еще раз на правую колонку, и если находим еще понятия, соответствующие выбранному элементарному смыслу, то удаляем содержащие их документы и т.д. Так продолжаем, пока правая колонка уже не содержит такого рода понятий.

Если документы уже закончились, то это означает, что выбранный смысл найден в каждом из документов, и можно переходить к следующему смыслу.

В противном случае, необходимо вызывать на экран оставшиеся документы и, читая их, понять, какие слова или термины в них указывают на искомый элементарный смысл.

В нашем случае выяснилось, что многие из оставшихся текстов содержат аббревиатуру ПФР. Удаляем из выдачи документы, содержащие найденное слово или термин.

Повторяем процедуру, ища понятия, соответствующие элементарному смыслу, на правой панели, или слова внутри текста.

Находим, что многие оставшиеся тексты содержат формулу «страховые взносы во внебюджетные фонды» и понятие ВНЕБЮДЖЕТНЫЙ ФОНД в правой колонке, удаляем документы с эти понятием.

В результате повторения процедуры остаются документы, отнесение которых к рубрике регулируется не содержимым, но внешними параметрами («Внесение изменений», «Досье на проект») и ошибочные документы.

Для нахождения пропущенных экспертами релевантных документов необходимо сначала сформировать множество документов, в которых весьма вероятно могут находиться такие документы. В качестве такого множества могут служить документы из выдачи процедуры автоматической рубрикации для данной рубрики и (или) документы, выданные по запросу – булевскому выражению из слов и (или) понятий, сформированному на основе формулировки рубрики, например, (СТРАХОВОЙ ВЗНОС and ПЕНСИОННЫЙ ФОНД).

Из полученной таким образом выдачи документов необходимо удалить документы, приписанные рубрике экспертами.

Результирующее множество документов необходимо изучить. Здесь выполняем следующую процедуру.

По содержанию документы в результирующем множестве могут подразделяться на несколько классов:

• документ явно нерелевантен;

• документ явно релевантен – пропущенный документ найден и должен быть добавлен к множеству документов рубрики, • документ касается темы рубрики, но акцент документа несколько смещен – таких документов в рассматриваемом множестве может быть достаточно много.

Для рассмотрения последнего типа документов необходимо выполнить следующие шаги:

1) необходимо выяснить, сколько документов, похожих на найденный, включено экспертами в рубрику. Для этого на множестве документов, полученных в результате ручной рубрикации, выполняется булевский запрос из слов и понятий, наиболее полно отражающий суть документа;

2) по всему этому множеству документов должно быть принято решение о включении (не включении) в рубрику;

2а) или все эти документы должны быть включены в рубрику, и тогда к рубрике нужно приписать соответствующее правило о включении и добавить найденный документ;

2б) если принято решение не включать такой тип документов, тогда правило не включения также должно быть зафиксировано, а подобные документы, прежде включенные в рубрику, должны быть удалены из нее как ошибочные.

После анализа документа необходимо по возможности как можно точнее описать его основное содержание в виде булевского запроса и удалить всю совокупность аналогичных документов из рассматриваемого множества, после чего начинать рассмотрение следующего документа.

4.2.2.3 Итерационное повышение полноты автоматического необходимо найти понятия, которые выражают элементарные смыслы рубрики, но не были учтены в текущем терминологическом описании рубрики.

экспертами, вычитается множество документов, помещенное в ту же рубрику при автоматическом рубрицировании, т.е. формируется набор документов рубрики, на котором программа автоматического рубрицирования проработала неудачно.

Пропущенные элементарные смыслы пытаемся найти на правой панели экрана. Удаляем из набора документы, содержащие эти понятия (используем кнопку «-» на правой панели).

Продолжаем поиск дополнительных понятий для включения в терминологическое описание на правой панели.

терминологическое описание ни на правой панели, ни в текстах документов.

Если документы остались, то обычно это документы трех видов:

• документы, отнесенные к рубрике экспертами ошибочно, • документы вида «внесение изменений, не содержащие в явном виде смысловых элементов рубрики, • документы, в которых присутствуют все элементарные смыслы рубрики, но рубрика получает при автоматическом рубрицировании слишком небольшой вес (например, потому, что текст большой, а релевантная фраза одна).

4.2.2.4 Итерационное повышение точности автоматического Для определения способов повышения точности автоматического рубрицирования необходимо получить набор документов, которые были включены в рубрику в процессе автоматического рубрицирования, но не были включены в рубрику экспертами. Для этого в оболочке УИС РОССИЯ необходимо выполнить запрос по рубрике для документов, отнесенных к этой рубрике в процессе автоматического рубрицирования, а затем удалить из выдачи, те документы, которые были включены в рубрику экспертами.

Полученные документы и необходимо изучить, просматривая их один за другим.

Могут встретиться следующие случаи:

1) очередной документ релевантен – это означает, что программа отработала правильно, а эксперты пропустили документ и не включили его в рубрику 2) для очередного документа непонятно, должен ли он включаться в рубрику – необходимо задать дополнительные вопросы по поводу правил экспертного рубрицирования 3) очередной документ явно нерелевантен.

Для выяснения причин нерелевантности документа, нужно сравнить содержание документа с терминологическим описанием рубрики и выяснить, какие именно термины или совокупности терминов привели к проставлению этой рубрики программой.

Причинами появления нерелевантной рубрики у документа могут быть следующие:

3.1) В терминологическом описании содержится понятие без дополнительных условий, и именно по нему текст был отнесен к рубрике.

Если появление таких нерелевантных текстов по данному понятию – массовое явление, то в терминологическое описание рубрики необходимо добавить к этому понятию дополнительные условия, в виде тех понятий, которые также должны встретиться в тексте;

3.2) Текст приписан к рубрике на основе двух различных понятий, встретившихся в этом тексте – в терминологическом представлении рубрики была записана конъюнкция этих двух понятий. Совместная встречаемость этих понятий в тексте иногда дает анализируемую рубрику, но достаточно часто приводит к ложной рубрикации. Например, если при описании терминологической формулы для рубрики «Страховые взносы в Пенсионный Фонд» в формулу была бы включена (или случайно образовалась) конъюнкция ПЛАТЕЖ и ПЕНСИЯ, то часто эта пара понятий давала бы тексты о выплате пенсий, а не о платежах в Пенсионный фонд.

Для исправления возникшей ситуации могут быть сделаны следующие шаги:

1) Возможно, можно обойтись без данной пары понятий в конъюнкции терминологического описания. Конъюнкции для каждого понятия из пары нужно сделать уже, не включая неудачную пару.

2) Возможно данную пару понятий нужно уточнить дополнительными условиями, т.е. превратить конъюнкцию из пары в тройку 3) Возможно, из этих двух понятий нужно образовать более длинный термин. Так, мы пытались сделать терминологическое описание для рубрики

«НАЛОГ НА ПРИОБРЕТЕНИЕ АВТОТРАНСПОРТНЫХ СРЕДСТВ», как

конъюнкцию налог + приобретение + автотранспортное средство, но затем пришли к выводу, что наилучший результат автоматическое рубрицирование даст, если ввести в тезаурус такой длинный термин и построить терминологическое описание данной рубрики на базе этого термина.

3.4) Ложную рубрику дает неправильно разрешенная многозначность термина, как это было с термином журнал для рубрики «ГАЗЕТЫ, ЖУРНАЛЫ» или термином единый налог для рубрики «УЧЕТ И ОТЧЕТНОСТЬ ПО ЕСН». Если явление массовое, то может помочь внесение в тезаурус дополнительных однозначных терминов, содержащих обнаруженный многозначный термин, в качестве составной части, например, журнал учета, кассовый журнал и т.п.

3.5) Возможно, что текст нерелевантен, потому что существует правило, о том, что такого рода тексты должны относиться к другой рубрике.

Данное правило может быть записано в списке правил нормативно-правового рубрицирования.

3.6) Несмотря на все предпринятые усилия, может сохраняться явление так называемой ложной корреляции, когда одна и та же пара терминов в тексте иногда дает правильную рубрику, а иногда нет.

ЛИКВИДАЦИЯ ТАМОЖЕН И ТАМОЖЕННЫХ ПОСТОВ» была выявлена группа явно нерелевантных документов, полученных при автоматическом рубрицировании, когда создаются или ликвидируются склады, комиссии, зоны при таможнях.

С этой проблемой очень трудно бороться, однако в наших экспериментах она встречается только примерно в 3% рубрик.

4.3 Выводы В сложных задачах рубрикации, когда методы машинного обучения не применимы либо не дают требоемого уровня качества классификации, единственным способом решения задачи является итерационное уточнение правил рубрицирования. Уточнение рубрикации производится на основе сравнения результатов автоматической рубрикации и результатов ручного рубрицирования.

В данной главе описаны средства тематического анализа коллекции документов, расширяющие возможности полнотекстовой информационной системы. Разработана методика применения указанных средств для итерационного уточнения правил классификации, разрабатываемых экспертами при инженерном подходе. Дана классификация различных проблем, возникающих при описании рубрик, и предложены методы решения с использованием средств анализа коллекции документов.

Предложенные средства повышают скорость работы экспертов, которые строят описания рубрик, и позволяют устранить ряд ошибок, возникающих из-за различного толкования смысла рубрик.

Кроме того, разработанные средства применяются в качестве эффективного средства поиска и анализа информации в полнотекстовой информационной системе УИС РОССИЯ.

5 Заключение К основным результатам, полученным автором и описанным в данной диссертации (главы 3 и 4), относятся:

1. Разработан новый метод машинного обучения для автоматической классификации текстов, основанный на моделировании логики работы экспертов. Разработанный метод создаёт булевские формулы описания рубрики, пригодные для анализа и доработки экспертами, создающими методы классификации текстов, основанные на 2. Доказано, что при некоторых предположениях относительно рубрики и параметрах разработанного алгоритма, будет построено описание рубрики, близкое к оптимальному. Получены оценки параметров алгоритма, при которых достигается заданный уровень полноты/точности и длины формулы.

3. Проведено экспериментальное исследование разработанного алгоритма. Экспериментально доказана высокая эффективность рубрики. В экспериментах на коллекции РОМИП’2004 (дорожка тематической классификации Российского семинара по Оценке Методов Информационного Поиска 2004 года) алгоритм построения формул показал лучший результат по сравнению с 8 другими алгоритмами классификации текстов.

4. Разработаны средства интерактивного тематического анализа коллекции документов и анализа по метаданным, основанные на статистическом анализе распределения атрибутов документов и методе машинного обучения, основанном на моделировании логики рубрикатора. Разработанные средства расширяют возможности полнотекстовой информационной системы.

5. Разработана методика применения средств тематического анализа Предложены методы решения ряда проблем, возникающих при описании рубрик в «инженерном» подходе, с использованием средств анализа коллекции документов. Предложенные средства повышают скорость работы экспертов, которые строят описания рубрик, и позволяют устранить ряд ошибок, возникающих из-за различного толкования смысла рубрик.

Данная работа объединяет два различных подхода к построению систем автоматической классификации текстов: методы машинного обучения и методы, основанные на знаниях. Разработанные методы позволяют эффективно решать задачу классификации текстов за счёт использования преимуществ обоих подходов.

По теме диссертационной работы опубликовано 18 печатных работ.

Основное содержание диссертации отражено в публикациях [1-8, 10, 11, 18].

Описанные алгоритмы и технологии реализованы и внедрены в технологический процесс построения систем классификации текстов проекта УИС РОССИЯ, разрабатываемого в НИВЦ МГУ.

6 Список литературы Публикации автора по теме диссертации [1] Агеев М.С., Добров Б.В., Макаров-Землянский Н.В. Метод машинного обучения, основанный на моделировании логики рубрикатора.

// RCDL'2003 Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Пятая всероссийская науч. конф.

— Санкт-Петербург, 2003.

[2] Ageev M., Dobrov B., Loukachevitch N. Text Categorization Tasks for Large Hierarchial Systems of Categories // SIGIR 2002 Workshop on Operational Text Classification Systems / Eds. F.Sebastiani, S.Dumas, D.D.Lewis, T.Montgomery, I.Moulinier — Univ. of Tampere, 2002 — p.49-52.

[3] Агеев М.С. Метод машинного обучения для автоматической классификации текстов. // Труды XXVI Конференции молодых ученых механико-математического факультета МГУ. Москва, Мехмат, МГУ, 2004. (в печати).

[4] Ageev M., Dobrov B., Makarov-Zemlyanskii N. On-line Thematic and Metadata Analysis of Document Collection // New Trends in Intelligent Information Processing and Web Mining’2004: Proceedings of the International Conference / Springer, Advanced in Soft Computing — Zakopane, Poland, May 2004 — pp 279- [5] Агеев М.С., Добров Б.В., Лукашевич Н.В. Поддержка системы автоматического рубрицирования для сложных задач классификации текстов. // RCDL'2004 Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Шестая всероссийская науч.

конф. — Пущино, 2004.

[6] Ageev M.S., Dobrov B.V. Support Vector Machine Parameter Optimization for Text Categorization Problems. // Вестник Национального Технического Университета «ХПИ» — Харьков, Украина, 2004. — №1 — стр. 3- Экспериментальные алгоритмы поиска/классификации и cравнение с Информационного Поиска (РОМИП 2004) — Пущино, 2004. — стр. 62Агеев М.С., Добров Б.В., Лукашевич Н.В., Сложные задачи ИНТЕРНЕТ: Труды Всероссийской науч. конф. — Новороссийск, сентябрь 2002.

[9] Агеев М.С., Кураленок И.Е. Официальные метрики РОМИП’2004.

// Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004.

[10] Агеев М.С., Добров Б.В., Тематический анализ коллекции документов on-line. // Научный сервис в сети ИНТЕРНЕТ: Труды Всероссийской науч. конф. — Новороссийск, сентябрь 2003. — стр 249-252.

[11] Ageev M., Dobrov B. Support Vector Machine Parameter Optimization for Text Categorization Problems. // Information Systems Technology and its Applications (ISTA’2003): Proceedings of International Conference / LNI GI, 2003. — Vol 30 — pp. 165-176.

[12] Агеев М.С., Добров Б.В., Журавлев С.В., Лукашевич Н.В., Сидоров А.В., информационной системе РОССИЯ. // Электронные библиотеки, 2002 — Том.5 — Выпуск [13] Агеев М.С., Добров Б.В., Журавлев С.В., Лукашевич Н.В., МакаровЗемлянский Н.В., Сидоров А.В., Интеграция разнородных системе РОССИЯ. // Научный сервис в сети ИНТЕРНЕТ: Труды Всероссийской науч. конф. — Новороссийск, сентябрь [14] Агеев М.С., Добров Б.В., Лукашевич Н.В., Сидоров А.В., Штернов С.В.

"Отправная точка" для дорожки по поиску в РОМИП (предварительный анализ). // Труды РОМИП'2003 (Российский семинар по Оценке Методов Информационного Поиска) — НИИ Химии СПбГУ / Под ред.

И.С.Некрестьянова — Санкт-Петербург, 2003 — стр. 87-110.

[15] Агеев М.С., Журавлев С.В., Ламбурт В.Г. Подготовка Web-версий традиционных изданий. // Открытые Системы, 2000. — № [16] Агеев М.С., Журавлев С.В., Захаров В.А. Опыт построения полнотекстовой информационной системы на базе автоматизированной лингвистической обработки текстов c использованием Интернеттехнологий Oracle // Научный сервис в сети ИНТЕРНЕТ: Труды Всероссийской науч. конф. — Новороссийск, сентябрь 1999.

[17] Агеев М.С., Журавлев С.В., Карасев О.И., Ламбурт В.Г. Некоторые вопросы автоматизации подготовки публикаций в Интернет // Научный сервис в сети ИНТЕРНЕТ: Труды Всероссийской науч. конф. — Новороссийск, сентябрь [18] M. Ageev. Martin's game: a lower bound for the number of sets. // Theoretical Computer Science, 2002. — V. 289/1 — pp.871-876.

Активная библиография [19] Айзерман М.А., Браверман Э.М., Poзоноер Л.И. Метод потенциальных функций в теории обучения машин. — М.: Наука,1970.

[20] Аношкина Ж.Г. Морфологический процессор русского языка.

// Бюллетень машинного фонда русского языка / отв. редактор В.М.

Андрющенко — М., 1996. — Вып.3, с.53-57.

[21] Антонов А.В., Пример задачи поиска "жизненных историй" — НТИ, Серия 1. — 2003. — № 7 — С.12-17.

[22] Антонов А.В., Козачук М.В., Мешков В.С. Галактика-Зум: Отчет об участии в семинаре РОМИП 2004. // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004. — стр. 133- [23] Бонгард М.М. Проблема узнавания. — М.: Наука, 1967. — 320 с.

[24] Брукинг А. и др. Экспертные системы. Принципы работы и примеры.

Пер. с англ.; Под ред. Р.Форсайта. — М.: Радио и связь, 1987.

[25] Вагин В.Н., Головина Е.Ю., Загорянская А.А., Фомина М.В.

Достоверный и правдоподобный вывод в интеллектуальных системах — М: Физматлит, 2004 — 704 стр.

[26] Вайнцвайг М.Н. Алгоритм обучения распознаванию образов "Кора" // Алгоритмы обучения распознаванию образов / Под ред. В.Н. Вапника.

— М.: Сов. радио, 1973. — стр. 110-116.

[27] Вапник В.Н. Восстановление зависимостей по эмпирическим данным.

— М.: Наука, 1979.

[28] Гаврилова Т.А., Хорошевский В.Ф. Базы знаний интеллектуальных систем: Учебник для вузов. — СПб.: Питер, 2000. — 384 с.

[29] Добров Б.В., Лукашевич Н.В., Автоматическая интеллектуальная обработка текстов на основе тезаурусно организованных знаний // Труды шестой национальной конференции по ИИ (КИИ-98). — 1998.

— т. II. — с.486-491.

[30] Добров Б.В., Лукашевич Н.В., Автоматическая рубрикация полнотекстовых документов по классификаторам сложной структуры // Восьмая национальная конференция по искусственному интеллекту — Коломна, 2002.

[31] Добров Б.В., Лукашевич Н.В., Использование тематического представления содержания текста для автоматической обработки документов // V Нац. конф. по искусственному интеллекту. — Казань, концептуальное индексирование в университетской информационной Электронным Библиотекам "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" — Петрозаводск, — С.78-82.

[33] Дюк В., Самойленко А. Data Mining: учебный курс. — изд-во Питер, [34] Журавлев С.В., Юдина Т.Н., Информационная система РОССИЯ // НТИ.

Сер.2. — 1995. — № 3. — С.18-20.

[35] Журавлев Ю.И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики, 1978, — вып. 33, — с. 5-68.

[36] Загоруйко Н.Г. Прикладные методы анализа данных и знаний — Новосибирск: Изд-во Ин-та математики, 1999. — 270 с.

[37] Загорулько Ю.А., Кононенко И.С., Костов Ю.В., Сидорова Е.В.

// Международная конференция ИСТ'2003 "Информационные системы и технологии" — Новосибирск, 2003, [38] Искусственный интеллект. Cправочник в трех томах. / под ред. Захарова В.Н., Попова Э.В., Поспелова Д.А., Хорошевского В.Ф. — М.: Радио и связь, 1990. — Т. [39] Лукашевич Н.В., Автоматическое рубрицирование потоков текстов по общественно-политической тематике // НТИ. Сер.2., 1996. — № 10. — [40] Маковский А.Л., Новиков Д.Б., Силкина А.В., Симбирцев А.Н., // Правовой классификатор и правовой тезаурус с законотворчестве и юридической практике / Сост. В.Б.Исаков и др. — М., ГД РФ: Изд-во Гуманитарного университета, 1998. — c.5-28.

[41] Мегапьютер Интеллидженс: Реферирование и классификация текстов (информация на web-сайте компании) http://www.megaputer.ru/doc.php?detail/040923_detail.html [42] И. Кураленок, И. Некрестьянов. Оценка систем текстового поиска.

/ Программирование. — 28(4), 2002 — стр. 226- [43] Некрестьянов И.С. Тематико-ориентированные методы информационного поиска: Дис. канд. физ-мат. наук: 05.13.11 / С-Пб. гос.

унив. — Санкт-Петербург, 2000.

[44] О классификаторе правовых актов: Указ Президента РФ №511 от марта 2000г.

[45] Объедков С. А. Алгоритмические аспекты ДСМ-метода автоматического порождения гипотез. / НТИ, Серия 2. — Выпуск 1-2, 1999 — стр. 64-74.

[46] Осипова Н. Анализ результатов тестирования алгоритма София при решении задачи классификации коллекции правовых документов.

// Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004. — стр. 110- [47] Плешко В.В., Ермаков А.Е., Голенков В.П. RCO на РОМИП 2004.

// Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004. — стр. 43- [48] Поспелов Д.А. Cтановление информатики в России. / В кн. "Очерки истории информатики в России". — Редакторы-составители Д. А.

Поспелов и Я. И. Фет. — Новосибирск: Научно-издательский центр ИГГМ СО РАН, [49] Рубашкин В.Ш. Представление и анализ смысла в интеллектуальных информационных системах — М.: Наука, 1989. — 189 с.

[50] Рыбинкин В.В. Система рубрикации данных "Синдбад". // Российский семинар по Оценке Методов Информационного Поиска (РОМИП 2004) — Пущино, 2004. — стр. 90- И.С.Некрестьянова — Санкт-Петербург, 2003 — 132 с.

[52] Хант Э. Искусственный интеллект. — М.: Мир. 1978. — Часть 2.

Распознавание образов.

[53] Чесноков С.В. Детерминационный анализ социально-экономических данных. — М:, "Наука", 1982.

[54] Beuster G. MIC — A System for Classification of Structured and Unstructured Texts. Diploma Thesis. — University Koblenz, 2001.

[55] Burges C.J.C. A tutorial on support vector machines for pattern recognition.

// Data Mining and Knowledge Discovery, — 2(2):955-974, 1998.

[56] Callan J.P., Croft W.B. and Harding S.M. The INQUERY Retrieval System // Proceedings of DEXA-92, 3rd International Conference on Database and Expert Systems Applications. / A.M. Tjoa and I. Ramos (eds.), Database and Expert System Applications. — Springer Verlag, New York, 1992. — pp.78Debole F., Sebastiani F., An Analysis of the Relative Hardness of ReutersSubsets // Journal of the American Society for Information Science and Technology, [58] Dumais S., Platt J,, Heckerman D., Sahami M. Inductive learning algorithms and representations for text categorization. // In Proc. Int. Conf. on Inform.

and Knowledge Manage., 1998.

[59] Dumais S., Lewis D., Sebastiani F. Report on the Workshop on Operational Text Classification Systems (OTC-02) // SIGIR-2002 — Tampere, Finland, [60] Hayes P.J., Weinstein S.P. Construe: A System for Content-Based Indexing of a Database of News Stories // Proceedings of the Second Annual Conference on Innovative Applications of Intelligence, 1990.

[61] Hayes P. Intelligent High-Volume Text Processing Using Shallow, DomainSpecific Techniques. / In P. Jacobs (Ed.) Text-Based Intelligent Systems:

Current Research and Practice in Information Extraction and Retrieval. — Lawrence Erlbaum, Hillsdale, NJ, 1992. — pp 227--241.

[62] Haykin, S. Neural Networks: A Comprehensive Foundation. — New York:

Macmillan College Publishing, [63] Joachims T. Text Categorization with Support Vector Machines: Learning with Many Relevant Features. // Proceedings of ECML-98, 10th European Conference on Machine Learning — 1998.

[64] Joachims T. A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization. // Proceedings of ICML-97, 14th International Conference on Machine Learning. — 1996.

[65] Joachims T. Making Large-Scale SVM Learning Practical. Advances in Kernel Methods / Support Vector Learning, Schlkopf B., Burges C., Smola A. (ed.), — MIT-Press, 1999.

[66] Joachims T. Estimating the Generalization Performance of a SVM Efficiently.

// Proceedings of the International Conference on Machine Learning, — Morgan Kaufman, 2000.

[67] Legislative Indexing Vocabulary — Congressional Research Service. The Library of Congress. Twenty-first Edition, 1994. — 546 p.

[68] Lewis D. Applying Support Vector Machines to the TREC-2001 Batch Filtering and Routing Tasks. Proceedings of TREC-2001 conference.

[69] Lewis D. Feature Selection and Feature Extraction for Text Categorization.

// Proceedings of the DARPA Workshop on Speech and Natural Language. — Harriman, New York, 1992. — pp. 212- [70] Lewis D. Reuters-21578 text categorization test collection. Distribution 1. http://www.daviddlewis.com/resources/testcollections/reuters21578/readme.t [71] Lewis D., Sebastiani F. Report on the Workshop on Operational Text Classification Systems (OTC-01) // SIGIR-2001 — New Orleans, [72] Marshall R.J. Generation of Boolean classification rules. // Proceedings of Computational Statistics 2000 — Utrecht, The Netherlands, / eds Bethlehem and PGM van der Heijden, — Springer-Verlag, Heidelberg, 2000 — pp. 355Quinlan J.R. C4.5 Programs for machine learning. — Morgan Kaufmann, — San Mateo, Californie, 1993.

[74] van Rijsbergen C.J. Information Retrieval. — Butterworth's and Co. — London, 1979 — 2nd edition.

[75] Salton G, Buckley C. Term-Weighting Approaches in Automatic Text Retrieval. / Information Processing and Management, —1988 — pp. 513-523.

[76] Teoma: Adding a New Dimension to Search: The Teoma Difference is Authority http://sp.teoma.com/docs/teoma/about/searchwithauthority.html [77] The Twelfth Text Retrieval Conference (TREC 2003). Appendix 1. Common Evaluation Measures. http://trec.nist.gov/pubs/trec12/appendices/measures.ps [78] Vapnik V. The Nature of Statistical Learning Theory. — Springer-Verlag — New York, 1995.

[79] Yang Y. An Evaluation of Statistical Approaches to Text Categorization.

/ Journal of Information Retrieval, 1999 — V.1 — pp. 67--88.

[80] Yang Y., Liu X. A re-examination of text categorization methods. // Proc. of Int. ACM Conference on Research and Development in Information Retrieval (SIGIR-99), 1999 — pp. 42-49.

[81] Yang Y., Pedersen J. A comparative study on feature selection in text categorization. // In: Proc. of ICML-97, 14th International Conf. On machine Learning — Nashville, USA, 1997. — pp. 412-420.

[82] Wasson M. Classification Technology at LexisNexis. // SIGIR Workshop on Operational Text Classification.



Pages:     | 1 ||
Похожие работы:

«КОСТИКОВА Анастасия Владимировна РАЗРАБОТКА ДИНАМИЧЕСКИХ НЕЧЕТКИХ МОДЕЛЕЙ ДЛЯ АНАЛИЗА КАЧЕСТВА ЖИЗНИ НАСЕЛЕНИЯ 08.00.13 Математические и инструментальные методы экономики Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель доктор экономических наук, доцент Терелянский Павел Васильевич Волгоград 2014 Оглавление Введение Глава 1. Теоретико-методологические основы исследования качества...»

«Чириков Игорь Сергеевич СОЦИОЛОГИЧЕСКИЙ АНАЛИЗ ТРАНСФОРМАЦИИ ОРГАНИЗАЦИОННЫХ ГРАНИЦ: ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ПОДХОДЫ Специальность 22.00.01 – теория, методология и история социологии Диссертация на соискание ученой степени кандидата социологических наук Научный руководитель д.социол.н., профессор И.Ф. Девятко Москва 2013 СОДЕРЖАНИЕ: ВВЕДЕНИЕ ГЛАВА 1. ОРГАНИЗАЦИОННЫЕ ГРАНИЦЫ КАК СОЦИОЛОГИЧЕСКИЙ ФЕНОМЕН 1.1....»

«vy vy из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Макшанов, Сергей Иванович 1. Психология тренинга в профессиональной деятельности 1.1. Российская государственная библиотека diss.rsl.ru 2002 Макшанов, Сергей Иванович Психология тренинга в профессиональной деятельности [Электронный ресурс]: Дис.. д-ра психол. наук : 19.00.03 - М. : РГБ, 2002 (Из фондов Российской Государственной Библиотеки) Психология труда; инженерная психология Полный текст: http://diss.rsl.ru/diss/02/0000/020000726.pdf...»

«Фадеева Елена Ивановна КОЛЛЕГИАЛЬНОСТЬ СОСТАВА СУДА В ХОДЕ СУДЕБНОГО ПРОИЗВОДСТВА ПО УГОЛОВНЫМ ДЕЛАМ Специальность 12.00.09 – уголовный процесс Диссертация на соискание ученой степени кандидата юридических наук Научный руководитель : кандидат юридических наук,...»

«ТОКАРЕВ Борис Евгеньевич МЕТОДОЛОГИЯ МАРКЕТИНГОВЫХ ИССЛЕДОВАНИЙ РЫНОЧНЫХ НИШ ИННОВАЦИОННЫХ ПРОДУКТОВ 08.00.05 - Экономика и управление народным хозяйством Диссертация на соискание ученой степени доктора экономических наук Научный консультант : Доктор экономических...»

«ТИХОМИРОВ АЛЕКСЕЙ ВЛАДИМИРОВИЧ УПРАВЛЕНИЕ УЧРЕЖДЕНИЯМИ ЗДРАВООХРАНЕНИЯ В ОТНОШЕНИЯХ СОБСТВЕННОСТИ 14.00.33 – Общественное здоровье и здравоохранение Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : доктор медицинских наук, профессор, чл.-корр. РАМН В.И.Стародубов Москва – -2стр. Оглавление Введение.. Глава 1. Характеристика...»

«Боженькина Светлана Александровна ВРАЧЕБНАЯ ПРОФЕССИЯ В ВОСПИТАТЕЛЬНОГУМАНИСТИЧЕСКОМ ИЗМЕРЕНИИ (ОПЫТ СОЦИАЛЬНОФИЛОСОФСКОГО АНАЛИЗА) Специальность 09.00.11 – социальная философия ДИССЕРТАЦИЯ на соискание ученой степени кандидата философских наук Научный руководитель – доктор философских наук Ковелина Татьяна Афанасьевна...»

«ПАНФИЛОВ Петр Евгеньевич ПЛАСТИЧЕСКАЯ ДЕФОРМАЦИЯ И РАЗРУШЕНИЕ ТУГОПЛАВКОГО МЕТАЛЛА С ГРАНЕЦЕНТРИРОВАННОЙ КУБИЧЕСКОЙ РЕШЕТКОЙ 01.04.07 – физика конденсированного состояния диссертация на соискание ученой степени доктора физико-математических наук Екатеринбург – 2005 СОДЕРЖАНИЕ СОДЕРЖАНИЕ 2 ВВЕДЕНИЕ 5 ГЛАВА 1. ПЛАСТИЧЕСКАЯ ДЕФОРМАЦИЯ И РАЗРУШЕНИЕ ИРИДИЯ (Литературный обзор) 1.1 Очистка иридия от примесей 1.2 Деформация и разрушение поликристаллического иридия 1.3 Деформация и...»

«Данилова Ольга Витальевна НОВЫЕ МЕТАНОТРОФЫ И ФИЛОГЕНЕТИЧЕСКИ РОДСТВЕННЫЕ ИМ БАКТЕРИИ БОЛОТНЫХ ЭКОСИСТЕМ Специальность 03.02.03 – микробиология ДИССЕРТАЦИЯ на соискание ученой степени кандидата биологических наук Научный руководитель : Д.б.н. С.Н. Дедыш Москва - 2014 ОГЛАВЛЕНИЕ Часть 1. ВВЕДЕНИЕ Актуальность проблемы.. Цель и задачи работы.....»

«Киселева Светлана Петровна ТЕОРИЯ ЭКОЛОГО-ОРИЕНТИРОВАННОГО ИННОВАЦИОННОГО РАЗВИТИЯ Специальность: 08.00.05 - Экономика и управление народным хозяйством (Экономика природопользования) Диссертация на соискание ученой степени доктора экономических наук Научный консультант : Заслуженный деятель науки РФ, доктор технических наук, профессор...»

«Рубахина Галина Анатольевна ИНСТРУМЕНТАЛЬНЫЙ КОНЦЕРТ В ТВОРЧЕСТВЕ Е. ПОДГАЙЦА: ТРАКТОВКА ЖАНРА Специальность 17.00.02 – Музыкальное искусство Диссертация на соискание ученой степени кандидата искусствоведения Научный руководитель – доктор культурологии, профессор Крылова Александра Владимировна...»

«Сорокин Павел Сергеевич КАРЬЕРА РУКОВОДИТЕЛЕЙ НИЖНЕГО И СРЕДНЕГО ЗВЕНА РОССИЙСКИХ БИЗНЕСОРГАНИЗАЦИЙ КАК СОЦИАЛЬНОЕ ЯВЛЕНИЕ Специальность 22.00.03 – Экономическая социология и демография Диссертация на соискание ученой степени кандидата социологических наук Научный руководитель – доктор философских наук...»

«ТАВТИЛОВА Наталья Николаевна ПСИХОДИНАМИКА ЛИЧНОСТНОГО РОСТА СОТРУДНИКОВ УГОЛОВНО-ИСПОЛНИТЕЛЬНОЙ СИСТЕМЫ, СОСТОЯЩИХ В РЕЗЕРВЕ КАДРОВ НА ВЫДВИЖЕНИЕ Специальность 19.00.06 – юридическая психология ДИССЕРТАЦИЯ на соискание ученой степени кандидата психологических наук Научный руководитель : доктор психологических наук, профессор Сочивко Дмитрий Владиславович Рязань – ОГЛАВЛЕНИЕ Введение.. Глава 1....»

«Селиверстов Владимир Валерьевич Проблема статуса несуществующих вещей в майнонгианской философской традиции 09.00.01 – Онтология и теория познания Диссертация на соискание ученой степени кандидата философских наук Научный руководитель доктор философских наук, профессор Порус Владимир Натанович. Москва – 2013 год 1 Содержание Введение..4 Проблема беспредметных представлений в I. брентановской философской...»

«ВЕНЕДИКТОВ Алексей Александрович РАЗРАБОТКА БИОМАТЕРИАЛОВ ДЛЯ РЕКОНСТРУКТИВНОЙ ХИРУРГИИ НА ОСНОВЕ КСЕНОПЕРИКАРДИАЛЬНОЙ ТКАНИ 14.01.24 – Трансплантология и искусственные органы 03.01.04 –...»

«РАЙСКИЙ Денис Андреевич НАЦИОНАЛЬНАЯ БЕЗОПАСНОСТЬ РОССИИ В КОНТЕКСТЕ СЕТЕЦЕНТРИЧЕСКИХ ВОЙН В УСЛОВИЯХ МЕНЯЮЩЕЙСЯ МИРОВОЙ АРХИТЕКТУРЫ Специальность: 23.00.04 – политические проблемы международных отношений, глобального и регионального развития Диссертация на соискание ученой степени кандидата политических наук Научный руководитель д.и.н., проф. Ягья В.С. Санкт-Петербург...»

«Горпиненко Елена Александровна Развитие импровизационных способностей учащихся младших классов хореографических училищ: полихудожественный подход 13.00.01 – общая педагогики, история педагогики и образования Диссертация на соискание ученой степени кандидата педагогических наук Москва 2014 Оглавление Введение 3 Глава I. Теоретические основы развития импровизационных способностей учащихся младших классов хореографических училищ 17...»

«Орлова Ольга Геннадьевна ВЗАИМОДЕЙСТВИЕ МИКРООРГАНИЗМОВ С ПРОДУКТАМИ ГИДРОЛИЗА ИПРИТА Специальность 03.00.07 - микробиология ДИССЕРТАЦИЯ на соискание ученой степени кандидата биологических наук Научный руководитель : д.т.н. Медведева Н.Г. Научный консультант : к.б.н.Зайцева Т.Б. Санкт-Петербург ОГЛАВЛЕНИЕ стр. ВВЕДЕНИЕ.. Глава 1. Обзор литературы.....»

«Джаграева Милена Левоновна Коммуникативно-прагматические особенности фразеологической деривации 10. 02. 19 – Теория языка Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель доктор филологических наук, доцент С.В. Серебрякова Ставрополь 2005 2 Содержание Введение.. 4 Глава 1. Теоретические основы исследования динамических процессов в сфере...»

«БУЯНКИН ПАВЕЛ ВЛАДИМИРОВИЧ ОЦЕНКА УСТОЙЧИВОСТИ ПЛАТФОРМ И НАГРУЗОК В ОПОРНО-ПОВОРОТНЫХ УСТРОЙСТВАХ ЭКСКАВАТОРОВМЕХЛОПАТ Специальность 05.05.06 – Горные машины ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель : профессор, доктор технических наук Богомолов Игорь...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.