WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

На правах рукописи

Седов Алексей Владимирович

Математические модели, методы и алгоритмы

построения размеченных корпусов текстов

05.13.18 — математическое моделирование,

численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Петрозаводск — 2013 г.

Работа выполнена на кафедре теории вероятностей и анализа данных ФГБОУ ВПО "Петрозаводский государственный университет"

Научный руководитель: Рогов Александр Александрович доктор технических наук, профессор

Официальные оппоненты: Кулешов Сергей Викторович доктор технических наук, ФГБУН Санкт-Петербургский институт информатики и автоматизации РАН, ведущий научный сотрудник лаборатории автоматизации научных исследований Москин Николай Дмитриевич кандидат технических наук, доцент, ФГБОУ ВПО «Петрозаводский государственный университет», доцент кафедры информатики и математического обеспечения

Ведущая организация: ФГБОУ ВПО «Санкт-Петербургский государственный университет»

Защита состоится «26» декабря 2013 г. в 14:00 на заседании диссертационного совета Д 212.190.03 на базе ФГБОУ ВПО «Петрозаводский государственный университет», расположенного по адресу: 185910, г. Петрозаводск, пр. Ленина, 33.

С диссертацией можно ознакомиться в научной библиотеке Петрозаводского государственного университета.

Автореферат разослан « » ноября 2013 г.

Ученый секретарь Р. В. Воронов диссертационного совета

Общая характеристика работы

Актуальность темы. Комплексный анализ текстов необходим для решения различных задач семантического анализа. При этом возникает необходимость обработки огромного массива информации. Частично решению данной задачи служат активно создаваемые в настоящее время размеченные корпуса текстов, создание которых стало возможным благодаря современным информационным технологиям и методам математического моделирования.

Существующие корпуса текстов позволяют производить всесторонние исследования не только в рамках развития языка в определённых временных масштабах (год, век, эпоха), но также отображать внешние факторы, такие как эмоциональная окраска использованных языковых структур, языковые элементы, показывающие отношение к окружающему миру и т. п. Корпуса текстов являются богатым источником для лексикографии. С применением современных компьютерных технологий словари могут составляться и пересматриваться гораздо быстрее, чем раньше, фиксируя текущее состояние языка. На основании корпусов создаются практически все современные системы информационного поиска. С их помощью может быть решено множество прикладных задач, таких как: статистическая обработка специальных текстов, создание систем извлечения текстовой информации, извлечение знаний из больших массивов информации, задачи интеллектуального поиска, задачи установления авторства и др.

В настоящее время созданием корпусов занимается большое количество исследователей. В качестве примера можно привести Национальный корпус русского языка (НКРЯ), Хельсинкский аннотированный корпус (ХАНКО), Корпус шведского языка, Корпус итальянского языка, Британский национальный корпус, Банк английского языка и другие. Отличительной особенностью данных корпусов является то, что для их создания привлекается большое количество специалистов, которые зачастую вручную решают задачи разбора и снятия омонимии.

При построении корпусов текстов малой размерности, создаваемых для решения специализированных задач, штат сотрудников может быть сильно ограничен и даже состоять лишь из одного исследователя. При этом решения, используемые для создания больших корпусов текстов, становятся практически неприменимыми. Для таких корпусов требуется создание компьютерной программы, которая частично автоматизировала бы процесс разбора и при этом не была бы ориентирована на конкретный язык и тип разметки.

После создания размеченного корпуса текстов возникает необходимость предоставления специалистам инструмента, позволяющего производить лингвистические исследования. В частности, этот инструмент должен позволять строить частотный словарь для определённого набора текстов, находить частоты встречаемости словоформ, биграмм, триграмм, осуществлять поиск однокоренных слов, неоднородных включений, цитат.

Таким образом, существующие корпуса удовлетворяют не всем современным запросам специалистов, а значит, разработка инструментов для создания новых корпусов и поиска статистических закономерностей текстов является актуальной исследовательской задачей.

Степень разработанности. Имеющиеся корпуса опираются в основном на современный язык и разметку. В настоящем диссертационном исследовании разработана программная среда, которая позволяет создавать мультиязычные размеченные корпуса текстов, сохраняя оригинальное написание слов. Используемые для ее создания математические модели и алгоритмы существенно отличаются от применяемых в ранее созданных корпусах. В настоящее время практически отсутствуют специализированные инструменты глубокого статистического анализа текстов.

Цель диссертационной работы — построение и разработка моделей и методов создания размеченных корпусов текстов и нахождения статистических параметров, присущих как отдельным словам, предложениям, текстам и их частям, так и всему корпусу в целом.



Для достижения поставленной цели необходимо решить следующие задачи:

1. разработать структуры баз данных, необходимые для хранения грамматической и синтаксической разметок;

2. создать компьютерные системы поддержки грамматического и синтаксического разборов;

3. разработать компьютерную систему доступа к разобранным текстам, хранящимся в базах данных;

4. провести анализ методов разбиения текста/текстов на фрагменты однородности.

Объект исследования — системы создания корпусов текстов, методы извлечения информации из текстов.

Методология и методы исследований. Для решения поставленных задач использовались методы прикладной и математической статистики, методы управления базами данных, а также методы человеко-машинного взаимодействия.

Научная новизна работы заключается в предложенных и исследованных в диссертации структурных моделях текста и анализе методов выявления неоднородных фрагментов текста.

Теоретическая и практическая значимость. Предложенные модели, методы и алгоритмы могут использоваться при создании разнообразных корпусов текстов, а также проведении исследований по анализу структуры языка, извлечению информации из текстов, выделению однородных фрагментов.

Положения, выносимые на защиту:

1. Предложенные структурные и графовые модели позволяют создавать мультиязычные корпуса текстов, а также проводить различные исследования, направленные на выявление особенностей текста.

2. Разработанные численные методы автоматизируют определения структурных особенностей единиц текста (морфологического и синтаксического разбора).

3. Разработанные численные методы позволяют определить вид данных в объединённом хранилище, который обеспечивает минимальное время доступа в зависимости от вида требуемой информации.

4. Разработанные численные методы позволяют на основании статистических характеристик выявлять фрагменты неоднородности. Полученные фрагменты могут быть полезны для решения задач поиска плагиата, задач атрибуции и распознавания.

5. Разработанный программный комплекс, реализованный в ИС СМАЛТ, содержит предложенные модели и численные методы и предназначен для создания информационных корпусов, предоставления статистической информации о них, а также проведения исследований по анализу однородности как корпуса в целом, так и отдельных его фрагментов.

Степень достоверности. Степень достоверности результатов выполненных исследований подтверждается на примере проведения анализа однородностей в текстах XIX века, текстах Ф. М. Достоевского и В. И. Даля.

Апробация работы. Результаты работы были представлены и обсуждались на следующих конференциях:

1. VI Международной научно-практической конференции «Информационная среда вуза XXI века», 26-30 сентября 2012 г., Финляндия, Куопио;

2. Международной конференции «Компьютерные технологии и математические методы в исторических исследованиях», 11-16 июля 2011 г., Петрозаводск;

3. XI Всероссийской научной конференции «Электронные библиотеки: Перспективные методы и технологии, электронные коллекции», 17-21 сентября 2009 г., Петрозаводск;

4. XL международной научной конференции аспирантов и студентов «Процессы управления и устойчивость» Control Processes and Stability (CPS’09), 6-9 апреля 2009 г., Санкт-Петербург.

Разработанный программный комплекс был апробирован при создании корпуса русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат». Проект был поддержан грантами российского гуманитарного научного фонда № 05-04-12418в «Исследовательские базы данных «Грамматический словарь русского языка XIX века»

(рук. Рогов А. А.), № 08-04-12105в «Синтаксически размеченный корпус текстов XIX века» (рук. Рогов А. А.).

Публикации. По материалам диссертации опубликовано 10 работ [1–10], в том числе 2 статьи в изданиях, рекомендованных ВАК [1, 2].

Личный вклад автора. Содержание диссертации и основные положения, выносимые на защиту, отражают персональный вклад автора в опубликованные работы. Подготовка к публикации полученных результатов проводилась совместно с соавторами, причем вклад диссертанта был значительным. Все представленные в диссертации результаты получены лично автором.

Структура и объём диссертации. Диссертация состоит из введения, четырёх глав, заключения, библиографического списка использованной литературы ( наименований), имеет объём 110 страниц машинописного текста, включая страницы приложений, содержит 22 рисунка и 6 таблиц.

Содержание работы Во введении приводится обоснование актуальности темы диссертации, формулируется цель диссертационного исследования, представляются основные результаты, научная новизна, практическая значимость работы, а также описывается композиционное построение диссертации.

В первой главе проводится анализ существующих электронных словарей и текстовых корпусов. Рассматриваются принципы их построения и возникающие проблемы. Одной из основных проблем при создании корпусов является вопрос автоматизации разбора, определение грамматических и синтаксических характеристик предложений и слов.

Существующие программные решения для создания корпусов ориентируются на конкретные виды грамматических и синтаксических разборов, на заранее заданный язык. В данном диссертационном исследовании моделируются структуры данных, которые могут использоваться для создания мультиязычных корпусов, исследователю лишь необходимо будет задать грамматические и синтаксические параметры (рис. 1).

Корпус () представляет собой собрание текстов. Под текстом понимается упорядоченный набор разобранных слов, разделённых знаками препинания, пробелами, переводами строк.

Каждому слову ставится в соответствие его оригинальное написание, положение (2) в тексте (номер главы, параграфа, абзаца, и т. п.) и соответствующие морфологические (3) и синтаксические параметры.

где m – количество грамматических признаков слова.

Взаимосвязь грамматических признаков можно изобразить в виде двудольного графа:

здесь — это множество различных морфологических параметров, а — множество морфологических значений. Ребро соединяет вершину из множества значений с вершиной из множества параметров в случае, если от значения зависит наличие параметра.

В качестве примера можно привести часть грамматического разбора из корпуса русских публицистических текстов второй половины XIX века (рис. 2).

Для каждого корпуса строится индивидуальный граф морфологического разбора. Более того, для некоторого набора текстов мы можем иметь несколько вариантов морфологических разборов.

Кроме морфологических параметров для каждого слова были введены дополнительные строковые параметры. Примерами таких параметров в корпусе русских публицистических текстов второй половины XIX века являются: начальная форма, современное написание. Для корпуса финноязычных газетных статей «Карьялан Саномат» это перевод.

Таким образом, каждому слову ставилась в соответствие следующая структура:

где — дополнительные строковые параметры.

Способы синтаксической разметки настолько сильно отличаются друг от друга, что невозможно предложить некоторую универсальную модель. В отличие от грамматического разбора, минимальной структурной единицей текста, в зависимости от выбранного подхода к синтаксической разметке, являются не только слова, но также части предложений и предложения целиком. В диссертационном исследовании корпус представляет собой набор текстов:

В качестве структурных единиц рассматриваются клаузы — элементарные предложения в составе сложных, вершиной которых является глагол либо, в случае отсутствия глагола, связка или элемент, играющий её роль. Формально понятие клаузы можно определить следующим образом: предложение разбивается на части и представляется как множество:

Тогда в качестве клаузы выбирается некоторое подмножество из частей предложения. = { 1, 2,..., }, причем = и, вообще говоря, пересечение клауз может быть непустым. Резюмируя это, отметим два основных момента:

1. Каждая клауза может быть разбита на несколько частей внутри одного предложения;

2. Некоторые части предложения могут входить сразу в несколько клауз.

В качестве примера приведём предложение из корпуса русских публицистических текстов XIX века, разбитое на части (заключены в фигурные скобки):

{Впрочемъ и на словахъ}, {какъ мы сказали}, {противочеловxчность сгинула только почти}, {потому что есть еще даже у насъ въ литературx... Хотя впрочемъ тамъ, гдx—то, на заднемъ ея фасx, но все-таки есть еще углы}, {гдx она засxла} {и по временамъ вырывается на свxтъ, во всей своей безобразной дикости}. В данном предложении каждая часть является отдельной клаузой, за исключением клаузы: Впрочемъ и на словахъ противочеловxчность сгинула только почти, которая разделена на две части клаузой какъ мы сказали.

Во второй главе описываются процессы автоматизации грамматического и синтаксического разборов. Процесс грамматического разбора (рис. 3) текста был разделён на 2 этапа: этап преформатирования и этап разметки.

На этапе преформатирования (рис. 4) на вход программы подается текстовый файл. Он содержит текст, который необходимо разметить. Программа автоматически разбивает текст на структурные компоненты: главы, абзацы и предложения.

Признаком новой главы является знак параграфа, расположенный первым на строке, признаком нового абзаца является табуляция. Символами конца предложения являются точка, восклицательный, вопросительный знаки и др. Разбиение на слова происходит при помощи аппарата регулярных выражений.

Несмотря на кажущуюся простоту данного процесса, на данном этапе возникло множество проблем с корректным разбиением. Рассмотрим часть проблем, решённых в диссертационном исследовании:

1. Существуют сложные знаки препинания, сигнализирующие о конце предложения: «... », «?..», «!..», «?!», «!!!» и пр. Изначально программа ставила символы конца предложения внутри этих знаков. Эта проблема была решена путем введения специальных дополнительных шаблонов для проверки, соответствующих подобным сложным знакам препинания.

2. Точка не всегда свидетельствует о завершении предложения. Зачастую точка является признаком сокращения («... г. Волошин... »). Помимо этого, названные знаки препинания ставятся внутри прямой речи, не являясь при этом сигналом завершения предложения. В результате чего предложения разделялись на несколько. Поэтому приходилось перепроверять тексты и склеивать предложения. Эта проблема решалась путем анализа следующего слова и подсчёта открывающихся и закрывающихся скобок. Правда в случае, когда следующее слово начинается с заглавной буквы, это не гарантирует, что знак стоит в конце предложения.

3. Стандартным признаком конца абзаца является наличие символов перевода строки. Однако перевод строки может использоваться и внутри текста, например в стихотворных отрывках. Поэтому была добавлена дополнительная проверка на символ конца предложения прямо перед переводом строки.

4. Составные словоформы, в общем случае, должны быть представимы набором слов, причем не обязательно подряд стоящими (союзы «если... то»).

Поэтому была добавлена возможность объединения нескольких текстоформ в одну словоформу.

Для грамматического разбора была реализована система автоматической разметки. Её работа заключается в том, что грамматический анализатор ищет теРис. 5: Схема разбора кущее разбираемое слово в составе нашего сформированного словаря (рис. 5).

В случае удачного поиска, пользователю выдается разбор найденного слова в качестве разбора «по умолчанию». Далее пользователь в случае необходимости может изменить разбор или сохранить предложенный.

Основными препятствиями автоматической разметки являются:

1. Некоторые слова остаются неразмеченными, поскольку далеко не все слова есть в словаре. Стоит отметить, что с увеличением размера словаря доля неизвестных слов уменьшается.

2. С расширением размера словаря остро проявляются проблемы омонимии.

Для одной текстоформы в словаре может содержаться несколько вариантов её разбора, поэтому встает вопрос, как выбрать из них правильный.

В качестве решения данной задачи использовался следующий метод: рассматриваются триграммы — тройки подряд идущих слов 1, 2, 3, с соответствующими им разборами 1, 2 и 3. Порядок слов считается важным.

Введём понятие вероятности разбора где (, ) — количество встречаемых в корпусе разборов слова, а ( ) — общее количество разборов слова, встречаемых в корпусе. Введём:

Основу формулы составляют два слагаемых, каждое из которых представляет собой формулу условной вероятности. Разбор 1 2 3, на котором достигается максимум функции (1 2 3 ), принимается как разбор по умолчанию в случае омонимии. Весовой коэффициент задает степень влияния каждого слагаемого на итоговую сумму. В том случае если триграммы слов 1, 2, 3 ранее не встречались в корпусе в данном порядке, рассматривается уже двойка слов, для которой приводятся аналогичные результаты. В том случае если не встречалась и двойка – в качестве разбора слова принимается то есть самый часто встречаемый в корпусе разбор слова.

Процесс синтаксического разбора во многом сходен с грамматическим разбором. Он также делится на два этапа: преформатирование и разметка. Этап преформатирования практически аналогичен этапу преформатирования грамматического разбора. Основное различие состоит в ином разбиении теста на структурные компоненты: главы, абзацы, сложные предложения и клаузы. Дальнейшее разбиение на слова при помощи регулярных выражений тоже присутствует, но используется оно в неявном виде. Отметим также, что разбиение предложения на части и объединение частей в клаузы для удобства пользователей проводится на этапе разметки.

На этапе синтаксической разметки (рис. 6) пользователь сопоставляет каждой клаузе текста одну из синтаксических схем путем выбора одной из них из списка.

Система автоматизированной синтаксической разметки опиралась на следующие эмпирические подходы:

1. Простейший статистический метод. Синтаксическая схема по умолчанию выбирается как наиболее часто используемая конструкция.

2. Анализ разбора клаузы, предшествующей текущей.

3. Анализ разбора двух предшествующих клауз.

В качестве схемы для клаузы выбиралась та, для которой величина:

была максимальной. Здесь 1, 2, 3 — схемы, соответствующие текущей и двум предыдущим клаузам, а — настроечный коэффициент.

При анализе частоты появления схем в корпусе русских публицистических текстов второй половины XIX века было получено, что схема вида 1 + встречалась более чем в 58,5% от общего числа клауз (сейчас их число равно 36224). Поэтому было решено использовать её как «схему по умолчанию» для новых клауз.

В третьей главе описывается выбор структур данных для хранения разборов и предоставления искомой информации пользователям.

В процессе проведения исследований возникли сложности, связанные с длительным временем получения результатов (от 5 секунд до нескольких минут на один запрос), а также с достаточно большим размером базы данных. На этом основании было решено произвести анализ различных структур базы данных с целью выявления «лучшей» согласно критерию средней скорости предоставления информации.

Для исследования оптимальной структуры БД, предназначенной для поиска информации о словах и текстах, использовались следующие виды поисковых запросов:

1. по слову;

2. по грамматическим признакам;

3. по синтаксическим признакам;

4. по начальной форме;

5. по слову и грамматическим признакам;

6. по слову и синтаксическим признакам;

7. по грамматическим признакам и синтаксическим параметрам;

8. по грамматическим признакам, синтаксическим параметрам, слову (словоформе, либо начальной форме);

9. выбор слов по частоте встречаемости;

10. выбор слов по частоте обращений, запросов.

Для анализа рассматривалась величина: = выполнения -го поиска в -ой базе данных, где — время -го выполнения -го поиска в -ой базе.

Тогда среднее время -го варианта поиска в -ой базе данных:

На основании полученных величин рассматривалось взвешенное время поиска:

где — номер базы данных, а — частота использования поискового запроса вида.

Для каждого вида поиска была проведена серия испытаний: три раза в день (утром, днём и вечером) на протяжении недели в течении получаса на сервер поступали поисковые запросы (случайным образом выбранные слова, грамматические и синтаксические признаки). На основании проведённых опытов было замечено, что скорость поиска практически не зависела от частоты встречаемости слова или признака. При этом скорость поиска зависела от длины искомого слова и числа введённых параметров.

Результаты некоторых экспериментов приведены в таблице:

Из данной таблицы видно, что меньше всего времени на поиск требуется для первой базы. В ней морфологические признаки для слова хранились в той же таблице, что и само слово. При этом признаки были зашифрованы (сжаты) в соответствии с таблицами зависимостей наличия одних признаков от значений других. Введённые для синтаксического разбора поля, содержащие смещения начала и конца части относительно начала текста, позволили осуществлять поиск одновременно по синтаксическим и морфологическим параметрам. При этом время работы получилось меньше, по сравнению со случаем, когда каждому слову в соответствие ставились все его разборы.

В четвертой главе рассматриваются методы выделения однородных фрагментов в текстах на основании разработанных корпусов.

Существующие современные системы, такие как системы обнаружения плагиата, существенно опираются на базы текстов. Если по каким либо причинам текст, который использовался при создании, не вошёл в поисковые базы, то система может принять фрагмент данного текста как уникальный. Следовательно, методы, которые позволяют выявлять неоднородные фрагменты в тексте, и тем самым указывать на возможность плагиата, не опираясь на собранные базы текстов, являются актуальными и своевременными.

В диссертационном исследовании рассматривается метод поиска фрагментов, имеющих отличную от основного текста синтагматику, характеризующуюся определённой последовательностью составляющих элементов — слов с частеречной принадлежностью. В основе метода лежит статистика частоты встречаемости последовательностей частей речи, состоящих из трёх или четырёх слов.

Алгоритм нахождения неоднородных фрагментов можно представить в следующем виде:

1. Разметка исходного текста.

2. Выбор размера фрагмента.

Размер фрагмента можно задавать количеством слов или предложений. Выбор размера зависит от цели исследования. В производимых экспериментах величина фрагмента изменялась от одного до пятнадцати предложений.

3. Выбор признаков.

Для проведения исследования необходимо определиться с выбором исследуемой последовательности частей речи, которую в дальнейшем будем называть признаком. Среди множества вариантов последовательностей частей речи следует выбрать ту, которая обладает наибольшей информативностью.

Существует несколько способов выбора наиболее информативных признаков. В качестве исследуемого признака можно выбрать тот, у которого статистика 2 имеет максимальную дисперсию. Для этого следует рассмотреть все возможные наборы признаков (различные варианты последовательностей частей речи), исследуемый текст разбить на фрагменты. Для каждого выбранного признака и каждого фрагмента необходимо найти статистику 2 (способ вычисления статистики описан в следующем пункте), на основе которой вычислить дисперсию. В качестве исследуемого признака можно взять признак с максимальной дисперсией.

4. Вычисление статистики 2.

Для исследуемого фрагмента текста нужно сосчитать, сколько раз выбранная последовательность слов встречается в данном фрагменте и сколько в остальной части текста. Обозначим: — число выбранных последовательностей, — общее число последовательностей во фрагменте, — общее число последовательностей в оставшемся тексте, — число выбранных последовательностей в оставшемся тексте. Тогда статистика 2 имеет вид:

5. Поиск неоднородных фрагментов.

Исходный текст необходимо разбить на все возможные фрагменты. Для каждого фрагмента вычислить статистику 2 (аналогично предыдущему пункту). Максимальное значение данной статистики будет соответствовать неоднородным фрагментам. При этом если значение превысит некоторое критическое значение, то отличие данного фрагмента от остальных будет статистически значимым с вероятностью P.

Данный алгоритм был применен для разбиения текстов Ф. М. Достоевского. В результате для текстов «Мелочи» и «Пожары» была составлена таблица 2.

Из неё видно, что для четвёрки признаков «Глагол», «Существительное», «Союз», «Существительное» дисперсия статистики 2 максимальна. Таким образом по данной четверке текст разбивается лучше всего. Результаты разбиения были представлены специалистам-филологам, которые подтвердили неоднородность выделенных фрагментов.

Таблица 2: Проверка критерия для фрагментов текстов Алгоритм выявления неоднородных фрагментов можно использовать и для решения задачи атрибуции текстов. Рассмотрим следующую задачу. Имеется n однородных текстов. В качестве таких текстов можно брать произведения, принадлежащие одному автору. Ставится задача определения степени близости неизвестного текста к этой группе. Решение данной задачи разобьём на несколько этапов. На первом этапе выбирается признак, затем по очереди выбирается один текст из группы однородных текстов. Оставшиеся произведения объединяются в один большой текст. Для каждого текста вычисляется статистика 2.

Вычисление производится аналогично пункту 4 алгоритма поиска неоднородности для фрагмента. В качестве фрагмента будет выбранный текст. В качестве оставшегося текста будет выступать полученный объединенный. Будем обозначать значения статистик через 2, 2,..., 2. На следующем этапе выбирается анализируемый текст, а в качестве второго текста берётся текст, полученный в результате объединения всех однородных. Для анализируемого текста вычисляется статистика 2. Обозначим её через 2. Если выполняется неравенство max, то искомый текст будет близок к данной группе по выбранному признаку. Близость текста к выбранной группе автоматически не означает решение задачи атрибуции. Для этого требуется критическая оценка полученного результата специалистом.

Для проверки работоспособности алгоритма в качестве однородных текстов использовались произведения, принадлежащие Ф. М. Достоевскому. В качестве неоднородных текстов – произведения В. И. Даля, М. И. Владиславлева и А. А.

Григорьева.

Таблица 3: Проверка критерия для фрагментов текстов Проведённые эксперименты (см. Таблицу 3) показали, что для четверки признаков «Предлог», «Прилагательное», «Существительное», «Глагол» максимальное значение статистики 2 среди текстов Ф. М. Достоевского было равно 0.088, при этом для других текстов минимальное значение было 0.115. Оно достигалось на тексте длиной всего в 10 предложений. Таким образом с помощью описанного алгоритма можно выделить из текста фрагменты неоднородности, имеющие разные частоты встречаемости выбранной последовательности частей речи. Найденные фрагменты могут служить подсказкой для специалиста о том, что здесь может быть текст другого автора. Данный алгоритм будет полезен при обнаружении плагиата: анализ может производиться не по всему тексту, а лишь по выделенным фрагментам неоднородности, что сократит размерность задачи.

В заключении формулируются результаты диссертационного исследования.

Заключение В работе представлены различные модели структур данных, используемых при создании корпусов текстов. На их основании были проведены исследования и выбраны структуры, позволяющие оптимально с точки зрения скорости и времени доступа хранить информацию.

Разработанные структуры данных могут быть применены для создания произвольных корпусов, в том числе для малораспространённых языков.

Наличие возможности использования оригинальной графики позволяет исследователям применять данные модели для исследования связей между исходным текстом и современной графикой.

Размеченные корпуса могут быть использованы при научных изысканиях в области истории, грамматики, лексикографии, а также при изучении соответствующих курсов студентами филологических специальностей. Кроме того, он может быть востребован специалистами по литературе XIX века.

В диссертационном исследовании рассмотрена и решена задача автоматизирования грамматического и синтаксического разбора на основании информации, уже имеющейся в корпусе.

В работе рассмотрены и предложены различные методы разбиения текста на фрагменты однородности.

Предложенные методы и алгоритмы реализованы в программном комплексе СМАЛТ, предназначенном для создания мультиязычных корпусов текстов и нахождения различной статистической информации в них. Апробация данного программного комплекса выполнялась при создании корпусов русских публицистических текстов второй половины XIX века и корпуса финноязычных газетных статей «Карьялан Саномат».

Работа имеет законченный характер. Основными перспективными направлениями её развития являются: разработка методов, позволяющих улучшить снятие омонимии; добавление семантического разбора и анализа; добавление методов, позволяющих классифицировать жанр и общую тематику произведений;

добавление методов, позволяющих выискивать плагиат и заимствование из других источников; добавление методов выделяющих эмоциональную окраску.

Список работ, опубликованных по теме диссертации 1. Седов, А. В. Анализ неоднородностей в тексте на основе последовательностей частей речи [Электронный ресурс] / А. В. Седов, А. А. Рогов // Современные проблемы науки и образования, 2013. - № 1, Режим доступа : http://www.science-education.ru/107-8339 (дата обращения: 12.02.2013).

2. Информационная система для создания размеченных корпусов малой размерности / А. А. Котов, М. Ю. Некрасов, А. В. Седов, А. А. Рогов // Учёные записки Петрозаводского государственного университета. — 2012. — Т. 1, № 8(129). — С. 108–112.

3. Математические методы атрибуции текстов / А. А. Рогов, А. В. Седов, Ю. В. Сидоров, Т. Г. Суровцова. — Петрозаводск: Изд-во ПетрГУ, 2012. — 4. Лингвистический корпус как объект и инструмент исследований / А. В. Седов, А. А Котов, М. Ю. Некрасов, А. А. Рогов. Изд-во ПетрГУ. — Петрозаводск, 2012. — 48 с.

5. Седов, A. В. Комплекс программ по выявлению неоднородности в тексте / A. В. Седов, А. А. Рогов // Информационная среда ВУЗА XXI века. Материалы международной научной конференции. — Куопио (Финлядния), 4- декабря 2012 г. — С. 135–139.

6. Некрасов, М. Ю. Комплекс программ по созданию размеченных корпусов текстов / М. Ю. Некрасов, А. А. Рогов, A. В. Седов // Информационная среда ВУЗА XXI века. Материалы международной научной конференции. — Куопио (Финлядния), 4-10 декабря 2012 г. — С. 112–115.

7. Некоторые особенности создания размеченных корпусов текстов в устаревшей графике и орфографии / А. А. Рогов, A. В. Седов, М. Ю. Некрасов, А. А. Котов // Информационный бюллетень ассоциации «История и компьютер», № 37. Труды международной конференции «Компьютерные технологии и математические методы в исторических исследованиях». — Петрозаводск, 11-16 июля 2011. — Июль. — С. 85–91.

8. Некрасов, М. Ю. Особенности создания корпуса текстов с синтаксической разметкой / М. Ю. Некрасов, A. В. Седов // Труды XL международной научной конференции аспирантов и студентов «Процессы управления и устойчивость» Control Processes and Stability (CPS’09) / СПб.: С.–Петербургский гос.

университет, факультет прикладной математики – процессов управления. — 2009. — С. 485–490.

9. Некоторые особенности формирования электронного корпуса тестов с синтаксической разметкой / А. А. Рогов, Г. Б. Гурин, А. А. Котов и др. // Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды XI Всероссийской научной конференции «RCDL-2009» / Петрозаводск: КарНЦ РАН. — 2009. — С. 276–283.

10. Котов, А. А. Особенности создания электронного ресурса «материалы к синтаксическому словарю» [Электронный ресурс] / А. А. Котов, Г. Б. Гурин, А. В. Седов и др. // Российский научный электронный журнал «Электронные библиотеки», 2010, Режим доступа :

http://elbib.ru/index.phtml?page=elbib/rus/journal/2010/part2/KGSNSR (дата обращения: 8.11.2011 г.).

Подписано в печать 19.11.2013. Формат 60х84 1 /16.

Уч.-изд.л. 1,0. Тираж 100 экз. Изд. № 435.

Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования

ПЕТРОЗАВОДСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

Отпечатано в типографии Издательства ПетрГУ 185910, г. Петрозаводск, пр. Ленина,



Похожие работы:

«Хорошева Анна Евгеньевна ПРОБЛЕМЫ ТЕОРИИ И ПРАКТИКИ КРИМИНАЛИСТИЧЕСКОЙ МЕТОДИКИ СУДЕБНОГО РАЗБИРАТЕЛЬСТВА С УЧАСТИЕМ ПРИСЯЖНЫХ ЗАСЕДАТЕЛЕЙ ПО УГОЛОВНЫМ ДЕЛАМ ОБ УБИЙСТВАХ Специальность 12.00.09 – уголовный процесс, криминалистика; оперативно-розыскная деятельность АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата юридических наук Томск – 2011 Работа выполнена в ГОУ ВПО Алтайский государственный университет на кафедре уголовного процесса и криминалистики...»

«ФАТЕЕВ Сергей Витальевич ДИНАМИКА КРОВООБРАЩЕНИЯ У ЮНОШЕЙ-СЕВЕРЯН ДОПРИЗЫВНОГО И ПРИЗЫВНОГО ВОЗРАСТА 03.00.13 – Физиология АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата биологических наук Архангельск – 2008 3 Работа выполнена на кафедре физиологии и патологии развития человека ГОУ ВПО Поморский государственный университет имени М.В. Ломоносова Научный руководитель : доктор медицинских наук, профессор Лупачев Валерий Валентинович Официальные оппоненты : доктор...»

«САЖИН ПАВЕЛ ВАСИЛЬЕВИЧ ОБОСНОВАНИЕ ПАРАМЕТРОВ И РАЗРАБОТКА СРЕДСТВ НАПРАВЛЕННОГО ГИДРОРАЗРЫВА ГОРНЫХ ПОРОД Специальность: 05.05.06 - Горные машины Автореферат диссертации на соискание ученой степени кандидата технических наук Новосибирск - 2007 Работа выполнена в Институте горного дела Сибирского отделения Российской академии наук Научный руководитель – доктор технических наук Клишин Владимир Иванович Официальные оппоненты : доктор технических наук, профессор Маметьев Леонид...»

«Бугозьянос Марина Владимировна УПРАВЛЕНИЕ ОБЕСПЕЧЕННОСТЬЮ УСЛУГАМИ ЗДРАВООХРАНЕНИЯ ПРИКРЕПЛЕННОГО КОНТИНГЕНТА УЧРЕЖДЕНИЙ РОССИЙСКОЙ АКАДЕМИИ НАУК Специальность 08.00.05 - Экономика и управление народным хозяйством: экономика, организация и управление предприятиями, отраслями, комплексами (сфера услуг) Автореферат диссертации на соискание ученой степени кандидата экономических наук Санкт-Петербург – 2012 2 Диссертационная работа выполнена на кафедре экономики и менеджмента в...»

«Дорожкина Ольга Константиновна РАЗРАБОТКА УПРАВЛЕНЧЕСКОГО ИНСТРУМЕНТАРИЯ ФОРМИРОВАНИЯ КОМПЛЕКСА СТРАТЕГИЙ РАЗВИТИЯ ПРОМЫШЛЕННОГО ПРЕДПРИЯТИЯ Специальность 08.00.05 – Экономика и управление народным хозяйством Специализация – Экономика, организация и управление предприятиями, отраслями, комплексами: промышленность Область исследования – Инструменты и методы менеджмента промышленных предприятий, отраслей, комплексов АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата...»

«Борников Александр Вячеславович Биологическая продуктивность березы повислой в градиенте загрязнений от Карабашского медеплавильного комбината 06.03.02 Лесоведение, лесоводство, лесоустройство и лесная таксация Автореферат диссертации на соискание ученой степени кандидата сельскохозяйственных наук Екатеринбург – 2012 Электронный архив УГЛТУ Работа выполнена в ФГБОУ ВПО Уральский государственный лесотехнический университет Научный руководитель : доктор...»

«Аничкин Никита Михайлович ОРГАНИЗАЦИОННО-ЭКОНОМИЧЕСКОЕ ОБЕСПЕЧЕНИЕ УПРАВЛЕНИЯ РАЗВИТИЕМ НЕЗАВИСИМЫХ ПРЕДПРИЯТИЙ НЕФТЕДОБЫЧИ Специальность 08.00.05. - экономика и управление народным хозяйством Специализация – Экономика, организация и управление предприятиями, отраслями и комплексами (промышленность) Автореферат диссертации на соискание ученой степени кандидата экономических наук Москва – 2010 1 Работа выполнена на кафедре Экономика и управление в нефтегазовом комплексе ГОУ...»

«БОРОВИЧЕВ Евгений Александрович ПЕЧЕНОЧНИКИ ЛАПЛАНДСКОГО ГОСУДАРСТВЕННОГО ПРИРОДНОГО БИОСФЕРНОГО ЗАПОВЕДНИКА (МУРМАНСКАЯ ОБЛАСТЬ) 03.02.01 – ботаника Автореферат диссертации на соискание ученой степени кандидата биологических наук Москва – 2012 Работа выполнена в лаборатории флоры и растительных ресурсов Федерального государственного бюджетного учреждения науки Полярноальпийский ботанический сад-институт им. Н. А. Аврорина Кольского научного центра РАН (ПАБСИ КНЦ РАН) Научный...»

«КУДРИНА Наталья Викторовна ПРЕДМЕТНЫЕ ФРАЗЕОЛОГИЗМЫ В ПОЭЗИИ АННЫ АХМАТОВОЙ Специальность 10.02.01 – Русский язык АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук Челябинск - 2008 Работа выполнена на кафедре русского языка Государственного образовательного учреждения высшего профессионального образования Курганский государственный университет Научный руководитель - доктор филологических наук, профессор Ратушная Екатерина Радиогеловна...»

«Ковалев Иван Дмитриевич РЕНТГЕНОГРАФИЯ ПРОЦЕССОВ ФОРМИРОВАНИЯ ФАЗ ПЕРЕМЕННОГО СОСТАВА В УСЛОВИЯХ СВС Специальность 01.04.17 – химическая физика, горение и взрыв, физика экстремальных состояний вещества АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Черноголовка 2014 Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте структурной макрокинетики и проблем материаловедения РАН. Научный руководитель :...»

«Петрова Юлия Юрьевна РЕШЕНИЕ УРАВНЕНИЯ ГЕЛЬМГОЛЬЦА В МНОГОСВЯЗНЫХ ВОЛНОВОДНЫХ ОБЛАСТЯХ 01.01.03 - математическая физика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва 2006 Работа выполнена на кафедре математики физического факультета Московского государственного университета имени М.В. Ломоносова. Научный руководитель : доктор...»

«Чжан Е Методы решения линейных некорректных задач с априорной информацией и оценка погрешностей 01.01.03 Математическая физика АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва 2014 Работа выполнена на кафедре математики физического факультета Московского государственного университета имени М. В. Ломоносова. Научный доктор физико-математических наук, руководитель профессор Ягола Анатолий Григорьевич Официальные доктор...»

«Чан Тхи Тху Нян ПУЛЫ И ПОТОКИ УГЛЕРОДА В ОХТИНСКОМ ЛЕСНОМ МАССИВЕ (ЛЕНИНГРАДСКОЙ ОБЛАСТИ) 06.03.02 – Лесоведение, лесоводство, лесоустройство и лесная таксация Автореферат диссертации на соискание ученой степени кандидата биологических наук Санкт-Петербург – 2012   2 Работа выполнена в Санкт-Петербургском государственном лесотехническом университете имени С.М. Кирова. Научный руководитель : доктор биологических наук, профессор Соловьев Виктор Александрович Официальные...»

«ЕВДОКИМОВ Сергей Владимирович КОНЦЕНТРАТОРЫ ПОТОКА ВЕТРОВЫХ ЭНЕРГОУСТАНОВОК И ОБОСНОВАНИЕ ИХ ПАРАМЕТРОВ Специальность 05.14.08 – Энергоустановки на основе возобновляемых видов энергии АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Санкт-Петербург 2004 2 Работа выполнена на кафедре Природоохранного и гидротехнического строительства ГОУ ВПО Самарский государственный архитектурностроительный университет. Научный руководитель : доктор технических...»

«Соловьева Татьяна Владимировна РЕАЛИЗАЦИЯ В ГРАЖДАНСКОМ СУДОПРОИЗВОДСТВЕ АКТОВ ВЫСШИХ СУДЕБНЫХ ОРГАНОВ 12.00.15 – гражданский процесс, арбитражный процесс АВТОРЕФЕРАТ диссертации на соискание ученой степени доктора юридических наук Саратов – 2014 Работа выполнена в Федеральном государственном бюджетном образовательном учреждении высшего профессионального образования Саратовская государственная юридическая академия доктор юридических наук, профессор Научный консультант :...»

«КОКШАЕВА Нина Овшиновна ЛИНГВИСТИЧЕСКИЙ АНАЛИЗ КАЛМЫЦКИХ АВТОРСКИХ ДОКУМЕНТОВ середины XVIII ВЕКА (на материале писем калмыцкого хана Дондук-Даши) Специальность: 10.02.22 – Языки народов зарубежных стран Европы, Азии, Африки, аборигенов Америки и Австралии (монгольские языки) АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата филологических наук Элиста 2013 Работа выполнена на кафедре калмыцкого языка и монголистики Института калмыцкой филологии и востоковедения...»

«УДК: 519.713 Мымрин Вячеслав Валерьевич МАТЕМАТИЧЕСКОЕ МОДЕЛИРОВАНИЕ МАЛЫХ ПОПЕРЕЧНЫХ КОЛЕБАНИЙ ТОНКИХ УПРУГИХ ПЛАСТИН Специальность 05.13.18 – математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата физико-математических наук Москва – 2009 Работа выполнена в Институте математического моделирования РАН Научный руководитель доктор...»

«Биглова Юлия Николаевна ФУЛЛЕРЕН С60 В РЕАКЦИИ РАДИКАЛЬНОЙ СОПОЛИМЕРИЗАЦИИ АЛЛИЛОВЫХ И ВИНИЛОВЫХ МОНОМЕРОВ 02.00.06 Высокомолекулярные соединения АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата химических наук Уфа 2008 www.sp-department.ru 2 Работа выполнена в Институте органической химии Уфимского научного центра Российской академии наук и ГОУ ВПО “Башкирском государственном университете”. Научный руководитель : академик РАН Монаков Юрий Борисович Официальные...»

«ПАВЛОВ Константин Андреевич ПРОБЛЕМА ЯЗЫЧЕСКИХ ВЕРОВАНИЙ ДРЕВНИХ СЛАВЯН В ТРУДАХ СОВРЕМЕННЫХ ОТЕЧЕСТВЕННЫХ УЧЕНЫХ Специальность 07.00.09 – Историография, источниковедение и методы исторического исследования АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата исторических наук Москва - 2012 Диссертация выполнена на кафедре отечественной истории Московского государственного гуманитарного университета имени М.А. Шолохова доктор исторических наук, профессор Научный...»

«Залимханов Тахир Басирович РАЗРАБОТКА ПРИНЦИПОВ И АЛГОРИТМОВ РАБОТЫ СИСТЕМЫ ПРЕДУПРЕЖДЕНИЯ ОПРОКИДЫВАНИЯ АВТОБУСА 05.22.10 – Эксплуатация автомобильного транспорта АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук Волгоград – 2013 Работа выполнена на кафедре Организация и безопасность движения Махачкалинского филиала Московского автомобильно-дорожного государственного технического университета (МАДИ) Научный руководитель доктор технических наук,...»








 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.