WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ имени М. В. ЛОМОНОСОВА

ФАКУЛЬТЕТ ВЫЧИСЛИТЕЛЬНОЙ МАТЕМАТИКИ И КИБЕРНЕТИКИ

КАФЕДРА СИСТЕМНОГО ПРОГРАММИРОВАНИЯ

Курсовая работа

Применение баз знаний на основе словарей

в обработке текста

выполнила:

студентка 428 группы

Астахова Дарья Ильинична научный руководитель:

Андрианов Иван Алексеевич Москва, 2014 Содержание Аннотация ………………………………………………………………………………..3 Введение ………………………………………………………………………………….4 1. Постановка задачи...…………………………………………………………………. 2. Обзор существующих решений …………………………………………….............. 2.1. OntoWiktionary …....…………………………………………………………….. 2.2. ConceptNet...…………………………………………………………

3. Исследование и построение решения ………………………………………………. 4. Описание практической части ………………………………………………………. Заключение ……………………………………………………………………………… Литература ………………………………………………………………………………. Аннотация В курсовой работе решается задача построения базы знаний для системы Texterra на основе Викисловаря. Требуется разработать программное средство, извлекающее из снимка содержимого словаря термины, концепции и связи между ними. В результате выполнения курсовой работы разработано требуемое программное средство.

Введение Интернет содержит огромные объемы информации, среди которых значительную часть составляют тексты на естественных языках. В связи с большим количеством текстовых документов и его постоянным увеличением, потребностью в их обработке, а также с достижением современным оборудованием высоких вычислительных мощностей возникла и остается актуальной задача обработки текстов [1]. К задачам обработки текстовой информации на естественном языке относятся информационные поиск, вопросно-ответные системы, машинный перевод, извлечение информации, автоматическое аннотирование и реферирование, диалоговые системы, анализ и синтез текста и другие. Рассмотрим кратко перечисленные задачи.

Информационный поиск представляет собой процесс выявления в некотором наборе текстов на заданную тему, удовлетворяющих заданному условию поиска или содержащих соответствующие некоторой информационной потребности факты, сведения, данные.

Современные вопросно-ответные системы предназначаются для поиска ответов на принятия вопросов, задаваемых на естественном языке, поиска ответов на них в имеющихся документах и выдачи ответов на естественном языке.

Под извлечением информации понимается задача автоматического построения структурированных данных на основе слабоструктурированных или неструктурированных исходных данных.

Машинный перевод подразумевает процесс перевода текстовой информации (на данном этапе письменной, а в будущем, возможно, и устной) с одного ествественного языка на другой.

Анализ текста представляет собой процесс получения информации из текстов на естественном языке, а синтез – формирование текста на естественном языке на основе имеющихся баз знаний. При анализе текста выделяются следующие этапы:

морфологический, синтаксический, семантический и проблемный. На каждом этапе вырабатываются соответствующие структуры базы знаний, которая в дальнейшем может быть использована для синтеза текста Под диалоговой системой подразумевается информационная система, обеспечивающая обмен информацией с пользователем, проводимый посредством терминала по определенным правилам, и выполнение следующих задач: выяснение задания пользователя; прием логически связанных входных данных; выполнение требуемого задания; реакция диалоговой системы или вывод результатов обработки по окончании процесса в подходящем для пользователя формате.

Рефератом называется связный текст, который кратко выражает не только центральную тему или предмет какого-либо документа, но и цель, применяемые методы, основные результаты описанного исследования или разработки. Аннотацией называют краткое изложение содержания документа, дающее общее представление о его теме. Процессы составления реферата и аннотации с помощью компьютера называются автоматическим реферированием и аннотированием соответственно.

Базовые принципы обработки текстов основываются на методах компьютерной лингвистики и искусственного интеллекта, в частности, машинном обучении.

Компьютерная лингвистика – это научное направление в области математического и компьютерного моделирования интеллектуальных процессов, целью которого является использование математических моделей для описания естественных языков.

В ИСП РАН разработана система интеллектуальной обработки текстов Texterra [2]. Целью разработки системы Texterra является создание системы автоматического анализа текстов с использованием семантики, извлеченной из открытых баз данных, в основном из Википедии. Система Texterra разрабатывалась как модульная клиентсерверная система в среде Java/J2SE. Основными модулями системы являются модуль извлечения базы знаний из энциклопедии Википедия; модуль, отвечающий за хранение базы знаний и обеспечение быстрого доступа к ней; модуль анализа текстов.

Texterra использует библиотеку Wiki-parser, разработанную в ИСП РАН. Wikiparser состоит из двух модулей. Базовый модуль позволяет извлекать информацию из источников, работающих на MediaWiki, тем самым подходит для решения широкого круга задач. Специальный модуль производит построение базы знаний по Википедии.

Wiki-parser также использует вспомогательный модуль Texterra-utils, содержащий классы, упрощающие генерацию базы знаний в формате Texterra.



База знаний Texterra имеет двухуровневую структуру (см. рис.1). На одном уровне располагаются термины. Термин представляет собой подпись к некоторой ссылке, которая иногда совпадает с заголовком статьи. В системе Texterra под терминами поминаются только именованные фразы. База знаний Texterra содержит термины на одном языке, который указывается в метаданных данной базы знаний. У термина выделены две характеристики: количество помеченных и количество непомеченных концепцией вхождений термина в тексты статей. Под пометкой понимается наличие регулярной ссылки на соответствующую статью. На другом уровне располагаются концепции. В случае построения базы знаний по Википедии, концепция представляет собой статью Википедии. Концепции бывают двух типов – обычные и категории. В ходе разбора снимка содержимого выявляются связи между концепциями. К примеру, при использовании Википедии для построения базы знаний, под связью понимается ссылка между статьями Википедии. Тип связи соответствует типу ссылки между статьями. На данный момент при построении базы знаний по Википедии различают следующие типы ссылок: простые ссылки, ссылки типа «Смотри также», ссылки от разделов статьи к отдельным статьям Википедии, более подробно описывающим предмет рассмотрения данной статьи, ссылки категорий и ссылки шаблона Infobox,а также обратные к каждому из перечисленных типов. Между термином и концепцией устанавливается связь, которая характеризуется частотой ссылки данного термина на данную концепцию. Связь «термин - концепция» является связью «многие ко многим»: один термин может соответствовать многим концепциям (омонимия), и к одной концепции могут относиться многие термины (синонимия).

Таким образом, возможными смыслами термина в Texterra являются связанные с ним концепции.

База знаний Texterra состоит из следующих основных файлов:

id2title.txt – содержит пары «идентификатор концепции – каноническое текстовое представление концепции»;

id2type.txt – содержит пары «идентификатор концепции – тип концепции»;

commonness.txt – содержит счетчики пар «термин – идентификатор концепции»;

info-measure.txt – содержит количество помеченных и непомеченных концепцией вхождений термина;

links.txt – содержит тройки «идентификатор концепции – тип связи – идентификатор концепции»;

sorted_links.txt – содержит отсортированные тройки «идентификатор концепции – тип связи – идентификатор концепции».

База знаний Texterra позволяет подсчитывать близость концепций [3]. Для этого используется модификация меры Дайса, которая учитывает соседей в графе ссылок и вес соответствующих связей. Близость концепций рассчитывается по следующей формуле:

где A, B, N – концепции, n(A), n(В) – ближайшие соседи концепций А и В соответственно в графе ссылок, w(A, N) – вес ссылки, соединяющей концепции А и N.

Например, рассчитаем близость концепций с1 и с2, граф ссылок между которыми изображен на рис.2. Для простоты примем следующие веса: Related – 0.4, See also – 0.3, Info_box – 0.2, Regular – 0.1. Тогда Используя меру семантической близости, можно построить семантический граф для текстового документа, на основе которого происходит определение терминов, разрешение лексической многозначности, выявление ключевых концепций документа.

Это может быть использовано для улучшения существующие техник информационного поиска и фасетной навигации по источникам данных.

Смысл общих понятий естественно искать в словаре. Викисловарь [4] является свободно пополняемым многофункциональный многоязычным словарем и тезаурусом, работающим, как и Википедия, на движке WikiMedia. В статьях Викисловаря содержатся грамматические описания, толкования и переводы слов, может отражаться информация об этимологии, фонетических особенностях и семантических связях слов и другая информация.

Выделяют следующие семантические отношения между словами:

синонимы – термины, смысл которых полностью или частично совпадает (например, «машина» – «устройство»);

антонимы – термины, противоположные по смыслу(например, «жизнь» – гиперонимы – один термин по отношению к другому выражает более общую сущность (например, «устройство» - гипероним для «компьютер»);

гипонимы – один термин по отношению к другому, более общему понятию, выражает частную сущность (например, «мышь» – гипоним для «грызун»);

согипонимы – термины, имеющие общий гипероним (например, «дуб», «береза»

являются согипонимами и имеют общий гипероним «дерево»);

меронимы - термин, в отношении другого термина выражающий составную часть последнего (например, «двигатель» - мероним для «автомобиль»);

холонимы - термин, относящийся к другому термину как целое к своей составной части (например, «дом» - холоним для «дверь»).

Викисловарь включает в себя Викизаурус – тезаурус, т.е. особую разновидность словаря, в которой указаны семантические отношения между лексическими единицами.

Википедия и Викисловарь в некотором смысле дополняют друг друга. В то время как Википедия содержит подробные описания и энциклопедическую информацию, Викисловарь предоставляет лингвистическую информацию, например словосочетания, аббревиатуры, акронимы, разные предметные области и стили, упрощённые/искажённые варианты написания/произнесения слов и другую.

Викисловарь и Википедия, работающие на одном движке, имеют много общего.

К примеру, статьи Викисловаря тоже имеют ссылки на другие статьи о словах внутри Викисловаря, ссылки на статьи о том же слове в иноязычном Викисловаре.

Благодаря взаимосвязи между разными языковыми разделами Викисловаря, а также между участниками словарного и других проектов «Фонда Викимедиа», участники каждого из них могут использовать подходы, инструменты и лексикографические материалы, созданные носителями других языков. В ходе работы над различными языковыми разделами словаря сложилась комплексная идея универсального лексикографического ресурса, ставшая впервые возможной благодаря электронным технологиям. Идея предполагает в конечном итоге полное, всестороннее описание всех лексических единиц всех естественных (и даже некоторых основных искусственных) языков, имеющих письменность. Полнота описания означает наличие сведений о фонетике, морфологии, синтаксических и семантических свойствах единицы, о её этимологии, сочетаемости и фразеологии. Полнота и степень последовательности реализации этой идеи может варьироваться в разных языковых разделах проекта.

Структура словаря постепенно, но постоянно меняется, так как интернетсообщество постоянно обсуждает и вырабатывает новые правила оформления статей.

Словарь постоянно растет, в него добавляются новые словарные статьи и новые языки.

Заметим, что хотя словарь и ведется на каком-то конкретном языке, он может содержать статьи, посвященные терминам из других языков. Так, например, сейчас в Викисловаре, который ведется на английском языке, присутствуют описания терминов из примерно 760 языков. По данным [5] на октябрь 2013 года суммарный объем Викисловарей на всех языках составляет 7.7 Гб, а общее количество статей – более млн.

Структура словарной статьи Викисловаря достаточно жёстко и однозначно задаётся правилами. Следует отметить, что Викисловарь, как и Википедия, обслуживается программной оболочкой MediaWiki, которая никак не учитывает данную структуру словарных статей. То есть в базе данных MediaWiki словарной статье соответствуют только два поля: название статьи и текст статьи в Вики-разметке. Таким образом, наличие структуры и правил форматирования словарных статей позволяет взглянуть на словарную статью с точки зрения автоматического извлечения данных, например, с помощью регулярных выражений. Такое автоматическое извлечение позволит преобразовать неявную структуру, задаваемую правилами, т.е. структуру, понятную только читателю словаря, в явную. Это может обеспечить в дальнейшем успешное использование данных Викисловаря в различных проектах, связанных с обработкой текста.

На использовании структурированной информации, извлеченной из статей Викисловаря, для обогащения базы знаний Texterra, строящейся на основе Википедии, будет сконцентрировано внимание в данной курсовой работе.

Задача данной курсовой работы состоит в обогащении базы знаний системы интеллектуальной обработки текстов Texterra за счет использования при построении базы знаний Викисловаря. Для этого требуется исследовать структуру статей Викисловаря;

разработать правила преобразования статей Викисловаря в базу знаний Texterra, то есть правила извлечения терминов, концепций и связей «термин-концепция», «концепция-концепция» из статей Викисловаря;

разработать расширение библиотеки Wiki-parser, реализующее предложенные правила преобразования.

Для построения использовать Викисловарь, который ведется на английском языке. При построении базы знаний рассматривать только имена существительные английского языка.

Викисловари широко используются при решении задач автоматической обработки текстов. Однако тексты статей Викисловаря представляют собой слабоструктурированную информацию, поэтому требуется предварительное преобразование ее в машиночитаемые форматы. При извлечении информации из Викисловарей как источника слабоструктурированных данных возможны следующие трудности:

необходимо учитывать возможность частых и даже регулярных изменений не только данных, но и структуры статей;

Викисловари на разных языках могут иметь различную структуру и формат статей;

изначально технология, на которой строятся Викисловари, ориентирована на удобство и эффективность работы пользователя, а не на машинную обработку.

На сегодняшний день разработаны несколько парсеров Викисловарей, к ним относятся, например:

DBpedia Wiktionary [6] — расширение проекта DBpedia, которое извлекает из английского, французского, немецкого и русского Викисловарей (в разработке находятся греческий и вьетнамский) следующие данные: язык, часть речи, толкование, семантические отношения, переводы и использует для извлечения декларативное описание структуры словарной статьи, регулярные выражения и FST-разновидность конечного автомата.

JWKTL [7], [8] — API к данным Английского и Немецкого Викисловарей, позволяющий извлекать язык, часть речи, толкование, цитаты, семантические отношения, этимологию и переводы слов.

Wikokit [9] — парсер английского и русского Викисловарей, извлекающий язык, часть речи, толкование, цитаты (только для русского Викисловаря), семантические отношения и переводы.

Среди задач автоматической обработки текстов, решаемых с помощью Викисловарей, встречаются задачи построения онтологий и баз знаний. Рассмотрим более подробно проект, посвященный построению онтологий на основе Викисловарей OntoWiktionary[10] и проект, посвященный построению баз знаний на основе Викисловарей ConceptNet[11].

OntoWiktionary – онтология, строящаяся полуавтоматическим путем на основе Викисловаря. Создатели полагают, что данная онтология может превзойти по размеру базу знаний других крупных проектов:

OpenCyc[12] - проекта по созданию объёмной онтологической базы знаний, позволяющей программам решать сложные задачи из области искусственного интеллекта на основе логического вывода и привлечения здравого смысла;

OntoWordNet [13] - проекта по созданию электронного тезауруса/семантической сети английского языка.

Онтология OntoWiktionary содержит концепции, их текстовые представления и отношения между концепциями, извлеченные из Викисловаря. Процесс построения онтологии состоит из двух этапов. На первом этапе с помощью JWKTL и специально разработанного модуля посредника для Wikokit снимок содержимого Викисловаря преобразуется в структурированную базу данных.

На втором этапе происходит формирование концепций и отношений между ними внутри онтологии. Сначала устанавливаются связи из Викисловаря путем ассоциации каждой связи с правильным словесным смыслом, который впоследствии используется для формирования концепций. Создаются структуры, сходные с множествами синонимов, путем рассмотрения отношения синонимия как отношения эквивалентности и использования его транзитивного замыкания для автоматического порождения концепции. Далее добавляются соответствующие связи между концепциями с учетом семантических отношений, указанных в Викисловаре.

Создатели OntoWiktionary учитывают следующие преимущества Викисловаря как источника для построения онтологии:

данный ресурс содержит большие объемы информации;

информация постоянно редактируется и дополняется интернет-сообществом, что делает ее актуальной;

Викисловарь достаточно полно покрывает терминологию многих предметных областей, что может быть использовано для построения и улучшения онтологий различных предметных областей.

Сейчас онтология OntoWiktionary доступна для скачивания на английском, немецком и русском языках. Данные онтологии могут просматриваться с помощью пользовательского интерфейса, предоставляемого официальным сайтом, или скачаны в виде XML файла для использования вне сети. Размещение OntoWiktionary в свободном доступе, по мнению ее создателей, может способствовать развитию исследований в области Викисловаря и онтологий в целом.

К недостаткам данной онтологии в рамках поставленной задачи относятся полуавтоматический метод построения (нам требуется автоматический) и отсутствие интеграции с системой Texterra.

ConceptNet — это семантическая нейросеть, содержащая информацию, необходимую компьютерам для понимании текста написанного людьми и для людей.

Сеть построена из узлов, представляющих концепции в виде слов или коротких фраз естественного языка, и отношений между ними. Это могут быть любые данные, необходимые компьютеру для улучшения поиска информации, ответов на вопросы и понимания целей и предпочтений людей.

Большая часть знаний в базе знаний ConceptNet черпается из английской Википедии. С помощью DBpedia извлекаются знания из информационных блоков статей. Также анализируется большое количество содержимого из английского Викисловаря, включая синонимы и антонимы, перевод понятий на сотни языков.

Большие объемы данных берутся из WordNet. ConceptNet содержит повседневные знания (например, learn -> MotivatedByGoal -> knowledge), знания, относящиеся к культуре (saxophone -> UsedFor -> Jazz) и научные знания(semantic role -> HasContext linguistics).

ConceptNet является графом, точнее, гиперграфом с узлами. Каждый оператор в ConceptNet указывает на них, объясняя, откуда приходит и уходит информация.

Заметим, что ConceptNet не является частью программного обеспечения или баз данных, это сеть, образующая гиперграф, то есть набор вершин и ребер, которые представляются в нескольких форматах, включая JSON. Вершины представляют собой концепции в форме слов или коротких фраз естественного языка, а ребра – именованные связи между ними. Для быстрого поиска знаний в ConceptNet можно использовать, например, индекс Solr - платформы полнотекстового поиска с открытым исходным кодом, основные возможностями которой являются полнотекстовый поиск, подсветка результатов, фасетный поиск, динамическая кластеризация, интеграция с базами данных, обработка документов со сложным форматом (например, Word, PDF).

Некоторые другие свойства:

Граф ConceptNet не имеет произвольных идентификаторов. Каждый узел и утверждение содержит всю информацию, необходимую для его идентификации, то есть в его URI, иными словами, сеть не полагается на произвольно присваиваемые ID. Преимуществом этого является то, что если несколько ветвей ConceptNet разрабатываются в нескольких местах, можно объединить их позже, просто принимая объединение узлов и ребер.

ConceptNet поддерживает связывание данных: например, можно скачать список ссылок на Semantic Web, через DBpedia и через RDF / OWL WordNet.

Данный подход не применим для решения поставленной задачи ввиду структурных отличий базы знаний, используемой в ConceptNet, от базы знаний системы Texterra, что делает невозможной требуемую интеграцию с Texterra.

Для решения поставленной задачи необходимо решить следующие подзадачи:

исследовать структуру статей Викисловаря;

разработать правила преобразования статей Викисловаря в термины, концепции и связи между ними в рамках базы знаний.

Статьи Викисловаря строятся согласно правилам оформления статей. Статьи могут описывать отдельные слова, словосочетания, аббревиатуры. Существуют разделы, описывающие свойства в различных языках, свойства как разных частей речи. Для омонимов выделяются разделы для каждого значения. В статье могут описываться фонетические свойства, происхождение слова, его переводы на различные языки.

В подразделе «Значение» раздела части речи некоторого языка часто в виде нумерованного списка приводятся толкования данной языковой единицы, которые могут начинаться с конкретизации области знаний, краткого значения, контекста, далее следует формулировка самого толкования, которая может завершаться примером употребления. Фрагмент статьи, содержащие данный подраздел, приведен на рис. 3.

В подразделе «Значение» могут присутствовать секции, описывающие семантические отношения с другими словами, такие как «Синонимы», «Антонимы», «Гиперонимы», «Гипонимы», «Согипонимы», «Меронимы», «Холонимы». Они оформляются в виде маркированного списка, каждый пункт которого представляет собой группу (в том числе из одного элемента) языковых единиц, перед которой может быть указан объединяющий их смысл, область знаний. Фрагменты статей, содержащие данные секции, приведены на рис. 4, 5.

Рис. 4. Фрагмент статьи «life» Викисловаря, содержащей секции «Синонимы» и «Антонимы».

Рис. 5. Фрагмент статьи «mouse» Викисловаря, содержащей секции «Гиперонимы» и Семантические свойства также могут быть выражены в секциях «Смотри также», «Производные термины» и «Связанные термины». Данные секции содержат маркированные списки, каждый пункт которого является семантически близкой языковой единицей. Фрагмент статьи, содержащий данные секции, приведен на рис. 6.

Существуют разделы для описания морфологических и синтаксических свойств, например, морфемный состав, склонение, спряжение, ударение, орфографические варианты написания и другие. Возможно добавление иллюстраций и подписей к ним, которые должны быть краткими, максимально соответствовать значению в словарной статье и не содержать лишней информации.

Рис. 6. Фрагмент статьи «year» Викисловаря, содержащей секции «Производные термины» и «Смотри также».

Статьи Викизауруса немного отличаются по структуре. В начале статьи в специальной секции приводится смысл термина (его словесное толкование). Далее в соответствующих секциях («Синонимы», «Антонимы», «Гиперонимы», «Гипонимы», «Согипонимы», «Меронимы», «Холонимы», «Производные термины» и «Связанные термины») приведены маркированные списки семантически связанных лексических единиц. Фрагмент статьи Викизауруса приведен на рис. 7.

Уточним структуру моделируемой базы знаний. Под термином будем понимать заголовок статьи Викисловаря, т.е. некоторое имя существительное английского языка.

Концепция имеет каноническое текстовое представление, смысл и идентификатор.

Каноническое текстовое представление концепции совпадает с некоторым термином, а смыслом может быть область знаний или краткое текстовое пояснение значения этого термина в рамках концепции. Идентификатор концепции должен обладать свойством уникальности и не изменяться с течением времени. Поэтому при генерации идентификатора концепции будем учитывать идентификатор статьи Викисловаря, секцию, в которой встречен семантически связанный термин (для этого введем следующую нумерацию секций: 0 – «Noun», 1 – «Synonyms», 2 - «Antonyms», 3 – «Related terms», «Derived terms», «See also», 4 – «Hypernyms», «Hyponyms», «Meronyms», «Holonyms», «Coordinate terms») и порядковый номер этого термина в секции. Связь между термином и концепцией обозначает, что данный термин относится к данной концепции в рамках данного смысла. Если из статьи словаря не получается извлечь смысл для формирования концепции, то создаем и используем концепцию по умолчанию, смысл которой не определен, а каноническим текстовым представлением является заголовок статьи. Связь между концепциями означает определенную семантическую связь между терминами, которая конкретизируется типом связи.

Будем следовать следующим правилам преобразования статей Викисловаря в базу знаний.

Если в списке значений данного термина встречается структура, позволяющая нам определить смысл данного термина (как говорилось выше, область знаний, контекст, краткое значение), то в базу знаний добавляем термин и концепцию, каноническим текстовым представлением которой будет заголовок текущей статьи, а смыслом – найденный смысл, далее устанавливаем связь между термином и концепцией. Фрагмент статьи Викисловаря и соответствующая структура в базе знаний приведены на рис. 8.

Рис. 8. Применение правила преобразования для значения термина «mouse».

Если в статье есть секция синонимов данного термина, то поступаем следующим образом. Если есть группа синонимов с указанным смыслом, то создаем или ищем среди существующих концепцию, связанную с текущим термином и имеющую данный смысл. Если смысл не указан, то используем концепцию по умолчанию для данного термина. Устанавливаем связь между термином и этой концепцией, если она еще не установлена. Далее устанавливаем связь между каждым термином из группы синонимов и этой концепцией. Фрагмент статьи Викисловаря и соответствующая структура в базе знаний приведены на рис. 9.

Рис. 9. Применение правила преобразования для синонимов термина «life».

Если в статье есть секция антонимов данного термина, то поступаем следующим образом. Группу антонимов с указанным смыслом обрабатываем как синонимы между собой, то есть создаем или ищем концепцию с соответсвующим смыслом для первого антонима из группы (для определенности). Устанавливаем связи между каждым термином из группы антонимов с этой концепцией. Единичные антонимы и группы антонимов без указания смысла игнорируем. Фрагмент статьи Викисловаря и соответствующая структура в базе знаний приведены на рис. 10.

Рис. 10. Применение правила преобразования для антонимов термина «life».

Если в статье есть секция гиперонимов, гипонимов, согипонимов, меронимов, холонимов данного термина, то поступаем следующим образом. Если для группы семантически связанных терминов указан смысл, то создаем или находим для текущего термина и каждого термина группы концепции с указанным смыслом, иначе – концепции по умолчанию. Устанавливаем, если они еще не установлены, связи между терминами и соответствующими им концепциями. Устанавливаем связь между концепцией для текущего термина и каждой концепцией терминов группы. Фрагмент статьи Викисловаря и соответствующая структура в базе знаний приведены на рис. 11.

Рис. 11. Применение правила преобразования для гиперонима термина «mouse».

Если в статье есть секция «Производные термины», «Связанные термины», «Смотри также», то поступаем следующим образом. Создаем или находим для текущего термина и каждого термина группы концепции по умолчанию.

Устанавливаем, если они еще не установлены, связи между терминами и соответствующими им концепциями. Устанавливаем связь между концепцией для текущего термина и каждой концепцией терминов группы. Тип устанавливаемой связи соответствует названию секции. Фрагмент статьи Викисловаря и соответствующая структура в базе знаний приведены на рис. 12.

Так как смысл термина и групп семантически связанных с ним слов не является структурированной информацией и остается на усмотрение автора статьи, то до применения предложенных правил для построения базы знаний сделаем предварительный проход по Викисловарю.

Рис. 12. Применение правила преобразования для секции «Смотри также»

Во время предварительного прохода по словарю соберем статистику смыслов, отражающую частоту их использования. Далее определим порог частоты встречаемости смыслов и не будем рассматривать смыслы с частотой ниже такого порога. По структуре статьи под наше определение смысла термина и концепции попадают слова, обозначающие грамматические, лексические, стилистические и некоторые другие признаки (такие как archaic, obsolete, colloquial, countable и др.) и часто встречающиеся. Подготовим список таких признаков и исключим их из списка смыслов. Также во время предварительного прохода выявим все слова, являющиеся именами существительными английского языка во избежание создания и использования на этапе применения правил неподходящих терминов и концепций.

Схема построенного решения приведена на рис.13.

Викисловарь При построении базы знаний Texterra при формировании требуемых файлов будем учитывать следующее:

тип концепции Викисловаря – обычный (Regular), так как категорий в словаре счетчик пары «термин – идентификатор концепции» равен 1;

предполагаем, что количества помеченных и непомеченных концепцией вхождений термина равны 1;

для каждой тройки «идентификатор концепции А – тип связи – идентификатор концепции В» в базе знаний должна быть тройка «идентификатор концепции В – тип связи, обратный исходному – идентификатор концепции А».

Англоязычный Викисловарь содержит более 3 700 000 статей. Полученная база знаний Texterra содержит 148 000 терминов, 240 000 концепций и 150 000 связей между концепциями.

Языком реализации расширения Wiki-parser был выбран язык Java, так как большинство компонентов библиотеки Wiki-parser и системы Texterra реализовано на Java.

Реализуем разработанные ранее правила преобразования статей Викисловаря в базу знаний с помощью инструмента Wiki-parser.

Рассмотрим общий механизм работы библиотеки Wiki-parser. На вход подается снимок содержимого Викисловаря. Wiki-parser разбивает снимок содержимого на статьи, а статьи – на контексты. Обработка статей ведется в своем потоке, для каждой статьи создаются свои экземпляры обработчиков. Контексты бывают трех типов:

перенаправления, секции и шаблоны. Разбиение на контексты помогает определять в обработчиках событий, в какой части статьи мы находимся. В библиотеке контексты представлены классом Context. В данном классе есть метод getType для определения типа контекста, метод getName для получения имени текущего контекста и метод getOwner для получения контекста-родителя.

В реализациях интерфейса IPageInfo собираются результаты обработки страницы.

Интерфейс IMarkupParser позволяет определять подлежащие разбору RegularLinkMarkupParser – по регулярному выражению находит ссылки между статьями и инициирует событие «нахождение ссылки», обработка которого производится в методе link реализации интерфейса ISemanticHandler.

В ходе обработки снимка содержимого возникают некоторые события. События делятся на две группы: уровня статьи и уровня контекста. Событиями уровня статьи являются, например, начало и окончание статьи, нахождение перенаправления, нахождение категории и другие. Примерами событий уровня контекста являются начало и окончание контекста, нахождение ссылки. Интерфейс IMarkupHandler содержит набор предопределенных событий, а реализации данного интерфейса - набор действий, выполняемых при обработке возникающих событий, во время которых, как правило, заполняется IPageInfo. Для решения поставленной задачи будут рассматриваться и соответствующим образом обрабатываться события «начало статьи» и «начало контекста» в методах startPage и startContext соответственно.

Далее обработка собранной в IPageInfo информации может быть продолжена в реализациях интерфейса ISemanticHandler.

Разбор снимка содержимого – длительный процесс, поэтому в Wiki-parser предусмотрена возможность выбирать аспекты разбора, что позволяет, к примеру, не инициировать некоторые события. Абстрактный класс AbstractCompiler, входящий в Wiki-parser, позволяет запускать обработку снимка содержимого с определенными настройками, которые указываются в реализации. К настройкам относятся параметры фильтрации и алгоритмы предварительной обработки страниц, аспекты разметки, подлежащие разбору, обработчики событий.

В рамках реализации решения поставленной задачи были разработаны классы TermSenseCompiler, подкласс абстрактного класса AbstractCompiler, отвечающий за выполнение предварительного прохода по дампу с целью выявления смыслов и имен существительных английского языка для дальнейшего использования TermSenseMarkupHandler, реализация интерфейса IMarkupHandler, выявляющий смыслы и ищущий имена существительные TermsSenseSemanticHandler, ISemanticHandler, объединяющий результаты параллельной обработки TermSensePageInfo, реализация интерфейса IPageInfo, хранящий смыслы термина, сгруппированные по секциям WiktionaryDBCompiler, подкласс абстрактного класса AbstractCompiler, отвечающий за применение правил преобразования и генерацию базы знаний WiktionaryDBMarkupHandler, реализация интерфейса IMarkupHandler, применяющий разработанные правила преобразования WiktionaryDBSemanticHandler, ISemanticHandler, объединяющий результаты параллельной обработки WiktionaryDBPageInfo, реализация интерфейса IPageInfo, хранящий отображения «термин-концепция» и «концепция-концепция-связь» в рамках статьи.

Концепция моделируется классом Concept c методами getId, getTitle, getSense, getFullTitle для получения идентификатора, заголовка, смысла и канонического текстового представления (комбинации заголовка и смысла) соответственно.

TermSenseCompiler и WiktionaryDBCompiler устанавливают следующие настройки разбора снимка содержимого:

фильтрация служебных страниц происходит с помощью реализации SpecialPageFilter интерфейса IPageFilter;

реализации интерфейса IMarkupParser не используется, так как нет необходимости дополнительного разбора статьи;

для предварительной обработки используются реализации Unescaper и FormattingRemover интерфейса IPageProcessor, которые осуществляют декодирование специальных символов языка разметки HTML и убирают форматирование текста (например, жирность, курсив, подчеркивание) соответственно;

в качестве обработчика возникающих событий на уровне разметки устанавливается TermSenseMarkupHandler (WiktionaryDBMarkupHandler);

сбор результатов обработки страницы происходит в TermSensePageInfo (WiktionaryDBPageInfo);

TermsSenseSemanticHandler (WiktionaryDBSemanticHandler).

Во время предварительного прохода по снимку содержимого происходит его следующая обработка с помощью TermSenseCompiler.

Wiki-parser разбивает снимок содержимого на статьи и ведет обработку каждой статьи в отдельном потоке. При возникновении события начала статьи в методе startPage класса TermSenseMarkupHandler происходит создание объекта класса TermSensePageInfo. При возникновении события начала контекста в методе startContext класса TermSenseMarkupHandler проверяется, что данный контекст является шаблоном, имя которого «label», «sense» или «context».

Далее метод isRightSection класса TermSenseMarkupHandler проверяет, что контекст находится в нужном разделе (English->Noun->Synonyms, Antonyms…).

Если это так, то текст контекста передается в метод extractSense класса TermSenseMarkupHandler для извлечения смысла. Смысл извлекается как первый ключ шаблона с помощью регулярного выражения и проходит процесс нормализации, под которым понимается замена всех непустых последовательностей пробельных символов на единичный пробел и приведение в нижний регистр. Извлеченный смысл добавляется в соответствующий раздел статистики статьи, хранимой в TermSensePageInfo.

По окончании обработки статьи собранная локальная статистика по статье в методе page класса TermsSenseSemanticHandler добавляется в общую статистику снимка содержимого в методе addToCommonStatistics класса TermsSenseSemanticHandler.

По окончании обработки всех статей снимка содержимого в методе filterStatistics класса TermSenseCompiler происходит удаление смыслов, частота встречаемости которых меньше установленного порога, и смыслов из подготовленного вручную списка грамматических, лексических и др. признаков. В методе startContext класса TermSenseMarkupHandler, если данный контекст является секцией, происходит проверка того, что эта секция относится к имени TermSenseMarkupHandler. Если это так, то устанавливается флаг isNoun. По TermSenseMarkupHandler, если isNoun истинен, то заголовок статьи добавляется в список имен существительных, хранимый в TermSenseCompiler.

Таким образом, по окончании обработки снимка содержимого TermSenseCompiler содержит список смыслов и список имен существительных английского языка для дальнейшего использования.

Диаграмма классов, участвующих в предварительном проходе, приведена на рис. 14.

Рис. 14. Диаграмма классов, реализующих предварительный проход по Викисловарю.

Во время основного прохода по снимку содержимого происходит его следующая обработка с помощью класса WiktionaryDBCompiler.

Wiki-parser разбивает снимок содержимого на статьи и ведет обработку каждой статьи в отдельном потоке. При возникновении события начала статьи в методе startPage класса WiktionaryDBMarkupHandler происходит создание объекта класса WiktionaryDBPageInfо. При возникновении события начала контекста происходит его следующая обработка методом startContext класса WiktionaryDBMarkupHandler. Если контекст является шаблоном, имя которого WiktionaryDBMarkupHandler подтверждает, что он находится в нужном разделе, WiktionaryDBMarkupHandler для извлечения смысла, аналогичному методу extractSense класса TermSenseMarkupHandler. Далее, если извлеченный смысл содержится в списке смыслов, собранном и отфильтрованном на предварительном этапе с помощью TermSenseCompiler, то этот смысл для соответствующей секции запоминается. Если контекст является секцией с интересующим нас именем, то текст контекста передается в методы processSynonymSection (для секции «Synonyms»), processAntonymSection (для секции «Antonyms»), processRelatedSection (для секций «Related terms», «Derived terms», «See also»), processHypernymsSection (для секций «Hypernyms», «Hyponyms», «Coordinate terms», «Holonyms», «Meronyms») класса WiktionaryDBMarkupHandler в зависимости от имени секции. В этих методах реализованы разработанные ранее правила преобразования.

Семантически связанные термины в статьях Викисловаря, с которыми мы работаем, являются ссылками между статьями. Поэтому для работы с ними используется библиотечный класс RegularLinkMarkupParser. Типы связей являются библиотечными типами ссылок из класса Link.Type. Для секции «Related»

устанавливается связь типа RELATED, для секции See also – SEE_ALSO, для секций Coordinate terms, Hypernyms, Hyponyms, Holonyms, Meronyms – INFO_BOX. Для установления связи между термином и концепцией в этих методах вызываются метод addTermToConcept класса WiktionaryDBMarkupHandler, связи между концепциями с указанием типа связи - метод addConceptToConceptToType класса WiktionaryDBMarkupHandler.

Статьи Викизауруса из-за некоторых отличий в своей структуре обрабатываются несколько иначе. В начале статьи находится шаблон с именем «ws WiktionaryDBMarkupHandler, извлекаем смысл термина из его текста и создаем новую концепцию по умолчанию с этим смыслом, а сам смысл запоминаем. В статьях Викизауруса семантически связанные термины являются ключами шаблона с именем «ws». Поэтому при обнаружении этого шаблона в методе startContext извлекаем термин методом extractTitle класса WiktionaryDBMarkupHandler и добавляем в соответствующий список. После прохождения по статье Викисловаря при processWsSynonymSection, processWsAntonymSection, processWsHypernymsSection класса WiktionaryDBMarkupHandler. В них обработка аналогична исходным методам, отличие в том, что участвовать будут концепции с заданным, извлеченным вначале, смыслом (в случае антонимов – его отрицанием).

По окончании обработки статьи получившиеся локальные отображения «концепция-термин» и «концепция-концепция-связь» в методе page класса WiktionaryDBSemanticHandler добавляются в соответствующие общие отображения для снимка содержимого, хранимые в WiktionaryDBCompiler, с addToCommonConceptToConceptToType класса WiktionaryDBSemanticHandler.

После завершения обработки снимка содержимого вызывается метод defineSenses класса WiktionaryDBCompiler. В нем происходит проход по общему отображению «концепция-концепция-связь», во время которого пытаемся для двух связанных концепций по умолчанию (иначе говоря, с неопределенным смыслом) найти совпадающий смысл с помощью метода findEqualSenses класса WiktionaryDBCompiler, который использует общее отображение «терминконцепция». Если это удается, то исходная связь между концепциями по умолчанию заменяется на связь того же типа между концепциями с совпадающими смыслами.

Таким образом, получаем временное представление базы знаний Викисловаря:

отображения «термин-концепция» и «концепция-концепция-связь». Используя их, CommonnessSerializer, InfoMeasureSerializer, LinksSerializer – реализации интерфейса IDataSerializer, находящиеся в модуле Texterra-utils, и библиотечный класс EnglishLemmatizerFactory, реализацию интерфейса IPhraseLemmatizer, для нормализации терминов, генерируем базу знаний Викисловаря в формате Texterra.

Диаграмма классов, участвующих в основном проходе по словарю, приведена на рис. 15. Суммарно разработанные классы занимают около 1200 строк кода.

Рис. 15. Диаграмма классов, реализующих основной проход по Викисловарю.

Используемый при построении базы знаний Викисловарь, ведущийся на английском языке, содержит более 3 700 000 статей и занимает 3,2 ГБ. Обработка на компьютере с процессором Intel Core 2 6420 2.13 GHz занимает 15 минут и использует 320 МБ оперативной памяти.

В ходе решения поставленной задачи была исследована структура статей Викисловаря, были разработаны правила преобразования статей Викисловаря в базу знаний Texterra, то есть правила извлечения терминов, концепций и связей «терминконцепция», «концепция-концепция» из статей Викисловаря;

было разработано расширение библиотеки Wiki-parser, реализующее предложенные правила преобразования.

При построении рассматривались имена существительные английского языка, содержащиеся в Викисловаре, который ведется на английском языке, и учитывались такие семантические отношения, как синонимы, антонимы, гиперонимы, гипонимы, согипонимы, меронимы, холонимы, а также связанные и производные термины и термины из раздела «Смотри также».

Таким образом, база знаний системы Texterra была обогащена за счет использования Викисловаря в качестве источника.

1. Jurafsky D., Martin J. Speech and language processing: an introduction to natural language processing, computational linguistics, and speech recognition. Canada: Prentice Hall, 2008. 1024 p.

2. Турдаков Д., Астраханцев Н., Недумов Я., Сысоев А., Андрианов И., Майоров В., Федоренко Д., Коршунов А., Кузнецов С. Texterra: инфраструктура для анализа текстов. // Труды Института системного программирования РАН, 2014. Том 26, №1, с.421-437.

3. Turdakov D., Velikhov P. Semantic Relatedness Metric for Wikipedia Concepts Based on Link Analysis and its Application to Word Sense Disambiguation // SYRCoDIS, 2008.

4. Официальная страница английской версии Викисловаря [HTML] (http://en.wiktionary.org).

5. Статистика Викисловарей [HTML] (http://stats.wikimedia.org/wiktionary/RU) 6. Раздел официального сайта проекта DBPedia, посвященный обработке Викисловаря [HTML] (http://dbpedia.org/Wiktionary).

7. Раздел официального сайта ТУ Дармштадта, посвященный JWKTL [HTML] (http://www.ukp.tu-darmstadt.de/software/jwktl).

8. Zesch T., Mller C., Gurevych I. Extracting Lexical Semantic Knowledge from Wikipedia and Wiktionary. // 6th International Conference on Language Resources and Evaluation. — Marrakech, Morocco, 2008.

9. Домашняя страница проекта Wikokit [HTML] (https://code.google.com/p/wikokit).

10. Meyer C. M., Gurevych I. OntoWiktionary – Constructing an Ontology from the Collaborative Online Dictionary Wiktionary // Semi-Automatic Ontology Development:

Processes and Resources / M. T. Pazienza and A. Stellato. Hershey, USA: IGI Global, 2012. p. 131-161.

11. Havasi C., Speer R., Alonso J. ConceptNet: A lexical resource for common sense knowledge. // Recent Advances in Natural Language Processing, Volume 5. John Bernjamins Publishers, Amsterdam & Philadelphia, 2009.

12. Официальная страница платформы OpenCyc [HTML] (http://www.cyc.com/platform/opencyc).

13. Fellbaum Ch. WordNet: An Electronic Lexical Database. USA: MIT press, 1998.

442p.





Похожие работы:

«Вопросы, программа и литература для подготовки к аттестационному испытанию для перевода на 2 курс философского факультета. Направление подготовки – РЕЛИГИОВЕДЕНИЕ. Курс История религии Вопросы к экзамену 1. Проблема происхождения религии 2. Ранние формы религии 3. Э.Б. Тайлор об анимизме 4. Ш де Бросс о фетишизме 5. Б.К. Малиновский о магии и религии 6. Дж. Фрэзер о происхождении и ранних формах религии 7. Ведическая религия. Брахманизм 8. Индуизм 9. Религия Древнего Египта 10. Религия Древней...»

«УТВЕРЖДАЮ заведующий кафедрой международных отношений и регионоведения факультета международных отношений (_).20 РАБОЧАЯ ПРОГРАММА Шифр и наименование специальности/направления: 080200 Регионоведение 1. Уровень образования: высшее, бакалавр 2. Форма обучения: дневная 3. Код и наименование дисциплины (в соответствии с Учебным планом): СД.06, Модернизационные 4. процессы в Западном полушарии Кафедра, отвечающая за дисциплину: кафедра международных отношений и регионоведения 5. Составители:...»

«В.В. Пиляева ГРАЖДАНСКОЕ ПРАВО ЧАСТИ ОБЩАЯ И ОСОБЕННАЯ УЧЕБНИК 5е издание, переработанное УДК 347(470+571)(075.8) ББК 67.404(2Рос)я73 П32 Пиляева В.В. П32 Гражданское право. Части общая и особенная : учебник / В.В. Пиляева. — 5е изд., перераб. — М. : КНОРУС, 2011. — 1000 с. ISBN 978-5-406-00731-0 Учебник Гражданское право написан на основе современных принципов и методов, которые необходимы при изучении гражданского права. В издании освещены все разделы гражданского права – от общего...»

«Рабочая программа и календарно-тематическое планирование к УМК Английский язык нового тысячелетия /New Millennium English для 9 класса. Составитель Т.В. Индюкова, учитель английского языка МБОУ Гимназия № 7 г. Норильск. Пояснительная записка. Одной из важнейших задач российской школы на современном этапе является качественное образование и воспитание граждан России. Владение иностранным языком повышает уровень гуманитарного образования школьников, способствует формированию личности и ее...»

«2 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Кузбасск ий государст венн ый техн ически й универ ситет им. Т. Ф. Горбачева Кафедра строительных конструкций УТВЕРЖДАЮ Начальник управления реализации ООП Брель Е. Ю. _2012 г. Рабочая программа дисциплины по дисциплине ОСНОВЫ ГРАДОСТРОИТЕЛЬСНОГО ДЕЛА (проектирование и эксплуатация зданий и комплексов) для направления 120700...»

«Вступление В середине 50-х годов прошлого столетия произошло величайшее событие в истории человечества – аппарат, созданный руками человека, впервые вышел на околоземную орбиту. Запуск Советским Союзом первого искусственного спутника Земли открыл новую эру в истории человечества — эру освоения космического пространства. Стало очевидным, что космос можно использовать для решения различного класса задач, в том числе и военно-прикладного характера. Космос постепенно приобретал черты, характерные...»

«Аннотация к рабочей программе по биологии для 10 класса Рабочая программа по биологии разработана на основе: 1)Государственного образовательного стандарта среднего общего образования по биологии; 2) примерной программы по биологии основного общего образования; 3) авторской программы В.В. Пасечника (Программы для общеобразовательных учреждений к комплекту учебников, созданных под руководством В.В. Пасечника: Биология. 5-11 классы / авт.-сост. Г.М. Пальдяева. – 2-е изд., - М.: Дрофа, 2010. – 92...»

«ГОУ ВПО РОССИЙСКО-АРМЯНСКИЙ (СЛАВЯНСКИЙ) УНИВЕРСИТЕТ Составлен в соответствии с У Т В Е Р Ж ДАЮ : государственными требованиями к минимуму содержания и уровню Ректор А.Р. Дарбинян подготовки выпускников по указанным направлениям и “_”_ 2012г. Положением Об УМК Д РАУ. Институт Права и Политики Кафедра: Теории и истории государства и права Авт о р ( ы ) : доктор философских наук, профессор Оганесян Сурен Гайкович Учебно-методический комплекс Дисциплина: СДМ.В1 Философия права Направление:...»

«3 МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Саратовский государственный аграрный университет имени Н.И. Вавилова УТВЕРЖДАЮ Декан факультета _ /Морозов А.А. / _ 20 г. РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ (МОДУЛЯ) Дисциплина Менеджмент Направление подготовки 100700.62 Торговое дело Профиль подготовки / Коммерция Квалификация (степень) бакалавр выпускника Нормативный срок 4 года обучения...»

«ГОУ ВПО РОССИЙСКО-АРМЯНСКИЙ (СЛАВЯНСКИЙ) УНИВЕРСИТЕТ У Т В Е Р Ж Д АЮ : С о с т а в ле н а в с о о т ве т с т вии с государственными требованиями к минимуму содержания и у р о вн ю подготовки Р е к т о р А. Р. Д а рб и н я н в ы п у с к н и к о в п о у к а з а н н ы м н а п р а в ле н и я м и П о ло ж е н и е м Р А У О п о р я д к е р а з р а б о т к и и “_”_ 200_ г. у т в е р ж д е н и я у ч е б н ы х п р о г р а м м. Факультет: Экономический Н а з в а н и е ф а ку л ь т е т а Кафедра:...»

«УЧЕБНО-МЕТОДИЧЕСКОЕ ОБЪЕДИНЕНИЕ ВУЗОВ РЕСПУБЛИКИ БЕЛАРУСЬ В ОБЛАСТИ КУЛЬТУРЫ И ИСКУССТВА МИНСКИЙ ИНСТИТУТ УПРАВЛЕНИЯ УТВЕРЖДАЮ Ректор Минского института управления _Н.В. Суша _2008 г. Регистрационный № УД-/уч. ИСТОРИЯ ДИЗАЙНА Учебная программа для специальности: 1-19 01 01 Дизайн, направление специальности: 1-19 01 01-06 Дизайн (виртуальной среды) Срок действия учебной программы до 2011 г. СОГЛАСОВАНО Сопредседатель УМО вузов Республики Беларусь в области культуры и искусства Р.Б. Смольский...»

«САНКТ-ПЕТЕРБУРГСКИЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ И ЭКОНОМИКИ Факультет cepвiiCa и межкультурной коммуникации Кафедра межкультурной коммуникации ПРОГРАММА КАНДИДАТСКОГО ЭКЗАМЕНА ПО ДИСЦИПЛИНЕ ИНОСТРАННЫЙ ЯЗЫК Для специальностей: -Теория и история права и государства; история ученийоправе и 12.00.01 государстве 12.00.02- Конституционное право; муниципальное право Администратинное право, финансовое право, информационное 12.00.14 право Санкт-Петербург 2011 Программа кандидатского экзамена по дисциплине...»

«РЕЗЮМЕ Проф. дпн ПЛАМЕН АНАТОЛИЕВ ЛЕГКОСТУП Дата рождения: 04. 04. 1959 г. в городе Велико-Тырново. ОБРАЗОВАНИЕ: Начальное и основное образование – в Велико-Тырново. В 1977 г. окончил Математическую гимназию в Велико-Тырново. 1983 г. – закончил факультет изобразительных искусств Великотырновского университета, получает диплом по специальности “Графика”. В 1988-1989 закончил шестимесячный интенсивный курс английского языка в Институте для обучения иностранных студентов. ТРУДОВОЙ СТАЖ: С 1983 по...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования ТОМСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ (ТУСУР) УТВЕРЖДАЮ Первый проректор – проректор по учебной работе _ Л. А. Боков _ _ 2012 г. РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ Управление инновационными процессами Уровень основной образовательной программы: магистратура Направление подготовки: 222000.68 Инноватика...»

«Федеральное агентство по образованию ГОУ ВПО Алтайский Государственный Университет Факультет психологии и философии Кафедра общей и прикладной психологии Методологические проблемы психологии личности по направлению 030300 Психология Магистерская программа Психология личности Форма обучения: очная Барнаул - 2010 Введение Курс предназначен для магистров, обучающихся по направлению № 030300 Психология на ООП Психология личности. Он читается во втором и третьем семестре для студентов дневной формы...»

«ПРОГРАММА ВСТУПИТЕЛЬНОГО ЭКЗАМЕНА В АСПИРАНТУРУ Направление подготовки 49 06 01 Физическая культура и спорт Профиль – Теория и методика физического воспитания, спортивной тренировки, оздоровительной и адаптивной физической культуры Квалификация – Исследователь. Преподаватель-исследователь Москва, 2014 2 3 ПРОГРАММА вступительного экзамена в аспирантуру по направлению подготовки 49 06 01 Физическая культура и спорт Профиль – Теория и методика физического воспитания, спортивной тренировки,...»

«Федеральное агентство по образованию Государственное образовательное учреждение высшего профессионального образования Алтайский государственный университет Юридический факультет Кафедра уголовного процесса и криминалистики Программа вступительного экзамена Уголовно – процессуальное право (Уголовный процесс) Магистерская программа 030508.68 Уголовный процесс, криминалистика и судебная экспертиза, теория оперативно-розыскной деятельности Барнаул – 2009 Программа Уголовно-процессуальное право...»

«Утверждена педагогическим советом МБОУ СОШ № 8 30 августа 2013 г. ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА муниципального бюджетного образовательного учреждения средней общеобразовательной школы № 8 с углублённым изучением иностранных языков г. Смоленска на 2013-2014 учебный год. СТРАТЕГИЧЕСКИЕ ПРИОРИТЕТЫ ОБРАЗОВАТЕЛЬНОГО ПРОЦЕССА, ЦЕННОСТИ И ЦЕЛИ ОБУЧЕНИЯ, ВОСПИТАНИЯ И РАЗВИТИЯ ОБУЧАЮЩИХСЯ Муниципальное бюджетное образовательное учреждение средняя общеобразовательная школа № 8 г. Смоленска - школа с...»

«ПЕРВОЕ ВЫСШЕЕ ТЕХНИЧЕСКОЕ УЧЕБНОЕ ЗАВЕДЕНИЕ РОССИИ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное бюджетное образовательное учреждение высшего профессионального образования НАЦИОНАЛЬНЫЙ МИНЕРАЛЬНО-СЫРЬЕВОЙ УНИВЕРСИТЕТ ГОРНЫЙ Согласовано Утверждаю Руководитель ООП Зав. кафедрой РНГМ по направлению 131000 проф. М.К.Рогачев проф. М.К.Рогачев ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ Эксплуатация шельфовых месторождений нефти и газа (наименование по рабочему учебному плану)...»

«Департамент образования города Москвы Государственное бюджетное образовательное учреждение высшего профессионального образования города Москвы Московский городской педагогический университет ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ Направление подготовки 035700.62 ЛИНГВИСТИКА Профиль подготовки Теория и практика межкультурной коммуникации - английский язык Квалификация (степень) бакалавр Нормативный срок освоения программы - 4 года Форма обучения - очная Москва...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.