WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

УДК 608.01 519.765

Ю. Е. КОТЕЛЬНИКОВА

ОБРАБОТКА ТЕКСТОВЫХ ДОКУМЕНТОВ

И ЭВОЛЮЦИЯ АВТОМАТИЗИРОВАННЫХ СИСТЕМ ПРОЕКТИРОВАНИЯ

Исследованы системы обработки текстовой информации, рассмотрены проблемы анализа текстов в производственных задачах.

Ключевые слова: неструктурированные данные, Text Mining, текстовые данные, автоматизированные системы.

Введение. Из всей существующей информации не менее 90 % составляют неструктурированные данные, т.е. совокупность документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру. Такая информация хранится в текстовых полях, дальнейшая обработка которых невозможна без потери семантики текста и отношений между его элементами. Для анализа неструктурированных данных на стыке нескольких областей (DataMining, обработка естественных языков, поиск информации, извлечение информации и управление знаниями) разрабатывается особая группа методов — Text Mining.

Программное обеспечение, реализующее методы Text Mining. На настоящий момент существует программное обеспечение, реализующее методы Text Mining, это — масштабируемые системы, имеющие развитые графические интерфейсы, богатые возможности ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2010. Т. 53, № 22 Ю. Е. Котельникова визуализации и манипулирования данными, которые предоставляют доступ к различным источникам данных, функционируют в архитектуре клиент—сервер. Рассмотрим их подробнее.

SemioMap — это продукт компании Entrieva, созданный в 1996 г. ученым-семиотиком Клодом Фогелем. Центральным блоком SemioMap является лексический экстрактор — программа, которая выявляет в текстовой совокупности фразы, объединенные общей семантикой [1].

Autonomy Knowledge Server. Основное преимущество системы — мощные интеллектуальные алгоритмы, основанные на статистической обработке. Эти алгоритмы базируются на информационной теории Клода Шаннона, байесовых вероятностях и нейронных сетях.

Galaktika-ZOOM — продукт российской корпорации „Галактика“. Основное назначение системы — интеллектуальный поиск по ключевым словам с учетом морфологии русского и английского языков, а также формирование информационных массивов по конкретным аспектам [1].

InfoStream. Ядром механизма обработки содержания InfoStream является полнотекстовая информационно-поисковая система InfoReS. Технология позволяет создавать полнотекстовые базы данных и осуществлять поиск информации, формировать тематические информационные каналы, автоматически „рубрицировать“ информацию, формировать таблицы взаимосвязей понятий, гистограммы распределения весовых значений отдельных понятий.

Средства Oracle — Oracle Text, InterMedia Text. В Oracle9i средства текстового анализа развились и получили новое название — Oracle Text — программный комплекс, интегрированный в СУБД, обеспечивающий решение следующих задач анализа текстовой информации:

поиск документов по их содержанию, классификацию документов, кластеризацию документов, извлечение ключевых понятий, автоматическое аннотирование, поиск в документах ассоциативных связей.

Intelligent Miner for Text. Этот продукт фирмы IBM представляет собой набор отдельных утилит, запускаемых из командной строки или из скриптов независимо друг от друга. Система включает ряд базовых компонентов, которые имеют самостоятельное значение вне пределов технологии Text Mining.

Text Miner. Американская компания SAS Institute выпустила систему SAS Text Miner для сравнения определенных грамматических рядов в письменной речи. Text Miner обеспечивает логическую обработку текста в среде пакета SAS Enterprise Miner. Это позволяет пользователям обогащать процесс анализа данных, интегрируя неструктурированную текстовую информацию с существующими структурированными данными.

TextAnalyst компании Мегапьютер Интеллидженс решает следующие задачи методов Text Mining: создание семантической сети большого текста, автоматическое аннотирование текста, поиск по тексту, классификацию документов, кластеризацию текстов. Система TextAnalyst рассматривает технологию TextMining в качестве отдельного математического аппарата, который разработчики программного обеспечения могут встраивать в свои продукты, не опираясь на платформы информационно-поисковых систем или СУБД.

WebAnalyst — также продукт компании Мегапьютер Интеллидженс — представляет собой интеллектуальное масштабируемое клиент-серверное решение для компаний, желающих усовершенствовать результат анализа данных в web-среде. Сервер WebAnalyst функционирует как экспертная система сбора информации и управления контентом web-сайта.

Как видим, эти системы пытаются обрабатывать текст, учитывая определенные нормы языка (так как разработки в основном зарубежные — английского). Следовательно, их использование для русских текстов сильно ограничено. Кроме того, нет ни одной системы, последовательно обеспечивающей весь процесс обработки неструктурированного текста (рис. 1).

Каждый из этапов процесса подразумевает использование набора шаблонов, с которыми сравнивается найденная информация. Для разных областей знаний необходимы специфичеИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2010. Т. 53, № Обработка текстовых документов и эволюция автоматизированных систем проектирования ские базы шаблонов. Данная база должна постоянно обновляться. Таким образом, определяется структура, обеспечивающая использование имеющихся шаблонов для новых запросов (рис. 2).



Субъект поиска Поисковый запрос Получение необходимой информации Применение методов анализа Сеть Интернет Извлечение информации Предварительная обработка документов Блок информации Рис. Найти тексты Построить правила Обработать тексты и получить новые задания Рис. Проблема анализа текстов в производственных задачах. Реализация указанной схемы, по нашим представлениям, происходит в три этапа.

1. Создание системы поиска. Цель этапа — помочь человеку (специалисту, автору) в поиске текстов, в которых могут содержаться данные, необходимые для решения поставленной задачи.

2. Обработка текста и извлечение знаний. Цель этапа — формирование новых понятий и отношений между понятиями с участием человека и без его участия.

3. Интерпретация новых знаний. Цель этапа — формирование новых или корректировка старых текстов, создание новых документов, проектирование новых правил или корректировка старых [2, 3].

На первом этапе создается автоматизированная система поиска текстов по шаблонам, которые формируются специалистами. Шаблоны могут храниться в базе или создаваться оперативно в процессе обработки текста. На этом этапе осуществляется:

1) подбор текстов, которые необходимо прочитать и проанализировать специалисту перед началом или в процессе — выполнения конкретного проекта;

— постановки задачи и написания пояснительной записки;

— решения изобретательской задачи;

— решения конкретной инженерной задачи;

— написания книги, учебника, учебного пособия и т.п.;

2) формирование подсказки и подбор материала для — специалиста, решающего конкретную инженерную задачу, чтобы оперативно пополнить его знания новыми материалами и знаниями в данной проблемной области;

— специалиста, решающего изобретательскую задачу, чтобы оперативно позволить „подсмотреть“ подходы к решению похожих задач в других проблемных областях;

— автора текста (книги, учебника, учебного пособия и т.п.), который был сформирован ранее, чтобы дополнить и откорректировать его.

ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2010. Т. 53, № На этом этапе следует особое внимание обратить на достижения в области библиографии, перевода текстов и математической лингвистики.

Целесообразно организовать поиск текстов с соблюдением их структуры. В общем случае текст имеет следующую структуру: название, шифр по классификатору, аннотация ко всему тексту, оглавление, введение, аннотация к разделам текста, текст раздела, выводы по разделу текста, заключение ко всему тексту, тезаурус (глоссарий).

Каждая структурная часть позволяет найти ответ на вопрос поиска: „Может быть полезен данный текст?“. Как нам кажется, для этого следует привлечь небольшой объем уже каким-то образом структурированных данных, а именно: название, шифр по классификатору, аннотацию ко всему тексту, оглавление, тезаурус (глоссарий) [4].

На втором этапе создается автоматизированная система извлечения знаний из текстов и формирования шаблонов для поиска новых текстов. Сформированные шаблоны заносятся в базу и могут уточняться оперативно специалистом.

Процесс проектирования автоматизированной системы извлечения знаний из текстов и формирования шаблонов для поиска новых текстов состоит из следующих этапов:

— автоматизация функций фильтрации, агрегации данных (обобщение данных должно выполняться с участием специалиста, при автоматическом выполнении только отдельных операций обобщения);

— автоматизация процесса обобщения данных и формирования новых понятий и отношений между понятиями. Процесс выполняется автоматически. Специалист либо контролирует результаты анализа, либо проводит анализ и синтез новых понятий и отношений на паритетных началах с автоматизированной системой;

— автоматизация всех операций анализа и синтеза извлечения знаний. Результаты могут контролироваться специалистом, но могут выполняться автоматически.

На втором этапе проводятся следующие виды автоматизированных и автоматических работ:

— аннотирование новых материалов, — формирование понятий, отношений и шаблонов, — структурирование процесса изучения нового материала (речь идет о последовательности изучения материала), — анализ и обобщение нового материала.

Построение новых документов, правил и текстов может выполняться в автоматизированном режиме, при котором основная роль отводится специалисту, система реализует только вспомогательные функции.

На этом этапе также необходимо особое внимание обратить на достижения в переводе текстов и математической лингвистики.

При решении задач на втором этапе требуется обработать большой объем данных, в лучшем случае слабо структурированных, а именно: введение, аннотацию к разделам текста, текст раздела, выводы по разделу текста, заключение ко всему тексту.

На третьем этапе создается автоматизированная система интерпретации результатов анализа данных и синтеза новых знаний. С помощью данной автоматизированной системы возможно проектировать и корректировать алгоритмы, формировать документы, формировать новые и корректировать старые тексты.

Заключение. В настоящий момент отсутствует программное обеспечение, осуществляющее полный и последовательный анализ неструктурированного текста, а также в полном объеме работающее с русскоязычными текстами. Решено создать автоматизированную систему нового типа, специализирующуюся на технологической базе знаний, в которой будут реализованы все эти требования. Вынесено предложение о структуре системы, целях и содержании каждого этапа.

Автоматизированная система управления ИП современного предприятия Работа проводилась в рамках инновационной образовательной программы „Инновационная система подготовки специалистов нового поколения в области информационных и оптических технологий“ при создании образовательного модуля „Поиск научных и технических решений“.

СПИСОК ЛИТЕРАТУРЫ

1. Технологии анализа данных: Data Mining, Text Mining, OLAP / А. А. Берсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. 2-е изд., перераб. и доп. СПб: БХВ-Петербург, 2008. 384 с.

2. Применение ЭВМ в технологической подготовке серийного производства / С. П. Митрофанов, Ю. А. Гульнов, Д. Д. Куликов, Б. С. Падун. М.: Машиностроение, 1981. 287 с.

3. Технологическая подготовка гибких производственных систем / С. П. Митрофанов, Д. Д. Куликов, О. Н. Миляев, Б. С. Падун. М.: Машиностроение, 1987. 352 с.

4. Автоматизированные системы технологической подготовки производства в машиностроении / Под ред.

Г. К. Горанского. М.: Машиностроение, 1976. 240 с.

Юлия Евгеньевна Котельникова ИЗВ. ВУЗОВ. ПРИБОРОСТРОЕНИЕ. 2010. Т. 53, №



Похожие работы:

«Министерство экономики Министерство образования Российской Федерации Российской Федерации Государственный Университет ВЫСШАЯ ШКОЛА ЭКОНОМИКИ Нижегородский филиал Утверждена УМС Одобрена на заседании Председатель кафедры экономической теории и эконометрики 2000 г. Зав. Кафедрой: А.Г. Максимов _ 2000 г. Программа дисциплины Экономика общественного сектора для направления 521600 Экономика (вторая ступень высшего профессионального образования) Н. Новгород, 2000 г. I. Пояснительная записка Автор...»

«Концепция системы учебников ООО ДРОФА Вертикаль Среднее общее образование Над концепцией работали: И. Б. Агафонова, В. В. Агеносов, И. Л. Андреев, А. Н. Архангельский, О. В. Афанасьева, В. В. Бабайцева, Н. Е. Важеевская, О. В. Волобуев, О. С. Габриелян, В. М. Галушин, Г. И. Данилова, А. А. Дроздов, В. В. Еремин, В. В. Журавлев, Л. И. Звавич, Д. А. Исаев, А. А. Каменский, В. А. Касьянов, Э. В. Ким, А. Ф. Киселев, В. А. Клоков, Е. А. Крискунов, Т. С. Кудрявцева, А. П. Кузнецов, Н. Е. Кузьменко,...»

«ФЕДЕРАЛЬНАЯ СЛУЖБА ИСПОЛНЕНИЯ НАКАЗАНИЙ Федеральное государственное образовательное учреждение высшего профессионального образования Владимирский юридический институт Федеральной службы исполнения наказаний АНТРОПОЛОГИЯ РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ по специальности 040101.65 Социальная работа Владимир 2010 ФЕДЕРАЛЬНАЯ СЛУЖБА ИСПОЛНЕНИЯ НАКАЗАНИЙ Федеральное государственное образовательное учреждение высшего профессионального образования Владимирский юридический институт Федеральной...»

«ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Нормативно-правовые документы, на основании которых разработана рабочая программа Программа разработана на основе: 1. Федерального Закона Об образовании в Российской Федерации от 29.12.2012г. № 273 -ФЗ 2. Федерального государственного образовательного стандарт начального общего образования, утверждённый приказом от 06 октября 2009 г. № 373 3. Приказы Министерства образования и науки Российской Федерации от 26 ноября 2010 г. № 1241, от 22 сентября 2011г. № 2357, от 18...»

«Программа вступительного экзамена в аспирантуру по специальности Биофизика (03.01.02) ВВЕДЕНИЕ. Предмет биофизики. Взаимоотношение биофизики с биологией, физикой, химией. Методические проблемы биофизики. История развития биофизики. ТЕРМОДИНАМИКА ЖИВЫХ СИСТЕМ. Биосистемы как термодинамические системы. Роль энергетических процессов. Основные этапы преобразования энергии в биосфере. Первый закон термодинамики и его применимость к биосистемам. Колориметрия как метод исследования биологических...»

«2 Программа разработана на основе ФГОС высшего образования по программе бакалавриата 45.03.01 Филология. Аннотации к программам по направлению 45.04.01 Филология (очная форма обучения) 1. Наименование магистерской программы: Общее языкознание, психолингвистика, социолингвистика (речеведение) Руководитель магистерской программы: д.ф.н., профессор Величкова Людмила Владимировна Краткое описание магистерской программы: Обучение в магистратуре по направлению Общее языкознание, психолингвистика,...»

«Государственное бюджетное общеобразовательное учреждение гимназия 441 Фрунзенского района Санкт-Петербурга РАССМОТРЕНО ПРИНЯТО УТВЕРЖДЕНО Председатель МО Педагогическим советом Директор ГБОУ ГБОУ гимназии 441 гимназии 441 Протокол № 1 Протокол № 1 (Г. П. Опарина) от 28 августа 2013 года от 30 августа 2013 года от 31 августа 2013 года Рабочая программа по английскому языку для 6-в класса Составитель: Учитель английского языка И.А. Нечаева, высшая квалификационная категория 2013-2014 учебный год...»

«ОБРАЗОВАНИЕ Система образования Таганрога на 31.12.2011 г. представлена следующим образом: гимназии – 2; средние общеобразовательные школы – 28; общеобразовательные лицеи – 3; приемные семьи – 6; детские дошкольные учреждения – 54; межшкольный учебный комбинат – 1, МАО ИТО в образовании. Система дополнительного образования детей представлена 11 учреждениями. С 1-го января 2011 года 32 образовательных учреждения (ОУ) являются бюджетными учреждениями, одно (лицей №28) – автономным. МАОУ лицей №28...»

«Москва, Ленинградский проспект, 64 оф. 908л тел. (499) 155-0743, 155-0180, 155-0830 [email protected] www.ccl-logistics.ru www.ec-logistics.ru Программа X Конференции Управление цепями поставок и транспортные технологии в современном бизнесе в рамках Международной выставки комплексных решений в транспорте и логистике InterLogistika 2013 11 сентября 2013 г., МВЦ Крокус Экспо Организаторы: Координационный совет по логистике, Центр инновационных технологий в логистике (МАДИ), MEDIA GLOBE...»

«Частное учреждение образования Минский институт управления УТВЕРЖДАЮ Ректор Минского института управления _ Суша Н.В. _ 2013 г. Регистрационный № УД-/р ОСНОВЫ ПСИХОЛОГИИ И ПЕДАГОГИКИ Учебная программа для специальностей: Э.01.07.00, 1-25 01 08, 1-25 01 08-03, 1-19 01 01-06, 1-19 01 01-04. 1-19 01 01-02, 1-31 03 04, 1-40 01 02-02, 1-40 01 02-05, 1-23 01 02-01, 1-26 02 03, 1-26 02 02, 1-25 01 03, Э.01.08.00, Г.09.01.00, 1-24 01 02, Г.02.05.00, 1-21 06 01-02, Э.01.04.00, 1-25 01 04, Э.01.03.00,...»

«Санкт-Петербургский государственный политехнический университет УТВЕРЖДАЮ Декан ФМФ В.К. Иванов _ _ _ г. РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ Молекулярная иммунология Кафедра-разработчик Биофизика Направление (специальность) подготовки 011200 Физика Наименование ООП Квалификация (степень) выпускника Магистр Образовательный стандарт Федеральный ГОС Форма обучения очная Соответствует ФГОС ВПО. Утверждена протоколом заседания кафедры Биофизика № 2 от 17.05. Программу в соответствии с ФГОС ВПО...»

«РОССИЯ И ФРАНЦИЯ В ЗЕРКАЛЕ Андрей Фролов ГЛОБАЛЬНОГО ПАРТНЕРСТВА В начале 2003 г. правительственные эксперты России стали связывать большие надеж ды с тем, что реализация договоренностей саммита восьмерки в Кананаскисе получит практическое воплощение. В частности, директор Департамента информации и печати МИД России А.В. Яковенко заявил, что реализация договоренностей о Глобальном партнерстве приобрела заметную позитивную динамику во время канадского председа тельства в восьмерке. Кроме того,...»

«Рамочная программа действий ЮНЭЙДС: Всеобщий доступ для мужчин, имеющих половые контакты с мужчинами, и трансгендерных лиц UNAIDS/09.18R / JC1720R (перевод на русский язык, октябрь 2009 г.) Оригинал: на английском языке, UNAIDS/09.18E / JC1720E, сентябрь 2009 г.: UNAIDS action framework: universal access for men who have sex with men and transgender people. Перевод – ЮНЭЙДС © Объединенная программа Организации Объединенных Наций по ВИЧ/СПИДу (ЮНЭЙДС) 2009. Все права охраняются. Публикации...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное образовательное учреждение высшего профессионального образования Государственный университет по землеустройству (название высшего учебного заведения) Утверждаю: Ректор _С.Н. Волков 2011 г. Номер внутривузовской регистрации Основная образовательная программа высшего профессионального образования Направление подготовки 120700 – Землеустройство и кадастры (указывается код и наименование направления подготовки)...»

«V. Программы отдельных учебных предметов УМК ШКОЛА РОССИИ Перечень учебников и учебных пособий, обеспечивающих реализацию учебного плана для образовательных учреждений, работающих по основной образовательной программе “Школа России Завершенная предметная линия учебников Русский язык авт. Канакина В.П., Горецкий В.Г. Завершенная предметная линия учебников Литературное чтение авт. Климанова Л.Ф. и др. Завершенная предметная линия учебников Математика Петерсон Л.Г. и др. Завершенная предметная...»

«УТВЕРЖДАЮ Ректор Минского института управления _ Н.В. Суша 2010 г. Регистрационный № УД-_/р. ПСИХОЛОГИЯ ДИЗАЙН-ДЕЯТЕЛЬНОСТИ Учебная программа для специальности: 1-19 01 01 Дизайн, направление специальности: 1-19 01 01-02 Дизайн (предметно-пространственных комплексов), специализация: 1-19 01 01-02 02 Дизайн интерьеров, направление специальности 1-19 01 01-06 Дизайн (виртуальной среды) Учетно-финансовый факультет Кафедра дизайна Курс Семестр 5, Лекции 42 Экзамен 5 семестр Практические...»

«1 ПРОГРАММА-МИНИМУМ кандидатского экзамена по специальности 10.02.21 – Прикладная и математическая лингвистика по филологическим наукам Введение Кандидатский экзамен по данной специальности имеет целью проверить готовность сдающего вести занятия по курсам, входящим в цикл прикладной и математической лингвистики, а также проверить уровень теоретической и методологической подготовки как базы для осуществления современных прикладных и экспериментальных разработок. До сдачи экзамена аспирант должен...»

«ПОЯСНИТЕЛЬНАЯ ЗАПИСКА Основная образовательная программа начального общего образования для школ, работающих по ОС Школа 2100, разработана в соответствии с требованиями Федерального государственного образовательного стандарта начального общего образования к структуре основной образовательной программы (утверждн приказом Министерства образования и науки Российской Федерации от 6 октября 2009 г. № 373) и Концепцией Образовательной системы Школа 2100. Программа определяет содержание и организацию...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное автономное образовательное учреждение высшего профессионального образования Северный (Арктический) федеральный университет Юридический институт Кафедра международного права и сравнительного правоведения УТВЕРЖДАЮ Помощник проректора по учебной работе и академическому развитию _ Н.И. Дундин _20_г. ПРОГРАММА ПРОИЗВОДСТВЕННОЙ ПРАКТИКИ Специальность: 030501.65. ЮРИСПРУДЕНЦИЯ Квалификация: юрист Архангельск 2013 год...»

«МИНИСТЕРСТВО СЕЛЬСКОГО ХОЗЯЙСТВА РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Саратовский государственный аграрный университет имени Н.И. Вавилова УТВЕРЖДАЮ Декан факультета _ /Шьюрова Н.А./ _ 20 г. РАБОЧАЯ ПРОГРАММА ДИСЦИПЛИНЫ (МОДУЛЯ) ЭКОЛОГИЯ ЧЕЛОВЕКА Дисциплина 022000.62 Экология и Направление природопользование подготовки Профиль Экология подготовки Квалификация Бакалавр (степень) выпускника Нормативный срок 4...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.