WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«АБЫЗГИЛЬДИНА САКИНА ШАГАДАТОВНА БАЗА ЗНАНИИ ЭКСНЕРТНОИ СИСТЕМЫ В ОБЛАСТИ НРОМБ1ШЛЕННОЙ БЕЗОНАСНОСТИ ...»

-- [ Страница 1 ] --

ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ

Абызгильдина, Сакина Шагадатовна

База знаний экспертной системы в области

промышленной безопасности

Москва

Российская государственная библиотека

diss.rsl.ru

2006

Абызгильдина, Сакина Шагадатовна.

   База знаний экспертной системы в области

промышленной безопасности  [Электронный ресурс] : Дис.

... канд. техн. наук

 : 05.26.03. ­ Уфа: РГБ, 2006. ­ (Из фондов Российской Государственной Библиотеки).

Пожарная безопасность Полный текст:

http://diss.rsl.ru/diss/06/0526/060526012.pdf Текст воспроизводится по экземпляру, находящемуся в фонде РГБ:

Абызгильдина, Сакина Шагадатовна База знаний экспертной системы в области промышленной безопасности Уфа  Российская государственная библиотека, 2006 (электронный текст) 61:06-5/

МИНИСТЕРСТВО НАУКИ И ОБРАЗОВАЬЖЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ

. ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

УФИМСКИЙ ГОСУДАРСТВЕННЫЙ НЕФТЯНОЙ

ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

На правах рукописи

•^ '^ -/'"/'

АБЫЗГИЛЬДИНА САКИНА ШАГАДАТОВНА

БАЗА ЗНАНИИ ЭКСНЕРТНОИ СИСТЕМЫ

В ОБЛАСТИ НРОМБ1ШЛЕННОЙ БЕЗОНАСНОСТИ

Специальность: 05.26.03 - Ножарная и промышленная безопасность (нефтегазовая отрасль)

ДИССЕРТАЦИЯ

на соискание ученой степени кандидата технических наук Содержание 1.1 Роль информации в повышении уровня пожарной и промышленной 1.2 Электронные библиотеки как база данных для экспертной системы 1.4 Классификация методов практического извлечения знаний 1.5 Создание базы знании и методы анализа текстовой информации 1.6 Информационные технологии смыслового поиска информации Глава 2 Подготовка материала, разработка технической системы, технологии и методики перевода бумажных книг в электронный вид 2.1 Оценка количества информации и анализ наличия книг в бумажной 2.3 Разработка технологии процесса перевода информации с бумажных 2.4 Разработка методики перевода информации с бумажных носителей 2.5 Разработка программного обеспечения для электронной библиотеки Глава 3 Изучение свойств информации для формирования базы знаний в предметной области промышленная безопасность 3.1 Программное средство для статистического анализа текстового массива 3.3 Частотный анализ содержания книг выбранной предметной области 3.4 Определение параметров, показывающих соответствие книг предметной области, на основе частотного анализа Глава 4 База знаний для экспертной системы и предпоисковая система для работы с семантической сетью 4.1 Составление частотных фразеологических словарей 4.2 Построение семантической сети на основе частотного фразеологического словаря Глава 5 Применение базы знаний и базы нормативно-технической до- кументации в качестве системы поддержки принятия решений Введение Проблема обеспечения безопасности, несмотря на длительный срок и крупные средства, привлекаемые для ее изучения, не является решенной в научном плане. Первоочередность и значимость исследований в области обеспечения промышленной безопасности оговорена в Федеральном Законе «О промышленной безопасности опасных производственных объектов» от 21 июля 1997 года и других подзаконных актах Правительства Российской Федерации.

Анализ развития тяжелых аварий показывает, что возникновение опасности имеет многопричинный характер, а ее развитие проходит через цепь событий. Варианты причин и последующую цепь событий можно предвидеть при создании систем искусственного интеллекта, экспертных систем представления знаний, которые полностью позволят исключить аварии, вызываемые ошибками обслуживающего персонала и отказами технических средств как в процессе нормальной эксплуатации, так и в экстремальных ситуациях.

В сегодняшних экономических условиях промышленным предприятиям с трудом удается поддерживать надежность и безопасность эксплуатации опасных производственных объектов. В этих условиях для оказания помощи предприятиям необходимы разработки и внедрение методов обеспечения безопасной эксплуатации особо опасных объектов, выполнение экспертных оценок опасности производственных объектов, состояния оборудования, соответствия проектных решений современному уровню развития производства и требованиям нормативно-технической документации.

Разработка методологии создания экспертных систем, внедрение компьютерной системы, позволяющий автоматизировать процесс отбора и формализации знаний специалистов по максимально простой и удобной для них форме, автоматическое заполнение базы знаний до постановки системы на объект, связано с необходимостью сбора, хранения и анализа огромного количества исходной информации.

Развитие компьютерной техники и прогрессивных технологий в области обработки информации к настоящему времени позволяют решать такие проблемы на требуемом уровне.

Цель работы - Создание базы знаний экспертной системы для поддержки принятия решений и разработка метода оценки полноты планов ликвидации аварийных ситуаций (ПЛАС) для определения соответствия информации по отношению к аналогичным опасным производственным объектам (ОПО), на основе которой принимаются решения с учетом потребностей конкретного пользователя.



Для достижения поставленной цели необходимо решить следующие задачи:

- разработать программно-аппаратный комплекс и технологию для автоматизированного перевода информации в электронный вид;

— сформировать базу знаний на основе электронной библиотеки и разработать методику её структурирования для формирования информации об ОПО и построения экспертной системы;

— разработать информационную систему, включающую нормативные документы, регламентирующие принятие рещений на опасных объектах;

- провести анализ информации, содержащейся в планах ликвидации аварийных ситуаций и сравнение с информацией, представленной в базе знаний для возможности обеспечения безопасности других ОПО.

В диссертационной работе разработана:

— новая модель представления знаний, используемая для хранения, поиска и отображения информации в электронной библиотеке, основанная на многослойной структуре хранения информации (1 слой - растровый образ страницы, 2 слой - текст после распознавания без исправления ощибок распознавания, слой — набор ключевых слов и словосочетаний, отражающих семантику страницы);

- установлено, что качество поиска по тексту с ощибками распознавания ' составляет 90,0%. Статистическим анализом частотных словарей - общего, предметной области «промышленная безопасность» и каждой книги показано, что около 20 % наиболее часто встречающихся (ключевых) слов достаточно для определения принадлежности книги к предметной области. Доказано, что частота повторения слова, отнесённая к общему количеству ключевых слов (коэффициент соответствия), должна быть не менее 0,8, что является признаком принадлежности книги к конкретной предметной области;

— разработан алгоритм автоматического построения семантической сети по частотному фразеологическому словарю предметной области «Промышленная безопасность», который позволяет рассматривать электронную библиотеку как базу знаний для экспертной системы. Показано, что построение экспертной системы, основанной на базе знаний электронной библиотеки, позволит предусмотреть все известные аварийные ситуации на аналогичных опасных производственных объектах и предполагает автоматическую настройку одного из наиболее подходящих к конкретной аварийной ситуации планов, если нельзя воспользоваться готовым планом.

Теоретическая ценность работы заключается в разработке новой технологии представления знаний по промышленной безопасности, основанной на многослойной структуре хранения информации в электронной библиотеке, включающий комплекс мероприятий, направленных на повышения подготовленности всех категорий пользователей к действиям в чрезвычайных ситуациях.

Практическая ценность работы заключается в разработке профаммного комплекса информационной системы с приложением базы знаний в области промышленной безопасности, предназначенного для работы в компьютерных сетях с технологией Intranet, в научно-производственном центре УГПТУ «ЗНАПИЕ» при проведении научно-исследовательских работ, а также для повышения квалификации инженерно-технического персонала и специалистов по промышленной безопасности. Программный комплекс используется в учебном процессе и представлен в читальном зале библиотеки УГНТУ.

Автор выражает благодарность заведующему кафедры МАХП, профессору Кузееву И.Р. за оказанную помощь и ценные замечания при выполнении диссертационной работы, к.т.н. П.А.Рудневу за консультационную помощь при создании база знаний для области промышленной безопасности и разработки программы.

Глава 1 Литературный обзор Данная глава посвяш,ена обзору источников информации в области промышленной безопасности, в качестве которых рассматривается литература, компьютерные профаммы, электронные документы и сведения, предоставляемые www.

Обосновывается связь между безопасностью эксплуатации промышленных объектов, скоростью и полнотой предоставления информации как о текущем состоянии объекта, так и накопленного опыта. Рассматриваются экспертные системы как программные средства, позволяющие хранить и применять опыт специалистов-экспертов для предупреждения и ликвидации аварийных ситуаций и их последствий. Приводится классификация экспертных систем, их состав, порядок построения и функционирования, из которого следует, что основой любой экспертной системы является база знаний.

1.1 Роль информации в новышснни уровня ножарной и иромышленной безопасности онасных нронзводствснных объектов Неудовлетворительное состояние безопасности промышленных производств и высокая аварийность во многом связаны со старением технологий и оборудования, с обостряюищмся несоответствием организации управления промышленной безопасностью, темпами научно-технического прогресса. Такое положение обусловлено не столько технологической спецификой отдельных отраслей промышленности, сколько общими тенденциями и условиями их развития 1X1.

Поэтому с развитием нормативной базы и принятием Государственной Думой Российской Федерации Федерального закона №116 «О промышленной безопасности опасных производственных объектов» 20 июня 1997 года в нашей стране уделяется повышенное внимание вопросам промышленной безопасности.

Федеральный закон «О промышленной безопасности опасных производственных объектов» (№116-ФЗ) определяет правовые, экономические и социальные основы обеспечения безопасной эксплуатации опасных производственных объектов и направлен на предупреждение аварий на опасных производственных объектах и обеспечение готовности организаций, эксплуатирующих опасные производственные объекты, к локализации и ликвидации последствий указанных аварий 121.

Положения данного Федерального закона распространяются на все организации независимо от их организационно-правовых форм и форм собственности, осуществляющие деятельность в области промышленной безопасности опасных производственных объектов на территории Российской Федерации /3/, Обеспечение промышленной безопасности опасных объектов возведено на уровень государственной политики и направлена на защиту жизненно важных интересов личности и общества от аварий на опасных производственных объектах и последствий указанных аварий /4/.

Особая сложность при выявлении статуса безопасности объекта возникает в связи с интеграцией многочисленных факторов, один из которых сбор и использование размытой информации, которую, необходимо привести к некому «общему знаменателю». В связи с этим возникает проблема наработки объективной информации по безопасности 151.

Работа с информацией должна проводится быстро, обеспечивая системность изложения всех вопросов промышленной безопасности, рассмотрение каждого из них, прослеживания взаимовлияния различных аспектов проблемы. При современном развитии информационных технологий это можно обеспечить путем создания электронной библиотеки. По простой перевод в электронную библиотеку не даст нам возможность оперативно найти и использовать необходимую информацию. Возникает вопрос об организации информации в систему и разработке программного обеспечения, которое позволит легко и просто работать с такой системой 161.

Возрастание объема информации, требуемой для управления, и сложность соответствующих информационных процессов, как известно, составляет одну из важных особенностей современных условий развития общества. СоЩ временное общество представляет собой "сверхсложные динамические системы", их сохранение и развитие во взаимодействиях между собой и с окружающей природной средой немыслимо без надежного управления, а чем сложнее данная система, чем больше в ней уровней, факторов и связей между элементами, тем больше объем и многообразнее потоки информации, необходимые для управления ею.

Основными составляющими интенсификации информационных нроцессов являются: неуклонное возрастание скорости передачи сообщений; увеличение объема передаваемой информации; ускорение обработки информации; увеличение объема добываемой новой информации; наглядное отображение информации.

Вот почему так важен доступ к достаточному объему всесторонней и новейшей информации, который в свою очередь определяется информационной технологией 151.

В последнее время количество книг и других публикаций по безопасности особо опасных производственных процессов возросло; продолжает выходить много новых изданий. К сожалению, учебники технологических институтов, выпущенные в 60-х — 80-х годах, так же как и многие справочные издания, практически не переиздаются. Их, однако, можно найти в крупных библиотеках. Используя такие учебники, можно получить достаточно глубокое представление об особо опасных технологических процессах производств, многие из которых не менялись десятки лет. Такие книги как источник информации не только не теряют своей значимости, но и становятся все более полезным и эффективным инструментом работы /7, 8/.

Обладая множеством достоинств, "бумажные" источники, тем не менее, имеют и одно серьезное ограничение — малую возможность тиражирования и сравнительно высокую стоимость единицы печатной продукции. Поэтому ключевую роль в вопросах распространения печатной информации играют библиотеки. Найти необходимую литературу в библиотеке может оказаться нелегко.

Если вопросы безопасности и выделены в отдельный раздел систематического каталога, этот раздел, как правило, содержит лишь небольшое число весьма широких подразделов. Таким образом, приходится искать, например, "безопасность" какого-либо вида деятельности, или пользоваться алфавитным каталогом. Однако для того, чтобы найти необходимые книги в алфавитном каталоге, необходимо знать какую-то исходную информацию — название нескольких книг на интересующую тему или фамилии авторов 191.

Общественные организации готовят качественную литературу в тех областях, которых организации других типов уделяют меньше внимания — по экологическому образованию, экологическому туризму и т.п. К сожалению, практически все такие книги издаются небольшими тиражами, и часто не передаются авторами ни в центральные, ни в местные библиотеки. Таким образом, нередко уже через несколько месяцев после выхода из печати издания обшественных организаций становятся библиографической редкостью /10/.

Поэтому возникает необходимость перехода на более высокий уровень развития — создание электронных библиотек и поисковых систем. Электронные библиотеки предназначены для управления различными информационными и справочными массивами, в число которых входят и базы данных. Эти системы организовывают определенный интерфейс пользователя с функциями обработки информации самой системы /11/.

Набор возможностей таких систем обычно включает в себя коррекцию структуры используемого объекта (инкапсулирующего информацию), работа с его составляющими - дополнение, редактирование, удаление (в случае, когда роль такого объекта выполняет база данных, это - записи), простой просмотр, поиск элементов. Также необходимо обеспечить для такой системы и функции постоянного надежного хранения - в простейшем случае, это - запись базы из памяти в файл на диске и считывание оного с диска в память /12/.

Следствием принципа формирования ресурсов WWW являются как достоинства, так и недостатки этого механизма доступа к информации. С одной стороны, в Интернет информацию публикуют миллионы самых различных людей и организаций, и сложно представить себе область интересов, с которой никто из этих миллионов не был бы связан. Хотя часть этой информации может быть доступна за деньги, огромное количество ресурсов доступно бесплатно.

Иногда важным оказывается и то, что информацию из Интернет можно получать сразу же после ее публикации в Сети. С другой стороны, при попытке найти ответ на конкретный вопрос миллионы отдельных ресурсов, как бессодержательных, так и полезных, но не имеющих отношения к данному вопросу, образуют огромный "стог сена", в котором скрывается нужная "иголка" /13, 14,15/.

Современные информационные технологии позволили приступить к широкомасштабному переводу накопленной человечеством информации в электронную форму и созданию принципиально новых видов информационных ресурсов, к которым относятся электронные библиотеки. Организация доступа к источникам информации в электронной форме стала одной из важнейших задач информационного обслуживания науки и образования. Создание электронных библиотек представляет собой качественно иной уровень производства, хранения, организации и распространения самой разнообразной информации. Реализация технологических возможностей создания электронных библиотек предоставляет широкие возможности для управления большими объемами данных и их обработки /9/.

1.2 Электронные библиотеки как база даииых для экспертной системы С ростом объема знаний увеличивается и скорость накопления информации, которая без современных средств добычи, передачи, хранения и переработки, физически уплотняясь, превращается буквально в научный монолит, который приходится иногда почти буквально «грызть», чтобы выделить и усвоить тот небольшой объем, отличающийся новизной.

Несмотря на все многообразие ситуаций, приемов и методов, существуют общие закономерности, принципы, применимые при работе с информацией в большинстве случаев. Приступая к работе с информацией, разумно предложить общую схему информационной работы, которая охватывает ее существенные этапы, отражает их взаимосвязь (рисунок 1).

В хорошо организованной информационной работе цель определяет буквально все — от направлений поиска, источников информации и методов ее получения, до форм ее представления и способов распространения. Сама же цель информационной работы всегда состоит в приобретении и (или) распространении сведений, необходимых для осуществления конкретных действий, принятия решений.

В некоторых случаях при наличии острой проблемы в технологии переработки информации бывает неясно, каковы должны быть конкретные действия или пути ее решения. Цель работы в такой ситуации может выглядеть как анализ ситуации и определение возможных путей решения проблемы. Цель поможет определить основные параметры нужной информации: "широту" требуемой информации, степень детализации, глубину проработки вопросов.

Рисунок 2 б Конструирование знаний - передача знаний от эксперта в базу знаний через интеллектуальную редактирующую программу Рисунок 2 в Индукция — от данных к знаниям через программу индуктивного вывода Рисунок 2 г Понимание текста - передача знаний из литературы в базу знаний через программу, понимающую текст 1.3 Знания II способы их представления Центральной проблемой при создании интеллектуальных информационных технологий является адекватное отображение знаний специалиста в памяти компьютера. Это привело к развитию нового направления в информатике - инженерии знаний, на основе которого развивается идеология и методология экспертных систем. На практике накапливать и применять знания может пока только человек/16/.

Для решения этой задачи необходимо проанализировать знания и особенности их обработки человеком и компьютером, а также предложить их машинное представление. Цель этой задачи - обеспечить возможность использования информации в компьютере на более высоком уровне, чем это было до сих пор. В современной вычислительной технике формат информации, с которой оперирует компьютер, имеет достаточно низкий уровень, являясь лишь малой частью разнообразной информации. И даже такую информацию в отдельных случаях можно обрабатывать лишь на специализированных компьютерах. Это ' означает, что возможности современных компьютеров ограничены и они могут обрабатывать лишь небольшую часть информации, которая нам необходима.

Для того чтобы компьютеры могли обрабатывать информацию на более высоком уровне, необходимо поднять до соответствующего уровня форму представления информации/17, 18, 19/.

Решение проблем накопления в памяти информации, имеющей форму знаний, требует разработки еще одной техники, полностью отличной от техники использования знаний, но которая тесно связана с последней в том смысле, что они взаимно дополняют друг друга и образуют в совокупности технику обработки знаний. Это проблема приобретения знаний. Именно так можно назвать функцию извлечения информации из окружающей среды и их накопление ^ в памяти с целью использования.

Приобретение знаний реализуется с помощью двух функций: получения информации извне и ее систематизации. При этом в зависимости от способности системы обучения к логическим выводам возможны различные формы приобретения знаний, а также различные формы получаемой информации. Форма представления знаний для их использования определяется внутри системы, поэтому форма информации, которую она может принимать, зависит от того, какие способности имеет система для формализации информации до уровня знаний. Если обучающаяся система совсем лишена такой способности,.то человек должен зарат нее подготовить все, вплоть до формализации информации, т. е. чем выше способности машины к логическим выводам, тем меньше нагрузка на человека.

В настояш;ее время большинство разработчиков экспертных систем отмечают, что самым "узким" местом при построении промышленных систем остается процесс извлечения знаний /20 - 25/.

Инженер по знаниям (аналитик) является главной фигурой при извлечении знаний из источника знаний (эксперта, документации и т.д.). Результат его работы отражает структуру представлений и рассуждений специалистов.

Объективные трудности извлечения знаний обусловлены тем, что /26/ знания эксперта многослойны, часто из цепочки рассуждений со временем выг падают звенья, которые непросто восстановить; часть знаний и умений хранится в памяти в невербальной форме и связана сложной логико-ассоциативной сетью; большинству экспертов не свойственна аналитичность и способность к ясному изложению.

Исходя из этого видно, что извлечение знаний это непростой процесс. И человек-аналитик, на котором лежит вся тяжесть интервьюирования источника знаний, должен обладать специальными знаниями по системному анализу, формальной логике, когнитивному моделированию, а главное, методологии извлечения знаний.

1.4 Классификация методов практического извлечеиия зиаиий >^ Классификация методов извлечения знаний на рисунке 1 /27/ позволит инженерам по знаниям, в зависимости от конкретной задачи и ситуации, выбрать конкретный метод. Из предложенной схемы классификации видно, что основной принцип деления связан с источником знаний /27, 28/.

Разделение этих групп методов на верхнем уровне классификации не означает их антагонистичности, обычно инженер по знаниям комбинирует различные методы, например, сначала изучает литературу, затем беседует с экспертами, или наоборот.

Коммуникативные методы говлечения знаний охватывают методы и процедуры контактов инженера по знаниям с непосредствершым источником знаний - экспертом, а текстологические методы включают методы извлечения знаний из документов (методик, пособий, руководств) и специальной литературы (статей, монографий, учебников).

Пассивные методы подразумевают, что ведущая роль в процедуре извлечения знаний как бы передается эксперту, а инженер по знаниям только протоколирует рассуждения эксперта во время его реальной работы по принятию решений или записывает то, что эксперт считает нужным самостоятельно рассказать в форме лекции. В активных методах, напротив, инициатива полностью в руках инженера по знаниям, который активно контактирует с экспертом различными способами - в играх, диалогах, беседах за "круглым столом" и т.д.

Активные методы можно разделить на две группы в зависимости от числа экспертов, отдающих свои знания. Если их число больше одного, то целесообразно помимо серии индивидуальных контактов с каждым применять и методы групповых обсуждений предметной области. Такие групповые методы обычно активизируют мышление участников дискуссий и позволяют выявлять весьма нетривиальные аспекты их знаний. В свою очередь, индивидуальные методы на сегодняшний день остаются ведущими, поскольку столь деликатная процедура, как "отъем знаний", не терпит лишних свидетелей /29, 30/.

Игровые методы сейчас широко используются и социологии, экономике, менеджменте, педагогике для подготовки руководителей, учителей, врачей и других специалистов. Игра - это особая форма деятельности и творчества, где человек раскрепошается и чувствует себя намного свободнее, чем в обычной трудовой деятельности.

Группа текстологических методов объединяет методы извлечений знаний, основанные на изучении специальных текстов из учебников, монографий, статей, методик и других носителей профессиональных знаний.

В буквальном смысле текстологические методы не относятся к текстологии — науке, которая родилась в русле филологии с целью критического прочтения литературных текстов, изучения и интерпретации источников с узкоприкладной задачей - подготовки текста к изданию. Сейчас текстология расширила свои границы включением аспектов смежных наук — герменевтики (науки правильного толкования древних текстов — библии, античных рукописей и др.), семиотики, психолингвистики и другие /20/.

Текстологические методы извлечения знаний, безусловно, используя основные положения текстологии, отличаются принципиально от ее методологии, вопервых, характером и природой своих источников (профессиональная специальная литература, а не художественная), а во-вторых, жесткой прагматической направленностью извлечения конкретных профессиональных знаний /31 - 36/.

Задачу извлечения знаний из текстов можно сформулировать как задачу понимания и выделения смысла текста /21/.

Процедура разбивки текста на части («смысловые группы»), а затем сгущение, сжатие содержимого каждого смыслового куска в «смысловую веху»

является, видимо, основой для любого индивидуалыюго процесса понимания.

Такая компрессия (сжатие) текста в виде набора ключевых слов, передающих ф\ основное содержание текста, может служить удобной методологической основой для проведения текстологических процедур извлечения знаний.

В качестве ключевого слова может служить любая часть речи (существительное, прилагательное, глагол и т.д.) или их сочетание. Набор ключевых слов — это набор опорных точек, по которым развертывается текст при кодировании в память и осознается при декодировании, это семантическое ядро цельности.

Интересно, что одна из гипотез лингвостатистики о том, что наиболее употребляемые слова являются наиболее важными с точки зрения содержания текста, то есть отражают его тематическую структуру, частично подтвердилась.

Следует сказать несколько слов о том, почему выделяют три вида текстологических методов (рисунок 3): анализ специальной литературы; анализ учебников; анализ методик.

Перечисленные три метода существенно отличаются, во-первых, по степени концентрированности специальных знаний, и, во-вторых, по соотношению специальных и фоновых знаний. Наиболее простым методом является анализ учебников, в которых логика изложения обычно соответствует логике предмета и поэтому макроструктура (система знаний, связанная с профаммным обеспечением) такого текста будет, наверное, более значима, чем структура текста какой-нибудь статьи.

Среди методов извлечения знаний текстологические методы являются наименее разработанной, по ней практически нет никакой библиографии /22/.

В тех немногих случаях, когда применяются автоматизированные методики, речь, как правило, идет о методах лексико-семантического анализа, а также о моделях понимания текста.

Наибольшую известность имеют модели понимания на лингвистическом уровне. Системы, основанные на них, состоят в большинстве случаев из двух частей: первая — морфологический и синтаксический анализ; вторая семантический анализ, который использует результаты работы первой части, а также словарную или справочную информацию для построения формализованного образа текста.

Говоря о семантическом анализе текста, надо иметь в виду, что всякие отношения текста с его семантикой начинаются после того, как в нашем распоряжении оказывается некоторая модель действительности.

Таким образом, первая проблема, возникаюшая при попытках автоматического извлечения знаний из текста, - это выявление свойств элементов текста для соотнесения этих элементов с объектами модели /23/.

Вторая особенность существуюших систем анализа текста — это, как правило, необходимость использования словаря предметной области для выполнения морфологического анализа, выделения имен, словосочетаний и т.д. Однако требование предварительного создания словаря предметной области одновременно сильно осложняет задачу и уменьшает степень универсальности получаемои системы.

Понимание текста на семантическом уровне предполагает выявление не только лингвистических, но и логических отношений между языковыми объектами /24, 25/.

1.5 Создание базы знании и методы анализа текстовой информации Каждая интеллектуальная система, работаюшая с данными, включает в свой состав основные компоненты, базу данных, которая есть не что иное, как датологическое представление информационной модели предметной области, и систему управления базой данных (СУБД), с помощью которой и реализуется централизованное управление данными, хранимыми в базе, доступ к ним и поддержание их в состоянии, соответствующем состоянию предметной области /60/.

Процесс проектирование баз данных подразделяется на три этапа: логический, физический, инфологический, /59/.

Задачей логического этапа проектирования является преобразование знания данных, в форму, которая принята в выбранной конкретной системе управления базой данных (СУБД).

Задачей физического этапа проектирования является выбор рациональной структуры хранения данных и методов доступа к ним исходя из того арсенала методов и средств, который предоставляется разработчику СУБД. /61/.

Задачей инфологического этапа проектирования является.получение сеТ мантических (смысловых) моделей данных, отражающих информационное содержание конкретной предметной области. На этом этапе выполняется восприятие реальной действительности, абстрагирование, изучение и описание предметной области. Выполняется структуризация знаний предметной области, выделяются и классифицируются множества составляющих предметной области, стандартизируется терминология /58/.

Семантическая сеть — это множество понятий (слов и словосочетаний), связанных между собой. В семантическую сеть включаются наиболее часто встречающиеся слова текста, которые несут основную смысловую нафузку. Для каждого понятия формируется набор ассоциативных (смысловых) связей, т.е. список других понятий, в сочетании с которыми оно встречалось в предложениях текста. При этом считается, что чем чаще встречаются вместе два понятия в предложениях текста, тем выше вероятность того, что они связаны по смыслу /62/.

Семантический анализ заключается в определении информативности текстовой информации и выделении информационно-логической основы текста.

Проведение автоматизированного семантического анализа текста предполагает рещение задачи выявления и оценки смыслового содержания текста. Данная задача является трудно формализуемой вследствие необходимости создания совершенного аппарата экспертной оценки качества информации. Реализация семантического анализа текстовой информации предполагает обязательное использование экспертных систем искусственного интеллекта для выявления • >С смыслового содержания информации /63-65/.

Каждая предметная область наполнена большим количеством взаимосвязанных фактов и факторов, необходимых для принятия определенного решения. Этим занимаются эксперты. Но существует некая пирамидальная цепочка экспертов по определению и выявлению экспертов. Кто же является высшим экспертом в области отбора экспертов? Подвести конкретные (а тем более математические) доказательства под эту систему не просто, поэтому необходимо стремится автоматизировать процесс принятия решения, поручив такое дело терминологического словаря /68/. Па базе терминологического словаря, который легко представить в электронном виде, можно создать частотный словарь.

Проанализировать терминологический словарь и выделить в нем наиболее значимые термины можно используя закон Зипфа: произведение порядкового номера лексических единиц, расположенных в порядке убывания, и частот их встречаемости, является константой. Следовательно, термины, наиболее часто встречаемые в словаре, являются более значимы в данной области и более вмещают в себя суть рассматриваемой области. Таким образом, можно построить базовый частотный терминологический словарь. По закон Зипфа является 7 экспериментальным, существует определенное критическое число количества лексических единиц, после которого данная гипотеза не дает константу. Уточнить границы применения этого закона и проверит его истинность на практике, можно исследуя некоторую конкретную предметную область, построив на основе частотного словаря и методах приближенных вычислений экспериментальную гиперболу. Основываясь на опросе некоторого количества экспертов и существующих терминологических словарей, можно построить семантическую сеть предметной области в виде неориентированного графа /69, 70/.

Характерной особенностью систем обработки данных на ЭВМ, которые создаются в настоящее время, является рост их «интеллектуальных» возможностей. Система становится способной «понимать» задачу в том виде, в каком ее V может сформулировать конечный пользователь, причем общение с системой пользователь выполняет на естественном языке, используя в режиме диалога такие формы представления информации, как текстовая, графическая, а в будущем, как ожидается, и речевая форма представления информации.

Проблема повышения «интеллекта» систем обработки данных на ЭВМ связана прежде всего с необходимостью разработки формальных способов представления знаний и операций манипулирования ими с целью их последующей реализации в системах обработки /71, 72/.

1.6 Информационные технологии смыслового нонска информацин Рост массивов полнотекстовых документов, публикуемых в Интернет, требует новых средств организации доступа к информации, многие из которых следует отнести к разряду систем искусственного интеллекта. Основной проблемой, возникающей при работе в Интернет, является поиск документов по их содержанию. Ставшие традиционными средства контекстного поиска по вхождению слов в документ, представленные привычными поисковыми машинами, зачастую не обеспечивают адекватного выбора информации по запросу пользователя. Одна из причин заключается в сложности точной формулировки запроса - подбора ключевых слов, которые предстоит искать в телах документов. Это может быть связано с рядом факторов, как-то: недостаточным знанием пользователем терминологии предметной области, наличием в языке многозначных и синонимичных слов, и даже орфофафическими ошибками в написании искомых слов, которые могут встречаться как в текстах, так и в самом запросе. Другая фундаментальная причина заключается в том, что иногда пользователь не знает точно, какую именно информацию ему хотелось бы получить, имея лишь общее представление о границах своих интересов. Указанные проблемы стимулировали развитие средств, которые можно назвать тематическими навигаторами. Они дают возможность передвижения по связанным тематическим категориям (рубрикам), к каждой из которых может относиться большое число документов, близких по содержанию. Лучшие из таких навигаторов позволяют найти целый ряд связанных тем, к которым относятся интересуюшие документы (например, содержащие требуемые слова), а затем осуществить передвижение по темам /73/.

В последнее время появились много компьютерных программ, например профамма «Лингвоанализатор» htpp:www.rusf.ru/books/analysis/ Дмитрия Хмелева, которая претендует на определение авторства любого текста. Профамма определяет возможного писателя, опираясь на базу данных авторских текстов, уже внесенных в профамму. В результате анализа сообщается имя не одного, а нескольких авторов, выстроенных в порядке убывания вероятности. Определяя тексты «Лингвоанализатор» не пытается найти дословные совпадения их с теми, что имеются в его базе данных и не анализирует сюжет текста, идеи и содержание.

Есть и другая ветвь компьютерных исследований текстов. Она ведет свое начало с попыток автоматически проанализировать значительные объемы информации, порождаемые современными СМИ.

Такой подход реализован в программе ВААЛ www.vaal.ru. - программа коммерческая и поэтому многие заявления создателей ресурса нужно принимать с осторожностью. Проект ВААЛ претендует на достоверный контентанализ, то есть на автоматическое определение эмоциональной и политической окраски текста.

Наиболее продвинутыми среди современных информационно-поисковых систем являются библиотечные системы, которые обеспечивают поиск среди больщих массивов текстовой информации по различным категориям: авторскому (пофамильный поиск); с использованием УДК или тематический поиск (обычно занимает много времени и выделяет информационное поле слищком больщого объема); поиск по ключевым словам (не всегда выделяет релевантную информацию). Использование подобных систем для поиска текстовой информации на библиотечных WWW серверах может быть действительно эффективным лищь при условии реализации поисковых процедур на основе семантических представлений /74, 75/.

Реальные преимущества цифровых технологий проявляются при анализе массивов информации, пусть с серьезным количеством ошибок, поэтому необходимо отобрать разумное число документов для тщательного качественного исследования.

Предлагаемые информационные технологии смыслового поиска информации представят значительный интерес для различных предметных областей. /76/.

Программный комплекс корпорации "Галактика" предназначен для аналитической обработки динамично пополняющихся больших массивов (до десятков миллионов) текстовых документов, находящихся в подключаемых неструктурированных и структурированных электронных базах данных.

В программном комплексе Galaktika-Zoom интегрированы три информационные технологии: классических поисковых систем, средств "добычи текстовых данных" (text mining), как правило, неструктурированных, систем аналитической обработки динамично изменяющихся больших массивов (десятков миллионов документов) текстовой информации.

Комплекс Galaktika-Zoom ориентирован на решение следующих задач конечных пользователей: "экспресс-анализ" - подготовка "быстрого ответа" на оперативное задание на анализ массивов информации; информационная разведка - добыча уникальной разрозненной прямой и косвенной информации из структурированных и неструктурированных массивов в целях исследования и анализа деталей и отдельных аспектов проблемы; формирование и ведение тематических досье с возможностью вскрытия тенденций; анализ объектов с различных точек зрения, анализ негатива - выявление источников, целей, заказчиков, причин и поводов, и т.д.

Представленная технология обработки текстов ШШЦ "Микросистемы" основана на нейросетевом нелингвистическом подходе. С ее помощью осуществляется автоматическая обработка текста любого языка безотносительно к предметной области. С ее помощью осуществляется автоматическое формирование структурного (смыслового) портрета этого текста в виде ассоциативной (семантической) сети, формирование гипертекстовой структуры, для которой эта сеть является удобным средством навигации, и реферирование указанного текста /77/.

Основные этапы обработки информации при формировании семантической сети: предобработка; формирование статистического портрета текста; перенормировка /78/.

Для статистического анализа используется алгоритм нейронной сети на основе нейроноподобных элементов с временной суммацией входных сигналов. При этом вычисляется частота появления слов в тексте, а также частота попарной встречаемости слов в предложениях текста. Результатом обработки является ассоциативная сеть слов с их частотами, а также связей этих слов с их частоj^ тами. • • Предобработка текста заключается в удалении из него слов, не несущих смысла в данной предметной области: общих слов, стоп-слов, рабочих слов.

Осуществляется также морфологический анализ. Эти функции зависят от языка текста и выполняются, частично, с использованием предварительно подготовленных словарей.

Для выполнения остальных этапов обработки текста используется сформированная таким образом семантическая сеть.

Кластеризация множества текстов на рубрики производится разбиением общей семантической сети этих текстов на подсети с помощью удаления слабых связей. Полученные подсети характеризуют отдельные темы, на которые разбивается множество текстов. Динамическое представление тематической структуры потока текстов оказывается очень наглядным с точки зрения его анализа.

Классификация текстов производится с помощью сравнения семантической сети входного текста с семантическими сетями рубрик. Вычисленная в результате такого сравнения релевантность текста к соответствующим рубрикам ранжируется. Текст считается принадлежащим текущей рубрике, если его релевантность превышает заданный порог. Таким же образом осуществляется и фильтрация текстов /79/.

Реферирование текста осуществляется выбором в этом тексте тех предложений, вес которых, вычисленный на основе весов входящих в него понятий, превышает заданный порог.

В результате смыслового поиска из смысловой сети извлекается подсеть, включающая понятия, ассоциативно связанные с запросом. Множество фраз текста, связанное с этой подсетью, составляет ответ на запрос.

На основе представленной технологии реализованы следующие продукты. Персональная система для анализа текстовой информации TextAnalist.

Корпоративная система для анализа текстов TextAnalist for Lotus Notes. Система для представления электронных книг TextAnalist Lib. Система для фильтрации текстов, полученных из Internet - TextNavigator.

Традиционный для поисковых систем поиск и фильтрация по терминам и ключевым словам обладает рядом недостатков, с которыми теперь хорошо знакомы не только профессионалы, но и рядовые пользователи Интернет. Он посвоему хорош, когда точно знаешь что искать. Например, забытый документ с характерным набором терминов, или информацию о ком-то по его фамилии.

Однако обычно термины неоднозначны, так что в условиях переизбытка информации пользователи оказываются буквально завалены нерелевантными результатами поиска. И напротив, теряются релевантные документы, выраженные словами, несколько отличающимися от использованных в запросе. Кроме того, люди довольно часто сталкиваются с проблемой поиска в новых для них областях. В этой ситуации ключевые термины людям обычно неизвестны, их / надо как минимум ненавязчиво подсказывать, а как максимум - показывать всю структуру информации в данной области. Все это возможно с помощью семантических технологий, работающих не непосредственно с терминами, а с их смысловым содержанием /80/.

Действительно, основная проблема при работе с текстами на естественных языках - то, что индексация, т.е. доступ к документам, организуется по терминам, тогда как оцениваются результаты поиска - по их значению, которое зависит от контекста. Семантический анализ текстов предполагает работу непосредственно со смыслами, возникающими из целостного анализа контекстов.

Семантическая индексация - распознавание тематики текстов - сопровождается существенным сжатием информации. Сжатие информации при перехочу ^ де от лексического к семантическому описанию документов приводит к ее обобщению, что эквивалентно получению некоторого знания.

Семантические фильтры оказываются гораздо "тоньше" лексических. В последнем случае для тонкой настройки на тему необходимо подобрать достаРОССИЙСКАЯ

ГОСУДАРСТВЕННАЯ

БИБЛИОТЕКА

точно обширный набор терминов, который присущ данной тематике и наилучшим образом отличает ее от остальных. Этот набор должен использовать заблаговременно составленный тезаурус языка, концентрирующий знания экспертов-лингвистов о словоформах и синонимах, знания экспертов в данной предметной;области, ассоциирующие употребляемые в-ней термины. Семантическое обучение автоматизирует получение этих знаний, позволяя обходиться без дорогостоящих экспертов.

Обучение семантике любого языка в любой предметной области занимает даже на коллекциях из миллионов документов всего лишь несколько часов времени обычного персонального компьютера, т.е. обходится практически даром.

Технологии НейрОК, базирующиеся на обучении семантике языка, включают автоматическое упорядочивание текстовых коллекций, рубрикацию документов, персонализацию доставки информации по обучающимся профилям интересов.

Основной продукт компании Semantic Explorer 2.2 предназначен для автоматической кластеризации документов, рубрикации новых поступлений, навигации и поиска информации в больших текстовых массивах, включая WWW.

На стадии обучения сервер системы Semantic Explorer 2.2 производит настройку своего семантического блока на "диалект" данного хранилища, выявляя базовые семантические категории. Автоматически формируется аннотированное дерево тематических категорий, по которым раскладываются все имеющиеся в хранилище документы. На стадии эксплуатации вновь поступающие документы автоматически раскладываются по этим тематическим директориям /79/.

Однако использование подобных систем для поиска текстовой информации на библиотечных WWW серверах может быть действительно эффективным лишь при условии реализации поисковых процедур на основе семантических представлений. Действительно, типичной является ситуация, когда поиск ведется среди огромных массивов информации, представленной в виде неструктурированных естественно языковых текстов (статей, обзоров, рефератов, научных сборников и т.п.). При этом критичным является как время поиска, так и релевантность найденной информации. Следует отметить, что в существующих поисковых системах оба эти показателя весьма далеки от совершенства.

Причем, если время поиска может зависеть от качества связи и других технических характеристик, которые могут быть улучшены, то соответствие найденной информации запросу пользователя является на сегодняшний день большой проблемой. Обычной является ситуация, когда в ответ на запрос пользователь в результате многих итераций и существенных временных затрат получает-таки солидные объемы текстовой информации, которая более или менее соответствует заданной теме, но, как правило, лишь косвенно. Тем не менее эта информация сохраняется пользователем, которому жаль потраченного времени, а процесс поиска повторяется. В результате через некоторое время пользователь "накапливает" свою персональную библиотеку текстовой информации, которая вроде бы имеет какое-то отношение к исследуемой теме (что вообще говоря, не обязательно). Информацию эту весьма проблематично систематизировать и структурировать, в результате большая ее часть так и остается невостребованной.

Решением этой неприятной проблемы может стать формирование так называемого "смыслового портрета" или "смыслового образа" для каждого неструктурированного текста. Под смысловым образом понимается логическая структура информационной базы (текста или множества текстов), которая для удобства работы может быть представлена в графическом виде, демонстрируя смысловые связи между фрагментами текста. При этом можно потребовать, чтобы смысловые связи устанавливались между двумя и более смысловыми образами в информационной базе. Такой подход в настояшее время представляется наиболее перспективным для аналитической работы с большими объемами неструктурированной информации.

Формирование смыслового образа неструктурированного текста является результатом процессов распознавания и формализации знaF^ий, содержащихся в соответствующем естественно языковом тексте. Методы выявления знаний из текста на сегодняшний день наименее разработаны. Классическими подходами к решению данной проблемы являются методы лексико-семантического анализа, а также модели понимания текста на лингвистическом и семантическом уровнях. Системы, основанные на них, как правило, включают блоки морфологического, синтаксического анализа а также блок семантического анализа, который использует результаты работы первых двух, а. также словарную или справочную информацию для построения формализованного образа текста.

Понимание текста на семантическом уровне предполагает выявление не только лингвистических, но и логических отношений между языковыми объектами. В качестве подхода к построению семантических моделей в данной работе используется объектно-сетевой подход, с помощью которого можно описывать отношения различных типов на множестве вершин сети и устанавливать ассоциативные связи между знаниями. При построении лингвистических моделей, по мнению авторов, целесообразно применение объектно-ориентированного подхода, получившего широкое распространение в последние годы, и семантических сетей как основы представления данных со сложной структурой взаимосвязей. Объединение этих подходов в одной модели позволяет построить соответствующую интерпретацию естественно-языковой информации /80/.

Использование объектно-ориентированного подхода, в первую очередь, обусловлено объектной организацией мира. Каждый предмет, каждая сущность в этом мире представляют собой объект. Каждый объект обладает рядом свойств и характеристик — признаков данного объекта. Деление объектов на классы или множества по совокупности признаков можно представить в виде иерархической структуры, но для того, чтобы представить все многообразие отношений между всеми объектами, иерархической структуры уже не достаточно. Здесь на помощь приходят семантические сети как основа представления взаимоотношений и взаимозависимостей между объектами любой системы.

Таким образом, объединение двух подходов дает возможность построить информационную модель представления знаний какой-либо области. Построение и применение универсальной системы семантической обработки любых текстов в конечном итоге будет сводиться к выделению предметной области (определению тематики) конкретного текста и затем анализе этого текста на основе модели его предметной области /81/.

Задача семантической обработки естественно языковых текстов складывается как минимум из двух основных подзадач: выделение из текста объектов вместе с их признаками; определение отношений между объектами и построег ние сети взаимоотношений.

Из вышесказанного следует, что в связи с возрастаюшими объемами электронной (машиночитаемой) документации, накапливаемой в информационных хранилищах (Электронных библиотек), и растушей потребностью в оперативном получении информации в различных областях деятельности, становится все более актуальным создание средств приобретения знаний на основе автоматической обработки текстовых документов, практически не требуюших участия специалиста на этапе поиска необходимой информации и ее смысловой ' классификации.

Выделяется целый класс задач, возникающие при обработке естественноязыковых текстов: подготовка объектного словаря предметной области, в котором наряду с каждым объектом представлены его свойства (признаки), а также отнощения с другими объектами (т.е. объектный словарь уже как бы представляет собой модель предметной области); последовательный анализ текста на всех уровнях (морфологический, синтаксический, семантический) с целью выделения в тексте объектов, их признаков.

Традиционные методы информационного поиска по ключевым словам часто не приводят к отбору необходимых текстов и отсеву ненужных. Причина этого кроется не только в сложности для человека формирования в виде небольшого по > объему списка слов адекватного его желаниям поискового образа. Недостаточно эффективно само использование в качестве критерия отбора информации просто наличия в ней определенных слов, включенных в поисковый образ.

Вследствие этого, опыт экспертов, сконцентрированный в бумажных библиотеках, не может быть переведен в электронный вид для дальнейшей переработки в базу данных для экспертных систем и наполнения электронных учебников, ввиду отсутствия эффективной и высокопроизводительной системы перевода информации в электронный вид.

Отсутствие достаточного количества материала-для составления электронных словарей по предметным областям не позволяет получать достоверные результаты статистического и семантического анализа, необходимых для составления текстовых баз знаний для экспертных систем. Разработка предлагаемой темы в большой степени решит острейшую проблему информационного обеспечения практики, науки и образования - поиск данных, необходимых специалисту для эффективной работы с конкретной задачей. Разработка технологии подготовки и переработки информации и смыслового поиска информации представляет значительный интерес в предметной области «промышленная безопасность».

Глава 2 Подготовка материала, разработка технической системы, технологии и методики иеревода бумажных кииг в электронный вид Для составления текстовой базы, достаточного для исследований объема, проведена оценка возможного количества научно - технической литературы технического вуза.

2.1 Оценка количества информации и анализ наличия книг в бумажиой библиотеке В результате исследований по методическому направлению, анализ рабочих программ вуза по темам основных специальностей показал количество книг, обеспечивающих обучение по общеобразовательным, общеинженерным и специальным дисциплинам - около 600. Дополнительная литература по тем же специальностям составляет около 200 книг. Таким образом, примерное количество литературы для технического вуза составляет около тысячи. Следует учесть, что для учебных заведений различного профиля, институтов и университетов, эта цифра может изменяться, к тому же сюда не вошли лекции, методические и учебные пособия.

Следующий вопрос - определение наличия книг в фондах библиотеки и автоматизация поиска и заказа, решен путем составления электронного каталога. Основная проблема возникла при переводе карточек в электронный вид, так как исторически сложившиеся картотеки содержат карточки разного формата, качества, толш;ины; текст в большинстве случаев выполнен рукописно, на разных фонах (в основном коричневого и синего оттенков); формат карточек не воспринимается сканерами и т.п. Это привело к тому, что значительная часть работы выполнена вручную. При составлении каталога использовалась программа Excel, в ней же по стандартному образцу написана программа для автоматического составления бланков заказов. При дальнейшей работе по заказу книг в абонементе научной литературы выяснилось, что примерно 40% книг, это касается, в основном научного фонда библиотеки, используемого в учебном процессе, нет в наличии: находятся на руках, частью физически изношены (корешок не позволяет сканирование, отсутствуют страницы), частью утеряны или списаны, а соответствующие карточки не изъяты (см. приложение 1). Поэтому при количестве карточек в учебной и научной библиотеке - около 60.000, после сортировки оказались выбранными около 36.000. Соответственно часть книг, выбранных первоначально по рабочим профаммам, заменена более ранними изданиями или аналогичными. В результате, для составления библиотеки в тысячу книг, заказано около 2.000 изданий, из них в библиотеку вошла только половина.

Как показали в дальнейшем результаты исследований, эта часть работы, при комплексном подходе к переводу литературы в электронный вид, может быть вообще исключена, так как каталог электронной библиотеки, при необходимости, может быть составлен автоматически.

Следующим вопросом в плане исследований было определение возможности перевода выбранной литературы в электронный вид и примерная оценка трудозатрат и набора необходимой техники.

2.2 Разработка технической системы В процессе перевода использовалась система, показанная на рисунке 4.

Использовались компьютеры с обычной, для учебных заведений конфигурацией, собранные из комплектующих различных фирм.

Планшетный Рисунок 4 Структура технической системы на первом этапе В состав системы вошли: сканер планшетный HP ScanJet II ex; компьютер Pentium 166 ОЗУ 16 Мб; стриммер Jumbo 125/250; HDD 2 Gb.

В процессе работ потребовались более высокопроизводительная компьютерная техника, с возможностью перекачки информации и средства хранения.

Ноэтому первоначальная система была модифицирована с объединением в локальную сеть и приобрела следуюш:ий состав: сканер планшетный HP ScanJet II ex; сканер сетевой документный HP ScanJet 5si; компьютер Pentium II 233 ОЗУ 128 Мб; компьютер Pentium Pro 2x200 ОЗУ 96 Мб; CD-RW HP 7200i; сетевое оборудование с пропускной способностью 10 Mb/s, coaxial; HDD 2+12 Gb.

Сетевой сканер позволяет сканировать изображения не только вручную на планшете, но и в режиме автоподачи - для материала в виде отдельных листов.

Ноэтому при возможности расшивки книги на отдельные листы использовалась функция автоматического сканирования. Нри скорости сканирования на обычном планшетном сканере 15 секунд - 2 страницы (разворот), сетевой сканер в планшетном режиме позволяет сканировать со скоростью 7 секунд - 2 страницы, а в режиме автоподачи 3,5 секунд - 1 страницу.

В среднем, книга формата А5 включает 300 страниц, таким образом сканирование на планшетном сканере занимает от часа до 40 мин., на планшете сетевого сканера - до 20-30 мин., в автоматическом режиме 17,5 мин. Чистое время на сканирование может составлять от 100 до 30 часов рабочего времени на 100 книг.

На данной системе было отсканировано и обработано около 100 книг.

При размере файла 50 KB в формате tiff на одну страницу, 100 книг заняли около 1,5 GB на дисковом пространстве.

На этом этапе встал вопрос о способе хранения и методе включения книг в электронную библиотеку, для дальнейшего анализа текста и работы с литературой в поисковых системах.

Были опробованы несколько вариантов хранения книг: формат MS Word, формат GIF вместе с текстом, PDF, HTML. В зависимости от выбора формата хранения книги в электронном виде выбирался и дальнейший путь преобразования. Как правило, отсканированный текст обрабатывался программой оптического распознавания символов, а затем проводилась проверка ошибок в тексте после распознавания. Рисунки либо редактировались (подчищались) либо перерисовывались заново. Общий итог работы можно подвести следующий:

скорость перевода книг в электронный вид невысока и основным лимитирующим фактором является проверка ощибок и перерисовка. Работы по переводу в электронный вид не требовательны к ресурсам сканера и компьютера.

Несколько книг были переведены в полностью растровый вид (исключая фотоматериалы). Редакторская правка, векторизация графики и дальнейшее форматирование занимает много времени и требует больщих затрат труда - обработка одной книги может занимать несколько месяцев.

В результате книга полностью в электронном виде (формат doc, векторизованная фафика) занимает от 2,5 до 6 MB. Так как, практически невозможно таким образом получить достаточное количество материала для исследований и такой способ не дает преимуществ, было принято решение отказаться от него и разработать новый способ, при котором книга хранится в формате djvu (22 КВ/стр.) и формате txt (2 КВ/стр.) - без редакторской правки ошибок распознавания.

Опробованная технология сканирования и распознавания текста, без вычитки дает на данном этапе наилучший результат по скорости с приемлемым качеством, занимая при этом наименьший объем в элекфонном виде.

На втором этапе исследований применялась техническая система, показанная на рисунке 5.

Планшетный ска Рисунок 5. Структура технической системы на втором этапе Так как при количестве книг до 1.000, лимитируюш;им фактором становится не сканирование, а обработка книг (раснознавание и конвертирование в сжатый формат), первоначальная схема была дополнена техникой учебного компьютерного класса, показанного на фото, приведённом на рисунке 6. Компьютерный класс использовался для обработки информации в свободное от учебных занятий время. В некоторых случаях техника использовалась в многозадачном режиме, во время 5Д1ебных занятий, если ресурсы компьютеров позволяли обработку информации без создания помех учебным программам. Для обработки больших объёмов, в течение нескольких суток, использовались серверы, не участвующие в учебном процессе.

В состав системы вошли: 2 сканера планшетных HP ScanJet II ex; сканер сетевой HP ScanJet 5si; компьютер Pentium Pro 2x200 ОЗУ 96 Мб; 14 компьютеров Pentium II 233-800 ОЗУ 128 Мб; компьютер Pentium III 600 ОЗУ 256 Мб;

CD-RW HP 7200i; CD-RW ТЕАС 54W; сетевое оборудование с пропускной способностью 100 Mb/s, UTP; HDD 2+12+80 Gb.

Две локальных сети систем, расположенных в различных корпусах учебного заведения были соединены через локальную сеть университета.

Обработка изображений для распознавания текста занимает около 1 часа и столько же времени занимает конвертирование одной книги в формат Djvu.

Таким образом, для обработки 1 тыс. книг на 20 компьютерах потребовалось около 150 часов рабочего времени.

На третьем этапе исследований применялась техническая система, показанная на рисунке 6.

Сканеры Рисунок 6. Структура технической системы на третьем этапе В состав системы вошли: 2 сканера Fujitsu 4120; сканер сетевой PIP Digital Sender 9100С; Сканер сетевой HP ScanJet 5si (фото приведено на рисунке 8);

компьютер Pentium 4 НТ 2600 ОЗУ 512 Мб; компьютер Pentium III 1000 ОЗУ 256 Мб; 14 компьютеров Duron 900 ОЗУ 256 Мб; CD-RW ТЕАС 512Е; CD-RW ТЕАС 54W; DVD-RW Pioneer 105; Сетевое оборудование с пропускной способностью 100 Mb/s, иТР; HDD 2+12+80+300+800 Gb.

Целью структуры системы было уравнять производительность по возможностям сканирования и обработки отсканированного материала. В последнем случае, при производительности по сканированию на 2-х сетевых сканерах в автоматическом режиме со скоростью 3,5 секунд - 1 страница и 2-х автоматических сканерах 3,0 секунд - 1 страница, около 4.450 страниц за час (15 книг) производительность но обработке (распознавание и конвертирование) составила 14 1 Н Г (4.200 стр.) в час, т.е. практически уравнялась.

Общая максимальная производительность системы, таким образом, составила около 1.400 книг в месяц, при 20 днях по 5 часов рабочего времени. На фото, приведённом на рисунке 7, показано 750 книг, переведённых в электронный вид в процессе отработки технологии за 2 недели.

Рисунок 7. Книги, переведённые в электронный вид при отработке технологии Приведенная оценка производительности произведена для случая, когда весь материал сканируется автоматически, т.е. книги расшиваются.

Преимушества сканирования в автоматическом режиме в расшитом виде очевидны: высокая скорость, не требуется постоянного участия человека, сравнительно небольшое количество онераций и простота технологического нроцесса.

Основным недостатком можно назвать то, что книгу необходимо разрезать. Несмотря на «кошунственность» уничтожения книг, нреимуш;ества компенсируют материальную утрату: книга обретает другую форму сушествования, неподвластную времени; пространственно книга не занимает практически никакого места;

книга может быть мгновегшо доступной неограниченному числу абонентов. Автоматический перевод требует в два раза меньше времени и обработка изображений ограничивается конвертированием исходных файлов для сжатия и переименованием файлов.

В то же время не все книги могут быть разрезаны или расшиты - значительное количество содержатся в единственном экземпляре или уникальны.

Ручное сканирование более трудоемко и может достигать до 35-40 операций.

Сюда входят: многократная передача по сети, запись нескольких резервных копий на различных стадиях, проверка на различных этапах, разделение разворота на страницы, поворот, очистка и т.п.

Кроме того, в процессе обработки размеры файлов увеличиваются в объеме до 100 раз, вследствие чего производительность системы снижается не только в плане сканирования или обработки, но и вследствие ограничения по пропускной способности сетевого оборудования - возникающие задержки при перекачке информации с одного компьютера на другой могут составлять до нескольких часов. Это требует разработки технологии процесса переработки информации и оптимизации всего технологического процесса в целом.

2.3 Разработка технологии процесса перевода информации с бумажных носителей в электронный вид Весь технологический процесс условно можно разбить на несколько этапов: подготовка материала; сканирование; обработка изображений и информации; индексирование текста и запись готовой информации.

Подготовка материала заключается в подборе книг по предметной области «промышленная безопасность» и проверки на количество страниц. Так как в дальнейшем большинство операций автоматические, отсутствие страниц - что нередко встречается в подержанных книгах - может привести к нарушению всего технологического процесса в целом, вплоть до непригодности конечного продукта для дальнейшего использования и анализа. Кроме отсутствия страниц количество страниц может быть большим из-за типографского брака, наличия цветных вклеек или нумерации не с первой страницы, что встречается в зарубежных изданиях. Это может привести к несоответствию номеров страниц и порядковым наименованиям файлов, что также делает невозможным дальнейшую работу поисковой системы.

Собственно сканирование - простая, но наиболее трудоемкая операция, которая, в случае ручного сканирования требует определенных навыков, так как перекос, неправильная ориентация или перевернутый разворот при дальнейшей пакетной обработке изображения для поворота, разделения страниц и очистки, может привести к обрезанию части текста, зачернению середины разворота при неплотном прижатии книги и потере части информации. Кроме того, ручное сканирование значительно увеличивает количество операций на стадии обработки информации.

Обработка информации - менее трудоемкая стадия с точки зрения использования труда человека, заключается главным образом в распознавании и конвертировании. Здесь ответственный момент - правильные установки программ, так как в автоматизированном режиме обработки большого объема результатом может быть потеря большого количества машинного времени. Несмотря на значительную автоматизацию этого этапа, в технологии предусматривается визуальная проверка результата: как в программе распознавания, так и в программе конвертирования, нередко случаются сбои - неправильно распознанный текст из-за особенностей шрифта или иностранного языка, или трудность конвертирования из-за сложного рисунка, фотоизображения или графической схемы. Отдельные страницы запускаются на переработку вручную со специальными настройками, а затем возвраидаются в состав книги. Индексирование предусматривает переименование файлов, что не является проблемой при небольшом количестве файлов. Для того же, чтобы файлы нескольких форматов соответствовали друг другу и имели название, которое определяет их положение, как в книге, так и в библиотеке в целом, в переименовании нуждаются несколько сотен тысяч файлов, поэтому этот этап также несет большую ответственность. Тестовые файлы и их содержание также индексируются для поисковой системы и инициализации библиотеки для нормальной работы.

Запись предусматривается в нескольких случаях на каждом этапе для предотвраш;ения потери информации и на конечном этапе различными способами — магнитным и оптическим, что необходимо для защиты информации от случайной потери.

В целом упрошенная принципиальная блок-схема технологического процесса показана на рис. 8.

Подготовка материала соответствие страниц Расшивка Рисунок 8. Блок-схема технологического процесса перевода информации 2.4 Разработка методики перевода ипфорлшцни с бумажных посителей в электропный вид Каждый из этапов технологического процесса состоит из элементарных операций.

Проверка заключается в визуальном осмотре и, при необходимости, подсчете количества страниц. В случае, если в начале книги имеются не пронумерованное содержание (оглавление) или в середине — вклейки, они помещаются в конец книги, или при ручном сканировании в дальнейшем - пропускаются и сканируются в последнюю очередь.

Сканирование осуществляется в соответствии с инструкцией сканера. Со сканера файлы поступают в программу PaperPort пакетами в 50 или 100 страниц, которые соединяются, после чего проверяется соответствие количества файлов и номер последней страницы.

При автоматическом сканировании несоответствие количества файлов и количества страниц указывает на то, что две или более страниц были захвачены устройством автоподачи вместе. Недостающие страницы сканируются и добавляются в соответствующем порядке. Программа позволяет «перелистывать»

страницы и после визуального осмотра отсканированные неправильно страницы сканируются повторно и файлы заменяются. Из программы PaperPort готовые файлы экспортируются в формате tif в отдельную папку с названием, соответствующим фамилии автора и названию книги «Автор И.О. Название книги», которой в дальнейшем присваивается номер, в соответствии с которым автор и название заносятся в каталог.

Все папки содержатся в отдельном каталоге с цифровым названием «Redy»

и по достижении количества в 50-100 книг файлы переименовывается специальной программой таким образом, чтобы в восьмизначном названии файла первые цифры были нули, а последние указывали на номер страницы. В дальнейшем хранение информации осуществляется по принципу «одна страница — один файл». Каждая страница имеет уникальное название файла, например 02350645.tif- означает, 645 страница из книги с порядковым номером 235.

Записывается резервная копия «Сору» и после перекачки на файл сервер и проверки резервная копия удаляется.

При ручном сканировании разворота количество файлов должно быть в два раза меньше. Несоответствие количества файлов и количества страниц указывает на то, что в книге отсутствовали страницы. При недостатке одного листа разворот копируется с заменой четной страницы и нечетной страницы, пустой, с надписью «по page in original» для дальнейшего поиска и возможной замены.

Эта же операция производится и при автоматическом сканировании.

Развороты, отсканированные вручную помещаются в папку и каталог аналогично описанному выше. После записи резервной копии файлы подвергаются обработке. Резервная копия делается на случай, если при изменении файлов будут обнаружены ошибки - для возможности возврата к первоначально отсканированному изображению.

Обработка изображений производится в последовательности, показанной на рисунке 9.

11ереверзевА.Н !1роиэвоаствопарвч»«ое * Прельмап Я И 3&м|«лме/%1мдй физия^а. Кн. Перельман Я И За»««лятелы»я физика К н 254 стр изГ[МгорьевВ.А. Краткий справочник 3. Во временной папке буает создана поодиректория aJlext, соаержашая все тексты 4. Во временной папке б^щ^т создана псдоиректория aBwoid. содержащая все слова по каждой книге в отдельном файле параметры Файлсе ео словами определяется на странице 'Выделить слова": кол-во букв в слове, алфавит, кол-во слов, маска файлов 5. Буа^тсозааны поддиректории с файлами соаержашимиоьъеаененньй словари (ач1_1,4*^2 итл.): К? JIODOOOO 6. Созовть сонный елоеарь во времетой палке:

содержащегося в больщом количестве различных источников, можно задать все параметры в описанных ранее закладках, после чего задать ограничение по предельному количеству слов в словаре и дать команду на пакетную обработку.

При этом необходимо заранее удостовериться в правильности заданных параметров, так как пакетная обработка может длиться довольно продолжительное время - до трёх и более суток.

Все дальнейшие результаты исследований получены с применением описанной программы и обработки результатов в электронной таблице Exell.

3.2 Общий анализ текстового массива Проведен анализ текстов 4.270 книг (1,3 млн. стр.), входящих в состав электронной библиотеки «Нефть и газ» общим объемом около 192 млн. слов.

Подсчитано, что из 2,3 млн. уникальных «сочетаний букв» - бессмысленного набора букв, частей слов, слов с ошибками и словоформ не нуждается в проверке 96 тыс. слов (слова, встречающиеся более 100 раз). Часть общего словаря.

С повторениями более 10 раз, включает 344 тыс. слов, из них около 3% ошибок, большая часть из которых концентрируется в словах состояших менее чем из 5 букв. Зависимость количества анализируемого текста и количества слов с учетом повторяемости (рисунок 24) позволяет предположить, что для составления полного словаря необходимое прогнозируемое количество электронных книг - около 10 тыс.; объем словаря будет составлять 450 тыс. слов и словоформ.

)бъё1S1 слова1ря, тыс. слов слов пропорциональна количеству анализируемого материала, при достаточно большом объеме исходного текста возможно полностью автоматическое составление словаря без «ручной проверки».

Для книг различного типографского качества процент ошибок распознавания находится в пределах от 0,2% в лучшем случае, до 20% - в худшем. Выбранные для анализа книги имеют различный размер текста, формат, объем, количество графики и т.п., поэтому для учета доли каждой книги в составе электронной библиотеки определено среднее удельное значение для текста без ошибок, которое составляет 93,9%, что соответствует качеству поиска при применении оболочки электронной библиотеки /83/.

Установлена зависимость количества ошибок от частоты повторяемости слов в исходном материале, не подвергавшемся проверке. Ошибки распознавания при повторяемости слов 10 раз составляют 77 на 2.637 слов в словаре или на 20.637 слов по тексту. При повторяемости слов более 40 раз этот показатель меньше 1 ошибки на 10 тыс. слов, что является стандартом для редакторской правки. При повторяемости слов более 97 раз ошибки практически отсутствуют. Эта часть исходного словаря включает 8.811 слов.

Проведен лингвистический анализ обш;его словаря, заключающийся в разделении слов, имеющих определённое значение для рассматриваемой предметной области и слов-связок «если», «можно», «быть» и т.д. Результаты анализа приведены в таблице 3. Выделение из первой части наиболее часто встречающихся слов (левая часть таблицы), слов имеющих определенное значение (правая часть таблицы) показывает, что частота упоминания слов связана с тематикой электронной библиотеки. При сужении анализируемого словаря до конкретной предметной области может быть получена более точная формулировка.

Таблица 3 Результаты лингвистического анализа общего словаря Только Продолжение таблицы Газа Действительно, при аналогичном анализе словаря, составленного по теме «Охрана труда и промышленная безопасность» при помощи программы Wordstat /84/, объединяющей похожие (однокоренные) слова получен результат, приведенный в таблице 4. Указанная программа в дальнейшем не использовалась, т.к. не удалось выяснить способ объединения однокоренных слов и программа не позволяет проводить анализ достаточно больших объёмов текстов.

Таблица 4 Результаты лингвистического анализа словаря по теме «Охрана труда и промышленная безопасность»

Рабочих Сочетания наиболее часто встречающихся слов «Безопасность Труда Рабочих», «Оборудование Производственных Процессов», «Средств(а) (и) Правил(а) Защиты» вполне конкретно определяют выбранную предметную область. Сравнение частотных словарей, составленных для каждой книги, и словаря для выбранной предметной области показывает, что 20 % наиболее часто встречающихся слов представляет собой набор ключевых слов, которых вполне достаточно для идентификации книги на принадлежность к конкретной области. В то же время каждая отдельная книга имеет вполне индивидуальный набор повторяющихся слов и последовательность расположения в соответствии с частотой. Это видно из сравнения наиболее характерных - название книги «Взрывоопасность установок нефтепереработки»

(колонны-189; технологических-142; взрыв-123; установки-119; нефтепереработки-51);.

(суда-1148; спасательная-892; шлюпка-551; аварии-250; морская-165;

безопасная-142) — см. далее таблицу 9.

- название книги «Вредные вещества в промышленности»

(отравления-943; концентрации-919; действие-882; соединения-882; токсическое-529).

Вместе с тем, как в исследуемой предметной области, так и в имеющейся электронной библиотеке встречаются несоответствия частотного набора с названием книги и шифра УДК, например:

4jf9 (было-5555; нефтяной-2921; компании-2125; году-1038; политическойДействительно, имеющиеся системы классификации основываются на • _,, названии книги или нескольких предложениях аннотации. Книги в электронном виде логичнее классифицировать по всему содержанию на основе статистического и лингвистического анализа, что, как показывают проведенные исследования, при разработке несложного программного обеспечения и составления частотных словарей для различных предметных областей, вполне реально.

Определение отношений между количеством уникальных слов и частоты повторяемости от общего количества слов - удельная концентрация слов, ' или так называемый «словарный запас» дает возможность определить назначение издания. Для справочников полученный коэффициент находится в пределах 0,638... 1,356; сборников - 1,861... 2,874; нормативнотехнической документации - 3,188... 6,010. Для произведений одного или нескольких авторов (монографии, учебники) четкой границы нет - 1,320...

2,868.

Составлен исходный словарь для выбранной предметной области «промышленная безопасность» на основе полных текстов выделенных первоначально «вручную» 126 книг, включающий сочетания ^укв, слова с ошибками распознавания, части слов, слова и словоформы с количеством букв более 3X. Файл-отчет содержит также сведения о повторяемости. Общее количество словоформ в исходном словаре - 5.520.320, уникальных - 232.602. Словоформ встречающихся более 10 раз 93% от общего количества и 19% от уникальных.

Результат анализа (первые 20 строк и последние 20 строк) представлены в таблице 5 (файл приложения 01_wl_all_with_err.xls). Значимые слова выделены.

Таблица 5 Фрагменты исходного общего частотного словаря предметной

РАБОТЫ

БЕЗОПАСНОСТИ

Исходный словарь проверен визуально. При проверке из него удалены сочетания букв, не имеющие смысла и слова с ошибками. Так как выбранные книги включают сведения из разных областей (химия и физика, физиология и токсикология, пожарное и взрывное дело, технология строительства и аппаратостроения и т.п.), а к проверке не было возможности привлечь специалистовэкспертов, слова, встречающиеся менее 10 раз, значение которых было не ясно, также удалены. Количество таких слов невелико - не превышает долей процента и значительной погрешности в результат анализа не вносит. Были также удалены сомнительные имена собственные и мало распространённые фамилии.

После визуальной проверки словарь был дополнительно проверен средствами текстового процессора MS-Word. В результате словарь без ошибок содержит 206.898 слов, что составляет 89% от исходного значения.

Результат проверки (последние 20 строк) представлен в таблице 6 (файл приложения 02_wl_all_dnt_err.xls). При проверке было замечено, что основная часть ошибок сконцентрирована в более значительной части слов, встречающихся один раз и частота ошибок обратно пропорциональна длине слов ошибки распознавания чаще встречаются в коротких словах.

После проверки, словарь, полученный в результате объединения текстов 126 книг предметной области использовался для проверки словарей каждой книги. При сравнении словарей, слова (словоформы, слова с ошибками, бессмысленные наборы букв), не совпадающие с основным словарём автоматически исключались из состава частотных словарей каждой книги.

Таблица 6. Фрагмент общего частотного словаря предметной области после проверки 3.3 Частотный анализ содержания книг выбранной нредметной области Составлены частотные словари для каждой книги. При составлении словаря из анализа исключались слова, содержащие менее 4-х букв, все знаки кроме кириллицы, цифры, знаки препинания и псевдографика. Словарь отсортирован по убыванию частоты использования слов и данные из программы экспортированы в электронную таблицу Exell. Результаты работы профаммы сведены в единую таблицу (файл приложения 03_wl_each_with_err.xls).

Наиболее характерные примеры вьщелены и приведены в табл. 7: уже упоминаемая в предыдущем разделе книга: J 2 0026 - «Безопасность человека на моV ре»; J b 0034 - Безопасность жизнедеятельности. Кн. 3; J b 0035 - Безопасность жизнедеятельности. Кн. 2; N^ 0057 - Гражданская оборона; JT 0062 - Основы безоVo пасности труда в строительстве; N^ 0065 - Система безопасности труда на горных предприятиях (см. приложение 6).

В большинстве книг по выбранной предметной области ключевое слово «безопасности» или однокоренное, входит в первую «тридцатку» по повторяемости и содержится в тексте не менее 10 раз. Частота повторения ключевого слова, отнесенная к общему количеству слов в книге может служить признаком принадлежности книги к конкретной предметной области. Действительно, повторяемость слова «безопасность» на тысячу слов = (общее количество слов / количество слов «безопасность») * 1.000, отражает содержание книги и соответствует ее названию.

Таблица 7. Фрагменты частотных словарей для книг предметной области (А - слово ; Б - частота повторений) Результаты расчетов представлены в таблице 8 (файл приложения wl_safety_1000.xls).

Таблица 8. Повторяемость слова «безопасность» - Б/1000 в различных книгах 0361 22,1 0430 0 0, Моделирование развития и размещения нефтяной промышленности -> 1498 0 0, Повторяемость слова «Безопасность» а также результаты аналогичного анализа по ключевым словам «оборудования», «труда» и «производства» показаны на рисунке 25, из которого видно, что характер распределения ключевых слов по книгам одинаковый. Среднее значение повторяемости, соответственно 4,0; 3,4; 3,3; 3,0 повторений на 1 тыс. слов, общий средний показатель - 3,4.

Этот коэффищ1ент ограничивает количество наиболее повторяемых слов первыми 27-ю.

Таким образом, можно утверждать, что первые 27 слов, повторяющиеся в книге наиболее часто, характеризуют содержание книги и могут быть использованы для определения ее принадлежности к конкретной предметной области.

Для проверки сходимости результатов частотного анализа книг, выбранных «вручную», необходимо определить параметры общего словаря, показывающих соответствие книг предметной области.

3.4 Определение параметров, показывающих соответствие кииг предметной области, иа осиове частотного анализа Для выяснения полноты выборки книг и соответствия предметной области Фрагмент исходного общего частотного словаря предметной области, составленный по 126 книгам и содержащий 10, 20, 30... 300 слов, сравнивался со словарём каждой книги из библиотеки в 4.250 книг.

Книги сортировались по частоте совпадений в порядке убывания.

При анализе по первым 10 наиболее часто встречающимся словам, выбранные книги, по которым был составлен словарь, в количестве 74-х сконцентрировались среди первых 200 книг. Остальные книги распределились в первой тысяче. При анализе по 20 словам в первые 200 попало 110 книг, по 30 словам книга. Остальные книги не соответствовали выбранной предметной области «промышленная безопасность». Таким образом, увеличение количества слов, по которым производится проверка соответствия, увеличивает качество «экстракции».

Для каждой книги вычислен коэффициент соответствия предметной области. Фрагмент результатов анализа — книги с 20 по 39 представлен в табл. (файл приложения 04_wl_each_alI.xls).

По фрагменту, из таблицы 5 видно, что в число соответствующих предметной области вошли книги, не вошедшие в число 126, выбранных вручную — №№ 27, 28 это справочник по охране труда и правила безопасности. В то же время по соответствию словарю в число выбранных попали и книги, не соответствующие предметной области - книги №№ 25,32,36,37. У тех и других F = 0.

^ Фрагмент анализа книг на соответствие предметной области, где: В — количество слов по которым производился анализ;

F - отношение В/В =1 (т.е. одна из 126 книг) G — CyMM(Fi:Fn)/n (коэффициент соответствия предметной области Дальнейший анализ, при увеличении количества слов в «шаблонном словаре» с 10 до 20, затем 30, 40 и далее до 300, показывает увеличение качества выборки и уменьшение книг не по теме вплоть до полного отсутствия книг, не соответствзооших предметной области. Результаты анализов сведены в таблицу (см. файл приложения 04_wl_each_all.xls: лист «10-300») и представлены в виде зависимостей коэффициента соответствия от порядкового номера книги в списке (для различных книг) на рисунке 26. По рисунку 26 видно, что полное соответствие достигается при количестве слов в шаблонном словаре - 100, и даже при большем количестве слов (150 и даже 200), качество выборки не увеличивается.

При этом до 132-й книги все - соответствуют выбранной предметной области «промышленная безопасность», 10 книг, не выбранных первоначально, попадают в список автоматически, а 4 книги выбранные «вручную», или на глаз — по названию, выпадают из списка.

F - отношение В/В =1 (т.е. одна из 126 книг) G - CyMM(Fi:Fn)/n (коэффициент соответствия предметной области Дальнейший анализ, при увеличении количества слов в «шаблонном словаре» с 10 до 20, затем 30, 40 и далее до 300, показывает увеличение качества выборки и уменьшение книг не по теме вплоть до полного отсутствия книг, не соответствующих предметной области. Результаты анализов сведены в таблицу (см. файл приложения 04_wl_each_all.xls: лист «10-300») и представлены в виде зависимостей коэффициента соответствия от порядкового номера книги в списке (для различных книг) на рисунке 26. По рисунку 26 видно, что полное соответствие достигается при количестве слов в шаблонном словаре - 100, и даже при большем количестве слов (150 и даже 200), качество выборки не увеличивается.

При этом до 132-й книги все - соответствуют выбранной предметной области «промышленная безопасность», 10 книг, не выбранных первоначально, попадают в список автоматически, а 4 книги выбранные «вручную», или на глаз — по названию, выпадают из списка.

Рисунок 26. Повторяемость слов в различных книгах Из них Амиров Я.С. Безонасность жизнедеятельности; Курицкий Е.И. Техника безопасности и нротивоножарная техника на заводах электротехнртческой нромышленности; Боброва Л.П., Эргономика и безонасность труда; Панов Г.Е.

Эргономика в нефтяной нромышленности, входят в снисок из 154 книг.

Зависимость коэффициента соответствия для каждой книги от количества слов в «шаблонном словаре» для нервых 50 книг ноказана на рисунке 27, для следующих 50 - с 51 по 100-ю - на рисунке 28, далее со 101-й но 150-ю - на рис. 29, и со 151-й по 200-ю - на рисунке. 30.

)тветстви Коэффиь Рисунок 27. Соответствие книги в списке (№№ 1-50) предметной области

О ОI I I I I I I I I'I I II

Рисунок 28. Соответствие книги в списке (№№ 51-100) предметной области Рисунок 29. Соответствие книги в списке (№№ 101-150) предметной области Рисунок 30, Соответствие книги в списке (№№ 151 -200) предметной области По рисункам 27, 28, 29 и 30 видно, что если необходимо выделить до книг соответствующих определённой предметной области, то достаточно 30- слов в «шаблонном словаре» для сравнения со словарями каждой книги. Если запрос допускает до 100 книг, то словарь должен содержать 80-90 наиболее часто упоминаемых слов (рис. 28).

Далее, при количестве сов в словаре 90-100, первые 100 книг будут ещё более точно соответствовать запросу, но для книг, идущих по списку от 101 до 150 разброс коэффициента соответствия увеличивается в интервале от 1,0 до 0,3 (рис. 29). Для книг, идущих по списку от 151 и далее, по порядковому номеру, соответствие выбранной предметной области снижается начиная с количества слов в словаре - 50-60 (рис. 30).

Таким образом, установлено необходимое количество слов в словаре для выбора из электронной библиотеки книг, наиболее соответствующих заданной предметной области и определено количество книг в списке по порядку, которые соответствуют этой предметной области.

Выводы по третьей главе Компьютерная техника обычной производительности и несложное программное обеспечение позволяет производить анализ текстового массива значительного объёма - до 200 млн. слов.

Общий анализ текстового массива показывает, что ошибки распознавания составляют около 6,1% от общего количества слов. При составлении словаря в словах, повторяющихся более 100 раз ошибок практически нет, в словах повторяющихся более 10 раз - 3% ошибок.

Для автоматического составления полного словаря, характерного для технической литературы, не нуждающегося в «ручной» проверке, необходимо на- • брать текстовой массив в 500 млн. слов.

Лингвистический анализ показывает, что 20% наиболее часто встречающихся слов достаточно для идентификации книги на принадлежность к определённой предметной области «Промышленная безопасность». По выбранным 126 книгам из предметной области «Промышленная безопасность» составлен словарь наиболее часто упоминаемых слов.

Частотный анализ содержания выбранных книг показывает, что совпадение первых 27 наиболее часто повторяющихся слов могут служить признаком принадлежности книги к предметной области «Промышленная безопасность».

Сравнение словарей книг со словарём предметной области показывает, что для полного соответствия необходимо совпадение с первыми 100 словами словаря предметной области.

Показано, что возможно автоматическое составление словаря любой предметной области и автоматическая рубрикация книг по полному тексту.

Глава 4 База знаний для экспертной системы и прсдпоисковая система для работы с семантической сетью В предыдущей главе показано, что при большом объёме текста, подвергаемого анализу, возможно автоматическое составление словарей и исключение из них слов с ошибками распознавания без участия человека. Также показано, что при скорости обработки информации современными компьютерами возможно, пользуясь простыми статистическими методами, определять принадлежность книги к той или иной предметной области, даже не читая её.

Для дальнейшей работы по составлению базы знаний экспертной системы необходимо разработать автоматизированный метод, который бы показывал имеет та или иная фраза, состоящая из двух и более слов смысл или нет, т.е. исключить из набора слов фразы с ошибками. Также необходимо установить возможность определения принадлежности словосочетаний к той или иной предметной области.

При дальнейшем исследовании использовалась та же методика, которая применялась для изучения свойств информации, представленной отдельными словами и программа, описание которой приведено в разделе З.1., из функций выделение слов, составление словарей по количеству слов (см. рис. 14).

Аналогичным образом текст очищен от «загрязнений» - латинских и т.п.

букв, цифр, знаков препинания и псевдографики, объединён в пределах одной книги, одной предметной области и в целом - во всей библиотеке и обработан с разделением на фразы (сочетания слов).

Составлены списки фраз, состоящих из двух, трёх, четырёх и пяти слов, путём разделения текста на последовательные сочетания слов. Например, во фрагменте текста:

«... термин промышленная безопасность впервые введён...»

содержатся последовательные сочетания их 2- слов:

«термин промышленная», или последовательные сочетания из 3-х слов:

«термин промышленная безопасность», Списки проанализированы и отсортированы по частоте упоминания словосочетаний. Предположительно сочетания слов, упоминаемые наиболее часто или с частотой, величину которой необходимо определить, должны иметь смысл. Для приведённого примера по сочетаниям из двух слов, сочетания «термин промышленная» и «безопасность впервые» - смысловой нагрузки не несут, и должны упоминаться менее часто, чем сочетания слов ««промышленная безопасность» и «впервые введён».

Так как объём анализируемого текста значительный и может достигнуть величины, в которой встречаются все возможные сочетания слов, несущие смысловую нагрузку, то можно определить долю сочетаний от исчерпывающей величины для предметной области «Промышленная безопасность». В случае комбинаций из сочетаний слов по 2, 3, 4, 5 и т.д. и построения из них семантической сети можно будет утверждать, что результаты анализа можно использовать, как основу базы знаний экспертной системы.



Pages:     || 2 |


Похожие работы:

«Черемхина Анастасия Петровна ОЦЕНКА ЗАКОНОМЕРНОСТЕЙ ИЗМЕНЕНИЯ ИНЖЕНЕРНОГЕОЛОГИЧЕСКИХ УСЛОВИЙ УСТОЙЧИВОСТИ ГИДРООТВАЛОВ ВСКРЫШНЫХ ПОРОД В ЗАВИСИМОСТИ ОТ ЭТАПА ЭКСПЛУАТАЦИИ Специальность 25.00.16 - Горнопромышленная и нефтегазопромысловая геология, геофизика,...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Гнедина, Татьяна Георгиевна Динамика карьерных ориентаций личности руководителя Москва Российская государственная библиотека diss.rsl.ru 2006 Гнедина, Татьяна Георгиевна.    Динамика карьерных ориентаций личности руководителя  [Электронный ресурс] : На примере Забайкальской железной дороги : Дис. . канд. психол. наук : 19.00.13. ­ Хабаровск: РГБ, 2006. ­ (Из фондов Российской Государственной Библиотеки). Психология развития, акмеология...»

«Свердлова Ольга Леонидовна АВТОМАТИЗАЦИЯ УПРАВЛЕНИЯ ТЕХНОЛОГИЧЕСКИМИ ПРОЦЕССАМИ РАЗДЕЛЕНИЯ ГАЗОВ В ПРОМЫШЛЕННОСТИ 05.13.06 – Автоматизация и управление технологическими процессами и производствами Диссертация на соискание ученой степени кандидата технических наук Научный руководитель кандидат химических наук, доцент Евсевлеева Л.Г. Иркутск СОДЕРЖАНИЕ ВВЕДЕНИЕ.. ГЛАВА 1. АДСОРБЦИОННЫЙ МЕТОД РАЗДЕЛЕНИЯ ВОЗДУХА НА...»

«Бессуднов Иван Александрович СОВЕРШЕНСТВОВАНИЕ ТЕХНОЛОГИЙ РЕМОНТА ГАЗОТУРБИННЫХ АВИАЦИОННЫХ ДВИГАТЕЛЕЙ С ИСПОЛЬЗОВАНИЕМ РЕСУРСОСБЕРЕГАЮЩИХ ТЕХНОЛОГИЙ Специальность 05.02.08 – Технология машиностроения Диссертация на соискание ученой степени кандидата технических наук Научный руководитель заслуженный деятель науки и техники РФ,...»

«ЧУДНОВСКАЯ ГАЛИНА ВАЛЕРЬЕВНА БИОЭКОЛОГИЯ И РЕСУРСЫ ЛЕКАРСТВЕННЫХ РАСТЕНИЙ ВОСТОЧНОГО ЗАБАЙКАЛЬЯ Специальность 03.02.08 – Экология Диссертация на соискание ученой степени доктора биологических наук Научный консультант : Чхенкели Вера Александровна, доктор биологических наук, профессор Иркутск – СОДЕРЖАНИЕ Введение.. Глава 1. Обзор литературы по состоянию проблемы исследований ресурсов лекарственных растений.. 1.1...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Кислицын, Алексей Анатольевич Вводящая в заблуждение реклама: понятие и проблемы квалификации. Опыт сравнительно­правового исследования права России и США Москва Российская государственная библиотека diss.rsl.ru 2006 Кислицын, Алексей Анатольевич.    Вводящая в заблуждение реклама: понятие и проблемы квалификации. Опыт сравнительно­правового исследования права России и США  [Электронный ресурс] : Дис. . канд. юрид. наук...»

«Вакуленко Андрей Святославович ОБЩЕСТВЕННОЕ МНЕНИЕ В СОЦИАЛЬНО–ИСТОРИЧЕСКОМ ПРОЦЕССЕ 09.00.11 – социальная философия Диссертация на соискание ученой степени кандидата философских наук Научный руководитель : доктор философских наук, профессор Зорин Александр Львович Краснодар – 2014 Содержание ВВЕДЕНИЕ.. ГЛАВА Теоретико–методологические основы изучения I. общественного мнения.. 1.1. Полисемантичность...»

«БУРДУКОВСКИЙ МАКСИМ ЛЕОНИДОВИЧ ВЛИЯНИЕ ДЛИТЕЛЬНОЙ ХИМИЗАЦИИ ПОЧВ ЮГА ДАЛЬНЕГО ВОСТОКА НА БИОЛОГИЧЕСКИЙ КРУГОВОРОТ И СОДЕРЖАНИЕ МАКРО– И МИКРОЭЛЕМЕНТОВ 03.02.08 – экология Диссертация на соискание ученой степени кандидата биологических наук Научный руководитель : доктор биологических наук, старший научный сотрудник Голов Владимир Иванович...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Гниденко, Антон Александрович Исследование влияния давления на поведение гелия и водорода в кристаллическом кремнии Москва Российская государственная библиотека diss.rsl.ru 2006 Гниденко, Антон Александрович Исследование влияния давления на поведение гелия и водорода в кристаллическом кремнии : [Электронный ресурс] : Дис. . канд. физ.­мат. наук  : 01.04.07. ­ Хабаровск: РГБ, 2005 (Из фондов Российской Государственной Библиотеки)...»

«Кальченко Елена Юрьевна ПОДБОР СОРТОВ И ПОДВОЕВ ДЛЯ РАЗМНОЖЕНИЯ СЛИВЫ НА ЮГЕ ЦЕНТРАЛЬНОГО ЧЕРНОЗЕМЬЯ Специальность 06.01.08 – плодоводство, виноградарство ДИССЕРТАЦИЯ на соискание ученой степени кандидата сельскохозяйственных наук Научный руководитель : доктор...»

«ШКАРУПА ЕЛЕНА ВАСИЛЬЕВНА УДК 332.142.6:502.131.1 (043.3) ЭКОЛОГО-ЭКОНОМИЧЕСКАЯ ОЦЕНКА СОСТОЯНИЯ РЕГИОНА В КОНТЕКСТЕ ЭКОЛОГИЧЕСКИ УСТОЙЧИВОГО РАЗВИТИЯ Специальность 08.00.06 – экономика природопользования и охраны окружающей среды ДИССЕРТАЦИЯ на соискание ученой степени кандидата экономических наук Научный руководитель Каринцева Александра Ивановна, кандидат экономических наук, доцент Сумы - СОДЕРЖАНИЕ ВВЕДЕНИЕ.. РАЗДЕЛ 1 ТЕОРЕТИЧЕСКИЕ...»

«ДЕМУРА Татьяна Александровна МОРФОФУНКЦИОНАЛЬНЫЕ И МОЛЕКУЛЯРНОГЕНЕТИЧЕСКИЕ ОСОБЕННОСТИ НЕДИФФЕРЕНЦИРОВАННОЙ ФОРМЫ ДИСПЛАЗИИ СОЕДИНИТЕЛЬНОЙ ТКАНИ В АКУШЕРСКОГИНЕКОЛОГИЧЕСКОЙ ПРАКТИКЕ 14.03.02 - патологическая анатомия...»

«Карпук Светлана Юрьевна ОРГАНИЗАЦИИЯ ОБРАЗОВАТЕЛЬНОЙ КОММУНИКАЦИИ СТАРШЕКЛАССНИКОВ СРЕДСТВАМИ МЕТАФОРИЧЕСКОГО ПРОЕКТИРОВАНИЯ Специальность 13.00.01 Общая педагогика, история педагогики и образования Диссертация на соискание ученой степени кандидата педагогических наук Научный руководитель : доктор педагогических наук, доцент, Даутова Ольга...»

«vy vy из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Лучанкин, Александр Иванович 1. Социальные представления и социальная работа (Проблемы философского обоснования) 1.1. Российская государственная библиотека diss.rsl.ru 2002 Лучанкин, Александр Иванович Социальные представления и социальная работа (Проблемы философского обоснования) [Электронный ресурс]: Дис.. д-ра филос. наук : 09.00.11 - М.: РГБ, 2002 (Из фондов Российской Государственной Библиотеки) Социальная философия Полный текст:...»

«по специальности...»

«из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Эйснер, Олег Владимирович 1. КонкурентоспосоБность отрасли 1.1. Российская государственная Библиотека diss.rsl.ru 2003 Эйснер, Олег Владимирович КонкурентоспосоБность отрасли [Электронный ресурс]: Региональные условия, методы оценки, перспективы развития : Дис.. канд. экон. наук : 08.00.04.-М.: РГБ, 2003 (Из фондов Российской Государственной Библиотеки) Региональная экономика Полный текст: http://diss.rsl.ru/diss/03/0279/030279033.pdf Текст...»

«НИКОЛОВА ВЯРА ВАСИЛЕВА РУССКАЯ ДРАМАТУРГИЯ В БОЛГАРСКОМ КНИГОИЗДАНИИ 1890-1940-Х ГОДОВ Специальность 05.25.03 – Библиотековедение, библиографоведение и книговедение Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель : кандидат филологических наук, профессор И.К....»

«ВАСИЛЬЕВ АНТОН НИКОЛАЕВИЧ ВЕРХНИЕ ОЦЕНКИ РАЦИОНАЛЬНЫХ ТРИГОНОМЕТРИЧЕСКИХ СУММ СПЕЦИАЛЬНОГО ВИДА И ИХ ПРИЛОЖЕНИЯ 01.01.06 – математическая логика, алгебра и теория чисел Диссертация на соискание ученой степени кандидата физико-математических наук НАУЧНЫЙ РУКОВОДИТЕЛЬ: Д. Ф.-М. Н., ПРОФЕССОР ЧУБАРИКОВ ВЛАДИМИР НИКОЛАЕВИЧ МОСКВА – 2013 2 Оглавление Введение Глава 1. Верхние оценки полных рациональных...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Соловьев, Сергей Владимирович Экологические последствия лесных и торфяных пожаров Москва Российская государственная библиотека diss.rsl.ru 2006 Соловьев, Сергей Владимирович.    Экологические последствия лесных и торфяных пожаров  [Электронный ресурс] : Дис. . канд. техн. наук  : 05.26.03, 03.00.16. ­ М.: РГБ, 2006. ­ (Из фондов Российской Государственной Библиотеки). Пожарная безопасность Экология Полный текст:...»

«vy vy из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Макшанов, Сергей Иванович 1. Психология тренинга в профессиональной деятельности 1.1. Российская государственная библиотека diss.rsl.ru 2002 Макшанов, Сергей Иванович Психология тренинга в профессиональной деятельности [Электронный ресурс]: Дис.. д-ра психол. наук : 19.00.03 - М. : РГБ, 2002 (Из фондов Российской Государственной Библиотеки) Психология труда; инженерная психология Полный текст: http://diss.rsl.ru/diss/02/0000/020000726.pdf...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.