WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 | 3 |

«Серия основана в 2000 году РЕДАКЦИОННАЯ КОЛЛЕГИЯ: чл.-кор. РАН КБ. Федоров — главный редактор д-р техн. наук КП. Норенков — зам. главного редактора д-р техн. наук Ю.М. Смирнов — зам. главного редактора д-р техн. наук ...»

-- [ Страница 1 ] --

Информатика в техническом университете

Информатика в техническом университете

Серия основана в 2000 году

РЕДАКЦИОННАЯ КОЛЛЕГИЯ:

чл.-кор. РАН КБ. Федоров — главный редактор

д-р техн. наук КП. Норенков — зам. главного редактора

д-р техн. наук Ю.М. Смирнов — зам. главного редактора

д-р техн. наук В.В. Девятков

д-р техн. наук В.В. Емельянов

канд. техн. наук КП. Иванов

д-р техн. наук В.А. Матвеев канд. техн. наук КВ. Медведев д-р техн. наук В. В. Сюзев д-р техн. наук Б.Г. Трусов д-р техн. наук В.М. Черненький д-р техн. наук В.А. Шахнов А.и. Башмаков, И.А. Башмаков Интеллектуальные информационные технологии Допущено Министерством образования и науки Российской Федерации в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению подготовки дипломированных специалистов «Информатика и вычислительная техника»

Москва Издательство МГТУ имени Н.Э. Баумана УДК 004.8:681.3.06(075.8) ББК 32.813+32.973.26-018.2я Б Рецензенты:

д-р техн. наук, профессор И.П. Норенков (Московский государственный технический университет им. Н.Э. Баумана);

кафедра «Компьютерные технологии и системы»

Московского государственного университета прикладной биотехнологии (зав. кафедрой профессор Ю.А. Ивашкин);

кафедра «Вычислительные машины, системы и сети»

Московского энергетического института (технического университета) (зав. кафедрой профессор И.И. Ладыгин) Башмаков А.И., Башмаков И.А. Интеллектуальные информациБ336 онные технологии: Учеб. пособие. - М.: Изд-во МГТУ им. Н.Э. Баумана, 2005. - 304 с : ил. — (Информатика в техническом университете).

ISBN 5-7038-2544-Х Интеллектуальные информационные технологии — одна из наиболее перспективных и быстро развивающихся научных и прикладных областей информатики. В учебном пособии рассматриваются ее основные направле­ ния: обработка текстов на естественном языке, моделирование знаний и базы знаний, управление знаниями, распознавание образов, нейротехнологии, ин­ теллектуализация Internet, концептуальное программирование и др. Основное внимание уделяется математическим моделям, методам и инструментальным средствам разработки программного обеспечения интеллектуальных автома­ тизированных систем.

Содержание учебного пособия основано на материалах, используемых авторами в учебном процессе в МГТУ им. Н.Э. Баумана и МЭИ (ТУ).

Для студентов высших технических учебных заведений, изучающих информационные технологии и методы их интеллектуализации. Может быть полезно аспирантам и специалистам, занимающимся данной проблематикой.

УДК 004.8:681.3.06(075.8) ББК 32.813+32.973.26-018.2я © А.И. Башмаков, И.А. Башмаков, ISBN 5-7038-2544-Х © МГТУ им. Н.Э. Баумана,

ОГЛАВЛЕНИЕ

ПРЕДИСЛОВИЕ

СПИСОК ОСНОВНЫХ СОКРАЩЕНИЙ

СТРУКТУРА ИССЛЕДОВАНИЙ В ОБЛАСТИ ИСКУССТВЕННОГО

ИНТЕЛЛЕКТА ВВЕДЕНИЕ

1. ТЕХНОЛОГИЯ КОНЦЕПТУАЛЬНОГО ПРОГРАММИРОВАНИЯ

1.1. Основы теории концептуального профаммирования 1.2. Инструментарий концептуального профаммирования Вопросы для самопроверки

2. ТЕХНОЛОГИИ АВТОМАТИЧЕСКОГО РАСПОЗНАВАНИЯ

ОБРАЗОВ 2.1. Основные понятия теории автоматического распознавания образов

3. АВТОМАТИЗАЦИЯ РАБОТЫ СО ЗНАНИЯМИ,

ПРЕДСТАВЛЕННЫМИ В ТЕКСТОВОМ ВИДЕ

3.1. Основы гипертекстовой информационной технологии 3.1.1. Основные понятия гипертекстовой информационной технологии 3.1.4. Инструментальные средства для создания гипертекста 3.1.5. Гипертекстовые информационно-поисковые системы 3.1.6. Методы извлечения знаний для построения гипертекста 3.1.8. Место гипертекстовой информационной технологии среди 3.2.1. Проблема понимания текста на естественном языке 3.6. Комплексные интеллектуальные программные системы для обработки 3.6.1. Комплексный смысловой анализатор текста Text Analyst 3.6.2. Промышленная информационно-поисковая система Excalibur

4. МЕТАДАННЫЕ ДЛЯ ИНФОРМАЦИОННЫХ РЕСУРСОВ

5. МОДЕЛИРОВАНИЕ ЗНАНИЙ О ПРЕДМЕТНЫХ ОБЛАСТЯХ КАК

ОСНОВА ИНТЕЛЛЕКТУАЛЬНЫХ АВТОМАТИЗИРОВАННЫХ

5.3.4. Модель Л/4 — обобщенная модель представления знаний 5.4.4. Методики построения онтологии и требования к средствам их 5.4.5. Обзор наиболее известных онтологических проектов 5.5.2. Система операций для работы со знаниями в базе знаний 7.2. Технологии хранилищ данных и интеллектуального анализа данных 7.3. Системы поддержки инновационной деятельности

СПИСОК ОСНОВНОЙ ЛИТЕРАТУРЫ

СПИСОК ДОПОЛНИТЕЛЬНОЙ ЛИТЕРАТУРЫ

ПРЕДИСЛОВИЕ

Эволюция информационных технологий и систем все в большей сте­ пени определяется их интеллектуализацией. Интеллектуальные информа­ ционные технологии — одна из наиболее перспективных и быстро разви­ вающихся научных и прикладных областей информатики. Она оказывает существенное влияние на все научные и технологические направления, свя­ занные с использованием компьютеров, и уже сегодня дает обществу то, что оно ждет от науки, — практически значимые результаты, многие из ко­ торых способствуют кардинальным изменениям в сферах их применения.



Целями интеллектуальных информационных технологий являются, во-первых, расширение круга задач, решаемых с помощью компьютеров, особенно в слабоструктурированных предметных областях, и во-вторых, повышение уровня интеллектуальной информационной поддержки совре­ менного специалиста.

Ключевым компонентом научного фундамента интеллектуальных ин­ формационных технологий является искусственный интеллект (ИИ). Для создания и развития ИИ как научного направления за рубежом много сдела­ ли И. Винер, У. Маккаллох, У. Питтс, Д. Маккарти (который впервые ввел термин «artificial intelligence»), Ф. Розенблат, А. Сазерленд, М. Минский, С. Пейперт, А. Ньюэлл, Г. Саймон, Дж. Шоу, Э. Фейгенбаум, А. Кольмероэ, Н. Хомский, Т. Виноград, М. Куиллиан, Р. Шенк, И. Кильсон, П. Уинстон, Л. Заде, Р. Редди, Д. Ленат, Дж. Хинтон, Дж. Андерсон, Ж.-Л. Лорьер и мно­ гие другие. В СССР, а затем в России со становлением и развитием ИИ свя­ зывают имена А.А. Ляпунова, А.И. Берга, Г.С. Поспелова, М.Л. Цетлина, М.М. Бонгарда, М.А. Гаврилова, А.П. Ершова, В.Н. Пушкина, Л.Т. Кузина, А.С. Нариньяни, А.И. Половинкина, В.В. Чавчанидзе, В.К. Финна, Э.В. По­ пова, Э.Х. Тыугу, Н.Н. Непейводы, И.П. Кузнецова, О.И. Ларичева, А.И. Га­ лушкина, А.Н. Горбаня, А.В. Чечкина и многих других. Следует отметить исключительную роль Д.А. Поспелова и его научной школы: В.Н. Вагина, Т.А. Гавриловой, А.П. Еремеева, Г.С. Осипова, В.Ф. Хорошевского и др.

Настоящее учебное пособие предназначено для студентов вузов, изу­ чающих информационные технологии и методы их интеллектуализации, а также аспирантов и специалистов, занимающихся данной проблематикой.

Оно основано на материалах, используемых авторами в учебном процессе в МГТУ им. Н.Э. Баумана и МЭИ (ТУ). Его содержание в значительной мере охватывает вопросы, связанные с интеллектуализацией информационных технологий и систем, входящие в учебные программы дисциплин «Системы искусственного интеллекта», «Информационные технологии», «Интеллек­ туальные подсистемы САПР», «Представление знаний в информационных системах», «Технология разработки программного обеспечения интеллекту­ альных автоматизированных систем», «Интеллектуальные системы», «Ос­ новы искусственного интеллекта», «Интеллектуальные информационные системы» и других дисциплин в рамках направлений подготовки «Инфор­ матика и вычислительная техника» (ОКСО 230100), «Информационные сис­ темы» (ОКСО 230200), «Информационные технологии» (ОКСО 010400), «Прикладная математика и информатика» (ОКСО 010500), «Прикладная математика» (ОКСО 230400).

Основными задачами учебного пособия являются:

1) формирование представлений о классах и структуре программного обеспечения (ПО) интеллектуальных автоматизированных систем (ИАС), в особенности об инвариантном к предметной области ядре ПО ИАС;

2) создание представлений о методах, математическом аппарате и инст­ рументальных средствах разработки ПО ИАС во взаимосвязи с обеспечиваю­ щими подсистемами ИАС: комплексом технических средств, а также матема­ тическим, лингвистическим и информационным обеспечениями;

3) приобретение знаний и умений, связанных с технологическим под­ ходом к разработке ПО ИАС.

Использование технологического подхода к разработке ПО обеспечивает:

• концептуальное единство всех частей программного проекта;

• интеграцию и координацию деятельности отдельных исполнителей, в том числе программистов, в рамках единого проекта;

• совмещение разработки программной документации с ходом реали­ зации проекта;

• повышение производительности труда программистов;

• повышение надежности и качества программного продукта;

• снижение стоимости разработки программного продукта;

• повышение границы сложности программных проектов.

Учебное пособие состоит из введения, семи глав и заключения.

Во введении представлены задачи учебного пособия, укрупненная функциональная модель интеллектуальной системы и структура исследова­ ний в области ИИ. Главы и параграфы пособия соотносятся с направления­ ми данной структуры.

В первой главе изложены теоретические основы технологии концеп­ туального программирования и дана характеристика ее реализации в серии программных решателей пакета решения инженерных задач (ПРИЗ).

Во второй главе отражены основные понятия технологии автоматиче­ ского распознавания образов. Вопросы ее реализации рассмотрены на при­ мерах ведущих российских систем оптического чтения текстов.

Третья глава посвящена автоматизации работы со знаниями, пред­ ставленными в текстовом виде. В ней описаны гипертекстовые модели и системы, методы извлечения знаний из текста и компьютерного поиска в тексте, технологии автоматического реферирования и аннотирования, ма­ шинного перевода и автоматической классификации документов. Завершает главу характеристика комплексных интеллектуальных программных систем для обработки текстов: комплексного смыслового анализатора текста Text Analyst, промышленной информационно-поисковой системы ЕхсаИЬш" RetrievalWare, пакета NeurOK Semantic Suite.

В четвертой главе отражено современное состояние работ в области метаданных для информационных ресурсов. Главное внимание уделено ро­ ли метаданных в обеспечении интеллектуализации WWW. Охарактеризова­ ны универсальная система метаданных «Дублинское ядро» и модель RDF.

Рассмотрены направления интеллектуализации Internet (концепция семан­ тического web). Приведен перечень стандартов и спецификаций, состав­ ляющих ядро платформы XML, служащей технологической основой семан­ тического web.

Пятая глава пособия является главной. Она посвящена вопросам мо­ делирования знаний о предметных областях и роли этих моделей и методов в ИАС. Изложены современные представления о категории знаний. Приве­ ден обзор базовых моделей знаний. Рассмотрены четыре модели семантиче­ ских сетей. Дана развернутая характеристика онтологического подхода.

Описаны концептуальные основы технологии баз знаний.

Шестая глава представляет технологии нейронных семиотических систем. Рассмотрены основные понятия нейротехнологий, структура работ в области нейрокибернетики, классификация, характеристики и примеры нейропакетов, а также подход к моделированию сенсорных и языковой систем человека искусственными нейронными сетями.

Седьмая глава посвящена системам управления знаниями. В ней дана характеристика технологий хранилищ данных и интеллектуального анализа данных, а также систем поддержки инновационной деятельности в техниче­ ских областях.

АСНИ — автоматизированная система научных исследований АСУ — автоматизированная система управления ЛЯ — алгоритмическое ядро БЗ —база знаний БНФ — нормальная форма Бэкуса—Наура БСЭ — Большая советская энциклопедия ВМ — вычислительная модель вне — высшая нервная система (человека) ГИПС — гипертекстовая информационно-поисковая система ГИТ — гипертекстовая информационная технология ГРНТИ — государственный рубрикатор научно-технической информации ГТ — гипертекст ЕЯ — естественный язык НАД — интеллектуальный анализ данных НАС — интеллектуальная автоматизированная система ИИ — искусственный интеллект И НС — искусственная нейронная сеть ИО — информационное обеспечение ИПС — информационно-поисковая система ИР — информационный ресурс ИС — информационная система ИСС — информационно-справочная статья КРН — квазирецепторный нейрон КТС — комплекс технических средств ЛО — лингвистическое обеспечение ЛП — лингвистический процессор MB — машина вывода МО — математическое обеспечение МП — машинный перевод МПрО — модель предметной области НИТ — новая информационная технология НК — нейрокомпьютер носе — нечеткая объектно-ориентированная семантическая сеть НП — нейропакет нес — неоднородная семантическая сеть ОЕЯ — ограниченный естественный язык осе — объектно-ориентированная семантическая сеть ПО — программное обеспечение ПРИЗ — пакет решения инженерных задач (программный инструментарий, реа­ ПрО — предметная область РСС — расширенная семантическая сеть САПР — система автоматизированного проектирования СИ — символьный нейрон СП — сетевая продукция СУБД — система управления базами данных СУБЗ — система управления базами знаний СУЗ — система управления знаниями ТКП — технология концептуального программирования ТРИЗ — теория решения изобретательских задач УДК — универсальная десятичная классификация УТОПИСТ — универсальный транслятор описаний теорий (язык, используемый в ФС — формальная система ЭС — экспертная система ЭСМ — элементарная сенсорная модель ЭСС — элементарная сенсорная система ЭФ — элементарный фрагмент ЭЯС — элементарная языковая система API — Application Programming Interface — интерфейс прикладного програм­ APRP — Adaptive Pattern Recognition Processing — адаптивное распознавание образов (технология, разработанная Convera Technologies Corp.) CALS — Computer-Aided Acquisition and Lifecycle Support — компьютерная под­ держка жизненного цикла (совокупность стандартов, унифицирующих спецификации технической системы на всех этапах ее жизненного цикла) CASE — Computer Aided Software Engineering — автоматизированная разработ­ ка программного обеспечения СОМ — Component Object Model — модель составных объектов (стандарт Microsoft, описывающий правила создания и взаимодействия про­ граммных объектов в среде Windows) CRISP-DM — Cross Industry Standard Process for Data Mining — проект, направ­ ленный на унификацию и стандартизацию технологий DM DAML — DARPA Agent Markup Language — язык разметки агентов, разработан­ DARPA — Defense Advanced Research Projects Agency — Агентство перспектив­ ных исследований Министерства обороны США DM — Data Mining — глубинный анализ данных DS — Description Subsumption — диаграмма строгой классификации (исполь­ DTD — Document Туре Definition — определение типа документа (язык описа­ ния модели XML-документа) EL — Elaboration Language — язык доработок и уточнений (используется в ERW — Excalibur RetrievalWare FSNL — Fuzzy Semantic Network Language — язык описания нечеткой семантиче­ FTP — File Transfer Protocol — протокол передачи файлов HOLAP — Hybrid OLAP — гибридная OLAP (способ хранения данных в OLAP) HTML — HyperText Markup Language — язык гипертекстовой разметки HTTP — HyperText Transport Protocol — протокол передачи гипертекста KIF — Knowledge Interchange Format — формат обмена знаниями (один из языков представления знаний) LOM — Learning Object Metadata — концептуальная схема метаданных для об­ разовательных объектов (информационных ресурсов для сферы обра­ MDA — Model. Driven Architecture — архитектура, управляемая моделью (осно­ вана на объектно-ориентированной модели знаний) MIME — Multipurpose Internet Mail Extensions — многоцелевые расширения поч­ товой службы Internet MOLAP — Multidimensional OLAP — многомерная OLAP (способ хранения дан­ NKC — Natural Kind Classification — диаграмма естественной (видовой) клас­ сификации (используется в IDEF5) NLP — Natural Language Processing — обработка текстов на ЕЯ OCR — Optical Character Recognition — оптическое распознавание символов ODBC — Open DataBase Connectivity interface — открытый интерфейс взаимо­ ODP — Open Distributed Processing — открытая распределенная обработка (основана на объектно-ориентированной модели знаний) OIL — Ontology Interchange Language — язык обмена онтологиями (один из языков описаний онтологии) OLAP — On-Line Analytical Processing — интерактивная аналитическая обработ­ OLE — Object Linking and Embedding — связывание и встраивание объектов (технология, обеспечивающая возможность включения в состав доку­ мента информационных объектов, имеющих разные форматы и обра­ батываемых разными приложениями) OLTP — On-Line Transaction Processing — оперативная обработка транзакций OMG — Object Management Group — Консорциум OMG QBE — Query-By-Example — запрос no образцу, язык запросов по образцу RDF — Resource Description Framework — модель представления метаданных, описывающих ИР, и соответствующий ей язык, являющийся ROLAP — Relational OLAP — реляционная OLAP (способ хранения данных в SAO — (Subject — Action — Object) — (субъект — действие — объект) SDK — Software Development Kit — инструментарий разработки ПО SGML — Standard Generalized Markup Language — стандартный обобщенный SL — Schematic Language — схематический язык (используется в IDEF5) SOAP — Simple Object Application Protocol — прикладной протокол передачи простых объектов (протокол передачи XML-данных) SQL — Structured Query Language — язык структурированных запросов STEP — STandard for Exchange of Product data — стандарт обмена специфика­ циями промышленных изделий (группа стандартов ISO 10303, лежа­ щих в основе CALS-технологий) SSR — Structural Synthesis Rules — система правил структурного синтеза про­ UR1 — Uniform Resource Identifier — унифицированный идентификатор ре­ URL — Uniform Resource Locator — унифицированный указатель ресурса W3C — World Wide Web Consortium — Консорциум WWW WWW — World Wide Web — «всемирная паутина» (глобальная гипертекстовая система, использующая Internet в качестве транспортного средства) XML — extensible Markup Language — расширяемый язык разметки XMLP — XML Protocol — протокол передачи XML-данных

СТРУКТУРА ИССЛЕДОВАНИИ В ОБЛАСТИ

ИСКУССТВЕННОГО ИНТЕЛЛЕКТА

1. Программы решения отдельных интеллектуальных задач 1.1. Программы компьютерного доказательства теорем 1.2. Ифовые программы 1.3. Распознающие и узнающие программы 1.4. Программы для семантического анализа и обработки естественно-язы­ 1.4.1. Машинный поиск в базах данных естественно-языковых документов 1.4.3. Автоматическое реферирование 1.4.4. Автоматическая классификация документов 1.4.5. Генерация (синтез) текста 1.4.6. Генерация (синтез) речи 1.5. Программы, моделирующие поведение 1.6. Профаммы для анализа и синтеза музыкальных произведений 2. Работа со знаниями 2.1. Методы и средства представления знаний 2.1.1.6. Объектно-ориентированные модели 2.1.2. Системы представления знаний и базы знаний 2.2. Методы и средства извлечения знаний из различных источников 2.2.1. Приобретение знаний от экспертов 2.2.2. Извлечение знаний из документов 2.2.3. Согласование и интеграция знаний 2.3. Методы обработки знаний 2.3.2. Верификация знаний 2.3.3. Систематизация знаний 2.3.5. Обработка нечетких знаний 2.3.6. Аргументация и объяснение на основе знаний Структура исследований в области искусственного интеллекта 3. Интеллектуальное программирование 3.1. Языки для интеллектуальных систем 3.1.1. Языки логического программирования 3.1.2. Объектно-ориентированные языки 3.1.3. Языки представления знаний 3.1.4. Языки семантической разметки 3.2. Автоматический синтез программ 3.2.1. Дедуктивные методы 3.2.2. Индуктивные методы 3.3. Инструментальные средства 3.4. Интеллектуальные интерфейсы 3.5. Мультиагентные технологии 4. Интеллектуальные автоматизированные системы 4.1. Нейропакеты 4.2. Интеллектуальные информационные системы 4.3. Экспертные системы 4.4. Интеллектуальные АСУ 4.5. Интеллектуальные САПР 4.6. Интеллектуальные АСНИ 4.7. Интеллектуальные компьютерные средства обучения 4.8. Интеллектуальные роботы 4.9. Интеллектуальные консультирующие системы 4.10. Системы управления знаниями 4.11. Системы виртуальной реальности

ВВЕДЕНИЕ

В наше время преимущества в конкурентной борьбе уже не опреде­ ляются ни размерами страны, ни ее природными ресурсами. Теперь все ре­ шают уровень образования и объем знаний, накопленных обществом. В бу­ дущем процветать будут государства, которые сумеют превзойти другие в создании и освоении новых знаний. Особую роль в этом играют новые ин­ формационные технологии (НИТ), а в них - методы и средства искусствен­ ного интеллекта (ИИ). Чтобы получить представления об основных техно­ логиях ИИ, необходимо изучить, как его важнейшие концепции воплоща­ ются в программных решениях.

Программы позволяют строить ясные описания разнообразных про­ цессов. Их структуры могут отражать структуры тех задач, для решения ко­ торых они предназначены. Для изучающих ИИ программирование служит таким же средством, каким является математика для изучающих более ста­ рые области науки.

Под интеллектуальными системами понимают любые биологические, искусственные или формальные системы, проявляющие способность к целена­ правленному поведению. Последнее включает свойства (проявления) общения, накопления знаний, принятия решений, 065/чения, адаптации и т. д.

В настоящее время существует устойчивая тенденция интеллектуали­ зации компьютеров и их программного обеспечения (ПО). Основные функ­ ции будущих компьютеров — решение задач все в большей степени невы­ числительного характера, в том числе логический вывод, управление базами знаний (БЗ), обеспечение интеллектуальных интерфейсов и др. Интеллек­ туализация компьютеров осуществляется за счет разработки как специаль­ ной аппаратуры (например, нейрокомпьютеры), так и ПО (экспертные сис­ темы, базы знаний, решатели задач и т. д.).

Рабочее определение понятия «интеллектуальная система» предложе­ но в [14]. Система считается интеллектуальной, если в ней реализованы сле­ дующие три базовые функции.

1. Функция представления и обработки знаний. Интеллектуальная система должна быть способна накапливать знания об окружающем мире, классифицировать и оценивать их с точки зрения прагматики и непротиво­ речивости, инициировать процессы получения новых знаний, соотносить новые знания со знаниями, хранящимися в базе знаний.

2. Функция рассуэюдения. Интеллектуальная система должна быть способна формировать новые знания с помощью логического вывода и ме­ ханизмов выявления закономерностей в накопленных знаниях, получать обобщенные знания на основе частных знаний и логически планировать свою деятельность.

3. Функция общения. Интеллектуальная система должна быть способ­ на общаться с человеком на языке, близком к естественному языку (ЕЯ) и получать информацию через каналы, аналогичные тем, которые использует человек при восприятии окружающего мира (прежде всего, зрительный и звуковой), уметь формировать «для себя» или по просьбе человека объясне­ ния собственной деятельности (т. е. отвечать на вопросы типа «Как я это сделал?»), оказывать человеку помощь за счет знаний, которые хранятся в ее памяти, и логических средств рассуждения.

Функциональная модель интеллектуальной системы представлена на рис. В.1 [13].

В рамках этой функциональной модели:

• интеллектуальный интерфейс обеспечивает общение с внешней средой и преобразование информации из внешнего во внутреннее представление и обратно;

Интеллектуальный интерфейс Интерфейсные знания Подсистема логического вывода Функциональные механизмы Рис. ВЛ. Функциональная модель интеллектуальной системы • подсистема логического вывода на основе анализа семантики вход­ ных сообщений и имеющихся знаний формулирует постановку задачи, осу­ ществляет поиск вариантов ее решения и выбирает из них наилучшие;

• генератор программ формирует программу решения, используя зна­ ния о методах решения задач;

• интерпретатор задач обеспечивает выполнение сгенерированных программ;

• база знаний обеспечивает хранение и доступ к различным видам зна­ ний, используемым интеллектуальной автоматизированной системой (ИАС) при ее функционировании.

Выделяют следующие виды знаний:

• интерфейсные — знания о взаимодействии с окружающей средой;

• проблемные — знания о предметной области (ПрО);

• процедурные — знания о методах решения задач;

• структурные — знания об операционной среде;

• метазнания — знания о свойствах знаний.

В табл. В.1 представлено развитие операционной среды, базы знаний и интерфейса для пяти поколений ЭВМ.

Основные функциональные свойства процедурные знания естественные языки языки спецификаций языки управления процедурные языки машинные языки Примечание. свойство.

Попытки определения структуры исследований в области ИИ пред­ принимались неоднократно. Одна из наиболее известных точек зрения по этому вопросу изложена в [12]. Согласно ей исследования в области ИИ включают два базовых направления:

• бионическое, занимающееся проблемами искусственного воспроиз­ ведения структур и процессов, характерных для человеческого мозга и ле­ жащих в основе решения задач человеком;

• программно-прагматическое, занимающееся созданием программ решения задач, считающихся прерогативой человеческого интеллекта (по­ иск, классификация, обучение, принятие решений, распознавание образов, рассуждения и др.).

В рамках первого направления в учебном пособии будут рассмотрены проблемы создания ПО, использующего модели искусственных нейронных сетей (ИНС).

В силу сложности целей и задач бионического направления до послед­ него времени доминирующим в ИИ являлось программно-прагматическое направление, хотя в будущем бионическое направление, вероятно, будет определяющим. Поэтому в пособии основное внимание уделяется общим для обоих направлений концепциям технологического подхода к созданию ПО, а также базовым методам программно-прагматического направления.

В программно-прагматическом направлении выделяют три подхода:

• локальный, или задачный — создание для каждой задачи, присущей интеллектуальной деятельности человека, специальной программы, дающей результат не хуже того, что достигает человек (например, программы для игры в шахматы);

• системный, или основанный на знаниях — создание средств автома­ тизации построения программ для решения интеллектуальных задач на ос­ нове знаний о ПрО; в настоящее время этот подход является преобладаю­ щим;

• использующий метапроцедуры программирования для составления интеллектуальных программ по описаниям задач на ЕЯ.

Структура исследований, относящихся к программно-прагматичес­ кому направлению ИИ, приведена на с. 15-16. Первые три области исследо­ ваний соответствуют названным выше подходам. Четвертая область пред­ ставляет основные классы прикладных ИАС, использующих результаты, получаемые в рамках программно-прагматического направления.

Материал учебного пособия соотносится с направлениями исследова­ ний из данной структуры. Ссылки на номера направлений указаны в преам­ булах глав и сносках к названиям параграфов.

1. ТЕХНОЛОГИЯ КОНЦЕПТУАЛЬНОГО

ПРОГРАММИРОВАНИЯ

Технология концептуального программирования ориентирована на хорошо структурированные предметные области. Ее сущность заключается в ав­ томатическом синтезе программ решения прикладных задач по их описанию на ограниченном естественном языке.

В главе излоэюены теоретические основы данной технологии. Приведена краткая характеристика ее инструментария — программных решателей пакета решения инэюенерных задач {ПРИЗ).

Содерэюание главы соответствует направлениям исследований в области 1.1. Основы теории концептуального программирования Технология концептуального программирования (ТКП) — одна из старейших и наиболее развитых в ИИ как в теоретическом, так и в практи­ ческом аспектах. Она разработана советскими учеными и сейчас ведущие позиции в ней занимают ученые России и Эстонии. Технология концепту­ ального программирования предназначена для синтеза программ решения задач по их описанию на ограниченном естественном языке (ОЕЯ) при не­ которых ограничениях. Эти ограничения требуют, во-первых, точного ука­ зания ПрО, к которой относится решаемая задача, и, во-вторых, фиксации класса решаемых задач. Последние получили название вычислительных или расчетно-логических задач. В общем случае их описание на ОЕЯ имеет вид:

В выражении (1.1) М идентифицирует ПрО (например, тригономет­ рию, кинематику и т. д.). Кортеж (хь...,Хп) содержит идентификаторы пеТехнология концептуального программирования ременных с известными значениями, а кортеж (уь.,.,Уп) — идентификато­ ры переменных, значения которых требуется определить.

Такая постановка допускает широкую трактовку понятия ПрО. Рас­ смотрим примеры интерпретации (1.1).

Пример 1. Зная треугольник, вычислить S по а, Ь, с.

Здесь ПрО — раздел геометрии, в котором определяются понятие тре­ угольника и его свойства; S— площадь треугольника с вершинами а, 6 и с, координаты которых считаются известными.

Пример 2. Зная теория, вычислить доказательство по формула.

Здесь ПрО задана некоторой формальной системой теория. Требуется доказать истинность или ложность указанной формулы.

Пример 3. Зная кадры, вычислить фамилии_молодых_сотрудников.

Здесь ПрО представляет база данных (БД) с описанием кадров. Пред­ полагается, что система располагает критерием отнесения сотрудника к ка­ тегории молодых сотрудников.

Существенным ограничением ТКП является предположение, что в компьютере имеется модель ПрО (МПрО), с которой можно манипулиро­ вать. В технологии концептуального программирования для представления МПрО используются семантические сети специального вида, называемые вычислительными моделями (ВМ). Они будут описаны ниже.

Известны четыре подхода к синтезу программ:

1) дедуктивный — построение программы выполняется на основе до­ казательства, что решение задачи существует;

2) индуктивный — программа строится по примерам, каждый из кото­ рых определяет ответ для некоторого подкласса исходных данных;

3) трансформационный — программа синтезируется путем преобразо­ вания исходного описания задачи по правилам, совокупность которых пред­ ставляет знания о ее решении;

4) утилитарный — программа строится из практических потребностей на основе частных закономерностей и приемов.

В технологии концептуального программирования используются пер­ вые два подхода (дедуктивный и индуктивный).

Основная идея ТКП состоит в следующем. Пусть существует поста­ новка задачи в виде (1.1). Необходимо:

• перейти от (1.1) к теореме существования решения данной задачи;

• построить доказательство теоремы существования;

• извлечь из доказательства программу решения задачи.

При реализации этого метода получаем два важных результата:

1) программа точно соответствует описанию задачи;

2) вместо отладки программы выполняется «отладка» описания за­ дачи.

Разработка программы Рис. 1.1. Сравнение традиционного метода разработки программы решения задачи и ТКП Сравнение традиционного метода разработки программы решения за­ дачи и ТКП иллюстрирует рис. 1.1.

Процесс перехода от описания ПрО на ОЕЯ к точной спецификации этого описания на некотором формальном языке, ориентированном на ком­ пьютерное представление, называется концептуализацией. Отсюда и пошло название рассматриваемой технологии — ТКП.

В качестве математического аппарата концептуализации в рамках ТКП разработаны, как отмечалось выше, так называемые ВМ. Они являются разновидностями семантических сетей. Семантическая сеть S в общем виде определяется следующим образом:

где О — множество объектов ПрО (I ОI = к); R — множество отношений между объектами ПрО (\R\ =/); Oi — /-й объект ПрО; Г —у-е отношение между объектами ПрО.

ВМ для заданной ПрО определяется как кортеж:

1. Технология концептуального программирования где Pi — имя понятия ПрО; fj — функциональное отношение между поня­ тиями; Uk — управляюш[ая структура.

Функциональное отношение fj задается тройкой где Xj = (Xj^,..., Xj^) — набор входных переменных для^ (их типы и зна­ чения должны быть известны); Fj — ссылка на процедуру (программный модуль), реализующую вычисление Yj = Fj(Xj); 1^= (у^.р..., yj„) — набор выходных переменных для Jj (их типы известны, а значения должны вычис­ ляться по Xj).

Входные и выходные переменные соответствуют понятиям ПрО.

Управляющие структуры и^ реализуют отображения XJHYJB множество раз­ решенных типов данных. Кроме того, они позволяют приписывать перемен­ ным как известные, так и вычисленные значения.

Функциональное отношение может реализоваться только тогда, когда все переменные из Xj имеют допустимые значения.

Заметим, что тройки (1.4) получили в научной литературе название плекс-элементов, а формальные грамматики, в терминальные и нетерми­ нальные словари которых могут входить плекс-элементы, — плекс-грамматик.

Графически концептуализация ПрО в рамках ВМ изображается гра­ фом G:

Процесс доказательства теоремы существования решения задачи (1.1) отображается на графе G как «волновой процесс», начинающийся в верши­ нах (х\,...,Хт) И заканчивающийся, когда «волна» достигнет всех вершин (Уь...,>^«).

При волновой интерпретации можно детализировать постановку зада­ чи (1.1) и выделить четыре класса задач.

1. Задачи на доказательство. Дано: теория М и имена Xi. Доказать, можно ли определить значения переменных с именами Yj.

Зададим на графе G отображение Г: V^ V, а также отображения старших порядков Г"^^ и транзитивные замыкания Г*. При этих обозначе­ ниях решение задачи существует, если Yj с ГХ..

2. Задачи на вычисление значений переменных. Дано: теория М, имена Xi, значения X., имена Yj. Найти значения Yj.

Решение сводится к решению предыдущей задачи, но с вычислением значений переменных по мере распространения «волны».

LI. Основы теории концептуального программирования 3. Задачи на прогнозирование. Дано: теория М и имена JL^. Найти, что можно определить при этих условиях.

Ответом служит множество имен ГХ^.

Задачи третьего класса полезны, например, при обработке результатов эксперимента, когда требуется найти все, что можно определить по экспе­ риментальным данным.

4. Задачи планирования эксперимента. Дано: теория М, имена Yj, L — критерий оценки трудоемкости определения значений переменных с имена­ ми X НайтиXi(^X\Xi\- Yj&Z(^) = extr.

В задачах четвертого класса минимизируются затраты на постановку эксперимента, в результате которого вычисляются значения переменных с именами Yj.

Рассмотрим теорему существования решения задачи в постановке (1.1). Обозначим Р{х) предикат входных условий, а i?(x, у) — предикат вы­ ходных условий; х-{хи.j^m), У^(Уи •••5>^«)- Запишем теорему существо­ вания в виде Будем рассматривать только конструктивные логические теории, в ко­ торых под «существовать» понимается «быть построенным». Другими сло­ вами, конструктивное доказательство теоремы существования решения со­ держит описание процесса построения искомого решения, так как только существование реализуемых объектов может быть конструктивно доказано.

Впервые Н.Н. Непейвода доказал, что различные определения реали­ зуемости эквивалентны [18]. Он же показал, что существует реализуемость, при которой формулам вида Зу R(y) будет соответствовать либо программа вычисления у, либо само значение у [19]. Тогда любой доказуемой формуле будет соответствовать программа. Предполагается, что реализации всех аксиом заданы априорно. Для каждого правила вывода YI ' '—~ (или просто '''"'—-) заданы правила построения реализации выводимой по этому правилу формулы А по реализациям формул Ai,..., ^А. Тогда реализа­ ция любой выводимой формулы может быть построена прямо по выводу формулы.

Обычно в качестве конструктивной логической теории используют интуиционистскую логику, в которой неприменимы законы снятия двойного отрицания и закон исключенного третьего. Для каждого правила вывода в ней записываются программные конструкции, дающие реализации формул, выводимых по этому правилу [19].

1. Технология концептуального программирования Конструктивные доказательства имеют следующие особенности:

• на каждом шаге доказательства применяется некоторое правило вывода;

• в качестве посылок используются только аксиомы или ранее дока­ занные формулы;

• в доказательстве отсутствуют циклы;

• некоторые шаги доказательства могут использовать леммы, для ко­ торых строятся вспомогательные доказательства.

Важно отметить, что каждый шаг доказательства преобразуется во фрагмент программы отдельно от других шагов. Однако, структуру доказа­ тельства можно сохранить и в программе, так как «поток фактов в доказа­ тельстве» удовлетворяет требованиям «потока данных в программе». По­ строенные таким способом программы являются хорошо структурирован­ ными: в них отсутствуют операторы goto.

Существуют два способа извлечения программы из доказательства.

При первом реализации формул используются непосредственно, поэтому программой является реализация теоремы существования решения. ПроF... F грамма строится в функциональной форме. Шаг вывода: \\ '' "' ^. ПоF сылки F\,...,Fk являются либо аксиомами, либо уже выведенными форму­ лами, поэтому их реализации определены. Реализация следствия F строится по реализациям посылок и по номеру правила вывода.

Любой вывод рассматривается как дерево, ребра которого определяют логическую зависимость шагов вывода, расположенных в вершинах. Важно заметить, что вместо полного вывода теоремы существования (1.6) исполь­ зуется следующее правило: при выполнении предусловий Р программы сле­ дует выполнение ее постусловий R, т. е при добавлении к системе аксиом формулы Р доказывается R\ (Р h" Л) Н (/^ => Л).

В терминальных вершинах дерева вывода располагаются аксиомы, в корне — последняя выведенная формула. На каждом шаге вывода применя­ ется одно и то же правило:

Второй способ извлечения программы заключается в составлении ее оператор за оператором из шагов доказательства теоремы существования (так называемый линейный вывод). В этом случае программа состоит из операторов присваивания и операторов вызова процедур.

Отметим, что:

• рассмотренная система правил вывода не содержала правил для ин­ дукции, поэтому в программах не было циклов;

7.7. Основы теории концептуального программирования • применяя разные схемы индукции, можно получить разные схемы циклов (в [18] описаны схемы индукции для синтеза цикла while и доказана завершимость вычислений).

Сформулируем краткие общие замечания к процессам построения до­ казательства теоремы существования и извлечению из него программы ре­ шения задачи.

1. Только малая часть информации, используемой при синтезе про­ граммы, задается в постановке задачи (1.1). Целесообразно хранить знания о ПрО в памяти решателя и использовать их для решения всего множества задач ПрО (а не одной конкретной задачи).

2. Знания должны быть представлены в виде аксиом теории. Таким об­ разом, язык представления знаний определяется программой поиска доказа­ тельства. Правила вывода почти всегда фиксированы (хотя Н. Нильсон в [6] приводит примеры изменения набора правил вывода).

3. Знания о ПрО или об отдельной задаче образуют теорию.

4. Число аксиом в практически полезных теориях достигает десятков тысяч.

5. Первой удачной системой, в которой используется дедуктивный синтез программ, является ПРОЛОГ.

6. Универсальные методы синтеза программ требуют длинных доказа­ тельств. Однако, к счастью, теории, в которых строятся доказательства раз­ решимости вычислительных задач, всегда являются в некотором смысле простыми.

7. Для общего метода резолюции количество шагов минимального вывода может превышать экспоненту от числа переменных пропозиционной формулы. Этот результат получен Г.С. Цейтиным еще в 1968 г.

8. В системе ПРОЛОГ, как правило, применяется единичная линейная гиперрезолюция, которая часто обеспечивает приемлемое время вывода.

9. В продукционных системах при дедуктивном выводе следствие вы­ водится из совокупности фактов и правил, причем факты выступают как аксиомы, а правила используются как правила вывода.

10. В технологии концептуального программирования применяется класс теорий, в которых почти отсутствует перебор при построении дока­ зательства существования решения задачи. Такой класс теорий получил название SSR (Structural Synthesis Rules — структурный синтез про­ грамм, точнее, система правил структурного синтеза). Минц Т.Е. показал, что система SSR полна в том смысле, что по приведенным правилам из любой системы аксиом в виде предложений вычислимости выводимы точно те формулы, эквиваленты которых выводимы в интуиционистской логике [17].

1. Технология концептуального программирования 1.2. Инструментарий концептуального программирования Технология концептуального программирования программно реали­ зована в серии программных решателей ПРИЗ: Микро-Приз, Эксперт-Приз.

Общим для них является язык УТОПИСТ (Универсальный Транслятор описаний Теорий). В решателях накоплена значительная база описаний ПрО (теорий): элементарная математика, физика, электротехника, механика и др.

В Эксперт-Приз ТКП объединена с еще одной эффективной технологи­ ей ИИ — экспертными системами (ЭС). На рис. 1.2 представлена укрупнен­ ная схема решения задачи в ПРИЗ, а на рис. 1.3 — архитектура этой системы.

Эксперт-Приз предоставляет средства для формирования набора по­ нятий ПрО, с помощью которых описываются объекты и отношения, фигу­ рирующие в прикладной задаче. Таким образом, модель задачи состоит из двух разделов: списка объектов и списка уравнений (рис. 1.4).

Запрос на решение задачи содержит перечень искомых параметров объектов. Результаты моделирования выводятся в окне Results (рис. 1.5).

1. На основе ТКП разрабатываются решатели задач для хорошо опре­ деленных (структурированных) ПрО.

2. Черты естественного интеллекта, присущие ТКП:

• дедуктивный вывод;

• ВМ как средства концептуализации для хорошо структурированных ПрО;

• интуиционистская логика.

Исходное описание задачи (обрабатывает исходное описание задачи и синтезирует выходное сообщение) Рис. 1.2. Укрупненная схема решения задачи в ПРИЗ 1.2. Инструментарий концептуального программирования Рис. 1.3. Архитектура ПРИЗ:

/ — исходное описание задачи на языке УТОПИСТ; 2 — макропроцессор; 5 — база макро­ определений; 4 — полное описание задачи на языке УТОПИСТ; 5 — транслятор с языка УТОПИСТ; 6 — база ВМ, используемая при трансляции; 7 — построенный путем доказа­ тельства алгоритм решения задачи; 8 — генератор (синтезатор) программы по алгоритму;

9 — фрагменты программ, соответствующих отдельным шагам доказательства существова­ ния решения задачи; 10 — программа решения задачи; И — семантическое представление выходного сообщения; 12 — языковый процессор; /3 — выходное сообщение пользователю 3. Текущее состояние ТКП:

• полностью отработана, доведена до активного практического ис­ пользования в пакетах типа ПРИЗ;

• инвариантна к ПрО (инвариантность связана с используемым аппа­ ратом ВМ, языком УТОПИСТ, архитектурой программных пакетов).

1. Каково назначение ТКП?

2. Что такое вычислительные или расчетно-логические задачи?

3. Назовите подходы к синтезу программ.

4. В чем состоит основная идея ТКП?

5. Дайте определение понятия «концептуализация».

6. Что понимается под вычислительными моделями и как они описываются?

7. Как определяется функциональное отношение в ВМ?

8. Как графически представляется концептуализация ПрО в рамках ВМ?

9. Какие классы задач можно выделить при волновой интерпретации процесса их решения на графе концептуализации?

10. Сформулируйте теорему существования решения задачи в ТКП.

11. Какой тип логики используется в ТКП и почему?

F i l e : S:\PD4EHftNPLEi Рис. 3.15. Представление графа тезауруса в системе Visual Thesaums (в цен­ тре окна располагается вершина-значение) 1. Создание одноязычных рефератов из источников на разных языках.

На основе таких рефератов можно принимать решения, требуется ли пол­ ный перевод исходных документов.

2. Построение рефератов по гибридным источникам, включающим как текстовые, так и числовые данные в разных формах (таблицы, диаграммы, гра­ фики и т. д.). Например, документ может содержать статистическую информа­ цию из реляционной БД и комментарии к ней. Методы реферирования для та­ ких документов находятся на стадии теоретической проработки.

3. Создание рефератов на основе массивов документов. Например, по­ строение единого реферата по сборнику тезисов докладов научной конферен­ ции. Для решения этой задачи требуются методы, позволяющие анализировать каждый документ из набора и формировать общий реферат путем объединения и обобщения извлеченных сведений. Соответствующие средства должны быть способны выявлять сходство и различие в содержании документов, отбрасы­ вать избыточную информацию и генерировать краткое изложение содержания массива в целом. Одна из областей применения подобных средств — формиро­ вание новостных сообщений по газетным источникам.

3.3. Автоматическое реферирование и аннотирование 4. Растущий объем мультимедийной информации обусловливает акту­ альность разработки средств ее автоматического реферирования. Методы извлечения семантики из мультимедийной информации находятся на на­ чальных стадиях развития.

Средства автоматического аннотирования в целом аналогичны сред­ ствам автоматического реферирования. Однако требования к сжатию текста для них, как правило, на порядок более жесткие.

1. Технологии автоматического реферирования и аннотирования толь­ ко начинают свою эволюцию. Будущее принадлежит системам, основанным на знаниях. Это требует создания и использования представительных слова­ рей-тезаурусов (таких, как WordNet) и онтологических справочников (таких, как Сус и Penman Upper Model).

2. Для обучения NLP-систем можно использовать большие хранилища текстов и рефератов к ним (например, на основе The Wall Street Journal).

3. В современных системах автоматического реферирования и анно­ тирования используется комбинированный подход, сочетающий статисти­ ческие методы и методы, основанные на знаниях.

4. Системы автоматического реферирования и аннотирования должны поддерживать распространенные языки разметки и форматы документов (такие, как HTML, XML, RTF, PDF, DOC), a также основные форматы мета­ данных для информационных ресурсов.

5. При разработке ЛО ИАС, обрабатывающих тексты на ЕЯ, используют­ ся психолингвистические теории организации лексической памяти человека и методы математической лингвистики. Примером служит система WordNet.

1. Чем отличается реферат от аннотации?

2. Почему автоматическое реферирование и аннотирование относят к техноло­ гиям ИИ?

3. На чем основываются поверхностные и глубинные методы автоматического реферирования и аннотирования?

4. Какие системы автоматического реферирования и аннотирования Вы знаете?

5. Какие требования предъявляются к реферату?

6. Перечислите виды рефератов.

7. Каковы основные идеи метода составления выдержек?

8. Охарактеризуйте модель линейных весовых коэффициентов. Каковы ее досто­ инства и недостатки?

9. Какие подходы реализуются в системах автоматического реферирования, осно­ ванных на знаниях?

3. Автоматизация работы со знаниями, представленными в текстовом виде 10. Какую роль играют тезаурусы типа WordNet для систем автоматического рефе­ рирования и аннотирования?

11. Охарактеризуйте математическую модель тезауруса WordNet.

12. Какие типы тезаурусных отношений представлены в WordNet?

13. Что такое синеет?

14. Какие задачи являются перспективными для систем автоматического рефериро­ вания и аннотирования?

Машинный перевод (МП) текстов с одних ЕЯ на другие — одна из наиболее ранних задач невычислительных приложений ЭВМ и ИИ. Отме­ тим два аспекта, определяющих актуальность задач МП и не снижающееся внимание к ним со стороны ученых и разработчиков ИАС:

• все возрастающая потребность в переводах в науке, литературе, ди­ пломатии, экономике и других областях деятельности, обусловливаемая по­ вышением открытости границ, интернационализацией науки и экономики, взаимопроникновением культур и т. д.;

• для МП гораздо яснее критерии оценивания результатов, чем в за­ дачах понимания текстов, организации диалога и др.

Создание систем МП требует совместной работы специалистов разно­ го профиля: в первую очередь, лингвистов, математиков и программистов.

Системы МП различают по трем аспектам:

• ограничениям по ПрО.

По количеству поддерживаемых рабочих языков различают двуязыч­ ные и многоязычные системы МП. Язык исходного текста называется вход­ ным, а язык перевода (формируемого текста) — выходным. На рис. 3.16, а условно представлены две системы МП, обеспечивающие перевод с языка на язык 2 и с языка 2 на язык 1. На рис. 3.16, б условно изображены два класса систем МП. Системы первого класса переводят текст с языка 1 на языки 2.1, 2.2,..., 2./:, а системы второго класса переводят текст с языков 2.1, 2.2,..., 2.к на язык 1.

Содержание параграфа соответствует направлению исследований в области ИИ 1.4.2.

В современных многоязычных системах МП поддерживаемые языки могут быть и входными, и выходными. Направление перевода определяет роли языков (входной, выходной).

По типу текста выделяются системы для перевода письменного текста и устного диалога. Системы первого типа классифицируются по назначению для перевода:

• деловой прозы (научно-технических статей, заголовков и аннота­ ций, описаний изобретений, технической документации и др.);

• художественной литературы.

Системы для перевода устного диалога обычно ориентированы на уз­ кую тематику: резервирование мест в гостинице, определение маршрута проезда по городу и т. д. Они интегрируются с системами анализа и синтеза устной речи.

Ограничения систем МП по ПрО обусловлены поддержкой в них лек­ сики, соответствующей той или иной области знаний (медицины, информа­ тики, математики и т. д.).

До последнего времени отсутствовали промышленные системы рас­ познавания русской речи (звукового представления текста). К решению этой проблемы подключились компании Intel и Cognitive Technologies (извест­ ный российский разработчик OCR-систем). Их совместный продукт полу­ чил название RuSpeech. В его основе лежит БД, содержащая цифровое пред­ ставление звучания непрерывной русской речи с соответствующими тек­ стами и фонетической транскрипцией. БД включает звуковые фрагменты для более 50 тыс. предложений с фонетической разметкой каждого из них.

Система «сверяет» с ними естественную речь человека, распознавая не только слова, уже присутствующие в БД, но и отдельные фонемы и их по­ следовательность. Это позволяет минимизировать количество ошибок при распознавании новых слов, отсутствующих в БД.

3. Автоматизация работы со знаниями, представленными в текстовом виде Рис. 3.17. Автоматизированные системы МП:

а — с постредактированием; б — с предредактированием; в — с пред- и по­ стредактированием; 7 — входной текст; 2 — система МП; 3 — перевод, сфор­ мированный системой МП; 4 — человек (редактор), обрабатывающий с помо­ щью текстового редактора перевод, сформированный системой МП; 5 — вы­ ходной текст; 6 — человек (редактор), выполняющий предварительную обработку входного текста с помощью текстового редактора; 7 — входной текст после предварительного редактирования человеком В создании БД RuSpeech приняли участие 220 дикторов. Она содер­ жит около 50 часов непрерывной речи, имеет объем 15 Гб и размещается на 30 CD-ROM.

Практическое применение RuSpeech связано с речевой реализацией пользовательского интерфейса программных систем. Словарный запас RuSpeech достаточен для понимания говорящего в реальном времени. По масштабности RuSpeech может конкурировать с лучшими мировыми анало­ гами. Фактически это означает новый этап развития речевых технологий в России. По мнению создателей RuSpeech интеграция уникальной звуковой БД с передовыми технологиями анализа и распознавания речи уже в бли­ жайшее время должна привести к созданию речевых интерфейсов, приме­ нимых в промышленности, мобильной связи, Intemet-порталах, системах управления и иных приложениях.

Системы МП бывают автоматическими и автоматизированными. Во втором классе ряд функций остается за человеком. На рис. 3.17 изображены три схемы автоматизированных систем МП. Их достоинствами являются простота реализации и повышение производительности перевода в 3—5 раз по сравнению с переводом вручную человеком. Недостаток таких систем связан с необходимостью участия в переводе специалиста в ПрО, к которой относится текст, владеющего входным и выходным языками.

Как обычно, перед описанием схемы автоматического решения интел­ лектуальной задачи полезно рассмотреть процесс ее решения человеком.

Выполняя перевод, человек уясняет смысл очередного фрагмента текста (фразы, абзаца) и выражает его на выходном языке, стараясь обеспечить Фраза — законченный оборот речи, предложение.

структурную и смысловую близость к оригиналу (без этого результатом бу­ дет не перевод, а пересказ). При переводе человек использует как лингвис­ тические знания о входном и выходном языках, так и экстралингвистиче­ ские знания (знания о ПрО, общих закономерностях среды перевода, законах коммуникации). В соответствии с возможностями компьютерной реализа­ ции данных функций человека и разрабатывались поколения систем МП.

Выделяют три поколения таких систем [78]:

1) П-системы — системы прямого перевода (direct systems);

2) Т-системы (от слова transfer — преобразование);

3) И-системы (от слова interlingua — язык-посредник).

Цикл работы П-системы состоит из трех этапов. На первом выполня­ ется морфологический анализ входной фразы. С помощью базы правил для входного языка и двух словарей (словаря основ слов и словаря оборотов) она переводится в ее морфологическое представление. При этом каждой ос­ нове и каждому обороту ставятся в соответствие свои наборы признаков.

Таким образом, морфологическим представлением фразы является множе­ ство пар (признак, значение).

На втором этапе выполняется перевод морфологического представле­ ния входной фразы в морфологическое представление выходной фразы. Для этого используется база правил соответствия морфологических признаков входного и выходного языков.

На третьем этапе выполняется морфологический синтез: устанавли­ ваются нужный порядок и форма слов согласно правилам грамматики вы­ ходного языка. Итоговый результат по качеству получается немного лучше подстрочного перевода.

В Т-системах помимо процедур морфологической обработки реали­ зуются методы синтаксического анализа и синтеза. Работа Т-системы вклю­ чает пять этапов. На первом осуществляется морфологический анализ вход­ ной фразы (аналогично П-системам). На втором этапе по его результатам выполняется синтаксический анализ, в ходе которого строится представле­ ние входной фразы в виде синтаксического дерева (дерева синтаксического разбора). Различают два типа таких деревьев:

• деревья синтаксических составляющих;

• деревья синтаксических зависимостей.

В первом случае грамматика ЕЯ описывается в виде моделей Н. Хомского [75]. Дерево составляющих представляет вложенные группы словоформ. Самая крупная словоформа соответствует фразе, самые мелкие — синтаксически неделимым текстовым единицам (словам, словосочетаниям).

Во втором случае узлы дерева представляют синтаксические единицы текста, а дуги — отношения подчинения между ними. Это позволяет ис­ пользовать при анализе фильтровый метод.

3. Автоматизация работы со знаниями, представленными в текстовом виде Рис. 3.18. Отношения между этапами функционирования трех поколе­ На третьем этапе выполняется переход от входного к выходному языку.

Для этого синтаксическое дерево входной фразы преобразуется в синтаксиче­ ское дерево выходной фразы. Выделяются три уровня преобразования:

• поверхностно-синтаксический;

• глубинно-синтаксический;

• синтактико-семантический.

В соответствии с их поддержкой различают и Т-системы.

На четвертом этапе проводится синтаксический синтез. Грамматические правила в Т-системах имеют декларативную (дескриптивную) форму.

На пятом этапе, как и в П-системах, осуществляется морфологический синтез.

В И'Системах наряду с морфологией и синтаксисом используются экстралингвистические знания, т. е. знания о семантике и прагматике ПрО.

Поэтому после этапов морфологического и синтаксического анализа вход­ ной фразы функционирование И-системы включает этап семантического анализа. Его результатом служат семантические представления входной и выходной фраз, эквивалентные с точностью до лексики.

Отношения между этапами функционирования трех поколений систем МП иллюстрирует рис. 3.18.

Таким образом, системы МП представляют собой сложные программ­ ные комплексы с разными видами обеспечений. К лингвистическому обес­ печению систем МП относятся:

• словари слов и словосочетаний с соответствующими признаками;

• морфологические таблицы суффиксов и окончаний;

• базы грамматических правил и др.

Математическое обеспечение включает модели для представления лингвистической информации и алгоритмы их преобразования, правила ло­ гического вывода для уточнения обрабатываемого текста на основе экстра­ лингвистических знаний. К программному обеспечению относятся профаммы выполнения перевода, ведения словарей, формирования базы правил и т. д.

Информационное обеспечение (ИО) представляет база экстралингвистиче­ ских знаний о ПрО.

К числу наиболее распространенных в России систем МП и компью­ терных словарей относятся:

• Stylus — система МП, включающая множество словарей по разным ПрО;

• Universal Translator — многоязычная система МП;

• Socrat — система, позволяющая сканировать документы, перево­ дить их содержимое и проверять орфографию;

• Polyglossum — многоязычная система МП с широким набором предметных словарей;

• Promt — многоязычная система МП, содержащая множество слова­ рей по разным ПрО;

• WebTranSite — система для перевода web-страниц;

• Lingvo — компьютерный англо-русский и русско-английский словарь.

Основные характеристики компьютерного словаря Lingvo (разработ­ чик — компания ABBYY Software House):

• перевод слова, набранного в панели ввода словаря или перенесенного на пиктограмму работающей системы с помощью операции «drag and drop»;

• перевод слова из буфера промежуточного хранения по горячей клавише;

• одновременная работа с большим количеством предметных словарей;

• гипертекстовое представление словарных статей;

• наличие тезауруса;

• наличие звуковой базы, представляющей произношение основных английских слов;

• полнотекстовый поиск слов и словосочетаний в статьях всех словарей;

• пословный перевод фразы;

• вставка перевода в редактируемый текст с помощью операции «drag and drop»;

• представление транскрипции, грамматических характеристик и па­ радигмы слова (списка всех его форм);

• предоставление подсказки по правильному написанию слова;

• создание и ведение собственных словарей.

На сегодняшний день лидером в области систем МП является Япония.

3. Автоматизация работы со знаниями, представленными в текстовом виде 1. МП — активно развиваемая технология ИИ. Она базируется на раз­ личных схемах перевода текстов на ЕЯ человеком, использовании знаний о морфологии, синтаксисе, семантике входных и выходных языков, а также экстралингвистических знаний.

2. Современные системы МП значительно (в десятки раз) увеличива­ ют производительность перевода, но по качеству еще не могут сравняться с человеком. Основные трудности связаны с реализацией этапов семантиче­ ского анализа и синтеза (т. е. с проблемой понимания естественно-языко­ вого текста).

3. Перспективным направлением совершенствования систем МП яв­ ляется использование онтологических словарей и БЗ.

1. Как классифицируются системы МП?

2. Какие схемы обработки текста используются при автоматизированном МП?

3. Чем различаются П-, Т- и И-системы МП?

4. Что такое экстрапингвистические знания, и как они используются в системах МП?

5. Почему МП относят к технологиям ИИ?

6. Каковы перспективы систем МП?

3.5. Автоматическая классификация документов Потребности в средствах автоматической классификации документов испытывают:

• корпоративные системы документооборота;

• каталоги Internet;

• каналы вещания;

• службы электронной почты;

• электронные библиотеки;

• информационные агентства;

• Intemet-порталы и др.

Содержание парафафа соответствует направлению исследований в области ИИ 1.4.4.

3.5. Автоматическая классификация документов Эффективность поиска в большом информационном массиве сущест­ венно повысится, если его разбить на части по некоторому критерию, свя­ занному с целями поиска. Таким образом, классификация документов позволяет сузить область поиска и не только увеличить его скорость, но и значительно повысить точность результатов. Поэтому технологии автома­ тической классификации документов отводится важное место в системах управления документооборотом.

Суть задачи классификации состоит в автоматическом распределении поступающих в систему документов в зависимости от их типа и содержания по рубрикам (классам).

В теории ИС различают два типа классификации [85]. Первый тип предусматривает распределение документов как элементов некоего фор­ мального множества по классам по аксиоматически определенным критери­ ям. В рамках второго типа документы классифицируются на основе их эм­ пирического анализа для достижения заранее заданной цели.

Первый тип классификации подходит для библиотечных ИС, в кото­ рых книги, электронные издания и другие информационные ресурсы (ИР) распределяются по достаточно устойчивой системе рубрик. В корпоратив­ ных ИС большинство документов первоначально классифицируются при­ близительно (неточно), а поисковые запросы «размыты». Поэтому здесь преимущество имеют подходящие для конкретных учреждений эмпириче­ ские динамические классификации.

На практике используются следующие критерии оценивания качества эмпирической классификации:

• результаты классификации не должны зависеть от порядка обработ­ ки документов;

• классификация должна быть устойчивой (малые изменения исход­ ных данных не должны сильно влиять на результаты);

• классификация не должна зависеть от объема выборки (масштабная независимость);

• классификация должна быть кластеризующей (объекты, обладаю­ щие большим сходством, не должны попадать в разные классы).

Коротко рассмотрим основные подходы к автоматической классифи­ кации документов.

Достаточно эффективен метод группировки и поиска блиэюайшего со­ седа. Классы формируются путем вычисления «расстояния» между парами документов и объединения ближайших соседей в кластеры. Метод нагляден и прост. Он дает хорошие результаты при удачном определении понятия «расстояние» между документами. В настоящее время он используется в рамках интерактивных кластерных методов. При работе с реализующей их ИС человек, регистрируя входящие документы, видит результаты кластери­ зации и может при необходимости вмешиваться в этот процесс.

3. Автоматизация работы со знаниями, представленными в текстовом виде Развитые системы управления документооборотом выполняют клас­ сификацию, формируя классы автоматически при поступлении документов в систему независимо от пользователя. При этом документ может быть од­ новременно отнесен к нескольким классам в соответствии с различными основаниями классификации.

Технология, реализованная в средствах фильтрации Microsoft Outlook, включает следующие этапы:

• ручное построение списка рубрик;

• формирование для каждой рубрики ее семантического образа, представляемого составляемым вручную набором ключевых слов (деск­ рипторов);

• применение программы многоаспектной сортировки, играющей роль порогового разделителя.

Проблемы, возникающие при использовании такого подхода, обу­ словлены:

• статичностью системы;

• наличием в тексте различных грамматических форм слов и синони­ мов ключевых слов;

• зависимостью важности слов от контекста;

• большой изменчивостью слов, характерной для ряда языков (в ча­ стности, русского и немецкого).

Другой подход к решению задачи автоматической классификации связан с использованием запросов как основы классификации. Он предусматривает:

• превращение списков ключевых слов в поисковые запросы;

• передачу запросов поисковым машинам, применяющим их по от­ ношению ко множеству поступивших документов;

• использование при поиске разнообразных лингвистических средств (процедур морфологического анализа, словарей синонимов и т. д.).

Недостатками данного подхода являются фиксированный набор руб­ рик и ручное построение наборов ключевых слов.

Некоторые новые продукты способны самостоятельно формировать семантические образы рубрик после самообучения. Администратор системы указывает рубрики и «образцовые» документы для обучения алгоритмов классификации. Система выделяет в обучающей выборке значимые слова и словосочетания, приводит их к базовым словарным формам, подсчитывает различительную силу терминов и составляет семантические образы из наи­ более различительных терминов.

Преимущества такого подхода:

• легкая настройка системы на изменяющийся поток документов;

• большая эффективность по сравнению с системами, предусматри­ вающими ручное формирование наборов ключевых слов.

3.5. Автоматическая классификация документов Данный подход реализован в продуктах Inxight Categorizer и «МедиаЛингва Классификатор SDK 2.0». Первый продукт обрабатывает бо­ лее 70 форматов документов на 11 западноевропейских языках. В нем используется метод группировки и поиска ближайшего соседа. Inxight Categorizer может быть интегрирован в Internet-порталы и другие прило­ жения. Он способен взаимодействовать с СУБД, поддерживающими XML-запросы.

Второй продукт представляет собой инструментарий для реализации функций автоматической классификации в ИАС. Его программные компо­ ненты обеспечивают обработку документов на русском и английском язы­ ках в форматах ТХТ, HTML, DOC, RTF и PDF. Алгоритмы классификации учитывают статистические, морфологические и синтаксические характери­ стики содержимого документов. Сведения о семантических образах и теку­ щем составе рубрик могут быть представлены на XML.

Проблематика автоматической классификации документов будет де­ тализирована в следующем параграфе на примерах конкретных систем.

1. Автоматическая классификация документов - активно развиваю­ щаяся технология ИИ. Она относится к ИИ, так как базируется на механиз­ мах, обеспечивающих понимание естественно-языкового текста.

2. Классификация документов позволяет сузить область поиска, повы­ сить его скорость и точность результатов.

3. Развитие методов автоматической классификации документов свя­ зано с использованием онтологического подхода.

1. В каких системах используются средства автоматической классификации доку­ ментов?

2. Каковы основные подходы к реализации функций автоматической классифика­ ции документов?

3. Перечислите критерии качества эмпирической классификации.

4. Какие этапы включает технология автоматической классификации документов, реализованная в средствах фильтрации Microsoft Outlook?

5. Каким образом формируются семантические образы рубрик в методах автома­ тической классификации документов?

http://www.inxight,com.

3. Автоматизация работы со знаниями, представленными в текстовом виде 3.6. Комплексные интеллектуальные программные системы Ряд коммерческих программных продуктов реализуют несколько рас­ смотренных в предыдущр1х параграфах интеллектуальных технологий обра­ ботки текстов на ЕЯ. В данном параграфе описываются три таких продукта:

• комплексный смысловой анализатор текста Text Analyst;

• промышленная ИПС Excalibur RetrievalWare (разработчик — фирма Convera Technologies Соф.; новое название продукта — Convera RetrievalWare);

• пакет NeurOK Semantic Suite (разработчик — компания «НейрОК Интел софт»).

3.6.1. Комплексный смысловой анализатор текста Text Analyst Анализатор текста Text Analyst** — отечественное интеллектуальное программное средство для работы с текстовыми документами. Text Analyst относят к категории программ-экстракторов. Он предоставляет пользова­ телям следующие основные возможности:

• анализ содержания текста с автоматическим формированием семантической сети — построение «смыслового портрета» документа в терминах основных понятий и их смысловых связей;

• анализ содержания текста с автоматическим формированием тема­ тического дерева — выявление семантической структуры документа в виде иерархии тем и подтем;

• смысловой поиск с учетом скрытых семантических связей слов за­ проса со словами документа;

• автоматическое реферирование текста — построение его «смысло­ вого портрета» в терминах наиболее информативных фраз;

• кластеризация информации — анализ распределения материала до­ кумента по тематическим классам;

* Содержание параграфа соответствует направлениям исследований в облас­ ти ИИ L3, 1.4, 2.2.2, 2.3.1, 2.3.3 и 4.2.

http://www.analyst.ru.

3.6. Комплексные интеллектуальные программные системы для обработки текстов • автоматическая индексация текста с преобразованием в ГТ (автома­ тическая расстановка гиперссылок);

• ранжирование всех видов информации о семантике текста по степе­ ни значимости с возможностью варьирования детальности ее исследования;

• автоматизированное формирование полнотекстовой БД с гипертек­ стовой структурой и возможностями ассоциативного доступа к информации.

В Text Analyst воплощены процессы, аналогичные некоторым меха­ низмам правополушарного мышления человека. Имеется в виду функцио­ нальная аналогия по входу и выходу с процессами, протекающими при так называемом «обучении с погружением».

Процедуры обработки текста включают:

• предварительный анализ текста (выделение в тексте понятий, вхо­ дящих в базовые словари);

• статистический анализ текста — определение частот встречаемости в тексте слов и словосочетаний (важность понятия оценивается по частоте его использования в тексте);

• по результатам частотного анализа формирование семантической сети для анализируемого текста, отражающей связи между понятиями и объединяющей их в единую смысловую картину (перед построением семан­ тической сети устанавливается порог значимости для понятий и связей меж­ ду ними);

• на основе семантической сети построение тематической структуры текста в виде дерева или леса понятий (каждой теме соответствует свое де­ рево понятий);

• автоматическое реферирование текста на основе его тематической структуры;

• формирование гипертекстовой разметки;

• смысловой поиск информации.

Основные принципы, реализуемые Text Analyst:

• принцип ассоциативности;

• построение структуры понятий, представляющей текст, в соответ­ ствии с их важностью и взаимосвязями;

• формирование тематической структуры текста в виде многоуровне­ вой иерархии тем и раскрывающих их подтем.

Суть принципа ассоциативности заключается в использовании такой модели представления текста, при которой его фрагменты указывают на места их хранения. Эта модель управляет механизмами статистической об­ работки текста: если фрагменты совпадают, то они указывают на одно и то же место, где записывается частота их встречаемости. В результате частот­ ного анализа формируется семантическая сеть — основная структура, ха­ рактеризующая смысл текста, в которой понятия (слова и словосочетания) 3. Автоматизация работы со знаниями, представленными в текстовом виде В верхней части окна Semantic Explorer размещается область для вво­ да запроса. В системе реализована процедура итеративного уточнения за­ проса в ходе диалога с пользователем. Результатом выполнения каждого запроса является не только множество отобранных документов, но и сово­ купность слов, предлагаемых пользователю для уточнения его контекста.

Эти слова выводятся в поле «context hints». Дополнительно в запросе могут быть представлены атрибуты искомых документов (например, время созда­ ния) и ограничения, связанные с их распределением по тематическим руб­ рикам. Формируемые подобным образом запросы более точно и емко отра­ жают интересы пользователей, что способствует существенному повыше­ нию точности поиска и уменьшению информационного шума.

В различных версиях Semantic Explorer реализованы разные способы визуализации семантики массива документов. В частности, использованы представления на основе самоорганизующихся карт Кохонена [93], а также метафор «звездного неба» и «рыбьего глаза».

В рамках метафоры «звездного неба» отобранным документам соот­ ветствуют звезды на панораме ночного неба, причем их яркость пропорцио­ нальна степени релевантности запросу. Звезды, обозначающие семантичеАвтоматизация работы со знаниями, представленными в текстовом виде ски близкие документы, располагаются рядом. Кластеры, релевантные за­ просу, отображаются в виде скоплений звезд (млечного пути).

Представление на основе метафоры «рыбьего глаза» имеет форму круга. В его центре размещается образ кластера, наиболее близкого к тема­ тике запроса. Вокруг него выводятся образы кластеров, связанных с класте­ ром, попавшим в центр рассмотрения. Прочие кластеры, имеющие слабое отношение к запросу, располагаются на периферии круга.

Визуальные представления семантики в Semantic Explorer являются интерактивными, т. е. позволяют вести навигацию по семантической струк­ туре массива документов.

Отметим, что разработчики NeurOK Semantic Suite позиционируют свой продукт на рынке как платформу для создания систем управления зна­ ниями. Соответствующая проблематика излагается в гл. 7.

1. Коммерческие интеллектуальные программные продукты для обра­ ботки текстов входят в пору зрелости, становятся привычным инструмента­ рием для широкого круга пользователей. Их применение приносит значительный экономический эффект.

2. Опыт практического использования таких продуктов показывает, что они должны базироваться как на традиционных, так и на новых (интел­ лектуальных) технологиях анализа текстовой информации. Их новые воз­ можности обеспечиваются за счет реализации моделей и методов ИИ: се­ мантических сетей, ИНС, методов нечеткого семантического поиска и др.

3. Интеллектуальные средства обработки текстов должны интегриро­ ваться с современными офисными приложениями и СУБД.

4. Создание подобных продуктов связано со значительными затратами на разработку для них ЛО и ИО, что требует привлечения высококвалифи­ цированных лингвистов, инженеров по знаниям и программистов.

1. Какие основные возможности предоставляет пользователю Text Analyst?

2. Какие принципы и механизмы обработки текста используются в Text Analyst?

3. Как в Text Analyst реализован принцип ассоциативности?

4. Назовите базовые словари и подсловари Text Analyst.

5. Как в Text Analyst используется модель семантической сети?

6. Каким образом определяются смысловые веса понятий в Text Analyst?

7. Что понимается в Text Analyst под тематической структурой текста?

8. Опишите механизм автоматического реферирования, реализованный в Text Analyst.

9. Как с помощью Text Analyst автоматизируется построение ГТ?

10. Охарактеризуйте функцию смыслового поиска в Text Analyst.

3.6. Комплексные интеллектуальные программные системы для обработки текстов 11. Для решения каких задач предназначена промышленная ИПС Excalibur RetrievalWare?

12. Назовите основные модули Excalibur RetrievalWare и их назначение.

13. Какие методы поиска информации реализованы в Excalibur RetrievalWare, и на каких моделях они базируются?

14. Каковы принципы нечеткого и семантического поиска в Excalibur RetrievalWare?

15. Для чего и как используются в Excalibur RetrievalWare ИНС?

16. Оцените основные интегральные характеристики Excalibur RetrievalWare.

17. Каково назначение пакета NeurOK Semantic Suite?

18. Как в NeurOK Semantic Suite передается смысл слов и фрагментов текста?

19. Назовите основные компоненты NeurOK Semantic Suite и их назначение.

20. Каким образом в NeurOK Semantic Suite формируется система семантических категорий?

21. Какие виды поиска реализованы в Semantic Engine?

22. Как строится и используется в Know^ledge Engine иерархический тематический рубрикатор?

23. Каковы функции ИПС Semantic Explorer?

24. Охарактеризуйте способы визуализации семантики массива документов в Semantic Explorer.

4. Метаданные для информационных ресурсов Существенная черта развития Internet — переход от документов, читаемых компьютером (machine readable), к документам, понимаемым компьютером (machine understandable). Решение большинства задач систематизации и по­ нимания компьютером документов связано с использованием метаданных.

В главе отраэюено современное состояние работ в области метаданных для информационных ресурсов. Главное внимание уделено роли метаданных в обеспечении интеллектуализации WWW. Охарактеризованы универсальная система метаданных Дублинское ядро и модель RDF. Рассмотрены концеп­ ция семантического web и ее технологическая основа — платформа XML.

Содерэк:ание главы соответствует направлениям исследований в области ИИ 1.4.1, 2.2.2, 2.3.1, 3.1.4 U4.2.

Метаданные (metadata) — это информация о документе, понимаемая ЭВМ, т. е. обладающая свойством внутренней интерпретируемости. В об­ щем случае метаданные представляют собой информацию, характеризую­ щую какую-либо другую информацию. Экземпляр метаданных для ИР вы­ ступает в качестве описания этого ИР. Подобное описание можно сравнить с записью в библиотечном каталоге. Оно отражает название ИР, его тип, назначение, объем, предметное содержание, технические особенности, све­ дения об авторах и разработчиках и другую информацию, которая может быть полезна при выборе ресурса. Обеспечение совместимости на уровне метаданных требует унификации их структуры, интерпретации ее компо­ нентов и способа их представления.

Консорциум Meta Data Coalition определяет метаданные как описатель­ ную информацию о структуре и смысле данных, а также приложений и процес­ сов, которые манипулируют данными. Метаданные могут характеризовать сущности, относящиеся не только к виртуальному (информационному) про­ странству, но и к реальному миру (персоналии, организации, события и др.).

Сказанное представляется важным, поскольку описания ИР могут содержать сведения об их создателях, владельцах и распространителях (физических и юридических лицах), а также событиях, в которых они фигурируют (конферен­ ции, семинары, симпозиумы, учебные и научные мероприятия и т. п.).

Система метаданных выступает в качестве центрального звена лю­ бой ИС. Метаданные могут быть как частью ИР, так и храниться отдельно от него. Например, выходные сведения издания, являющиеся по отношению к нему метаданными, приводятся в самом издании и кроме того включаются в библиотечный каталог.

Как и в технологиях БД, для метаданных определяются два уровня представления:

• инфологический, фиксируемый схемой метаданных, которая отра­ жает состав и структуру элементов данных (полей) в экземпляре метадан­ ных, их семантику, типы значений (включая словари и классификаторы) и ограничения целостности;

• даталогический, фиксируемый форматом метаданных, который отражает способ представления (кодирования) информации.

К числу основных требований к системе метаданных относятся [97]:

• универсальность в рамках установленного понимания ИР как объ­ екта систематизации;

• структурированность и формализованность метаданных, необходи­ мые для их автоматической обработки;

• достаточная выразительность для обеспечения эффективного реше­ ния задач, требующих наличия метаданных;

• совместимость с международными стандартами и протоколами в области метаданных и информационного поиска (создание условий для интероперабельности);

• возможность задания ограничений целостности, отражающих взаимосвязи полей описания ИР;

• обеспечение возможности хранения метаданных как совместно с ИР, так и отдельно от него;

• возможность представления в метаданных сведений о создателях, правообладателях и распространителях ИР, а также отношений между ИР.

Метаданные об ИР формируются и используются в различных систе­ мах и сервисах: электронных библиотеках; информационных порталах и web-сайтах; системах регистрации ИР; службах публикации ИР; хранили­ щах (депозитариях) ИР; хранилищах метаданных об ИР; системах разработ­ ки контента (авторском инструментарии); системах управления контентом;

системах сертификации ИР и пр.

4. Метаданные для информационных ресурсов На основе системы метаданных реализуются базовые технологические процессы в электронных библиотеках: навигация по каталогу ИР; поиск ИР;

ввод и организация хранения ИР, а также исключение ИР из хранилища;

управление правами доступа к ИР, вютючая защиту авторских прав, органи­ зацию платы за пользование ИР и др.

В настоящее время в электронных библиотеках принято выделять две основные информационные составляющие:

1) собственно база (массив) ИР;

2) хранящаяся отдельно либо выделенная функционально база мета­ данных для этих ИР.

Между названными составляющими существует взаимно однозначное соответствие, на основе которого организуются процессы информационного поиска, что требует обязательного формализованного представления метаданных, т. е. разработки модели метаданных.

Одной из наиболее перспективных моделей метаданных на сегодняш­ ний день является модель RDF (Resource Description Framework), разрабо­ танная консорциумом W3C. Она определяет основные принципы представ­ ления и обработки метаданных и обеспечивает функциональную совмести­ мость web-приложений, обменивающихся такой информацией. В RDF использованы принципы объектно-ориентированного моделирования, эле­ менты языков HTML, SGML и XML. Синтаксис метаданных в RDF описы­ вается на основе языка XML. Несмотря на то, что RDF была разработана в расчете на XML-платформу, она не зависит от XML. Данная модель позво­ ляет представлять семантическую структуру XML-документов и выражать смысл этих и иных ресурсов WWW.

Описание семантики одного или нескольких ИР средствами RDF назьшается RDF-спецификацией. Базовыми категориями такого описания являются ИР (субъект), свойство (предикат) и значение (объект). Упрощенная структура RDF-спецификации изображена на рис. 4.L В рамках нее ддя каждого ИР ука­ зываются необязательная ссылка на него (URI) и множество пар (свойство, зна­ чение). Значение свойства представляется либо текстом, либо ссылкой на дру­ гой ИР, либо вложенным описанием другого ИР. Значение свойства, выражеьшое ссылкой или вложенным описанием другого ИР, задает отношение между ИР.

Именование свойств осуществляется на основе механизма про­ странств имен. Таким образом, имени свойства соответствует некоторый URI. Это позволяет рассматривать свойство как самостоятельный ИР, кото­ рый, в свою очередь, может быть описан средствами RDF.

Для определения информационных моделей, в соответствии с кото­ рыми должны строиться конкретные RDF-спецификации, предназначены метамодель и язык RDF Schema. В их основе лежат принципы объектноориентированного моделирования.

Ссылка на описываемый ИР (через URI) - имя свойства - значение, выраженное в текстовом виде, вложенное описание другого ИР (блок description) Рис. 4.1. Упрощенная структура RDF-спецификации По назначению выделяют четыре основных вида метаданных:

• описательные (библиографические описания PIP и описания их се­ мантики в виде рефератов и аннотаций);

• структурные (формат, объем и структура ИР);

• административные (правообладатели, права на доступ и коррекцию ИР, сведения о пользователях, платежах и т. п.);

• идентифицирующие, служащие для однозначного представления описываемых объектов для внешнего мира и приложений.

К настоящему времени в мире создано множество систем метаданных, обладающих разным статусом: международные, национальные и отраслевые стандарты, корпоративные спецификации, спецификации международных консорциумов и др. Следует отметить, что существуют разработки, не имеющие статуса официально утвержденных стандартов, но широко приме­ няемые на практике и рассматриваемые в качестве стандартов «де-факто».

Перечислим некоторые системы метаданных:

• «Дублинское ядро» (инвариантный к ПрО набор наиболее общих полей описания ИР, введенный для обеспечения глобальной интероперабельности приложений, работающих с метаданными) [106];

• MARC — предназначена для описания библиотечных ресурсов (как на бумажных, так и на электронных носителях) [105];

• GILS — предназначена для описания любых видов ИР, расширяю­ щая MARC и базирующаяся на протоколе Z39.50;

• ONIX — предназначена для описания товаров в системах электрон­ ной коммерции;

• LOM — предназначена для описания образовательных ИР;

• IAFA/WHOIS++ — предназначена для описания сетевых ИР;

• UDDI — предназначена для описания web-сервисов;

• ESfDECS — ориентирована на системы электронной коммерции и содержащая элементы для управления правами на цифровые объекты;

• EAD — предназначена для описания архивных материалов;

• GEM — расширение «Дублинского ядра» для описания образова­ тельных ИР;

• МЕКОФ — международный коммуникативный формат, выступаю­ щий в качестве альтернативы MARC [99-101];

• формат описания БД и машиночитаемых информационных масси­ вов [102].

С точки зрения ориентации на виды ИР и сферы использования разли­ чают универсальные и специализированные системы метаданных. К уни­ версальным системам относятся «Дублинское ядро» и GILS.

Наиболее распространенной системой метаданных является «Дублин­ ское ядро» (Dublin Core Metadata Element Set). Основные цели, которые ста­ вились при ее создании, заключались в обеспечении:

• простоты формирования и поддержки метаданных;

• легко понимаемой (как человеком, так и компьютером) семантики;

• возможности представления метаданных на разных ЕЯ;

• расширяемость системы метаданных.

«Дублинское ядро» включает два уровня:

1) простое «Дублинское ядро» (Simple Dublin Core);

2) «Дублинское ядро» с квалификаторами (Qualified Dublin Core) Первый уровень содержит 15 элементов данных, образующих три группы (табл. 4.1):

• Content (содержание ИР);

• Intellectual Property (интеллектуальная собственность);

• Instantiation (характеристики данного экземпляра ИР).

Состав элементов простого «Дублинского ядра» определен в стандар­ те ISO 15836:2003*.

На втором уровне к 15 элементам добавлены два дополнительных элемента: Audience (целевая аудитория, категория пользователей) и Rights Holder (правообладатель). Кроме того, для повышения детальности и выра­ зительности описаний на этом уровне вводятся и используются квалификаISO 15836:2003. Information and documentation — The Dublin Core metadata element set.

торы, уточняющие семантику элементов данных и специфицирующие ис­ точники и способы представления их значений. Например, с элементом Description связаны два квалификатора: Table Of Contents (оглавление) и

Abstract

(аннотация). Даты рекомендуется представлять в формате, установ­ ленном в стандарте ISO 8601:2000*. Для описания персон и организаций может использоваться система метаданных для электронных бизнесс-карт vCard [97, 107—109], основанная на рекомендациях серии Х.500 для служб распределенного каталога [110].

Все элементы «Дублинского ядра» являются необязательными и могут повторяться. Порядок их следования в описании ИР значения не имеет.

1 Subject — Предметная Publisher — Издатель ИР Format — Формат ИР Source — Источник ИР Relation — Отношение (ссылка на другой ИР) Coverage — Охват ИР (пространственный и Для определения каждого элемента (поля) системы метаданных служит набор из 10 типовых атрибутов, фиксируемый стандартом ISO/IEC «Спецификация и стандартизация элементов данных». Перечислим эти ат­ рибуты.

1. Имя — метка, определяющая элемент данных.

2. Идентификатор (уникальный для представляемого элемента данных).

3. Версия (элемента данных).



Pages:     || 2 | 3 |


Похожие работы:

«Белорусский государственный университет УТВЕРЖДАЮ Декан филологического факультета И.С. Ровдо _ 2010 г. Регистрационный № УД-/р. Современный русский язык: Морфемика. Словообразование Учебная программа для специальности 1 - 21 05 02 Русская филология (для иностранных студентов) Факультет филологический Кафедра прикладной лингвистики Курс 2 Семестр 3 Лекции – 22 ч. Экзамен 3 семестр Зачет Практические занятия – 20 ч. Лабораторные Курсовой проект (работа) занятия КСР – 8 ч. Всего аудиторных часов...»

«Ядерная программа Ирана и российско-иранские отношения Севак Саруханян РОССИЙСКО-ИРАНСКОЕ СОТРУДНИЧЕСТВО В ОБЛАСТИ ЯДЕРНОЙ ЭНЕРГЕТИКИ Двусторонние контакты между СССР и Ираном получили перспективу реального улучшения после падения шахского режима в Иране. Советский посол в Иране стал первым дипломатом, которого принял новый глава Ирана аятолла Хомейни в 1979 году. Однако ввод советских войск в Афганистан и начало крупных поставок советского оружия в Ирак в 1982 году отрицательно сказались на...»

«ТЕПЛОВЫЕ НАСОСЫ В ПРОМЫШЛЕННОСТИ – МИФЫ И РЕАЛЬНОСТЬ Злобин А.А., Курятов В.Н., Мальцев А.П., Романов Г.А. кандидаты технических наук, МЭИ, НТИЦ ЭТТ, Интехэнерго М Стремление уменьшить затраты топлива и других видов ТЭР для производства теплоты – основная тенденция современной теплоэнергетики. Учитывая истощение запасов высококачественных органических топлив, необходимо эффективно и рационально использовать ТЭР, привлекая современные технологии выработки тепловой энергии. Одним из перспективных...»

«Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования РОССИЙСКАЯ АКАДЕМИЯ НАРОДНОГО ХОЗЯЙСТВА И ГОСУДАРСТВЕННОЙ СЛУЖБЫ ПРИ ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ Воронежский филиал Кафедра гражданского права и процесса УТВЕРЖДАЮ Директор Воронежского филиала Российской академии народного хозяйства и государственной службы при Президенте ;рации Е-С- Подвальный • J^IrJ ^• SJ' l l l I~ -й * 1 В / > 20 г. / / Ч.й * >. -77 r / C ' l i РАБОЧАЯ УЧЕБНАЯ...»

«МИНСКИЙ ИНСТИТУТ УПРАВЛЕНИЯ Кафедра автоматизированных информационных систем УТВЕРЖДАЮ Декан учетно-финансового факультета С.А. Медведев _ 2006 г. Рабочая программа по дисциплине Автоматизированные информационные системы для студентов специальности 1-40 01 02 Информационные системы и технологии направление специальности: 1-40 01 02-02 Информационные системы и технологии (в экономике) Дневное отделение Курс 3 Семестр 5 Лекции – 34 часа Из них КСР - 4 часа Практические занятия – 20 часов Из них...»

«Направление подготовки бакалавров 230700.62 Прикладная информатика Профиль: Прикладная информатика в менеджменте Программа дисциплины Философия Аннотация Авторы программы: Рац Н.А., Боклагов Е.Н. – к. филос. наук, кафедра социологии и гуманитарных наук 1. Цель освоения дисциплины Главной целью курса Философия является формирование необходимых предпосылок для развития у студентов способности осмысленно подходить к жизни человека и общества, к решению задач профессиональной деятельности на основе...»

«Томская область Администрация закрытого административно – территориального образования Муниципальное бюджетное общеобразовательное учреждение Средняя общеобразовательная школа № 83 636037, Томская область, г. Северск, ул. Калинина, 72, тел./ факс 56-03-03: 56-12-75. Программа развития принята решением Педагогического совета школы (протокол № 1 от 30.08.2012г.) Утверждена Директор школы _ /Манакина Л.Р./ Программа развития МБОУ СОШ № 83 ЗАТО Северск на период 2012-2016 г.г. Программа развития...»

«ЮГО-ЗАПАДНОЕ ОКРУЖНОЕ УПРАВЛЕНИЕ ОБРАЗОВАНИЯ ДЕПАРТАМЕНТА ОБРАЗОВАНИЯ ГОРОДА МОСКВЫ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ СРЕДНЯЯ ОБЩЕОБРАЗОВАТЕЛЬНАЯ ШКОЛА С УГЛУБЛЕННЫМ ИЗУЧЕНИЕМ ОБЛАСТИ ЗНАНИЙ ИСКУССТВО № 1372 РАБОЧАЯ ПРОГРАММА по биологии 10 класс на 2013-2014 учебный год Ушаковой Елены Владимировны учителя первой квалификационной категории Курс Общая биология. (34 часа. 1 час в неделю) Авторы: Д. К. Беляев, П. М. Бородин, Н. Н. Воронцов Москва. 2013г....»

«Юридический факультет Кафедра Государственно-правовые дисциплины СОГЛАСОВАНО УТВЕРЖДАЮ Начальник учебно-методического И.о. декана юридического факультета управления _ Степенко В.Е. Иванищев Ю. Г. подпись подпись _ _ 2012 г. _ 20 г. РАБОЧАЯ ПРОГРАММА по дисциплине Преддипломная практика по специальности 030501.65 Юриспруденция (квалификация юрист, специализация – государственно-правовая) Отчетность Трудоемкость дисциплины Трудоемкость Учебный план специальности специальности, направления по уч....»

«Учреждение образования Брестский государственный университет имени А.С. Пушкина УТВЕРЖДАЮ Ректор учреждения образования Брестский государственный университет имени А.С. Пушкина М.Э. Чесновский _ 2012 г. Регистрационный № УД-_/гос. ПРОГРАММА ГОСУДАРСТВЕННОГО ЭКЗАМЕНА ПО МАТЕМАТИКЕ И МЕТОДИКЕ ПРЕПОДАВАНИЯ МАТЕМАТИКИ для специальности: 1-02 05 03-02 Математика. Информатика 2012 г. СОСТАВИТЕЛИ: А.В. Чичурин, заведующий кафедрой математического анализа и дифференциальных уравнений, доктор...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФГБОУ ВПО Кемеровский государственный университет Новокузнецкий институт (филиал) Факультет информационных технологий Выпускающая кафедра математики и математического моделирования У Т В Е Р Ж Д А Ю: Директор Гершгорин В.С. 27 марта_2013 г. ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ Специальность 010501.65 Прикладная математика и информатика Специализации 010202 Математическое моделирование 010211 Системное...»

«ПЕРВОЕ ВЫСШЕЕ ТЕХНИЧЕСКОЕ УЧЕБНОЕ ЗАВЕДЕНИЕ РОССИИ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное бюджетное образовательное учреждение высшего профессионального образования НАЦИОНАЛЬНЫЙ МИНЕРАЛЬНО-СЫРЬЕВОЙ УНИВЕРСИТЕТ ГОРНЫЙ Согласовано Утверждаю Руководитель ООП по Зав. кафедрой направлению 151000 машиностроения профессор Максаров В.В. профессор Максаров В.В. РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ НАУЧНО-ИССЛЕДОВАТЕЛЬСКАЯ РАБОТА Направление подготовки: 151000...»

«Министерство образования и науки РФ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Кемеровский технологический институт пищевой промышленности Утверждено Ректором КемТИПП ПРОГРАММА вступительных экзаменов для поступления в магистратуру по направлению141200 – Холодильная, криогенная техника и системы жизнеобеспечения Кемерово, 2012 Составители: д.т.н., проф. О.Н Буянов д.т.н., доц. И.А.Короткий к.т.н., доц. Н.А.Комарова к.т.н., доц....»

«Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Пермский государственный национальный исследовательский университет Утверждено на заседании Ученого совета университета от 30.03.2011 №8 Основная образовательная программа высшего профессионального образования Направление подготовки 38.04.01 Экономика Магистерская программа Экономика фирмы и отраслевых рынков Квалификация (степень) магистр...»

«Министерство образования и науки РФ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Московский государственный университет экономики, статистики и информатики (МЭСИ) ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА высшего профессионального образования по направлению подготовки 080200.62 Менеджмент квалификация (степень): бакалавр нормативный срок обучения для очной формы - 4 года, для заочной и очно-заочной форм – 4,5 года профили: 1. Маркетинг 2....»

«УДК 930 ББК 63 Д 75 Редакционная коллегия серии HISTORICA В. П. Сальников (председатель), П. В. Анохин, С. Б. Глушаченко, И. И. Мушкет, Р. А. Ромашов, П. П. Сальников, C. В. Степашин ФЕДЕРАЛЬНАЯ ЦЕЛЕВАЯ ПРОГРАММА КУЛЬТУРА РОССИИ (ПОДПРОГРАММА ПОДДЕРЖКА ПОЛИГРАФИИ И КНИГОИЗДАНИЯ РОССИИ) Данное издание выпущено в рамках проекта Translation Project при поддержке Института Открытое общество (Фонд Сороса) — Россия и Института Открытое общество — Будапешт © Издательство Владимир Даль, 2004 © Санкт...»

«Приложение № 2 к приказу от 5 мая 2012 № 196 АННОТИРОВАННАЯ ПРОГРАММА СТРАТЕГИЧЕСКОГО РАЗВИТИЯ ФЕДЕРАЛЬНОГО ГОСУДАРСТВЕННОГО БЮДЖЕТНОГО ОБРАЗОВАТЕЛЬНОГО УЧРЕЖДЕНИЯ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ МОСКОВСКАЯ ГОСУДАРСТВЕННАЯ ЮРИДИЧЕСКАЯ АКАДЕМИЯ ИМЕНИ О.Е. КУТАФИНА НА 2012-2016 ГГ. Оглавление 1. Введение. Миссия вуза..3 2. Цели и задачи развития вуза..8 3. Мероприятия и проекты Программы..12 4. Финансовое обеспечение Программы.. 5. Управление реализацией Программы. 6. Ожидаемые результаты...»

«ВЕСТНИК УДМУРТСКОГО УНИВЕРСИТЕТА 63 БИОЛОГИЯ. НАУКИ О ЗЕМЛЕ 2014. Вып. 2 Зоологические исследования УДК 574.34 И.В. Ермолаев ИНВАЗИЯ ЛИСТВЕННИЧНОЙ ЧЕХЛОНОСКИ PROTOCRYPTIS LARICELLA (HBN.) (LEPIDOPTERA, COLEOPHORIDAE) В СЕВЕРНОЙ АМЕРИКЕ: ИСТОРИЯ, ЭКОЛОГИЧЕСКИЕ ПОСЛЕДСТВИЯ, БИОЛОГИЧЕСКИЕ ПРОГРАММЫ КОНТРОЛЯ* Рассмотрены история инвазии лиственничной чехлоноски Protocryptis laricella в Северной Америке, показаны экологические последствия инвазии, рассмотрены биологические программы контроля минера....»

«М инистерство образования и науки Российской Ф едерации Ф едеральное государственное бюджетное образовательное учреж дение высшего проф ессионального образования М осковский государственны й гум анитарно-эконом ический институт В олгоградский филиал РАБОЧАЯ ПРОГРАММА УЧЕБНОЙ ДИСЦИПЛИНЫ ГРАЖДАНСКИЙ ПРОЦЕСС ДЛЯ СПЕЦИАЛЬНОСТИ: 030912 ПРАВО И ОРГАНИЗАЦИЯ СОЦИАЛЬНОГО ОБЕСПЕЧЕНИЯ ВОЛГОГРАД, 2013г. 1 Рабочая программа учебной дисциплины разработана на основе Федерального государственного...»

«№ док. GEF/C.39/Inf.16 от 29 октября 2010 г. Заседание совета ГЭФ 16 – 18 ноября 2010 г. г. Вашингтон, округ Колумбия ПОСОБИЕ ПО РАСЧЕТУ СОКРАЩЕНИЯ ВЫБРОСОВ ПАРНИКОВЫХ ГАЗОВ ЗА СЧЕТ ПРОЕКТОВ ГЛОБАЛЬНОГО ЭКОЛОГИЧЕСКОГО ФОНДА В ТРАНСПОРТНОЙ ОТРАСЛИ Научно-технический консультативный совет _ Научно-технический консультативный совет, действующий под эгидой ЮНЕП, предоставляет рекомендации Глобальному экологическому фонду Пособие по расчету сокращения выбросов парниковых газов за счет проектов...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.