«В.С. Белов Информационноаналитические системы Основы проектирования и применения Учебно-практическое пособие Издание 2-ое, переработанное и дополненное Москва 2005 1 УДК 004.415 ББК 32.973.202 Б 435 Белов В.С. ...»
Международный консорциум «Электронный университет»
Московский государственный университет экономики,
статистики и информатики
Евразийский открытый институт
В.С. Белов
Информационноаналитические системы
Основы проектирования
и применения
Учебно-практическое пособие
Издание 2-ое, переработанное и дополненное
Москва 2005
1 УДК 004.415 ББК 32.973.202 Б 435 Белов В.С. ИНФОРМАЦИОННО-АНАЛИТИЧЕСКИЕ СИСТЕМЫ. Основы проектирования и применения: учебное пособие, руководство, практикум / Московский государственный университет экономики, статистики и информатики. — М., 2005. — 111 с.
Белов В.С., 2005 ISBN 5-7764-0425- Московский государственный университет экономики, статистики и информатики, Содержание Сведения об авторе
Цели и задачи дисциплины, сфера профессионального применения.
Необходимый объем знаний для изучения дисциплины
Введение
Тема 1. Базовые понятия информационно-аналитических систем
1.1. Роль и место анализа в процессе принятия решения.
1.2. Аспекты проблемы анализа и их реализация в программных продуктах
Вопросы для повторения
Тест
Тема 2. Информационное пространство как среда анализа
2.1. Понятие информационного пространства
2.2. Структура информационного пространства
2.3. Элементы структуры информационного пространства. Понятие показателя................... 2.4. Пространственная интерпретация понятия показатель
2.5. Содержание экономических показателей
2.6. Системы показателей
Вопросы для повторения
Тест
Тема 3. Технологии сбора и хранения данных — концепция информационных хранилищ
3.1. Технологии извлечения, преобразования и загрузки данных.
3.1.1. Понятие о гибкой архитектуре данных
3.1.2. Сбор, повышение качества данных и приведение их в единую структуру
3.2. Концепции организации хранения данных
3.2.1. Концепция информационного хранилища.
3.2.2. Концепция централизованного хранилища данных.
3.2.3. Концепция распределенного хранилища данных
3.2.4. Концепция автономных витрин данных.
3.2.5. Концепция единого интегрированного хранилища и многих витрин данных
3.3. База метаданных информационного хранилища (репозиторий ИХ).
3.3.1. Основные понятия о базе метаданных.
3.3.2. Классификация метаданных.
3.3.3. Модели метаданных по измерениям.
3.3.3.1. Трехмерная система классификации и модель МД.
3.3.3.2. Размерностная модель МД информационного хранилища.
3.3.4. Содержание компонентов размерностной модели МД ИХ.
3.3.4.1. Метаданные, описывающие сущности
3.3.4.2. Метаданные, относящиеся к размещению ресурсов
3.3.4.3. Метаданные, описывающие временные аспекты ИХ
3.3.4.4. Метаданные, относящиеся к пользователям и администраторам ИХ и ИАС.
3.3.4.5. Метаданные о движущих силах создания ИАС.
3.3.4.6. Действия, которые выполняются над данными.
3.4. Модели данных информационного хранилища
3.4.1. Понятия модели данных информационного хранилища.
3.4.2. Элементы моделей данных информационного хранилища.
3.4.2.1. Содержание и назначение таблицы фактов
Вопросы для повторения
Тест
Тема 4. Признаки OLAP-систем, технологии оперативного и интеллектуального анализа данных
4.1. Подходы к выполнению анализа средствами информационных технологий (IT-анализа)
4.1.4. Типы многомерных OLAP-cистем.
4.2. Интеллектуальный анализ данных Data mining.
4.2.2. Задачи Data mining
Вопросы для повторения
Тест
Тема 5. Содержание и методы анализа и прогнозирования бизнес-процессов 5.1. Содержание экономического анализа.
5.2. Классификация методов анализа.
5.3. Аннотация содержания методов анализа в 5.3.2. Анализ обеспечения ресурсами.
5.3.3. Анализ в области логистики.
5.3.4. Финансовый анализ.
5.3.5. Анализ инвестиций и инноваций.
5.3.6. Методы стратегического анализа.
5.3.6.3. Анализ отклонений
5.3.6.4. Анализ полей бизнеса.
5.3.6.5. Бенчмаркинг.
Вопросы для повторения
Тест
6.1. Программные инструментальные средства ИАС
6.1.2. Средства сбора и доработки данных
6.1.3. Средства преобразования данных.
6.1.4. Средства оперативного (OLAP) анализа.
6.2. Управление и проектирование ИАС.
6.2.4. Рынок инструментальных средств ИАС.
Вопросы для повторения
Тест
Итоговый контроль знаний по курсу.
Практикум
Введение
Создание и применение ИАС
Задания по лабораторной работе
Задание 1.
Задание 2.
Задание 3.
Тематика лабораторных работ.
Глоссарий
Литература
Информационно аналитические системы Сведения об авторе Кандидат технических наук Профессор кафедры ПЭИС 1. Информационно-аналитические МЭСИ, 2001 г.
2. Введение в информационно- Сборник научных трудов «Инфораналитические системы мационно-аналитические системы».
Инструментальные средства и Сборник научных трудов информационное обеспечение «Реинжиниринг бизнес-процессов на реинжиниринга бизнес- основе информационных технолопроцессов гий. Системы управления знаниями».
Цели и задачи дисциплины, сфера профессионального применения Целью курса «Информационно-аналитические системы» (ИАС)» является изучение студентами, обучающимися по специальностям «Менеджмент, Маркетинг, Антикризисное управление, Мировая экономика, Финансы и кредит», проблематики автоматизации анализа информационной подготовки принятия управленческих решений с использованием современных информационных технологий на основе применения инструментальных средств широкого назначения и специализированных пакетов прикладных программ; освоение основ участия в разработке и сопровождении информационных хранилищ, технологий оперативного и интеллектуального анализа данных, отражающих деятельность предприятий в различных предметных областях.
Основной задачей курса является приобретение студентами прочных знаний и навыков, определяемых целью курса. Должно быть сформировано представление о содержании аналитической работы, необходимо получить знания технологии создания и сопровождения ИАС на основе использования современных инструментальных средств, приобрести навыки аналитической работы.
Cфера профессионального применения Знания и навыки, приобретенные в ходе изучения курса ИАС, могут быть использованы при изучении других дисциплин в различных предметных областях: в менеджменте, маркетинге, дисциплинах экономического блока, гуманитарных — психологии, юриспруденции и т. д.
В практической деятельности они находят применение во всех направлениях профессиональной деятельности — в государственном управлении, экономике от малых предприятий до крупных корпоративных структур, на транспорте, в производстве и торговле, в гуманитарных направлениях деятельности и т.д.
Необходимый объем знаний для изучения дисциплины Изучение теоретических основ дисциплины и овладение практическими навыками основывается на знаниях и практических навыках, приобретенных студентами при изучении дисциплин:
«высшая математика», «линейная алгебра», «теория статистики», «базы данных», «стандарты электронного обмена данными», «микроэкономика», «макроэкономика», «основы бизнеса», «интеллектуальные информационные системы» и других дисциплин.
Введение Настоящее издание «Информационно-аналитические системы. Основы проектирования и применения» является учебно-методическим комплексом по изучению дисциплин «Информационно-аналитические системы» для студентов, обучающихся по специальностям: «Менеджмент», «Маркетинг», «Антикризисное управление», «Мировая экономика», «Финансы и кредит»;
«Проектирование информационно-аналитических систем» для студентов, обучающихся по специальности «Информационные системы в экономике».
Целью комплекса является информационная поддержка на основе современных информационных технологий процесса приобретения знаний и навыков по указанным дисциплинам.
В итоге освоения дисциплин на основе использования данного комплекса обучающиеся получат знания по проблемам создания и применения информационно-аналитических систем в интересах повышения эффективности принимаемых решений, приобретут навыки организации сбора, поддержания качества и обеспечения хранения данных, выполнения аналитических работ с помощью современных информационных технологий.
Издание состоит из разделов: учебное пособие, руководство по изучению курса, практикум.
Учебное пособие разделено на шесть глав.
Первая глава освещает роль и место анализа в процессе принятия решений, в ней рассматриваются аспекты проблемы анализа, базовые понятия информационно-аналитических систем, их виды, состав.
Вторая глава содержит основные сведения об информационном пространстве как среде анализа, описание его структуры в целом и ее элементов. Раскрыто содержание понятия показатель, приведена его пространственная интерпретация, показана необходимость применения классификации и кодирования показателей в процессе подготовки данных к анализу.
Рассмотрены системы экономических показателей.
В третьей главе рассматривается концепция информационных хранилищ. Раскрыто содержание понятия о гибкой архитектуре данных. Описаны процессы сбора данных, повышения их качества и приведения в единую структуру. Сформулированы требования к структуре и правила построения информационных хранилищ на основе моделей многомерных данных. Приведен анализ концепций создания структур распределенных хранилищ.
Четвертая глава включает сведения о признаках OLAP-cистем, методологии анализа с использованием информационных технологий — ИТ(IT)-анализе. Рассмотрены его классификация по режиму и темпу, требования к OLAP-системам, содержание оперативного анализа. Дан обзор видов знаний, описаны задачи и методы интеллектуального анализа (Data mining).
В пятой главе, посвященной рассмотрению процессов анализа в качестве объектов автоматизации, приведены классификация методов анализа в экономической предметной области, дан их обзор, описан информационный обмен, сопутствующий анализу.
Шестая глава включает анализ требований к инструментальным средствам создания и применения ИАС и обзор рынка этих средств, принципы и методики управления и проектирования ИАС.
«Руководство по изучению курса» включает содержание программы курса, методические рекомендации, ссылки на разделы учебного пособия и другие источники.
В «Практикуме» приведен краткий обзор основных понятий информационноаналитических систем, даны установки на разработку модели ИАС и описана методика приобретения навыков аналитической работы, приведены требования к оформлению отчета о практической работе.
Автор выражает признательность д.э.н. профессору Тельнову Ю.Ф. за ценные советы при разработке комплекса, компании «ТЕРН» за предоставление инструментального средства «Business Objects».
Базовые понятия информационно-аналитических систем Изучив тему 1, студент должен знать:
• место и значение анализа в системе управления предприятием, • задачи информационно-аналитических систем, • основные функции инструментальных средств ИАС, • их классификацию и наиболее известные образцы.
• определять класс инструментальных средств по составу функций, назначению, масштабности выполняемых задач.
При изучении темы 1 необходимо:
• учебное пособие [51] главу 1;
• учебно-справочное издание [50] главу 1 стр. 3—8;
• учебный курс [18] стр. 12—19.
Сосредоточить внимание на следующем:
Место и значение анализа в системе принятия решений по управлению предприятием, необходимость внедрения информационных технологий в аналитическую работу, проблемы аналитической подготовки принятия решений, функциональность и классификацию инструментальных средств 1. Роль и место анализа в процессе принятия решения 2. Аспекты проблемы анализа и их реализация в программных продуктах Цель изучения: Осветить содержание курса, подходы и методы, используемые в процессе анализа, при создании ИАС, в инструментальных средствах их создания и поддержки.
Краткое содержание 1 Подходы, используемые при автоматизации процессов экономического анализа. Изучаются основные понятия информационно-аналитических систем. Определяется роль и место анализа в процессе принятия решений. Рассматривается и обосновывается необходимость применения информационных технологий при выполнении аналитических работ с имеющимися в распоряжении ЛПР данными для выработки адекватных сложившимся ситуациям решений.
2 Аспекты проблемы анализа. Выделяются три основных аспекта: сбор и хранение данных, необходимых для аналитической подготовки принятия решений; собственно анализ, разделяющийся на оперативный и интеллектуальный; эффективное представление результатов анализа. Решаются проблемы автоматизации анализа посредством создания информационно-аналитических систем (ИАС). Дается определение системы.
3 Состав информационно-аналитической системы. Рассматривается состав ИАС, отвечающий полному набору функций в соответствии с приведенными выше аспектами.
Отмечается консолидирующая роль средств ИАС в создании интегрированной информационной системы управления предприятием.
4 Типы инструментальных средств создания и поддержки ИАС. Рассматривается назначение инструментальных средств, приводится их классификация. Объектом изучения являются: аналитические инструментальные средства пакетов прикладных программ широкого применения MS Office — Excel, Access; Statistica, Маthcad,; специализированные средства SAS, Business Objects, Линтер-Невод, Контур-корпорация/контурстандарт, Oracle Express; их структура и функции; соответствующие блоки интегрированных экономических информационных систем.
1.1. Роль и место анализа в процессе принятия решения Современный этап развития рыночных отношений в российской экономике (первое десятилетие ХХI века) характеризуется началом экономического подъема (2). Период времени быстрых, в значительной мере интуитивных, импровизационных, а зачастую и силовых решений меняется на зону продуманных, просчитанных выводов и решений — оперативных, инвестиционных.
Необходимо также принимать во внимание открытость экономики России и связанной с ней конкуренции с высокоразвитыми экономическими субъектами. В регионах мира со сложившейся развитой рыночной экономикой достижение заметного повышения прибыли (от долей процента) связано со сложной аналитической работой с использованием новейших достижений науки: математики всех направлений, информационных технологий (IT), которые питают и подкрепляют экономические науки, менеджмент, маркетинг, социологию, юриспруденцию и т.д. Начинают приобретать определяющее значение знания о протекающих хозяйственных процессах.
На успех ведения дела влияют как объективные, так и субъективные факторы.
К объективным факторам можно отнести:
• закономерности протекания хозяйственных процессов, • правовую среду, • неписаные правила и традиции ведения дел, • экономическую конъюнктуру и т.д.
Большое значение имеет субъективный фактор, под которым будем понимать влияние на ход бизнес-процессов работников предприятия и в особенности лиц, принимающих решения (ЛПР).
Для выработки и принятия соответствующих складывающейся обстановке решений необходимы информация и знания, которые должны удовлетворять требованиям полноты, достоверности, своевременности (актуальности), полезности.
Основополагающую роль в подготовке принятия решений играет его обоснование по имеющейся у ЛПР информации. Ее, как правило, получают из различных внутренних и внешних источников. В интересах выработки адекватного решения используются внутренние информационные ресурсы, которые складываются из отражения деятельности (функционирования) объИнформационно аналитические системы екта в документах, других видах и способах сбора, обработки, хранения информации, а также внешние по отношению к объекту информационные ресурсы, например (если это предприятие) — корпорации, отрасли, региона, а также глобальные — из средств массовой информации, специальной литературы, всемирной информационной сети Internet и т.д.
Таким образом, границы информационного пространства как отображения деятельности предприятия и его взаимодействия с внешней средой, в рамках которого принимаются решения, выходят далеко за пределы предприятия.
Одной из первостепенных задач при подготовке и принятии решений является анализ имеющейся в распоряжении ЛПР информации, который является фундаментом обоснования решения.
Объемы информации, необходимой и используемой при принятии решений, достигают десятков и сотен мегабайт, а в крупных корпоративных и общегосударственных системах и терабайт (1012 байт). Информация характеризуется многоплановостью, сложностью отображаемых объектов и систем, а также связей между объектами, явлениями и процессами, скрытостью закономерностей.
Эти обстоятельства вынуждают использовать имеющиеся в настоящее время весьма развитые программно-технические средства. Широкое и эффективное применение этих средств стало одним из факторов выживаемости и успеха предприятия в условиях острой конкурентной борьбы. Получили широкое распространение автоматизированные информационные системы, которые в последние годы чаще называют информационные системы, подразумевая, что без автоматизации их просто невозможно представить.
Проблема анализа исходной информации для принятия решений оказалась настолько серьезной, что появилось отдельное направление или вид информационных систем — информационно-аналитические системы (ИАС), под которыми понимают комплекс аппаратных, программных средств, информационных ресурсов, методик, которые используются для обеспечения автоматизации аналитических работ в целях обоснования принятия управленческих решений и других возможных применений.
1.2. Аспекты проблемы анализа и их реализация в программных продуктах Вся проблема аналитической подготовки принятия решений имеет следующие аспекты:
извлечение из многих источников разнородных данных, представленных в различных форматах и приведение их к единому формату и единой структуре;
организация хранения и предоставления пользователям необходимой для принятия решений информации;
собственно анализ, в том числе оперативный и интеллектуальный, и подготовка плановой или регулярной оценки состояния управляемого объекта в виде бумажных документов или экранных форм;
подготовка результатов оперативного и интеллектуального анализа для эффективного их восприятия потребителями и принятия на основе адекватных решений.
Аспект, касающийся сбора и хранения информации с сопутствующей доработкой, оформился в концепцию информационных хранилищ (Data Warehouse). Эта концепция состоит в том, что сведения о деятельности предприятия или иного объекта хозяйственной или иной деятельности накапливаются в течение длительного периода времени (годы) в информационном хранилище по определенным правилам. Накопленные данные используются в различных временных режимах для анализа, как источник данных для разного рода отчетности и работы с партнерами (Reporting) и обоснования управленческих решений.
В связи с большим объемом и сложностью аспект проблемы собственно анализа имеет два направления — оперативный анализ данных (информации), широко распространена аббревиатура англоязычного названия — On-Line Analytical Processing — OLAP. Основной задачей оперативного или OLAP-анализа является быстрое (в пределах секунд) извлечение необходимой аналитику или ЛПР для обоснования или принятия решения информации.
Интеллектуальный анализ информации — имеет также широко распространенное в русской специальной литературе англоязычное название Data mining. Предназначен для фундаментального исследования проблем в той или иной предметной области. Требования по времени менее жестки, но используются более сложные методики. Ставятся, как правило, задачи и получают результаты стратегического значения. При решении сложных задач в режиме Data mining приходится использовать весьма мощные специальные программные средства или, как говорят, инструменты.
Аспекты проблемы анализа и необходимые для их разрешения функции нашли выражение в соответствующих программных продуктах. Соответственно средства автоматизации анализа представлены в различных видах. Имеются комплексные информационно-аналитические системы, выполняющие в той или иной степени функции в соответствии с рассмотренными аспектами. Представлены на рынке программных продуктов и целевые программные системы, выполняющие в увеличенном объеме, расширенном составе и повышенной сложности какиелибо функции, например оперативного или интеллектуального анализа. ИАС информационно подпитывают системы поддержки принятия решений (СППР), в литературе также применяют аббревиатуру DSS (Decisin Support Sistem).
В целом сложился рынок инструментальных средств создания и поддержки OLAP-систем, информационных хранилищ (DWH), СППР (DSS), интеллектуального анализа Data mining (DMg), который получил обобщенное название — Business intelligence (BI), которому пока не подобран соответствующий русскоязычный термин.
Как правило, все инструментальные средства, предназначенные для автоматизации аналитических работ, приспособлены для обработки многомерных массивов информации; имеют также возможность импорта/экспорта данных в другие операционные среды, развитые средства визуального двумерного (2D) и трехмерного (3D) представления информации.
Модули, предназначенные для выполнения функций OLAP— анализа, входят также и в состав интегрированных информационных систем (ИИС) (системы, выполняющие весь комплекс автоматизации работ в информационном пространстве экономического или какого-либо другого объекта). Наиболее развитые ИИС выполняют функции и оперативного и интеллектуального анализа.
Рис. 1.1. Функциональный состав и место ИАС в обеспечении предприятия IT-технологиями Информационно аналитические системы Функциональный состав и место ИАС в системе применяемых на предприятии информационных технологий отражен на рис. 1.1. Следует заметить, что ИАС играет объединяющую роль, консолидирует разрозненные IT-технологии в единую интегрированную информационную систему управления предприятием (корпорацией), как ее называют ИИСУП (26).
АСУ ТП — автоматизированные системы управления технологическими процессами.
САПР — системы автоматизированного проектирования.
ЭСУДО — электронные системы управления документооборотом.
ИИСУП — интегрированные системы управления предприятием.
Необходимо отметить следующее обстоятельство. Целевые программные продукты и ИИС весьма дороги и пока малодоступны для массового российского потребителя. Выходом из этого положения является использование редко применяемых на практике возможностей массовых программных инструментальных средств Excel, Mathcad, Stadia, Statistica и др.
До 2000 года господствующее положение на этом рынке занимали программные продукты иностранных фирм. В настоящее время положение меняется — появилось несколько разработанных в России пакетов программ такого назначения, способных по своим характеристикам успешно конкурировать с зарубежными, а по ряду параметров и превосходящие их. Главные преимущества российских продуктов по показателям цена/качество, отсутствие проблем локализации и др.
Для самооценки знаний по теме 1 ответить на вопросы 1. Какое значение имеет аналитическая работа для успеха предприятия?
2. Какие факторы влияют на деятельность предприятия?
3. Какие информационные ресурсы используются для подготовки принятия решений?
4. Что является предпосылкой для принятия правильных решений?
5. Какие объемы данных используются в процессе анализа?
6. Назовите требования к информации, которая используется для принятия решений.
7. Что такое информационно-аналитическая система?
8. Что вызвало появление и широкое распространение информационноаналитических систем?
9. Назовите аспекты проблемы анализа в процессе подготовки принятия решений?
10. В чем заключаются аспекты сбора и хранения информации?
11. В чем состоит содержание аспектов анализа данных и предоставления результатов анализа пользователям?
12. Какие типы инструментальных средств для реализации информационноаналитических систем вы можете назвать?
13. Какие информационные технологии и информационные системы на предприятии и из внешней среды являются источником данных для сосредоточения в информационном хранилище или непосредственно для анализа?
14. В каких видах информационных систем используются результаты анализа?
1. Информационно-аналитическая система — это:
1. комплекс программ для анализа данных;
2. комплект приборов для получения справок;
3. комплекс аппаратных, программных средств, информационных ресурсов, методик.
2. Информационно-аналитические системы применяются:
1. только для оценки финансового состояния предприятия;
2. для подготовки принятия решений;
3. в процессе разработки бизнес-планов.
3. Аналитическая подготовка принятия решений имеет следующие аспекты:
1. извлечение данных из … 2. организация хранения ….
3. собственно анализ … 4. подготовка результатов … Информационное пространство и система экономических Изучив тему 2, студент должен знать:
содержание понятий: информационное пространство, система единиц информации, показатель и система показателей; сущность пространственной интерпретации показателей; сущность классификации и кодирования показателей; виды систем показателей.
применять полученные знания при внедрении и эксплуатации информационно-аналитических систем.
Приобрести навыки:
классификации и кодирования показателей при создании структуры информационного хранилища.
При изучении темы 2 необходимо:
• учебное пособие [51]главу 2;
• учебно-справочное издание [50] главу 1 стр. 3—8;
• учебник [1] стр. 12—19.
Сосредоточить внимание на следующем:
При создании и целевом использовании ИАС необходимо изучить требования рыночных инструментальных средств к структуризации информационного пространства предприятия с тем, чтобы сократить сроки внедрения и избежать возможных ошибок.
1.Понятие информационного пространства.
2.Структура информационного пространства.
3.Элементы структуры информационного пространства. Понятие показателя.
4.Пространственная интерпретация понятия показатель.
Краткое Цель изучения: изучить понятие и структуру информационного пространства; понятия посодержание казателя, его пространственную интерпретацию; содержание экономических показателей, 4.2.1. Понятие информационного пространства (ИП). Показывается, что все действия, связанные с анализом и принятием решений, производятся в информационном пространстве. На основе понятия системы раскрывается сущность понятия информационного пространства, его содержание.
4.2.2. Структура информационного пространства и его элементы. Дается определение структуры ИП. Показывается, что свойство структурированности ИП дает возможность представлять сведения в виде документов и манипулировать ими. Рассматривается система единиц информации, даются их определения. Раскрывается содержание понятия показатель с двух точек зрения: структурно-формальной и экономической.
4.2.3. Пространственная интерпретация понятия показатель. Рассматривается представление совокупности признаков показателя в виде системы координат части информационного пространства, отображающей соответствующий показатель. Представлены варианты геометрической интерпретации систем показателей.
4.2.4. Сущность и система экономических показателей. Дается понятие системы оценок как совокупности показателей с их критериальными значениями. Рассматривается понятие показателя с экономической точки зрения. Показано, что состояние и деятельность предприятия с необходимой полнотой возможно отобразить лишь системой показателей.
4.2.5. Содержание и структуризация систем экономических показателей. Рассматривается необходимость увязки микро- и макроэкономических показателей в экономической сфере, необходимость учета сложившейся структуры показателей в экономике страны и тесной увязки с ней структуры показателей предприятий. Раскрываются понятия классификации и кодирования систем показателей. Даются рекомендации по организации работ по структуризации ИП предприятия при создании и внедрении ИАС.
4.2.6. Виды систем показателей. Рассматриваются представление значений показателей в абсолютных и относительных величинах для оценки состояния предприятий и других объектов. Даются характеристики логико-дедуктивных и эмпирико-индуктивных систем Деятельность предприятия, другого объекта или системы отображается в информационном пространстве. Подготовка принятия решений и, соответственно, анализ происходят в этом пространстве как в среде — с одной стороны и, с другой стороны, производятся операции с элементами структуры этого пространства и сопряженных с ним информационных пространств.
Аналитик и другие лица, связанные с информационными процессами, используют в своей работе понятия, определяющие сущность, структуру, элементы информационного пространства, особенно при использовании современных информационных технологий.
2.1. Понятие информационного пространства Предприятие, корпорация, любой хозяйственный комплекс является системой. Систему можно представить с одной стороны объектом как единым целым, с другой стороны как совокупность (множество) связанных между собой и взаимодействующих составных частей — объектов, но меньшего масштаба. Информационное отображение физических объектов или процессов называют информационным объектом. (16).
Совокупность информационных объектов, информационно отображающих свойства системы и протекающие в ней процессы, называют информационным пространством (ИП). (4) Оно состоит из различных квантов или массивов данных в виде разного рода письменных (знаковых) и фиксированных на носителях информации кодограмм, буквенно-цифровых на естественном языке, устных и визуальных сообщений. Все виды сообщений предоставляются непосредственно поИнформационно аналитические системы требителям информации или передаются по каналам связи, могут быть сохранены в различном виде с помощью современных технических средств и по мере необходимости воспроизводиться.
Подавляющая часть сообщений, как правило, «загружается» в информационную систему и становится основой ее информационного обеспечения. Сочетание знаковых, звуковых (аудио) и образных видимых, в том числе с анимацией, сообщений (визуальных) называют мультимедийными сообщениями. Такого рода сообщения получили в последние годы широкое распространение в связи с высокой эффективностью восприятия и широким внедрением поддерживающих такие сообщения средств на практике и в состав информационных систем соответственно.
Сообщения могут содержать оперативную информацию о технологических процессах, хозяйственных операциях; могут быть представлены в виде экономической, технической, организационно-распорядительной, отчетной документации и т.д.
2.2. Структура информационного пространства Характерным свойством информационного пространства является его структурированность. Это означает, что выделены его элементы, установлены связи между ними, введены обозначения, элементы и связи упорядочены. Свойство структурированности в разных видах информационных пространств может быть выражено в разной степени. Высокий уровень обеспечивает возможность представления информации в виде документов и манипулирования данными с помощью программно-технических средств информационных систем.
Хотяшов Э.Н. и Королев М.А. различают пять степеней структурированности ИП:
• неструктурированное ИП (НИП);
• слабо структурированное (ССИП);
• структурированное (СИП);
• формализованно-структурированное (ФСИП);
• машинно-структурированное (МСИП).
Рассмотрим подробнее признаки степеней структурированности.
НИП — признаки структуризации крайне редки, примером служит человеческая речь, передача сообщений в животном мире от особи к особи.
ССИП — компоненты структуризации не имеют законченного вида, это естественный письменный язык, где признаками структуризации являются грамматические правила, которые зачастую неоднозначны, противоречивы, имеют исключения, недостаточно строги и т.д.
СИП отличается преобладанием структурированных компонентов, внедрено кодирование, информация документируется; это информация, подготовленная к «загрузке» в информационную систему.
ФСИП — имеются такие спецификации информационных объектов и их взаимосвязей, которые содержат алгоритмы получения любых значений элементов данных; обеспечиваются операции по управлению данными, возможны реорганизация и оптимизация структуры ЭИС, а также алгоритмов обработки информации.
МСИП — представлены в формализованном виде все информационные объекты и их взаимосвязи, процессы преобразования информации описаны на языках программирования, обеспечивается взаимодействие пользователя и ЭИС на естественном или близком к естественному языке или по предельно упрощенным правилам.
2.3. Элементы структуры информационного пространства.
Понятие показателя В качестве элементов структуры информационного пространства выступают единицы информации. Это понятие, которое рассматривается в теории экономических информационных систем (ЭИС), выражает сущностное или смысловое наполнение элемента ИП. Под единицей информации (3) понимают «набор символов, которому придается определенный смысл». РасИнформационное пространство и система экономических сматривается система единиц информации, которая имеет довольно сложную иерархическую структуру. Выделяют несколько уровней единиц информации в зависимости от смыслового (семантического) значения, его наполненности.
По возрастанию содержательности понятия определены следующие единицы информации: реквизит и составная единица информации (СЕИ), которая включает в себя такие единицы как показатель и база данных.
Элементарной единицей информации нижнего уровня является реквизит. Это информационное отображение свойства объекта, какого-либо процесса или явления. Сообщения состоят из определений свойств объектов, предметов, явлений, складывающихся некоторым образом из соответствующих реквизитов. Следует заметить, что синонимом понятия реквизит является атрибут, широко используемый в литературе по базам данных термин.
Отсюда составная единица информации собирается из набора соответствующих определению данного объекта реквизитов и представляет собой информационное отображение объекта или его части.
Разновидностью составной единицы информации является показатель. Это сложное понятие. Имеются его различные определения. Одни авторы подчеркивают сущностный смысл или характер, привязанный к предметной области, в частности экономической. Другие исходят из формально-структурного подхода, ориентированного на структуризацию содержащейся в показателе информации в целях приспособления его структуры для эффективного использования в информационной системе. Результаты такой структуризации используются и в информационно-аналитических системах.
Приведем в данном контексте определение формально-структурного подхода по Королеву М.А. в интерпретации (изложении) Ясина Е.Г. «Показатель представляет высказывание с законченным смыслом, включающее как название переменной величины, так и ее конкретное количественное значение со всеми качественными признаками, необходимыми для идентификации последнего». Показатель образуется из набора реквизитов или терминов.
Реквизиты составляют две группы:
• реквизиты-признаки, выражающие качественные отличия показателя, его смысловое содержание, в частности экономическое;
• реквизиты-основания, содержащие количественные значения показателя.
Показатель теряет смысл без какого-либо из названных реквизитов. В совокупности они образуют высказывание (сообщение), имеющее законченный предметный смысл, что позволяет утверждать, что показатель является наименьшей составной единицей информации, которая достаточна для документообразования, передачи, хранения и восприятия сообщений.
При структуризации информационного пространства разрабатывается система показателей, анализируется их собственная структура. В ходе этой работы необходимо исследовать общие закономерности, выявить категории показателей — члены общей структурной формулы описания показателей.
В общем виде структура показателя выглядит следующим образом (9): P R, x, где: Р — показатель (может быть экономическим);
R — набор реквизитов (терминов), идентифицирующих смысловое значение показателя;
x — количественное или качественное значение показателя.
Идентификатор в свою очередь можно представить в виде двух частей:
где: S — составленное из реквизитов наименование показателя, выявляющее его предметный смысл;
Q — дополнительные признаки показателя, составленные также из реквизитов и уточняющие его количественное значение.
Выделенные реквизиты могут быть в свою очередь составными, Для уточнения связей между ними строятся схемы, детализирующие объект до такой степени, что дальнейшая детализация невозможна или не имеет смысла. Реквизиты самого нижнего уровня называются единичными. Другие, расположенные на более верхних уровнях — множественными.
Информационно аналитические системы Дальнейший анализ проведем, начав с дополнительных признаков. Они могут состоять из:
Е — единиц измерения, их может быть несколько в составе показателя;
С — субъектов, это могут быть наименования субъектов и объектов хозяйственной деятельности, регионов, места размещения предприятия и других объектов;
В — времени или реквизитов, определяющих временной аспект — моментов происхождения событий, периодов времени протекания хозяйственных или иных процессов, У — признак стадии учета или, как сказано в (9) функции управления, то есть плановые, фактические, нормативные или какие либо другие значения показателя.
Представим эту структуру в виде соотношения:
Наименование показателя может быть слитным (определенным одним реквизитом) или иметь свою структуру и в свою очередь состоять из реквизитов, таких как:
Ф — формальная (вычисляемая) характеристика показателя, раскрывающая его структуру или алгоритм агрегации исходных детальных данных, например объем продаж, среднее, максимальное значение той или иной величины (подразумевается методика подсчета);
— П — обозначение отображаемого технологического или бизнес-процесса, например изготовление, реализация, перевозка и т.д.
— О — объект измерения, подсчета — виды товаров, оборудования, работники по категориям или общим числом.
Таким образом общая структурная формула показателя примет вид:
Данная структура, представленная в таблице 2.1, может отображать практически любой показатель.
Ф П О Е С В У
2.4. Пространственная интерпретация понятия показатель Для образного восприятия сложных понятий удобна их пространственная или геометрическая интерпретация. Представим пространство признаков показателя на системе координат. Число измерений или признаков этого пространства равно числу осей его системы координат, на которых откладывают отрезки, соответствующие реквизитам (терминам).Рис. 2.1. Система координат многомерного информационного пространства показателя Множественность реквизита выражается в длине отрезка. Тогда составляющие его единичные реквизиты укладываются на этом отрезке. Пример такого пространства показателей приведен на рис. 2.1.
Для трехмерного пространства это будет куб, который представлен на рис. 2.2. Часто такое отображение называют OLAP-куб, так как такие структуры используют как исходные оперативного анализа. В свою очередь можно построить пространство системы взаимоувязанных показателей в виде набора соприкасающихся трехмерных кубов.
Иллюстративные материалы специальной литературы и технической документации содержат упрощенные геометрические модели рассматриваемых пространств. Как правило, на осях откладываются реквизиты-признаки в виде отрезков равной длины, а их количественное наполнение содержится в реквизитах-основаниях, которые не отображаются геометрически.
Рис. 2.2. Трехмерный гиперкуб информационного пространства показателя «Объем продаж»
Информационно аналитические системы Широко распространена также геометрическая интерпретация системы показателей в виде пирамиды, в основании которой лежат единичные признаки. Пирамида делится по высоте на «этажи», которые соответствуют иерархии признаков или системы показателей.
Рис. 2.3. пирамида показателей среднего уровня Рис. 2.4. Диаграмма Ишикава Предприятие Соответствующие структуры представляют также в виде перевернутого дерева или «рыбьего скелета» — диаграммы Ишикава.
2.5. Содержание экономических показателей Для оценки ситуации на предприятии или другом объекте при подготовке и принятии решений по управлению объектом должна быть выработана или принята система оценок, которая ложится в основу аналитической работы с имеющейся и требуемой информацией. Систему оценок можно рассматривать как совокупность показателей деятельности объекта с их критериальными значениями. Для экономической сферы деятельности это будут экономические показатели.
Системы экономических показателей основываются на элементах структуры информационного пространства.
С экономической точки зрения под показателем деятельности предприятия понимают «конкретное проявление экономической категории в характеристике объекта» (5). Это наиболее строгое, на наш взгляд, определение экономической сущности показателя из встречающихся в литературе.
Отдельным показателем невозможно достаточно полно отобразить и оценить состояние экономического объекта, поэтому применяются системы показателей.
Система экономических показателей отображает финансово-хозяйственную деятельность как на уровне предприятия, то есть на микроуровне, так и на макроуровне. Два этих раздела показателей касаются как каждого предприятия, корпорации (объединения), так и государственных органов и негосударственных организаций регионального, государственного и межгосударственного масштаба (уровня). Показатели отражаются в документации, которая ведется на предприятии, используются в оценках его состояния и динамики процессов, происходящих на предприятии, в информационных системах. Естественно, что при анализе их используют непосредственно и интерпретируют различным образом в целях извлечения знаний, формирования выводов и т.д.
В связи с этим централизованно разработаны системы реквизитов соответствующих обязательных к использованию документов: государственные стандарты документооборота, формы документов, системы кодирования статистической, учетной, финансовой отчетности и другой документации. На предприятии разрабатывается внутренняя система показателей и соответствующих реквизитов.
Предприятие регулярно обменивается информацией с внешней средой в виде представления разного рода отчетности и других материалов, получения различных руководящих и установочных документов, информационных материалов и т. д.
Предприятие представляет в государственные органы ежеквартально и нарастающим итогом за полугодие, год:
• внешнюю финансовую отчетность в территориальные государственные органы — налоговую инспекцию и финансовое управление;
• статистическую отчетность о различных сторонах деятельности предприятия в территориальные органы Госкомстата РФ;
• отчетность о финансово-хозяйственной деятельности в государственные фонды (предстоит их реформирование в плане объединения и упрощения отчетности).
Выдается информация в виде отчетности и других документов в вышестоящие органы.
Госпредприятия и организации представляют ее в государственные и муниципальные органы управления, негосударственные — в корпоративные органы. Имеется документооборот и другого рода: информационные потоки с банковскими и другими финансовыми учреждениями, например страховыми, взаимодействующими и партнерскими организациями и т.д.
В государственных органах проведены структуризация, формализация, классификация и кодирование многих видов документов на основе разработки соответствующей системы реквизитов и показателей, которая постоянно видоизменяется и далека от совершенства, а самое главное от общепринятых в мировой практике международных стандартов, систем отчетности, классификации, кодирования. Особенно страдает от такого положения дел финансовая сфера управленческой деятельности.
Информационно аналитические системы Под классификацией понимают определение мест показателей в той или иной сфере деятельности, в частности экономической; среди объектов бизнеса, функций управления ими, их состояний, по единицам измерения, стабильности значения показателя, то есть упорядочение информации. Выражаясь формальным языком, «классификация преследует цель установления отношений между понятиями как Определение отображениями объектов или групп объектов с общими свойствами, изучения структуры и упорядочения содержания данных». (9).
Кодирование заключается в заинтересованном обозначении элементов данных, которое имело бы необходимую длину и удобство представления при наименьших затратах на перекодирование при обмене данными, их обработке, контроле, Задачи классификации и кодирования тесно увязаны. Примерами общегосударственных систем классификации и кодирования служат ОКП (Общесистемный классификатор промышленной и сельскохозяйственной продукции), ОКОНХ (Общесистемный классификатор отраслей народного хозяйства), ОКПО (общесистемный классификатор предприятий и организаций) и другие, однако упомянутые системы плохо увязываются с системами национальных счетов, принятыми в международной практике.
На микроуровне стоит подобная задача меньшего масштаба, но не менее трудная.
При внедрении информационно-аналитической системы как автономной, которая увязывается с локальными базами данных или информационными системами, так и встроенной в интегрированную ЭИС возникает проблема структуризации информационного пространства предприятия, которая выражается в первую очередь в классификации и кодировании.
Как правило, на предприятии имеются фрагменты автоматизации: то ли локальные информационные системы типа бухгалтерских, электронного документооборота, различные базы данных в сфере логистики, производственного учета и т. д. Все они имеют какую-либо структуризацию, классификацию и кодирование данных. Зачастую это носит частный характер и не стыкуется или плохо согласуется с другими массивами данных.
2.6. Системы показателей Количественные показатели отражают в абсолютных величинах происходящие на предприятии процессы в монетарном (денежном) или штучном выражении. Широко используются и относительные величины. Они служат основой финансового и управленческого учета. Данные учета, прошедшие аналитическую обработку различного уровня в зависимости от стоящих задач и возможностей, в свою очередь, являются фундаментом управленческих решений. Как показано выше, одного или нескольких показателей мало для создания достаточно полной картины (представления) происходящих на предприятии процессов и его состояния. На практике (в основном зарубежной) сложилось несколько систем показателей, основанных на экономическом характере объективно существующих между показателями связей. По видам связей различают две группы систем показателей (15) — логико-дедуктивные и эмпирико-индуктивные.
Логико-дедуктивная система показателей строится в виде пирамиды, в основе которой лежат частные показатели, находящиеся в смысловой, подчас сложной взаимосвязи между собой и показателями, находящимися на более высоких «этажах». На вершине пирамиды находится обобщающий показатель, как бы впитывающий в себя по определенным правилам все показатели нижних уровней.
Эмпирико-индуктивные системы составлены с помощью использования статистического отбора показателей, наиболее существенных и значимых с точки зрения подготовки принятия решений.
Логико-дедуктивные системы показателей Эти системы имеют широкую область применения, наиболее широко распространены и положены в основу инструментальных средств ИАС и интегрированных ЭИС, используются для целей учета, анализа, планирования и контроля. В качестве обобщающего показателя испольИнформационное пространство и система экономических зуется чаще всего — рентабельность инвестированного капитала (Return On Investment ROI)., водится по формуле:
где: G IK — прибыль с капитала, рассчитываемая только для определенной, “работающей” на предприятии части имущества;
IK — сумма основных и оборотных средств.
У показателя ROI имеются недостатки (15), выражающиеся в том, что относительность составляющих показателя — реквизитов затрудняет выделение компонента, за счет которого произошло изменение показателя; при оптимизации локальные и глобальный оптимум могут войти в противоречия, некоторые весьма важные для оценки ситуации характеристики объекта не охватываются этим показателем.
Однако и при наличии отмеченных замечаний на основе этого показателя построен ряд логико-дедуктивных систем показателей. К ним относятся: Du Pont, Pyramid Structure of Ratios, система показателей аналитических блоков интегрированных ЭИС SAP R3 и BAAN.
Система Du Pont создана и используется одноименной американской компанией. Pyramid Structure of Ratios разработана Британским институтом менеджмента для выполнения сравнительных аналитических работ по различным предприятиям.
Система ZWEI, разработанная в Германии, RL используют несколько обобщающих показателей, в том числе и абсолютных, к которым относятся Cach flow, выручка, портфель заказов и др.
Эмпирико-индуктивные системы показателей Эмпирико-индуктивные системы строятся на основе анализа методами математической статистики результатов деятельности крупных выборок предприятий — около 100. Из большого числа экономических показателей выбираются наиболее существенные для соответствующих целей. В основном такие системы применяются для ранней диагностики финансового состояния предприятий. К таким системам относятся Beaver, Weibel. Эти системы используют для оценки шесть-семь наиболее значимых показателей. Оценка ведется путем сравнения показателей обследуемых предприятий с «эталонными».
В настоящее время активно ведутся работы по созданию подобных отечественных систем. В частности широко представлены на российском рынке программные продукты российских фирм «ИНЭК», Pro Invest Consulting и других фирм.
Информационно аналитические системы Вопросы для самопроверки:
1. Дайте определение понятия информационного пространства.
2. В каких видах содержатся сведения в ИП и какие манипуляции совершаются 3. Какое Вы знаете характерное свойство ИП и в чем оно состоит?
4. Какие единицы информации Вы знаете? В чем их содержание?
5. Дайте определение понятия показатель, исходя из формально-структурного 6. Каким образом строится пространственная интерпретация понятия показатель?
7. Какие виды геометрического представления показателей и их систем Вы знаете?
8. Что такое система оценок и в чем ее смысл?
9. Дайте определение показателя с точки зрения экономиста.
10. В чем содержание экономических показателей?
11. В чем заключается классификация показателей?
12. В чем состоит кодирование показателей?
13. Какие общегосударственные системы классификации и кодирования Вы знаете?
14. Как строятся системы показателей деятельности предприятия?
15. Что такое логико-дедуктивная система показателей?
16. Что такое эмпирико-индуктивная система показателей?
1. Информационное пространство — это:
1. набор сведений о системе или объекте;
2. совокупность информационных объектов, информационно отображающих свойства системы и протекающие в ней процессы.
2. Характерным свойством информационного пространства является:
1. аморфность;
3. наличие связей между информационными объектами;
3. структурированность.
3. Информационное пространство состоит из следующих единиц информации:
3. реквизит;
4. показатель;
5. составная единица информации;
6. база данных.
4. Показатель, исходя из формально-структурного подхода, представляет собой … 5. С точки зрения экономиста показатель — это:
1. количественная характеристика экономического процесса;
2. конкретное проявление экономической категории в характеристике объекта;
3. качественное описание свойства экономического объекта.
6. Классификация показателей — это:
1. упорядочение показателей по какому-либо признаку;
2. определение классов показателей;
3. устанавливает отношения между понятиями как отображениями объектов или групп объектов с общими свойствами, определяет структуру и упорядочивает содержание 7. Кодирование показателей — это:
1. составление кодограмм показателей;
2. заинтересованное обозначение элементов данных, которое должно иметь необходимую длину и удобство представления.
8. Геометрическое представление (пространственная интерпретация) показателя строится:
1. с помощью системы координат, которые представляют собой признаки, идентифицирующие смысловое значение показателя;
2. с помощью таблиц, содержащих числовые значения показателей 9. Системы показателей строятся на основе:
1. схожести признаков показателей;
2. объективно существующих между ними связей.
Изучив тему 3, студент должен знать:
принципы сбора данных из различных источников, понятия о базах метаданных (БМД), требования к информационным хранилищам, основы построения БМД и ИХ.
создавать логическую модель системы сбора данных, базы метаданных информационного хранилища.
Приобрести навыки:
формулирования потребностей бизнес-пользователей в составе, форматах и структуре исходных данных для выполнения аналитических работ, формирования состава базы метаданных.
При изучении темы 3 необходимо:
• учебное пособие [51] главу 3;
• учебно-справочное издание [50]главу 2 стр. 18—32;
• книгу [29] главу 3 стр. 41—57;
• книгу [13] главу 8 стр. 241—269.
Сосредоточить внимание на следующем:
При сборе и обработке данных из различных источников и помещении в информационное хранилище необходимо использовать гибкую архитектуру данных, обеспечить должный уровень качества закладываемых в ИХ данных; в процессе преобразования исходных форматов в единый формат ИХ согласовать семантику данных первичных источников со смыслом атрибутов базы метаданных.
1. Понятие о гибкой архитектуре данных. Рассматриваются принципы гибкой архитектуры данных, обеспечивающей доступ с любой аппаратно-программной платформы к любому нужному источнику, а также принципы открытых систем, использование которых позволяет реализовать гибкую архитектуру данных. Раскрывается значение стандартов в создании системы сбора данных в информационное хранилище.
Краткое 2. Повышение качества информации при сборе ее в информационное хранилище. Рассодержание крываются проблемы обеспечения качества информации на предприятии и способы его повышения на пути движения данных из первичных источников к хранилищам и поддержания в процессе накопления и хранения данных в ИХ. Рассматриваются методы оценки данных — «ручные» и программные, а также оценки выгод, которые может получить и получает предприятие, обеспечивая должное качество данных.
3. Преобразование данных в единый формат и приведение их к единой структуре. Отмечается то, что приходится при пересылке данных из первичных источников решать проблему приведения их к единому формату из множества форматов, применяемых в истоках, а также согласования интерфейсов в смысловом значении данных.
4. Основные принципы построения информационных хранилищ. Рассматриваются правила Инмона — автора концепции ИХ, определяющие основные свойства ИХ. Раскрываются такие свойства как: предметная ориентированность, интегрированность, неизменчивость, поддержка хронологии.
5. Понятие о метаданных (МД), базе МД — репозитории, используемых в информационном хранилище. Приводится определение МД, рассматривается назначение, состав, выполняемые функции. Описывается классификация МД по различным признакам: по динамике использования, в зависимости от этапа применения, по детальности описания предметной области. Рассматриваются принципы создания репозитория ИХ.
6. Особенности построения модели данных информационного хранилища. Рассматривается принцип ориентации структуры ИХ на выполняемый конечным пользователем анализ содержащихся в нем данных. Схема данных, имеющихся в OLTP — транзакционных системах, должна обеспечивать их связь с данными, помещаемыми в хранилище.
Обосновывается необходимость перехода от нормализованных данных в реляционных базах к схеме «звезда»-«снежинка»-«созвездие» для обеспечения представления данных в размерностном историческом аспекте. Раскрываются понятия «факт-таблица», Цель изучения: Освоить технологии сбора данных из различных источников, основы построения структур предметных разделов и информационного хранилища в целом. Приобрести навыки построения рабочих хранилищ и витрин данных.
3.1. Технологии извлечения, преобразования и загрузки данных 1. Понятие о гибкой архитектуре данных.
2. Сбор, повышение качества данных и приведение их в единую структуру.
3.1.1. Понятие о гибкой архитектуре данных Объектом анализа являются данные, сконцентрированные в хранилище, а при необходимости и изымаемые непосредственно из первичных источников, которые должны быть структурированы в виде системы показателей исследуемой предметной области.
Данные из внутренних и внешних источников проходят путь в информационное хранилище через программы очистки и преобразования к единому формату. В особых случаях они могут поступать напрямую к заинтересованным лицам или в программы-приложения. Затем данные из ИХ в случае OLAP — анализа или Reporting-a используются для принятия оперативных решений, подготовки материалов или документов. При работе в режиме интеллектуального анализа извлекаются из информационного хранилища знания и применяются, они, в основном, для стратегических решений.
Процессы продвижения и использования данных проходят несколько этапов:
Информационно аналитические системы – Этап извлечения, преобразования и загрузки данных. На основе принятой системы показателей, характеризующих деятельность предприятия, подлежащих анализу и использованию в процессе принятия решений, и необходимых при разработке каких-либо документов, организуется сбор необходимых данных в хранилище и прорабатываются пути непосредственного извлечения в экстренных случаях необходимых детальных данных из первичных источников; этому этапу предшествует работа по созданию необходимой структуры перекачиваемых данных;
– Этап накопления, обеспечения готовности данных к использованию.
По мере накопления в соответствующих зонах памяти выполняется периодическая загрузка данных из функциональных (транзакционных) подсистем интегрированной информационной системы (ИС) или автономных ИС, поддерживается необходимый уровень качества данных; в отдельных случаях допускается внеплановая загрузка по – Этап применения данных, содержащихся в хранилище, и извлекаемых напрямую из первичных источников.
Для обеспечения процесса управления предприятием или другим объектом данные используются в трех основных режимах — создания плановых отчетных и других документов (Reporting), оперативного анализа в незапланированных ситуациях (OLAP-анализ), интеллектуального или углубленного анализа (Data mining). Накопленные в хранилище данные могут быть использованы в специальных программах, обеспечивающих развитие В основе концепции информационных хранилищ заложена идея гибкой архитектуры данных. Это означает, что любому пользователю из числа доверенных лиц должна быть обеспечена возможность доступа к любому разрешенному для использования участку данных, которыми располагает предприятие (организация). Такой доступ осуществляется путем закладки в организационно-методологические основы построения системы сбора и хранения данных соответствующих возможностей, а также согласования принципов построения и четкого взаимодействия аппаратного, программного комплексов и структуры накапливаемых и хранимых сведений.
Эта идея реализуется в основном в рамках свойств «открытых систем», определение которых POSIX 1003.0 принято Комитетом IEEE. В соответствии с этим определением открытая система есть «система, которая реализует открытые спецификации на интерфейсы, сервисы (услуги среды) и поддерживаемые форматы данных, достаточные для того, чтобы дать возможность должным образом разработанному прикладному программному обеспечению быть переносимым в широком диапазоне систем с минимальными изменениями, взаимодействовать с другими приложениями на локальных и удаленных системах, и взаимодействовать с пользователями в стиле, который облегчает переход пользователей от системы к системе».
Основные свойства открытых систем, очерченные этим определением, следующие:
– Расширяемость (extensibility) предполагает возможность включения новых или изменения некоторых прикладных функций ИС из числа уже реализованных, не изменяя при этом остальные функциональные подсистемы ИС.
– Масштабируемость (scalability) предусматривает применительно к прикладным программам и базам данных, реализуемым на разных прикладных платформах, возможность изменения их количественных характеристик (размерности решаемых задач, числа обслуживаемых пользователей и т.д.) путем настройки параметров, а не путем перепроектирования и программирования заново.
– Переносимость (portability) — это возможность перемещения ИС на другие аппаратнопрограммные платформы в случае их модернизации или замены с наименьшими затратами, сохраняя инвестиции, вложенные в разработку приложений, формирование массивов данных и обучение пользователей. Рассматривается переносимость приложений (application portability) и данных (data portability). Такая возможность обеспечивается соблюдением принятых стандартов обмена данными между приложениями и функциональной средой открытых систем. Определена «переносимость» пользователей (user portability), которая предусматривает возможность обеспечения стабильным дружественным пользовательским интерфейсом.
– Интероперабельность (interoperability) — свойство, обеспечивающее взаимодействие ИС с другими системами при обращении к информационным ресурсам (базам данных, базам знаний) этих систем или при решении определенных задач с использованием их вычислительных ресурсов, если собственные ресурсы недостаточны. Интероперабельность систем реализуется, прежде всего, форматами данных, принятыми в качестве стандартов электронного обмена данными (electronic data interchange - EDI) для разных прикладных областей. Интероперабельность систем при обращении, (запуске на исполнение) к программам и данным, располагающимся в других системах, обеспечивается стандартами удаленного вызова процедур (remote procedure call — RPC).
– Способность к интеграции. При интеграции систем в целом (system integration) это свойство обеспечивает объединение нескольких ИС различного назначения в интегрированную многофункциональную ИС.
В случае интеграции баз данных (database integration) для прикладной программы или пользователя несколько баз данных представляются как одна логически единая база данных.
При этом обеспечивается обращение пользователей к любой из этих баз независимо от ее места расположения в режиме коллективного доступа к данным, одновременная работа нескольких баз данных с каждой из прикладных программ ИС или пользователем.
При интеграции данных (data integration) обеспечивается возможность совместного использования запросом пользователя или программой одновременно нескольких файлов данных как единого целого. Рассматривается логическая интеграция, которая осуществляет объединение данных на логическом уровне, не затрагивая их физической организации, а также физическая, предполагающая слияние данных в единый информационный массив.
Высокая готовность (high availability) — свойство, означающее высокую отказоустойчивость (практически полную) системы (fault tolerance). В случае отказа какого-либо компонента обеспечивается гарантия автоматического восстановления работоспособности и сохранение целостности баз данных. Свойство готовности рассматривается и как мера способности системы принимать и успешно выполнять запросы и задания за доступный интервал времени.
На основе обзора свойств открытых систем можно сделать вывод об их определяющем значении при создании и эксплуатации информационно-аналитических систем. В соответствии с принципами открытых систем организуются и реализуются манипуляции с данными на всех рассмотренных выше этапах пути прохождения данных из источников к потребителям, а также на этапе подготовки информации для тех или иных целей на основе использования накапливаемых данных.
При организации работ по созданию, внедрению и применению ИАС важное значение имеет учет стандартов. Применение их облегчает организацию сбора, представление их в виде системы стандартных показателей в функциональных подсистемах ИАС, позволяет легко вписывать данные из первичных источников в структуру хранилища данных Положения функциональной стандартизации в области информационных технологий определены стандартом ГОСТ Р ИСО/МЭК ТО 10000-99 «Информационная технология. Основы и таксономия международных функциональных стандартов».
Ориентация на стандарты при создании и ведении ИАС имеет два аспекта:
– использование их при создании архитектуры аппаратной и программной платформ ИАС (смотри приведенный выше стандарт);
– применение международных и российских стандартов в процессе классификации и кодирования систем показателей, что становится особенно актуальным при организации международного компьютерного обмена данными в процессе экономической или другой деятельности.
В настоящее время широко распространены системы электронного обмена данными (ЭОД), в англоязычной терминологии Electronic Data Interchange (EDI). Для создания системы компьютерного обмена данными, особенно в корпоративных распределенных структурах, тем более транснационального масштаба, в мировой практике широко применяются стандарты EDIFACT, которые были утверждены Международной организацией по стандартизации (International Organization for Standardization ISO) в 1988 году:
Информационно аналитические системы – ISO 7372-86 «Trade data interchange. Trade data elements directory. First edition. 1986Справочник элементов данных).
– ISO 9735-88 «EDI for administration, commerce and transport (EDIFACT). Syntax rules.
1988-07-15» (Синтаксические правила ЭДИФАКТ ООН).
В России появились два аналога приведенных выше стандартов:
– ГОСТ 6.20.2-91 «Элементы внешнеторговых данных (ISO 7372-86) – ГОСТ 6.20.1.90 «Электронный обмен данными в управлении (ISO 9735-88), торговле и на транспорте (ЭДИФАКТ). Синтаксические правила.»
Введены эти стандарты 01.01.1992 года.
Стандарты ISO нашли дальнейшее развитие по отраслям деятельности, по технологиям обмена, в направлении применения Web —технологий.
3.1.2. Сбор, повышение качества данных и приведение их в единую структуру Эти процессы, соответствующие этапу извлечения, преобразования и загрузки данных, в англоязычной терминологии называются Extraction, Transformation, Loading — ETL-процессы.
В процессе создания ИАС и ее центральной подсистемы — информационного хранилища как важная проблема выделяется обеспечение необходимого качества данных, в том числе достоверности, согласованности, соответствия установленным ограничениям и бизнес-правилам и т.д.
Качество загружаемых и содержащихся в хранилище данных достигается системой организационных и программно-технических мероприятий. К ним относятся: "ручная" проверка разного рода ошибок, несоответствий, например неодинаковых названий полей с одним смыслом, и автоматическая с применением программных средств.
При сборе данных в информационное хранилище необходимо учитывать два основных аспекта: структурный и смысловой. Структурный аспект заключается в представлении данных из источников в тех или иных форматах программных сред, в которых были сформированы. Они должны приводиться к одному или группе форматов в системе сбора и хранения данных. Смысловой аспект состоит в содержательном наполнении знаковых структур данных. Даже при согласованных форматах данных могут быть разные толкования одинаково или близко по виду записанных данных и другие виды разночтений. Такие ситуации необходимо исключить еще на этапе формирования структуры ИХ.
ETL-процессы, которые реализуют требования по обеспечению качества, созданию необходимой структуры и поддержанию смысловых характеристик данных делятся на следующие стадии:
– Извлечение. На этой стадии производится перегрузка данных из источника, как правило, в промежуточную область хранилища. Под каждый источник в этой области создается своя таблица. Данные в источниках могут иметь различные форматы, в том числе текстовые неструктурированные, табличных процессоров, разного типа СУБД. Данные одного типа и структуры в первичных источниках сводят в одну таблицу, присваивая ей дополнительные поля.
– Структуризация. Ей подвергаются только неструктурированные данные. Они приводятся к пригодному для ввода в реляционные таблицы виду.
– Обработка. Изначально структурированные и подвергшиеся структуризации данные подвергаются обработке, которая заключается в очистке, фильтрации, согласовании данных.
– Пересылка и импорт данных. Современные СУБД обеспечивают возможности транспортировки данных как внутри одного сервера, так и в распределенном режиме между серверами. Этот процесс требует тщательного квалифицированного администрирования.
Необходимо обеспечивать защиту передачи данных по каналам связи. Может оказаться, что некоторые данные не могут быть вставлены в предназначенные им таблицы из-за ограничений или несогласованности типов данных. В таких случаях для них необходимо отводить отдельный участок памяти, где они сохраняются для дальнейшей оценки.
Отдельно и более подробно рассмотрим процессы повышения качества данных. Искажение данных может появляться на любом этапе, стадии, шаге ETL-процессов. Упредить их возникновение полностью — задача практически невыполнимая, но необходимо принимать меры по снижению их количества и обнаружению. Рассматривают фатальные искажения, ошибки, к которым относятся: отсутствие данных в источнике, ошибка в подключении к источнику, проявляющаяся в отсутствии доступа к необходимым данным, проявление системного сбоя операционной системы.
Очистка данных состоит в исключении из общего потока тех данных, которые не отвечают заданным ограничениям на загрузку или бизнес-правилам. В этом случае данные из исходной таблицы разделяются на две части: отвечающие критериям качества, несоответствующие таковым и не попадающие на загрузку в хранилище.
Оценка качества данных производится:
– по критичности ошибок в данных (могут или не могут быть загружены) — ошибки в именах полей, типах данных;
– по правильности форматов и представлений данных;
– на соответствие данных ограничениям целостности;
– на уникальности внутренних и внешних ключей;
– по полноте данных и связей;
Приведенный перечень видов искажений, несоответствий в данных касается в основном структурного представления данных, технологических причин.
Смысловое содержание данных — знаковых структур очень важно при создании структуры хранилища и его поддержании, которое состоит в первоначальной загрузке и дальнейшем его заполнении и актуализации в процессе эксплуатации. В ходе ETLпроцессов велика вероятность искажений, сбоев в работе по причине несогласованности в семантике. Такие ситуации называют «семантические разрывы» (46). В этой работе приводится четыре их вида:
– «Вавилонский» — это ситуация, когда одно и то же понятие или показатель обозначают – Кросспотоковый разрыв. В этом случае наименования разных по смысловому содержанию понятий одинаковые в знаковом представлении. Такое происходит при наличии в одной системе разных по смыслу данных, предоставляемых из разных источников. Например в одном источнике «Партия комплектов 50 штук» понимают комплекты узлов для компьютеров, но этот комментарий опущен, в другом источнике это комплекты узлов для музыкальных центров. В связи со сложившейся привычкой комментарии также отсутствуют.
– Кроссязыковый разрыв происходит в тех случаях, когда передающее и принимающее звено не согласовали характеризующие признаки понятий — показателей. Например при оценке объемов поставок нефти передающий оценивает их в тоннах, а принимающий — в баррелях.
– Асинхронный разрыв связан с потерей или задержкой в передаче целой посылки в массиве или ее части, что нарушает целостность массива, его смысловое содержание или не дает возможности правильно понять и определить данные.
– В информационных хранилищах семантические разрывы в данных возможны на любом из переходов от этапа к этапу при прохождении данных от источников к конечным пользователям информацией и знаниями.
3.2. Концепции организации хранения данных 1. Концепция информационного хранилища.
2. Концепция централизованного хранилища данных 3. Концепция распределенного хранилища данных.
4. Концепция автономных витрин данных.
5. Концепция единого интегрированного хранилища и многих витрин данных.
Информационно аналитические системы Подготовка принятия решений требует сосредоточения значительного, а подчас колоссального количества информации на месте его подготовки; (выше приведены возможные ее объемы в зависимости от масштабов и сложности решений). Естественно стремление приблизить места хранения и использования информации. Проблемы подготовки принятия решений разрешаются с использованием инструментальных систем поддержания принятия решения Decision Support Sistem (DSS). В них большое место стали занимать OLAP-технологии, интеллектуальный анализ, подготовка плановых и стандартных документов, которые используют информационные ресурсы, предоставляемые системами сбора и хранения данных.
Проблема сбора и хранения информационных ресурсов выделилась как занимающая особое место во всей системе управления предприятием (корпорацией) и оформилась в концепцию информационных хранилищ (ИХ) — англоязычный термин Data Warehouse (DWН). Эта подсистема является центральной в интегрированной информационной системе, которой становится совокупность локальных информационных систем и информационных технологий, слитых воедино средствами ИАС.
3.2.1. Концепция информационного хранилища Хранилища выполняют задачи накопления сведений о деятельности предприятия, партнеров, других информационных ресурсов из различных источников, в том числе баз данных, отображающих отдельные бизнес-процессы, автоматизированных рабочих мест, информационных систем и других источников информации, в том числе из глобальных информационных сетей, как например Internet.
Simon (Саймон) [11] называет такие источники данных операционными базами данных.
Сбор перечисленных сведений сочетается, как правило, с доработкой исходных данных, которая заключается в проверке достоверности, устранении противоречивости, сортировке, систематизации в соответствии с заранее построенной на основе заданий пользователей единой структурой хранилища.
Инмон (Inmon) — автор концепции информационных хранилищ выделяет следующие характерные для них свойства:
– предметную ориентированность;
– интегрированность;
– неизменчивость;
– поддержка хронологии.
Перечисленные выше свойства целесообразно дополнить свойством «персонализация данных».
Свойство предметной ориентированности означает компоновку пулов информации по определенным предметным областям или целям, обеспечивающим подготовку и принятие соответствующих решений в соответствующей системе DSS или использование в каком-либо другом виде приложения, например для разработки планов развития предприятия, инвестиционных проектов, реинжиниринга и в люОпределение бых работах, для выполнения которых необходимы исходные данные, накопленные в информационном хранилище. Необходимо подчеркнуть, что сосредотачиваемые в хранилище данные поддерживают аналитическую деятельность, а не функциональные или технологические процессы, не непосредственную производственную деятельность, а анализ данных в историческом аспекте.
Интегрированность предусматривает сбор и доработку (предварительную обработку) информации по определенной предметной области из различных источников и превращение ее в организованный по заданным правилам, подчиненным определенной цели, массив в виде гиперкуба или системы поликубов информации.
Пользователь может легко осуществить совместное использование данных из различных секций хранилища, относящихся к разным направлениям деятельности или Неизменчивость состоит в том, что в хранилище данные из различных источников накапливаются, практически не подвергаются каким-либо изменениям, только в случае крайней необходимости, в основном, при обнаружении искажений. Они наращиваются по заданному, четко определенному графику. Пользователь имеет только право чтения информации. Манипуляции с содержимым хранилища доверяются только администраторам.
Поддержка хронологии заключается в обязательности привязки данных ко времени. Информация, содержащаяся в хранилище, рассматривается в историческом аспекте. Используют следующие типы привязки ко времени:
– к моменту совершения события или факта;
– к моменту фиксации его информационными средствами;
– комбинированные методы, сочетающие оба подхода;
– к моментам прохождения сведений по элементам логических цепочек.
Персонализация данных означает необходимость включения в состав данных, загружаемых в информационное хранилище, сведений о лицах, непосредственно выполнивших те или иные операции, ответственных за выполнение работ, за наличие Таким образом, идея хранилищ данных — это не просто единый подход к хранению необходимых данных, а создание единого многопрофильного в рамках одной концептуальной идеи информационного ресурса предприятия, направления исследований, корпоративной структуры и т.д.
Рис. 3.1. Структура информационного хранилища Данные в хранилище из источников накапливаются в течение определенного периода времени в зоне накопления. В течение этого времени производится работа по обеспечению необходимого качества данных по описанным выше правилам. В процессе перекачки из источников данные трансформируются в единый формат, проверяются их смысловая согласованность, наличие ошибок, проводятся мероприятия по повышению качества данных. При достижении необходимого уровня качества и определенного графиком работы момента времени данные переносятся в зону хранения.
Информационно аналитические системы В зоне хранения они могут быть представлены в виде реляционной или многомерной модели (объектном виде). В случае использования реляционной модели необходимо иметь в хранилище зону объектного представления данных для достижения уровня характеристик системы, соответствующего требованиям, предъявляемым к OLAP-системам. Содержание их будет рассмотрено в разделе 4.1.2.
Реализация концепции ИХ может быть осуществлена несколькими способами — имеются несколько вариантов концепций ИХ.
3.2.2. Концепция централизованного хранилища данных Такой подход означает, что при нескольких источниках информации — операционных базах данных создается единое централизованное хранилище. В первичных источниках данные хранятся в «сыром» — недоработанном виде, то есть в структуре информационного пространства данного источника информации или операционной БД. Вся поступающая в ИХ информация должна быть преобразована в принятую в данном ИХ структуру. Передача данных из операционных БД в ИХ, которая сопровождается доработкой, может быть организована по заданному временному графику и правилам доработки с соблюдением принципов Инмона. Допускаются неожиданные запросы «на лету», что предъявляет более строгие требования к инструментальным средствам ИХ.
Рис. 3.2. Схема централизованного хранения данных При реализации такой концепции возникает потребность в мощном компьютере. В зависимости от масштабов предметной области это будет или персональный компьютер с предельно высокими характеристиками, особенно в части требований к объемам памяти или майнфрейм и даже суперкомпьютер. Необходимо наличие развитых средств телекоммуникаций, обеспечивающих информационный обмен «операционные БД — ИХ — пользователи». Это требование относится к любому варианту концепции ИХ.
3.2.3. Концепция распределенного хранилища данных Возможен и имеет место противоположный подход к хранению данных на основе распределения функций ИХ по местам их возникновения или группировки нескольких операционных БД вокруг локального или регионального информационного хранилища. Эти хранилища могут быть ориентированы на определенную предметную область или на регион в корпоративных структурах. Система локальных хранилищ действует в качестве распределенного хранилища. Не исключается и наличие центрального хранилища, но в такой структуре требования к его размерности значительно облегчаются.
Эта концепция предусматривает трансляцию каждого запроса к каждому источнику (базе данных), обработку, увязывание, согласование, компоновку извлеченных данных «на лету» и предоставление их пользователю.
Такой подход при экономии ресурсов на создание крупного централизованного хранилища имеет ряд недостатков, к которым можно отнести:
– в связи с нормализованностью данных в операционных базах и длительностью доступа из «центра» общее время отклика такой системы может выйти за рамки допустимого;
– должны быть обеспечены постоянство нахождения в сети и открытость всех источников информации, так как отсутствие какого либо из них может сорвать весь процесс анализа;
– возможна противоречивость и несогласованность ответов из различных источников изза различных форматов представления, разницы в темпах обновления, правил привязки ко времени, изменения смысловой нагрузки данных и т. д.;
– трудность реализации комплексного исторического обзора содержащейся в разнородных источниках информации из-за различного порядка ее хранения — навязать единый порядок весьма затруднительно.
Рис. 3.3. Схема распределенного информационного хранилища ОперационИХ ная база 1. 3.2.4. Концепция автономных витрин данных Одним из вариантов организации централизованного хранения и представления информации является концепция витрин данных (Data Mart). Она предложена Forrester Research в 1991 году. При таком подходе информация, относящаяся к крупной предметной области — например информационному пространству крупной корпоративной системы, имеющей несколько достаточно самостоятельных направлений деятельности, группируется по этим направлениям в специально организованных базах данных, которые называют витринами данных. Этот подход является развитием концепции распределенного ИХ в части придания функций предметной ориентированности некоторым локальным ИХ.
Такой подход позволяет обойтись сравнительно менее ресурсоемкими аппаратными и программными средствами, Информационно аналитические системы Рис. 3.4. Схема автономных витрин данных обеспечивает повышение адаптируемости системы к изменяющимся условиям, расширяет доступность для внедрения. Пользователь предприятия или другого подразделения корпорации получает свое ИХ, обслуживающее местные потребности.
3.2.5. Концепция единого интегрированного хранилища и многих витрин данных В 1994 году M. Demarset предложил объединить две концепции: единого интегрированного хранилища и связанных с ним и получающих из него информацию витрин данных. В таком варианте имеется крупное информационное хранилище агрегированной и подработанной информации, которое может удовлетворить потенциальные запросы по отдельным направлениям деятельности.
Здесь очевидны преимущества: данные заранее агрегируются, обеспечивается единая хронология, согласованы различные форматы, устраняются противоречивость и неоднозначность данных — информация приобретает необходимую кондицию для быстрого и достаточно полного удовлетворения необходимого множества запросов.
Недостатком является необходимость применения высокопроизводительных аппаратных средств и специализированных многомерных или гибридных программных инструментальных средств.
Рис. 3.5. Схема центрального информационного хранилища и многих витрин данных В таком варианте ИАС приобретает иерархическую многоуровневую структуру, содержащую следующие уровни:
– общекорпоративное централизованное хранилище данных;
– витрины данных по направлениям деятельности;
– локальные или региональные базы и хранилища данных;
– операционные базы данных, автоматизированные рабочие места пользователей автономных программ и АЭИС.
Пунктам концентрации информации соответствуют иерархические уровни использования данных при подготовке, принятии и реализации решений, которые сопутствуют функционированию предприятия (корпорации). Различают:
– уровень лиц, принимающих решения, который может быть совмещен с уровнем витрин – уровень рабочих мест аналитиков и других заинтересованных пользователей.
Рассмотренные концепции охватывают лишь те стороны функционирования ИАС, которые относятся к организации хранения данных. Они не определяют требования и подходы к выполнению анализа, способы представления данных в ИХ — реляционный или многомерный.
3.3. База метаданных информационного хранилища (репозиторий ИХ) 1. Основные понятия о базе метаданных.
2. Классификация метаданных.
3. Модели метаданных по измерениям.
4. Содержание компонентов размерностной модели МД ИХ.
3.3.1. Основные понятия о базе метаданных Управление ИАС осуществляется посредством использования метаданных, то есть данных о том, что представляют собой и как хранятся данные и по существу содержат обобщенную информацию о предметной области. Благодаря их использованию предоставляется информация, необходимая для автоматизации процессов сбора, преобразования и загрузки данных в ИХ и использования всей ИАС.
Проектирование ИХ, разработка сценариев OLAP и интеллектуального анализа начинается с формирования массивов метаданных, которые реализуются соответствующими проИнформационно аналитические системы граммными модулями. Этими модулями описываются атрибуты метаданных, проверяется их корректность, создается физическая структура хранения, обеспечивается вызов для реализации заданных в сценарии анализа функций.
Метаданные можно разделить на два типа — бизнес-метаданные и технические метаданные. Они позволяют ориентироваться в огромном объеме информации.
Бизнес-метаданные служат в основном интересам пользователя. К ним относятся определения данных, обозначения атрибутов и областей, привязка данных ко времени, бизнесправила, соотношения данных, их охват.
Технические метаданные используются службой администратора. К ним относятся сведения о времени обновления и преобразовании данных, права доступа и т.д.
В связи со сложностью потоков данных из операционных БД технические МД необходимы для работы многих программ.
Более подробно, в состав бизнес-метаданных входят:
– определенные объекты;
– столбцы углубления;
– столбцы анализа;
– столбец фактических значений в прогнозных или бюджетных документах;
– столбцы бюджетных значений в прогнозных или бюджетных документах;
– временные измерения;
– значения, определяющие успех предприятия;
– категории и классификации данных;
– сведения о зависимых и независимых переменных;
– вид анализа и ограничений и т.д.
В состав технических метаданных входят:
– структура и семантика данных;
– алгоритмы агрегирования;
– сведения о разграничениях доступа и защите информации;
– периодичность загрузки и очистки;
– права собственности на информацию;
– поисковые таблицы, перечень и правила исключений;
– другие данные, относящиеся к техническому сопровождению.
3.3.2. Классификация метаданных Под метаданными понимают также сведения в виде некоего справочника — репозитория, который помогает пользователям и лицам, обеспечивающим функционирование ИАС, ориентироваться в содержащихся в ИХ данных. Репозиторий является одним из центральных блоков инструментальной части ИАС.
Определение Группа проектировщиков на основе рассмотрения требований пользователей, в которую входят их представители и работники ИТ-подразделения, составляет список подлежащих сосредоточению в ИХ показателей и их реквизитов. Эта работа выполняется на основе анализа документации, опросов, специальных исследований. Составляется перечень документов, аналитических сценариев с предполагаемыми запросами. Из полученных в результате обследования материалов выделяются сущности в разрезе достижения целей анализа. Их называют классы в терминологии объектно-ориентированного подхода, показатели в традиционной терминологии. Из всей совокупности материалов выделяют признаки (реквизиты, атрибуты), описывающие сущности (классы, показатели). На следующем этапе повторяющиеся по смыслу атрибуты представляют в виде одного согласованного по смыслу и синтаксису атрибута. В процессе слияния атрибутов в репозиторий появляются свои, присущие хранилищу атрибуты, их можно назвать системообразующими.
Метаданные должны содержать сведения о преобразовании исходных данных, истинные даты событий и временные характеристики отображаемых процессов, диапазоны для полей данных, сведения об источниках данных и их форматах и т. д.
В связи с обширностью сведений, содержащихся в МД, а также разнообразием вариантов реализации ИАС и ИХ возникла необходимость в более детальной классификации различных видов МД по нескольким признакам.
Проектные МД это совокупность атрибутов, содержащихся в исходных БД или файловых системах в составе их проектов, созданных с помощью CASE-средств.
Воспринятые из этих источников МД и дополненные метаданными собственно хранилища должны уточняться в процессе обновления версий источников. Версии приложений для OLTP (функциональных систем) появляются реже, чем для систем Определение поддержки принятия решений, поэтому проблема отслеживания проектных МД облегчается.
В шестимерной модели, которая далее будет рассмотрена, к проектным МД относятся измерения: