«РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ ...»
Федеральное государственное бюджетное образовательное учреждение высшего
профессионального образования
МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ
ГЕОДЕЗИИ И КАРТОГРАФИИ
(МИИГАиК)
На правах рукописи
Зайцев Владислав Вячеславович
РАЗРАБОТКА И ИССЛЕДОВАНИЕ МЕТОДИКИ ПРОЕКТИРОВАНИЯ
БАЗЫ МЕТАДАННЫХ ХРАНИЛИЩА ГЕОДАННЫХ
Специальность 25.00.35 – «Геоинформатика»
ДИССЕРТАЦИЯ
на соискание ученой степени кандидата технических наук
Научный руководитель д-р техн. наук, проф. А.А. Майоров Москва
ОГЛАВЛЕНИЕ
Введение………………………………………………………………………………... Глава 1. Обзор исследований проводимых в области хранилищ геоданных и стандартизации метаданных в геоинформатике …………………………………...... Раздел 1. Обзор исследований проводимых в области хранилищ геоданных………………………………………………………………………..... Раздел 2. Стандартизация метаданных в геоинформатике………………........ Глава 2. Состав базы метаданных хранилища геоданных…………………………. Глава 3. Разработка и исследование методики проектирования базы метаданных хранилища геоданных………………………………………………………………... Заключение……………………………………………………………………….….. Список сокращений и условных обозначений.…………………………………… Список литературы………………………………………………………………….. Список иллюстрированного материала……………………………………….….... Введение Развитие геоинформационных технологий способствует накоплению организациями больших объемов данных, представленных в различных форматах.Накопленные за многие годы и собираемые поныне данные, в том числе и пространственные данные, могут стать объектом исследования с целью нахождения новых знаний.
С появлением систем глобального позиционирования, технологий дистанционного зондирования: фотограмметрических методов, телевизионной видеосъемки, радиометрических методов когерентного оптического зондирования и т.п., объем получаемых пространственных данных превзошел возможности их анализа.
В последнее время в ходе создания и применения инфраструктуры пространственных данных (далее – ИПД) возрос практический интерес к хранилищам данных и оперативной аналитической обработке данных.
В геоинформационных системах (далее – ГИС) данные технологии пока не используется, поскольку ГИС использует реляционные базы данных, а хранилища данных в основном используют многомерное представление данных 1.
Традиционные хранилища данных и инструменты оперативной аналитической обработки поддерживают пространственные данные, но рассматривают их как любые другие данные, не обращая внимания на географический компонент. В этой связи, появилась необходимость в объединении функциональности инструментов оперативной аналитической обработки, хранилищ данных и ГИС.
Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. – 360 с.
Таким способом можно создать новые инструменты поддержки принятия решений, лучше приспособленные к пространственно-временному исследованию и анализу данных.
Необходимость обеспечения интеграции и совместного использования пространственных данных, полученных из различных источников 1, при формировании ИПД, заставила обратить внимание на метаданные.
Метаданные – данные, которые позволяют описывать содержание, объем, положение в пространстве, качество и другие характеристики пространственных данных и пространственных объектов 2.
В свою очередь метаданные в среде хранилища данных применяются не только для каталогизации, учете, статистической обработке и анализе данных 3, а так же описания вычислительной среды, информационной безопасности, метаданными в среде хранилища данных следует понимать совокупность спецификаций, отражающих информационную модель, описание структуры данных хранилища и источников данных, а также описание процессов обработки данных, циркулирующих в среде.
Существующие методики проектирования баз пространственных метаданных основываются на стандартах ГОСТ Р 52573-2006 «Географическая информация.
Метаданные» и ГОСТ Р 51353-1999 «Геоинформационное картографирование.
Метаданные электронных карт» и позволяют создать базу метаданных, пространственных объектов.
В свою очередь методика создания баз метаданных хранилищ данных, основанная на стандарте «Общая метамодель хранилища» не позволяет учесть пространственных объектов.
Распоряжение Правительства РФ от 21 августа 2006 г. N 1157-р.
Там же.
ГОСТ Р 52573-2006 «Географическая информация. Метаданные»
В этой связи актуальность диссертационного исследования обусловлена:
необходимостью интеграции несопоставимых и нескоординированных между собой пространственных данных в ходе создания ИПД;
способностью метаданных – компонента ИПД, описывать только характеристики пространственных данных и пространственных объектов, в то время как в среде хранилища данных они дополнительно описывают процессы их обработки;
проектирования БМД ХГД.
Целью диссертационной работы является разработка и исследование методики проектирования базы метаданных хранилища геоданных (далее – БМД ХГД), входящего в состав информационных ресурсов для создания и применения ИПД.
Проектирование базы данных (метаданных) подразумевает прохождение трех этапов: концептуального, логического и физического проектирования, результатом каждого из которых будет создание концептуальной, логической и физической модели соответственно.
концептуальное проектирование, так как оно позволяет создать концептуальную (семантическую) модель предметной области без ориентации на конкретную СУБД и модель данных. К тому же существующие средства автоматизированного проектирования и создания программ позволяют из концептуальной модели генерировать одну или несколько логических и (или) физических моделей, в зависимости от требуемого уровня представления и подходов к моделированию данных 1.
Поэтому в ходе разработки методики планируется:
сформировать базовый набор метаданных;
построить на его основе концептуальную модель базы метаданных;
описать последовательность действий по созданию базы метаданных.
Нартова А. PowerDesigner 15 Моделирование данных / Изд. «Лори». 2012. – 468 с.
Исследовать разработанную методику проектирования планируется с помощью проведения ее сравнительного анализа с существующими методиками.
Для достижения поставленной цели в работе были сформулированы и решены следующие задачи:
Проведение сравнительного анализа исследований в области хранилищ геоданных и баз метаданных.
Формирование базового набора метаданных необходимого для создания Разработка общей концептуальной модели БМД ХГД в виде диаграммы Описание алгоритма применения базового набора метаданных на этапах развертывания хранилища геоданных.
существующими методиками проектирования.
проектирования базы метаданных хранилища геоданных.
В первой главе диссертационной работы проведен сравнительный анализ исследований в области хранилищ геоданных, а также описан вопрос применения метаданных в геоинформатике и их роль в среде ХГД. В завершении главы приведены исследования, проводимые в МИИГАиК, в области создания методики проектирования баз (каталогов) метаданных.
Во второй главе сформирован базовый набор элементов метаданных необходимый для создания БМД ХГД. Для этого описаны основные функции метаданных в среде ХД, архитектурная концепция информационного ХД и схема движения информации в ХД.
Третья глава посвящена описанию и исследованию методики создания базы сформированного базового набора метаданных в ходе одновременного развертывания ХГД и БМД, а так же разработана общая концептуальная модель БМД ХГД в виде диаграммы классов UML Далее проведен анализ возможности применения спецификации «Общая метамодель хранилища» и ГОСТ 52573-2006 «Географическая информация.
Метаданные» при проектировании базы метаданных хранилища геоданных. По результатам анализа построена схема базы метаданных хранилища геоданных.
диссертационного исследования являются:
сформирован базовый набор метаданных, позволяющий создать БМД, пространственных объектов, так и происходящие в среде хранилища данных процессы;
концептуальная модель БМД, позволяющая, путем преобразования в логическую и далее в физическую модель, создавать БМД на основе выбранной модели данных и СУБД;
разработана и исследована методика применения, сформированного автором, базового набора метаданных, позволяющая создавать БМД одновременно с развертыванием ХГД.
Глава 1. Обзор исследований проводимых в области хранилищ геоданных и Раздел 1. Обзор исследований проводимых в области хранилищ геоданных В целях сбора, хранения, обработки, отображения и распространения географических данных, а также получения на их основе новой информации и знаний, в настоящее время применяются геоинформационные системы (далее – ГИС) 1. Географические данные – это пространственные данные, для которых базовой системой координат является земная поверхность. В ГИС кроме пространственных данных используется связанная с ними информация о необходимых объектах, так называемые (непространственные) атрибутивные данные.
Как правило, функции сбора и хранения данных в ГИС переданы базе данных. Иногда этап сбора данных сводится к технологии их ввода в базу данных ГИС. База данных (далее – БД) – совокупность данных организованных по определенным правилам, устанавливающим общие принципы описания, хранения и манипулирования данными, независимая от прикладных программ 2. Создание БД и обращение к ней осуществляется с помощью системы управления базами данных (далее – СУБД).
Исторически сложилось два направления взаимодействия ГИС и СУБД:
гибридные и интегрированные СУБД. Согласно Майклу Н. ДеМерсу3 это разделение связано в основном со способом хранения (совместно или раздельно) пространственных и атрибутивных данных.
Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 1: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.
ГОСТ 20886-85 Организация данных в системах обработки данных. Термины и определения.
ДеМерс, Майкл Н. Географические информационные системы. Основы / Пер. с англ. Андрианов В. / М.: Дата+, 1999.
В современных ГИС в основном применяется подход, когда и атрибутивные и пространственные данные хранятся и управляются в единой среде СУБД, а также объектный и объектно-реляционный подходы.
Необходимо также отметить основные свойства, поддерживать которые присуще любой СУБД – это постоянство и транзакции. В СУБД состояние постоянного объекта подвергается частым изменениям, а в ряде случаев желательно иметь доступ к предшествующим состояниям данных. Транзакции переводят базу данных из одного непротиворечивого состояния в другое. Поэтому по своему функциональному назначению применяемые в ГИС базы данных являются системами оперативной обработки транзакций (On-Line Transaction Processing) OLTP-системами.
В OLTP-системах за короткое время происходит максимальное количество транзакций, используется фиксированный набор методов ввода, модификации и удаления данных, а также подготовки отчётности. Как правило, OLTP-системы не требуют большой гибкости и их аналитические возможности ограничены.
В этой связи возникла необходимость в разработке систем управления пространственными базами данных (далее – СУПБД). В то время как традиционные БД могут хранить и обрабатывать числовую и символьную информацию, пространственные базы данных (далее – ПБД) обладают пространственный объект, объединяющий атрибутивные и пространственные данные. пространственные операторы для анализа пространственно-логических отношений объектов (пересекается, касается, содержится в, содержит, находится на расстоянии X от, совпадает и пр.). Иванников А.Д., Кулагин В.П., Тихонов А.Н., Цветков В.Я.. Прикладная геоинформатика / М.: МАКС Пресс, 2005. – 360 с.
Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. – 34 с.
Там же, с. 35.
Например, ГИС поддерживает большой набор операций над несколькими объектами и слоями, в то время как СУПБД обеспечивает более простые операции над совокупностями объектов и множествами слоев 1. Для этих целей Open Geospatial Consortium Inc. (далее – консорциум OpenGIS), установил стандарты на дополнительную функциональность СУПБД.
Со временем стало понятно, что сбор данных это не главная цель. Появилась необходимость в создании информационных системах, позволяющих проводить глубокую аналитическую обработку данных. Например, поиск скрытых структур и закономерностей в массивах данных, вывод из них правил, которым решений и прогнозирование их последствий 2.
Появился новый класс систем – информационных систем поддержки обработку данных с целью получения знаний, необходимых для разработки решений в области управления 3.
ПБД создавалась для обработки регулярных транзакционных запросов к не агрегированным данным без исторической привязки. Поэтому применение к ПБД запросов сформированных с целью поддержки принятия решений очень затруднительно.
В этой связи получила развитие идея создания хранилища геоданных, пространственной базы данных. ХГД основывается на понятии хранилищ данных и дополнительно поддерживает хранение, индексацию, агрегирование и анализ пространственных данных 4.
Шаши Ш., Санжей Ч. Основы пространственных баз данных / М.: Кудиц-образ, 2004. – 36 с.
Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 67.
Там же, с. 68.
MacEachren A. M., Kraak M.-J. Research challenges in geovisualization. Cartography and Geographic Information Science. – 2001.
Например, в ГИС агрегирование данных происходит двумя способами группировки: объединение объектов по равенству значений определенного атрибута или объектов одной темы в соответствии с их размещением внутри полигональных объектов другой темы 1. Также существуют специализированные – исторические ГИС, в которых применяются исторические пространственные данные.
Время хранения данных В пределах отчетного периода Годы, десятилетия Характер выполняемых Стандартные, настроенные Нерегламентированные Из таблицы видно, что требования к СППР и OLTP-системам существенно разняться. Поэтому в СППР применяются специализированные базы данных – хранилища данных.
Концепция хранилищ данных (далее – ХД), так или иначе, обсуждалась специалистами в области информационных систем достаточно давно. Первые статьи, посвященные именно ХД, появились в 1988 году, их авторами были Б.
Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 2: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.
Девлин и П. Мерфи. В 1992 году Б. Инмон подробно описал эту концепцию в своей монографии «Построение хранилища данных» 1.
Согласно определению Б. Инмона, «хранилище данных – это предметно хронологию набор данных, организованный для целей поддержки принятия решений» 2.
многомерные, гибридные или виртуальные) основаны на технологии оперативной аналитической обработки (On-Line Analytical Processing, OLAP). Эта технология представляет собой методику оперативного извлечения нужной информации из больших массивов данных и формирования соответствующих отчетов 3.
Приведем примеры существующих архитектур ХД:
ROLAP (Relational OLAP). Эти ХД используют реляционную модель, что позволяет хранить данные в реляционных таблицах, образующих структуры многомерного представления данных.
MOLAP (Multidimensional OLAP). В ХД этой архитектуры многомерное представление данных реализовано на физическом уровне в виде многомерных кубов данных.
HOLAP (Hybrid OLAP). Гибридные ХД объединяют в себе свойства двух предыдущих архитектур. В эти ХД детализированные данные хранят в реляционных таблицах, а агрегированные данные – в многомерных кубах данных.
В виртуальных хранилищах данных (далее – ВХД) работа ведется с различными источниками, данные из которых собираются во время выполнения запроса без их консолидации в едином формате.
многомерных кубов данных (OLAP-кубы или гиперкубы), представляющих собой Барсигян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных: Data Mining, Visual Mining, Text Mining, OLAP / 2-е издание, переработанное и дополненное / СПб.: БХВ-Петербург, 2007. – 384 с.
Там же, с. 384.
Паклин Н., Орешков В. Бизнес-аналитика: от данных к знаниям: учебное пособие / 2-е изд., испр. / СПб.: Питер, 2013. – С. 77.
упорядоченные многомерные массивы данных. В основе этой концепции лежит разделение данных на две группы – измерения (dimension) и факты (measure).
Причем в случае создания реляционных ХД данные заносятся в таблицы двух типов: таблица фактов и таблицы измерений. А в случае создания кубов данных вводятся дополнительные понятия, такие как элемент измерения, атрибут элемента измерения, показатель и ячейка.
ХГД активно исследовались в прошлом десятилетии. Выделив основные различия пространственного хранилища данных и традиционного хранилища данных, исследователи сконцентрировали на них свою работу (таблица 1.2).
Таблица 1.2. Основные направления исследований в области ХГД исследования Концептуальные модели запросов SOLAP Пространственно- Основные концепции и вопросы временное хранилище данных Концептуальная модель ХГД представляет собой описание основных сущностей и отношений между ними, и является отражением предметной области, планируемого ХГД.
Существующие концептуальные модели для реляционных БД и ПБД, не подходят для применения в ХГД, так как в них отсутствуют такие понятия, как иерархии, агрегаты, измерения и факты.
Все исследования в данной области сконцентрировались в направлении формулирования общих требований к концептуальной модели, создания пространственной многомерной и пространственно-временной моделей, а также переноса концептуальной модели в физическую модель.
По вариантам многомерных моделей для ХГД было много различных предложений. Например, С. Бимонте и М. Микуэль в своем докладе «В отношении пространственной многомерной модели»1 предлагают многомерную модель, где измерения и факты представляют собой сложные объекты. Эта модель применяет понятия экземпляра сущности и схемы сущности, которые затем использует для определения – куба данных, иерархий и агрегатов.
«Пространственные иерархии и топологические связи в пространственной MultiDimER модели» предлагают концептуальную многомерную модель – MultiDimER.
пространственный уровень, пространственная иерархия, пространственное измерение и пространственный факт отношения. Это решение не требует пространственному факту. Данное решение позволяет представить реальный мир в модели иерархий. Существуют следующие фундаментальные понятия многомерной модели MultiDimER:
Пространственный уровень – уровень, где сохранены пространственные характеристики. Между различными пространственными уровнями существуют топологические отношения.
Bimonte S., Miquel M. Towards a spatial multidimensional model.
Malinowski E., Zimanyi E. Representing spatiality in a conceptual multidimensional model.
Malinowski E., Zimanyi E. Spatial Hierarchies and Topological Relationships in the Spatial MultiDimER model.
Пространственная иерархия – иерархия, включающая в себя, по крайней мере, один пространственный уровень.
Пространственное измерение (dimension) – измерение, у которого есть, по крайней мере, одна пространственная иерархия.
Пространственные измерения имеют три типа иерархий:
Пространственная иерархия к непространственной иерархии.
Пространственный факт отношения – это факт отношения, который пространственными измерениями.
Пространственный показатель (measure) – любое численное значение измерения, вычисленное с помощью топологических операторов или геометрии, которое может быть агрегировано по иерархиям.
Эти же авторы в своей статье «Реализация иерархий пространственного хранилища данных в объектно-реляционных СУБД»1 описывают перенос концептуальной модели MultiDimER в физическую модель. Физическая модель реализована на сервере Spatial Oracle 10g. В статье рассматриваются проблемы, возникающие при реализации схем создаваемых с помощью концептуальных моделей. Пространственный уровень, определенный в модели MultiDimER, является таблицей в базе данных, а отношения между уровнями соответствуют отношениям между таблицами.
Основные требования при проектировании эффективной многомерной модели ХГД описаны в статье Г. Вишванатхан и М. Шнейдер «Требования к пользовательскому складированию пространственных данных и SOLAP» 2.
Исследования вопросов хранения данных и организации запросов к ним стали вторым важным направлением в изучении ХГД.
Malinowski E., Zimanyi E. Implementing spatial data warehouse hierarchies in object-relation DBMSs.
Viswanathan G., Schneider M. On the requirements for user-centric spatial data warehousing and SOLAP.
Индекс — объект базы данных, создаваемый с целью повышения производительности поиска данных. Ускорение работы с использованием индексов достигается в первую очередь за счёт того, что индекс имеет структуру, оптимизированную под поиск. Индексы могут быть реализованы различными структурами.
Не смотря на то, что индексы широко используются в ПБД, если структуры индекса правильно построены на колонках измерений и фактов, то сильно увеличивается производительность запросов, особенно нерегламентированных, что очень важно в ХГД.
В ходе исследований, проводимых в отношении структур индексов, применяемых в ГИС, ПБД и ХД, таких как Обобщенные деревья поиска GiST (Generalized Search Trees), R-дерево (R* -дерево и R+ -дерево), B-дерево и т.д.
Обобщенное дерево поиска (GiST) является инфраструктурой разработки поисковых деревьев, расширяемой как с точки зрения типа данных, по которым производится поиск, так и с точки зрения поисковых запросов. Индексы GiST разделяют данные на «объекты по одну сторону», «пересекающиеся объекты» и «объекты внутри», что позволяет использовать их для многих типов данных.
Статья Ф. Рао, Л. Занг и Ю. Чен «Пространственная иерархия и поиск, основанный на OLAP, в пространственном хранилище данных»1 описывает расширение индекса GiST.
Определенный в GiST интерфейс, позволяет создать новые разновидности индекса, так как он не зависит от конкретного типа данных и поисковых запросов.
Для расширения GiST предлагается реализация двух интерфейсов – gist и predicate.
Каждый узел дерева состоит из (p, ptr), где p – это предикат запроса, а ptr – указатель на следующий узел. Для нахождения всех узлов, совместимых с предикатом запроса, в GiST используется последовательный алгоритм поиска, для Rao F., Zhang L., Chen Y. Spatial hierarchy and OLAP-favored search in spatial data warehouse.
применения в ХГД авторы предлагают новое состояние этого предиката – «неравнодушная истина».
Статья М. Юргенс и Х. Ленз «R*a-дерево: усовершенствованное R*-дерево с материализованными данными для поддержки запросов по областям на OLAP материализованных данных. Данная статья показывает, что хранение агрегатов во внутренних узлах дерева индекса уменьшает время отклика OLAP запросов.
диапазонах, применяющий предварительное вычисление. Результаты данного исследования показывают, что дополнительное пространство для хранения агрегированных данных и размер структуры данных имеют прямолинейную зависимость.
Если R*a-дерево акцентирует свое внимание на хранении агрегатов в индексе, но не делает различия для пространственных объектов, то aR-дерево 2, основываясь на одинаковой идее – материализации индекса, расширяет применение R-дерева для ХГД. При создании пространственных данных иерархия не закладывается, а для работы OLAP операций она необходима. Индекс aRдерево хранит результаты функций агрегирования на все объекты, хранящиеся в каждом MBR (Minimum Bounding Rectangles).
Преимуществами этого подхода являются:
Индекс определяет иерархию среди MBR, которые затем формируют модель решетки куба данных. Это дает возможность для выборочной материализации структуры.
Данная идея может быть расширена за счет хранения результатов запросов или других типов операторов агрегирования.
Не смотря на то, что aR-дерево считается эффективной структурой для создания запросов к агрегатам, в случае большого числа измерений ее эффективность снижается. Возникают трудности схожие с последовательным Jurgens M., Lenz H.-J. The R*a-tree: An improved R*-tree with materialized data for supporting range queries on OLAP - data.
Papadias D., Kalnis P., Zhang J., Tao Y. Efficient OLAP Operations in Spatial Data Warehouses.
просмотром всех записей базы данных. М. Горавски и Р. Малкзок в своей статье «Материализованное aR-Дерево в распределенном пространственном хранилище данных»1 описывают создание и исследование aR-деревьев для ХГД.
пространственно-временных хранилищах данных (ПВХД) должны быть созданы на основе интеграции пространственных и временных индексных структур.
Например, агрегат RB-дерево (aRB-дерево) описанный в статье Д. Пападиас и Д. Занг «Индексация пространственно-временного хранилища данных» 2, является расширением R-дерева, имеющим указатель на B-дерево, хранящий исторические агрегированные данные о MBR. Данная индексная структура была предложена для представления статических пространственных измерений.
Исторический агрегат RB-дерево (aHRB-дерево) объединяет понятия aRBдерево и историческое R-дерево (HR-дерево) для индексирования динамических пространственных измерений. Каждый узел данного дерева хранит определенный отрезок времени. Другая форма записей узла схожа с aRB-деревом. Каждый раз, когда происходит обновление, новое R-дерево создает временную метку.
Другое предложение по индексации динамического пространственного измерения – это агрегат 3-х мерного RB-дерева (3DRB-дерево), который изменяет к лучшему ограничение размера дерева для aHRB-дерева. Формируется одно большое R-дерево для целой истории в противоположность многим маленьким Rдеревьям, создающимся в aHRB-дереве. Большое R-дерево хранит различную версию всех регионов в одном дереве.
Следующий способ ускорить обработку данных это материализованное представление позволяет ускорить выполнение запросов, в случае использования большого количества записей. Это достигается за счет использования заранее Gorawski M., Malczok R. Materialized aR-Tree in distributed spatial data warehouse.
Papadias D., Zhang J. Indexing Spatio-temporal data warehouses.
вычисленных итоговых данных, а также результирующих таблиц. Вычисленные заранее итоговые данные имеют небольшой объем в сравнении с первичными данными.
Одним из вариантов материализованного представления данных является выборочная материализация. Не смотря на то, что выборочная материализация куба данных была подробно изучена, М. Поэсс, Б. Смит, Л. Коллар и П. Ларсон в статье «TPC-DS (Decision Support) – новый уровень поддержки принятия решения с помощь контрольных точек»1 был предложен ряд методов выбора кубов для материализации. Например, эти авторы предлагают модель решетки, в узлах которой, с помощью «жадного алгоритма», сформирован ключ выборочной материализации на основе минимального расстояния.
В качестве решения Н. Стефановик, Д. Хан и К. Коперски в своей статье «Объектная пространственных кубов данных»2, предлагают подход с более глубокой степенью детализации куба пространственных данных, т.е. материализация до уровня клетки куба. Этот подход называется пространственных областей. Если ожидается, что к данным областям будет частый доступ, требуется их предварительное вычисление.
Рассмотренные выше структуры индекса, хранят материализованные агрегаты пространственных показателей (spatial measures). Большая часть этих агрегатов являются числовыми агрегатами или простыми операциями. В этой связи появилась необходимость изучить индексы материализации для поддержки пространственно-временные показателей, например, таких как направление движения.
Poess M., Smith B., Kollar L., Larson P. TPC-DS, taking decision support benchmarking to the next level.
Stefanovic N., Han J., Koperski K. Object-Based selective materialization for efficient implementation of spatial data Проблема выбора индекса – широко известна в мире баз данных, естественно, что она распространяется и на ХГД, где главное значение имеет эффективность поиска.
пространственных данных, предполагают, существование там информации о частоте доступа к набору выбранных кубов. Необходимо предложить методы, независимые от данного предположения.
Для наглядности направления исследований по вопросу развития индексов применяемых в хранилищах геоданных приведем схему, изображенную на рисунке 1.1.
Агрегирование – процедура структуризации данных, заключается в конструировании объекта из других базовых объектов на основе чего, создается агрегативная модель 1, в свою очередь, агрегат – результат процедуры агрегирования. В ХД агрегат создается как обобщение свойств данных по отдельным интересующим измерениям, обычно это время и местоположение.
В ХГД агрегат создается как результат операции агрегирования фактов, при вычисление всей площади объединения из нескольких областей.
Необходимо различать операции агрегирования для пространственных и непространственных данных. Операции для пространственных данных можно Поляков А.А., Цветков В.Я. Прикладная информатика: учебно-методическое пособие в 2-х частях / Под общ. ред.
Тихонова А.Н. – М.: МАКС Пресс, 2008 – 1 ч.
алгебраические и целостные операции 1. В таблице 1.3 приведены группировки операций пространственного агрегирования.
Таблица 1.3. Набор операций пространственного агрегирования Геометрический Геометрическое В статье Г. Вишванатхан и М. Шнейдер «Большой куб: Метамодель для управления многомерными данными» 2 описывается модель Большого куба для многомерных пространственных данных. В данной модели определены три типа операций агрегирования:
аддитивные операции – суммирование фактических числовых данных, по всем имеющимся измерениям;
полуаддитивные операции – суммирование фактических числовых данных, по определенным измерениям;
не аддитивные операции – просуммировать фактические данные, нельзя ни по одному измерению.
Gray J., Bosworth A., Layman A., Pirahesh H. Data Cube: a Relational Aggregation Operator Generalizing Group-by, Cross-tabs and Subtotals. – ICDE. – 1996.
Viswanathan G., Schneider M. BigCube: A MetaModel for managing multidimensional data.
Операторы, представленные в перечисленных статьях, хорошо работают с пространственными объектами, но во время агрегирования пространственных фактов требуется учитывать также существующие топологические отношения.
Это связано с возможностью возникновения проблемы двойного учета во время показателей (measure) из-за некоторого перекрытия свойств.
Статья Б. Педерсен и Н. Трайфон «Пре агрегирование в пространственном пространственных показателей уже с учетом данной проблемы. Предварительная обработка фактов делается для вычисления их несвязных частей. Далее пространственными фактами. Предварительное агрегирование работает, если пространственные свойства объектов являются дистрибутивными по некоторой операции агрегирования.
Недостатком подхода описанного в этой статье является то, что он описывает С. Возинакис и Т. Панайотопоулос «Hermes – структура для управления данными агрегирования. Она определяет три части: алгебраическую, геометрическую и прикладную (классический OLAP), каждая из которых поддерживает отдельные иерархии и взаимодействует друг с другом. На рисунке 1.2 показан пример этих частей.
Pedersen B., Tryfona N. Pre aggregation in spatial data warehouses.
Pelekis N., Theodoridis Y., Vosinakis S., Panayiotopoulos T. Hermes – a framework for location-based data management.
Рисунок 1.2. Геометрическая, алгебраическая и прикладная части модели Дальнейшие исследования в этой области сосредоточены на проблеме многократного представления. Приведенная проблема широко известна в пространственных базах данных 1. Тот же самый пространственный объект можно рассмотреть как точку в одном приложении и как полигон в другом, либо как кубоид или многогранник в трехмерном представлении.
В случае ХГД данная проблема встает особенно остро по двум причинам 2:
интеграция данных происходит из различных источников, в которых данные представлены по-разному;
во время выполнения SOLAP операций (свертка и развертка), один и тот же уровень иерархии может иметь различное представление одного объекта.
В статье Н. Стефановик, Д. Хан и К. Коперски в своей статье «Объектная кубов данных»3, проблема «двойного подсчета» рассматривалась с учетом топологических отношений между пространственными фактами, и только выполнением агрегирования по несвязанным объектам, можно уйти от проблемы неправильного агрегирования. Для трехмерных объектов проблема все равно Zlatanova S., Stoter J.E., Quak W. Management of multiple representations in spatial DBMSs.
Malinowski E., Zimanyi E. Spatial Data Warehouses: Some Solutions and Unresolved Problems.
Stefanovic N., Han J., Koperski K. Object-Based selective materialization for efficient implementation of spatial data cubes.
топологических отношений.
OLAP инструмент – это категория инструментов СППР обеспечивающих доступ к хранилищу данных для эффективной обработки данных. Но большинство OLAP инструментов не подготовлены к анализу пространственных и временных данных.
Инструменты ГИС применяются для анализа пространственных данных, но все еще недостаточно хороши для полного функционального использования необходимость в объединении функциональности OLAP и ГИС. Таким способом можно создать новые инструменты поддержки принятия решений, лучше приспособленные к пространственно-временному исследованию и анализу данных. Эти системы называют SOLAP системы.
Классические OLAP инструменты поддерживают пространственные данные, но рассматривают пространственное измерение как любое другое, не обращая внимания на его картографический компонент, а визуализация данных не картографического материала OLAP инструментам недостает существенных свойств, которые могут помочь комплексному исследованию и анализу пространственно-временных процессов.
SOLAP инструмент – это визуальная платформа, построенная для поддержки пространственно-временного анализа и исследования данных, с помощью многомерного подхода содержащего уровни агрегирования, доступные на картах, так же как в таблицах и диаграммах 2.
SOLAP инструменты могут делятся на три категории:
агрегирования данных;
Toward better support for spatial decision making: defining the characteristics of spatial on-line analytical processing (SOLAP) // GEOMATICA. – Vol. 55. – No. 4. – 2001. – Р. 539-555.
Bdard, Y., Larrive S., Proulx M.-J., Caron P.-Y., Ltourneau F. Geospatial Data Warehousing: Positionnement technologique et stratgique // Rapport pour le Centre de recherche pour la defense de Valcartier. – 1997.
геометрических операциях;
визуальные выборки данных или инструменты с объединением OLAP и ГИС решений.
В таблице 1.4 приведены примеры существующих в настоящее время SOLAP инструментов.
Инструменты, основанные на OLAP основанные на Business Objects контрольных точек служит для оценки и (или) контроля ряда показателей в сравнении со стандартом. Например, контрольные точки помогут определить производительность ХГД и запросов к нему. Но для этого прежде, чем создавать подробное описание контрольных точек, необходимо определить технические требования к ХГД.
Существует два типа контрольных точек:
функциональные контрольные точки (так называемые «стандарты», оценки функциональности системы);
контрольные точки проверки характеристик (контрольные точки помогают определить (сравнить) быстродействие системы).
В последние время было реализовано несколько идей улучшения обработки запросов к ХГД, в основном за счет создания индексов и материализованных представлений. Но для оценки эффективности этих методов используются различные наборы данных с различными свойствами. Контрольные точки, используемые для обработки запросов, должны соответствовать требованиям оценки ХГД. Кроме того, контрольная точка должна быть в состоянии пространственная свертка и развертка.
В таблице 1.5 приведены примеры существующих контрольных точек для пространственных данных.
пространственных соединений Transaction Processing Performance Council Transaction Processing Performance Council – Transaction Processing Performance Council Star Schema Benchmark (SSB) В статье «Контрольные точки в пространственном хранилище данных»
приведены контрольные точки называемые – Spadawan (spatial data warehouse benchmark) 3.
Данный тип контрольных точек является очень эффективным способом контроля ХГД, поскольку генерирует наборы данных, состоящие из точек и полигонов, а также поддерживает оценку SOLAP запросов, что позволяет оценить Paton N.W., Williams M.H., Dietrich K., Liew O., Dinn A., Patrick A. VESPA: a benchmark for vector spatial databases // BNCOD. – 2000. – Р. 81-101.
Pat O'Neil, Betty O'Neil, Xuedong Chen Star Schema Benchmark Revision. – 2009, June 5.
Siqueira T. L., Ciferri R. R., Cesrio V. Benchmarking Spatial Data Warehouses.
распространения и вложение.
Дальнейшие исследования контрольных точек проводятся в направлениях:
контрольные точки пространственных данных – линии, полигоны с отверстиями и островами;
контрольные точки производства пространственных данных и обработки SOLAP запросов;
контрольные точки SOLAP запросов для анализа операций развертки с помощью расширенных схем ХГД.
Основной тенденцией в области разработки ХГД является создание и развитие хранилища пространственно-временных данных. Большинство сфер компонентом, таким как адрес местонахождения. Если объединить этот компонент с временным компонентом в хранилище данных, то потенциал принятия решений на основе таких данных возрастет.
Например, запрос «Сколько объектов посещало данную область за данный период времени?» включает в себя и пространственный, и временной пространственные данные должны содержать привязку ко времени. Это позволит находить в наборе данных скрытые взаимоотношения.
Все приложения, имеющие отношение к сведениям о перемещающихся объектах, применяют пространственно-временное моделирование для анализа этих данных. Сбор и обобщение всех данных о движении объекта ведет к накоплению огромных наборов данных.
В дополнение к вышесказанному существуют сложности в вопросе временной организации данных. Во временной характеристике географических объектов применяются два понятия времени – Мировое время и Системное время1. Мировое время – это время, когда в действительности происходит Jizhou W., Chengming L. Research on the framework of spatial-temporal data warehouse.
изменение объекта, тогда как системное время это время, в которое делается запись об изменении объекта в базе данных.
В зависимости от требований приложения, пользователи могут использовать или только системное время (в ГИС), или оба времени (в хранилище данных), что усложняет приложение из-за необходимости моделировать оба типа временных измерений в ПВХД.
пространственно-временного складирования данных. Для поддержки данных о тематическим измерениям на разных уровнях детализации.
В настоящее время существует ряд инструментов и методов хранения данных о траектории перемещения объектов.
реляционной СУБД Oracle10g. Оно создает инфраструктуру управления данными для истории движущихся объектов MOD (moving object database).
Hermes. Это ядро базы данных для работы с объектами, которые дискретно или непрерывно во времени меняют местоположение, форму и размеры. Опытный образец был разработан как расширение STAU и поддерживал требования, объектно-реляционным СУБД.
GeoPKDD (Geographic Privacy-aware Knowledge Discovery and Delivery).
Хранилище данных о траектории – GeoPKSS является проектом, извлекающим пространственно-временных географических данных 1.
Хранение данных о траектории движения – важный шаг для систем поддержки принятия решений в приложениях связанных с перемещающимися Damiani, Vangenot, Frentzos, Marketos, Theodoridis, Veryklos, Raffaeta Geographic privacy aware Knowledge Discovery and Delivery. – 2007.
объектами. Это – бесконечная область, имеющая много возможностей.
Вследствие масштабируемости этого типа данных будущие исследования необходимо сосредоточить на вопросах моделирования, агрегирования и индексирования.
Будущим исследованием в этом направлении могло бы стать внедрение концепции трехмерных пространственных объектов в ХГД. Трехмерные запросы к ХГД могут быть полезны в сфере городского планирования или ликвидации последствий стихийных бедствий. Топологические отношения для трехмерных объектов могли бы включать такие отношения как INSIDE (внутри), ANYINTERACT (взаимодействие с кем-либо).
В качестве общего вывода можно сказать, что исследование ХГД не потеряли своей актуальности до настоящего времени. Например, исследования в области анализа больших данных (Big Data) содержащих пространственно-временную информацию ведутся с большей интенсивностью ввиду отсутствия сложностей со сбором информации и наличием трудностей в ее обработке.
Одновременно с возрастанием объема накапливаемых данных возрастает потребность в применении метаданных. ХГД можно рассматривать, как часть будущих исследований, учитывая их способность поддержки принятий решений с помощью существенного сжатых данных.
Раздел 2. Стандартизация метаданных в геоинформатике В процессах информационного обмена метаданные применяются при каталогизации, учете, статистической обработке и анализе, обеспечивают возможность планирования, быстрого поиска и восстановления данных 1. В связи с этим при разработке информационных систем (в том числе ГИС) и создании пространственных данных, метаданным стали уделять больше внимания, как на этапе проектирования (создания), так и на последующих этапах разработки.
Когда говорят о метаданных в контексте геоинформатики, имеют в виду метаданные, используемые для документирования пространственных данных. А определяя термин «метаданные» (metadata) как «данные о данных», многие авторы делают оговорки, что это определение не объясняет сущности термина и не раскрывает общего смысла. Тем более в настоящее время в это понятие включены модели программных систем, и термин «метаданные» используется как эквивалент термина «модель».
В отношении метаданных предпринимаются шаги в двух направлениях — различных по синтаксису и структуре) и обеспечение поддержки метаданных в информационных системах. Для решения задач стандартизации необходимо установить правила формирования и представления метаданных в пригодном для обработки и понимания виде, а также однозначного определения продукции (услуги) с необходимым и достаточным уровнем детализации. Вторая задача информационной системы.
ГОСТ Р 52573-2006 «Географическая информация. Метаданные».
Одно из определений метаданных – это совокупность элементов данных и спецификаций, содержащих описание данных информационной системы и процессов их обработки 1.
Для метаданных широкой сферы применения существует ряд стандартов, не связанных с пространственными данными. Знакомство с этими стандартами может оказаться полезным для связи с ресурсами, не относящимися к геоинформатике, или для интеграции их в инфраструктуру пространственных данных. Также это может пригодиться при создании баз метаданных пространственных баз данных и хранилищ геоданных.
Одним из первых стандартов в этой области стал CODASYL – язык описания данных для БД с сетевой структурой. За ним следует упомянуть стандарт языка SQL, который содержит понятие информационной схемы (совокупности представлений). Также часть стандарта объектных БД – ODMG, описывающий интерфейсы репозитория объектных схем и стандарт IRDS, позволяющий описывать системы для создания и поддержки справочников информационных ресурсов. Все они сыграли свою роль и легли в основу современных стандартов.
Учитывая большой объем и длительный временной диапазон данных, находящихся в ХД, а так же различие в стандартах разных производителей программного обеспечения возникла необходимость в метаданных и их стандартизации для ХД. В 1998 году ведущие корпорации – поставщики программного обеспечения представили в организацию OMG (Object Management Group) спецификацию стандарта «Обмен общими метаданными хранилища данных» (Common Warehouse Metadata Interchange, CWMI). Одновременно консорциум MDC (Meta Data Coalition) рассматривал, разработанный Microsoft, стандарт «Открытая информационная модель» (Open Information Model, OIM).
После слияния в 2000 году MDC и OMG была опубликована первая версия спецификации «Общая метамодель хранилища» (Common Warehouse Metamodel, CWM).
Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:
перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.
Спецификация CWM определяет интерфейсы, используемые для обмена метаданными между хранилищами данных и аналитическими приложениями с помощью инструментальных средств ХД, программно-аппаратных платформ и баз метаданных в распределенных гетерогенных вычислительных средах 1.
CWM основывается на трех основных стандартах OMG:
стандарт «Унифицированный язык моделирования» (Unified Modeling Language, UML) применяется для объектно-ориентированного моделирования;
стандарт «Средства мета объекта» (Meta Object Facility, MOF) применяется для метамоделирования и создания баз метаданных;
стандарт «XML обмен метаданными» (XML Metadata Interchange, XMI) применяется для обмена метаданными.
Общий подход к созданию баз метаданных сформирован концепцией модельно-ориентированного подхода к разработке программного обеспечения (Model-Driven Architecture, MDA). Идея основана на использовании моделей, более высокого уровня – метауровня. После построения абстрактной метамодели управления и обмена метаданными задается способ ее трансформации в поддерживаемые технологии программирования (Java, CORBA, XML и т.п.).
Построение метамодели опирается на стандарт MOF – не зависящий от платформы, универсальный способ описания конструкций моделирования, содержащий средства для определения моделей метаданных (метамоделей), и обеспечения программных средств хранения и доступа к метаданным.
Стандарт XMI описывает обмен метаданными в формате XML. Это язык является подмножеством языка SGML (Standard Generalized Markup Language), предназначенного для хранения и обмена структурированными данными между программами. Не стоит путать SGML с языком GML (Geography Markup Language) разрабатываемым консорциумом OpenGIS как частный случай XML для представления географических объектов.
Платформа XML была разработана консорциумом W3C для Web и включает стандарты представления метаданных. К их числу относится подмножество языка Спецификация «Common Warehouse Metamodel».
XML – определение типа документа (Document Type Definition, DTD), используемое для описания логической структуры SGML документов в частности XML-документов. На его смену пришел стандарт XML Schema, предлагающий больше возможностей для описания XML-документов. А стандарт «Структура описания ресурса» (Resource Definition Framework, RDF) определяет язык представления знаний для описания содержимого XML-документов.
Следует упомянуть также стандарт дублинского ядра (ISO 15836:2004, Information and documentation – The Dublin Core metadata element set), представляющий собой набор элементов метаданных для описания содержания документов различной природы. К сожалению, дублинская модель метаданных не дает возможности описания геопространственных ресурсов.
Все перечисленные стандарты метаданных общего назначения лишь частично подходят для документирования геоданных. На основе большого набора метаданных можно создать его упрощенное представление, а вот обратное действие невозможно. В этой связи при создании базы метаданных целесообразно информации.
Пространственные метаданные, геометаданные (spatial metadata) – данные о пространственных данных, которые содержат, помимо общих сведений о составе, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и т.п., специальные сведения о применяемых системах характеристиках и существенных свойствах пространственных данных 1.
пространственных метаданных, имеющих широкий спектр применения.
1. «Стандарт содержания метаданных цифровой геопространственной информации» (Content Standard for Digital Geospatial Metadata, CSDGM). Проект ГОСТ Р 52573-2006 Географическая информация. Метаданные.
стандарта CSDGM обрел вполне современные формы уже в 1992 году, когда он носил наименование «стандарт содержания метаданных геопространственной информации» (Content Standards for Spatial Metadata, CSSM). Стандарт был принят в 1994 году и после детального и продолжительного обсуждения разработана и утверждена его вторая версия CSDGM Vers.2.0, известная под индексом FGDCа затем обновлен Федеральным комитетом США по STD-001-1998, географическим данным (FGDC).
Этот стандарт предназначен для обеспечения развития национальной Великобритании.
2. Техническим подкомитетом (TC 287) Европейского Комитета по стандартов, в 1998 году был принят стандарт CEN Pre-standard. CEN/TC 287 была разработана и принята группа европейских стандартов, включая ENV (Euro-Norme Voluntaire): «Географическая информация: Описание данных – Метаданные».
международных стандартов ISO. Ряд национальных и региональных инициатив был также посвящен созданию стандартов пространственных метаданных.
например ANZLIC, LaClef и ESMI. Во всех этих проектах применялись аналогичные подходы к определению набора элементов метаданных.
3. Стандарты ISO 19115:2003 «Geographic Information – Metadata» и ISO 19139:2007 «Geographic information – Metadata – XML schema implementation»
приняты как международные. В 1994 году в ISO был создан технический комитет (ISO/TC 211) который занимается только стандартами в области геоинформатики (геоматики) и разрабатывает стандарты серии 19000. В основе стандартов этой серии лежит стандарт эталонной модели предметной области, содержащий методы описания предмета стандартизации и требований к нему 1.
Стандарт ISO 19101:2002 Geographic information – Reference model.
Стандарт ISO 19115 содержит описание логической модели организации геопространственных метаданных, но не предусматривает строгого соблюдения, поскольку не содержит никаких обязательных тестов на соответствие ему форматов метаданных 1. В свою очередь требования ISO 19139 созданы для стандартизацию метаданных, отвечающих требованиям предыдущего стандарта.
В 2006 г. в России был принят стандарт ГОСТ Р 52573-06 «Географическая информация. Метаданные», соответствующий требованиям стандарта ISO и, практически, являющийся национальным российским профилем метаданных 2.
Разрабатываемые консорциумом OpenGIS технических требований также касаются пространственных метаданных. Специально для проекта «OpenGIS
Abstract
Specification» частично был принят стандарт ISO 19115 в качестве формализованных глобальных стандартов для метаданных пространственной информации сотрудничают между собой и консорциум OpenGIS, и комитет FGDC, и рабочая группа ISO/TC 211.
Описанные инициативы в вопросах стандартизации предлагают свои методы проектирования метаданных и различные наборы их элементов. Разрабатываемые стандарты призваны предоставить информацию достаточную для организации запросов к данным.
Применение спецификации «Общая метамодель хранилища», разработанной для стандартизации метаданных в среде ХД, позволит наиболее полно описать все метаданные. В свою очередь, применение метаданных в хранилище данных регламентируется в основном стандартными средствами описания метаданных в традиционных хранилищ данных, что не позволяет учитывать особенностей хранения и анализа пространственных данных.
Поэтому, в случае использования хранилища геоданных в качестве компонента ИПД, становятся актуальными исследования в области создания методики проектирования базы метаданных хранилища геоданных.
ISO 19115:2003 «Geographic Information – Metadata».
Плешков В.Г., Ребрий А.В. Роль международных стандартов в создании инфраструктуры пространственных данных // Международный конгресс Великие реки. Нижний Новгород. – 2004.
Исследования в области создания методики проектирования баз (каталогов) метаданных проводились в МИИГАиК.
Например, исследование Краснобородько А.В. «Исследование и разработка посвящено созданию иерархического каталога метаданных, представляющего основную конструкцию для манипуляции с геоданными в информационнотелекоммуникационной системе. Иерархичность метаданных может выстраиваться по масштабу или охвату территорий. В ходе создания каталога метаданных автор использует как основу международный стандарт (профиль) ISO 19115 «Географическая информация.
Метаданные». Создаваемый автором перечень метаданных позволяет четко определить объект геоданных и произвести к нему непосредственное обращение, но не позволяет описывать происходящие с геоданными преобразования.
Для реализации цели поставленной в работе Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных» одной из поставленных задач является разработка состава объектных метаданных и уровней их организации.
Если в основу структуры метаданных единиц хранения подсистемы «Архивная база данных» положен ГОСТ Р 52573-2006 «Географическая стандарта ISO 19115:2003 «Geographic information — Metadata»3, то в подсистеме «Хранилище» объектные метаданные генерируются на основе метафайлов получаемых из «Архивной базы данных».
Далее к подсистеме «Геопортал» подключаются две базы метаданных:
метаданные пространственных объектов и метаданные готовой продукции.
Краснобородько А.В. «Исследование и разработка структур баз геоданных информационнотелекоммуникационных систем»
Там же.
Зраенко Ю.Д. «Разработка технологии организации пространственных данных в региональном узле Российской инфраструктуры пространственных данных».
Учитывая, что подготовка выходной продукции выполняется в среде ГИС, отсутствует необходимость в метаданных описывающих процессы, происходящие с пространственными данными в подсистеме «Хранилище».
В работе Ребрия А.В. «Исследование и разработка методологии создания базы пространственных данных» была разработана логическая структура базы «Географическая информация. Метаданные», совместимая со стандартом ISO 19115 «Географическая информация. Метаданные» и позволяющая перейти к физическому проектированию базы метаданных на любой программной платформе 1.
В данной работе автор наиболее полно разработал методику и алгоритмы формирования и ведения базы метаданных геоинформационных продуктов, в которых не применяются метаданные описывающие процессы, трансформации пространственных данных.
Проведенный сравнительный анализ показывает необходимость в ходе проектирования БМД ХГД учитывать существующие международные и национальные стандарты описания как пространственных метаданных, так и метаданных широкой сферы применения.
Ребрий А.В. «Исследование и разработка методологии создания базы пространственных данных».
Глава 2. Состав базы метаданных хранилища геоданных В этой главе будет определен базовый набор элементов метаданных достаточный для формирования концептуальной схемы базы метаданных хранилища геоданных (далее – БМД ХГД). С этой целью приведены основные функции, выполняемые метаданными в среде ХД, архитектурная концепция информационного ХД и схема движения информации в ХД.
спецификаций, отражающих информационную модель, описание структуры хранилища данных, структуры источников данных, а также процессов обработки данных, циркулирующих в среде. Это определение состоит из двух частей, в первой половине приведено семантическое требование к метаданным, а во второй техническое требование. Из этого вытекает основное деление метаданных на бизнес метаданные и технические метаданные.
Еще одно определение дополняющее предыдущее, «метаданные — это идентификации, обнаружению, оценке и управлению этими объектами»1.
Из приведенных определений можно сделать выводы, что метаданные, так же как и данные обладают определенной структурой и выполняют ряд возложенных на них функций.
Конкретные функции и состав метаданных существенным образом зависят от функциональности, свойств поддерживаемых в ней информационных ресурсов, способов их организации в системе, особенностей задач их обработки и от многих Taylor C. An Introduction to Metadata // The University of Queensland. – Australia.
других факторов1. Приведем основные функции метаданных в среде ХГД (далее – метаданные).
Описание модели предметной области. С разработки этой модели начинается проектирование информационной системы. Это - концептуальная схема предметной области, дополняемая в системах семантического уровня онтологией 2. Для описания концептуальной схемы применяются диаграммы классов UML. Благодаря чему она содержит в себе семантику предметной области.
Описание семантики данных. Интерпретация данных в терминах пользователей системы, так называемые «семантические метаданные». Например, в случае структурных элементов баз данных семантика описывается с помощью семантического аннотирования, заключающегося в связи с описываемым ресурсом семантической аннотации (информации).
Описание структуры данных. Эти функции выполняют, схемы БД, определения типа XML-документа (DTD), а также XML-схемы. Этот вид метаданных представляется соответствующими языками описания данных.
Идентификация данных. Метаданные описывают, какие элементы или связанные с ними атрибуты обеспечивают идентификацию данных, например первичные и вторичные ключи строк таблиц БД. Значения ключей уникальным образом идентифицируют отдельные строки и/или их множества.
архитектуры. В системах баз данных метаданные описывают представление хранимых данных (внутренняя схема базы данных), «логическое» представление полной базы данных (концептуальная схема базы данных) и представления для Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:
перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.
Когаловский М.Р., Калиниченко Л.А. Концептуальное и онтологическое моделирование в информационных системах // Программирование. МАИК «Наука». Интерпериодика. – 2009. – № 5.
пользователей или приложений необходимых им фрагментов базы данных или полной базы данных (внешние схемы). Управление данными. Управление данными это комплекс задач, связанных с эффективным хранением, обработкой, а также организацией доступа к структурированным данным. Для решения этих задач в основном используют технологии баз данных. В тоже время метаданные этого типа, обеспечивают механизмы СУБД необходимой информацией об организации БД, ограничениях целостности данных и управлении доступом.
Поддержка версионности. Эта функция касается данных с большим временным горизонтом. Метаданные, поддерживающие версии данных в различное время, отражают изменения структуры данных в источниках и изменяются сами для обеспечения непрерывной истории изменений структуры данных.
Верификация данных. Метаданные структурированных данных позволяют контролировать их форматы и типы данных, проверять соблюдение ограничений целостности, все эти задачи в основном решают механизмы СУБД2.
Предоставление пользователям сведений об описываемых ресурсах.
Метаданные применяются не только для описания системных функций, но также для информирования пользователей об имеющихся информационных ресурсах или сервисах. Пользовательские метаданные могут быть и структурированными, и неструктурированными. Последние представляются в виде текста, схемы, плана, фрагмента карты и др. Дополнительно эти метаданные могут описывать способы доступа к ресурсам, условия их использования, семантику, терминологию, а также иные сведения об информационных ресурсах или сервисах.
Организация доступа к данным. Метаданные этого типа позволяют описывать функции доступа к данным, а также полномочия пользователей на доступ к ним или на выполнение иных операций в ХГД.
Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:
перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.
Там же.
информационных потребностях, необходимых для сбора и учета в работе статистических данных об использовании системных ресурсов.
Обеспечение обнаружения и поиска информационных ресурсов. Это одна из основных функций метаданных, позволяющая применять метаданные в процессе поиска. При этом могут использоваться не только идентифицирующие, а также семантические метаданные.
Обеспечение возможности анализа данных. Эта функция характерна для баз данных и хранилищ данных с многомерным представлением данных и связана с использованием OLAP-методов.
Обеспечение открытости системы. Обеспечение доступности другим метаданных другой аналитической системой позволяет последней выяснить структуру данных ХД и поддерживать обмен данными между системами.
Представление соответствия данных источников и данных ХГД. Как правило, это описание представляет собой фиксацию взаимосвязи атрибутов источника данных и ХД, правила преобразования первых во вторые, изменение в наименовании данных, в их физических характеристиках и т.п. Эти метаданные, описывают: локальные схемы интегрируемых источников и глобальную схему, а также отображения между локальными схемами и глобальной схемой 2.
Приведенный перечень функций метаданных не является исчерпывающим.
полнофункционального хранилища данных можно использовать концепцию Когаловский М.Р. Метаданные, их свойства, функции и классификация // Электронные библиотеки:
перспективные методы и технологии, электронные коллекции: Труды XIV Всероссийской научной конференции RCDL-2012. Переславль-Залесский, Россия, 15-18 октября 2012. – С. 25-36.
Там же.
Захмана. Согласно этой концепции метаданные должны отвечать на следующие вопросы:
Что это за объект? Эти метаданные описывают объекты предметной области хранилища данных. Описание может содержать: атрибуты объектов, их возможные значения, идентифицирующие поля в структурах данных, а также источники сведений об объектах и т.п.
Кто это (пользователь)? Метаданные отвечающие на этот вопрос содержат профили пользователей использующих данные: права доступа пользователей к данным, а также сведения о пользователях, выполнивших операции над данными.
Где он (объект, пользователь и т.п.) находиться? Метаданные описывают местонахождение и взаимодействие серверов, рабочих станций, источников данных, а также размещенное на них программное обеспечение и распределение между ними данных.
Как он (объект, пользователь и т.п.) действует? Эти метаданные описывают операции, выполняемые над данными. Описываемые действия могли выполняться на разных этапах работы с данными (перенос из источника данных, загрузка в хранилище, выборка из хранилища данных и т.п.).
Когда это (объект, пользователь и т.п.) происходило? Метаданные отвечающие на этот вопрос описывают момент или промежуток времени выполнения разных операций над данными.
Почему это (объект, пользователь и т.п.) произошло? Метаданные этого типа описывают причины выполнение над данными операций. Этими причинами может быть запрос к данным, изменение количества обращений к данным или достижение определенного значения контролируемого показателя и т.п.
Одновременно состав метаданных зависит от информационной архитектуры проектируемой системы. Упрощенное представление ХГД представлено на рисунке 2.1, в виде шестиуровневой архитектурной концепции информационного хранилища данных.
Первый уровень приведенной архитектурной концепции представлен источниками данных (ИД). Это любые источники структурированных данных, так как большинство методов анализа данных работает только с хорошо структурированными данными, поэтому в среде ХГД речь идет только о структурированных или слабоструктурированных геоданных.
Второй уровень содержит систему извлечения, преобразования и загрузки данных (ИПЗ) в ХД. Основные задачи
системы ИПЗ – извлечение данные из разнородных источников, приведение их к единому согласованному виду и загрузка в хранилище данных.
Следующий уровень хранит собранные данные, а также организует санкционированный доступ к ним. На этом уровне размещаются единое хранилище данных, содержащее детальные, агрегированные и архивированные данные, а также зона временного хранения (ЗВХ), системы ведения метаданных (БМД) и нормативно-справочной информации (НСИ).
Рисунок 2.1. Шестиуровневая архитектурная концепция информационного хранилища данных Интернет На следующем уровне расположена система выборки, реструктуризации и доставки данных (ВРД) выполняющая выборку и доставку очищенных данных из общего хранилища данных, предварительно приводя структуру этих данных в соответствие с требованиями различных приложений. Эта система является единственным пользователем ХД, за счет чего на него снижается нагрузка.
Система ВРД должна доставить данные на следующий уровень в различные витрины данных.
Уровень предоставления данных (ПД) отделяет функцию хранения от функции предоставления данных для выполнения различных задач. На этом уровне находятся витрины данных (ВД) – наборы данных, наиболее отвечающие потребностях обслуживаемых задач. В связи с отсутствием универсальных структур данных, пригодных для решения любых задач, витрины данных представляют в виде подмножеств хранилища данных, физически разделенных между собой. Эти подмножества могут быть сгруппированы по территориальным, тематическим, прикладным, функциональным или другим признакам.
Уровень прикладных задач (ПЗ) представлен программными инструментами сценарного расчета, статистического анализа, многомерного анализа, а так же средствами планирования и подготовки отчетов. Естественно, что список прикладных задач этим не исчерпывается.
На этом уровне также расположены средства анализа данных, которые можно разделить на две основные категории:
средства OLAP;
средства Data Mining и Knowledge Discovery in Databases.
Дополнительно в состав уровня могут быть включены средства генерации запросов и отчетов (Query and Reporting, Q&R). Также на этом уровне может находиться (либо быть выделены в отдельный уровень) система подготовки публикаций.
Приведенная архитектурная концепция может быть положена в основу архитектурной модели предприятия при разработке аналитической системы на базе хранилища данных.
Между компонентами описанной архитектурной концепции происходит постоянный обмен данными. В среде ХГД существует две общие категории движения данных (информационные потоки):
входной поток – загрузка данных в хранилище данных (ИПЗ);
выходной поток – доступ к данным для анализа и представления из хранилища данных (ВРД).
Одновременно в самом хранилище данных происходит три категории движения данных (информационные потоки):
поток обобщения данных – образуется путем агрегирования детальных данных и их хранения в хранилище данных;
архивный поток – происходит вследствие переноса детальных данных в архив, в случае сокращения количества обращений к ним;
поток метаданных – получается в результате переноса информации о данных из источников в базу метаданных.
Одновременно следует учесть происходящие взаимодействия между нормативно-справочной информацией, базой метаданных и самими данными (детальными, агрегированными и архивными).
Все приведенные информационные потоки необходимо учитывать при создании схема движения информации. Пример этой схемы приведенной на рисунке 2.2.
ПРИКЛАДНЫЕ
ПРОМЕЖУТОЧНАЯ КУБА
ОБЛАСТЬ НСИ
ДАННЫХ
Учитывая, что метаданные являются структурированными данными, а так же в целях их систематизации в БМД применим следующие понятия:элемент метаданных – дискретная единица метаданных 1;
сущность метаданных – набор элементов метаданных, описывающих один и тот же аспект данных, а из одной или более сущностей, связанных отношениями обобщения или агрегирования состоит пакет метаданных2;
структура метаданных – программная единица, позволяющая хранить и обрабатывать множество логически связанных метаданных;
Основываясь на архитектурную концепцию информационного хранилища данных и общие категории движения данных в нем, а также приведенный метаданных. Этот набор по существу является сводом требований к составу БМД информационного хранилища данных.
1. Пакет «Информация о предметной области»
Требования к составу этих метаданных формируются исходя из их основной функции – интерпретация данных предметной области в терминах пользователей.
Предметной областью геоинформатики являются пространственные объекты и их свойства и характеристики.
общепризнанной, упорядоченной и стандартизированной геоинформационной лексике, которая, в свою очередь, может быть поделена на группы:
позиционирования, дистанционное зондирование и аэрокосмические методы, цифровая обработка изображений, общая информатика и вычислительная техника.
Поэтому в части сбора требований к составу этого пакета метаданных можно воспользоваться стандартами регламентирующими термины и определения в области геоинформатики и ее окружении, такими как:
ГОСТ Р 52573-2006 Географическая информация. Метаданные.
ГОСТ Р 51606-2000 «Карты цифровые топографические. Система классификации и кодирования цифровой картографической информации. Общие требования»;
ГОСТ Р 51607-2000 «Карты цифровые топографические. Правила цифрового описания картографической информации. Общие требования»;
ГОСТ Р 52438-2005 «ГИС. Термины и определения»;
ГОСТ Р 52439-2005 «Модели местности цифровые. Каталог объектов местности. Требования к составу»;
ГОСТ Р 52573-2006 «Географическая информация. Метаданные».
Последний стандарт распространяется на метаданные пространственных данных и метаданные услуг, связанные с предоставлением пространственных данных пользователям 1.
определяет:
базовый набор метаданных;
обязательные и условные пакеты, сущности и элементы метаданных;
дополнительные (необязательные) элементы метаданных 2.
определения понятий в области геоинформационных систем и применяется совместно с ГОСТ Р 21667-1976 «Картография. Термины и определения» и ГОСТ Р 28441-1999 «Картография цифровая. Термины и определения».
Необходимо всю терминологию согласовывать с данными стандартами, так как метаданные должны поддерживать в запросах понятную для пользователя терминологию, независимо от того, какие правила наименования атрибутов были использованы проектировщиком ХГД.
Стандарт ГОСТ Р 52439-2005 устанавливает перечень объектов местности и их свойств, подлежащих описанию в цифровых моделях местности. 3 Этот ГОСТ Р 52573-2006 Географическая информация. Метаданные.
Там же.
ГОСТ Р 52439-2005 Модели местности цифровые. Каталог объектов местности.
стандарт можно использовать для формирования классификатора пространственных объектов ХГД входящий в состав НСИ.
Сбор и анализ сведений о предметной области всей ИС происходит параллельно с формированием НСИ и описанием элементов метаданных пакета «Информация о предметной области». Другими словами, можно сказать, что необходимо постоянно согласовывать между собой НСИ, концептуальную модель предметной области ХГД и метаданные пакета «Информация о предметной области».
Так как предметная область не ограничивается только описанием пространственных объектов, то есть объектов материального мира необходимо дополнительно описывать информационные объекты, процессы и функции, проходящие в ХГД, а также правила (исключения), по которым происходит взаимодействие между объектами. Эти описания позволят организовать эффективный анализ данных.
Дополнительно для точного определения местонахождения описываемых предметной областью данных в пакет «Информация о предметной области»
целесообразно включить сведения об архитектуре среды ХГД. Элементы метаданных описывающие архитектуру среды ХГД содержат сведения о местоположении серверов, рабочих станций и источников данных, описывают размещенных на них программных средств и распределения между ними данных.
2. Пакет «Информация об источниках данных»
Пакет описывает метаданные расположенных на этом уровне источников данных. Для сбора требований к составу этого пакета определим источники данных для ХГД – основу его информационного обеспечения.
В геоинформатике могут быть использованы данные, получаемые в различных технологиях:
в полевых условиях геодезическими (полевыми) методами;
с помощью систем глобального позиционирования GPS, ГЛОНАСС;
посредством средств и технологий дистанционного зондирования:
фотограмметрических методов (наземные и аэрокосмические снимки), оптического зондирования;
с карт (географических, тематических, специальных и т.п.);
из баз данных или из архивов;
с помощью средств мультимедиа 1.
Источники данных оперируют различными упорядоченными наборами статистические и аэрокосмические материалы. Помимо указанных материалов реже используются данные специально проводимых полевых исследований и охарактеризовать их лишь в самом общем виде2. Поэтому пространственные данные можно разделить на три основных класса: карты, аналитические данные и данные дистанционного зондирования Земли.
Пространственные данные – информация о пространственных объектах. Под пространственным объектом понимается отнесенная к одному из классов информационная единица (цифровая модель), содержащая координатные данные (позиционирование), определенный набор свойств (атрибутику) и уникальный идентификатор. Объектом может быть неподвижный или подвижный простой или сложный объект, явление, событие процесс и ситуация.
Любой предмет или явление может быть описано в пространстве координатами (географическое множество) и (или) набором характеристик (атрибутивное множество).
Каждый вид представления данных имеет свои правила хранения, отображения и обработки образов объектов. Согласно ГОСТ Р 52438- «модель пространственных данных – набор пространственных объектов и Савиных В.П., Цветков В.Я. Геоинформационный анализ данных дистанционного зондирования / М.:
Картоцентр-Геодезиздат, 2001. – 23 с.
Капралов Е.Г., Кошкарев А.В., Тикунов В.С. и др. Основы геоинформатики: В 2 кн. Кн. 2: Учеб. пособие для студ. вузов / Под ред. Тикунова В.С. / М.: Издательский центр «Академия», 2004.
межобъектных связей, сформированных с учетом общих для этих объектов правил цифрового описания».
При оценке и анализе различных типов источников данных, являющихся основой информационного обеспечения ХГД, следует учитывать их общие свойства, описываемые пространственными метаданными.
Практика внедрения хранилищ данных показала, что метаданные, созданные и импортированные из различных источников, фактически управляют всем процессом сбора данных. Многие источники содержат в себе элементы метаданных, но практически никогда не несут их полный набор 1.
В этой связи при извлечении данных из источников применяется одновременный перенос их метаданных (например, в формате XML-файла). Как источников формируются на основе ГОСТ Р 52573-2006 «Географическая информация. Метаданные», поэтому приблизительный состав метаданных переносимых из источника должен соответствовать базовому набору метаданных, определенному в стандарте.
В случае если источником пространственных данных является электронная карта, то ее метаданные должны соответствовать ГОСТ Р 51353- «Геоинформационное картографирование. Метаданные электронных карт».
Настоящий стандарт устанавливает требования к составу и содержанию картографической информации, которую используют при создании (обновлении) и применении электронных карт 2.
«Информация об источниках данных» информацией об их структуре и семантике, но также собрать сведения для организации интегрированной модели данных ХГД и создания схем переноса данных из источников данных.
Асадуллаев C. Фирменные архитектуры хранилищ данных // PC Week. – 1998. – № 32-33. – С. 156-157.
ГОСТ Р 51353-1999 Геоинформационное картографирование. Метаданные электронных карт.
ПРЕДСТАВЛЕНИЯ
ДАННЫХ
ДАННЫЕ С КОТОРЫМИ ДАННЫЕ С КОТОРЫМИ
РАБОТАЕТ РАБОТАЕТ
ПРОСТРАНСТВЕННОЕ ТРАДИЦИОННОЕ
ДАННЫЕ АНАЛИТИЧЕСКИЕ ХРАНИЛИЩЕ ДАННЫХ ХРАНИЛИЩЕ ДАННЫХ
ИНФОРМАЦИОННЫЕ
МОДЕЛ ДАННЫХ ДДЗ ДАННЫЕ
ДАННЫХ В ИД
ИСТОЧНИКИ
ДАННЫХ
3. Пакет «Информация о хранилище данных»Пакет описывает метаданные расположенных на архитектурном уровне – «хранилище данных», следующих компонентов: единое хранилище данных (ХД), зона временного хранения (ЗВХ), нормативно-справочная информация (НСИ) и база метаданных (БМД).
Основу хранилища данных составляет база пространственных данных (БПД), содержащая единый массив данных, базовыми единицами хранения которого являются пространственные объекты и их свойства.
Во-первых, это связано с тем, что хранилище данных является предметноориентированным, а пространственные данные описывают пространственные объекты или явления. Во-вторых, модели пространственных данных (векторные, растровые и т.п.) пригодны для хранения и анализа данных в ГИС, в то время как в хранилище данных применяется многомерная модель представления данных.
Рассмотрим требования к многомерной модели данных ХГД предложенные G. Viswanathan и M. Schneider:
Представление модели для пользователей должно быть простым, интуитивным, охватывать все размерности данных и не зависеть от методов реализации. Это облегчит пользователям поиск и анализ данных.
Модель не должна зависеть от аспектов реализации, но должна быть эффективной для анализа, то есть эффективность анализа не должна зависеть от применяемой схемы.
В модели должно быть явное разделение структуры и значений.
Концептуальная модель данных должна учитывать независимость спецификации и реализации.
Модель должна поддерживать иерархии (на нескольких уровнях категорий элементов измерений или показателей) по измерениям и фактам данных.
Модель должна поддерживать составные иерархии по измерениям данных и по одинаковым значениям показателя.
атрибуты для элементов измерений и показателей (геометрических или иных), агрегированные запросы.
тематических атрибутов, за исключением вычисленных значений атрибутов (например, вычисленной общей площади нескольких полигонов).
Модель должна поддержать разнородные (составные) и сложные элементы измерений и показатели. Ячейка куба может содержать несколько показателей, в случае если объект сложный (составной). Например, элемент измерения «Местоположение» может иметь составной объект, лес – полигон с внутренним отверстием – поляна.
детализации (динамические многоуровневые иерархии).
Модель должна поддерживать не форматные (не строгие, рваные) иерархии, а так же отношения – обобщение / специализация.
Модель должна поддерживать функции агрегирования определенные пользователями. Пользователи могут применять нерегламентированные (ad-hoc) операции, например – отношение (метрическая) и многоуровневый буфер (геометрическая).
Модель должна работать со случайной погрешностью в данных, избегая при сложении двойного подсчета и не учитывая неаддитивные данные.
Отслеживая происхождение данных, модель должна работать с неточностью в данных.
Модель должна работать с обновлениями и удалениями данных за длительный временной интервал. Любые перерасчеты значений показателей должны быть последовательными и правильными.
Модель должна учитывать возможность представления на схеме сложных (составных) фактов, измерений и кубов данных.
Модель должна поддерживать поперечную детализацию по измерениям (Drill-across) – разделение измерений между различными кубами фактов, а также сквозную детализацию (Drill-through) для запросов к самому нижнему уровню данных (к «сырым данным»).
Модель должна поддерживать агрегирование по тематическим атрибутам, не являющимся частью измерений или иерархий, а также по тематическим атрибутам фактов (показателей).
Модель должна поддерживать возможность создания динамического многоуровневого запроса.
Модель должна поддержать иерархии обобщения и специализации пространственных объектов. Например, операция свертка «город – область – страна» в иерархии «Местоположение». Одновременно должна существовать связь пространственных иерархий с иерархиями тематических атрибутов.
Измерения и иерархии должны поддерживать пространственные данные и операции над ними, такие как свертки и развертки на пространственных иерархиях. Одновременно куб данных должен быть способен к хранению и управлению пространственными показателями, простыми или сложными объектами, а также объединений (карт) пространственных объектов.
пространственных показателях и элементах измерения. Например, выпуклая оболочка по городам, имеющим наибольшую численность населения в каждом районе одной области в 2013 году.
геопространственные операции на пространственных показателях, элементах измерений и их тематических атрибутах.
Выполнение вышеприведенных требований к многомерной модели данных ХГД позволяет учесть всю сложность и разнообразие реального мира при создании концептуальной (инфологической) модели предметной области.
В первой главе данной работы рассмотрены подходы к построению многомерной модели данных пространственного хранилища данных. В следующей главе приведем пример создания метаданных, описывающих концептуальную модель ХГД.
Важной функцией метаданных этого пакета является описание структуры данных всех баз данных находящихся на этом архитектурном уровне. Структура и семантика зоны временного хранения (ЗВХ) описываются метаданными только в случае ее наличия. Но ключевой функцией метаданных этого пакета является описание интегрированной модели данных ХГД.
Дополнительно на этом архитектурном уровне расположена нормативносправочная информация (НСИ), в состав которой входят: словари, справочники, классификаторы, нормативы, идентификаторы и кодификаторы 1.
Таблица 2.1. Метаданные нормативно-справочной информации Нормативно-справочная Справочники Идентификаторы еще нет. Если в процессе эксплуатации появляются новые Кодификаторы Например, в источниках данных и ХГД применяются, классификаторы топографической информации (КТИ) – систематизированный свод кодовых характеризующих эти объекты при отображении сведений о местности на топографических картах.
Асадуллаев С. Данные, метаданные и НСИ: тройная стратегия создания хранилищ данных // IBM Developer Works. – Россия. – 09.07.2009.
идентификатор либо недоступен как полный список, либо не используется на этапе проектирования системы. Не смотря на то, что кодификатор создается для внутренних нужд проектировщиков, он может использоваться и в дальнейшем пользователями. Норматив представляет собой некоторое числовое значение.
Словари содержат термины и сокращения, а так же разные строковые значения, необходимы при подготовке отчетов. Такие словари обеспечивают единую терминологию во всех документах, циркулирующих в системе.
Теперь рассмотрим находящуюся на этом уровне базу метаданных. Согласно одному из определений база метаданных – это информационный справочник общего назначения или устройство каталогизации для классификации, хранения и управления метаданными 1. В технической литературе БМД часто называют репозиторий метаданных или словарь-справочник данных. Целесообразно конкретизировать это определение с учетом его применения в ХГД.
БМД – система хранения и управления метаданными ХГД, состоящая из информационного навигатора для классификации, хранения и управления метаданными и базы данных содержащей весь массив пользовательских и системных метаданных.
Базу метаданных ХГД можно создавать и поддерживать с помощью любого метода проектирования. При этом важно выбрать для неё архитектуру (централизованная или распределенная) и способы поддержки её в актуальном состоянии.
При централизованной схеме организации БМД, создается одна база данных, в которой хранятся метаданные всех элементов информационной цепи.
Централизованная база метаданных (далее – ЦБМД) имеет одни и те же преимущества и недостатки централизованной базы данных.
Распределенная база метаданных хранит метаданные в нескольких базах данных, но метаданные остаются на собственных уровнях шестиуровневой Ponniah P. Data Warehousing Fundamentals: A Comprehensive Guide for IT Professionals. – John Wiley & Sons, Inc. – архитектуры. Созданный XML-шлюз действует как справочник для получения доступа к метаданным в пределах каждого уровня. Преимущества и недостатки распределенной базы метаданных те же что и для распределенной базы данных.
децентрализованная база метаданных. Её отличие состоит в том, что метаданные распределены не по уровням архитектуры, а по месту физического хранения, например по отделам, департаментам и т.п.
Идеальное решение для управления метаданными – это централизованная база метаданных, доступная пользователям, разработчикам и администраторам из всех мест среды ХД. Но для этого ей необходимо соответствовать следующим основным требованиям:
Гибкая организация. Только администратор данных классифицирует и организует метаданные по логическим категориям и подкатегориям, а также классифицирует особые элементы метаданных.
перспективы метаданных.
Интегрированность. Хранение предметно-ориентированных (бизнес метаданных) и технических метаданных в форматах, понятных всем пользователям.
Хорошая обособленность. Способность разделять и хранить логические и физические модели базы данных.
Возможность анализа и просмотра. Способность просматривать все части метаданных, а также отслеживать связи между ними.
Возможность настройки. Способность создавать настраиваемые представления метаданных для отдельных групп пользователей и включать по мере необходимости новые метаданные.
Поддержка описаний и определений. Представление метаданных в деловых и технических терминах описываемой предметной области.
Стандартизация присвоения имен. Гибкость при присвоении имен и стандартизации в базе метаданных.
Синхронизация. Синхронизация хранимых метаданных с внешними системами и в пределах хранилища данных.
Открытость. Поддержка обмена метаданными между процессами через стандартные интерфейсы и совместимость с различными инструментами.
БМД отвечает за физическое хранение и каталогизацию метаданных подобно информацию о данных в БД.
Как было сказано ранее, бизнес метаданные и технические метаданные служат различным целям и используются разными потребителями. Структуры приравнивается к двум отдельным информационным справочникам: один хранит бизнес метаданные, а другой – технические метаданные. Это деление может быть логическим и осуществляться в пределах единой физической БД.
Для хранения метаданных могут использоваться как реляционные, так и объектно-ориентированные базы данных. Кроме СУБД, обеспечивающей управление созданием и использованием баз данных, содержащей весь массив метаданных, применяется дополнительная надстройка – информационный навигатор, содержащий набор сервисных функций создания, просмотра и редактирования метаданных.
На рисунке 2.4 приведено типовое содержание базы метаданных ХД.
Информационный навигатор. Этот компонент не содержит метаданных, а является интерфейсом взаимодействия пользователя с базой метаданных, позволяющим выполнять следующие обязательные функции:
Создавать запросы к метаданным.
Проводить развертку метаданных по уровням детализации.
Просматривать и выполнять перечень сформированных запросов и отчетов.
Пользовательские метаданные. Данный компонент содержит предметноориентированные и технические метаданные. Здесь находятся справочники позволяющие описывать предметную область в терминах конкретных пользователей. Системные метаданные состоят из структурных метаданных и метаданных процесса обработки данных.
4. Пакет «Информация о системе извлечения, преобразования и загрузки»
Расположенная на этом уровне система извлечения, преобразования и загрузки данных (ИПЗ) содержит сведения об источниках данных: формат и структуру данных, алгоритмы обработки данных и их отличия, семантику хранящихся данных, график выполнения обработки информации в транзакционных системах.
Процессы ИПЗ должны разрабатываться с учетом особенностей моделей данных на основе которых строится ХГД (многомерной, реляционной или гибридной).
Независимо от особенностей построения и функционирования система должна обеспечивать выполнение: извлечения, преобразования и загрузки данных.
В ходе описания процедуры извлечения данных сначала целесообразно определить регламент загрузки данных в ХД и частоту выгрузки данных из ИД.
Время, занимаемое выгрузкой данных, называется «окном выгрузки».
Процедура извлечения данных может быть реализована двумя способами:
извлечение данных дополнительными программными инструментами из структур хранения данных.
выгрузка данных средствами OLTP-систем в промежуточную структуру хранения данных (например, в зону временного хранения).
После извлечения данные попадают в промежуточную область в которой для каждого источника данных создается отдельная таблица или отдельный файл.
При этом необходимо учитывать, что система ИПЗ не предназначена для длительного хранения извлеченных и очищенных данных.
В качестве переходного этапа между источниками данных и хранилищем данных можно использовать определенный тип файла, например SHP или SXF.
Формат SHP «Шейп-файл» позволяет хранить следующие различные типы геометрических объектов: точки, линии, полигоны и другие объекты. Причем отдельный файл может хранить, только однотипные объекты. Каждая запись в «Шейп-файле» также может иметь несколько атрибутов для описания своей геометрии, например: название, температура, глубина1.
Формат SXF (Storage and eXchange Format) — открытый формат цифровой информации о местности предназначен для применения в геоинформационных системах для хранения цифровой информации о местности, обмена данными между различными системами, создания цифровых и электронных карт и решения прикладных задач 2.
Перед началом процесса извлечения данных целесообразно определить в каких источниках хранятся требуемые данные. При этом выбирая источник данных для загрузки в хранилище данных необходимо учитывать следующие факторы:
значимость данных для анализа;
сложность извлечения этих данных из источника;
возможность нарушения целостности и достоверности данных;
объем данных в источнике.
После выбора источников данных определяют какие данные из них требуются в ХД. Если необходимо извлечь только определенные записи, создается набор условий или алгоритм выборки записей, представляющих интерес.
Дополнительно, для начала процесса извлечения данных используется некоторая служебная информация, например, имя набора данных, из которого О шейпинге на покрытиях. Топология и шейп-файлы // ArcGIS Review. – 2001. – № 4 (19).
Формат хранения и обмена цифровых навигационных карт и планов городов в двоичном виде (SXF). – ЗАО КБ «Панорама».
извлекаются записи, номера первой и последней извлекаемых записей, количество извлекаемых записей, формат представления данных, максимальная длина записи и т.д.
Другой не менее важный момент это выбор «временной глубины» выгрузки данных. В основном это относится только ко времени первичной загрузки данных в ХД, когда требуется определить, за какой период времени информация является актуальной. Определение «временной глубины» выгрузки данных обеспечивает правильный баланс между объемом выгружаемых из источника данных и их ценностью для анализа.
При повторных загрузках данных в ХД уже необходимо организовать поиск измененных данных. Для этого существует ряд методик, например применение меток времени.
Процесс извлечения данных в системе ИПЗ существенно зависит от источников данных, а именно от их типов и структуры. Выделяют три разновидности ИД.