На правах рукописи
ПЕТУХОВ
Валерий Васильевич
Система интеграции информационных ресурсов при
моделировании природно-хозяйственных объектов
Специальность 05.13.01 - Системный анализ, управление и обработка
информации (технические системы)
АВТОРЕФЕРАТ
диссертации на соискание ученой степени кандидата технических наук
Санкт-Петербург 2009 2
Работа выполнена в Учреждении Российской академии наук Санкт-Петербургский институт информатики и автоматизации РАН.
- доктор технических наук, профессор
Научный руководитель Воробьев Владимир Иванович - доктор технических наук, профессор
Официальные оппоненты Марлей Владимир Евгеньевич - доктор технических наук, доцент Балонишников Александр Михайлович
Ведущая организация - Санкт-Петербургский Государственный Политехнический Университет
Защита диссертации состоится «15» октября 2009 г. в 14.00 часов на заседании Диссертационного совета Д 002.199.01 Учреждения Российской академии наук СанктПетербургском институте информатики и автоматизации РАН по адресу: 199178, СанктПетербург, В.О., 14 линия, 39.
С диссертацией можно ознакомиться в библиотеке Учреждения Российской академии наук Санкт-Петербургском институте информатики и автоматизации РАН
Автореферат разослан 14 сентября 2009 г.
Ученый секретарь диссертационного совета Д 002.199. кандидат технических наук А.Л.Ронжин
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность темы диссертации. Одним из необходимых условий принятия эффективных решений при управлении сложными объектами, является своевременное обеспечение задействованных на разных уровнях управления лиц достоверной, полной и качественной информацией о текущем и прогнозируемом состоянии объекта. Это создает основу для выработки опережающих управленческих решений на базе прогнозных оценок состояния объекта управления.
Основные трудности при решении задач прогнозирования состояния природнохозяйственных объектов обусловлены их сложностью, недостаточной изученностью протекающих в них процессов, ограниченными возможностями проведения активных экспериментов, сложностью и нескоординированностью процессов сбора исходных данных, их недостаточной доступностью, неадекватностью используемых моделей, а также рядом других причин. Данные, поступающие из различных источников, как правило, разнородны и для прямого использования, сопоставления и анализа, не пригодны.
В то же время разнообразие задач, для решения которых необходима информация о природных ресурсах и явлениях, разнообразие самих описываемых объектов, процессов и подходов к отображению информации о них не позволяют говорить о множестве информационных ресурсов данной группы как о единой системе.
Развитие концепции единого информационного пространства, научнометодологических основ информатизации, методов поддержки принятия решений в сложных организационно-технических системах, особенности формирования ведомственных и предметных ИС подробно рассмотрены в трудах ученых СПИИРАН (Юсупова Р.М., Заболоцкого В.П.. Соколова Б.В.), теоретические основы гармонизации, интеграции и слияния данных, анализ и объединение данных для принятия решений (Городецкий В.И., Попович В.В.), онтологический подход к управлению знаниями (Смирнов А.В.). В ходе работы над диссертацией изучены и проанализированы труды отечественных и зарубежных ученых в областях: информатики, теории системного анализа и принятия решений, проектирования информационных технологий и систем (Багриновский К.А., Божко В.П., Гиляревский Р.С., Глушков В.М., Ю.Г. Данилевский, П.
Друкер, Э.В. Евреинов, А.А. Емельянов, В.М. Жеребин, Д. Захман, С. Катлип, В.Н.
Квасницкий, В.В. Кульба, А.Г. Мамиконов, Д. Мако, М.Месарович, В.А. Мясников, А.П.
Пятибратов, А.Н. Романов, Т. Саати, С.Н.Селетков, И. Такахара, Ю.Ф. Тельнов, В.П.
Тихомиров, М. Хаммер, Э.Н. Хотяшев и др.), создания информационных систем управления регионом, городом (Г.И. Марчук, Ф.И. Перегудов, А.А. Стогний, Ю.М.
Черкасов, Ю.А. Черенков и др.), классификации и управления информационными ресурсами (Антопольский А.Б., Белов Г.В., Громов Г.Р., Копылов В.А., Ларин М.В., Саков А.А., Семилетов С.И., и др.).
Несмотря на значительное число работ и проектов, посвященных проблеме управления данными и интеграции информационных ресурсов, и значительные усилия центров обработки данных сформировать универсальные системы представления и предоставления данных (SDSS в Fermilab, BaBar в SLAC, BIRN в SDSC, Entrez-PubMedGenBank в NCBI), сохраняется разрыв между многочисленными источниками, архивами данных и моделями, в которых эти данные предполагается использовать, особенно при проведении междисциплинарных исследованияй. Не все модели поддерживают вывод результатов в унифицированных форматах, удобных для использования в геоинформационных системах или системах научной визуализации (GRADS, Ferret, Surfer, AVS, IRIS Explorer, IBM Data Explorer, OpenMV). Крупные научные центры и центры обработки имеют сложившиеся информационные технологии и внутренние стандарты представления данных (например, SILAM/FMI, FIMR, JINR, SMHI, ММБИ, NESDIS) изменять которые сложно или нецелесообразно.
Другой проблемой, является дробление информационного пространства разрозненными информационно-вычислительными системами, что приводит к дублированию данных и потере достоверности.
Разрастание файловых систем до петабайтных архивов с миллиардами файлов, отсутствие единых стандартов представления данных, многообразие источников и форматов данных, необходимость интеграции новых и сложившихся информационных технологий, использование ассимиляции данных в модели для корректировки их поведения обусловливают актуальность сформулированной темы исследования, направленной на повышение эффективности информационного обеспечения систем прогнозирования с использованием моделей: разработка и формирование единого информационного пространства систем природопользования.
Цель работы и задачи исследования: разработка системной модели интеграции информационных ресурсов и реализация информационных систем природопользования на основе единого информационного пространства при моделировании природнохозяйственных объектов для предупреждения возможных неблагоприятных ситуаций.
Для достижения поставленной цели поставлены и решены следующие задачи:
1) анализ информационных ресурсов информационных систем природопользования и методов их интеграции в единое информационное пространство;
2) разработка онтологической модели единого информационного пространства систем природопользования и модели единого информационного пространства;
3) разработка метода интеграции данных в единое информационное пространство и ассимиляции данных в модели прогнозирования состояния природно-хозяйственных объектов;
4) реализация разработанного метода интеграции информационных ресурсов в решении практических задач.
Методы исследования В работе использовались методы системного анализа, моделирования природных процессов, интеллектуального анализа данных, построения информационновычислительных систем, теории метаданных, онтологического анализа.
Положения, выносимые на защиту 1. Онтологическая модель информационных ресурсов систем природопользования, позволяющая определить основные понятия и связи между ними.
2. Метод интеграции информационных ресурсов в единое информационное пространство на основе онтологической модели.
3. Метод ассимиляции данных в задачах прогнозирования состояния природнохозяйственных объектов и контроля качества данных.
Научная новизна 1. Разработана онтологическая модель информационных ресурсов систем природопользования, обеспечивающая взаимодействие разных групп пользователей (экспертов, ученых и ЛПР) на основе присвоенных им ролей.
2. Разработан метод интеграции информационных ресурсов в единое информационное пространство, отличающийся объективным анализом интегрируемых данных, модульной структурой моделей природно-хозяйственных объектов.
3. Разработан метод ассимиляции данных в модели прогнозирования состояния природно-хозяйственных объектов, включающий обработку и контроль «сырых» данных для обеспечения работы в реальном времени и динамическую корректировку поведения моделей природно-хозяйственных объектов на основе контроля отклонений параметров системы.
4. Разработано персональное рабочее пространство пользователя системы, позволяющее анализировать накопленную информацию в базе знаний и повысить оперативность принятия решений.
Обоснованность и достоверность основных выводов и результатов обеспечивается за счет анализа состояния исследований в данной области, подтверждается результатами экспериментов с моделями ПХО и при решении прикладных практических задач, а также апробацией основных теоретических положений диссертации в печатных трудах и докладах на научных конференциях.
Практическая ценность работы.
Разработанная модель информационной системы природопользования позволяет портировать накопленный опыт построения информационных систем в современную среду интеграции.
Разработанный метод интеграции информационных ресурсов автоматизирует рутинные процессы предварительной подготовки данных и повышает качество научных исследований, освобождая исследователя от знания информационных технологий.
Применение метода динамического выбора схемы ассимиляции данных в модели повышает достоверность прогноза.
Разработанное программное обеспечение (информационная поддержка) и единый интерфейс подсистем моделирования позволяет в автоматизированном режиме конфигурировать модель прогноза на основе модульного принципа моделей принимать более качественные решения по выходу из проблемных ситуаций и их предотвращению на основании сравнения последствий разных вариантов принимаемых решений.
Результаты исследований могут быть использованы и в других предметных областях.
Реализация результатов работы Основные результаты диссертационной работы внедрены в виде информационного, алгоритмического и программного обеспечения системы поддержки принятия решений «Информационно-аналитическая система «Охрана окружающей среды Ленинградской области» и «Система мониторинга и прогнозирования распространения лесных пожаров»
в Комитете по экологии и природным ресурсам Правительства ЛО, в ГМЦ Финляндии, в учебном процессе в СПбГУ и поддержана грантами: HYMNE - 2001-2002, Contract ICA-CT-2000-10034. Исследование влияния антропогенной нагрузки СанктПетербурга на состояние экосистемы Финского залива; INTAS/735 ”The importance of sediments for the water quality of the gulf of Finland; INCO/516732, NISMIST. Management of environmental risk from landfills in seismic active regions in the New Independent States (NIS) of Central Asia, 2005-2008; Toxic wastes management /SIDA,2005-2006; An integrated monitoring and modelling system for wildland fires - IS4FIRES, FMI, 2007-2008.
Апробация результатов работы Основные положения и результаты диссертационной работы докладывались и обсуждались на следующих конференциях:
Klaipeda Baltic Sea conference, June 2004.
Конгресс ВестТейк-2007, Москва.
Международная конференция «Информационные технологии как основа управления в сфере природопользования и охраны окружающей среды». - СПб, 2007.
XI Санкт-Петербургская международная конференция «Региональная информатика-2008», 22-24 октября 2008 г, Санкт-Петербург.
Публикации Основные положения и результаты исследования по теме диссертации опубликованы и непосредственно отражены в 9 работах, в том числе в 5 статьях, из них 4 – в изданиях, входящих в список ВАК, 4 – в материалах и трудах конференций.
Структура и объем работы Диссертация объемом 125 машинописных страниц содержит введение, 4 главы, заключение, список литературы (105 наименований), 4 таблицы, 14 рисунков.
СОДЕРЖАНИЕ РАБОТЫ
Во введении приводится общая характеристика работы – обосновывается актуальность, формулируются цель и задачи исследования, перечисляются методы исследования, приводятся результаты, выносимые на защиту, отмечается их новизна и практическая значимость.
В первой главе проведен анализ существующих подходов к интеграции данных, проблем интеграции и использования информационных ресурсов в информационновычислительных системах и системах поддержки принятия решений в управлении природно-хозяйственными объектами в целях прогнозирования их поведения в нештатных ситуациях с применением моделей. Далее в главе формулируются требования, предъявляемые к единому информационному пространству систем природопользования.
В настоящее время основным подходом к построению ЕИП и обработке гигантских объемов данных, порождаемых научными инструментами и компьютерным моделированием, является создание сетей научных центров данных, обеспечивающих как доступ к данным, так и к приложениям, которые анализируют эти данные. Ведется много параллельных и конкурирующих работ по созданию таких инструментальных средств – по меньшей мере, по одной для каждой дисциплины (предметной области), - но ни один стандарт или инструмент не стал предпочтительнее других. Обмен данными между научными центрами не предусмотрен, что крайне необходимо при проведении междисциплинарных исследований.
Данные, генерируемые научными инструментами и моделями, хранятся в научных центрах в основном в форме числовых массивов. Для представления таких массивов и связей между ними реализованы простые и удобные модели данных. Примерами таких моделей (стандартов) являются HDF, NetCDF и FITS. Каждый из них включает библиотеку, которая инкапсулирует файлы и обеспечивает плаформенно-независимый способ чтения подмассивов, а также создание и обновление файлов, и средства анализа и визуализации соответствующих высокоуровневых форматов файлов, но они обеспечивают лишь минимальные инструментальные средства для поиска и анализа данных.
Анализ данных в современных прикладных задачах на основе имеющихся в языках программирования средств (Fortran/C/Java/Python) в режиме "файл за файлом" при возрастании объемов данных занимает все большее время несмотря на повышение быстродействия вычислительных средств. Для ускорения анализа применяются средства параллельного программирования, однако эффективность их использования невелика.
Выходом из такого положения и основным условием совместного использования данных в разных научных дисциплинах и различных средствах анализа и визуализации становится наличие хороших метаданных и замена иерархии файлов базой данных, что обеспечивает непроцедурный и параллельный поиск данных, а также инструментальные средства для автоматического проектирования структур данных и управления ими.
Интеграция баз данных с языками программирования дает возможность применения объектно-ориентированных баз данных. Объектная модель с возможностями связывания и встраивания хорошо подходит для интеграции систем баз данных и файловых систем – файлы рассматриваются как связанные объекты. Следующим этапом интеграции данных является Semantic Web, обеспечивающий совместимость приложений на семантическом уровне и независимость данных и приложений. Особенностью таких систем является функция поиска, а не обработки больших массивов данных.
Предложенный подход отличается совмещением этих двух функций и учитывает особенность ИС природопользования – ассимиляцию данных в подсистемы моделирования для корректировки поведения моделей ПХО. Интеграция файловых систем, баз данных, языков программирования и моделей в единое информационное пространство позволяет создать управляемую метаданными систему анализа и управления потоками работ.
Таким образом, учитывая современные требования к методам обработки и управления данными, при разработке единого информационного пространства ИС природопользования необходимо учесть:
- использование существующих стандартов представления данных;
- преемственность существующих программ (представления, динамически транслирующие данные в соответствующие форматы);
- конвергенцию файловых систем и баз данных;
- комбинирование с другими данными (сопоставимость данных из различных источников);
- использование разработанных (существующих) предметных онтологий и формирование онтологии общего назначения;
- приближение кода к данным для сокращения объема пересылаемых данных;
- организацию эффективной обработки в виде потоков работ;
- средства динамического отображения результатов моделирования и анализа;
- параллельную обработку данных;
- ассимиляцию данных в модели;
- создание персонального рабочего пространства.
Во второй главе предложена модель информационной системы природопользования и метод интеграции информационных ресурсов.
Модель рассматриваемой системы природопользования можно представить в виде:
где F = { f a | a =1, A } — множество функций системы;
T = {t j | j =1, J } — множество задач обработки информации;
U = {u k | k =1, K } — множество пользователей;
I = I вх U I вых — множество данных;
I вх = i x | x X вх — множество данных, необходимых для обеспечения информационных потребностей системы;
I вых = i x | x X вых — множество данных, являющихся результатом взаимодействия пользователей и функций системы;
R = {rI | I =1, L } — множество отношений между компонентами F, T, U, I.
На основе (1) модель ИС природопользования включает:
- классификацию информационных ресурсов, выделение значимых объектов и определение отношений;
- разработку общей информационной и функциональной моделей ИС природопользования;
- разработку онтологической модели информационных ресурсов;
- формирование набора сервисов, реализующих функциональность системы;
- разработку методов ассимиляции данных моделями ПХО.
Структура ИС природопользования приведена на рис. 1.
Подсистема управления данными включает:
1) средства описания информационных объектов и связей между ними с возможностью расширения описания по мере увеличения знаний об этих объектах с адекватным отображением в структуре БД;
2) средства обработки информации;
3) технологию миграции информации из информационных систем предыдущего поколения;
4) средства поддержки распределенных вычислений;
5) библиотеку приложений.
Рис.1. Структура ИС природопользования.
Подсистема формирования прогноза включает:
1) подсистему визуализации:
- средства динамической визуализации и анализа, сопоставление результатов прогноза по различным сценариям;
- средства выбора варианта решения.
2) подсистемы моделирования природно-хозяйственных объектов:
- модели объектов управления, - средства динамической корректировки поведения моделей и контроля качества данных наблюдений, выбор метода ассимиляции;
- средства формирования архитектуры моделей (выбор варианта решения, формирование и выбор сценариев, сценарии решений, конфигурация моделей).
Функциональная модель и основные компоненты представлены на рис.2.
Преобразования i ставят в соответствие множеству моделей данных на входе множество моделей данных ИС природопользования на множестве R. К ним относятся интерполяция, трансформация, фильтрация, масштабирование, преобразование проекций, сжатие, статистический анализ и другие.
На основе модели (1) разработана онтология информационных ресурсов:
O = {C, A, RC, T, D, RA, F}, где C – {c1, …, cn} - множество классов, описывающих понятия предметной области;
A – {a1, …, am} - множество атрибутов, описывающих свойства понятий и отношений;
RC = {rC rC C C} – множество отношений, заданных на классах;
T – множество стандартных типов значений атрибутов (string, integer, real, date);
D – множество доменов (множеств значений стандартного типа string);
RA = RAT U RAD, где RAT A T – отношение, связывающее атрибуты и типы данных, из которых они могут принимать свои значения, RAD A D – отношение, определяющее для каждого атрибута его дискретное множество значений (домен);
F – множество ограничений на значения атрибутов понятий и отношений.
Рис.2. Функциональная модель ИС природопользования В разработанной онтологии классами являются «Модели ПХО», «Пользователи», «Инструменты», «Наборы данных», «Типы данных», «Сервисы». Определены отношения совместимости (между Моделями и Результатами моделирования – что оценивает модель), ассоциативности (между Оригиналами и преобразованными наборами), функциональные ограничения.
Разработанная онтология ИР включает небольшое универсальное ядро (базис) и расширение со спецификой научных наборов данных (по предметным областям). В качестве базиса онтологии выбрано Дублинское ядро (Dublin Core), принятое в качестве стандарта для госучреждений, и удовлетворяющее стандартам ISO 15836-2003, NISO Z39.85-2007. Онтология разработана с расширениями для научных наборов данных (среда (вода, атмосфера, лес), оборудование/прибор, масштаб, разрешение, набор измеряемых параметров, единицы измерения, проекции, …) OWL-реализация разработанной онтологии обеспечивает доступ к данным по интернет технологиям и предоставление данных структурам управления верхних уровней, и расширение включением разработанных онтологий – время/дата/интервал, единицы физических величин и другие (рис.3).
Dublin Core Metadata Extensions Extensions concerning scientific datasets (SDS) V.Petukhov SRCES, SPb 2009-01- Рис.3. Декларация пространства имен онтологии.
Классификация данных ИС природопользования:
- по природной среде (вода, воздух, лес), - по источнику (поставщик, оборудование, точность), - по уровню обработки (сырые, 1, 2), - по продукту (кто предоставляет), - по предоставляемым сервисам, - по наборам данных (что содержит каждый набор: параметры, период), - по условиям предоставления данных, - как данные разных источников соотносятся между собой, - в каком формате и на каких условиях доступны.
По онтологии строятся:
- схема базы данных (логическая структура БД и ее ограничения целостности);
- формы для заполнения БД данными (информационными объектами, являющимися экземплярами понятий онтологии);
- схема навигации по информационному пространству (по отношениям онтологии), - формы поисковых запросов, - Web-интерфейс.
Особенность формирования метаданных заключается в создании в среде СУБД средств связывания типов данных с потоками работ. Концептуальная модель и схема базы данных приведена на рис.4. Для зарегистрированных классов новые экземпляры наборов данных регистрируются автоматически и управляются соответствующим потоком работ.
Схемы потоков работ описывают последовательность программ обработки и их зависимости. Описание потоков реализовано в виде скриптов.
Корректировка метаданных, сценариев, свойств объектов осуществляется через диалоговые окна (Web-интерфейс).
Обмен данными с научными центрами (HDF, NetCDF) организован посредством предоставляемых ими сервисов, если организация входит в сообщество и имеет доступ к данным, или получением «сырых» данных с последующей обработкой. Опыт показывает, что обработанные в центрах данные также нуждаются в дополнительной проверке. Для работы в реальном времени первичная обработка «сырых» данных осуществляется локально в целях экономии времени.
Рис.4.Концептуальная модель информационных ресурсов.
Предложенная модель ЕИП ИС природопользования базируется на:
- методологии открытых систем (открытость спецификаций, масштабируемость, интероперабельность, многоплатформность, мобильность) - максимальном использовании проверенных свободно распространяемых программных продуктов (Open Source): операционных систем (linux), универсальных моделей данных, включая средства описания и преобразования; средств интеграции программного обеспечения (WINE, VME, …); пакетов динамической визуализации и научного анализа;
систем управления базами данных (MySQL); моделей с открытым кодом (SWAN, MOM3, EMBYR, MM5, HIRLAM); средств поддержки параллельной обработки (MPI); среды разработки (Eclipse, NetBeans); генератор отчетов (FastReports);
- сохранении используемых информационных технологий (рекомендация UNESCO 2003);
- стандартах на имена элементов данных, имена файлов (привязка ко времени и географическому положению);
- модульной структуре моделей.
Важным свойством разработанной информационной модели является формирование персонального рабочего пространства, которое позволяет организовать, исследовать и использовать все имеющиеся данные и модели. Персональное рабочее пространство настраивается пользователем в соответствии с областью исследований (Area of interest). Запросы к данным, сформулированные в концептуальной среде онтологии предметной области преобразуются в запросы к серверу метаданных. В соответствии с этим формируется спектр необходимых наборов данных в соответствии с правилами организации данных в предметных центрах обработки данных или локальном архиве.
В третьей главе рассмотрен метод ассимиляции данных в модели природнохозяйственных объектов, заключающийся в совместном применении ЕИП и моделей физических процессов.
Достоверность результатов моделирования и качества принимаемых решений определяется не только адекватностью модели объекту управления, но и качеством используемых данных. Поэтому данные, загружаемые в ЕИП из научных центров и непосредственно из источников в большинстве случаев требуют тщательной проверки перед их использованием в моделях. Проверка выполняется на предельные значения параметров, на пределы отклонения от средне статистических, ограничения по смыслу, проверка дублирования, ошибки формата, нарушений структуры данных (в том числе пустой файл), осуществляется отбраковка данных при контроле береговой линии и глубин.
В зависимости от типа источника данных применяются различные методы контроля качества данных. Например, для проверки данных, снимаемых с буев, необходимо контролировать непрерывность во времени, формат и диапазон допустимых значений.
Уровень, ветер и т.д.
Алгоритмы контроля качества данных регулярно модифицируются и дополняются в ядро ЕИП при включении новых источников данных.
Следующим этапом анализа данных является ассимиляции данных моделями в целях оценки точности и корректировки прогнозных расчетов. Под ассимиляцией, понимается техника объединения данных измерений/наблюдений с моделями, описывающими эволюцию системы.
Система ассимиляции данных в модель включает три компонента: набор наблюдений, динамическую модель, схему ассимиляции. Данные измерений, как правило, содержат ошибки. Модели также являются неточными и неполными, что приводит к ошибкам прогнозирования. Ассимиляция корректирует состояние модели на основе данных наблюдений и обеспечивает наиболее вероятное состояние системы с учетом неопределенности в измерениях и прогнозных расчетах.
Восстановление полей данных температуры и солености гидродинамичеких моделей: основана на уравнениях движения вязкой несжимаемой жидкости в сферических координатах в приближениях Буссинеска и гидростатики [2]:
На базе результатов интегрирования (3-7) рассчитываются изменения координат частиц нефтеразлива на основе уравнений движения в форме Лагранжа:
( i =1,3 ; j = 1,2,…Ni ; kf = 1,2,…,Nf ; f = 1,2,…,8 ) где ( xi )kj - проекция приращения траектории kf частицы на j-шаге на xi -ось, V ji проекция вектора скорости течения на xi-ось; t j - шаг по времени; j - номер шага по времени; Ni - число шагов по времени; Nf - число частиц ( i )kj - случайное изменение координат xi на j-шаге времени.
При восстановлении данных в задаче прогнозирования распространения пожара используются уравнения переноса тепла и влаги:
где M – скорость конденсации парообразной влаги, т.е. масса влаги, конденсирующаяся за единицу времени в единице массы почвенного воздуха, K П, K П - коэффициенты молекулярного переноса тепла и влаги. Величина M в условиях насыщения является функцией температуры и определяется с помощью (10) следующим образом:
где R – поток коротковолновой и длинноволновой радиации, направленный вниз, H П и E П – потоки тепла и влаги в почву, Ts4 - длинноволновое излучение поверхности почвы.
Аппроксимируя уравнения (9-11) конечными разностями получаем систему нелинейных алгебраических уравнений.
Качество восстановления данных и точности прогноза на основе (3-7) оцениваются по следующей методике. Обозначив прогностическое значение в момент tk wkf (вектор состояния, содержащий все параметры модели в каждом узле сетки) и предположив, что wkf отличается от истинного состояния wk вследствие наличия смещения в модели g kf, и случайной ошибки прогноза ekf, имеющей нормальное распределение, получим Все наблюдения (температуры, солености, уровня, горизонтальные векторы скорости ветра) объединены в вектор наблюдений wk длиной p k в момент t k. Тогда ошибка интерполированного к точке наблюдения ek ~ wk H k wk ;
Где ek - включает ошибку измерений, ошибку репрезентативности и ошибку неадекватности модели, hk - интерполяционный полином результата анализа в результат наблюдения (по географическому положению и времени), H k = k w f.
Коэффициенты полинома определяются методом наименьших квадратов.
В качестве примера восстановления пространственно-временного распределения метеорологических полей температуры и солености по данным наблюдений приведем вводимые в правую часть уравнений поправочные члены:
где - коэффициент релаксации (1/30 суток или 1/60), Sизм – осредненное измеренное значение для станций одной ячейки на равномерной сетке; дискретность по времени – 1 месяц, период: с 1948 года по настоящее время.
Результаты верификации модели с использованием ассимиляции приведены на рис.5.6.
Рис.5. Контроль отклонений модели по ассимилированным данным (кислород).
Рис.6. Верификация модели: сравнение осредненных значений с данными измерений.
Рассмотренный метод ассимиляции данных применяется для подсистем моделирования с открытым кодом и модульной структурой моделей ПХО. Для информационных систем, не допускающих внесение изменений в алгоритм их функционирования, ассимиляция осуществляется формированием принятой в подсистеме моделирования структуры данных: оценка влияния пожаров на качество воздуха SILAM (FMI).
В четвертой главе описана практическая реализация предложенной методики формирования ЕИП в автоматизированных системах управления природнохозяйственными объектами:
- информационно-аналитической системе «Охрана окружающей среды Ленинградской области» (интеграция информационных ресурсов Правительства Ленинградской области) - мониторинг и моделирование распространения лесных пожаров на территории Ленинградской области (отдел мониторинга Комитета по экологии и природным ресурсам) - ассимиляция данных по пожарам в модель HIRLAM FMI.
Использование разработанной модели единого информационного пространства, онтологической модели, метода интегрирования информационных ресурсов позволило решить научные и прикладные задачи:
1. Влияние изменений придонного слоя на состояние экосистемы Балтийское море – Финский залив (дноуглубительные работы, добыча марганцевых конкреций и др.) 2. Формирование системы оперативного мониторинга и прогнозирования развития ситуации с использованием спутниковых данных и данных, полученных средствами наземного наблюдения 3. Экспресс-прогноз развития неблагоприятных ситуаций с использованием моделирования (перенос примесей, дрейф нефтяного пятна, распространения лесного пожара) 4. Оперативная оценка риска и ущерба от полигонов твердых бытовых отходов 5.Исследование средств и методов хранения исходных данных, используемых при моделировании, и результатов моделирования: компактность хранения, скорость доступа.
6. Верификация моделей по натурным данным и сопоставление результатов, полученных по различным методикам решения той же задачи, включая моделирование на разных сетках.
В разработанную модель ЕИП ИС природопользования интегрированы следующие компоненты:
- унифицированные модели данных (NetCDF, HDF4, HDF5);
- библиотеки приложений (контроль данных, модели);
- средства описания интегрируемых в ЕИП источников данных (абстрактных моделей данных);
- средства преобразования форматов данных и манипулирования данными (предварительная обработка, аппликация или склейка фрагментов, вырезка области исследования, утилиты преобразования данных в grid-формат хранения расчетов для продолжения моделирования и отображения в ГИС);
- наборы скриптов автоматизированной загрузки данных и подготовки их к использованию;
- средства поддержки распределенной архитектуры (вычислительный сервер/кластер, параллельные вычисления);
- схемы ассимиляции данных наблюдений в модели, - системы динамической визуализации наборов данных (GRADS, Ferret), - средства выбора решения.
При апробации результатов исследований автором были модифицированы и использованы:
- трехмерная гидродинамическая модель для исследования морфологии дна, выбора фарватера в Лужской губе (естественное промывание и минимум изымаемого грунта) и мест депонирования изъятого грунта (минимальный размыв течениями);
- модель миграции нефтяного пятна;
- гидродинамическая и биохимическая модель экосистемы Финского залива;
- модель оценки влияния добычи железно-марганцевых конкреций на состояние экосистемы Финского залива;
- модель распространения лесного пожара.
В качестве примера можно привести оценку влияния пожаров на качество воздуха.
Расчеты проводились по методу Ichoku и Kaufman. Учитывалась яркость излучения TA ( 4m канал MODIS). Оценки были в 2-3 раза завышенными по сравнению с измеренными. Учет в прогнозах второго фактора – FRP (fire radiation power, 11m канал), FRP=8.3338*10-5 *TA3-6.11707*10-2*TA2+14.8674*TA-1150.92 и корреляцию с TA выбор коэффициента эмиссии повысило точность прогноза в 2-3 раза. Однако, точные результаты были получены по осредненным значениям; расхождения в некоторых точках были до 20%, что можно объяснить плохим качеством данных инвентаризации лесного фонда и коротким рядом наблюдений (базы данных по пожарам GFEDv2 и RETRO).
ОСНОВНЫЕ РЕЗУЛЬТАТЫ РАБОТЫ
На основе выполненных в диссертации исследований получены следующие основные результаты:1. Проведен анализ и оценка информационных ресурсов и методов их интеграции в ЕИП.
Показано, что интеграция файловых систем, баз данных, языков программирования и моделей в единое информационное пространство позволяет создать управляемую метаданными систему анализа и управления потоками работ.
2. Разработана онтологическая модель информационных ресурсов систем природопользования, обеспечивающая взаимодействие разных групп пользователей (экспертов, ученых и ЛПР) на основе присвоенных им ролей. По онтологической модели формируется структура базы знаний, схема навигации по информационному пространству, Web-интерфейс, формы поиска/запроса.
3. Разработан метод интеграции информационных ресурсов в единое информационное пространство, отличающийся объективным анализом интегрируемых данных, позволяющим классифицировать их по качеству и степени доверия.
4. Разработан метод ассимиляции данных в модели прогнозирования состояния природно-хозяйственных объектов, включающий обработку и контроль «сырых»
данных для обеспечения работы в реальном времени и динамическую корректировку поведения моделей природно-хозяйственных объектов на основе оценки отклонений параметров системы и качества данных.
5. Разработано персональное рабочее пространство пользователя системы, позволяющее анализировать накопленную информацию и повысить оперативность принятия решений, и единый интерфейс подсистем моделирования природно-хозяйственных объектов.
6. Разработан и реализован алгоритм настройки ЕИП для решения практических задач, включающий выбор и инсталляцию компонентов системы (средств динамической визуализации, анализа); выбор и адаптацию моделей (изменение структуры для интеграции схемы ассимиляции и средств организации параллельных вычислений, формирование базовых сценариев решений) и инструментарий интеграции информационных ресурсов и моделей.
7. На основе разработанной системы решены следующие прикладные задачи: интеграция информационных ресурсов Правительства Ленинградской области, мониторинг и моделирование распространения лесных пожаров на территории Ленинградской области, влияние лесных пожаров на качество воздуха.
СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ
1. Петухов В.В. Информационная модель системы оперативного управления природнохозяйственными объектами в чрезвычайных ситуациях. /«Информационно-измерительные и управляющие системы». – №4, 2008 г. – c.51-54.
2. Петухов В.В. Ассимиляция данных в единое информационное пространство систем принятия решений по управлению природно-хозяйственными объектами.
/«Информационно-измерительные и управляющие системы». – №10, 2008. – c.34-37.
3. Аксенов А.Ю., Александров В.В..Петухов В.В. и др. Программируемые инфокоммуникационные технологии. Под ред. Александрова В.В., Сарычева В.А. – М.:
Радиотехника, 2008. – с.29-32. ISBN 978-5-88070-203-9.
4. M. Sofiev, R. Vankevich, M. Lotjonen, M. Prank, V. Petukhov, T.
Ermakova, and J. Kukkonen. An operational system for the assimilation of satellite information on wild-land fires for the needs of air quality modelling and forecasting. /Atmospheric Chemistry and Physics. MS-NR: acp-2008-0629. http://www.atmospheric-chemistry-andphysics.net 9, 6483-6513, 5. Неелов И.А., Петухов В.В., и др. Система проектирования экологических ситуаций в восточной части Финского залива и Невской губы. // В сб. "Критерии экологической безопасности". – СПб.НЦ РАН, СПб., 1994. – с.160-162.
6. Алимов А.Ф., Андреев О.А., Астраханцев Г.П., Бударин В.Ф., Волосатов С.Э., Гришман З.М., Гронская Т.П., Гусева В.Н.,Дудин В.А., Ефремова Л.В., Игнатьева В.Н., Капустина Л.Л., Киселев В.Б., Кондратьев С.А., Коноплев В.Н., Левченко В.Ф., Малько А.М., Меншуткин В.В., Морозова И.А., Неелов И.А., Петрова Н.А., Петухов В.В., Полосков В.Н., Попов В.Л., Руховец Л.А., Савостьянова Е.Г., Савчук О.П., Семенцов В.И., Скакальский Б.Г., Снеткова О.А., Соколов А.В., Степанов М.М., Умнов А.А., Флоринская Т.М., Чикидовская Н.Д., Шумилов П.Р., Юровская Т.Н. Интегрированное управление водными ресурсами Санкт-Петербурга и Ленинградской области / опыт создания системы поддержки принятия решений. – СПб.: Borey Print, 2001. - c.214-254. ISBN 8-7987-0367-1.
7. V.Donchenko, V.Petukhov, R.Vankevich, etal. Use of GIS and simulation models for research and decision support on environmental management. / NISMIST.Management of environmental risks from landfills in seismically active regions in the New Independent States (NIS) of Central Asia. // Selected publications. An EU-INCO STRT Project, #516732. – Hamburg-Harburg, Germany, 2008. – p.93-100.
8. Донченко В.К., Петухов В.В., Ванкевич Р.Е., и др. Разработка геоинформационной системы “Полигоны твердых отходов регионов Центральной Азии”. // Материалы Конгресса ВестТейк-2007, – М, 2007. – с.56-57.
9. Sofiev, M; Vankevich, R; Lanne, M; Petukhov, V. Numerical modelling and forecasting of impact of wild-land fires on atmospheric composition. // Geophysical Research Abstracts. – Vol.
10, EGU2008-A-11647, 2008 SRef-ID: 1607-7962/gra/EGU2008-A-11647 EGU General Assembly 2008.