«В. В. Демьянов, Е. А. Савельева ГЕОСТАТИСТИКА теория и практика Под редакцией профессора, доктора физико-математических наук Р. В. Арутюняна Москва Наука 2010 УДК 91:519.8 ББК 26.8в6 Г35 Рецензенты: доктор технических ...»
РОССИЙСКАЯ АКАДЕМИЯ НАУК
Институт проблем безопасного развития атомной энергетики
В. В. Демьянов, Е. А. Савельева
ГЕОСТАТИСТИКА
теория и практика
Под редакцией
профессора, доктора физико-математических наук
Р. В. Арутюняна
Москва Наука 2010
УДК 91:519.8
ББК 26.8в6 Г35 Рецензенты:
доктор технических наук Б. И. Яцало, доктор физико-математических наук В. М. Головизнин Геостатистика: теория и практика / В. В. Демьянов, Е. А. Савельева ; под ред.
Р. В. Арутюняна; Ин-т проблем безопасного развития атомной энергетики РАН. — М. : Наука, 2010. — 327 с. — ISBN 978-5-02-037478-2 (в пер.).
В монографии подробно изложены методы геостатистики и смежных разделов пространственного моделирования. Изложение теории сопровождается примерами использования моделей в различных областях: экологии, геологии, гидрогеологии, нефтедобыче, энергетике, оценке рыбных запасов и т. п. В заключительном разделе очерчены основные направления развития современной геостатистической теории. Издание может быть использовано в качестве учебного пособия. Материал излагается с постепенным усложнением. Для закрепления полученных знаний даны вопросы и упражнения. В книгу включены приложения, позволяющие использовать ее как справочник по геостатистике.
Для ученых, инженеров и практиков, интересующихся проблемами анализа пространственных данных, студентов (геологов, географов, почвоведов, геофизиков, биологов, нефтяников, социологов и др.).
ISBN 978-5-02-037478- © Институт проблем безопасного развития атомной энергетики РАН, © Демьянов В. В., Савельева Е. А., © Редакционно-издательское оформление. Издательство «Наука», Содержание Введение
История создания книги
Цель и структура издания
Данные и примеры исследований, использованные в книге............. Литература
Глава 1. Основные задачи анализа пространственных данных.............. 1.1. Проблемы пространственного моделирования
1.2. Постановка задачи
1.3. Подходы к анализу пространственно распределенных данных
1.4. Основные этапы анализа и моделирования пространственных данных
1.5. Вопросы, возникающие при пространственном моделировании
Литература
Глава 2. Основные понятия и элементы геостатистики
2.1. Пространственно распределенные данные
2.2. Метрика в пространстве
2.3. Пространственное разрешение
2.4. Сеть мониторинга и кластерность
2.5. Декластеризация
2.6. Пространственная непрерывность
2.7. Стационарность в строгом и мягком смыслах
2.8. Геостатистическое оценивание
2.9. Проверка качества модели — кросс-валидация
Литература
Глава 3. Детерминистические методы пространственной интерполяции
3.1. Линейные интерполяторы
3.2. Полиномиальные методы
3.3. Метод базисных функций
Литература
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Глава 4. Анализ и моделирование пространственной корреляции. Вариография
4.1. Пространственная непрерывность
4.2. Меры пространственной корреляции
4.3. Построение вариограммы
4.4. Моделирование вариограммы
4.5. Поведение вариограмм на больших расстояниях
4.6. Поведение вариограмм вблизи нуля
4.7. Анизотропия вариограмм
4.8. Неоднозначность при моделировании пространственных структур при помощи вариограммы
4.9. Пространственный тренд и нестационарность
4.10 Пример анализа пространственной корреляционной структуры
Литература
Глава 5. Геостатистические интерполяции для одной переменной....... 5.1. Основные постулаты кригинга
5.2. Простой кригинг
5.3. Обычный кригинг
5.4. Универсальный кригинг
5.5. Логнормальный кригинг
5.6. Некоторые дополнительные аспекты кригинга
Литература
Глава 6. Многопеременное пространственное моделирование............ 6.1. Кригинг с внешним дрейфом
6.2. Меры корреляции и пространственной корреляции нескольких переменных
6.3. Линейная модель корегионализации
6.4. Кокригинг
6.5. Колокационный кокригинг
6.6. Анализ принципиальных компонент в геостатистике.............. Литература
Глава 7. Вероятностное моделирование локальной неопределенности
7.1. Индикаторное преобразование
7.2. Индикаторный кригинг
7.3. Примеры использования индикаторного подхода
Литература
Глава 8. Стохастическое моделирование пространственной неопределенности
8.1. Основы стохастического моделирования
8.2. Последовательный принцип моделирования
8.3. Последовательное гауссово моделирование
8.4. Обрезанное гауссово моделирование
8.5. Последовательное индикаторное моделирование
8.6. Последовательное прямое моделирование
8.7. Моделирование отжига
8.8. Объектное моделирование
8.9. Упражнения
Литература
Глава 9. Последовательный геостатистический анализ данных:
примеры исследования
9.1. Использование обычного кригинга для мониторинга радиационного загрязнения в режиме реального времени...... 9.2. Анализ неопределенности в моделировании гидрогеологической структуры
9.3. Сравнительный валидационный анализ геостатистических методов пространственного моделирования
Литература
Глава 10. Комбинированные модели ИНС и геостатистики.................. 10.1. Геостатистический анализ невязок
10.2. Пример использования кригинга невязок
10.3. Пример использования стохастического моделирования невязок
Литература
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Глава 11. Современные направления развития пространственной статистики
11.1. Пространственно-временная геостатистика
11.2. Стохастическое моделирование многоточечной статистики.... 11.3. Байесовская геостатистика
Литература
Приложения 1. Математические обозначения
2. Некоторые определения статистических понятий
3. Краткий обзор книг по геостатистике
4. Краткий обзор программного обеспечения по геостатистике...... 5. Краткий обзор информационных ресурсов по геостатистике в Интернете
6. Ответы к упражнениям
7. Глоссарий
Указатель
Введение История создания книги Авторы этой книги познакомились с геостатистикой в начале 1990-х гг.
В это время в Институте проблем безопасного развития атомной энергетики РАН по инициативе проф. М. Ф. Каневского геостатистика начала активно применяться для анализа и моделирования радиоактивного загрязнения почвы, образовавшегося в результате Чернобыльской аварии.
В течение более 10-ти лет лаборатория под руководством М. Ф. Каневского развивала геостатистические приложения для картирования пространственного загрязнения с применением методов геостатистики и искусственного интеллекта. Работы лаборатории в этом направлении поддерживались пятью грантами европейской программы Международной ассоциации содействия сотрудничеству с учеными независимых государств б. СССР (ИНТАС), грантами Civilian Research and Development Foundation (CRDF), Российского фонда фундаментальных исследований, РАН, контрактами с Министерством РФ по делам гражданской обороны, чрезвычайным ситуациям и ликвидации последствий стихийных бедствий, совместными европейскими и американскими проектами. Достижения лаборатории в области геостатистики были признаны на ведущих международных форумах (в частности, на Геостатистическом конгрессе, Конференции по математической геологии и Конференции по применению геостатистики для окружающей среды). Сотрудники лаборатории опубликовали более статей и тезисов докладов, защитили одну докторскую и три кандидатские диссертации, в ИБРАЭ РАН по этой тематике были выполнены десятки дипломных работ.
В 1999 г. Всероссийский институт научной и технической информации (ВИНИТИ) выпустил первую книгу по геостатистике на русском языке после ранней работы Ж. Матерона [1968]. Сборник ВИНИТИ, в работе над которым авторы принимали самое активное участие, представлял собой краткое изложение известных моделей геостатистики и описание их применения к картированию радиоактивного загрязнения [Каневский и др., 1999]. Несмотря на ограниченный тираж, сборник оказался очень популярВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика ным — первый и два дополнительных тиража разошлись, даже не поступив в открытую продажу. К нам приходили оклики на него от исследователей, работающих в самых различных сферах — от добычи нефти и газа до рыбного хозяйства.
За 10 лет, прошедших с момента публикации сборника, методы геостатистики нашли широкое применение в России. За это время в нашей стране было издано несколько хороших монографий и статей по этой теме на русском языке, но они ориентированы на специалистов геологов и почвоведов. Наша книга призвана привлечь к геостатистике внимание всех, кто заинтересован в проведении анализа пространственных данных. По сравнению с первым сборником авторы систематизировали описываемые методы, усилили доходчивость изложения, подобрали разнообразные примеры из различных сфер приложений, исправили опечатки и доработали материал.
Мы надеемся, что книга вызовет широкий интерес и будет хорошим подспорьем для многих российских исследователей, практиков, студентов и аспирантов.
Цель и структура издания Книга — наиболее полное изложение современной геостатистики на русском языке. Содержащийся в ней материал не предполагает специальных знаний по статистике. Теоретические положения сопровождаются большим количеством примеров. Книга может быть использована в качестве учебного пособия: в нее включен ряд упражнений и вопросов.
Издание будет интересно тем, кто сталкивается с пространственной информацией и нуждается в ее анализе, мониторинге и моделировании. Список приложений геостатистики огромен: география и геофизика, окружающая среда и экология, геология и геологоразведка включая добычу нефти и газа, эпидемиология и социология, рыбное и лесное хозяйство и т. п.
Книга состоит из Введения, 11-ти глав, 7-ми приложений и Указателя. Уровень изложения материала постепенно усложняется. Последовательное чтение книги знакомит с пошаговым исследованием пространственных данных. На каждом шаге ставятся задачи и описываются методы их решения.
В конце глав приведены списки литературы.
Глава 1 посвящена общим проблемам, связанным с пространственными данными и постановкой различных задач. Она дает общее представление о широком спектре вопросов, которые затрагивает геостатистика.
В Главе 2 введены основные понятия геостатистики и обсуждены ключевые предположения, т. е. закладывается фундамент для понимания методов, изложенных в последующих главах. В эту главу включены также понятия из смежных с геостатистикой областей, таких как анализ сети мониторинга, визуализация данных, пространственное разрешение и пр.
Детерминистические модели интерполяции, изложенные в Главе 3, не являются частью геостатистической теории, однако авторы сочли необходимым включить их в книгу, поскольку эти методы, известные задолго до разработки геостатистической теории, нашли широкое применение в практических исследованиях. Они популярны и в настоящее время, в том числе благодаря своей доступности. В то же время их простота и одновременно ограниченность являются хорошей мотивацией для использования моделей геостатистики.
Глава 4 посвящена ключевой теме геостатистики — исследованию и моделированию пространственной корреляции. Здесь подробно изложено понятие вариограммы — одно из ключевых в классической геостатистике, которое будет использоваться во всех последующих главах.
Геостатистические модели пространственного оценивания семейства кригинга подробно описаны в Главе 5, где рассмотрены различные типы кригинга и приведены примеры моделирования.
Глава 6 посвящена методам многопеременного анализа и моделирования.
В ней обсуждены проблемы совместного оценивания нескольких переменных, преимущества и недостатки многопеременных геостатистических моделей.
Вероятностное картирование и моделирование категориальных данных при помощи методов индикаторного кригинга изложены в Главе 7.
В Главе 8 излагаются методы стохастического моделирования пространственных данных. Это наиболее современные методы, находящие все большее применение в различных приложениях. В этой главе представлен весь спектр существующих подходов к стохастическому геостатистическому моделированию (некоторые модели, разработанные совсем недавно, приведены в Главе 11).
В Главу 9 включено несколько примеров исследования реальных данных при помощи геостатистических моделей, которые описаны в предыдущих В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика главах. В качестве примеров использованы данные по радиоактивному загрязнению почвы и зонированию гидрогеологических слоев. Здесь же приведен сравнительный анализ геостатистических методов на примере картирования риска превышения пороговых значений загрязнения почвы.
Глава 10 посвящена комбинированным методам геостатистики и искусственных нейронных сетей (ИНС), которые были разработаны для решения проблемы анализа и моделирования данных в присутствии нелинейного крупномасштабного тренда.
Глава 11 содержит описание некоторых наиболее перспективных, на наш взгляд, направлений развития современной геостатистики:
пространственно-временного моделирования, многоточечной статистики, теории байесовской максимальной энтропии.
В приложениях собрана дополнительная информация для облегчения работы с книгой и дальнейшего знакомства с геостатистикой. Математические символы, использованные в формулах, сведены в нотацию в Приложении 1.
Приложение 2 содержит определения базовых статистических величин, которые часто используются в книге. Таким образом, книгу можно использовать и как справочник по геостатистике. Для дальнейшего углубленного изучения геостатистики служат краткие обзоры геостатистических монографий, изданных на английском языке (Приложение 3), существующего программного обеспечения (Приложение 4), список избранных геостатистических ресурсов в Интернете (Приложение 5). В Приложении 6 собраны ответы к упражнениям из различных глав книги. Приложение 7 содержит глоссарий ключевых понятий геостатистики.
За рамками данной книги осталось достаточно много смежных тем, которые, однако, не относятся напрямую к геостатистике. Например, географические информационные системы используются в качестве инструмента для получения пространственных данных и отображения результатов моделирования. Также в книге нет описания моделей машинного обучения (искусственных нейронных сетей, машин поддерживающих векторов и др.), которые в настоящее время активно используются наряду и совместно с геостатистикой. Описание методов, основанных на обучении, и их применение для пространственного моделирования можно найти в [Kanevski, Maignan, 2004; Advanced..., 2008].
Данные и примеры исследований, использованные в книге Для иллюстрации возможностей и особенностей геостатистики помимо синтетических примеров использовались реальные данные из различных областей исследования. Мы специально старались расширить их разнообразие, чтобы показать широту возможных приложений геостатистики.
Ниже описаны основные из них.
Климатические данные. Рассматривались два набора климатических данных. Первый — данные по усредненным за 10 дней выпадениям осадков в Швейцарии в 1986 г. Эти данные распространялись в рамках международного конкурса сравнения методов пространственной интерполяции (Spatial Interpolation Comparison — SIC’97) [SIC’97]. Описание данных и полученные результаты опубликованы в [Kanevski et al., 1998; SIC’97]. Второй набор — мгновенный срез поля температуры (результат разового измерения на метеостанциях) в Приаралье. Эти данные распространялись среди участников гранта ИНТАС по Аральскому морю 1072 «Prospect for the development of natural-economic resources in the Kazakh Priaralie». Некоторые результаты их анализа представлены в [Kanevski et al., 2005].
Чернобыльское загрязнение почвы. Данные по загрязнению почвы 137Cs и Sr в Брянской области были первыми, на которых авторы использовали геостатистические методы и отрабатывали геостатистическую методологию в приложении к анализу пространственного загрязнения. Эти данные использовались во многих их работах [Kanevsky et al., 1996; Savelieva et al., 1998; Savelieva et al., 2005]. Авторы благодарны сотрудникам ИБРАЭ РАН С. В. Панченко, О. А. Павловскому и И. И. Линге за предоставленные данные и помощь в их обработке и интерпретации. Работы по анализу этих данных были поддержаны международными грантами CRDF RG2-2236, INTAS 94-2361 и ИНТАС INTAS 97-31726.
Загрязнение почвы и донных отложений. Кроме данных по загрязнению радиоактивными изотопами почвы в результате Чернобыльской аварии, для иллюстрации использовались данные по пространственному загрязнению радиоактивными изотопами и тяжелыми металлами. Анализ данных по загрязнению 241Am проводился в рамках совместных исследований ИБРАЭ РАН и Sandia National Laboratory по программе РАН и Министерства энергетики США [Kanevski et al., 2002; Kanevski et al., 2006]. Данные по загрязнению тяжелыми металлами донных отложений Женевского озера были получеВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика ны в рамках сотрудничества по программе ИНТАС (гранты INTAS 96-1957и INTAS 99-00099) [Parkin et al., 2001].
Гидрогеологические данные. Приведен пример моделирования гидрогеологического осадочного слоя в рамках гидрогеологической системы из 10-ти слоев, а также зонирования гидрогеологического слоя. Анализ этих данных проводился в рамках совместных исследований ИБРАЭ РАН и Pacific Northwest National Laboratory по программе РАН и Министерства энергетики США [Savelieva et al., 2002].
Электропотребление. В Главе 10 рассмотрен пример использования геостатистики для описания неопределенности прогноза временного ряда по электропотреблению в Московском регионе. Данные по электропотреблению были предоставлены «Энергосбытом» «Мосэнерго» [Арутюнян и др., 1999]. Работа проводилась в рамках соглашения о научно-техническом сотрудничестве между ОАО «Энергосбыт» «Мосэнерго» и ИБРАЭ РАН.
Распределение популяции крабов. В качестве иллюстрации применения нелинейных методов геостатистики использовались данные траловых съемок пространственного распределения различных видов крабов (краб опилио, краб Берди и камчатский краб). Данные получены от Всероссийского НИИ рыбного хозяйства и океанографии (ВНИРО) для проведения совместных исследований [Savelieva et al., 2007]. Авторы благодарны С. М. Гончарову и В. А. Бизикову за предоставленные данные и продуктивное обсуждение полученных результатов.
Издание этой книги было бы невозможно без поддержки и помощи широкого круга людей в России и за рубежом. В первую очередь авторы глубоко признательны проф. М. Ф. Каневскому — нашему бывшему научному руководителю и другу — за приобщение нас к геостатистике и бесценный опыт многолетней совместной работы, а также за глубокие обсуждения и идеи, многие из которых нашли место в этой книге. Мы рады возможности поддерживать постоянные научные контакты и вести совместные исследования с М. Ф. Каневским, который руководит Институтом геоматики и анализа риска в Университетe Лозанны (IGAR, University of Lausanne), Швейцария.
При написании книги мы также использовали материалы книги, изданной М. Ф. Каневским на английском языке [Kanevski, Maignan, 2004], и сборника под его редакцией [Advanced..., 2008].
Издание нашей книги было поддержано ИБРАЭ РАН. Авторы благодарны чл.-кор. РАН проф. Л. А. Большову и проф. Р. В. Арутюняну за поддержку и помощь.
Авторы благодарны сотрудникам лаборатории моделирования окружающей среды и системных исследований С. Ю. Чернову и В. А. Тимонину за разработку пакета программ «Геостат Офис», который был незаменим в нашей научной деятельности и активно использовался для работы над настоящей книгой [Kanevski, Maignan, 2004]. Также авторы признательны коллегам и студентам ИБРАЭ РАН за участие в обсуждениях различных аспектов геостатистики и их приложений.
В. В. Демьянов благодарен проф. М. Кристи (M. Christie) из Университета Хериот-Ватт (Heriot-Watt University), Великобритания, за поддержку при написании книги, советы и помощь в научных исследованиях. Также В. В. Демьянов признателен проф. П. Корбетту (P. Corbett), который ведет курс геомоделирования в Университете Хериот-Ватт, за полезные обсуждения и идеи.
В работе над книгой авторам помогали курсы лекций, которые они читают студентам. Курс «Методы анализа данных» для студентов III курса МФТИ читает Е. А. Савельева в ИБРАЭ РАН. В. В. Демьянов читает курс прикладной геостатистики для студентов-магистров в Институте нефтяного инжиниринга (Institute of Petroleum Engineering) Университета Хериот-Ватт.
Авторы благодарят коллегу и старого друга проф. М. Майгнана (M. Maignan) из Университета Лозанны за многолетнее сотрудничество, поддержку и обсуждение проблем геостатистики. Авторы признательны проф. Д. Кристакосу (G. Christakos) из Университета Сан-Диего, США, за многолетнее сотрудничество, помощь в освоении теории байесовской максимальной энтропии и предоставление пакета программ ВМЕlib для исследований, результаты которых приведены в настоящей книге [Christakos, 2000; Christakos et al., 2002]. Авторы также благодарны проф. Дж. Каерсу (J. Caers) и Стэнфордскому центру прогнозирования месторождений (SCRF, Stanford University, USA) за возможность использования моделей многоточечной статистики [SGeMS] и помощь в их освоении.
Литература Арутюнян Р. В., Богданов В. И., Большов Л. А. и др. Прогноз электропотребления: Анализ временных рядов, геостатистика, искусственные нейронные сети. — М., 1999. — 45 с. — (Препринт ИБРАЭ; IBRAE-99-05).
Каневский М., Демьянов В., Савельева Е. и др. Элементарное введение в геостатистику. — М., 1999. — 136 с. — (Проблемы окружающей среды и природных ресурсов / ВИНИТИ; № 11).
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Матерон Ж. Основы прикладной геостатистики. — М.: Мир, 1968. — 407 с.
Advanced Mapping of Environmental Data: Geostatistics, Machine Learning and Bayesian Maximum Entropy / Ed. M. Kanevski; ISTE Ltd. — [S. l.], 2008. — 313 p.
Christakos G. Modern Spatiotemporal Geostatistics. — New York: Oxford Univ. Press, 2000.
Christakos G., Bogaert P., Serre M. Temporal GIS: Advanced Functions for Field-Based Applications. — [S. l.]: Springer, 2002. — 250 p.
Kanevski M., Arutyunyan R., Bolshov L. et al. Geostatistical Portrayal of the Chernobyl Fallout // Geostatistics Wollongong ’96 / Ed. E. Y. Baafi, N. A.
Schofield. — [S. l.]: Kluwer Academic Publ., 1996. — Vol. 2. — P. 1043— 1054.
Kanevski M., Demyanov V., Chernov S. et al. Neural Network Residual Kriging Application For Climatic Data // The J. of Geographic Information and Decision Analysis (GIDA). — 1998. — Vol. 2, N 2.
Kanevski M., Maignan M. Analysis and modelling of spatial environmental data. — Lausanne: EPFL Press, 2004. — 288 p. — (With a CD and educational/research MS Windows software tools) (http://www.ppur.org/ auteurs/1000772.html).
Kanevski M., Pozdnukhov A., McKenna S. et al. (Transductive decisionoriented mapping of environmental data // Proceedings of IAMG conference, September 2002, Berlin, Germany. — [S. l.], 2002. — P. 519— 524.
Kanevski M., Pozdnukhov A., Tonini M. et al. Statistical Learning Theory for Geospatial Data. Case study: Aral Sea // 14th European colloquium on Theoretical and Quantitative Geography. Portugal, September 2005. — [S. l.], 2005.
Kanevski M., Demyanov V., Savelieva E. et al. Validation of Geostatistical and Machine Learning Models for Spatial Decision-Oriented Mapping // Proceeding of StatGIS 99 / Ed. J. Piltz, J. Heyn. — Klagenfurt, 2006.
Parkin R., Kanevski M., Maignan M. et al. Multivariate Geostatistical Mapping of Contamination in Geneva Lake Sediments: Case Study with Multigeo. — Moscow: Nuclear Safety Inst. RAS, 2001. — (Препринт / ИБРАЭ; IBRAE-01-4).
Savelieva E., Bizikov V., Goncharov S. et al. Stochastic Simulations for Assessment of Uncertainty of Spatial Distribution and Biomass of Marine Living Resources // Proceedings of the Sixth European Conference on Ecological Modelling, Triest, Italy, 27—30 November 2007. — [S. l.], 2007.
Savelieva E., Demyanov V., Kanevski M. et al. BME Based Uncertainty Assessment of the Chernobyl Fallout // Geoderma. — 2005. — Vol. 128. — P. 312—324.
Savelieva E., Kanevski M., Demyanov V. et al. Conditional Stochastic Cosimulations of the Chernobyl Fallout // geoENV II — Geostatistics for Environmental Applications / Ed. J. Gomez-Hernandez, A. Soares, R. Froidevaux. — [S. l.]: Kluwer Academic Publishers, 1998. — Р. 453—464.
Savelieva E., Kanevski M., Timonin V. et al. Uncertainty in the hydrogeologic structure modeling // Proceedings of IAMG2002 conference, September 2002, Berlin, Germany. — [S. l.], 2002. — Р. 481—486.
S-GeMS The Stanford Geostatistical Modeling Software (S-GeMS) // http:// sgems.sourceforge.net.
SIC’97 Spatial Interpolation Comparison Exercise 1997 // http://www.aigeostats.org/index.php?id=45.
Глава Основные задачи анализа пространственных данных В этой главе мы начнем с постановки задачи при анализе и моделировании пространственных данных и приведем примеры типовых задач. В разделе 1. приведен обзор общих подходов к пространственному моделированию, кратко описана история создания и развития геостатистики. В разделе 1. представлена методология последовательного анализа и моделирования пространственных данных. В разделе 1.5 приведен список типовых вопросов и ответов по проблемам пространственных данных, которые будут подробно освещены в последующих главах книги.
1.1. Проблемы пространственного моделирования В 1986 г. произошел выброс радиоактивных веществ из реактора на Чернобыльской АЭС. Радиоактивное загрязнение распространилось по воздуху на сотни километров и затронуло многие европейские страны [De Cort, Tsaturov, 1996]. Измерения радиоактивного загрязнения почвы проводились во многих местах. Встали вопросы: Как построить карту загрязнения? Можно ли обойтись простыми методами интерполяции? Можно ли дать однозначный ответ о том, где проходит граница повышенного уровня загрязнения? На эти и многие другие вопросы могут дать ответ анализ и моделирование пространственных данных с использованием статистических методов [Kanevski et al., 1996; Kanevski et al., 1997; Каневский и др., 1999б].
Существует огромное количество пространственно распределенной информации, собранной в базы и банки данных по окружающей среде. Задача ее интерпретации, анализа и дальнейшего использования представляется чрезвычайно важной и требует комплексного системного подхода. Статистическое моделирование пространственных явлений позволяет обобщить имеющиеся измерения и получить модель их распределения в пространстве.
Наиболее распространенной проблемой при работе с пространственно распределенными данными является получение пространственной оценки. Так, было подготовлено много различных карт по радиоактивному загрязнению почвы в результате Чернобыльской аварии [De Cort, Tsaturov, 1996]. При этом оставался открытым вопрос о качестве и точности этих карт, неопределенности оценки, чувствительности использованных методов интерполяции и т. п.
Пространственное моделирование применяется во многих сферах человеческой деятельности. Так, при климатическом моделировании анализируются измерения температуры, осадков, скорости ветра и т. д. в различных точках пространства. При моделировании загрязнения окружающей среды используются измерения (пробы грунта, воды, воздуха, дистанционное зондирование) в различных местах. В задачах геологии моделируются свойства пород в промежутке между скважинами, где делаются измерения.
В медицинской географии анализируются факторы, влияющие на уровень заболеваний, и моделируется распространение эпидемий. Пространственно распределенные данные используются при моделировании запасов полезных ископаемых и рыбных ресурсов, криминогенной ситуации и природных катастроф (оползней, лавин и пр.).
Глубокий анализ и моделирование пространственных данных требуют применения комплексного подхода и различных методов, характеризующих ту или иную особенность явления. Сложность такого анализа обусловлена несколькими факторами: наличием больших объемов количественной и качественной информации по исследуемому явлению, многомасштабностью и многопеременностью, наличием различных факторов влияния.
Мы опишем элементы методологии геостатистического анализа пространственно распределенных данных и приведем примеры исследования с применением этих методов для реальных данных, связанных с загрязнением окружающей среды, климатическими условиями, геомоделированием свойств пород, гидрогеологией, моделированием рыбных ресурсов.
1.2. Постановка задачи При работе с пространственными данными обычно имеется некоторое количество измерений изучаемой переменной в различных точках, число которых ограниченно. Итак, есть область, на которой проведен ряд измерений некоторой величины Z. Эти измерения проведены в произвольно распредеВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика ленном по области наборе точек (x, y), которые мы будем называть сетью мониторинга (рис. 1.1). Но есть и участки области, не покрытые измерениями, о значениях величины Z в которых хотелось бы получить информацию. Наиболее часто требуется оценить значение наблюдаемой величины в непромеренной точке X на основе имеющихся данных, т. е. решить задачу интерполяции.
Данные измерений, как правило, дискретны и пространственно неоднородно распределены. Анализ данных и его результаты зависят от качества и количества исходных данных, от методов и моделей обработки данных.
Рис. 1.1. Постановка задачи пространственного оценивания Приведем здесь ряд конкретных задач, для решения которых необходимо применение комплекса исследований с помощью методов геостатистики — статистики пространственно распределенной (региональной) информации:
• оценить значение в точке, где измерение не проводилось;
• нарисовать карту, построить изолинии (определить значения на плотной сетке);
• оценить ошибку интерполяционной оценки;
• оценить значение переменной, по которой мало измерений, используя значения другой коррелированной с ней переменной, по которой проведено много измерений;
• определить вероятность того, что значения наблюдаемой переменной превысят заданный уровень в интересующей нас области;
• получить набор равновероятных стохастических пространственных реализаций распределения наблюдаемой переменной.
Первые три задачи — примеры задач регрессии или классификации (в зависимости от типа исходных значений). Две последние задачи относятся к вероятностному анализу и связаны с оценками риска. Отдельные главы данной книги будут посвящены решению этих задач.
1.3. Подходы к анализу пространственно распределенных данных Существует несколько подходов к анализу и обработке пространственно распределенных данных, которые можно условно разделить на три группы:
• детерминистические модели (интерполяторы) — линейная интерполяция на основе триангуляции, метод обратных расстояний в степени, мульти-квадратичные уравнения и т. п. [Каневский и др., 1999б];
• геостатистика — модели, базирующиеся на статистической интерпретации данных [Journel, Huijbregts, 1978];
• алгоритмы, основанные на обучении — искусственные нейронные сети, генетические алгоритмы, статистическая теория обучения машин векторов поддержки (Support Vector Machines) [Vapnik, 1998].
Конечно, это деление до известной степени условно. Так, геостатистические модели можно изложить в детерминистической формулировке, и наоборот, некоторые детерминистические модели имеют близкие статистические аналоги. В свою очередь, статистический подход, на котором базируется геостатистика, включает регрессионные модели пространственных интерполяций (предсказаний) и методы стохастического моделирования, цели и задачи которых различны. Алгоритмы, основанные на обучении (или искусственный интеллект), также имеют статистическую интерпретацию.
Современная геостатистика — это широкий спектр статистических моделей и инструментов для анализа, обработки и представления пространственно распределенной информации [Cressie, 1991]. Ниже мы подробно опишем наиболее часто используемые модели и инструменты, из которых можно составить замкнутый цикл исследования и решить поставленные выше задачи.
Традиционные детерминистические методы, широко используемые для пространственной интерполяции, позволяют решать только первую и вторую задачи из приведенного выше списка. Геостатистическая теория позволяет решать весь набор задач, в том числе оценить неопределенность оценки и описать ее вариабельность.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Геостатистика возникла в начале 1960-х гг. как теория региональных переменных, сформулированная Ж. Матероном (Matheron) для анализа данных о природных ископаемых (горнорудное дело) [Matheron, 1963; Матерон, 1968]. Он организовал Центр геостатистики в Фонтенбло. Этот центр внес заметный вклад в теоретические исследования и их практические применения.
Независимо от Ж. Матерона и практически в то же время Л. С. Гандин сформулировал теорию оптимальной интерполяции для объективного анализа метеополей [Гандин, Каган, 1976]. В этой теории также приведены основы теории геостатистической. К сожалению, последующие работы российских ученых в этой области не нашли в то время широкой поддержки [Вистелиус, 1984, 1986].
Современная геостатистика — это быстро развивающаяся область прикладной статистики с огромным набором методов, линейных и нелинейных, параметрических и непараметрических моделей для анализа, обработки и представления пространственной информации. Спектр ее применения весьма широк — от традиционного использования в области добычи ископаемых до современных приложений в экономике, финансах, окружающей среде, эпидемиологии [Goovaerts, 1997; Wackernagel, 1995]. В Приложении 3 приведен краткий обзор книг по геостатистике на английском языке.
Геостатистический анализ позволяет значительно повысить уровень надежности и качество решений, принимаемых на основе использования пространственно распределенной информации. Современные тенденции геостатистики связаны с развитием методов стохастического моделирования (пространственных аналогов методов Монте-Карло), методов, основанных на многоточечной статистике, гибридных моделей с использованием алгоритмов искусственного интеллекта, с использованием дополнительной информации различного вида и приложениями в области обработки и передачи изображений, с расширением на временной и пространственновременной анализы и многими направлениями [Kanevski et al., 2007]. Некоторые из продвинутых методов, разработанных в последние годы, описаны в Главе 11.
Одним из важных составляющих традиционной геостатистики является пространственный корреляционный анализ, или вариография. Несмотря на кажущуюся простоту исходных формул, вариография позволяет сделать глубокие выводы о статистической природе данных и структуре адекватных моделей. В принципе экспериментальная вариография, основанная на исходных данных, может быть использована в большинстве задач пространственного оценивания независимо от метода интерполяции наравне с традиционным статистическим анализом.
1.4. Основные этапы анализа и моделирования пространственных данных Первым и весьма важным этапом исследования является современный статистический анализ данных, позволяющий определить наличие ошибок и выбросов (outliers) в данных, оценить базовые статистические закономерности, провести корреляционный анализ при наличии нескольких переменных и т. п.
Если данные собраны на нерегулярной кластерной сети мониторинга, может потребоваться пространственная декластеризация для получения репрезентативной глобальной статистики — средних, вариаций, гистограмм.
Если сеть мониторинга имеет зоны с заметно более высокой плотностью измерений, чем остальная область, то сеть мониторинга кластерная. Если при этом зоны повышенной плотности измерений характеризуются более высокими (или, наоборот, низкими) значениями измерений, возникает необходимость в декластеризации. Иначе оценки всех статистических характеристик будут искажены, например оценка среднего будет завышена (или, наоборот, занижена). Процедура декластеризации ориентирована на устранение такого рода искажений. Можно рассматривать два основных типа декластеризации — выборочную и весовую. Выборочная декластеризация связана с выбором части данных из кластеров, весовая предполагает задание весов, с которыми используются измерения. Подробнее кластерность и декластеризация рассмотрены в Главе 2.
Оценить некоторые пространственные особенности данных позволяет статистика с движущимся окном: область разбивается на подобласти, в каждой из которых проводится независимый статистический анализ.
Дальнейший пространственный анализ предполагает исследование и моделирование пространственной корреляции между данными по одной или нескольким переменным. Мерой пространственной корреляции является вариограмма — статистический момент второго порядка.
Для получения наилучшей в статистическом смысле пространственной оценки используются модели из семейства кригинга (kriging) — наилучшего линейного несмещенного оценивателя (best linear unbiased estimator — BLUE).
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Кригинг является «наилучшим» оценивателем в статистическом смысле в классе линейных интерполяторов — его оценка обладает минимальной вариацией ошибки. Важное свойство кригинга — точное воспроизведение значений измерений в имеющихся точках (точный оцениватель).
В отличие от многочисленных детерминистических методов, оценка кригинга сопровождается оценкой ошибки интерполяции в каждой точке.
Полученная ошибка позволяет охарактеризовать неопределенность полученной оценки данных при помощи доверительных интервалов или «толстых» изолиний.
При применении любой модели интерполяции встает вопрос о подборе оптимальных модельно-зависимых параметров. Легко показать, что даже в случае использования одного и того же метода интерполяции можно получить качественно разные результаты в зависимости от выбора модельных параметров. Выбор оптимальных параметров опирается на пошаговое исследование характера и структуры данных. Эффективными инструментами подбора модельных параметров являются методы кросс-валидации (crossvalidation), складного ножа (jack-knife), бутстреп (bootstrap) [Armstrong, 1997]. Все они основаны на проведении оценки для части точек измерений, выбранных из основного набора по остальным данным с последующим вычислением ошибки оценки. После оценок по всем точкам, наборам или выборкам оценивается среднеквадратичная ошибка полученных оценок.
По ней сравниваются различные методы или выбираются наилучшие параметры метода. В геостатистике традиционно более широко используется кросс-валидация.
При проведении анализа реальных данных эксперты часто сталкиваются с проблемой малого количества измерений по интересующей переменной, например вследствие их дороговизны или небезопасности взятия проб.
При этом в наличии может оказаться большое (избыточное) количество «дешевых» измерений переменной, которая достаточно сильно коррелированна с основной. Встает вопрос, как можно использовать «дешевую»
информацию для улучшения оценки переменной, информация по которой «дорога». В рамках многопеременной геостатистики существует модель совместной пространственной интерполяции нескольких коррелированных переменных — кокригинг. Кокригинг позволяет значительно улучшить качество оценки, перейти из области экстраполяции в область интерполяции, уменьшить ошибку оценки за счет использования дополнительной «дешевой» информации по коррелированным переменным.
Часто результатом пространственного анализа данных в рамках квалифицированной поддержки принятия решений являются вероятностные карты.
Вероятностное картирование дает возможность оценить уровень риска по превышению или непревышению заданного уровня значения пространственной переменной. Оно также используется при оптимизации решений, когда пространственный анализ данных является только промежуточным этапом. В рамках геостатистики для вероятностного картирования используются нелинейные модели кригинга, в частности индикаторный кригинг.
Он позволяет рассчитать локальную функцию распределения в точке оценивания. В качестве результатов составляются карты вероятности, карты средних оценок, карты оценок с заданной вероятностью превышения, которые используются в процессе принятия решений.
Применение различных детерминистических или геостатистических моделей интерполяции/оценивания всегда дает единственное и сглаженное, не воспроизводящее изначальную вариабельность данных значение оценки в интересующей точке при выбранных модельных параметрах. Стохастическое моделирование является альтернативным подходом, дающим возможность воспроизвести исходную вариабельность и получить сколь угодно много равновероятных реализаций пространственной функции в области.
Равновероятные реализации позволяют описать пространственную вариабельность (изменчивость) и неопределенность пространственной функции, оценить вероятности и риск. При использовании стохастического моделирования удается избежать «сглаженной» картины оценки, которая присуща большинству моделей интерполяции. Это позволяет получать корректные результаты в таких задачах, как, например, расчет объема нефтяного резервуара, «длины» береговой линии и т. п.
На основе описанных этапов анализа и моделирования пространственных данных можно сформулировать блок-схему пошагового анализа (рис. 1.2).
В ее основе лежит методология, опробованная в различных исследованиях, в том числе и на данных радиоактивного Чернобыльского загрязнения [Каневский и др., 1999a, б]. На основе аналогичной блок-схемы был создан пакет программ «Геостат Офис», включающий набор моделей для пространственного анализа и картирования данных [Kanevski, Maignan, 2004]. Мы будем следовать этой методологии и подробно опишем спектр алгоритмов, которые можно применить на каждом этапе.
Обучаемые статистические модели, такие как искусственные нейронные сети и машины поддерживающих векторов (support vector machines), можВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика но использовать наряду с геостатистическими моделями для решения задач пространственной регрессии и классификации [Kanevski, Maignan, 2004;
Advanced..., 2008]. Подробное описание этих моделей выходит за рамки настоящей книги. Однако некоторые примеры совместного использования геостатистики и ИНС разобраны в Главе 10.
описание Вариография Кросс-валидация Геостатистическое оценивание Рис. 1.2. Блок-схема методологии последовательного анализа и моделирования пространственно-распределенных данных 1.5. Вопросы, возникающие при пространственном моделировании Какое разрешение имеет сеть мониторинга Анализ сети мониторинга проводится с и какие явления она может обнаружить? привлечением фрактальных моделей, геометрических характеристик, статистических Как описать количество и качество Наряду со средствами традиционной имеющейся информации и составить статистики используется пространственная репрезентативное корректное статисти- статистика движущегося окна и методы Имеет ли смысл задача интерполяции? При отсутствии пространственной корреляции между данными получение оценки в Как выявить и смоделировать простран- Исследовать и моделировать пространственственную непрерывность данных на ную корреляцию данных с учетом возможразличных масштабах? ной нестационарности и анизотропии при Как получить наилучшую в статистиче- Применить модель из семейства кригинском смысле оценку значения простран- га — наилучших несмещенных линейных ственной переменной в точке, где измере- оценивателей (см. Главу 5) ния отсутствуют? Как оценить ошибку полученной оценки? Как построить карты оценок и ошибок оценки?
Как учесть при интерполяции ошибки Геостатистическое оценивание позволяет измерений? учесть ошибку измерений и ее пространственное распределение при интерполяции Как подобрать оптимальные параметры Методы кросс-валидации, складного ножа, модели интерполяции? бутстрепа позволяют эффективно подобрать Как использовать избыточную «дешевую» Провести совместный анализ и интерполяинформацию для улучшения оценки пере- цию нескольких коррелированных переменменной, измерения которой «дороги»? ных при помощи многомерных геостатистических моделей (кокригинг) (см. Главу 6) Как получить оценку вероятности превы- Метод вероятностного картирования — шения заданного уровня значений индикаторный кригинг (см. Главу 7) (провести оценку риска)?
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Как получить не единственную оценку Стохастическое моделирование позволяет функции в точке, построить равноверо- получить множество равновероятных реаятные реализации пространственного лизаций функции и оценивать на их основе Как избежать «сглаженной» оценки и вос- Стохастическое моделирование дает несглапроизвести изначальную вариабельность женную картину и воспроизводит исходные Как оптимизировать сеть мониторинга? Эта задача решается путем геостатистического анализа существующей сети и оптимизации функции стоимости для получения Какие модели можно использовать, если Одним из эффективных подходов представв данных измерений присутствуют ляется применение искусственных нейронкрупномасштабный тренд, периодичность, ных сетей (ИНС). В процессе обучения ИНС Пространственно-временной прогноз — Геостатистические модели оценивания могут как одновременно смоделировать данные по пространству и времени? континууме с использованием пространственной и временной компонент модели Как учесть дополнительную априорную Применить байесовские модели или модели информацию о наблюдаемой переменной интеграции данных (см. Главу 11) и/или о подобных явлениях?
Перечисленные проблемы успешно решались авторами в процессе анализа данных по радиоактивному загрязнению почвы, данных по химическому загрязнению донных отложений Женевского озера, распределению популяции рыбы в море, климатических данных (температуры, осадков), данных по моделированию гидрогеологической структуры, данных по электропотреблению и др. Перечисленные данные используются в книге для иллюстрации использования геостатистических методов.
Литература Вистелиус А. Б. Математическая геология: история, состояние, перспективы. — Л., 1984. — 53 с. — (Препринт / ЛОМИ; Р-10-84).
Вистелиус А. Б. Математическая геология и ее вклад в фундаментальные геологические разработки. — Л., 1986. — 27 с. — (Препринт / ЛОМИ; Р-5-86).
Гандин Л. С., Каган Р. Л. Статистические методы интерполяции метеорологических данных. — Л.: Гидрометеоиздат, 1976. — 359 с.
Каневский М., Демьянов В., Савельева Е. и др. Элементарное введение в геостатистику. — М., 1999а. — 136 с. — (Проблемы окружающей среды и природных ресурсов / ВИНИТИ; № 11).
Каневский М., Демьянов В., Чернов С. и др. Геостатистика и искусственные нейронные сети для анализа и моделирования пространственно распределенных данных // Изв. РАН. Энергетика. — 1999б. — № 1.
Матерон Ж. Основы прикладной геостатистики. — М.: Мир, 1968. — 407 с.
Advanced Mapping of Environmental Data: Geostatistics, Machine Learning and Bayesian Maximum Entropy / Ed. M. Kanevski; ISTE Ltd. — [S. l.], 2008. — 313 p.
Armstrong M. Basic Linear Geostatistics. — [S. l.]: Springer Verl., 1997.
Cressie N. Statistics for spatial data. — New York: John Wiley & Sons, 1991. — 900 p.
De Cort M., Tsaturov Yu. S. Atlas on caesium contamination of Europe after the Chernobyl nuclear plant accident / European Commission. — [S. l.], 1996. — 39 p. — (Report EUR 16542 EN).
Goovaerts P. Geostatistics for Natural Resources Evaluation. — [S. l.]:
Oxford Univ. Press, 1997.
Isaaks E. H., Srivastava R. M. An Introduction to Applied Geostatistics. — Oxford: Oxford Univ. Press, 1989.
Journel A. G., Huijbregts Ch. J. Mining Geostatistics. — London: Academic Press, 1978. — 600 p.
Kanevsky M., Arutyunyan R., Bolshov L. et al. Geostatistical Portrayal of the Chernobyl Fallout // Geostatistics Wollongong ’96 / Ed. E. Y. Baafi, N. A. Schofield. — [S. l.]: Kluwer Academic Publ., 1996. — Vol. 2. — Р. 1043—1054.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Kanevsky M., Arutyunyan R., Bolshov L. et al. Chernobyl Fallouts: Review of Advanced Spatial Data Analysis // geoENV I — Geostatistics for Environmental Applications / Ed. A. Soares, J. Gomez-Hernandes, R. Froidvaux. — [S. l.]: Kluwer Academic Publ., 1997. — Р. 389—400.
Kanevski M., Maignan M. Analysis and modelling of spatial environmental data. — Lausanne: EPFL Press, 2004. — 288 p. — (With a CD and educational/research MS Windows software tools) (http://www.ppur.org/ auteurs/1000772.html).
Matheron G. Principles of Geostatistics // Economic Geology. — 1963. — Vol. 58. — P. 1246—1266.
Vapnik V. N. Statistical Learning Theory. — New York: John Wiley & Sons, Inc., 1998. — 736 p.
Wackernagel H. Multivariate Geostatistics. — Berlin: Springler-Verl., 1995.
Глава Основные понятия и элементы геостатистики Эта глава посвящена базовым понятиям и предположениям геостатистики, а также смежных областей. В разделе 2.1 даны определения пространственно распределенных данных, с которыми работает геостатистика.
В Разделах 2.2—2.5 сделан экскурс в смежные области, связанные с пространственными данными: метрику пространства, пространственное разрешение, описание сети мониторинга, декластеризацию. Раздел 2.6 посвящен одному из важнейших понятий геостатистики — пространственной непрерывности. Различные виды стационарности и связанные с ними предположения описаны в Разделе 2.7. В Разделе 2.8 речь идет об основной модели геостатистического оценивания — кригинге. Раздел 2.9 посвящен кроссвалидации и другим методам проверки качества моделей.
2.1. Пространственно распределенные данные При анализе данных различных измерений часто крайне трудоемко или вовсе невозможно получить формульный закон распределения данных на основе физических процессов, обуславливающих соответствующие явления. Альтернативный подход — статистическое (а не детерминистическое) описание пространственного распределения. В отличие от детерминистических методов геостатистические оценки опираются на информацию о внутренней структуре данных, зависят от самих данных, т. е. являются адаптивными. Геостатистика базируется на статистической интерпретации данных. Предполагается, что данные измерений z(xi) являются реализациями случайных переменных Z(xi), которые описываются некоторыми функциями распределения. Это, однако, не означает, что природа самого процесса является случайной. Чтобы использовать геостатистику, необходимо определить пространственную корреляционную структуру поля Z(x), задаваемую всеми случайными переменными в области исследования. Геостатистический подход позволяет исходить при анализе из строгих критериев.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Предметом анализа геостатистики являются пространственные переменные (или регионализованные переменные — regionalised variables), что аналогично переменным с координатной привязкой. Примеры пространственных переменных: количество осадков, плотность населения в некоторой географической области, мощность геологической формации, плотность загрязнения почвы, среднее потребление электроэнергии в определенный час и т. п.
Пространственные переменные не следует путать со случайными величинами, изучаемыми методами обычной статистики.
Случайная функция определяется как набор обычно зависимых между собой случайных переменных Z(xi), по одной для каждого местоположения xi в рассматриваемой области. Любому набору из N местоположений можно поставить в соответствие N случайных переменных которые характеризуются N-мерной условной функцией распределения:
Понятие случайной величины в классической статистике имеет конкретный смысл только при соблюдении следующих условий:
1) должна быть хотя бы теоретическая возможность бесконечного повторения испытаний (реализаций), в результате которых случайная величина приобретает численные значения;
2) результат каждого из испытаний должен быть независим от результатов всех предыдущих испытаний.
Пространственная переменная не удовлетворяет ни одному из этих условий. Если, например, испытание состоит в отборе пробы в точке x, то содержание искомого вещества в такой пробе будет единственным, физически определенным и ни в коей мере не случайным. Нет никакой возможности повторить такое испытание, поскольку проба в конкретной точке уже взята, что влечет невыполнение условия 1. Однако есть возможность отобрать новую пробу в непосредственной близости от точки x, что можно в приближении принять за выполнение условия 1. Но тогда нарушается условие 2:
если первая проба отобрана в обогащенной зоне, то вторая проба, взятая в непосредственной близости от первой, как правило, будет иметь высокое содержание. Таким образом, испытания оказываются зависимыми.
В дальнейшем мы будем использовать для удобства привычный в статистике термин случайной величины, понимая под ней пространственную регионализованную переменную и учитывая вышеописанные особенности.
Наблюдаемая переменная может быть непрерывной (например, любая физическая величина — плотность, давление, концентрация и т. п.) или катеГлава гориальной (например, временной бинарный сигнал или тип почвы либо геологической породы). Для анализа переменных разного типа естественно использовать различные подходы.
2.2. Метрика в пространстве Мы будем рассматривать так называемые регионализованные данные, а именно измерения, обладающие координатной привязкой. Координатная привязка может быть:
• пространственной, определяющей географическое положение измерения (географические координаты) в пространстве или его относительное положение по отношению к другим объектам (специальная координатная система для определенной местности);
• временной, определяющей время проведения измерения (абсолютное или относительное);
• пространственно-временной, т. е. и пространственной, и временной одновременно.
Основное требование к координатной системе — ее метричность, т. е. координаты должны сопровождаться метрикой, возможностью вычислять расстояния между точками. В большей части книги, если иное не оговорено, для простоты будем предполагать, что мы работаем в двумерном евклидовом пространстве R2, где метрика такова, что расстояние между точками пространства X1 = (x1, y1) и X2 = (x2, y2) определяется евклидовой нормой:
Введение третьей пространственной координаты идеологически не добавляет ничего, кроме усложнения выкладок, связанных с введением дополнительных направлений в пространстве и различием масштабов вертикальной координаты по сравнению с горизонтальными. Евклидово расстояние между точками X 1 = ( x11,..., x1n ) и X 2 = ( x21,..., x2 n ) в n-мерном пространстве вычисляется аналогично двумерному случаю:
Введение дополнительной временной координаты и проблемы построения ’го континуума будут рассмотрены в Главе 10, попространственно-временно священной развитию пространственно-временной геостатистической теории.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Различие масштабов связано с измерениями: например, если рассматривать распространение загрязнения в почве, то горизонтальные пространственные области распространяются на десятки километров (104—105 м), в то время как рассматриваемая глубина при анализе почвы не превышает 0,3 м, а геологические слои могут иметь толщину от нескольких сантиметров до сотен метров. При работе с такими различными масштабами обычно производится нормировка координат — переход к другой системе, где размерности соизмеримы, например линейное преобразование на отрезок (0, 1).
Пространственная переменная всегда определена в конкретной области пространства — в геометрическом поле. Пространственную переменную V можно рассматривать как функцию точки пространства x: Z = Z(x). Однако чаще интерес представляют не точечные, а средние значения величины Z(x) в пределах малой области пространства — геометрической базы (support).
Например, для такого признака, как содержание чего-либо в грунте, геометрической базой является объем пробы. База должна быть определена весьма точно. Необходимо знать ее объем, форму и ориентацию в пространстве. Если изменяется геометрическая база, то возникает новая пространственная переменная, близкая к предыдущей, но не совпадающая с ней:
Теория пространственных переменных, которая называется геостатистикой, позволяет предсказывать характеристики переменной Z*, связанной с геометрической базой в поле S, по известным характеристикам другой точечной переменной V, заданной в поле X, отличном от поля S. Эта возможность составляет одно из важнейших преимуществ названной теории.
2.3. Пространственное разрешение Одним из ключевых свойств пространственно распределенных данных является их пространственное разрешение. При исследовании того или иного пространственного явления очень важно, чтобы имеющиеся данные могли адекватно отразить его. Обычно под пространственным разрешением понимается наименьший размер особенности, которую могут отражать данные и пространственные оценки.
Разрешение интерполяционной пространственной оценки на регулярной сетке характеризуется размером ячейки. Если сетка оценивания нерегуГлава лярная, то ее разрешение можно охарактеризовать распределением расстояний между узлами сетки (см. ниже).
Эффект разрешения сетки оценивания может быть значительным, особенно при решении динамических задач с граничными условиями на сетке.
В статических задачах пространственного картирования разрешение сетки также имеет большое значение. Существуют характеристики, связывающие разрешение сетки с картографическим масштабом [Hengl, 2006], более подробное описание которых выходит за рамки настоящей работы.
Опора (support) данных измерений является одним из основных свойств при анализе пространственно распределенных данных. Опору не следует путать с пространственным разрешением модели (карты интерполяционной оценки). Опора характеризуется процессом измерения и обработки данных, а не моделирования. Под опорой измерения понимается физический объем, подвергнутый измерению. Например, при измерении радиоактивности образца опора измерения характеризуется размером пробы. Однако не всегда удается однозначно оценить опорный размер: так, при аэрогаммасъемке загрязненных территорий опорный размер может варьироваться от десятков до сотен метров.
Определение опорного размера данных измерений, использующихся в моделях пространственного оценивания, чрезвычайно важно для адекватного моделирования вариабельности данных. Так, если при интерполировании на сетку с разрешением 1 км используются данные с опорой 10 см, надо понимать, что такие данные обладают вариабельностью на подсеточном масштабе. Другими словами, величина наблюдаемой переменной в ячейке сетки оценивания не может быть однозначно определена на основе данных с опорой более мелкого масштаба.
При моделировании свойств пористости и проницаемости пород в подземных месторождениях размером несколько километров используются данные с различной опорой. Так, пористость и проницаемость, измеренные на основе кернов из скважин, имеют высокую точность и опору порядка нескольких сантиметров. Данные же сейсмического зондирования обладают зашумленностью, и размер их опоры не всегда удается однозначно определить (от единиц до сотен метров). Динамические измерения давления в скважине имеют опору порядка нескольких километров, поскольку отражают поведение сред в связанной пористой системе месторождения. Все это необходимо учитывать при моделировании неопределенности и вариабельности пространственных распределений на основе данных различных типов.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика В геостатистике можно учесть изменения размера опоры при блочном кригинге (см. Главу 5).
2.4. Сеть мониторинга и кластерность Простейшим общепринятым видом визуализации данных является нанесение точек на плоскость пространственных координат, причем цвет нанесенной точки может соответствовать измеренной в них величине (рис. 2.1а).
Рис. 2.1. Диаграмма расположения точек измерений (а), триангуляция сети мониторинга (б), полигоны Вороного (с) и контуры данных измерений по триангуляции (г) Для визуализации сети мониторинга и ее кластерной структуры часто используется триангуляция Делоне [Preparata, Shamos, 1985] — система треугольников с вершинами в точках измерений, непересекающимися ребрами и минимальным количеством тупоугольных треугольников (рис. 2.1б). Такая визуализация позволяет качественно обособить области с повышенной плотностью измерений — с кластерами. Кроме того, триангуляция Делоне строит систему соседства: точки, которые соединены друг с другом ребрами треугольников, являются ближайшими соседями по отношению друг к другу.
Триангуляция также является основой для построения простейшего метода линейной интерполяции: три точки в пространстве (вершины треугольников) однозначно определяют плоскость, в пределах которой значения функции вычисляются согласно геометрическим принципам (рис. 2.1г).
Другим видом визуализации данных являются полигоны Вороного, или, как их еще называют, разбиение Тиссена, ячейки Дирихле и области влияния.
Полигон Вороного Pi, построенный для точки измерений xi, характеризуется тем, что содержит те и только те точки, расстояние от которых до точки xi меньше или равно расстоянию до любой другой точки измерений xj (рис. 2.1в). При построении полигонов Вороного используется система соседства, полученная в процессе триангуляции Делоне. Границы полигона Вороного Pi состоят из отрезков серединных перпендикуляров, проведенных к сторонам треугольников Делоне. Полигоны Вороного можно использовать как разрывную интерполяционную оценку (оценка по ближайшему соседу). Для этого каждой точке, попавшей в полигон, присваивается значение, соответствующее его материнской точке. Эти полигоны также используются в задачах пространственной классификации — классификация по ближайшему соседу.
Для выявления особенностей, а именно наличия кластерных структур или разреженностей в сети мониторинга (наборе точек измерений), проводят анализ сети мониторинга. Простейшими методами такого анализа можно считать описание топологии сети с помощью гистограммы расстояний между точками (рис. 2.2а) и гистограммы площадей полигонов Вороного (рис. 2.2б). Гистограмма в данном случае — это график числа каких-либо событий (числа пар или числа полигонов), попавших в какой-либо интервал значений.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 2.2. Гистограмма расстояний между точками (а) и гистограмма площадей полигонов Вороного (б) При равномерном распределении точек в пространстве число пар должно быть одинаково для всех расстояний (или уменьшаться при увеличении расстояния за счет граничного эффекта). Рост числа пар с ростом расстояния между точками свидетельствует о наличии кластеров. Гистограмма площадей полигонов для регулярной сетки должна представлять собой дельта-функцию (один пик), так как все полигоны одного размера. Любые искажения (широкий пик, длинный хвост, несколько пиков) означают присутствие каких-либо особенностей в сети.
Другим методом анализа сети мониторинга является статистический подход [Cressie, 1991], рассматривающий точки измерений как случайный точечный процесс. Характеризовать распределение точек можно с использованием статистических индексов. Примером такого подхода является диаграмма Моришита. Индекс Моришита вычисляется для области, разбитой на прямоугольные ячейки равного размера, по формуле [Morishita, 1959] где N — полное число точек сети мониторинга; Q — число ячеек разбиения;
ni (i = 1, 2,..., Q) — число точек сети мониторинга, попавших в i-ю ячейку.
Этот индекс характеризует вероятность того, что при выборе двух случайных точек они окажутся в одной ячейке. Диаграмма Моришита представляет собой зависимость индекса Моришита от размера ячейки разбиения. Существуют три типа характерного поведения диаграммы Моришита, комбинации которых позволяют судить о характеристиках сети мониторинга:
• величина индекса Моришита с ростом размера ячейки растет и стремится к 1; тогда распределение точек можно считать равномерным;
• величина индекса Моришита не зависит от размера ячейки и примерно равна 1 (колеблется около 1); это означает, что распределение точек случайно и не имеет кластерных структур.
• величина индекса Моришита с ростом размера ячейки уменьшается или растет выше 1 — распределение точек сети кластерное.
На рис. 2.3 приведены примеры диаграмм Моришита для различных типов сетей мониторинга. Так, в случае мониторинга на регулярной равномерной сетке диаграмма имеет вид гладкой кривой логарифмического типа, стремящейся к единице (рис. 2.3а). При наличии многочисленных кластеров в плотной сети мониторинга кривая Моришита изобилует точками перегиба, которые характеризуют размеры различных кластеров (рис. 2.3б). В случае произвольного мониторинга с несколькими четко выраженными кластерами кривая Моришита имеет более гладкий вид и уменьшается, стремясь к единице (рис. 2.3в). Размер кластеров характеризуют в этом случае точки изменения кривизны.
Рис. 2.3. Примеры диаграммы Моришита для различных сетей мониторинга: регулярная равномерная сеть (а), произвольная сеть со слабой кластерной структурой (б), произвольная слабо связанная кластеризованная сеть (в) В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Для анализа сети мониторинга на неоднородность можно также использовать теорию фракталов и фрактальную размерность [Mandelbrot, 1982] (характеристику степени самоподобия объекта). Фрактальная размерность характеризует размерностное (dimensional resolution) разрешение сети мониторинга. Методы вычисления и использования фрактальной размерности подробно рассмотрены в [Raes et al., 1991].
2.5. Декластеризация Большая часть пространственно распределенных данных, которые анализируются в геостатистике, имеет кластерную структуру. Кластер образуется, если в одной области было проведено значительно большее число измерений, чем в другой. В этом случае могут возникнуть существенные искажения при вычислении, например среднего значения. Это влечет невозможность получить репрезентативную гистограмму распределения.
Пусть, например в области высоких значений измеряемой величины, находится в двое больше точек, чем в области низких значений. Если при оценке среднего и других статистических параметров все значения будут иметь одинаковый вес, то область высоких значений будет слишком сильно влиять на такую оценку. В этом случае точки из зоны с большими значениями нужно было бы учитывать с весом, в двое меньшим, чем все остальные.
Проблема вычисления статистического веса каждой точки в параметрах распределения решается путем проведения процедуры декластеризации (declustering) данных.
Декластеризация не требуется, если измерения были выполнены на регулярной сетке. В этом случае наилучшее описание распределения получится при работе с равными весами. Тем не менее во многих случаях невозможно или нежелательно получить данные на равномерной сетке.
При анализе измерений, проведенных на нерегулярной сетке, предполагается существование такого набора весов, при котором может быть получено репрезентативное распределение данных. Здравый смысл подсказывает, что данные из области с большей плотностью измерений нужно брать с меньшим весом (для уменьшения их влияния на распределение в целом), чем данные из области с меньшей плотностью измерений. Для вычисления весов могут быть использованы разные подходы: метод ячейковой декластеризации, метод ячеек Дирихле (полигонов Вороного, рис. 2.4), кригинг.
Рис. 2.4. Площади полигонов Вороного (а), корреляция площади полигона и величины пространственной переменной 137Cs (б) Метод ячейковой декластеризации (cell-declustering) был предложен в [Journel, 1983]. Его идея заключается в разбиении рассматриваемой области на подобласти кластеризованных данных и в определении равных весов для всех точек внутри каждой подобласти в соответствии с их количеством.
Так, если в ячейку ak попало nk точек, то каждое измерение будет учтено с весом 1/nk. Область ak пространства обычно имеет размерность 3 (время может стать четвертым измерением). Для ячейки, не содержащей опытных точек, веса не рассчитываются, т. е. область декластеризованных данных состоит из ячеек, содержащих по крайней мере по одному измерению. Это ограничивает влияние граничных данных весом 1,0. На рис. 2.5 показан пример разбиения области на ячейки. Расчет соответствующих весовых коэффициентов приведен в табл. 2.1. После вычисления весов в такой форме они должны быть отнормированы так, чтобы их сумма была равна 1.
Рис. 2.5. Пример расчета весов ячейковой декластеризации В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Таблица 2.1. Расчет весов ячейковой декластеризации к рис. 2. точек Для вычисления весов декластеризации нужно знать два параметра: размер ячейки (в каждом направлении) и начальную точку сетки (левый нижний угол).
Возможны два предельных случая. Если размер ячейки слишком мал, то каждая ячейка будет содержать не более одной точки, что приведет к присвоению всем точкам равных весов, и возникнет исходная ситуация недекластеризованных данных. В противоположном случае, когда размер ячейки слишком велик, все данные попадут в одну единственную ячейку и результат будет тот же — все точки получат равные веса.
Метод выбора размера ячейки зависит от типа кластеризации. Если данные кластеризованы случайным образом (есть области скопления точек, никак не связанных с их значениями), размер ячейки выбирается так, чтобы в областях с низкой плотностью измерений на одну ячейку приходилось приблизительно по одной точке измерений. Если же известно, что есть области высоких или низких значений с большим количеством измерений, то размер ячейки может быть выбран так, чтобы оптимально получить максимальное или минимальное взвешенное среднее. При декластеризации областей высоких или низких значений нужно пробовать наборы ячеек разного размера. В этом случае строится график зависимости взвешенного среднего значения от размера ячейки и в соответствии с ним выбирается подходящий размер [Deutsch, 1989].
Ячейки не обязательно должны быть квадратными. С помощью параметра анизотропии (отношение размеров ячейки) можно построить описанные выше зависимости и на их основе также выбрать параметры ячейки, соответствующие минимуму или максимуму взвешенного среднего. Результаты можно представить, например, в виде контурной карты с размерами ячеек в каждом из направлений в качестве координат.
Если при фиксированном размере ячейки перемещать начало декластеризующей сетки, то веса декластеризации могут существенно меняться. Чтобы исключить влияние этого фактора, проводят несколько шагов декластеризации, вводя систематическое смещение начала сетки. Веса, полученные после каждого шага смещения, нормируются на единицу, и результаты суммируются. Обычно бывает достаточно пяти смещений. По окончании манипуляций веса всех точек снова должны быть отнормированы так, чтобы их сумма была равна 1.
Таким образом, формулу для вычисления декластеризованного среднего можно записать следующим образом:
где n — общее число исходных данных; Nof — число использующихся при вычислении смещений; wik — веса декластеризации для k-й ячейки при i-м смещении начала ячеек. Но в алгоритме декластеризации, реализованном в популярном пакете геостатистических программ GSLib [Deutsch, Journel, 1998], используется нормализация весов не к 1, а к числу измерений. При этом формула для вычисления декластеризованного среднего (2.6) несколько изменяется:
где wik — веса декластеризации, связанные с весами из (2.6) соотношением wik = nwik.
На рис. 2.6 приведены значения весов ячейковой декластеризации по формуле (2.7) для данных по радиоактивному загрязнению изотопом 137Cs почвы. Можно сравнить эти значения с исходными данными, приведенными на рис. 2.8. На рис. 2.7 для тех же данных приведен график зависимости декластеризованного среднего от размера декластеризующей ячейки. Чтобы компенсировать влияние кластеров высоких значений, следует, видимо, выбрать ячейку размером 75 км.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 2.6. Веса ячейковой декластеризации для декластеризации кластеров низких Рис. 2.7. Зависимость декластеризованного среднего значения от размера ячейки, Рис. 2.8. Гистограммы декластеризованных и исходных данных 137Cs Упражнение 2.1. При расчете декластеризованного среднего значения значение каждого данного учитывается с определенным весом. Почему при ячейковой декластеризации можно получить различные наборы весов для кластеров низких и высоких значений? Как при этом будут различаться средние значения?
2.6. Пространственная непрерывность Пространственная непрерывность присутствует в большинстве геофизических явлений и выражает простое свойство исследуемой функции Z(x):
в двух точках, находящихся ближе друг к другу, скорее будут близкие значения, чем в более удаленных друг от друга точках. Подчеркнем вероятностный, статистический характер этого понятия.
Пространственную непрерывность в данных можно наглядно продемонстрировать, если построить зависимость значений, удаленных друг от друга, от расстояния между ними. Такая диаграмма называется диаграммой взаимного разброса пар точек (h-scatterplot), разделенных расстоянием h (рис. 2.9). Диаграмма взаимного разброса пар позволяет увидеть пространственную непрерывность и проверить наличие корреляции в данных как качественно, так и количественно.
На плоскости отмечают все возможные пары измерений, разделенные вектором h. Если значения в паре, разделенной вектором h = xi – xj, обозначить Z(x) и Z(x + h), то по оси абсцисс откладывается значение переменной Z(x), а по оси ординат — Z(x + h). Диаграмма характеризует коррелированность значений в точках, разделенных данным расстоянием, и в определенном направлении. Если значения в точках, разделенных вектором (либо расстоянием) h, близки, то точки диаграммы сгруппируются вдоль прямой y = x. При большей разнице между значениями в парах облако на диаграмме будет расплываться. Это обычно происходит при увеличении расстояния h. Часто на итоговую статистику диаграммы влияют отдельные отклонения.
Такие пары точек лежат в отдалении от прямой y = x. В этом случае стоит попробовать посчитать статистику, исключив эти точки из рассмотрения.
На рис. 2.9 изображены диаграммы разброса пар для данных по загрязнению почвы в западной части Брянской области изотопом 137Cs для расстояний 10 (слева) и 70 км (справа). На расстоянии 10 км пространственная корреляция существенна: точки на диаграмме пар сгруппированы вдоль В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика прямой y = x. На расстоянии 70 км пространственная корреляция уже очень слаба — диаграмма принимает форму прямоугольника.
Рис. 2.9. Диаграммы разброса пар точек h = 10 км демонстрирует корреляцию между данными (а); на расстоянии h = 70 км между точками отсутствует корреляция (б) для данных по загрязнению западной части Брянской области изотопом 137Cs Пространственная непрерывность может быть исследована простым методом вычисления локальных статистических характеристик: среднего, вариации и т. п.
Статистика движущегося окна (moving window statistics) — это подсчет описанной выше статистики, но не для всей области данных в целом, а в ее подобластях (окнах). Такой метод очень полезен для поиска зон аномальных средних значений и при наличии зон различной вариации значений (heteroscedasticity) [Isaaks, Srivastava, 1989]. Метод состоит в разбиении области данных на несколько одинаковых, обычно прямоугольных окрестностей — окон. Размер окна зависит от среднего расстояния между точками. Хорошим компромиссом между большими и маленькими окнами являются перекрывающиеся окна. При этом два соседних окна имеют несколько общих точек. Это повышает количество окон при достаточно большом их размере, дающем достоверную статистику. Таким образом, мы как бы берем в руки окно-лупу и рассматриваем всю область, передвигая по ней окно.
Статистические характеристики вычисляются для каждого поднабора данных, попавших в отдельное окно.
Можно построить карту локальных средних значений и стандартных отклонений в окнах. При сравнении с образами данных, приведенными выше, можно увидеть те же области, где локальное среднее велико. Но в дополнение к этому можно выделить области локального изменения вариабельности, которые не детектировались предыдущими методами (рис. 2.10).
Рис. 2.10. Локальные значения статистики с движущимся окном:
а — количество точек в окне; б — среднее значение; в — стандартное отклонение;
г — минимальное значение; д — максимальное значение; е — размах значений;
ж — коэффициент вариации, з — коэффициент симметрии, и — эксцесс В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Эффект пропорциональности (proportional effect) состоит в наличии явной зависимости между локальными средними значениями и локальной вариабельностью, описываемой локальным стандартным отклонением, т. е. когда коэффициент вариации CV=/m демонстрирует явное детерминированное поведение. Можно выделить четыре самых общих случая этой зависимости [Isaaks, Srivastava, 1989]:
• среднее и вариабельность постоянны;
• среднее имеет локальный тренд, в то время как вариабельность остается постоянной;
• среднее постоянно, но изменяется вариабельность;
• и среднее, и вариабельность изменяются вместе пропорционально.
Для определения эффекта пропорциональности можно построить диаграмму разброса (scatterplot) локального стандартного отклонения в зависимости от локального среднего (рис. 2.11). При нормальном распределении данных эффект пропорциональности не наблюдается, и стандартное отклонение обычно постоянно. При логнормальном распределении зависимость между локальным средним и локальным стандартным отклонением линейная. В исследуемых данных корреляция между локальным средним и локальным стандартным отклонениями достаточно высока и равна 0, (см. рис. 2.11). Это свидетельствует о наличии в данных эффекта пропорциональности.
Рис. 2.11. Корреляция локального среднего значения с локальным стандартным отклонением по результатам статистики с движущимся окном 2.7. Стационарность в строгом и мягком смыслах Пространственная непрерывность связана с другим краеугольным понятием — стационарностью. Стационарность в строгом теоретическом смысле определяется следующим образом.
Если совместная функция распределения (2.1) инвариантна относительно положения начала координат, то в этом случае говорят о стационарности случайной функции Z(x) в области S. Это означает, что любые два вектора случайных переменных {Z(x1),..., Z(xN)} и {Z(x1 + h), …, Z(xN + h)} имеют одинаковые условные многомерные функции распределения независимо от вектора сдвига h:
т. е. функция распределения является трансляционно инвариантной.
Пространственная стационарность в строгом смысле означает, что распределения случайной величины в двух различных зонах области распределения являются идентичными. Таким образом, полная стационарность является скорее теоретическим, чем реально применимым для моделирования природных явлений понятием.
Пространственная нестационарность заключается в меняющемся характере функции распределения в зависимости от местоположения точек измерения.
Гипотеза о пространственной стационарности функции распределения часто необходима при решении задач пространственной интерполяции.
Условие стационарности является весьма строгим, поэтому на практике используются более мягкие условия стационарности второго порядка (стационарность в широком смысле) или внутренняя гипотеза. В рамках предположения о стационарности второго порядка, в частности, работает базовый метод геостатистики — кригинг.
Случайная функция Z(x) обладает стационарностью второго порядка, если [Journel, Huijbregts, 1978]:
• математическое ожидание m(x) существует и не зависит от местоположения x:
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика • для каждой пары значений случайной переменной {Z ( x ), Z ( x + h )} ковариация существует и зависит только от разности координат h:
Таким образом, стационарность второго порядка — это стационарность только для моментов первого и второго порядка.
Случайная функция Z(x) удовлетворяет внутренней гипотезе, если:
• математическое ожидание m(x) существует и не зависит от местоположения x:
• для любого вектора h разность Z ( x ) Z ( x + h ) имеет конечную вариацию, не зависящую от x (стационарность приращений):
Упражнение 2.2. Если среднее значение и ковариация стационарны, что можно сказать о поведении вариации разности значений функции с расстоянием?
Из внутренней гипотезы следует определение одного из ключевых понятий геостатистики — вариограммы. Функция g(h) носит название полувариограммы (или вариограммы) и является статистическим моментом второго порядка. Внутренняя гипотеза (intrinsic hypothesis) соответствует стационарности второго порядка для приращений функции.
Центральная идея геостатистики состоит в использовании знаний о пространственной корреляции экспериментальных данных для построения пространственных оценок и интерполяций. Вариограмма — ключевой инструмент для оценки степени пространственной корреляции, имеющейся в данных, и для ее моделирования. Модель вариограммы является функцией, определяющей зависимость изменения исследуемой величины в пространстве от расстояния. Следовательно, интерполяционная модель, основанная на такой корреляционной функции, будет отражать реальные явления, которые лежат в основе данных измерений.
В условиях стационарности второго порядка корреляция между измерениями в двух точках, как уже указывалось, предполагается зависящей только от разности местоположений этих точек. С точки зрения пространственных корреляций это означает, что различные регионы статистически подобны, что, кстати, позволяет интерпретировать различные регионы как различные реализации стохастической региональной функции и делать статистические выводы. Таким образом, значения измерений, проведенных в некотором конечном множестве точек, могут быть исследованы с точки зрения поведения разности между ними. Всевозможные пары точек могут быть рассортированы по классам в соответствии с разностью их координат h = xi – xj, называемой лагом (или лэгом — lag). Для близких точек разность значений функции в них обычно меньше и растет с увеличением расстояния между точками. Вычислив среднее значение квадратов разностей для каждого значения лага h (для каждого собранного класса пар измерений), можно получить дискретную функцию, называемую экспериментальной вариограммой (sample variogram, или raw variogram — вариограммой сырых данных). Более подробно построение вариограммы рассмотрено в Главе 4.
Теоретически поведение экспериментальной вариограммы должно иметь отношение к пространственной корреляции между образцами и может содержать количественную информацию о пространственном процессе.
Но чтобы использовать эту информацию в теоретических исследованиях и практических оценках, необходимо построить непрерывную гладкую функцию, которая будет представлять собой теоретическую модель экспериментальной вариограммы. После такой подгонки (fitting) модельной вариограммы к экспериментальному образцу первая может быть использована для вычисления весов при интерполяции кригингом.
Вариограмма, вообще говоря, — это функция векторного аргумента h. Часто случается, что пространственная корреляция зависит не только от расстояния между точками измерений, но и от направления, т. е. данные могут обладать пространственной анизотропией. В этом случае оцениваются вариограммы по направлениям (directional variograms) и строится общая анизотропная модель вариограммы.
Свойство эргодичности по отношению к пространственным данным означает, что при вычислении различных статистических моментов можно переходить от усреднения по реализациям к усреднению по пространству, а также делать при этом статистические выводы.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика 2.8. Геостатистическое оценивание Основной геостатистической моделью, которая в том или ином виде используется во всех методах геостатистики, является кригинг (kriging) — линейный интерполятор, использующий для получения оценки значения функции в некоторой точке пространства x0 экспериментально измеренные значения этой функции в других точках:
Для определения весов wi(x0) могут быть использованы различные детерминистические методы, например веса могут браться обратно пропорциональными расстоянию от измеренной точки до оцениваемой или в соответствии с каким-либо другим предположением о природе связей в данных.
Однако все эти методы пренебрегают использованием информации о структуре внутренней корреляции пространственных данных.
Следующим критерием при построении модели является условие несмещенности оценки, что эквивалентно условию где Z(x0) — истинное (неизвестное) значение оцениваемой функции в точке x0. Иными словами, ошибки интерполяции должны иметь в каждой точке среднее, равное нулю. Это условие может быть реализовано и в рамках детерминистических подходов.
Еще одно условие, которое мы хотим наложить, — оптимальность интерполяции в смысле минимизации вариации ошибки оценки, т. е. веса wi линейной регрессии в уравнении (2.11) должны быть выбраны так, чтобы минимизировать значение вариации ошибки оценки:
Таким образом, кригинг является наилучшим (в смысле минимума вариации оценки) линейным и несмещенным оценивателем (the best linear unbiased estimator — BLUE). В процессе поиска минимума вариации (2.13) ключевую роль играет использование модели вариограммы исходных данных.
В результате поиска весовых коэффициентов для получения оценки, удовлетворяющей всем перечисленным условиям, удается оценить и значение вариации (2.13), которое может интерпретироваться как описание точности кригинговой оценки. Более подробно теория кригинга изложена в Главе 5.
2.9. Проверка качества модели — кросс-валидация При использовании той или иной модели интерполяции крайне важно правильно подобрать значения модельно-зависимых параметров. Для кригинга такими параметрами являются параметры модели вариограммы. При работе с реальными данными не всегда удается сразу выбрать теоретическую модель экспериментальной вариограммы. Для проверки качества выбранной модели используют различные количественные методы: кросс-валидацию (cross-validation), метод складного ножа (jack-knife), бутстреп (bootstrap).
Кросс-валидация — наиболее простой и часто использующийся не только в геостатистике подход при сравнении результатов, получаемых различными методами или одним и тем же методом, но с различными параметрами. Выполняется кросс-валидация следующим образом:
• из базы данных временно изымается одна точка, и для нее проводится оценка значения;
• полученное значение сравнивается с известным, и вычисляется невязка — разница между измеренными и оцененными значениями:
• первые два шага проводятся для всех точек базы данных.
Полученные невязки DZ(x) могут быть графически представлены в виде карты (карты невязок), по которой можно посмотреть, в каких зонах метод срабатывает лучше, а в каких хуже. Вместо невязок можно визуализировать относительные ошибки:
Полезно также представить результаты кросс-валидации в виде графика Y ( Z ( x ) ) = Z * ( x ) или аналогичного ему — Y ( Z ( x ) ) = ( x ). Проведение на таком графике биссектрисы (или соответственно прямой Y = 0), соответствующей равенству оценки и исходного значения, позволяет видеть характер отклонения: большее отклонение для высоких или для низких значений Z, какие-либо тренды в поведении оценки и т. п. Вместе с тем В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика на графиках невязок можно проследить эффект сглаживания — область низких значений в среднем переоценивается, а область высоких значений недооценивается.
Кроме локальных характеристик кросс-валидация позволяет оценить и глобальные характеристики оценки для сравнения:
1. Смещение Dm = m – m*, где m — среднее, оцененное по исходным данным; m* — среднее, оцененное по полученным результатам.
2. Сумму квадратов невязок:
где R — штрафной член, вводящийся для контроля количества неоцененных точек.
3. Среднюю квадратичную ошибку (root mean square error — RMSE):
4. Коэффициент эффективности:
5. Коэффициент корреляции r, угол наклона регрессионной прямой на Вообще говоря, кросс-валидация — это частный случай метода складного ножа, когда выбираемый набор состоит из одной точки (leave-one-out).
Метод складного ножа (jack-knife) является общим случаем кросс-валидации, когда оценивание проводится не в одной, а в нескольких точках измерений, данные о которых предварительно изымаются из рассмотрения.
Полученные в результате невязки анализируется методом, аналогичным описанному выше. Поскольку при джек-найфе изымается произвольный набор данных, комбинации этого набора могут варьироваться, что делает этот метод стохастическим.
Бутстреп (bootstrap) состоит в оценке на основе случайных выборок из набора данных. Выборки делаются из исходного набора случайным образом. Выбранная точка не изымается, она может попасть в выборку несколько раз. Оценка проводится по оставшимся не выбранными точкам. Обычно процедура выборки и оценки повторяется много раз.
Литература Cressie N. Statistics for spatial data. — New York: John Wiley & Sons, 1991. — 900 p.
Deutsch C. DECLUS: a FORTRAN 77 program for determining optimal declustering weights // Computers and Geosciences. — 1989. — Vol. 15. — P. 325—332.
Deutsch C. V., Journel A. G. GSLIB: Geostatistical Software Library and User’s Guide. —New York; Oxford: Oxford Univ. Press, 1998. — 369 p.
Engineering and Design: Practical aspects of applying geostatistics at hazardous, toxic and radioactive waste sites: Technical Letter ETL 1110-1-175 / Department of the US Army. — Washington, 30 June 1997. — 93 p.
Goovaerts P. Geostatistics for Natural Resources Evaluation. — [S. l.]:
Oxford Univ. Press, 1997.
Hengl T. Finding the right pixel size // Computers and Geosciences. — 2006. — Vol. 32. — Р. 1283—1298.
Isaaks E. H., Srivastava R. M. An Introduction to Applied Geostatistics. — Oxford: Oxford Univ. Press, 1989.
Journel A. G. Nonparametric estimation of spatial distributions // Mathematical Geology. — 1983. — Vol. 15. — P. 445—468.
Journel A. G., Huijbregts Ch. J. Mining Geostatistics. — London: Academic Press, 1978. — 600 p.
Mandelbrot B. B. The fractal theory of nature. — New York: Freeman, 1982.
Morishita M. Measuring of the dispersion and analysis of distribution patterns // Memoires of the Faculty of Science, Kyushu University. Series E. Biology. — 1959. — Vol. 2. — P. 215—235.
Preparata F. P., Shamos M. I. Computational Geometry. — New York:
Springer-Verl., 1985. — P. 198—218.
Raes F., Graziani G., Girardi F. A simple and fractal analysis of the European on-line network for airborne radioactivity monitoring // Environmental Monitoring and Assessment. — 1991. — Vol. 18. — P. 221—234.