«В. В. Демьянов, Е. А. Савельева ГЕОСТАТИСТИКА теория и практика Под редакцией профессора, доктора физико-математических наук Р. В. Арутюняна Москва Наука 2010 УДК 91:519.8 ББК 26.8в6 Г35 Рецензенты: доктор технических ...»
Рис. 10.2. Дрейф данных по выпадению осадков, рассчитанный После применения нелинейной модели к исходному набору (100 тренировочных точек) были получены оценки ИНС. Была использована ИНС типа многослойный перцептрон с двум входными нейронами (по количеству пространственных координат) и одним выходным нейроном — оцениваемой переменной. Количество нейронов в единственном скрытом слое варьировалось. Приведенные на рис. 10.3 вариограмма для оценок ИНС и вариограмма исходных данных демонстрируют совпадение, что свидетельствует о хорошем качестве модели ИНС. Вариограммы отражают сложную периодическую корреляционную структуру на нескольких масштабах. Однако если посмотреть на невязки — разницу между данными и оценками ИНС, можно видеть, что они коррелированы со значениями данных (рис. 10.4б). Это означает необходимость дальнейшего моделирования невязок.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 10.3. Экспериментальные вариограммы для исходных данных (измерений) Рис. 10.4. Тест на аккуратность: зависимость оценок ИНС от измерений для ИНС [2-5-1] и [2-10-1] (а), зависимость невязок ИНС от измерений (б) Невязки ИНС в отличие от исходных данных демонстрируют отсутствие пространственного тренда во всех направлениях (см. рис. 10.5), который полностью оценен ИНС. Пространственная корреляция невязок имеет коГлава роткий радиус — 30—80103 м (по сравнению с радиусом корреляции исходных данных — 80—200103 м) и обладает стационарностью (рис. 10.6).
Таким образом, невязки можно эффективно промоделировать обычным кригингом. Пространственная корреляция (вариограмма) хорошо моделируется сферической моделью с учетом анизотропии (см. рис. 10.7б): радиусы корреляции 73,01 км и 54,53 км, больший под углом 15° по часовой стрелке от направления с северо-запада на юго-восток.
Рис. 10.5. Дрейф невязок модели нелинейного тренда Рис. 10.6. Экспериментальные вариограммы и их анизотропная модель В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 10.7. Контуры вариограммной розы: экспериментальная (а) и модель ИНС (б) Результат, полученный после применения обычного кригинга к невязкам и сложения результата нелинейной модели и кригинга невязок, представлен на рис. 10.8. Он имеет естественный пятнистый вид, воспроизводящий корреляционную структуру на различных масштабах. Проверка качества оценки модели была проведена на валидационном наборе. Статистические характеристики валидационной оценки близки к валидационным данным (табл. 10.1).
При сравнении с обычным кригингом [Atkinson, Lloyd, 1998] выяснилось, что среднеквадратичная ошибка обычного кригинга (5,97) несколько выше, чем таковая кригинга невязок ИНС (5,6). Стандартное отклонение валидационной ошибки также выше (на 6%) у оценки обычного кригинга (59,69), чем оценка кригинга невязок ИНС (56,28), что означает более широкий разброс ошибок.
На рис. 10.9 приведен график зависимости валидационной ошибки от исходных данных, который показывает отсутствие корреляции между ними — кригинг невязок ИНС промоделировал всю пространственную структуру.
Рис. 10.8. Результат картирования с использованием нелинейной модели Таблица 10.1. Статистические характеристики для валидационного набора Рис. 10.9. Валидация: зависимость ошибки оценки кригинга невязок ИНС 10.3. Пример использования стохастического моделирования невязок В данном примере рассмотрено применение ИНС и геостатистики для краткосрочного (на неделю вперед) прогнозирования электропотребления в Московском регионе. Электропотребление обладает периодической структурой на различных временных масштабах (сутки, недели, годы), а также связано сложной нелинейной зависимостью с погодными параметрами (температурой, облачностью, осадками и т. д.). Все погодные параметры, использующиеся при прогнозировании, также являются прогнозными, поВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика этому даже самый лучший метод не может дать идеальный прогноз. Таким образом, здесь встает задача анализа неопределенности прогноза.
Для прогнозирования используется искусственная нейронная сеть как универсальный нелинейный аппроксиматор. Прогноз делается на две недели вперед: первая неделя — текущая, т. е. с уже известными значениями электропотребления, следующая — непосредственно прогнозируемая.
Относительные ошибки прогноза ИНС представлены на рис. 10.10. Видно, что в большей части прогноз имеет ошибку меньше 10%. Возможно, прогноз может быть улучшен за счет изменения набора входных параметров.
В данной работе количество исходной информации было очень ограничено. На рис. 10.11 приведена вариограмма невязок прогноза ИНС, на которой хорошо наблюдается временная корреляция.
Рис. 10.10. Невязки после прогнозирования электропотребления с помощью ИНС Рис. 10.11. Вариограмма невязок прогноза ИНС Для прогнозирования неопределенности прогноза используется стохастическое моделирование невязок. Оно выполняется с помощью моделирования отжига. Делаются безусловные симуляции, воспроизводящие вариограмму и гистограмму исходных невязок. В данном случае нет необходимости строить модель вариограммы, так как исходные данные заданы на такой же сетке, как и строящиеся симуляции, т. е. для любого лага значение вариограммы известно.
Несколько полученных реализаций представлено на рис. 10.12, а на рис. 10.13 показано качество воспроизведения вариограммы, где толстой серой линией изображена исходная вариограмма, более тонкой и темносерой — средняя по набору из 30 реализаций, тонкими линиями — границы разброса значений вариограмм для реализаций.
Рис. 10.12. Примеры реализаций невязок, полученных с использованием Рис. 10.13. Разброс вариограмм реализаций невязок В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Окончательный результат прогноза с доверительными интервалами приведен на рис. 10.13. Это сумма прогноза, полученного ИНС, и среднего по набору реализаций для каждого момента времени. Доверительные 90%-ные интервалы получены как 2, где — корень из вариации по набору реализаций в каждый момент.
Качество прогнозной оценки и доверительных интервалов видно на рис. 10.14, где приведено и реальное значение электропотребления.
Рис. 10.14. Прогноз электропотребления гибридной моделью Литература Atkinson P. M., Lloyd C. D. Mapping precipitation in Switzerland with ordinary and indicator kriging // The J. of Geographic Information and Decision Analysis. — 1998. — Vol. 2, N 2.
Bryan B. A., Adams J. M. Three-Dimensional Neurointerpolation of Annual Mean Precipitation and Temperature Surfaces for China // Geographical Analysis. — 2002. — Vol. 34, N 2. — Р. 93—111.
Cortez L. P., Sousa A. J., Durao F. O. Mineral resources estimation using neural networks and geostatistical techniques // APCOM’98 Computer applications in the minerals industries: International symposium N 27, London, ROYAUME-UNI / Centro de Valorizao de Recursos Minerais (CVRM), Portugal. — [S. l.], 1998. — Р. 305—314.
Demyanov V., Kanevski M., Savelieva E. et al. Neural Network Residual Stochastic Cosimulation for Environmental Data Analysis // Proceedings of the Second ICSC Symposium on Neural Computation (NC’2000), May 2000, Berlin, Germany. — [S. l.], 2000а. — P. 647—653.
Demyanov V., Serre M, Christakos G. et al. Neural Network residual BME analysis of Chernobyl fallout // Proc. GeoEnv III — 3rd European Conference on Geostatistics for Environmental Applications, Avignon, France. — [S. l.], 2000б.
Demyanov V., Soltani S., Kanevski M. et al. Wavelet analysis residual kriging vs. neural network residual kriging // Stochastic Environmental Research and Risk Assessment. — 2001. — Vol. 15, Iss. 1. — P. 18—32.
Haykin S. Neural Networks: A Comprehensive Foundation Prentice Hall. — [S. l.], 1998. — 842 p.
Kanevsky M., Arutyunyan R., Bolshov L. et al. Artificial neural networks and spatial estimations of Chernobyl fallout // Geoinformatics. — 1996а. — Vol. 7, N 1—2. — Р. 5—11.
Kanevsky M., Arutyunyan R., Bolshov L. et al. Chernobyl Fallouts:
Review of Advanced Spatial Data Analysis // geoENV I — Geostatistics for Environmental Applications / Ed. A. Soares, J. Gomez-Hernandes, R. Froidvaux. — [S. l.]: Kluwer Academic Publ., 1997а. — Р. 389—400.
Kanevski M., Demyanov V., Maignan M. Mapping of Soil Contamination by Using Artificial Neural Networks and Multivariate Geostatistics // Artificial Neural Networks ICANN'97. 7th International Conference, Lausanne, Switzerland, October 1997: Proceedings / W. Gerstner, A. Germond, M. Hasler, J.-D. Nicould (eds.). — [S. l.]: Springer, 1997б. — Р. 1125. — (Lecture Notes in Computer Science).
Kanevski M., Demyanov V., Chernov S. et al. Neural Network Residual Kriging Application For Climatic Data // The J. of Geographic Information and Decision Analysis. — 1998. — Vol. 2, N 2.
Kanevski M., Demyanov V., Pozdnukhov A. et al. Advanced Geostatistical and Machine-Learning Models for Spatial Data Analysis of Radioactively Contaminated Regions // Special Iss. of J. of Environmental Science and Pollution Research. — 2003. — Vol. 1. — P. 137—149.
Savelieva E., Kravetskiy A., Chernov S. et al. Application of MLP and stochastic simulations for electricity load forecasting in Russia // Proceeding of 8th European Symposium on Artificial Neural Networks ESANN’2000, Belgium. — [S. l.], 2000. — Р. 413—418.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика SIC’97 Spatial Interpolation Comparison exercise 1997 // http://www.aigeostats.org/index.php?id=45.
Kanevski M., Parkin R., Pozdnukhov A. et al. Environmental Data Mining and Modelling Based on Machine Learning Algorithms and Geostatistics // Environmental Modelling & Software. — 2004. — Vol. 19, Iss. 9. — P. 845—855.
Zhang Quan Shen, Shi JieBin, Wang Ke et al. Neural network ensemble residual kriging application for spatial variability of soil properties / Inst. of Remote Sensing and Information System Application, Zhejiang University, Hangzhou, China // Pedosphere. — 2004. — Vol. 14, N 3. — Р. 289—296.
Глава Современные направления развития пространственной статистики 11.1. Пространственно-временная геостатистика При анализе пространственно-временных явлений часто крайне трудно или вовсе невозможно получить закон распределения данных на основе физических процессов, обусловливающих эти явления. Простые физические методы дают хорошую модель общего тренда, усложнение и детализация физического описания ведет к увеличению числа параметров, большая часть которых неизвестна. Таким образом, детализация физической модели не уменьшает неопределенность, а может даже увеличивать ее. Альтернативным подходом является статистическое описание пространственновременного распределения, базирующееся на данных измерений, которые несут в себе информацию о процессе и внешних параметрах. Геостатистические оценки опираются на информацию о внутренней структуре данных, зависят от самих данных, т. е. являются адаптивными. Как уже неоднократно упоминалось в этой книге, геостатистика базируется на статистической интерпретации данных. Это, однако, не означает, что природа самого процесса является случайной.
Пространственно-временные данные являются реализацией случайного поля Z ( x, t ) ( Z ( x, t ); x D, t T ), где D — пространственная область;
T — временной интервал. Иногда они могут быть представлены в виде пространственно распределенных временных рядов, но могут быть неравномерно распределены и в пространственно-временном континууме DT. Для того, чтобы использовать геостатистические методы, необходимо определить пространственно-временную корреляционную структуру поля Z ( x, t ), задаваемую всеми случайными переменными в области исследования (DT).
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Для описания пространственно-временной корреляции значений используются те же моменты первого и второго порядков, что были описаны в Главе 4. Приведем здесь основные из них (ковариацию и вариограмму) в пространственно-временном виде.
Ковариация, которая зависит в случае стационарности второго порядка только от пространственного и временного лагов h и, определяется так:
где m(x, t) — среднее значение случайного поля Z в пространственновременной точке (x, t). Когда среднее m = E [ Z ( x, t )] постоянно по пространству и во времени, формула (11.1) преобразуется в где CZ(0, 0) равняется вариации 2 по определению. ПространственноZ временная ковариационная функция CZ должна обладать теми же свойствами, что и чисто пространственная (см. Главу 4). Только некоторые можно немного переписать для пространственной и временной составляющих:
Если среднее предполагается постоянным, то для N(h, ) экспериментальных точек, разделенных вектором h и временным интервалом, пространственно-временная ковариационная функция определяется по формуле где m — классическая оценка среднего по N известным значениям пространственно-временной функции Z(x, t):
Как видно из (11.4), пространственно-временная ковариационная функция может быть вычислена для данных, расположенных на нерегулярной пространственно-временной сетке. Поэтому нет необходимости, например, иметь измерения в одной и той же пространственной точке в различные Современные направления развития пространственной статистики моменты времени. Однако оценка ковариационной функции, определяемая (11.4), может оказаться смещенной вследствие того факта, что мы используем оценку неизвестного нам среднего вместо неизвестного истинного значения.
Как и в пространственном случае, вариограмма дает возможность избежать оценки среднего, перейдя к приращениям:
В предположении о стационарности второго порядка для приращеслучайного поля Z (внутренняя гипотеза) ний пространственно-временная вариограмма (11.5) преобразуется к виду с условием E [ Z ( x + h, t + ) Z ( x, t )] = 0. Свойства пространственновременной вариограммы не отличаются от свойств вариограммы пространственной, которые подробно описаны в Главе 4.
Оценивается вариограмма по формуле для оценки математического ожидания:
Как и в случае ковариационной функции, пространственно-временную вариограмму можно оценить, даже если данные расположены на нерегулярной пространственно-временной сетке.
Основной проблемой при моделировании пространственно-временной корреляции является необходимость определения метрики на пространственновременном континууме.
В различное время были предложены разнообразные теоретические модели пространственно-временных ковариационных функций и вариограмм, позволяющие объединять пространственные и временные координаты.
Одним из наиболее подробных обзоров соответствующих геостатистических моделей был обзор П. Кириакидиса и А. Жорнеля [Kyriakidis, Journel, 1999]. Согласно этому обзору модели пространственно-временной корреляционной структуры можно подразделить на два вида: предусматривающие разделение на пространственную и временную компоненты и такого В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика разделения не предусматривающие. Ниже рассмотрены модели, имеющие в настоящее время наибольшее распространение.
Метрическая модель. Одним из подходов является использование «обобщенной» переменной, моделирующей евклидову пространственно-временную метрику [Dimitrakopoulos, Luo, 1994], для ковариационной функции где a, b — действительные коэффициенты. Следует отметить, что модель (11.8) предполагает одинаковый тип модели для пространственной и временной ковариационных функций с возможными различиями только в радиусе корреляции. На практике эта модель, несмотря на кажущуюся простоту, используется редко.
Линейная модель. Предполагает разделение пространственно-временной ковариации на пространственную и временную компоненты. Общая модель пространственно-временной ковариации представляет сумму пространственной и временной компонент:
Эта модель обладает существенным недостатком: при некоторых ее конфигурациях матрица ковариаций пространственно-временных данных может оказаться сингулярной [Rouhani, Myers, 1990]. В таком случае ковариационная функция является только положительно полуопределенной и, следовательно, не удовлетворяет требуемому условию для использования в кригинге. Это ограничивает сферу применения данной модели.
Модель произведения. Эта модель пространственно-временной корреляции также основана на разделении зависимости по пространству и времени [De Cesare et al., 2001, 2002]. Но в отличие от предыдущего случая (11.9) пространственно-временная ковариационная модель строится как произведение этих компонент:
Пространственно-временная модель ковариации (11.10) может быть переписана в терминах пространственно-временной вариограммы:
Современные направления развития пространственной статистики где g Z — пространственно-временная вариограмма; g t — временная компонента вариограммы; g x — пространственная компонента вариограммы;
Ct — временная компонента ковариационной функции; Cx — пространственная компонента ковариационной функции; CZ (0, 0) — плато (sill) пространственно-временной вариограммы g Z ; C x (0) — плато пространственной компоненты вариограммы g x ; Ct (0) — плато временной компоненты вариограммы g t.
Параметр k логично определяется из уравнения (11.11):
чтобы при нулевых расстояниях по пространству (|h| = 0) и/или времени ( = 0) оставалась только нужная компонента.
Если в выражении (11.10) Cx является положительно-определенной функцией в пространстве действительных чисел размерностью d d, а Ct — положительно-определенной в 1, то и модель произведения (11.10) также является положительно-определенной функцией [Cressie, 1993].
Однако класс функций (11.10) сильно ограничен, так как для любой пары пространственных точек кросс-ковариационная функция двух временных рядов всегда должна иметь «похожую» форму. Фактически для любых двух фиксированных пространственных векторов h1 и h Такой же результат должен быть и для любой пары временных точек кроссковариационной функции двух пространственных процессов [De Cesare et al., 2001].
Модель произведения-суммы. Линейную модель и модель произведения можно легко свести вместе:
Чтобы модель произведения-суммы (11.14) была применима, Cx и Ct должны быть положительно-определенными функциями. Кроме того, коэффициенты k2 и k3 должны быть неотрицательны (k2 0, k3 0), в то время как k должен быть строго положительным (k1 > 0) [De Cesare et al., 2001, 2002].
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Модель произведения-суммы (11.14) может быть легко переписана в терминах пространственно-временной вариограммы:
При переходе от ковариационной формы (11.14) к вариограммной (11.15) неявно получается следующее условие:
Кроме того, из (11.15) получаются условия для пространственной и временной компонент вариограммы:
Чтобы определить коэффициенты k1, k2, k3, необходимы три уравнения. Два их них получаются из условий (11.17):
Третье получаем, используя условие (11.16). Таким образом, получены формулы для вычисления всех параметров k1, k2 и k3:
При моделировании чисто пространственной и чисто временной вариограмм необходимо следить, чтобы значения плато CZ (0, 0), C x (0), Ct (0) были выбраны таким образом, что коэффициенты k1, k2, k3 в (11.15) оставались положительными.
Основное удобство использования моделей произведения (11.10) и произведения-суммы (11.14) заключается в том, что они полностью опреГлава Современные направления развития пространственной статистики деляются чисто временной t и чисто пространственной x компонентами вариограммы.
C другой стороны, ограничения (11.18) на ковариационную модель произведения-суммы (11.14) налагают на нее форму симметрии, т. е. симметрии между влиянием пространственной и временной корреляционных компонент.
Неразделимая модель. Другой подход к моделированию пространственновременной корреляции позволяет получить классы неразделимых пространственно-временных стационарных ковариационных функций. Он был предложен. Кресси и Х. Хуаном [Cressie, Huang, 1999]. Этот подход основан на использовании частотного представления ковариационной функции:
где проводится частичное разделение на компоненты. Частотное представление ковариационной функции H(, ) имеет вид произведения На компоненты произведения наложены два условия:
• для любого d, (, ) является непрерывной автокорреляционной функцией;
• K( ) — положительная функция с ограниченным интегралом Неразделимую модель можно модифицировать так, чтобы учитывать также анизотропию данных, в частности анизотропию в пространственных координатах [Ferna’ndez-Casal et al., 2001]. Отсутствие достаточной проработки в плане практического применения этого подхода сильно ограничивает его привлекательность.
Пространственно-временной кригинг. Когда модель пространственной корреляции построена, проблем по обобщению кригинга (или временно любого другого геостатистического метода) на пространственно-временной случай нет. Для оценки, например обычным кригингом, используется линейная комбинация исходных измерений:
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика где ij ( x, t ) — веса, присваиваемые данным Z ( x i, t j ), которые, в свою очередь, являются реализациями пространственно-временной переменной Z. Количество данных n(x) и n(t), используемых для оценивания, как и их веса, могут меняться в зависимости от точки оценивания ( x, t ).
Для пространственно-временного случая может использоваться любая из описанных в Главе 5 моделей кригинга. Все условия и выводы формул без проблем переносятся в пространственно-временной континуум. Таким образом, основной сложностью при введении временной компоненты является моделирование пространственно-временной корреляции данных, а именно понимания связи между пространственной и временной зависимостями.
Пример использования пространственно-временно’го кригинга В этом примере рассмотрено моделирование пространственно-временной динамики уровня грунтовых вод. Для моделирования использовалась информация из 31 скважины за период с 1972 г. Более подробно данные описаны в [Нужный и др., 2007].
При моделировании пространственно-временной корреляции использовался подход, разделяющий пространственную и временную компоненты.
Для каждой из компонент были проведены оценка и моделирование. Пространственная компонента рассматривалась без учета анизотропии. Результаты моделирования отдельных компонент представлены на рис. 11. (пространственная) и 11.2 (временная). Параметры моделей компонент собраны в табл. 11.1.
Рис. 11.1. Экспериментальная вариограмма (черная) и ее модель (серая) для пространственной компоненты пространственно-временных данных Современные направления развития пространственной статистики Рис. 11.2. Экспериментальная вариограмма (черная) и ее модель (серая) для временной компоненты пространственно-временных данных Таблица 11.1. Параметры моделей вариограмм Для построения пространственно-временной корреляционной структуры из отдельно промоделированных компонент использовалась модель произведения-суммы (11.15). Коэффициенты k1, k2, k3 определялись по формулам (11.19) с использованием параметров моделей отдельных компонент (см. табл. 11.1). Они получились равными 2,5·10–4, 0,975 и 0,86 соответственно. Графическое изображение общей модели представлено на рис. 11.3.
С использованием такой модели пространственно-временной кригинг был применен к некоторому набору отдельных измерений (в разных скважинах и в разное время). Этот набор не использовался в анализе из-за слабой представительности скважин — не более 10 измерений за весь период. Коэффициент корреляции получился очень высоким — 0,97.
Примеры пространственной оценки уровня грунтовых вод для отдельных временных срезов представлены на рис. 11.4.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 11.3. Модель пространственно-временной вариограммы данных Рис. 11.4. Несколько временных срезов результата моделирования Современные направления развития пространственной статистики 11.2. Стохастическое моделирование многоточечной статистики Ряд геостатистических алгоритмов стохастического моделирования, описанных в Главе 8, базируется на вариограмме, которая отражает пространственную корреляцию данных. Вариограмма рассчитывается как вариация разницы пар значений. Пара измерений, расположенных на близком расстоянии, имеет более близкие значения, чем пара измерений, более удаленных друг от друга. В результате использования такой двухточечной статистики (вариограммы) отсутствует возможность моделировать сложные связные структуры, например протяженные флювиальные пласты породы, речные структуры. Ограниченные возможности моделирования на основе вариограммы кратко обсуждались в Разделе 4.8. Объектный подход к стохастическому моделированию позволяет преодолеть эти ограничения и моделировать сложные связные структуры на основе объектов определенной геометрической формы. Таким образом, в объектном подходе пространственная корреляция жестко привязана к выбору размера и формы объектов. Однако разнообразие форм и размеров объектов не является такой унифицированной мерой пространственной корреляции, как вариограмма.
Объектное моделирование также сопряжено с рядом сложностей, которые уже обсуждались в Главе 8.
В начале 1990-х гг. был предложен новый подход к моделированию на основе тренировочного образа [Guardiano, Srivastava, 1993]. Однако в то время вычислительные возможности не позволили его реализовать на практике, и только в начале 2000-х гг. был предложен первый действующий алгоритм стохастического моделирования на основе многоточечной статистики [Strebelle, 2000, 2002].
Тренировочный образ является основой многоточечной статистики, он характеризует совместную связь множества точек, а не только пар с определенной пространственной ориентацией. Тренировочный образ представляет собой концепцию глобальной структуры данных (по аналогии с гистограммой или вариограммой), которая адаптируется к имеющимся локальным данным. При моделировании на основе многоточечной статистики удается воспроизводить глобальную структуру тренировочного образа, которая в то же время удовлетворяет локальной информации, имеющейся в точках измерений.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Многоточечное стохастическое моделирование совмещает в себе свойства объектного и пиксельного моделирования. Так, тренировочный образ может точно описывать достаточно сложные структуры различных геометрических форм, как и объектный подход. В то же время значение каждой ячейки моделируется индивидуально, как в других пиксельных алгоритмах (последовательном гауссовом, индикаторном и пр.). Как и в упомянутых методах, стохастическая природа моделирования проявляется в выборке значения из локальной функции плотности вероятности, построенной в каждой точке оценивания. Функция плотности вероятности строится на основе информации, полученной при обработке тренировочного образа, в отличие от других методов, основанных на вариограммном оценивании. При построении локальной плотности вероятности производится поиск конфигурации данных в локальной окрестности точки оценивания (data event) в тренировочном образе. На основе полученных вариантов значений строится функция для выборки.
Принцип последовательного моделирования используется здесь аналогично другим алгоритмам (см. Раздел 8.2), а именно каждая вновь смоделированная точка добавляется к набору данных для использования при моделировании последующих точек. Обработка тренировочного образа позволяет получить условную плотность распределения вероятности для каждой конфигурации пиксельные данных (data event).
Для иллюстрации рассмотрим примитивный пример тренировочного образа — вертикальные линии в квадрате 66 (рис. 11.5). Белые и черные ячейки распределены в равной пропорции (50% на 50%). Пошаговый алгоритм моделирования на сетке 22 приведен на рис. 11.6.
Современные направления развития пространственной статистики Рис. 11.6. Иллюстрация алгоритма стохастического моделирования с использованием многоточечной статистики на основе тренировочного образа Если рассматривать менее примитивную и более реалистичную конфигурацию тренировочного образа, то на его основе получаются неоднородные условные функции плотности вероятности для конфигурации окрестности данных (рис. 11.7) [Caers, 2005].
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 11.7. Схема получения и выборки из условной функции плотности вероятности конфигурации окрестности данных [Caers, 2005] Одним из ключевых вопросов моделирования на основе многоточечной статистики остается источник получения тренировочного образа. В геологии источниками тренировочных образов могут быть физические модели процессов отложений и образования речных систем, подробные описания обнажений пород, сейсмическое зондирование высокого разрешения. При использовании нескольких тренировочных образов можно получить альтернативные сценарии.
Современные направления развития пространственной статистики Алгоритм моделирования одного нормального уравнения (Single Normal Equation simulation — SNESIM) был предложен в [Strebelle, 2000, 2002).
Он позволяет моделировать категориальные данные. В качестве примера рассмотрим моделирование геологической структуры русел [S-GeMS]. Исходная информация — набор данных в точках измерений (рис. 11.8а) и тренировочный образ, описывающий характерную структуру русел, но не привязанный к конкретным данным (рис. 11.8б). На рис. 11.9 приведены равновероятные реализации, полученные на основе исходых данных и тренировочного образа при помощи пакета программ S-GeMS [S-GeMS].
Рис. 11.8. Данные измерений (а) и тренировочный образ (б) для задачи моделирования залегания геологических пород Рис. 11.9. Равновероятные реализации алгоритма SNESIM моделирования За последние годы было разработано несколько алгоритмов на основе многоточечной статистики, которые позволяют моделировать и непрерывные данные. Один из них использует фильтрацию при обработке тренировочного образа [Zhang et al., 2006]. В другом алгоритме выборка производится из В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика набора самих конфигураций окрестностей данных, полученных из тренировочного образа [Arpat, Caers, 2004].
Одним из ограничений подхода к моделированию на основе многоточечной статистики является проблема стационарности, которая подробно была рассмотрена в Разделе 4.10 и Главе 10. При моделировании в различных точках области оценивания используется один и тот же тренировочный образ, что предполагает стационарность пространственной корреляционной структуры. Решение проблемы учета нестационарности в многоточечном моделировании было предложено в [Strebelle, 2005].
В результате использования нестационарного тренировочного образа, в котором ориентация русел зависит от местоположения (рис. 11.10), полученная реализация не отражает структуры тренировочного образа — ориентации русел перемешаны в пространстве. Во избежание такого эффекта было предложено использовать поле фактора нестационарности в качестве дополнительной локальной информации.
Рис. 11.10. Нестационарный тренировочный образ (а) и стохастическая Если построить функцию изменения нестационарного фактора, например угла направления русел, на сетке оценивания (рис. 11.11б), то в результате учета этой информации при моделировании получается стохастическая реализация, которая отражает изменение параметров тренировочного образа в пространстве (рис. 11.11в). Так же можно учитывать комбинацию факторов — направление русел и их толщину. В результате в реализации можно воспроизвести структуру дельты (рис. 11.12в) на основе стационарного образа параллельных русел (рис. 11.12а).
Современные направления развития пространственной статистики Рис. 11.11. Учет изменения угла направления русел в пространстве:
тренировочный образ (а), фактор изменения угла направления русла (б), Рис. 11.12. Тренировочный образ (а), фактор масштабирования толщины русла (б), фактор изменения угла направления русла (в), В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика 11.3. Байесовская геостатистика Байесовский подход позволяет использовать в качестве дополнительной информации предварительные знания, сформулированные в вероятностном виде как приорные распределения. Приорные распределения совместно с данными позволяют оценивать зоны неопределенности (границы значений) исследуемой переменной. В случае полного байесовского подхода неопределенность представляется как постериорная локальная (или глобальная) функция распределения.
Здесь не представляется возможным подробно изложить все эти теории.
Мы приводим только базовые понятия, а желающие могут более подробно изучить материал по англоязычным ссылкам.
Если предварительная (приорная) информация относится к знаниям о пространственном тренде, то формулируется байесовский кригинг [Omre, 1987].
В некотором смысле его можно считать модификацией универсального кригинга, рассмотренного в Главе 5.
Напомним, что в универсальном кригинге тренд моделируется линейной комбинацией базисных функций Оценку универсального кригинга (в векторно-матричном виде), полученную из условий несмещенности и минимизации вариации ошибки, можно записать так:
где f 0 = f ( x0 ), F = ( f ( x1 ), f ( x2 ),..., f ( xn ) ) — вектор и матрица из баT зисных функций; ( C )ij = C ( xi x j ) и ( c0 )i = C ( xi x0 ) i, j = 1,..., n — ковариационные функции. Значение является оценкой неизвестного параметра.
Предположим теперь, что известна дополнительная информация о функции распределения неизвестного параметра. Как и в любом другом кригинге, ограничиваемся моментами первого и второго порядка, т. е.
В отличие от универсального кригинга в данном подходе отбрасывается условие несмещенности. Вместо него рассматривается компонента смещенности 0, т.е. оценка байесовского кригинга записывается как Современные направления развития пространственной статистики Веса же, как и всегда, находятся минимизацией вариации ошибки оценки.
Используя решение соответствующей системы уравнений, оценку (11.22) можно записать в виде где ковариационные члены видоизменились по сравнению с (11.21):
При использовании геостатистики неопределенность присутствует не только при моделировании тренда. Тренд вообще можно моделировать отдельно, например, как было описано в Главе 10. Важным аспектом геостатистического анализа является моделирование пространственной корреляционной структуры — вариограммы. Модель вариограммы задается набором параметров = (c0, c, a, ), где относится к типу модели (см. Раздел 4.4). Рассмотрение проблем с неопределенностью параметров вариограммы можно найти в [Piltz et al., 1997].
Использование модели вариограммы (11.23) и наличие предварительной информации о функции распределения исходных данных и параметров тренда позволили провести полное байесовское моделирование [Piltz et al., 2005]. При таком рассмотрении плотность постериорной условной функции распределения выражается следующим образом:
где — область значений параметра ; B — область значений параметра.
Метод байесовской максимизации энтропии Наиболее общим в рамках пространственной статистики является подход, разработанный Дж. Кристакосом, — метод байесовской максимизации энтропии (БМЭ). Классические геостатистические оцениватели являются частВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика ным случаем этого метода. Его теория и применение для анализа различных пространственных (и пространственно-временных) данных изложены в книгах [Christakos, 2000, 2002] и серии статей [Christakos, 1990; Christakos, 1998;
Christakos, Li, 1998; Serre, Christakos, 1999; D’Or et al., 2001; Bogaert, 2002;
Serre et al., 2003; D’Or, Bogaert, 2003; Savelieva et al., 2005].
Метод БМЭ базируется на трех фундаментальных основах:
• стохастическом описании информации, выполненном в вероятностной формализации;
• теории информации Шеннона [Шеннон, 1963];
• привязке к данным измерений.
Использование этих компонентов дает возможность объединять междисциплинарные исходные данные, так как стохастическое описание приводит их к общей формализации. Теория информации дает общую формулу максимизации информации при определенных ограничениях. Учет конкретных измерений позволяет подстроить общую формулу для описания и моделирования конкретного случая.
Стохастическое описание связано с введением набора возможных реализаций и их вероятностями. Набор возможных реализаций, удовлетворяющих заданным условиям, определяет уровень знаний. Если, например, возможна только единственная реализация, то это детерминистический случай, соответствующий полному знанию.
Таким образом, при использовании стохастического описания происходит смещение от некоторого единственного состояния системы к набору возможных реализаций. Изучение единственного состояния заменяется изучением вероятностей различных возможных состояний. А выводы о дальнейшем поведении системы делаются на основе всех возможных предыдущих и последующих состояний.
При работе в рамках неполных знаний (стохастический подход) выводы должны делаться на основе функции распределения, максимизирующей информацию (энтропию) при имеющемся наборе ограничений (исходной информации). Например, если известны статистические моменты данных, то максимизирует энтропию распределение, построенное как экспонента от линейной комбинации этих моментов.
Так как стохастическое описание дается через моменты, мы в общем случае получаем искомое распределение как экспоненту, параметризованную в зависимости от набора исходной информации.
Современные направления развития пространственной статистики После получения общей формы функции распределения остается выбрать ее вид, удовлетворяющий данным конкретных измерений, т. е. получить условную функцию распределения.
Не вдаваясь в математическую формализацию (ее можно найти в [Christakos, 2000]), рассмотрим процедуру проведения оценки в рамках данного подхода (грубо она приведена на рис. 11.16).
• Первый шаг состоит в сборе информации. Она делится на общие знания о процессе (фундаментальные законы природы, эмпирические формулы, моменты и корреляции и т. д.), которые собирают в общую базу знаний (G-KB), и конкретные проявления процесса (это точные и неточные данные измерений — интервалы, распределения и т. п.), которые собирают в специальную базу данных (S-KB).
• Второй шаг состоит в стохастической формализации всей собранной информации.
• Далее на основе общих знаний строится функция распределения, максимизирующая энтропию (fG).
• Этап интеграции заключается в построении условной функции распределения на основе общей функции распределения и специальной базы знаний:
Рис. 11.16. Схема проведения оценки по методу БМЭ В общем случае нет никаких ограничений на вид полученной условной функции распределения. Оцененная функция распределения дает возможность строить оценки любого типа. Это рассматривалось в Главе 5.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Пример использования БМЭ для моделирования пространственного распределения в рамках неточных данных В приведенном выше списке работ описано много разнообразных примеров использования БМЭ. Самый интересный из них посвящен моделированию распространения эпидемии чумы в Европе в XIII в. [Christakos et al., 2003]. Здесь мы приведем анализ данных, выполненный самими авторами [Savelieva et al., 2005].
Рассматривались данные по загрязнению почвы радиоактивными изотопами 137Cs, выпавшими в результате Чернобыльской аварии. Исходные данные были двух типов: точные hard (единственное измерение) и неточные soft (в одном населенном пункте было проведено несколько измерений). Поскольку измерения были приписаны к центру населенного пункта, они не давали возможности строить пространственные зависимости внутри него.
Так как все измерения, проведенные в разное время, были пересчитаны на момент аварии, они не описывали временных тенденций. Такие данные можно было только использовать для описания неопределенности. Все измерения были представлены в вероятностном виде: единственные рассматривались с вероятностью 1, неточные описывались локальными функциями распределения треугольной формы (рис. 11.17). Диапазон определялся локальными максимумом и минимумом, а в качестве наиболее вероятного значения (максимума плотности вероятности) использовалась экспертная оценка, так называемые официальные данные по загрязнению.
Рис. 11.17. Примеры локальных функций распределения в пунктах Современные направления развития пространственной статистики В данном случае общие знания включали в себя тренд (локальное среднее) и модель ковариации. Вообще говоря, они были получены на основе конкретных данных, но по построению метода моменты относятся к общим знаниям. Специальная база включала набор данных, описанный выше, и набор точек, где предполагается провести оценку k, — специально отобранные из исходного набора валидационные точки и точки на сетке размером 22 км.
Таким образом, полный набор пространственных точек можно описать как map = (hard, soft, k).
Условные функции распределения в точках оценивания можно формализовать:
Валидационный набор включал как точки с единственным измерением, так и точки с большим (более 20) количеством измерений. Для точек с единственным измерением это значение интерпретировалось как наиболее вероятное и сравнивалось с наиболее вероятным, оцененным в соответствии с постериорным локальным распределением БМЭ. Коэффициент корреляции для этой части валидационного набора был равен 0,92.
Для точек с большим количеством измерений можно оценить функцию распределения и сравнить ее с предсказанной БМЭ. Несколько примеров сравнения функций распределения с использованием специальных графиков (QQ-plot) представлено на рис. 11.18. График представляет собой оценки значений квантилей по набору измерений (ось X) и по оцененной локальной функции распределения (ось Y). Графики демонстрируют хорошее соответствие.
Для визуализации результатов удобно использовать какую-нибудь оценку. Самой распространенной оценкой при наличии локальной функции распределения является наиболее вероятное значение. Ее выбор обусловлен, в частности, тем, что она соответствует максимуму плотности вероятности, а в рамках методологии БМЭ оценка ориентируется на максимизацию энтропии.
Результаты картирования на регулярную сетку и несколько примеров полученных локальных функций распределения представлены на рис. 11.19.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Рис. 11.18. QQ-plot для сравнения локальных функций распределения измерений Рис. 11.19. Результат интерполяции (максимально вероятные значения) Современные направления развития пространственной статистики Литература Нужный А. С., Савельева Е. А., Линге И. И., Ястребков А. Ю. Статистический анализ изменения уровней грунтовых вод в районе ПО «Маяк» // Изв. Рос. акад. наук. Энергетика. — 2007. — № 6. — С. 73—79.
Шеннон К. Работы по теории информации и кибернетике. — М.: Изд-во иностр. лит., 1963. — 830 с.
Arpat B. G., Caers J. A. Multiple-scale, Pattern-based Approach to Sequential Simulation // Geostatistics Banff 2004 / O. Leuangthong and C. V. Deutsch (eds). — Dordrecht: Kluwer Academic Publ., 2004. — Р. 225—264.
Bogaert P. Spatial prediction of categorical variables: the Bayesian Maximum Entropy approach // Stochastic Environmental Research and Risk Assessment. — 2002. — Vol. 16. — Р. 425—448.
Christakos G. A Bayesian/maximum-entropy view to the spatial estimation problem // Mathematical Geology. — 1990. — Vol. 22. — Р. 763—776.
Christakos G. Modern Spatiotemporal Geostatistics. — New York: Oxford Univ. Press, 2000.
Christakos G. Spatiotemporal information systems in soil and environmental sciences // Geoderma. — 1998. — Vol. 85. — Р. 141— 179.
Christakos G., Bogaert P., Serre M. L. Temporal GIS. — New York:
Springer-Verl., 2002.
Christakos G., Li X. Bayesian maximum entropy analysis and mapping:
A farewell to kriging estimators? // Mathematical Geology. — 1998. — Vol. 30, N 4. — Р. 435—462.
Christakos G., Olea R. A., Yu H.-L., Wang L. L. Interdisciplinary Public Health Reasoning and Epidemic Modeling: Black Death Case. — [S. l.]:
Springer, 2003.
Cressie N. A. C. Statistics for Spatial Data. — New York: Wiley, 1993. — 900 p.
Cressie N. A. C., Huang H. Classes of nonseparable, spatio-temporal stationary covariance functions // J. of the American Statistical Association. — 1999. — Vol. 94. — Р. 1330—1340.
De Cesare L., Myers D., Posa D. Estimating and modeling space-time correlation structures // Statistics and Probability Letters. — 2001. — Vol. 51. — Р. 9—14.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика De Cesare L., Myers D., Posa D. FORTRAN 77 programs for spacetime modeling // Computers and Geosciences. — 2002. — Vol. 28. — Р. 205 —212.
Dimitrakopoulos R., Luo X. Spatiotemporal modeling: covariances and ordinary kriging systems // Geostatistics for the Next Century / R. Dimitrakopoulos (ed.). — Dordrecht: Kluwer Academic Publ., 1994. — Р. 88—93.
D’Or D., Bogaert P., Christakos G. Applications of BME to soil texture mapping // Stochastic Environmental Research and Risk Assessment. — 2001. — Vol. 15. — Р. 87—100.
D’Or D., Bogaert P. Continuous-valued map reconstruction with the Bayesian Maximum Entropy // Geoderma. — 2003. — Vol. 112. — Р. 169—178.
Fernndez-Casal R., Gonzlez-Manteiga W., Febrero-Bande M. General Classes of Flexible Spatio-Temporal Stationary Variogram Models. Spatiotemporal modelling of environmental processes // Proceedings of the 1st Spanish Workshop on Spatio-temporal Modelling of Environmental Processes, Benicasim (Castelln), Spain, 28—31 October 2001 / Ed. by J.
Mateu & F. Montes. — [S. l.], 2001.
Gaudard M., Karson M., Sinha E. L. D. Bayesian spatial prediction // Environment and Ecological Statistics. — 1999. — Vol. 6. — Р. 147— 171.
Guardiano F., Srivastava R. M. Multivariate geostatistics: Beyond bivariate moments // Geostatistics-Troia / A. Soares, ed. — Vol. 1. — Dordrecht:
Kluwer Academic, 1993. — Р. 133—144.
Kyriakidis P. C., Journel A. G. Geostatistical space-time models: a review // Mathematical Geology. — 1999. — Vol. 31. — Р. 651—684.
Omre Y. Bayesian kriging — merging observations and qualified guesses in kriging // Mathematical Geology. — 1987. — Vol. 19. — Р. 25—39.
Piltz J., Pluch P., Spock G. Bayesian Kriging with lognormal data and uncertain variogram parameters // Geostatistics for Environmental Applications / P. Renard, H. Demougeot-Renard, R. Fridevaux (eds). — [S. l.]: Springer, 2005. — Р. 51—62.
Piltz J., Schimek M. J., Spock G. Taking into account of uncertainty in spatial covariance estimation // Geostatiatica Wolongong / E. Baafi and N. Schofield (eds). — Vol. 1. — Dordrecht: Kluwer, 1997. — Р. 402—413.
Современные направления развития пространственной статистики Rouhani S., Myers D. E. Problems in Space-Time Kriging of Hydrogeological Data // Mathematical Geology. — 1990. — Vol. 22. — Р. 611—623.
Savelieva E., Demyanov V., Kanevski M. et al. BME Based Uncertainty Assessment of the Chernobyl Fallout // Geoderma. — 2005. — Vol. 128. — Р. 312—324.
Serre M. L., Christakos G. Modern Geostatistics: Computational BME in the light of uncertain physical knowledge — The Equus Beds Study // Stochastic Environmental Research and Risk Assessment. — 1999. — Vol. 13. — Р. 1—26.
Serre M. L., Kolovos A., Christakos G., Modis K. An application of the holistochastic human exposure methodology to naturally occurring Arsenic in Bangladesh drinking water // Risk Analysis. — 2003. — Vol. 23. — Р. 515—528.
S-GeMS: The Stanford Geostatistical Modeling Software // http://sgems.
sourceforge.net.
Strebelle S. Sequential simulation drawing structures from training images / Stanford Univ. — [S. l.], 2000. — 200 p. — Unpublished doctoral dissertation.
Strebelle S. Conditional simulation of complex geological structure using multiple-point statistics // Mathematical Geology. — 2002. — Vol. 34. — Р. 1—22.
Strebelle S. Geostatistical Modeling Using Multiple Sources of Information:
The MPS-FDM Workflow // Stanford-Heriot-Watt Forum on Reservoir Description and Modeling, Tiburon, California. — [S. l.], 2005.
Zhang T., Switzer P., Journel A. Filter-Based Classification of Training Image Patterns for Spatial Simulation // Mathematical Geology. — 2006. — Vol. 38, N 1.
Приложения 1. Математические обозначения В этот раздел вынесены только основные обозначения, использованные в данной книге. Некоторые обозначения, используемые локально, вводятся непосредственно в тексте.
Операторы Pr — оператор вычисления вероятности |x| — метрика в многомерном пространстве Координаты Rn, R2 — пространство действительных чисел размерности n, x, xi, xj,... — вектор координат в пространстве Rn ij — i-я координата точки xj в пространстве размерности n i — координата времени в пространственно-временном континууме Функции, реализации, оценки Z(x) — анализируемая непрерывная функция, случайная непрерывная функция — случайная пространственно-временная функция Q(x) — случайная категориальная переменная Z(xi), Zi — случайная (анализируемая) функция в точке xi U, V — случайные функции при рассмотрении многомерного анализа Z(x), Z(x) — случайные переменные в случае многопеременной функции Z zi, z(xi) — реализация случайной функции в точке xi n, n(x) — число точек, использующееся при оценке функции Z(x) в K — число переменных при многопеременном анализе, число отсечений (срезов) при индикаторном подходе Z*, Z*(x0) — оценка исследуемой функции, оценка в точке x x,..., x,..., x — случайная последовательность точек для проведения стоi N хастической реализации номер k в рамках последовательного принципа z ( xik ) — значение реализации k стохастического моделирования в Y(x) — функция, полученная из исследуемой после проведения операции (например, нормализации) F ( x; z ), F ( x1,..., xm ; z1,..., zm ) — кумулятивная условная функция распределения (однопеременная или совместная) S — поле, где определена случайная (анализируемая) функция S(x0) — геометрическая поддержка измерения x pi — площадь полигона Вороного (области влияния) точки xi pi0 — площадь полигона Вороного точки xi, арендованная новой Статистические моменты m — глобальное среднее или локальное среднее, постоянное по m — классическая несмещенная оценка математического ожидания (среднего) m(x) — локальное среднее, функция пространственного тренда R(x), (x) — функция невязки, случайная функция после удаления детерминистического тренда m(h) m+h m–h В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика m* — среднее оценки исследуемой функции — вариация по точкам, являющимся концом вектора h — вариация по точкам, являющимся началом вектора h VZ, VY — вариационно-ковариационные матрицы многомерных случайных переменных Z и Y Меры пространственной корреляции и связанные с ними параметры h — вектор, задающий пространственную ориентацию при вычислении и моделировании пространственной корреляции — шаг по времени при вычислении вариограммы C(x, h) — нестационарная ковариационная функция C(h) — стационарная ковариационная функция — пространственно-временная ковариация C(0) — глобальная вариация исследуемой функции CZ() — ковариационная функция функции Z (при необходимости Cij — ковариация для вектора, соответствующего вектору, разделяющему точки xi и xj Ci0 — ковариация для вектора, соответствующего вектору, разделяющему точки xi и x0 (точка оценки) C — кросс-ковариация переменных Z и Z — функция блочной ковариации (x, h) — нестационарная вариограмма (h) — стационарная вариограмма ij — вариограмма для вектора, соответствующего вектору, разделяющему точки xi и xj i0 — вариограмма для вектора, соответствующего вектору, разделяющему точки xi и x0 (точка оценки) — кросс-вариограмма переменных Z и Z g — псевдокросс-вариограмма переменных Z и Z — пространственная компонента пространственно-временной — временная компонента пространственно-временной ковариации x(h) — пространственная компонента пространственно-временно’й — временная компонента пространственно-временной вариограммы bw — ширина полосы по направлению при больших расстояниях c0 — параметр модели вариограммы «самородок»
c — параметр модели вариограммы «плато»
a ( a, a ) — параметр модели вариограммы (эффективный радиус корреляции) w(i) — весовые коэффициенты при гнездовом моделировании вариограммы — набор параметров модели (оценивателя) (h, ) — значение теоретической модели вариограммы с набором параметров Интерполяции — весовой коэффициент i-й точки, использующейся в линейном µ(x) — множитель Лагранжа при минимизации с ограничением R — штрафной член при вычислении ошибки интерполяции RMSE — корень из среднеквадратичной ошибки интерполяции 2 — интегральная ошибка интерполяции Eff — коэффициент эффективности r — коэффициент корреляции между оценкой и известными реальными значениями В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика D — область поиска в детерминистических интерполяторах — сглаживающий параметр в детерминистических методах 2, OK, UK — вариация простого, обычного, универсального кригинга fk(x) — базисная функция при моделировании пространственного F = ( f ( x1 ),..., f ( x N ) ) — матрица базисных функций тренда, определенная для точек измерений B(h) — ядерные базисные функции Индикаторный подход и стохастическое моделирование zk — значение отсечения (среза) при индикаторном преобразовании непрерывной функции I(x; zk) — индикаторное преобразование непрерывной функции Z(x) I(x; c) — индикаторное преобразование категориальной функции KI(h, zk) — нецентральная индикаторная ковариация для среза zk CI(h, zk) — центральная индикаторная ковариация для среза zk I(h, zk) — индикаторная вариограмма для среза zk ki — весовые коэффициенты индикаторного кригинга (k — номер среза, i — номер точки измерений) i*() — оценка для индикатора, полученная кригингом F*, F** — оценки локальной кумулятивной функции распределения F — оценки локальной кумулятивной функции распределения FD — оценки локальной кумулятивной функции распределения pk — среднее для индикатора по срезу zk P*, P** — оценка вероятности класса Sg() — функция спектральной плотности ковариационной функции — оператор преобразования случайной функции к случайной функции с нормальным распределением N(m, 2) — нормальное распределение с параметрами m, характеризующим среднее (параметр места), и 2, характеризующим YSK — оценка функции Y с помощью простого кригинга O — целевая функция при моделировании отжига O(i) — составная часть целевой функции при моделировании отжига, относящаяся к воспроизводимому статистическому параметру i Oold, Onew — значения целевой функции непосредственно до и после возмущения T — температура при моделировании отжига, область значений времени при пространственно-временно’м моделировании (i) — весовые коэффициенты составных частей целевой функции z(i)(xj) — значение в точке xj на i-м шаге итераций при определенной 2. Некоторые определения статистических понятий Понятие случайной величины активно используется в геостатистике. Приведем наиболее часто встречающиеся статистические формулы, связанные со случайными переменными.
Функция распределения вероятности (кумулятивная функция распределения) определяется для непрерывной случайной величины Z как функция непрерывного переменного, она означает вероятность того, что значение переменной меньше или равно z:
Функция распределения вероятности — монотонно-неубывающая от z, кроме того, она является ограниченной: 0 FZ ( z ) 1. Функцию распределения вероятности можно представить как интеграл плотности вероятности:
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика В случае пространственно распределенных данных случайная величина является функцией от координаты. При этом может рассматриваться кумулятивная функция распределения вероятности по выборке (ее называют глобальной) или функция распределения вероятности для конкретной точки (локальная).
Условная функция распределения вероятности означает условную вероятность.
Нормальное (гауссово) распределение вероятности используется наиболее часто. Оно удобно простотой и множеством доказанных теорем, относящихся к переменным, удовлетворяющим этому распределению. Нормальное распределение определяется формулой Данные, соответствующие логнормальному распределению вероятности, характеризуются тем, что после нелинейного логарифмического преобразования y = log ( x ) удовлетворяют нормальному (гауссову) распределению.
Меры, характеризующие функцию распределения. Медиана определяется как серединное значение, т. е. вероятность быть больше или меньше него для значений из некоторого набора одинакова. Иными словами, это такое x, что F(x) = 1/2, или x = F–1(1/2).
Верхний и нижний квартили (upper and lower quartile) — значения, соответствующие четверти наибольших Q1 и четверти наименьших Q3 значений.
Вместе с медианой они делят все множество данных на четыре части с равными вероятностями попадания в них: Q1 = F 1 (1 / 4 ), Q3 = F ( 3 / 4 ).
Разность между верхним и нижним квартилями может характеризовать разброс значений в наборе. Основное преимущество такой характеристики в том, что она не подвержена влиянию беспорядочных высоких значений.
Перцентиль (процент) — значение переменной, соответствующее процентной доле ранжированного распределения (сотыми долями). Перцентиль p (0 < p 1) — это значение x, вероятность быть ниже которого равна p/x = F–1(p).
Разбиение на квантили — деление множества данных на части с равными вероятностями попасть в каждую из них.
Меры неопределенности, определяемые по функции распределения. Вероятность попадания в интервал [A, B] определяется через разность значений функции распределения:
Доверительный интервал — интервал значений вокруг наиболее вероятного значения xmp, попадание в который лимитируется определенным процентом (чаще всего рассматривается 95%-ный доверительный интервал).
В общем случае 95%-ный доверительный интервал (несимметричный) zmp a, zmp + b задается так:
В частном случае гауссова распределения 95%-ный доверительный интервал симметричен и определяется параметром (a = b = 2).
Наиболее вероятное значение соответствует максимуму плотности функции распределения (производной от функции распределения).
Для вычисления медианы по набору данных не обязательно оценивать функцию распределения, можно воспользоваться формулой По аналогичной схеме можно оценивать и квантили, последовательно разбивая число данных.
В теории вероятностей вводятся статистические моменты порядка k (mk):
и центральные моменты порядка k (m(0)):
Наиболее часто используемые моменты и функции от них:
• Среднее — момент первого порядка:
• Вариация — центральный момент второго порядка:
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика • Стандартное отклонение — корень из вариации:
Используется для характеристики разброса значений.
• Коэффициент симметрии — центральный момент третьего порядка:
Характеризует степень перекошенности распределения.
• Коэффициент вариации — отношение стандартного отклонения к среднему значению:
Используется для описания асимметрии распределения аналогично коэффициенту симметрии. В основном этот показатель используется для описания распределений положительных значений и с положительным коэффициентом симметрии. Если коэффициент вариации больше единицы, это означает наличие беспорядочных больших значений.
• Эксцесс — центральный момент четвертого порядка:
Характеризует крутизну плотности функции распределения рядом с максимумом.
Меры ошибки. Для сравнения оценок с реальными значениями используются характеристики ошибок оценки. Кроме вероятностных, получаемых по функции распределения, существуют еще детерминистические характеристики.
Невязка — разность между правильным значением и оценкой:
Абсолютная ошибка — абсолютное значение от невязки:
Относительная ошибка — невязка, нормированная на реальное значение, Часто представляется в процентах. Может также использоваться абсолютный аналог.
Среднеквадратичная ошибка — глобальная характеристика по всем ошибкам на оцениваемом наборе:
Коэффициент корреляции Пирсона — коэффициент корреляции между оценками и реальными значениями:
3. Краткий обзор книг по геостатистике Теория Сложность 1. Isaaks E. H., Srivastava R. M. An Introduction to Applied Geostatistics. — Oxford: Oxford Univ. Press, 1989. — 592 p.
Книгу можно рекомендовать в качестве исходного знакомства с геостатистикой для неспециалистов. Содержит основные понятия и модели геостатистики и изобилует примерами. Материал изложен доступно и не требует специальной подготовки.
2. Clark H. W. A. Practical Geostatistics 2000 / Publ. by Geostokos Ecosse. — [S. l.], 2004. — 440 p.
Книга посвящена основам статистики и теоретическим основам линейной геостатистики, включая вариографию и различные модели кригинга. Включены упражнения и программное обеспечение по геостатистике PG2000.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Сложность 3. Wackernagel H. Multivariate Geostatistics. — [S. l.]: Springer, 2003. — Книга посвящена многопеременной геостатистике. Подробно изложены основные модели многопеременной геостатистики. Имеются разделы о нелинейных моделях, нестационарных случаях, многопеременных пространственно-временны’х приложениях. Изложение теории сопровождается примерами из различных областей.
Сложность 4. Chile J.-P. Delfiner P. Geostatistics: Modeling Spatial Uncertainty. — New York: John Wiley & Sons Inc., 1999. — 695 p. — (Wiley Series in Probability and Statistics).
В книге теоретическое математически насыщенное изложение всех основ геостатистики. Рассмотрены модели с использованием корреляции более высокого порядка.
5. Cressie N. Statistics for spatial data. — New York: John Wiley & Sons, 1991. — 900 p.
Книга содержит наиболее полное изложение различных методов пространственной статистики, в том числе геостатистики, разработанных до 1990-х гг.
6. Матерон Ж. Основы прикладной геостатистики. — М.: Мир, 1968. — 407 с.
Книга написана основателем геостатистической теории Ж. Изложены основы классической геостатистики. Хотя изложение носит чисто математический характер, издание представляет интерес не только для математиков, работающих в области теории вероятностей и функционального анализа, но и для специалистов по прикладным наукам, занимающихся статистическим анализом образцов и структур.
Справочники Сложность 7. Deutsch C. V., Journel A. G. GSLIB: Geostatistical Software Library and User’s Guide. — New York: Oxford Univ. Press, 1998. — 369 p.
В книге описаны алгоритмы классической геостатистики, реализованные в Стэнфордском университете в виде библиотеки программ GSLIB на Фортране. Приведено краткое, но исчерпывающее описание основных алгоритмов и рассказано об их практическом применении. Приложен диск с исходными кодами программ и исполняемыми файлами, а также примерами данных.
Приложения к тематическим задачам Сложность 8. Дюбрюль О. Геостатистика в нефтяной геологии / Издательство Института компьютерных исследований, НИЦ «Регулярная и хаотическая динамика», 2009. — 256 с.
Переводная книга по геостатистике. Показано, не прибегая к языку математики, что геостатистика — простой и гибкий формальный подход для количественного представления геологических данных.
Рассмотрены все основные аспекты классической геостатистики и способы адаптации геостатистических моделей для решения конкретных геологических задач.
9. Красильников П. В. Геостатистика и география почв / Наука, 2007 — В книге представлено использование простейших методов геостатистики для анализа пространственных особенностей почв.
10. Caers J. Petroleum Geostatistics / Society of Petroleum Engineers. — [S. l.], 2005. — 88 p.
В книге сжато изложена геостатистическая методология в приложении к моделированию нефтяных месторождений. Включены многие современные алгоритмы геостатистики, применяемые в практичеВ. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика ских исследованиях. Материал изложен доступно, без подробных статистических выкладок и сопровождается иллюстративными схемами алгоритмов. Издание ориентировано на широкий круг читателей и не требует специальной математической подготовки.
11. Deutsch C. V. Geostatistical Reservoir modelling. — [S. l.]: Oxford Univ.
Press, 2002. — 400 p.
В книге изложена геостатистическая теория и приведены алгоритмы, используемые для моделирования пористых геологических сред нефтесодержащих пластов. Книга ориентирована на широкую аудиторию инженеров без специальной статистической подготовки. Материал сопровождается примерами и блок-схемами алгоритмов.
12. Webster R., Oliver M. O. Geostatistics for Environmental Scientists. — [S. l.]: John Wiley & Sons, 2000. — 286 p. — (Statistics in Practice).
Книга — популярное изложение линейных методов геостатистики для задач окружающей среды. Включена глава о дизъюнктивном кригинге (disjunctive kriging). В приложении приведено описание программы Genstat.
Сложность 13. Kanevski M., Maignan M. Analysis and modelling of spatial environmental data. — Lausanne: EPFL Press, 2004. — 288 p. — (With a educational/research Geostat Office for Windows software package) (http://www.ppur.org/auteurs/1000772.html).
Книга посвящена практическому анализу и моделированию пространственных данных. Изложены методы геостатистики и искусственного интеллекта (искусственных нейронных сетей и машин векторов поддержки). Приложен диск с учебной версией пакета программ «Геостат Офис», в котором реализованы описанные модели геостатистики и ИНС (учебная версия ограничена количеством загружаемых данных).
14. Goovaerts P. Geostatistics for Natural Resources Evaluation. — New York: Oxford Univ. Press, 1997. — 376 p.
Книга содержит подробное описание основных методов геостатистики и их применения к пространственному анализу данных экологического мониторинга. Набор основных алгоритмов в целом совпадает с пакетом GSLIB, но сопровождается более разнообразными примераПриложения ми исследования. Материал изложен подробно и на хорошом математическом уровне.
15. Advanced Mapping of Environmental Data: Geostatitistics, Machine Learning and Bayesian Maximum Entropy / Ed. by M. Kanevski. — [S. l.]: iSTE, Dec. 2007. — 352 p.
Книга посвящена применению статистических методов моделирования к разнообразным пространственным данным по окружающей среде, геологии, географии, климатическому моделированию, экологии и пр. Изложены модели классической геостатистики, а также современные разработки, методы машинного обучения (ИНС, машины поддерживающих векторов) и теория байесовской максимальной энтропии.
Сложность 16. Kanevski M., Pozdnukhov A., Timonin V. Machine learning algorithms for analysis and modelling of spatial data: Theory and case studies. — [S. l.]:
EPFL Press, 2008. — 300 p.
Книга — дальнейшее развитие более раннего издания. Наряду с кратким изложением моделей геостатистики рассмотрено применение моделей машинного обучения (искусственных нейронных сетей, машин поддерживающих векторов) к задачам пространственной классификации и регрессии. Изложены последние достижения в статистической теории обучения и представлен огромный спектр различных моделей основанных на обучении. Описание методов сопровождается примерами на реальных данных по окружающей среде. Приложен диск с пакетом программ «Machine Learning Office», дающий возможность применить модели на практике.
17. Christakos G., Bogaert P., Serre M. Temporal GIS: Advanced Functions for Field-Based Applications. — [S. l.]: Springer, 2002. — 250 p.
В книге изложена теория метода байесовской максимальной энтропии (BME) и его приложение к задачам пространственно-временного картирования. Разработанная теория позволяет интегрировать в модели оценивания различные типы информации: интервальную, качественную, экспертную, эмпирическую. Теория метода проиллюстрирована практическими примерами. Включен пакет прикладных программ TGIS для Матлаба, в котором реализован BME.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика 4. Краткий обзор программного обеспечения по геостатистике В этом приложении приведен список избранных геостатистических компьютерных программ. Список не претендует на полноту и содержит наиболее популярные и доступные программы, которые в совокупности отражают весь спектр геостатистических моделей. Выбор автора является субъективным и основывается на личном опыте.
GSLIB — набор программ на языке программирования FORTRAN (с открытыми кодами), написанных студентами и аспирантами Стэнфордского университета. Набор программ покрывает практически полный спектр методов классической геостатистики и может работать под различными операционными системами (Windows, UNIX, DOS). Распространяется на диске как приложение к книге Deutsch C. V., Journel A. G. GSLIB: Geostatistical Software Library and User’s Guide. — New York: Oxford Univ. Press, 1998. — 369 p.
(http://www.gslib.com). В этом наборе программ не предусмотрено средство для подбора параметров модели вариограммы. Программы могут запускаться как отдельные модули с использованием больших файлов с параметрами или через специальную интерактивную программу WinGSLIB (http:// www.statios.com/WinGslib).
SGEMS — оболочка с набором прикладных геостатистических моделей и библиотека для разработчика, изданная и поддерживаемая Центром прогноза нефтяных месторождений (SCRF, http://ekofisk.stanford.edu/SCRF.
html) Стэнфордского университета. Пакет программ включает наиболее современные алгоритмы многоточечной статистики наряду с моделями классической геостатистики (http://sgems.sourceforge.net).
VarioWin — интерактивная программа под Windows для анализа и моделирования пространственной корреляционной структуры данных включая построение модели вариограммы. Распространяется как приложение к книге Pannatier Y. VARIOWIN Software for Spatial Data Analysis. — New York:
Springer Verl., 1996 (http://www-sst.unil.ch/research/variowin).
«Геостат Офис» (GSOffice) — набор интерактивных программ под Windows для полного анализа и визуализации (2D) пространственных данных. Помимо геостатистических моделей GSOffice содержит другие методы пространственного анализа (искусственные нейронные сети, машины на опорных векторах и пр.), есть возможность экспорта результатов в геоинформационные системы (ГИС) — ArcView, MapInfo. Учебная версия GSOffice (с ограничением на количество входных данных). Распространяется как приложение к книге Kanevski M., Maignan M. Analysis and modelling of spatial environmental data. — Lausanne: EPFL Press, 2004. — 288 p. (http://www.
ibrae.ac.ru/~mkanev/eng/gsoffice/HELP/Introduction.html.
Gstat — пакет геостатистических программ под различные платформы (Windows, UNIX, R), разрабатываемый E. J. Pebesma с 1996 г. в Утрехтском университете. Пакет включает различные типы кригинга, стохастическое гауссово и индикаторное моделирование, а также вариографию. Есть возможности обмена данными с ГИС (http://www.gstat.org).
На платформе статистического языка R (http://www.r-project.org) существуют и другие бесплатные дополнительные геостатистические модули (sgeostat, geoR, Rasp, geoRglm, VR и т. д. — http://cran.r-project.org/src/ contrib/Views/Spatial.html).
GeoEAS — один из старейших программных пакетов по геостатистике, содержащий набор программ для выполнения геостатистической интерполяции (кригинга) с требующейся для этого предобработкой (вариография) данных и визуализацией. Пакет создавался при участии Агентства по охране окружающей среды США. Находится в свободном доступе (http://www.
epa.gov/ada/csmos/models/geoeas.html).
Коммерческие программные продукты. Существуют многичисленные коммерческие геостатистические программные продукты (GS+, Geovariances Isatis, Lynx Geosystmes, SAGE 2001). В один из наиболее распространенных коммерческих пакетов для пространственной интерполяции SURFER Golden Software включены простой и обычный кригинг. Геостатистические алгоритмы находят применение в различных специализированных программных продуктах, таких как геоинформационные системы (ArcView Spatial AnalystTM). Также, например, для нефтяной отрасли были разработаны специализированные программы, включающие геостатистические алгоритмы (Schlumberger PetrelTM, IRAPTM RMS).
Более обширный список компьютерных программ по геостатистике можно найти на основном сервере по геостатистике AI-GEOSTAT (GIS, geostatistics, spatial analysis) (http://www.ai-geostats.org).
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика 5. Краткий обзор информационных ресурсов по геостатистике в Интернете В настоящее время в Интернете собрано огромное количество информации по анализу пространственно распределенных данных и по смежным темам. Ниже приведены ссылки на некоторые сайты, связанные с геостатистикой. Этот список неполный, он в основном представляет организации, использующие геостатистику для различных приложений. Геостатистика — динамично развивающаяся область, поэтому число новых ресурсов постоянно растет, многие группы, использующие геостатистику, имеют свои сайты.
1. AI-GEOSTAT (GIS, geostatistics, spatial analysis) (http://www.aigeostats.org). Основной обзорный сервер по геостатистике. На нем можно подписаться на список рассылки электронной конференции AI-GEOSTAT. Здесь находится большое количество ссылок на различные ресурсы в сфере пространственного моделирования: программное обеспечение, публикации, конференции, вакансии и др.
2. International Association for Mathematical Geology, IAMG (http:// www.iamg.org). Сервер Международной ассоциации математической геологии. Содержит ссылки на основные издания и конференции ассоциации, а также архив кодов компьютерных программ, опубликованных в журнале «Computers and Geosciences».
3. GEOENVia (http://www.geoENVia.org). Сервер международной ассоциации, пропагандирующей использование геостатистики для анализа окружающей среды. Здесь приведена информация о планирующихся конференциях, курсах, школах, связанных с геостатистикой. Конференции ассоциации проводятся раз в два года.
4. PEDOMETRICS (http://www.pedometrics.org). Сервер международной рабочей группы по применению математических методов для анализа почвы в рамках ассоциации по почвоведению. Геостатистика является основным, но не единственным аппаратом, использующимся при анализе почв. На этом сайте можно найти хорошие примеры практического использования геостатистики.
5. Environmental Modelling and System Analysis Lab (http://www.ibrae.
ac.ru/~mkanev/). Веб-сайт Лаборатории моделирования окружающей среды и системных исследований ИБРАЭ РАН, который поддерживают авторы этой книги. На нем находится информация об исследованиях лаборатории (геостатистика, искусственные нейронные сети, фракталы, временны’е ряды, радиоэкологическое моделирование), публикациях, научных проектах, а также о разрабатываемом математическом обеспечении. Приведены различные примеры исследования данных по окружающей среде с помощью геостатистики и ГИС. Также на сайте можно скачать программу 3Plot — визуализационный модуль пакета программы «Геостат Офис».
6. Ответы к упражнениям Упражнение 2. При ячейковой декластеризации веса данных рассчитываются на основе количества попавших в ячейку данных. Размер ячейки может варьироваться и влиять на значения весов. Если в ячейку попадают все точки кластера (характерный размер кластера соответствует размеру ячейки декластеризации), то значения в этих точках учитываются с меньшими весами, что уменьшает их влияние на декластеризованное среднее значение данных.
Размеры кластеров высоких и низких значений могут быть различны. При декластеризации кластеров высоких значений декластеризованное среднее значение меньше исходного, поскольку бо’льшие значения данных учитываются с меньшим весом. При декластеризации кластеров низких значений декластеризованное среднее выше исходного. Таким образом, варьируя размер ячейки декластеризации, можно построить кривую зависимости декластеризованного среднего значения от размера ячейки и на ее основе найти минимальное и максимальное декластеризованные средние значения. Максимальное среднее значение соответствует декластеризации кластеров низких значений, а минимальное среднее значение — декластеризации кластеров высоких значений.
Упражнение 2. Стационарность второго порядка включает в себя внутреннюю гипотезу, так как существование ковариации означает и существование полувариограммы.
Это легко получить, расписав формулу вариограммы. Обратное — неверно.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Упражнение 3. A — степень 2; B — степень 1; C — степень 3.
Упражнение 4. Доказательство:
Упражнение 4. Доказательство:
Упражнение 4. Доказательство:
Упражнение 4. Если вариация функции распределения равна единице (например, в случае стандартного нормального распределения), то r(h) = C(h), что приводит к искомому соотношению вариограммы и корелограммы.
Упражнение 4. Половина угла раствора D равна 15°. Для получения шести направлений для расчета вариограммы 180° делится на шесть с учетом свойства симметрии вариограммы. Таким образом, каждый сектор равен 30°, что дает половину раствора 15° в обе стороны от угла направления каждой вариограммы.
Упражнение 4. Стационарные модели: наггет, сферическая, гауссова (асимптотически), экспоненциальная (асимптотически), периодическая, затухающая периодическая, а также кубическая и пентасферическая.
Нестационарная модель: степенная. Но при желании ее тоже можно ограничить.
Упражнение 4. С() = (0).
Воспользуемся результатом упражнения 4.2: (0) = C(0) – C(0) = 0 = С().
Упражнение 4. () = С(0) = 2.
Воспользуемся результатом упражнения 4.2: () = C(0) – C() = С(0) = 2.
Упражнение 4. Вариограмма является симметричной функцией: (h) = (–h). Для произвольного угла направления справедливо () = ( + 180).
Радиус корреляции для 270°~ 5, для 240°~ 6, для 210 ~ 9, для 180 ~ 20.
Упражнение 4. Ответы:
а) одиночное тело, радиус корреляции 26—28;
б) набор выпуклых тел, радиус корреляции 10—30, нижняя граница соответствует корреляции внутри каждого объекта, в то время как верхняя В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика граница характеризует корреляцию между объектами, периодическая структура указывает на повторяющиеся схожие объекты;
в) извилистое русло, радиус корреляции 25—30, присутствует анизотропия на мелких масштабах (повороты русла);
г) параллельные русла, радиус корреляции 5—6 по вертикали соответствует толщине русел и до 10 по горизонтали характеризует горизонтальные участки русел, присутствует геометрическая анизотропия;
д) смыкающиеся объекты, радиус корреляции 10—20, сильная геометрическая анизотропия характеризует ориентацию структур;
е) пикселизированная мозаика, радиус корреляции 3 соответствует размеру мелких объектов различной формы, геометрическая анизотропия характеризует диагональную ориентацию объектов, выход вариограммы на плато указывает на отсутствие корреляции между мелкими объектами случайной формы.
Упражнение 5. Оценка кригинга: Z * ( x0 ) = w j Z ( x j );
математическое ожидание невязки оценки Z(x0) в точке x0:
что означает несмещенность оценки при стационарности случайной функции:
Упражнение 5. Доказательство.
Если Z(x) не обладает стационарностью, то E {Z ( xi )} E {Z ( x0 )}.
Таким образом, что означает смещенность оценки кригинга.
Упражнение 5. Если x0 = xi, т. е. это точка из набора данных, то Сi0 = C00 = 2, и каждое уравнение системы будет иметь вид Очевидно, что wi = 1, w j = 0, j = 1,..., n, j i является решением этой системы. И если матрица ковариаций несингулярна, то решение системы единственно.
Упражнение 5. Доказательство.
Ошибка простого кригинга при нулевой ошибке измерений где 2 — вариация данных.
Как было показано в упражнении 5.3, wi = 0, w0 = 1, C00 = 2, тогда Упражнение 5. А. Вариация оценки кригинга определяется по формуле (5.14) как разность вариации исходных данных и взвешенной суммы ковариаций. Последняя В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика положительна в силу неотрицательной ковариации в предположении о стационарности. Таким образом, вариация кригинга не больше вариации исходных данных.
Б. Гладкость оценки кригинга определяется ее глобальной вариацией. Вариация оценки кригинга равна вариации исходных данных в случае нулевой ковариации в формуле (5.14). Это может быть достигнуто в случае полного отсутствия пространственной корреляции — вариограмма с чистым наггетом. В этом случае Сij = Ci0 = 0.
Упражнение 5. A — обратные квадраты расстояния, B — обычный кригинг с большим радиусом корреляции (r = 10 — все данные), C — обычный кригинг с маленьким радиусом корреляции (r = 1).
Упражнение 7. Доказательство.
где n1 + n2 = n, где n1 соответствует индикаторным значениям 0, а n2 — 1.
Среднее значение для отсечения по медиане m1 = 0,5.
Упражнение 8. Оценка кригинга гладко интерполирует значения оцениваемой переменной в промежутках между данными. Стохастическое моделирование не дает гладкой зависимости в промежутках между данными.
Упражнение 8. Оценка кригинга всегда ограничена минимальным и максимальным значениями данных. Максимальное значение стохастической реализации может быть выше максимального значения исходных данных, оно зависит от задаваемого уровня.
Упражнение 8. А — стохастическое моделирование, Б — кригинг. Уровень плато вариограммы характеризует вариация глобального распределения, которая всегда меньше у оценки кригинга, чем у стохастической реализации.
Упражнение 8. А. Могут использоваться любые стационарные типы моделей (сферическая, экспоненциальная, гауссова и пр.), степенная модель не может быть использована.
Б. Плато вариограммы равно значению априорной вариации, которое для стандартного гауссова распределения нормализованных значений, используемых в гауссовом моделировании, равно 1.
7. Глоссарий Анизотропия — зависимость некоторого свойства функции от ориентации аргумента.
Анизотропия геометрическая (geometric) — анизотропия, при которой полувариограммы (ковариации) по различным направлениям имеют одинаковую форму и плато, но разные радиусы, изолинии вариограммы на диаграмме имеют форму концентрических эллипсов.
Анизотропия зонная (zonal) — анизотропия, которая не является геометрической.
Валидация — проверка качества работы модели при помощи данных, не использованных для ее настройки.
Вариабельность (пространственная) — свойство пространственно распределенной функции иметь неоднородное поле значений.
Вариограмма (variogram) или полувариограмма, структурная функция — статистический момент второго порядка для разности значений в точках, разделенных некоторым вектором, т. е. зависимость квадрата разности значений функции в точках от вектора расстояния между точками.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Вариограмма анизотропная — зависимость значений вариограмм от направления вектора, разделяющего пары точек.
Вариограмма по всем направлениям (omnidirectional variogram) — вариограмма, не моделирующая анизотропию, т. е. зависящая только от модуля вектора, разделяющего точки пары.
Вариограмма экспериментальная — значение вариограммы, вычисленное на основе данных.
Модель вариограммы — теоретическая функция, аппроксимирующая значения вариограммы между точками экспериментальной вариограммы (лагов).
Параметры модели вариограммы — см. наггет, плато, радиус корреляции.
Поверхность вариограммная (variogram surface) — диаграмма значений вариограммы, полученных на регулярной сетке.
Роза вариограммная (variogram rose) — лепестковая диаграмма типа розы ветров, где вдоль каждого лепестка отложено значение вариограммы в соответствующем направлении.
Вариография (variography) — анализ и моделирование пространственной корреляции (вариограмм).
Внутренняя гипотеза (intrinsic hypothesis) — свойство случайной функции со стационарными приращениями, т. е. функции, у которой существуют математическое ожидание, не зависящее от местоположения, и конечная вариация разницы значений функции в точках независимо от местоположения.
Геостатистика (geostatistics, пространственная статистика) — развитие статистики для анализа пространственно распределенных данных.
Декластеризация (declustering) — приписывание весов значениям пространственной функции в точках в зависимости от характера сети мониторинга.
Дрейф (пространственный, drift) — зависимость средней разности значений функции точек от вектора расстояния между точками.
Индикаторный подход — непараметрический метод для моделирования локальной функции распределения пространственной случайной переменной, основан на нелинейном преобразовании данных, моделирующем функцию распределения в исходных точках.
Интерполяция — оценивание значений функции в точках, где значение неизвестно, но окруженных точками с известными значениям аргумента.
Детерминистические методы пространственной интерполяции — методы, основанные на предположении об аналитической (формульПриложения ной) зависимости между данными в пространстве (обратные расстояния в степени, полиномы, сплайны и т. д.).
Статистические (геостатистические) методы пространственной интерполяции — методы, основанные на предположении о существовании случайной пространственной функции, реализациями которой являются значения измерений.
Кластер (cluster) — область повышенной плотности точек измерений пространственной функции.
Ковариационная функция (covariance function) — зависимость разницы среднего значения произведения значений функции в парах точек и квадрата математического ожидания функции от вектора, разделяющего точки пары.
Ковариация пары значений функции — разница среднего значения произведения значений функции в двух точках и квадрата математического ожидания функции.
Кокригинг (cokriging) — геостатистический метод совместной пространственной интерполяции нескольких переменных, основанный на линейной регрессии, обладает несмещенностью и минимальной дисперсией оценки.
Кригинг (kriging) — геостатистический метод пространственной интерполяции, основанный на линейной регрессии, обладает несмещенностью и минимальной дисперсией оценки.
Индикаторный кригинг (indicator kriging) — геостатистический непараметрический метод пространственной интерполяции, основанный на линейной регрессии нелинейно преобразованных переменных (индикаторов), обладает несмещенностью и минимальной дисперсией оценки.
Кригинг с внешним дрейфом — кригинг с трендом, который задается значениями функции тренда в точках оценивания.
Логнормальный кригинг — геостатистический метод пространственной интерполяции для функции, реализации которой обладают свойством логнормальности, т. е. логарифмическое преобразование приводит к нормальному распределению.
Обычный кригинг (ordinary kriging) — кригинг с неизвестным математическим ожиданием случайной функции.
Простой кригинг (simple kriging) — кригинг с известным математическим ожиданием случайной функции.
Универсальный кригинг (с трендом) — кригинг с полиномиальной моделью тренда.
В. В. Демьянов, Е. А. Савельева Геостатистика: теория и практика Кросс-валидация (cross-validation) — метод подбора оптимальных параметров модели интерполяции при помощи оценки значения в точке измерения без учета самого измерения в этой точке.
Лаг, лэг (lag) — расстояние, которое выбирается для поиска пар точек при расчете моментов второго порядка (вариограммы, ковариации, мадограммы и т. д.).
Мадограмма (madogram) — зависимость среднего модуля разности значений функции от вектора расстояния между точками.
Наггет (nugget — самородок) — параметр теоретической модели вариограммы, характеризующий значение вариограммы вблизи нуля.
Непрерывность — свойство данных, при котором пара точек, находящихся ближе друг к другу, скорее будет иметь близкие значения, чем пара удаленных друг от друга точек.
Нестационарность — изменяющийся характер распределения в зависимости от области рассмотрения.
Нормальная бумага (normal probability plot) — график зависимости значений функции распределения случайной переменной от значений, соответствующих нормальному распределению.
Плато (sill) — параметр теоретической модели вариограммы, характеризующий значение вариограммы на больших расстояниях (при условии ее стационарности).
Полигоны Вороного (ячейки Дирихле, Тиссена) — область влияния точки Xi, т. е. совокупность всех точек исследуемой области (Z(Xi)) таких, что x Z(Xi), j i: |Xi, x| < |Xj, x|.
Последовательный принцип при стохастическом моделировании — использование уже промоделированных значений при моделировании в следующих точках.
Пост плот (post plot) — диаграмма местоположения точек (графическое представление данных).
Пространственная корреляция — зависимость между значениями пространственно распределенной функции от взаимного расположения точек.
Радиус корреляции (range) — параметр теоретической модели вариограммы, характеризующий расстояние достижения вариограммой постоянного значения (плато).
Случайная переменная — переменная, которая может принимать набор значений в соответствии с функцией распределения вероятности.
Стационарность — отсутствие зависимости в поведении случайной функции от местоположения.
Стационарность в строгом смысле — инвариантность функции распределения относительно вектора сдвига.
Стационарность в широком смысле (second order stationarity) — свойство случайной функции: математическое ожидание не зависит от местоположения, существует ковариация, зависящая только от вектора, разделяющего точки (стационарность ковариации).
Стохастическое моделирование (симуляции, stochastic simulations) — метод генерации равновероятных реализаций в соответствии с функцией распределения случайной функции.
Гауссово стохастическое моделирование — алгоритмы стохастического моделирования в предположении о мультинормальности моделируемой случайной функции.
Гауссово обрезанное моделирование (truncated Gaussian) — специальная модификация алгоритма гауссова стохастического моделирования для случая категориальной переменной.
Индикаторное моделирование — алгоритм последовательного стохастического моделирования, использующий индикаторный подход, который требует предварительного индикаторного преобразования данных.
Объектное моделирование — алгоритм стохастического моделирования, основанный на использовании объектов характерной формы.
Отжига моделирование (simulated annealing) — алгоритм генерации равновероятных реализаций распределения случайной функции, основанный на принципе стохастической релаксации и имитирующий металлургический процесс медленного охлаждения раскаленного металла.
Прямое моделирование — алгоритм последовательного стохастического моделирования, не требующий предварительного преобразования данных, так как не делается никаких предположений о характере функции распределения данных.
Структурный анализ (пространственный), вариография (variography) — анализ и моделирование пространственной корреляции (вариограмм).
Тренд пространственный (trend) — крупномасштабная зависимость значений пространственной функции от местоположения.
Триангуляция — разбиение области исследования на треугольники с вершинами в точках измерений так, что их ребра не пересекаются.
Указатель автоматический режим, 57, 226, 227 вариабельность, 25, 46, 89, моделирования одного нормального вариация, непараметрический, 191 вариограмма, 21, 67, 228, обучаемый на данных, 19, 23, 263 анизотропная, 71, 90, параметрический, 191 влияние тренда. См. тренд влияние геостатистический. См. влияние экстремальных значений.
многопеременный, 22, 145, 152 ние на вариограмму принципиальных компонент, 162 выбор раствора угла, пространственных данных. См. геологических структур, моделирование пространственное гнездовая структура, 86, сети мониторинга, 25, 35 действительный радиус корреляции, геометрическая, 90, 91 допуск угла раствора, негеометрическая радиуса, 92 индикаторная, 170, аннилинг. См. моделирование отжига невязок, базовая модель пространственной нормализованных значений, валидационный набор, 226, 238, 285 относительная, валидация, 230, 236, 239, 246, 256, отрицательная определенность, парная относительная, 70 геостатистические модели по направлениям, 71, 93 геостатистический анализ. См.
пространственно-временная, 265 геостатистика радиус корреляции, 81, 255 геостатистическое оценивание. См.