WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«СТАТИСТИЧЕСКИЙ АНАЛИЗ ИНТЕРВАЛЬНЫХ НАБЛЮДЕНИЙ ОДНОМЕРНЫХ НЕПРЕРЫВНЫХ СЛУЧАЙНЫХ ВЕЛИЧИН ...»

-- [ Страница 1 ] --

МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО

ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ

На правах рукописи

ПОСТОВАЛОВ СЕРГЕЙ НИКОЛАЕВИЧ

СТАТИСТИЧЕСКИЙ АНАЛИЗ ИНТЕРВАЛЬНЫХ

НАБЛЮДЕНИЙ ОДНОМЕРНЫХ НЕПРЕРЫВНЫХ СЛУЧАЙНЫХ

ВЕЛИЧИН

Специальность 05.13.16 — применение вычислительной техники, математического моделирования и математических методов в научных исследованиях (в области технических наук

) Диссертация на соискание ученой степени кандидата технических наук

Научный руководитель к.т.н., доцент Лемешко Б.Ю.

Новосибирск,

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

1. СПОСОБЫ НЕТРАДИЦИОННОГО ПРЕДСТАВЛЕНИЯ

СТАТИСТИЧЕСКИХ ДАННЫХ

1.1. Выборка из нечетких наблюдений............... 1.2. Выборка из размытых наблюдений............... 1.3. Выборка из интервальных наблюдений............ 1.3.1. Интервальная арифметика............... 1.3.2. Интервальная выборка без пересечений........ 1.3.3. Интервальная выборка с пересечениями....... 1.3.3.1. Оценивание параметров и характеристик...... 1.3.3.2. Проверка статистических гипотез.......... 1.4. Основные задачи интервальной статистики..........

2. ИНТЕРВАЛЬНОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРОЧНЫХ

ДАННЫХ. СТАТИСТИЧЕСКИЙ АНАЛИЗ

ИНТЕРВАЛЬНЫХ НАБЛЮДЕНИЙ

2.1. Эмпирическая функция распределения и гистограмма.... 2.2. Проверка гипотез о согласии по интервальным выборкам.. 2.2.1. Критерии согласия 2 Пирсона и отношения правдоподобия.......................... 2.2.2. Критерий согласия Колмогорова............ 2.2.3. Критерий согласия Смирнова.............. 2 Мизеса.

2.2.4. Критерий согласия............ 2 Мизеса.

2.2.5. Критерий согласия............ 2.2.6. Асимптотические свойства критериев согласия по интервальным выборкам................ 2.3. Оценивание параметров распределений по интервальным выборкам............................. 2.3.1. Точечное оценивание.................. 2.3.2. Интервальное оценивание............... 2.3.2.1. Интервальные L-оценки............... 2.3.2.2. Интервальные M -оценки............... 2.3.2.3. Интервальные M D-оценки.............. 2.3.3. Свойства интервальных оценок............

3. ОБЪЕКТНО-ОРИЕНТИРОВАННАЯ СИСТЕМА

СТАТИСТИЧЕСКОГО АНАЛИЗА

3.1. Объектно-ориентированное программирование и его приложения к статистике................. 3.2. Иерархия классов........................ 3.3. Представление исходных данных................ 3.3.1. Интервальное наблюдение............... 3.3.2. Интервальная выборка................. 3.3.3. Преобразования выборки................ 3.3.4. Моделирование псевдослучайной выборки...... 3.4. Представление вероятностной модели............. 3.4.1. Операции над распределениями............ 3.4.1.1. Сдвиг.......................... 3.4.1.2. Масштаб........................ 3.4.1.3. Зеркальное отражение................ 3.4.1.4. Усечение слева..................... 3.4.1.5. Усечение справа.................... 3.4.1.6. Двустороннее усечение................ 3.4.1.7. Логарифмирование.................. 3.4.3.6. Распределение модуля многомерного нормального 3.7.2 Идентификация распределения разности отметок ПРИЛОЖЕНИЕ 2. Акты о внедрении программной

ВВЕДЕНИЕ

Современное состояние и актуальность темы исследований. Любая математическая теория, родившаяся из практических задач, в своей основе содержит ряд явных или неявных предположений об исследуемом ею объекте. Когда выводы теории перестают соответствовать практике, требуется либо пересмотреть ее основные предположения, либо ограничить область ее применения. Математическая статистика в своем развитии прошла несколько этапов, на каждом из которых идеализированное представление о статистическом эксперименте становилось все более приближенным к реальности. Так, например, робастная статистика [1, 2, 3] внесла предположение о наличии аномальных наблюдений в выборке; непараметрическая статистика [4] отбросила предположение о том, что экспериментатору известно параметрическое семейство распределений, которому подчинены выборочные наблюдения.

Дальнейшее развитие статистики связано с непосредственным учетом факта погрешностей наблюдений в статистических процедурах [5, 6, 7].

Если в статистическом эксперименте фиксируется положение монеты “герб” или “решка”, то погрешности наблюдений отсутствуют, а полученную выборку можно назвать “точной”. Однако, если измеряется сила тока, уровень воды в реке, рост человека и т.п., то статистическая выборка уже не может быть “точной”, так как приборы или органы восприятия дают нам лишь некоторое приближенное значение. Естественно, что если затем по этим значениям делаются статистические выводы, игнорирующие погрешности измерений, то результат оказывается не соответствующим действительности.



Почему же столь очевидный факт игнорировался при разработке математической теории статистики? Ответ, скорее всего, заключается в следующем: малый объем рассматриваемых выборок и отсутствие мощной вычислительной техники [6]. Действительно, когда объем выборки невелик, то статистическая погрешность в определении оценки превосходит погрешность, связанную с ошибками измерений. Решение же асимптотических статистических задач было продиктовано необходимостью построения общей математической теории, так как, например, теория малых выборок из нормального распределения будет отличаться от теории малых выборок из закона Пуассона [8]. С другой стороны, корректный учет погрешностей резко усложняет статистическую модель, и без применения вычислительной техники решение практических задач было бы невозможно.

Существует несколько различных способов описания реального наблюдения. Пожалуй, наиболее общее описание наблюдения дает теория нечетких множеств [9, 10, 11]. Каждое наблюдение представляется в виде функции (x) : R [0, 1], которая задает достоверность его нахождения в той или иной точке. В области, где наблюдение быть не может, достоверность равна нулю. Множество {x | (x) > } задает область, в которой наблюдение находится с уровнем достоверности. Вид функции (x) определяет степень нечеткости нашего знания о наблюдении. Достоинством такого представления знаний является то, что можно анализировать статистическими методами выборки, заданные лингвистически: “много”, “мало”, “приблизительно один”, “около трех” и т.д., если, конечно, заданы соответсвующие функции принадлежности (x). Недостатком нечеткого описания наблюдения является прозвольный (экспертный) выбор функций (x).

Теория нечетких множеств получила развитие в статистике в двух модификациях — статистический анализ размытых наблюдений [12] и статистический анализ нечетких наблюдений [13, 14, 15].

Более простое описание дается в духе интервальной математики [16].

Каждое наблюдение представляется в виде интервала [x, x], задающего верхнюю и нижнюю границу возможного расположения точного значения наблюдения. Выбор границ интервалов не является произвольным, а определяется из условий эксперимента.

Далее, возможен вероятностный подход — представление наблюдения в виде одного числового значения с априорно заданным распределением ошибок измерения. Аксиоматический выбор нормального в качестве априорного на основании центральной предельной теоремы теории вероятностей не согласуется с практикой, — так, например, в результате специальных исследований, проведенных в 1965–1975 гг., было установлено, что законы рапределения ошибок измерений весьма разнообразны и очень часто отличаются от нормального [17, 18]. Более того, распределения ошибок измерений приборов с течением времени могут изменяться [19]. Интересно, что многие фактические распределения ошибок, отличающиеся по форме, пересекаются в области 0.05-й и 0.95-й квантили в очень узком интервале значений x/ = 1.6 ± 0.05, что позволяет с допустимой в технических расчетах точностью 0.05 определить 90%-й доверительный интервал, содержащий наблюдение [20].

Наконец, самый простой способ, — это использование обычных выборок, но не превосходящих по объему некоторого критического значения, называемого в [5] рациональным объемом выборки. Рациональный объем выборки получается из принципа “уравнивания статистической и измерительной погрешностей”. Заметим, что в этом случае рациональный объем выборки зависит не только от погрешностей исходных данных, но и от вида решаемой статистической задачи.

Наряду с модернизацией понятия статистического наблюдения, существуют работы, в которых предлагается обобщение теории вероятностей на базе новой аксиоматики и замена вероятностных моделей нечеткими [10] и интервальными [21]. Этот подход заслуживает внимания, так как, предположив, что наблюдение может быть интервальным, нетрудно допустить, что и вероятность события может задаваться интервалом. К сожалению, в [21] отсутствуют ясные рекомендации по практическому применению интервальных моделей, что ограничивает практическое использование таких моделей.

Из рассмотренных подходов достаточно полным, практически обоснованным, и в то же время не слишком далеким от классических статистических схем представляется интервальное описание наблюдения. Развитие интервальной математики, родившейся первоначально из задач вычислительной математики по корректному учету ошибок округления [22, 23, 24], привело к ее постепенному проникновению в другие разделы математики.

Не осталась в стороне и статистика. И хотя термин “интервальная статистика” еще не является общепризнанным, наличие целого ряда публикаций за последние 10 лет [5, 25, 6, 7, 16, 26, 27, 28, 21, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39] позволяет утверждать, что рождение этой теории на стыке интервальной математики и математической статистики уже произошло, и сейчас необходимо развивать и расширять это направление.

Цель и задачи исследований. Целью исследования диссертационной работы является повышение надежности статистических процедур за счет использования интервальных моделей представления исходных данных и расширения множества применяемых вероятностных моделей описания случайной величины смесями и усеченными распределениями.

Для достижения поставленной цели решаются следующие задачи:

• осуществляется перенос классических процедур проверки согласия на случай интервальных представления наблюдений;

• исследуются асимптотические свойства критериев согласия по интервальным наблюдениям;

• разрабатываются методы точечного и интервального оценивания параметров распределений по интервальным наблюдениям;

• создается программная система параметрического и непараметрического статистического анализа интервальных наблюдений, с возможностью преобразования исходной выборки и/или распределения случайной величины операторами сдвига, масштаба, отражения, усечения, логарифмирования, смеси, произведения на базе объектно-ориентированного программирования.

Методы исследования. Для решения поставленных задач иcпользуется аппарат теории вероятностей, математической статистики, интервального анализа, теории нечетких множеств, вычислительной математики, статистического моделирования.

Научная новизна диссертационной работы заключается • в построении оценок границ вероятности согласия по критериям Пирсона, отношения правдоподобия, Колмогорова, Смирнова, 2 и Мизеса для интервальных выборок;

• в построении интервальных L-, M - и M D- оценок параметров распределений по интервальным наблюдениям;

• в построении алгоритма проверки гипотез о согласии непараметрическими критериями в случае предварительного оценивания параметров произвольным методом;

• в построении алгоритма отбраковки аномальных наблюдений с использованием оценок, получаемых при минимизации статистики Колмогорова.

Основные положения, выносимые на защиту.

1. Метод проверки согласия по критериям 2 Пирсона, отношения правдоподобия, Колмогорова, Смирнова, 2 и 2 Мизеса теоретического распределения с интервальной выборкой.

2. Теорема об асимптотических свойствах критерия Колмогорова по интервальной выборке.

3. Нестатистические интервальные оценки параметров по интервальной выборке.

4. Объектно-ориентированная программная система статистического анализа интервальных наблюдений одномерных непрерывных случайных величин.

Обоснованность и достоверность полученных результатов обеспечивается • применением аналитических методов исследования свойств оценок и критериев;

• подтверждением аналитических выводов результатами статистического моделирования.

Практическая ценность и реализация результатов.

Работа над системой статистического анализа ведется в рамках госбюджетной НИР по теме “Объектно-ориентированная программная система статистического анализа” [40]. Программа успешно используется для статистического анализа геодезических наблюдений [41, 42, 43].

Аппробация работы. Результаты исследований докладывались на Российской научно-технической конференции “Информатика и проблемы телекоммуникаций” (Новосибирск, 1996); Международной научно-технической конференции “Информатика и проблемы телекоммуникаций” (Новосибирск, 1995, 1997); VIII-м международном симпозиуме по непараметрическим и робастным методам в кибернетике (Красноярск, 1995); Международной конференции “Актуальные проблемы электронного приборостроения АПЭПНовосибирск, 1996); III-й международной научно-технической конференции “Микропроцессорные системы автоматики” (Новосибирск, 1996);

Втором Сибирском Конгрессе по Прикладной и Индустриальной Математике ИНПРИМ-96 (Новосибирск, 1996); Межреспубликанском совещании по интервальной математике (Новосибирск, 1996); Международной конференции “Информационные технологии в моделировании и управлении” (Санкт-Петербург, 1996); Международной научно-методической конференции “Новые информационные технологии в университетском образовании” (Новосибирск, 1997); Международной научной конференции “Всесибирские чтения по математике и механике” (Томск, 1997); Международном совещании по интервальной математике (Красноярск, 1997); IX-м международном симпозиуме по непараметрическим и робастным методам в кибернетике (Железногорск, 1997); First Korea-Russia Internnational Symposium of Science and Technology (Ulsan, 1997).

Публикации. Основные результаты исследований по теме диссертации опубликованы в 23 печатных работах и 4 зарегистрированных отчетах по НИР.

Структура работы. Диссертация состоит из введения, трех глав основного содержания, заключения, списка литературы и приложений.

Краткое содержание работы. В первой главе сделан обзор литературы по способам нетрадиционного представления наблюдений одномерных непрерывных случайных величин, построена их классификация и установлена взаимосвязь размытых и нечетких наблюдений (теоремы 1.3 и 1.4).

Во второй главе исследованы теоретические аспекты статистического анализа интервальных наблюдений. В первом параграфе второй главы вводятся понятия интервальной эмпирической функции распределения и интервальной гистограммы. Во втором параграфе второй главы разработана методика проверки статистических гипотез по интервальным наблюдениям. Для критериев согласия отношения правдоподобия, 2 Пирсона, Колмогорова, Смирнова, 2 и 2 Мизеса выведены оценки границ соответствующих статистик. Получена и доказана теорема об асимптотических свойствах статистики Колмогорова по интервальным наблюдениям. В третьем параграфе второй главы разработана методика получения L-, M - и M D- оценок параметров распределений по интервальным наблюдениям, проанализированы свойства этих оценок.

В третьей главе описывается объектно-ориентированная программная система статистического анализа интервальных наблюдений. В первом параграфе третьей главы рассматриваются преимущества объектно-ориентированного программирования при разработке программного обеспечения задач статистического анализа. Со второго по шестой параграф третьей главы описываются классы системы: “Наблюдение”, “Выборка”, “Распределение”, “Статистика”, “Идентификация”; представление данных, алгоритмы и методы работы с ними. В седьмом параграфе третьей главы приведен пример использования системы для статистического анализа геодезических наблюдений.

В приложении 1 содержится руководство пользователя системы. В приложении 2 приведены акты о внедрении программной системы.

1. СПОСОБЫ НЕТРАДИЦИОННОГО ПРЕДСТАВЛЕНИЯ

СТАТИСТИЧЕСКИХ ДАННЫХ

Пусть в статистическом эксперименте наблюдается одномерная непрерывная случайная величина. Непрерывная случайная величина может принимать бесконечное число значений, однако практически зафиксировать можно только их конечное количество, так как наблюдения всегда производятся с конечной точностью, т.е.

где — “истинное” значение случайной величины, — измеренное значение, — ошибка измерения.

также является случайной величиной, но уже дискретной. Исследователь, как правило, располагает выборкой из реализаций, но его интересует распределение случайной величины. Можно ли по наблюдениям восстановить распределение ? Ответ на этот вопрос зависит от того, являются ли ошибки измерений случайными или систематическими, и известно ли распределение случайных ошибок измерений.

Предположим, что систематическая ошибка измерения отсутствует (это является вполне реалистичным, когда средство измерения новое, и это предположение не соответствует реальности после его длительной эксплуатации), а распределение случайной ошибки получено с помощью эталонного прибора. Тогда по значению случайной величины можно построить доверительный интервал, который с вероятностью (практически берут равное 0.9 0.95 [19]) содержит неизвестное точно значение. Варьируя доверительную вероятность от 0 до 1 мы получим множество вложенных интервалов или размытое число [12]. Таким образом, получаются следующие способы представления наблюдения: размытое число — интервал — точка. Аналогом размытых чисел с точки зрения теории нечетких множеств [10] являются нечеткие числа. В зависимости от способа представления наблюдения будем различать нечеткие, размытые, интервальные и точечные наблюдения и выборки. На рис. 1.1. приведена классификация одномерных наблюдений.

НАБЛЮДЕНИЕ

Самым общим способом представления наблюдения являются нечеткие и размытые числа. Интервальное наблюдение можно получить из размытого, если зафиксировать доверительную вероятность. Из интервального наблюдения можно получить точечное наблюдение, если взять произвольную точку из интервала, в котором находится значение случайной величины.

1.1. Выборка из нечетких наблюдений Теория нечетких множеств [10] получила широкое распространение в тех областях науки и техники, где знания невозможно представить точно.

Статистические наблюдения также можно рассматривать в терминах этой теории. Для этого вводятся понятия нечеткого числа и нечеткого вектора, на основе которых получаются соответственно нечеткое наблюдение и нечеткая выборка. Основные результаты, изложенные в этом параграфе, получены в [14, 13, 15].

Определение 1.1. Кусочно-непрерывная функция a : R [0, 1], отображающая R в интервал [0, 1], определяет нечеткое число a на R, если семейство множеств (C(a ) )[0,1], полученное из a (·) по формуле обладает следующими свойствами:

Функция a (·) называется характеризующей функцией a, множество (C(a ) )[0,1] называется -отсечением a.

Понятно, что выбор функции a (·) определяет свойства нечеткого числа. Так, если в качестве характеризующей функции взять то получится точечное наблюдение; если взять то получится интервальное наблюдение. На практике в качестве характеризующих функций нечеткого числа можно рекомендовать функции следующего вида: где L(x) — монотонно возрастающая функция при x < m1, и R(x) — монотонно убывающая функция при x > m2. Например, для трапецидального нечеткого числа T (m1, m2, a1, a2 ) функции L(x) и R(x) выглядят следующим образом:

для экспоненциального нечеткого числа E (m1, m2, a1, a2, p1, p2 ) (см. рис.

1.2):

Обобщая определение 1 на случай n-мерного пространства, получим следующее определение:

Определение 1.2. Кусочно-непрерывная функция a : Rn [0, 1], отображающая Rn в интервал [0, 1], определяет нечеткий вектор a на Rn, если семейство множеств (C(a ) )[0,1], полученное из a (·) по формуле обладает следующими свойствами:

Рис. 1.2. -отсечения экспоненциального нечеткого числа Если задано n нечетких чисел, то построить характеризующую функцию нечеткого вектора можно несколькими способами:

• правило минимума [14] • правило произведения [15] Если задано отображение n-мерного вектора в число, то можно построить аналогичное отображение нечеткого n-мерного вектора в нечеткое число. Следующее определение и теоремы показывают каким образом это можно сделать.

Определение 1.3. Пусть a — нечеткий n-мерный вектор с характеризующей функцией a (·) и -отсечением C(a ), [0, 1], и пусть g : Rn Y, Y R, — непрерывное отображение и Xu = {a Rn :

g(a) = u}, u R. Нечеткий образ u = g(a ) нечеткого вектора a определяется следующей характеризующей функцией:

Теорема 1.1. [15] Пусть a — нечеткий n-мерный вектор с характеризующей функцией a (·) и -отсечением C(a ), [0, 1], и пусть g : Rn Y, Y R, — непрерывное отображение. Если функция u (u) определена согласно (1.10), то 1. u = g(a ) — нечеткое число в смысле определения 1.1.

Теорема 1.2. [15] Пусть a — нечеткий n-мерный вектор. -отсечение a является Декартовым произведением -отсечений компонент вектора тогда и только тогда, когда характеризующая функция a (·) построена по правилу минимума (1.8):

На базе теорем (1.1) и (1.2) нетрудно получить нечеткие аналоги для обычных статистик, типа выборочного среднего и выборочной дисперсии.

1. Пусть задана нечеткая выборка x = (x, x,..., x ). Тогда выборочное среднее есть нечеткое число x с характеризующей функцией и -отсечением Если выборочный вектор x построен по правилу минимума, то -отсечение выборочного среднего выглядит следующим образом:

где C(x ) = [CL (x ), CU (x ) ].

2. Пусть задана нечеткая выборка x = (x, x,..., x ). Тогда выборочn ная дисперсия есть нечеткое число (S ) с характеризующей функцией и -отсечением для выборочной дисперсии можно найти численно.

По выборке из нечетких чисел можно построить эмпирическую функцию распределения Fn (x):

(Fn )L (z) = где CU (x ) и CL (x ) — верхняя и нижняя граница -отсечения i-го наi i блюдения.

1.2. Выборка из размытых наблюдений Понятие размытых чисел было введено в [12] для описания субъективных величин и также базируется на теории нечетких множеств.

Определение 1.4. Характеризующая функция a (x), определяет размытое число a, если она обладает следующими свойствами:

Если a (x)dx = 1, то размытое число называется нормированным, иначе — размытое число называется ненормированным.

Нетрудно заметить, что характеризующая функция a (x) нормированного размытого числа является плотностью рапределения. Точечное наблюдение соответствует размытому числу с характеризующей функцией a (x) = (x x0 ), где (x) — дельта-функция (сингулярное распределение). Интервальное наблюдение соответствует размытому числу с характеризующей функцией a (x) = xx I[x,x] (x) (равномерное распределение).

Для размытых чисел можно формально ввести операции, которые применяются к обычным числам [12].

Определение 1.5. n-арная операция над точечными числами f (x1, x2,..., xn ) порождает n-арную операцию над размытыми числами f (x, x,..., x ) по правилу максмина, если характеризующая функция f (x,x,...,x ) (z) имеет следующий вид:

Пусть a, b, c — размытые числа, x0 R. Операции суммы и произведения, введенные по определению 1.5, обладают следующими свойствами [12]:

3. a ·x0 (z) = a (z/x0 ), x0 = 0.

Арифметические операции с размытыми числами существенно отличаются от обычных арифметических операций, поэтому вычисления с размытыми числами представляют значительные трудности.

Между нечеткими (определение 1.1) и размытыми (определение 1.4) числами существует тесная связь, то есть при определенных условиях нечеткое число является размытым и наоборот.

Теорема 1.3. Нечеткое число a с характеризующей функцией a (x) является размытым числом, тогда и только тогда, когда При этом характеризующая функция размытого числа имеет вид:

Теорема 1.4. Размытое число a с характеризующей функцией a (x) является нечетким числом, тогда и только тогда, когда функция a (x) является унимодальной и При этом характеризующая функция нечеткого числа имеет вид:

Доказательство этих теорем очевидно и опирается только на определения 1.1 и 1.4.

Заметим, что даже одно нормированное размытое наблюдение своей характеризующей функцией задает непараметричечскую оценку распределения случайной величины. В случае n наблюдений в качестве непараметрической оценки плотности можно использовать смесь характеризующих функций:

Пусть все наблюдения подчинены одному и тому же распределению с плотностью f (x). Тогда оценка (1.13) является асимптотически несмещенной в каждой точке непрерывности f (x), т.е.

в случае, если характеризующие функции размытых наблюдений построены из точечной выборки {x1, x2,..., xn } c помощью ядерных функций со следующими свойствами [44]:

Понятно, что свойство асимптотической несмещенности оценки функции плотности выполняется тогда, когда дисперсия каждого размытого наблюдения стремится к нулю при увеличении объема выборки. Реально же добиться выполнения этого условия достаточно сложно. Поэтому имеет смысл модифицировать оценку (1.13) к следующему виду:

где hn удовлетворяет условию (1.14).

1.3. Выборка из интервальных наблюдений Представление числа в виде интервала с целью учета погрешностей измерений довольно очевидно и берет свое начало с монографии Р.Е.Мура [22]. Однако в статистике эта идея развивалась почти независимо от интервального анализа [38]. Методологию нестатистического оценивания сформировал Л.В. Канторович [45], предложив оценивать интервалы (области) неопределенности методами математического программирования. В ряде работ интервальный нестатистический анализ [46, 31, 38] противопоставляется статистическому анализу, но обсуждение этой проблемы на круглом столе, проведенном редакцией журнала "Заводская лаборатория", [32, 33, 34, 35, 6, 28] показало, что более плодотворным является их совместное использование. Отметим работы Орлова, который первым ввел термин “интервальная статистика” [16] и исследовал интервальные выборки в предположении, что длины интервалов достаточно малы [5, 25, 7, 26].

1.3.1. Интервальная арифметика Основная идея интервального анализа [22, 23, 24] заключатся в том, что вещественное число представляется не одним, а двумя числами — оценкой снизу и оценкой сверху, образующими интервальное число. Арифметические операции над числами выполняются так, что если [a1, a2 ] = Это позволяет автоматически учитывать погрешности в задании исходных данных и погрешности, вызываемые округлениями при вычислениях на ЭВМ.

Множество всех интервалов на R обозначется через IR. Арифметические операции над интервальными числами вводятся следующим образом [22]:

Определение 1.6. Если r(x) – непрерывная унарная операция на R, то определяют соответствующую ей операцию на множестве IR.

Определение 1.7. Пусть A = [a1, a2 ] и B = [b1, b2 ]. Тогда Для такого определения интервальных чисел особенностью является то, что произвольный невырожденный элемент из IR не имеет обратного ни по сложению, ни по умножению, отсутствует свойство дистрибутивности. Вычисления над такими числами достаточно трудоемки. Имеются различные расширения и обобщения интервальных чисел [24].

1.3.2. Интервальная выборка без пересечений Частный случай интервальной выборки, когда интервалы не пересекаются, хорошо известен в классической статистике. Это группированные, цензурированные и частично-группированные выборки.

Определение 1.8. Выборка называется группированной, если область определения случайной величины разбита на неперсекающиеся интервалы, и известно только количество точечных наблюдений, попавших в эти интервалы.

Определение 1.9. Выборка называется цензурированной слева, если область определения случайной величины разбита на два непересекающихся интервала: в первом интервале известно только количество точечных наблюдений, а во втором интервале известны все точечные наблюдения.

Определение 1.10. Выборка называется цензурированной справа, если область определения случайной величины разбита на два непересекающихся интервала: в первом интервале известны все точечные наблюдения, а во втором интервале известно только количество точечных наблюдений.

Определение 1.11. Выборка называется цензурированной с двух сторон, если область определения случайной величины разбита на три непересекающихся интервала: в первом и последнем интервале известно только количество точечных наблюдений, а в среднем интервале известны все точечные наблюдения.

Определение 1.12. Выборка называется частично-группированной, если область определения случайной величины разбита на непересекающиеся интервалы двух типов: в интервалах первого типа известно только количество точечных наблюдений, а в интервалах второго типа известны все точечные наблюдения.

Статистический анализ данных в группированном виде хорошо разработан, так как группированную выборку можно рассматривать как реализацию дискретной случайной величины [47]. Анализ частично-группированных выборок разработан в работах [48, 49, 50, 51]. Оценивание параметров по группированной выборке с неполным покрытием рассмотрено в работе [36].

1.3.3. Интервальная выборка c пересечениями Интервальная выборка с пересечениями интервалов получается из точечной с учетом максимальной погрешности измерения. Пусть в результате эксперимента получена точечная выборка Однако исследователя фактически интересует выборка где i — абсолютная и i — относительная погрешность измерения. Об относительной и абсолютной погрешности из технического паспорта прибора известно только, что Таким образом, границы интервала, содержащего точное значение наблюдения определяются по формулам:

В результате получаем интервальную выборку:

где ai и bi определяются по формуле (1.21).

Точечная выборка в пространстве Rn представляет собой точку, а интервальная выборка определяет в пространстве Rn n-мерный параллелепипед. Запись Xn Xn обозначает, что точка (x1, x2,..., xn ) принадлежит n-мерный параллелепипеду, определенному интервальной выборкой Xn, то есть i, ai xi bi. Выборка Yn определяет точку, которая является его центром тяжести.

Естественным является предположение, что величины и достаточно малы. На основе этого предположения Орловым разработана теория реалистической статистики [5, 25, 7, 26], и введено понятие нотны.

Пусть задана статистика g : Rn R.

Определение 1.13. Нотной Ng статистики g называется максимально возможное абсолютное отклонение g(Yn ) от g(Xn ), т.е.

При достаточно малых ошибках i измерения, с точностью до o(|i |) выполняется Тогда из (1.20) следует, что Таким образом, нотна статистики пропорциональна максимально допустимым погрешностям.

1.3.3.1. Оценивание параметров и характеристик Пусть статистика g(X) является асимптотически нормальной (при n ) с математическим ожиданием µ и дисперсией 2 /n, и Доверительный интервал для µ, построенный по точечной выборке Yn c доверительной вероятностью, имеет вид где u — квантиль стандартного нормального распределения порядка (1 + )/2, а — оценка по выборке Yn.

С учетом нотны статистики g, доверительный интервал расширяется, и принимает вид Длина этого интервала при n стремится к 2Ng, и если нотна статистики не равна нулю, то состоятельное оценивание соответствующего параметра или характеристики невозможно [25].

В качестве суммарной погрешности оценки можно использовать полудлину доверительного интервала при u = 1 [7], т.е.

Первое слагаемое соответствует статистической погрешности, а второе — измерительной. Если следовать “принципу уравнивания погрешностей” [9], то, приравняв первое и второе слагаемое в (1.28), можно получить рациональный объем выборки В [5] вычислены доверительные интервалы и рациональный объем выборки для основного параметра гамма-распределения, в [25] — для аддитивных статистик, в [6] — для оценки математического ожидания и дисперсии.

1.3.3.2. Проверка гипотез При проверке гипотезы вычисляется статистика g(Y ). Гипотеза отвергается, если g(Y ) C, где C — критическое значение статистики, соответствующее уровню значимости. С учетом нотны статистики g, критическое значение принадлежит интервалу а уровень значимости лежит между 1 P {g C + Ng } и 1 P {g C Ng }. Следовательно, для того чтобы надежно (с учетом возможных измерительных погрешностей) отвергнуть гипотезу, следует взять правую границу интервала (1.30), то есть C + Ng. Эта методика приведена в [7] на примере одновыборочного критерия Стьюдента и двухвыборочного критерия Смирнова. 1.4. Основные задачи

интервальной статистики В данной главе предложена классификация одномерных наблюдений непрерывной случайной величины и рассмотрены самые общие способы представления наблюдений в виде нечетких и размытых чисел. Результаты, полученные для размытых и нечетких выборок, можно легко перенести на интервальные выборки:

1. Нечеткая выборка при фиксированном -уровне представляет собой множество -отсечений, т.е. интервальную выборку.

2. Размытая выборка при фиксированной доверительной вероятности представляет собой множество доверительных интервалов, т.е. интервальную выборку.

Отсюда следует, что если будет разработан аппарат для работы с интервальными выборками, то его можно будет применять и для нечетких выборок при фиксированном -уровне, и для размытых выборок при фиксированной доверительной вероятности.

Интервальные выборки очень просто получаются в целом ряде практических задач: при группировании, цензурировании, в моделях порождения данных с погрешностями измерения. Однако, общая теория интервальных выборок (возможно, с использованием интервальной арифметики) еще не построена.

Методологический подход к построению общей теории интервальных выборок состоит в следующем: неопредел нность в задании исходных данных порождает неопредел нность в статистических выводах. Если статистические выводы базируются на некоторой выборочной статистике S, то для интервальной выборки мы получим интервальную статистику [S, S]. С помощью этого подхода требуется решить основные задачи статистического анализа одномерных наблюдений.

Основными задачами

интервальной статистики одномерных наблюдений непрерывных случайных величин являются:

• непараметрическое оценивание функции распределения и функции плотности по интервальной выборке;

• проверка гипотез о согласии теоретического распределения с интервальной выборкой;

• точечное и интервальное оценивание параметров теоретического распределения по интервальной выборке.

Решение этих задач позволит учитывать метрологическую погрешность в статистических выводах, что сделает их более над жными и устойчивыми.

2. ИНТЕРВАЛЬНОЕ ПРЕДСТАВЛЕНИЕ ВЫБОРОЧНЫХ

ДАННЫХ. СТАТИСТИЧЕСКИЙ АНАЛИЗ ИНТЕРВАЛЬНЫХ

НАБЛЮДЕНИЙ

Рассмотрим следующую модель порождения исходных данных. Пусть в результате эксперимента наблюдаются значения yi одномерной непрерывной случайной величины :

где xi — точное значение, а i — погрешность наблюдения. Если погрешность i не превосходит по модулю некоторого числа di, то об истинном значении xi можно сказать, что оно принадлежит интервалу [ai, bi ], где Таким образом, интервал [ai, bi ] содержит всю информацию об i-й реализации случайной величины.

Определение 2.1. Интервальным наблюдением называется интервал, содержащий неизвестное точно значение реализации случайной величины.

Определение 2.2. Интервальной выборкой объ ма n называется мное жество из n интервальных наблюдений:

Замечание 2.1. К подобной математической модели могут привести процедуры группирования и цензурирования данных, хорошо известные в классической статистике. Отличие заключается в том, что интервалы группирования задаются априори, а в модели (2.1) границы интервалов связаны с наблюдениями. Тем не менее, несмотря на различные порождающие механизмы, все выводы, полученные для интервальной выборки (2.2), можно перенести на случай группированных, цензурированных и частично группированных выборок [52, 53].

Замечание 2.2. Интервалы [ai, bi ] в модели (2.2) могут быть бесконечными. Эта ситуация может возникнуть, например, в случае, когда стрелка измерительного прибора зашкаливает, и поэтому установить точное значение границы не представляется возможным.

Интервальную выборку (2.2) можно рассматривать как n-мерный параллелепипед в пространстве Rn. Тогда выборку, рассматриваемую в классической статистике можно интерпретировать как точку, принадлежащюю этому параллелепипеду. Частный случай выборки (2.2), в которой наблюдались значения xi, фиксируемые с точностью до интервала [ai, bi ], так, что ai xi bi, i = 1,..., n, будем называть точечной и обозначать Xn Xn.

Классические методы статистического анализа применимы к точечным выборкам. Для адаптации известных методов к интервальным выборкам обычным при мом может служить построение интервала неопредел нности интересующей исследователя статистики [45]. В самом деле, если исходные данные известны с точностью до интервала, то естественным является описание статистики также с помощью интервала. При этом статистические выводы становятся менее определ нными, но более над жными.

2.1. Эмпирическая функция распределения и гистограмма Основную информацию о распределении случайной величины исследователь получает по эмпирической функции распределения и/или гистограмме, на которые опираются статистические методы анализа. Однако, для интервальной выборки построение этих функций, в общем случае, неоднозначно. Действительно, для построения гистограммы область определения случайной величины разбивается на k непересекающихся интервалов точками X0 < X1 <... < Xk и подсчитывается количество наблюдений, попавших в интервалы (Xj, Xj+1 ], j = 0,..., k 1. Если интервальное наблюдение [ai, bi ] покрывает точку разбиения Xj, то точечное значение наблюдения можно отнести как к интервалу [Xj1, Xj ], так и к интервалу [Xj, Xj+1 ]. Множество всех допустимых гистограмм можно получить простым перебором. Мощность этого множества равна 2p, где p — число наблюдений, попавших на границу разбиения. Чтобы наглядно представить это множество, предлагается по интервальной выборке строить интервальную гистограмму (см. рис. 2.1).

Рис. 2.1. Интервальная гистограмма для интервальной выборки Высота каждого столбца интервальной гистограммы является интервалом: его нижняя граница определяется минимально возможным числом точечных наблюдений в интервале группирования, а верхняя граница определяется максимально возможным числом точечных наблюдений в интервале группирования. В то же время ни нижняя, ни верхняя границы интервальной гистограммы не удовлетворяют условию нормировки, а лишь задают миноранту и мажоранту для гистограммы с теми же граничными точками, построенную по любой точечной выборке Xn Xn.

Более простым оказывается построение множества всех допустимых эмпирических функций распределения. Упорядочим граничные точки интервалов:

Предположим, что все точечные значения наблюдений xi совпали с левыми границами интервалов. Тогда эмпирическая функция распределения будет иметь следующий вид:

Аналогично, если все точечные значения совпали с правыми границами интервалов, эмпирическая функция распределения примет вид:

В общем случае эмпирическая функция распределения будет принадлежать множеству, ограниченному сверху Fn (x) и снизу Fn (x):

Следующий пример иллюстрирует вид Fn (x) и Fn (x) в зависимости от формы представления данных.

Пример 2.1. Была сгенерирована точечная выборка объ мом 100 наблюе дений. Е эмпирическая функция распределения приведена на рис. 2.2(а).

Рис. 2.2(б) соответствует предположению, что наблюдения фиксировались с абсолютной погрешностью, а рис. 2.2(в) — с относительной погрешностью в исходных данных. Наконец, в последнем случае (рис. 2.2(г)) исходная выборка сгруппирована в 10 интервалов. На рисунках 2.2(б)–2.2(г) показаны графики функций Fn (x) и Fn (x).

2.2. Проверка гипотез о согласии по интервальным выборкам В данном параграфе раздела рассматриваются процедуры проверки гипотез о согласии теоретического закона распределения случайной величины с интервальной выборкой. Gastaldi в [54] наш л верхнюю и нижнюю грание цы статистики Колмогорова в случае, когда выборка задана с пропусками данных, но при этом известно количество пропущенных наблюдений на Рис. 2.2. Эмпирическая функция распределения точечной (а) и интервальных (б)–(г) интервалах между членами вариационного ряда (аналог частично группированной выборки). Этот результат обобщается на случай произвольной интервальной выборки и на статистики критериев согласия 2 Пирсона, отношения правдоподобия, Колмогорова, Смирнова, 2 и 2 Мизеса [55, 56, 57].

При проверке гипотез о согласии теоретического распределения с точечной выборкой для найденного значения соответствующей статистики S вычисляется вероятность где g(s) — плотность распределения статистики при условии истинности нулевой гипотезы. При заданном уровне значимости гипотеза о согласии не отвергается, если p >. В дальнейшем, вероятность P {S > S } будем называть вероятностью согласия. Когда задана интервальная выборка (2.2), то статистика принадлежит интервалу [S, S ], границы которого определяются следующим неравенством:

Вероятность P {S > S } будет принадлежать интервалу [pmin, pmax ], где Тогда, при заданном уровне значимости, гипотезу о согласии следует отклонить, если pmax ; гипотезу о согласии не следует отвергать, если pmin >. Если pmin < pmax, то однозначного вывода сделать невозможно. В этом случае для принятия решения об отклонении гипотезы о согласии необходима дополнительная информация.

Следующий пример иллюстрирует применение рассмотренного подхода.

Пример 2.2. Была сгенерирована выборка из 100 наблюдений по стандартному нормальному закону с абсолютной погрешностью = 0.05 и относительной погрешностью = 0.01 и проверено согласие с нормальным распределением с параметрами µ = 0.0 и = 1.0 (см. рис. 2.3 и 2.4).

На диаграмме в правом верхнем углу цифрами обозначена вероятность согласия по критериям: 1 — отношения правдоподобия, 2 — 2 Пирсона, Рис. 2.3. Проверка согласия интервальной выборки с нормальным распределением Рис. 2.4. Проверка согласия интервальной выборки с нормальным распределением — Колмогорова, 4 — Смирнова, 5, 6 — 2 и 2 Мизеса. Заштрихованные области показывают интервалы неопредел нности вероятности согласия.

На основании проверки гипотез можно сделать следующие выводы:

• При уровне значимости = 0.1 гипотеза о согласии не отвергается по критериям отношения правдоподобия, 2 Пирсона, Колмогорова, Смирнова, 2 Мизеса.

• При уровне значимости = 0.2 гипотеза о согласии не отвергается по критериям отношения правдоподобия, Колмогорова, 2 Мизеса.

• При уровне значимости = 0.5 гипотеза о согласии отвергается по критериям 2 Пирсона, Смирнова.

По остальным критериям однозначного вывода сделать невозможно.

2.2.1. Критерии согласия 2 Пирсона и отношения правдоподобия Перед использованием критерия 2 Пирсона необходимо сгруппировать исходную выборку. Область определения случайной величины разбивается на k непересекающихся интервалов граничными точками после чего подсчитывается число наблюдений ni, попавших в интервалы (Xi, Xi+1 ], i = 0, 1,..., k 1. В случае интервальной выборки (2.2) процедура подсчета не является однозначной, и возможные значения ni в соответствии с (2.4) удовлетворяют ограничениям:

Статистика критерия 2 Пирсона имеет вид:

где pi — вероятность попадания в интервал (Xi, Xi+1 ]. Если ni определяются неоднозначно, то требуется найти максимум и минимум статистики 2 на области, заданной формулами (2.6) и (2.7):

Вместо решения задачи целочисленного нелинейного программирования можно найти оценки границ статистики 2 и 2, допустив, что ni могут принимать нецелочисленные значения:

где 2 — оценка снизу нижней границы статистики 2, 2 — оценка сверху верхней границы статистики 2. Эта задача достаточно просто решается прямыми методами оптимизации с использованием штрафных функций.

Критерий отношения правдоподобия также использует группировку исходной выборки. Статистика критерия отношения правдоподобия имеет где pi — вероятность попадания в интервал (Xi, Xi+1 ], ni — количество наблюдений, попавших в интервал (Xi, Xi+1 ], n — общее количество наблюдений.

Оценки верхней и нижней границы статистики отношения правдоподобия находятся аналогично.

2.2.2. Критерий согласия Колмогорова Статистика критерия имеет вид где Fn (x) — эмпирическая функция распределения, F (x) — теоретическая, согласие с которой проверяется, n — объ м выборки. Преобразуем нерае венство (2.4) к виду:

Эти неравенства выполняются для всех, поэтому они сохраняются при взятии супремума:

sup(Fn (x) F (x)) sup(Fn (x) F (x)) sup(Fn (x) F (x)), sup(F (x) Fn (x)) sup(F (x) Fn (x)) sup(F (x) Fn (x)).

Объединим эти неравенства в одно и, учитывая, что статистика Dn не может быть отрицательной, получим:

2.2.3. Критерий согласия Смирнова Статистика критерия имеет вид:

Из неравенства (2.8) следует:

2.2.4. Критерий согласия 2 Мизеса Построим вариационный ряд для точных значений наблюдений:

Если выборка интервальная, то каждый член вариационного ряда известен с точностью до интервала где x(i) и x(i) можно определить из неравенства (2.4), так как между вариационным рядом и эмпирической функцией распределения существует взаимно-однозначное соответствие (см. рис. 2.5) и Fn (x(i) ) = i/n:

Рис. 2.5. Определение границ i-го члена вариационного ряда Статистика критерия имеет вид:

Пусть si = [F (x(i) ) 2i1 ]2. Тогда из монотонности функции распределения F (x) и неравенства (2.11) следует, что si si si, где si и si имеют вид:

Тогда 2.2.5. Критерий согласия 2 Мизеса Статистика критерия имеет вид:

Из неравенства (2.11) и свойства монотонности функции распределения следует:

Отсюда 2.2.6. Асимптотические свойства критериев согласия по интервальным выборкам Очевидно, что чем меньше интервал неопредел нности [pmin, pmax ], тем более определ нные выводы можно сделать. На длину интервала неопрее дел нности p = pmax pmin влияют • длины интервалов [ai, bi ], i = 1,..., n;

• закон распределения, с которым проверяется согласие;

• критерий согласия;

• количество наблюдений.

Действительно, если задана точечная выборка, то p = 0. В пределе при min(bi ai ), p стремится к единице. На рис. 2.6 показана завиi симость p от величины абсолютной ошибки измерений для различных критериев согласия при проверке согласия выборки, смоделированной по нормальному закону объ мом 100 наблюдений, с нормальным распределеe нием. На графике хорошо видно, что для различных критериев согласия величины p существенно отличаются. Однако нельзя сделать однозначного вывода о том, что тот или иной критерий лучше, так как на других модельных примерах расположение кривых p() может существенно отличаться от приведенного на рис. 2.6.

Влияние теоретического закона распределения, с которым проверяется согласие, на величину p хорошо проиллюстрировано на рис. 2.7–2.12. На этих графиках изображены верхняя и нижняя границы вероятности согласия по интервальной выборке из примера 2.2 в зависимости от значения параметра сдвига нормального распределения. Когда теоретическое распределение достаточно далеко сдвинуто относительно моделируемого, то Рис. 2.6. Зависимость p от абсолютной погрешности измерения и верхняя, и нижняя вероятности согласия равны нулю, а длина интервала неопределенности вероятности согласия равна нулю. Сравнение рисунков 2.7–2.12 позволяет сделать вывод о том, что кривые согласия по различным критериям существенно отличаются друг от друга. В частности, критерий Смирнова можно применять только для отклонения гипотезы о согласии, так как если теоретическая функция распределения F (x) лежит строго выше эмпирической Fn (x), то вероятность согласия равна единице (см. рис.

2.10).

Рис. 2.7. Вероятности согласия по критерию отношения правдоподобия при изменении Наиболее интересный результат получается при исследовании поведения верхней и нижней границы вероятности согласия при увеличении числа наблюдений. Критерии согласия устроены таким образом, что с увеличением объема выборки максимально допустимое отклонение эмпирического распределения от теоретического (мера отклонения у каждого критерия своя) стремится к нулю (кроме критерия Смирнова). Однако, на практике из-за ошибок измерений отклонение никогда не будет равно нулю и его Рис. 2.8. Вероятности согласия по критерию 2 Пирсона при изменении параметра сдвига нормального распределения от -0.75 до 0. Рис. 2.9. Вероятности согласия по критерию Колмогорова при изменении параметра сдвига нормального распределения от -0.75 до 0. Рис. 2.10. Вероятности согласия по критерию Смирнова при изменении параметра сдвига Рис. 2.11. Вероятности согласия по критерию 2 Мизеса при изменении параметра сдвига нормального распределения от -0.75 до 0. Рис. 2.12. Вероятности согласия по критерию 2 Мизеса при изменении параметра сдвига нормального распределения от -0.75 до 0. величина будет зависеть от точности измерительного прибора.

О том, как увеличение объ ма выборки влияет на p, говорит следуе ющая теорема об асимптотических свойствах оценок границ статистики критерия Колмогорова по интервальной выборке.

Теорема 2.1. Пусть задана последовательность интервальных выборок Xn, для которых нижняя и верхняя границы эмпирической функции распределения Fn (x) и Fn (x) сходятся в равномерной метрике соответственно к F (x) и F (x) со скоростью O(1/n), и sup(F (x) F (x)) c > 0.

Пусть также F — это множество всех функций распределения, непрерывных справа, pmax (F, Xn ) и pmin (F, Xn ) — соответственно верхняя и нижняя границы вероятности согласия по критерию Колмогорова.

1. F F, таких что x (F (x) F (x) F (x)), 2. F F, таких что x ((F (x) < F (x)) (F (x) > F (x))), Доказательство.

Для оценок границ Dn и Dn статистики Dn, определ нных в (2.9), при n имеем:

Теперь для доказательства теоремы достаточно исследовать асимптотическое поведение оценок границ Dn и Dn.

1. Пусть F (x) — произвольная функция распределения, проходящая между F (x) и F (x).

(а) Согласно (2.9) оценка снизу для нижней границы Dn имеет вид:

Если неравенство строгое: x F (x) < F (x) < F (x), то первые две величины в фигурных скобках будут отрицательными и Dn = 0. Если F (x) совпадает с F (x) на множестве A R и с F (x) на множестве B R, то Dn = max sup(Fn (x) F (x)), sup(F (x) Fn (x)) (б) Пусть x0 — точка, в которой F (x0 ) F (x0 ) c > 0 и max{a, b} c/2. Используя оценку сверху для верхней границы Dn и введ нные обозначения, получим:

2. Так как pmax pmin, то (а) (б), и достаточно показать, что pmax 0.

Пусть x0 — точка, в которой F (x) > F (x) (аналогично рассматривается случай, когда F (x) < F (x)). Обозначим d = F (x0 ) F (x0 ) > 0.

Теорема доказана.

Поведение pmax и pmin иллюстрирует следующий пример.

Были сгенерированы три интервальные выборки c абсоПример 2.3.

лютной погрешностью = 0.05, подчиненные одному и тому же закону распределения, объ мом 100, 500 и 1000 наблюдений соответственно. Зае тем исследовано поведение pmin и pmax при проверке согласия по критерию Колмогорова с нормальным распределением, у которого параметр зафиксирован, а параметр µ изменялся от 0.5 до 0.5 (см. рис. 2.13). Хорошо видно, что с ростом количества наблюдений верхняя кривая согласия (pmax ) становится более крутой, а нижняя (pmin ) становится ближе к нулю.

Это означает, что множество распределений, не отвергаемых по критерию согласия, уменьшается при одном и том же уровне значимости, но неопредел нность при принятии решений о согласии для этих распределений увеличивается.

Рис. 2.13. Согласие интервальных выборок разного объ ма с нормальным распределением по критерию Колмогорова:

(а) 100 наблюдений, (б) 500 наблюдений, (в) 1000 наблюдений Из доказанной теоремы и рассмотренного примера вытекают два следующих практических соображения. С одной стороны, очевидно, что, опираясь на критерий Колмогорова, в случае интервальной выборки можно отсеять определ нное множество законов распределения, не согласующихся с выборкой. С другой стороны, в этой же ситуации невозможно с точностью до параметров идентифицировать закон распределения, наиболее хорошо согласующийся с выборкой, если, например, для двух различных оценок параметров pmin = 0 и pmax = 1.

Таким образом, очевидно, что получение точечных оценок параметров распределений по интервальной выборке является процедурой, в значительной степени зависящей от степени оптимизма исследователя относительно соответствия выбранной модели исходным интервальным данным [21]. Действительно, нижнюю границу вероятности согласия можно рассматривать как случай наихудшего расположения точных значений наблюдений в интервалах (“крайний пессимизм”), а верхнюю — как случай наилучшего расположения точных значений наблюдений (“крайний оптимизм”).

При увеличении объ ма интервальной выборки для целого множества априори допустимых для описания данной случайной величины распределений длина интервала неопредел нности вероятности согласия раст т и стремится к единице. Это значит, что функцию распределения случайной величины, наблюдения которой фиксируются с неустранимой погрешностью, невозможно идентифицировать с использованием данных критериев согласия, даже при очень большом числе экспериментов. Для описания такой случайной величины лучше либо использовать интервальные оценки параметров функции распределения, либо по отдельности аппроксимировать верхнюю и нижнюю границы эмпирической функции распределения.

2.3. Оценивание параметров распределений по интервальным выборкам Задача оценивания параметров возникает тогда, когда у исследователя есть достаточные основания считать, что все наблюдения в выборке независимы и подчинены одному и тому же закону распределения, который известен с точностью до одного или нескольких параметров.

Пусть F (x, ) — функция распределения предполагаемого закона распределения наблюдаемой случайной величины, — вектор параметров. По интервальной выборке (2.2) требуется найти оценку параметра По точечной выборке возможно определение как точечных, так и интервальных оценок параметров. Интервальная оценка параметра по точечной выборке учитывает статистическую неопределенность и с ростом объема выборки сходится к точечной оценке. По интервальной выборке также возможно точечное и интервальное оценивание. Однако, интервальная оценка по интервальной выборке с ростом объема выборки уже не сходится к точечной.

2.3.1. Точечное оценивание Точечные оценки по интервальной выборке можно получать следующими способами.

1. Можно зафиксировать произвольную точечную выборку Xn Xn и найти по ней точечную оценку любым известным методом оценивания. Оценка при этом может получиться смещенной, в частности, при оценивании параметров по серединам интервалов группированной выборки известны поправки Шеппарда, устраняющие смещение оценок 2. Можно модифицировать метод максимального правдоподобия, который заключается в том, чтобы максимизировать вероятность попадания случайной выборки Xn в n-мерный параллелепипед, заданный интервальной выборкой Xn :

Если в выборке присутствуют точечные наблюдения, то значение F (bi ) F (ai ) обращается в ноль. Чтобы этого не произошло модифицируем выражение (2.17) следующим образом:

Действительно, переход к (2.18) оправдан, так как значение, при котором достигается максимум (2.17), совпадает со значением, оптимизирующим (2.18). Тогда, если i-е наблюдение точечное, т.е. ai = bi = xi, то i-й сомножитель в произведении (2.18) будет равен f (xi ).

3. Перибирая все Xn Xn, можно найти множество допустимых значений параметра и взять некоторую характерную точку этого множества. Так, например, в методе центра неопределенности [38] в качестве точечной оценки параметра берется центр масс множества допустимых значений.

Можно предложить и другие способы получения точечных оценок (например, точечные оценки “крайнего оптимиста” и “крайнего пессимиcта”). Однако из теоремы 2.1 следует, что какую бы точечную оценку мы не взяли, при проверке гипотезы о согласия с интервальной выборкой Xn по критерию Колмогорова, с точки зрения “крайнего пессимиста” можно отвергнуть любую простую гипотезу при увеличении количества наблюдений. Кроме того, при точечном оценивании по интервальной выборке могут нарушаться статистические асимптотические свойства оценок несмещенности, эффективности, состоятельности, вследствие чего теряет смысл бесконечное увеличение объема выборки, так как статистическая погрешность оценки оказывается существенно меньше погрешности, определяемой погрешностью фиксации наблюдений.

Интервальный характер выборки обуславливает для любой точечной оценки существование некоторого интервала значений, которому она принадлежит и который определяется погрешностью наблюдений и методом оценивания. Любая точечная оценка, полученная по интервальной выборке дает лишь точку, принадлежащую этому интервалу, но не содержит информации о самом интервале.

2.3.2. Интервальное оценивание Введем понятие нестатистической интервальной оценки.

Определение 2.3. Пусть имеется некоторая точечная оценка параметра по точечной выборке = (Xn ). Интервальной оценкой параметра, порожденной точечной оценкой (Xn ), по интервальной выборке будем называть интервал [, ], границы которого определяются из соотношений:

Замечание 2.3. Вообще говоря, всякая точечная оценка, построенная по случайным наблюдениям, является случайной величиной. Следовательно, границы интервальной оценки, порожденной точечной оценкой, будут также случайными. Доверительный интервал, содержащий истинное значение параметра с заданной вероятностью, получается объединением доверительных интервалов, построенных по всем точечным выборкам из Xn.

Приведем несколько простых примеров вычисления интервальных оценок параметров по интервальной выборке.

Пример 2.4. Оценивание параметра сдвига нормального распределения с плотностью f (x, µ) = 1 e 2 (xµ). Оценка максимального правдоподобия параметра µ по точечной выборке имеет вид:

В соответствии с (2.19) для интервальной оценки по интервальной выборке имеем Пример 2.5. Оценивание параметра масштаба нормального распределеx ния с плотностью f (x, ) = 2 e 22. Аналогично, оценка максимального правдоподобия параметра имеет вид:

Тогда по (2.19) и функция распределения согласно (3.2) имеет вид:

Рис. 3.4. Функции распределения нормального распределения с параметрами сдвига 0, Производные функции распределения G(x, 1, 2,..., n, ) приведены в таблице 3.3, где u = x/.

Если случайная величина имеет область определения [l, r], то случайная величина будет иметь область определения [l, r].

Пример масштабирования распределения показан на рис. 3.5. и 3.6.

Рис. 3.5. Нормальное распределение с параметрами масштаба 1, 0.5 и 3.4.1.3. Зеркальное отражение Операция зеркального отражения преобразует случайную величину в случайную величину = с помощью функции Тогда и функция распределения согласно (3.3) имеет вид:

Рис. 3.6. Функции плотности нормального распределения с параметрами масштаба 1, 0. G(x, 1, 2,..., n, ) = F (u, ), получаемой при масштабировании Производные функции распределения G(x, 1, 2,..., n ) приведены в таблице 3.4, где u = x.

Если случайная величина имеет область определения [l, r], то случайная величина будет иметь область определения [r, l].

Замечание 3.2. Распределения, симметричные относительно нуля, при выполнении операции зеркального отражения не меняются. Распределения, симметричные относительно точки a, при выполнении операции зеркального отражения сдвигаются на величину 2a (форма распределения не меняется).

Пример зеркального отражения распределения показан на рис. 3.7. и 3.8.

Рис. 3.7. Функции распределения экспоненциального и зеркального экспоненциального 3.4.1.4. Усечение слева Операция усечения слева, преобразующая случайную величину в случайную величину = (| > a), где a — параметр усечения, задается с Рис. 3.8. Функции плотности экспоненциального и зеркального экспоненциального G(x, 1, 2,..., n ) = F (u, ), получаемой при зеркальном отражении помощью условной функции распределения:

Производные функции распределения G(x, 1, 2,..., n, a) приведены в таблице 3.5.

Если случайная величина имеет область определения [l, r], то случайная величина будет иметь область определения [max{a, l}, r].

Пример усечения распределения слева показан на рис. 3.9. и 3.10.

Рис. 3.9. Функции распределения усеченного слева в точке 1, усеченного справа в точке 0.5 и усеченного с двух сторон нормального распределения 3.4.1.5. Усечение справа Операция усечения справа, преобразующая случайную величину в случайную величину = (| < b), где b — параметр усечения, задается с Рис. 3.10. Функции плотности распределения усеченного слева в точке 1, усеченного справа в точке 0.5 и усеченного с двух сторон нормального распределения помощью условной функции распределения:

Пример применения операции произведения показан на рис. 3.14.

3.4.2. Семейства распределений Многие распределения, широко применяемые на практике, можно свести к нескольким семействам распределений. Семейства распределений можно получать двумя способами [59]. Групповые семейства получаются применением операций над распределениями (см. п. 3.4.1), например, семейство с параметром сдвига получается при сдвиге распределения, семейство с параметром масштаба получается при масштабировании распределения и т.д.

Другой способ задать семейство распределений заключается в том, что функция распределения или функция плотности задаются в некоторой общей форме где — вектор параметров, g(x) — генерирующая функция, а конкретное распределение из семейства получается при подстановке в (3.2) конкретной Частные производные функции G(x, 1, 2 ) = F1 (x, 1 )F2 (x, 2 ) Рис. 3.14. Произведение двух нормальных распределений функции g(x).

Рассмотриваемые далее семейства распределений Джонсона, гамма-распределений и бета-распределений (за исключением бета-распределения IIIго рода) принадлежат экспоненциальному семейству, функции плотности которого задаются следующим образом:

где i и B — вещественнозначные функции от параметров, Ti — вещественнозначные статистики [59].

3.4.2.1. Семейство распределений Джонсона Распределения Джонсона задаются формулой где (x) — функция распределения нормального закона распределения, || < и > 0 — параметры, g(x) — непрерывная, неограниченная, монотонно возрастающая функция, задающая конкретное распределение семейства.

К семейству распределений Джонсона можно отнести следующие законы распределений:

• нормальное, g(x) = x, < x < +;

• SL -Джонсона (логнормальное), g(x) = ln x, x > 0;

• SB -Джонсона, g(x) = ln 1x, 0 < x < 1;

• SU -Джонсона, g(x) = ln(x + x2 + 1), < x < +.

Пусть известны производные функции g(x) до третьего порядка включительно. Тогда можно вычислить производные от функции распределения и плотности функции распределения по x и по параметрам и.

Производные функции распределения по параметрам имеют вид:

Функция плотности распределения и ее производные по параметрам имеют вид:

f (x) = e 2 (+g(x)) ( + g(x))gx (x), f (x) = e 2 (+g(x)) (( + g(x))2 1)gx (x), f (x) = e 2 (+g(x)) ( + 2g(x) ( + g(x))2 g(x))gx (x).

Производная функции плотности по x и ее производные по параметрам имеют вид:

fx (x) = e 2 (+g(x)) {( + g(x))(gx (x))2 + gxx (x)};

fx (x) = e 2 (+g(x)) {[( + g(x))3 1](gx (x))2 + fx (x) = e 2 (+g(x)) {[( + g(x))(gx (x))2 + gxx (x)] Вторая производная функции плотности по x имеет вид:

3.4.2.2. Семейство гамма-распределений Семейство гамма-распределений задается формулой функции, и > 0 — параметры, g(x, ) — непрерывная, монотонно возрастающая от 0 до функция, задающая конкретное распределение семейства.

К семейству гамма-распределений можно отнести следующие распределения:

• гамма-распределение, g(x) = x, 0 x < +;

• Г-распределение, g(x, ) = x, 0 x < +, > 0 (частными случаями этого распределения являются гамма-распределение при = 1 и распределение Вейбулла при = 1);

• -распределение (распределение модуля n-мерной нормальной случайной величины, n = 2), g(x) = 2 x2, 0 x < +;

• Обобщенное распределение минимального значения, g(x) = ex, < Пусть известны производные генерирующей функции g(x, ) до третьего порядка включительно. Тогда можно вычислить производные от функции распределения и плотности функции распределения по x и по параметрам Производные функции распределения по параметрам имеют вид:

F (x) = F (x) = F (x) = Функция плотности распределения и ее производные по параметрам имеют вид:

f (x) = f (x) = f (x) = f (x) = f (x) = Производная функции плотности по x и ее производные по параметрам имеют вид:

fx (x) = +2( 1 g(x))g(x)gx (x)gx (x) + (g(x))2 gx (x)}, fx (x) = Вторая производная функции плотности по x имеет вид:

+3( 1 g(x))g(x)gx (x)gxx (x) + (g(x))2 gxxx (x)}.

3.4.2.3. Семейство бета-распределений Семейство бета-распределений задается формулой где B(, ) = (+) полная и неполная бета-функции,, и — параметры, g(x, ) — непрерывная, монотонно возрастающая от 0 до 1 функция, задающая конкретное распределение семейства.

К семейству бета-распределений можно отнести следующие распределения:

• бета-распределение I-го рода, g(x) = x, 0 x 1;

• L-распределение (обобщенное логистическое), g(x) = 1+ex, Пусть известны производные генерирующей функции g(x, ) до третьего порядка включительно. Тогда можно вычислить производные от функции распределения и плотности функции распределения по x и по параметрам Введем обозначение:

и обозначим неполную гамма-функцию и ее первые и вторые производные по параметрам и символами B, B, B, B, B, B соответственно.

Производные функции распределения по параметрам имеют вид:

F (x) = F (x) = F (x) = F (x) = F (x) = F (x) = Функция плотности распределения и ее производные по параметрам имеют вид:

f (x) = f (x) = f (x) = f (x) = f (x) = f (x) = f (x) = f (x) = f (x) = Производная функции плотности по x и ее производные по параметрам имеют вид:

Вторая производная функции плотности по x имеет вид:

fxx (x) = 3.4.3. Стандартные распределения Под стандартными распределениями мы будем понимать распределения без параметров сдвига и масштаба (т.е. параметр сдвига равен нулю, а параметр масштаба равен единице).

3.4.3.1. Равномерное распределение Случайная величина, распределенная по равномерному закону, имеет область определения [0, 1].

Функция распределения [87]:

Функция плотности распределения:

Производные функция плотности распределения равны нулю:

Равномерное распределение является частным случаем Бета-распределения I-го рода при = = 1 (см. п. 3.4.3.21) и предельным для двустороннего экспоненциального при + (см. п. 3.4.3.27).

График функции плотности приведен на рис. 3.15.

3.4.3.2. Экспоненциальное распределение Случайная величина, распределенная по экспоненциальному закону, имеет область определения [0, +).

Функция распределения [87]:

Функция плотности распределения:

Экспоненциальное распределение является частным случаем распределения Вейбулла при = 1 (см. п. 3.4.3.15).

График функции плотности приведен на рис. 3.16.

3.4.3.3. Полунормальное распределение Случайная величина, распределенная по полунормальному закону, имеет область определения [0, +).

Рис. 3.15. Функции плотности равномерного и двустороннего экспоненциального Рис. 3.16. Функции плотности распределения Вейбулла с параметром формы Функция распределения [87]:

Функция плотности распределения:

Полунормальное распределение является частным случаем распределения модуля многомерного нормального вектора при n = 1 (см. п. 3.4.3.6).

График функции плотности приведен на рис. 3.17.

Рис. 3.17. Функции плотности модуля n-мерного нормального распределения с 3.4.3.4. Распределение Рэлея Случайная величина, распределенная по закону Рэлея, имеет область определения [0, +).

Функция распределения [87]:

Функция плотности распределения:

Распределение Рэлея является частным случаем распределения модуля многомерного нормального вектора при n = 2 (см. п. 3.4.3.6).

График функции плотности приведен на рис. 3.17.

3.4.3.5. Распределение Максвелла Случайная величина, распределенная по закону Максвелла, имеет область определения [0, +).

Функция распределения [87]:

Функция плотности распределения:

Распределение Максвелла является частным случаем распределения модуля многомерного нормального вектора при n = 3 (см. п. 3.4.3.6).

График функции плотности приведен на рис. 3.17.

3.4.3.5. Распределение модуля многомерного нормального вектора Случайная величина, распределенная по закону модуля многомерного нормального вектора, имеет область определения [0, +).

Функция распределения [87]:

Функция плотности распределения:

График функции плотности приведен на рис. 3.17.

Распределение модуля n-мерного нормального вектора относится к семейству гамма-распределений (см. п. 3.4.2.2) с генерирующей функцией g(x) = x и целым параметром n = 2.

Производные функции g(x):

3.4.3.7. Распределение Парето Случайная величина, распределенная по закону Парето, имеет область определения [1, +).

Функция распределения [87]:

где > 0 — параметр.

Функция плотности распределения:

Распределение Парето относится к семейству бета-распределений (см.

п. 3.4.2.3) с генерирующей функцией g(x) = x1, x > 1 и параметром = 1.

Производные функции g(x):

3.4.3.8. Распределение Эрланга Случайная величина, распределенная по закону Эрланга, имеет область определения [0, +). Распределение Эрланга (или показательно-степенное распределение [87]) является частным случаем гамма-распределения с целым параметром n = (см. п. 3.4.3.20).

Рис. 3.18. Функции плотности распределения Эрланга с параметром формы График функции плотности приведен на рис. 3.18.

3.4.3.9. Распределение Лапласа Случайная величина, распределенная по закону Лапласа, имеет область определения (, +).

Функция распределения [87]:

Функция плотности распределения:

Распределение Лапласа является частным случаем двустороннего экспоненциального распределения с параметром = 1 (см. п. 3.4.3.27).

График функции плотности приведен на рис. 3.19.

Рис. 3.19. Множество симметричных распределений: двустороннее экспоненциальное с параметром = 10, Лапласа, нормальное, логистическое, Коши 3.4.3.10. Нормальное распределение Случайная величина, распределенная по нормальному закону, имеет область определения (, +).

Функция распределения [87]:

Функция плотности распределения имеет вид:

Нормальное распределение является частным случаем двустороннего экспоненциального распределения с параметром = 2 и масштабом 2 (см.

п. 3.4.3.27).

График функции плотности приведен на рис. 3.19.

3.4.3.11. Логарифмически (ln) нормальное распределение Случайная величина, распределенная по логарифмически (ln) нормальному закону, имеет область определения (0, +).

Функция распределения [87]:

Функция плотности распределения:

Логарифмически нормальное распределение получается из нормального применением операции логарифмирования (см. п. 3.4.1.7) и является частным случаем распределения SL -Джонсона при = = 1 (см. п. 3.4.3.25).

График функции плотности приведен на рис. 3.20.

3.4.3.12. Логарифмически (lg) нормальное распределение Случайная величина, распределенная по логарифмически (lg) нормальному закону, имеет область определения (0, +).

Рис. 3.20. Функции распределения логарифмически (ln) и логарифмически (lg) Функция распределения [87]:

Функция плотности распределения:

Логарифмически (lg) нормальное распределение получается из логарифмически (ln) нормального применением операции масштабирования с параметром = ln 10 (см. п. 3.4.1.2).

График функции плотности приведен на рис. 3.20.

3.4.3.13. Распределение Коши Случайная величина, распределенная по закону Коши (Брейта-Вигнера, арктангенса), имеет область определения (, +).

Функция распределения [87]:

Функция плотности распределения:

Производные функция плотности распределения:

График функции плотности приведен на рис. 3.19.

3.4.3.14. Логистическое распределение Случайная величина, распределенная по логистическому закону, имеет область определения (, +).

Функция распределения [87]:

Функция плотности распределения:

Логистическое распределение является частным случаем L-распределения при = = 1 (см. п.3.4.3.30).

График функции плотности приведен на рис. 3.19.

3.4.3.15. Распределение Вейбулла Случайная величина, распределенная по закону Вейбулла (Вейбулла-Гнеденко, экстремальных значений III-го типа), имеет область определения (0, +).

Функция распределения [87]:

Функция плотности распределения:

Распределение Вейбулла является частным случаем Г-распределения при = 1 (см. п. 3.4.3.29).

График функции плотности приведен на рис. 3.16.

3.4.3.16. Распределение минимального значения Случайная величина, распределенная по закону минимального значения (Гумбеля, экстремальных значений II-го типа), имеет область определения (, +).

Функция распределения [87]:

Функция плотности распределения:

Распределение минимального значения является частным случаем обобщенного распределения минимального значения при = 1 (см. п.3.4.3.18).

Рис. 3.21. Функции плотности распределений минимального значения, максимального значения и обобщенного минимального значения с параметром = 0.5, 1, 2, График функции плотности приведен на рис. 3.21.

3.4.3.17. Распределение максимального значения Случайная величина, распределенная по закону максимального значения (Гумбеля, экстремальных значений I-го типа, Фишера-Типпета, двойной показательный), имеет область определения (, +).

Функция распределения [87]:

Функция плотности распределения:

Распределение максимального значения получается из распределения минимального значения применением операции поворота (см. п.3.4.1.3).

График функции плотности приведен на рис. 3.21.

3.4.3.18. Обобщенное распределение минимального значения Случайная величина, распределенная по закону обобщенного минимального значения, имеет область определения (, +).

Функция распределения:

где параметр > 0.

Функция плотности распределения:

Обобщенное распределение минимального значения принадлежит к семейству гамма-распределений (см. п.3.4.2.2) с генерирующей функцией g(x) = ex.

Производные функции g(x):

График функции плотности приведен на рис. 3.21.

3.4.3.19. Распределение Накагами Случайная величина, распределенная по закону Накагами, имеет область определения (0, +).

Функция распределения [87]:

где параметр 1/2.

Функция плотности распределения:

Распределение Накагами также принадлежит к семейству гамма-распределений (см. п.3.4.2.2), но имеет особенность в том, что генерирующая функция g(x) = x2 зависит от основного параметра, и поэтому все производные принимают другой вид.

Производные функции распределения по параметру имеют вид:

Производные функции плотности распределения по параметру имеют вид:

Производная функции плотности по x и ее производные по параметру имеют вид:

Вторая производная функции плотности по x имеет вид:

3.4.3.20. Гамма-распределение Случайная величина, имеющая Гамма-распределение (распределение Пирсона III), определена на области (0, +).

Функция распределения [87]:

где параметр > 0.

Функция плотности распределения:

Гамма-распределение является частным случаем Г-распределения при = 1 (см. п. 3.4.3.29).

3.4.3.21. Бета-распределение I-го рода Случайная величина, имеющая бета-распределение I-го рода, определена на области [0, 1].

Функция распределения [87]:

где параметры > 0 и > 0.

Функция плотности распределения:

Бета-распределение I-го рода принадлежит к семейству бета-распределений с генерирующей функцией g(x) = x (см. п. 3.4.2.3).

Рис. 3.22. Функции плотности Бета-распределения I-го рода Производные функции g(x):

График функции плотности приведен на рис. 3.22.

3.4.3.22. Бета-распределение II-го рода Случайная величина, имеющая бета-распределение II-го рода, определена на области [0, +).

Функция распределения [87]:

где параметры > 0 и > 0.

Функция плотности распределения:

Бета-распределение II-го рода принадлежит к семейству бета-распределений с генерирующей функцией g(x) = 1+x (см. п. 3.4.2.3).

Производные функции g(x):

График функции плотности приведен на рис. 3.23.

3.4.3.23. Бета-распределение III-го рода Случайная величина, имеющая бета-распределение III-го рода, определена на области [0, 1].

Функция распределения [87]:

где параметры > 0, > 0 и > 0.

Рис. 3.23. Функции плотности Бета-распределения II-го рода Функция плотности распределения:

Бета-распределение III-го рода принадлежит к семейству 3.4.2.3).

Производные функции g(x, ):

3.4.3.24. Распределение SB -Джонсона Случайная величина, распределенная по закону SB -Джонсона, определена на области (0, 1).

Функция распределения [87]:

где параметры || < и > 0.

Функция плотности распределения:

Распределение SB -Джонсона принадлежит к семейству распределений Джонx сона с генерирующей функцией g(x) = ln 1x (см. п. 3.4.2.1).

Производные функции g(x):

3.4.3.25. Распределение SL -Джонсона Случайная величина, распределенная по закону SL -Джонсона, определена на области (0, +).

Функция распределения [87]:

где параметры || < и > 0.

Функция плотности распределения:

Распределение SL -Джонсона принадлежит к семейству распределений Джонсона с генерирующей функцией g(x) = ln x (см. п. 3.4.2.1).

Производные функции g(x):

3.4.3.26. Распределение SU -Джонсона Случайная величина, распределенная по закону SU -Джонсона, определена на области (, +).

Функция распределения [87]:

где параметры || < и > 0.

Функция плотности распределения:

Распределение SU -Джонсона принадлежит к семейству распределений Джонсона с генерирующей функцией g(x) = ln(x + x2 + 1) (см. п. 3.4.2.1).

Производные функции g(x):

3.4.3.27. Двустороннее экспоненциальное распределение Случайная величина, распределенная по двусторонему экспоненциальному закону (класс экспоненциальных распределений), определена на области (, +).

Функция распределения [87]:

где параметр > 0.

Функция плотности распределения:

График функции плотности приведен на рис. 3.15.

Двустороннее экспоненциальное распределение является частным случаем Н-распределения при = 1/ (см. п. 3.4.3.28). Однако, как и в случае распределения Накагами, из-за функциональной связи между параметрами, производные будут иметь другой вид.

Производные функции распределения по параметру имеют вид:

F (x) = Производные функции плотности распределения по параметру имеют вид:

Производная функции плотности по x и ее производные по параметру имеют вид:

Вторая производная функции плотности по x имеет вид:

3.4.3.28. H-распределение Случайная величина, имеющая H-распределение, определена на области (, +).

Функция распределения [87]:

где параметры > 0 и > 0.

Функция плотности распределения:

Н-распределение в общем случае (при = 1/) является двухмодальным и симметричным относительно нуля.

График функции плотности приведен на рис. 3.24.

Производные функции распределения по параметрам имеют вид:

F (x) = F (x) = F (x) = Рис. 3.24. Функции плотности H-распределения F (x) = F (x) = Производные функции плотности распределения по параметрам имеют вид:

f (x) = f (x) = f (x) = f (x) = Производная функции плотности по x и ее производные по параметрам имеют вид:

Вторая производная функции плотности по x имеет вид:

fxx (x) = 3.4.3.29. Г-распределение Случайная величина, имеющая Г-распределение, определена на области (0, +).

Функция распределения [87]:

где параметры > 0 и > 0.

Функция плотности распределения:

Г-распределение принадлежит к семейству гамма-распределений с генерирующей функцией g(x, ) = x (см. п. 3.4.2.2).

Производные функции g(x, ):

3.4.3.30. Обобщенное логистическое распределение Случайная величина, имеющая обобщенное логистическое распределение, определена на области (, +).

Функция распределения [87]:

где параметры > 0 и > 0.

Функция плотности распределения:

Обобщенное логистическое распределение принадлежит к семейству бетаex распределений с генерирующей функцией g(x) = 1+ex (см. п. 3.4.2.3).

Рис. 3.25. Функции плотности обобщенного логистического распределения Производные функции g(x):

График функции плотности приведен на рис. 3.25.

3.4.4. Распределения статистик критериев согласия Распределения, приведенные в этом пункте, являются предельными для распределений статистик соответствующих критериев согласия. При вычислении вероятности согласия достаточно знать только функцию распределения.

3.4.4.1. Распределение 2 Пирсона Случайная величина, распределенная по закону 2 Пирсона, определена на интервале (0, +).

Функция распределения [88]:

где k = 1, 2,... — число степеней свободы.

Распределение 2 является частным случаем гамма-распределения при = k/2 c параметром масштаба 2 (см. п. 3.4.3.20).

Распределение 2 является предельным для распределения статистики 2 Пирсона, статистики отношения правдоподобия и статистики Смирнова.

На рис. 3.26 приведены результаты проверки согласия эмпирического распределения статистики Смирнова, полученного по 5000 выборок объемом 100 наблюдений, и распределения 2 с двумя степенями свободы.

3.4.4.2. Распределение Колмогорова Случайная величина, распределенная по закону Колмогорова, определена на интервале (0, +).

Функция распределения [88]:

Рис. 3.26. Согласие эмпирического распределения статистики Смирнова с распределением 2 с двумя степенями свободы Распределение Колмогорова является предельным для распределения статистики Колмогорова. На рис. 3.27 приведены результаты проверки согласия эмпирического распределения статистики Колмогорова, полученного по 5000 выборок объемом 100 наблюдений, и распределения Колмогорова.

Рис. 3.27. Согласие эмпирического распределения статистики Колмогорова с 3.4.4.3. Распределение статистики 2 Мизеса Статистика 2 Мизеса распределена по закону a1 c функцией распределения [88]: где и I 4 (·) и I1 (·) — модифицированные функции Бесселя.

Распределение a1 является предельным для распределения статистики 2 Мизеса. На рис. 3.28 приведены результаты проверки согласия эмпирического распределения статистики 2 Мизеса, полученного по выборок объемом 100 наблюдений, и распределения a1.

Рис. 3.28. Согласие эмпирического распределения статистики 2 Мизеса с 3.4.4.4. Распределение статистики 2 Мизеса где Распределение a2 является предельным для распределения статистики 2 Мизеса. На рис. 3.29 приведены результаты проверки согласия эмпирического распределения статистики 2 Мизеса, полученного по выборок объемом 100 наблюдений, и распределения a2.

Рис. 3.29. Согласие эмпирического распределения статистики 2 Мизеса с 3.4.5. Эмпирическое распределение Эмпирическая функция распределения Fn (x), построенная по точечной выборке {x1, x2,..., xn }, является непараметрической оценкой функции распределения F (x) наблюдаемой случайной величины. Эта оценка является несмещенной и состоятельной [89]. Состоятельность следует из теоремы Гливенко: P {n sup |Fn (x) F (x)| = 0} = 1.

Непараметрической оценкой функции плотности распределения f (x) является функция fn (x) которая получается дифференцированием эмпирической функции распределения. Такая оценка функции плотности “запрещает” появление наблюдений, отличных от xi, i = 1, 2,..., n, и поэтому является нереалистичной. Для получения более гладкой оценки плотности распределения можно заменить дельта-функцию на некоторую колоколообразную функцию K(x, xi ), которая будет достигать максимума в точке xi. Тогда Оценка (3.5) является асимптотически несмещенной в каждой точке непрерывности fn (x), если выполняются условия (1.14). В этом случае функцию K(x, xi ) называют “ядром”. В частности в качестве ядра можно взять функцию плотности нормального распределения со сдвигом µ = xi, и параметром масштаба. Тогда параметр масштаба имеет смысл параметра “размытости”: если 0, то мы получим дельта-функцию, а если, то функция плотности fn (x) 0, x. Естественно, что эти два крайних случая не являются приемлемыми, поэтому возникает задача об оптимальном выборе параметра размытости. В [90] дается рекомендация о выборе n1/4. На рис. 3.30, 3.31 и 3.32 приведены ядерные оценки функции плотности, построенные по выборкам из стандартного нормального распределения разного объема. На рисунках хорошо видно, что с ростом объема выборки ядерная оценка плотности приближается к плотности нормального распределения.

Рис. 3.30. Ядерная оценка функции плотности по точечной выборке 3.5. Статистический анализ выборки Задачи статистического анализа решаются в классе “Stat”. Основными данными этого класса являются выборка и распределение. Над объектом типа “Stat” определены следующие методы: оценивание параметров распределения по выборке, проверка простых и сложных гипотез о согласии выборки с распределением, выделение аномальных наблюдений в выборке, группирование выборки одним из четырех методов.

3.5.1. Оценивание параметров распределений Оценивание параметров распределений в системе производится по трем методам: метод максимального правдоподобия, метод минимума статистиРис. 3.31. Ядерная оценка функции плотности по точечной выборке объемом Рис. 3.32. Ядерная оценка функции плотности по точечной выборке объемом ки Колмогорова и метод минимума статистики 2 Мизеса. В случае интервальной выборки допускается вычисление как точечных, так и интервальных оценок. При вычислении точечных оценок по интервальной выборке используются различные стратегии: оценка по серединам интервалов, оценка “крайнего оптимиста”, оценка “крайнего пессимиста”, оценка максимального правдоподобия.

3.5.2. Проверка гипотез о согласии Проверка гипотез о согласии выборки с теоретическим распределением производится по шести критериям (см. таблицу 3.10). Первые два критерия предусматривают группировку данных, остальные вычисляются по негруппированным данным. Теоретические распределения известны для всех статистик при проверке простой гипотезы (т.е. при проверке согласия с фиксированным распределением) и приведены в п. 3.4.4. Если проверяется сложная гипотеза, т.е. гипотеза о согласии выборки с параметрическим семейством распределений, то известны предельные распределения для статистик критериев отношения правдоподобия и 2 Пирсона. Сложная гипотеза проверяется следующим образом: сначала по выборке оцениваются параметры, а затем проверяется согласие. Параметрические критерии (отношения правдоподобия и 2 Пирсона) учитывают факт оценивания уменьшением числа степеней свободы предельного 2 распределения на число оцениваемых параметров. Исследование зависимости распределения статистик 2 и отношения правдоподобия от способа группирования, при оценивании параметров по методу максимального правдоподобия проведено нами в [81, 83].

Непараметрические критерии (Колмогорова, Смирнова, 2 и 2 Мизеса) при оценивании теряют свойство "свободы от распределения", т.е. предельные распределения этих статистик будут зависеть от распределения, которому подчинена выборка.

В литературе известны следующие подходы к использованию критериев согласия в этом случае.

1. Если выборка достаточно большая, то ее можно разбить на две равные части: по одной оценивать параметры, а по другой проверять согласие [91]. Если объем выборки невелик, то оценки параметров будут зависеть от способа разбиения выборки на две части, и, следовательно, результаты проверки согласия также будут неоднозначны.

2. Для случая нормального распределения предельные распределения статистики критерия 2 Мизеса при оценивании одного или обоих параметров по методу максимального правдоподобия получены аналитически и табулированы в [92].

3. Методом статистического моделирования получены таблицы процентных точек для предельных распределений непараметрических статистик при оценивании параметров экспоненциального, нормального, экстремальных значений, Вейбулла и некоторых других законов распределений [93, 94, 95, 96].

4. В работах [97, 98, 99, 100] для статистик типа Колмогорова-Смирнова получены формулы для приближенного вычисления вероятностей согласия. С помощью этих формул вычисляется вероятность согласия в пакете STADIA [63].

5. Нами в результате моделирования предельных законов распределения статистик непараметрических критериев найдены такие законы распределения вероятностей, которые хорошо аппроксимируют предельные распределения статистик непараметрических критериев согласия в тех случаях, когда по выборке оцениваются параметры по методу максимального правдоподобия [80, 83].

Тем не менее, полученные за 40 лет исследований таблицы процентных точек и предельные распределения пригодны лишь в относительно небольшом числе случаев. В самом деле, распределения статистик (или их процентные точки) получены для 10-15 законов, в то время как число законов в разрабатываемой системе за счет применения операций смеси, усечения и т.д. существенно больше. Далее, во всех работах при нахождении распределений статистик были зафиксированы методы оценивания, но способ получения оценок также сильно влияет на распределение статистики критерия согласия.

Вообще, распределение (не предельное!) статистики критерия согласия зависит от множества факторов:

• от объема выборки (см. рис. 3.33);

• от распределения (см. рис. 3.34);

• от числа оцениваемых параметров и от того, какие параметры оцениваются (см. рис. 3.35);

• от метода оценивания (см. рис. 3.36);

• от способа группирования, если критерий предусматривает группировку данных (см. рис. 3.37).

Распределения на рис. 3.33–3.37 были получены методом статистического моделирования и позволяют сделать следующие выводы:

• Объем выборки существено влияет на распределение статистки Колмогорова при n < 10.

• Хотя критерий согласия Колмогорова теряет свойство "свободы от распределения"при оценивании, тем не менее для целого класса законов (Лапласа, логистического, Коши, нормального) распределения статистики Колмогорова совпали, когда оценки находились с помощью минимизации статистики Колмогорова. При оценивании по методу максимального правдоподобия распределения статистики Колмогорова для этих же законов заметно отличаются.

Таким образом, когда закон распределения статистики критерия неизвестен, то для вычисления вероятности согласия необходимо применять метод статистического моделирования с учетом всех факторов, влияющих на распределение статистики.



Pages:     || 2 |


Похожие работы:

«Андросова Ольга Геннадьевна ВЛИЯНИЕ ДИГИДРОКВЕРЦЕТИНА НА ПЕРЕКИСНОЕ ОКИСЛЕНИЕ ЛИПИДОВ В УСЛОВИЯХ ХОЛОДОВОГО ВОЗДЕЙСТВИЯ (экспериментальное исследование) 14.03.06 – фармакология, клиническая фармакология Диссертация на соискание ученой степени кандидата медицинских наук Научный...»

«из ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Микеева, Елена Ивановна 1. Неологизмы современного немецкого языка 1.1. Российская государственная Библиотека diss.rsl.ru 2005 Микеева, Елена Ивановна Неологизмы современного немецкого языка [Электронный ресурс]: Интегративныи аспект на материале имен существumeльнык : Дис.. канд. филол. наук : 10.02.04.-М.: РГБ, 2005 (Из фондов Российской Государственной Библиотеки) Германские языки Полный текст: http://diss.rsl.ru/diss/05/0704/050704023.pdf...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Кудряшов, Алексей Валерьевич Нормализация световой среды для пользователей ПЭВМ Москва Российская государственная библиотека diss.rsl.ru 2006 Кудряшов, Алексей Валерьевич.    Нормализация световой среды для пользователей ПЭВМ  [Электронный ресурс] : На примере предприятий электроэнергетики : Дис. . канд. техн. наук  : 05.26.01. ­ Челябинск: РГБ, 2006. ­ (Из фондов Российской Государственной Библиотеки). Охрана труда (по отраслям) Полный текст:...»

«Янченко Инна Валериевна ФОРМИРОВАНИЕ КАРЬЕРНОЙ КОМПЕТЕНТНОСТИ СТУДЕНТОВ В ПРОФЕССИОНАЛЬНОМ ОБРАЗОВАНИИ 13.00.08 – Теория и методика профессионального образования ДИССЕРТАЦИЯ на соискание ученой степени кандидата педагогических наук Научный руководитель : доктор педагогических наук, профессор Осипова Светлана Ивановна Красноярск – СОДЕРЖАНИЕ...»

«Неустроева Евдокия Анатольевна ОСОБЕННОСТИ РАЗВИТИЯ ТВОРЧЕСКИХ СПОСОБНОСТЕЙ В УСЛОВИЯХ ОСВОЕНИЯ ДЕТЬМИ СИМВОЛИЧЕСКИХ СРЕДСТВ ВЫРАЗИТЕЛЬНОЙ ПЛАСТИКИ (ДОШКОЛЬНЫЙ И МЛАДШИЙ ШКОЛЬНЫЙ ВОЗРАСТ) 19.00.07 – Педагогическая психология Диссертация на соискание ученой степени кандидата психологических наук Научный руководитель кандидат психологических наук, старший научный сотрудник, Брофман Вера Владимировна Москва – 2014 СОДЕРЖАНИЕ ВВЕДЕНИЕ ГЛАВА 1. Символ в пространстве творческой...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Абрамов, Алексей Владимирович Оправдание в уголовном процессе Москва Российская государственная библиотека diss.rsl.ru 2006 Абрамов, Алексей Владимирович Оправдание в уголовном процессе : [Электронный ресурс] : Дис. . канд. юрид. наук  : 12.00.09. ­ Н. Новгород: РГБ, 2006 (Из фондов Российской Государственной Библиотеки) Государство и право. Юридические науки ­­ Уголовный процесс ­­ Российская Федерация ­­ Стадии уголовного...»

«УДК 553.98:551.762 (571.1) 04200910149 ВИДИК СВЕТЛАНА ВЛАДИМИРОВНА НЕФТЕГЕНЕРАЦИОННЫЙ ПОТЕНЦИАЛ И ПЕРСПЕКТИВЫ НЕФТЕГАЗОНОСНОСТИ НИЖНЕ-СРЕДНЕЮРСКИХ ОТЛОЖЕНИЙ ЦЕНТРАЛЬНОЙ ЧАСТИ ЗАПАДНО-СИБИРСКОЙ ПЛИТЫ Специальность 25.00.12 - Геология, поиски и разведка горючих ископаемых...»

«Щебетенко Сергей Александрович Я-КОНЦЕПЦИЯ, ЭМПАТИЯ И ПСИХОЛОГИЧЕСКАЯ БЛИЗОСТЬ В ОТНОШЕНИЯХ ЧИТАТЕЛЯ К ЛИТЕРАТУРНЫМ ПЕРСОНАЖАМ 19. 00. 01 – Общая психология, психология личности, история психологии Диссертация на соискание ученой степени кандидата психологических наук Научный...»

«КОСТИНА Елена Михайловна СПЕЦИФИЧЕСКАЯ И НЕСПЕЦИФИЧЕСКАЯ ИММУНОТЕРАПИЯ НЕКОТОРЫХ КЛИНИКО-ПАТОГЕНЕТИЧЕСКИХ ВАРИАНТОВ БРОНХИАЛЬНОЙ АСТМЫ 14.03.09. – клиническая иммунология, аллергология ДИССЕРТАЦИЯ на соискание ученой степени доктора медицинских наук Научный консультант : доктор...»

«УДК xxx.xxx КИСЕЛЬГОФ СОФЬЯ ГЕННАДЬЕВНА ОБОБЩЕННЫЕ ПАРОСОЧЕТАНИЯ ПРИ ПРЕДПОЧТЕНИЯХ, НЕ ЯВЛЯЮЩИХСЯ ЛИНЕЙНЫМИ ПОРЯДКАМИ Специальность 05.13.18 — Математическое моделирование, численные методы и комплексы программ Диссертация на соискание учёной степени кандидата физико-математических наук Научный руководитель : доктор...»

«Свердлова Ольга Леонидовна АВТОМАТИЗАЦИЯ УПРАВЛЕНИЯ ТЕХНОЛОГИЧЕСКИМИ ПРОЦЕССАМИ РАЗДЕЛЕНИЯ ГАЗОВ В ПРОМЫШЛЕННОСТИ 05.13.06 – Автоматизация и управление технологическими процессами и производствами (промышленность) Диссертация на соискание ученой степени кандидата технических наук Научный руководитель кандидат химических наук,...»

«БЕЛОУСОВ Александр Витальевич РАСЧЕТ ЭКВИВАЛЕНТНОЙ ДОЗЫ ПРИ ПРОХОЖДЕНИИ ПУЧКОВ ФОТОНОВ И ЭЛЕКТРОНОВ ЧЕРЕЗ ВЕЩЕСТВО 01.04.16 – физика атомного ядра и элементарных частиц Диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель Доктор физико-математических наук, профессор Черняев Александр Петрович Москва- 2007 ОГЛАВЛЕНИЕ ВВЕДЕНИЕ..4 Глава I. Обзор литературы. Методы лучевой терапии пучками фотонов и I. электронов.. Роль вторичных частиц...»

«МАСЛОВ ЛЕОНИД НИКОЛАЕВИЧ РОЛЬ ОПИОИДНОЙ СИСТЕМЫ В РЕГУЛЯЦИИ АРИТМОГЕНЕЗА И МЕХАНИЗМОВ АДАПТАЦИОННОЙ ЗАЩИТЫ СЕРДЦА ПРИ СТРЕССЕ 14.00.16. - патологическая физиология Диссертация на соискание ученой степени доктора медицинских наук Научный консультант : доктор медицинских наук, профессор Ю.Б.Лишманов Томск - СОДЕРЖАНИЕ стр. СПИСОК ИСПОЛЬЗОВАННЫХ СОКРАЩЕНИЙ ВВЕДЕНИЕ ГЛАВА...»

«ПЕРЦЕВ Дмитрий Васильевич УПРАВЛЕНИЕ ПОРТФЕЛЕМ ПРОЕКТОВ ЗАПУСКА НОВЫХ ПРОДУКТОВ В КОМПАНИИ НА РЫНКЕ ТОВАРОВ ПОВСЕДНЕВНОГО СПРОСА Специальность 08.00.05 – Экономика и управление народным хозяйством (менеджмент) Диссертация на соискание ученой степени кандидата экономических наук Научный руководитель д.э.н., проф. Аньшин В. М. Москва – 2013 ВВЕДЕНИЕ. 1. ТЕОРЕТИКО-МЕТОДОЛОГИЧЕСКИЕ ПРОБЛЕМЫ УПРАВЛЕНИЯ ПОРТФЕЛЕМ...»

«ИЗ ФОНДОВ РОССИЙСКОЙ ГОСУДАРСТВЕННОЙ БИБЛИОТЕКИ Костина, Ольга Алексеевна Психическое здоровье как проблема возрастной и педагогической психологии в наследии В. М. Бехтерева Москва Российская государственная библиотека diss.rsl.ru 2006 Костина, Ольга Алексеевна.    Психическое здоровье как проблема возрастной и педагогической психологии в наследии В. М. Бехтерева [Электронный ресурс] : Дис. . канд. психол. наук  : 19.00.07, 19.00.01. ­ Н. Новгород: РГБ, 2006. ­ (Из фондов Российской...»

«ШАКАРЬЯНЦ Алла Андрониковна ОЦЕНКА ЭФФЕКТИВНОСТИ ЛЕЧЕНИЯ ОЧАГОВОЙ ДЕМИНЕРАЛИЗАЦИИ ЭМАЛИ В СТАДИИ ДЕФЕКТА МЕТОДОМ ИНФИЛЬТРАЦИИ В СОЧЕТАНИИ С РАЗЛИЧНЫМИ РЕСТАВРАЦИОННЫМИ ТЕХНОЛОГИЯМИ 14.01.14 - Стоматология ДИССЕРТАЦИЯ на соискание ученой степени КАНДИДАТА...»

«Полилова Татьяна Алексеевна Инфраструктура регионального образовательного Интернет-пространства 05.13.11 — Математическое и программное обеспечение вычислительных машин, комплексов и компьютерных сетей диссертация на соискание ученой степени доктора физико-математических наук Москва 2000 г. 2 Оглавление Введение Исторический и социальный контекст Этапы информатизации российского образования Интернет в...»

«ГУСЬКОВ СЕРГЕЙ СЕРГЕЕВИЧ МЕТОДЫ ОБРАБОТКИ РЕЗУЛЬТАТОВ ДИСТАНЦИОННОГО МАГНИТОМЕТРИЧЕСКОГО ОБСЛЕДОВАНИЯ ПОДЗЕМНЫХ ТРУБОПРОВОДОВ Специальность: 05.11.13 – Приборы и методы контроля природной среды, веществ, материалов и изделий ДИССЕРТАЦИЯ на соискание ученой степени кандидата технических наук Научный руководитель кандидат технических наук, старший научный сотрудник Спиридович Евгений Апполинарьевич Нижний Новгород – ОГЛАВЛЕНИЕ...»

«УДК 616-056.2+618.3-083]:364.444 ЯКОВЕНКО Лариса Александровна МЕДИКО-СОЦИАЛЬНЫЕ АСПЕКТЫ РАЗВИТИЯ ГИНОИДНОЙ ЛИПОДИСТРОФИИ У ЖЕНЩИН РЕПРОДУКТИВНОГО ВОЗРАСТА И ПУТИ ПРОФИЛАКТИКИ Специальность: 14.02.03 – Общественное здоровье и здравоохранение диссертация на соискание...»

«МАРЫЧЕВ Владимир Владимирович НАУЧНАЯ КАРТИНА МИРА В КУЛЬТУРЕ СОВРЕМЕННОГО ОБЩЕСТВА Диссертация на соискание ученой степени кандидата философских наук Специальность 09.00.13 – Религиоведение, философская антропология, философия культуры Научный руководитель : доктор философских наук, профессор НОВИКОВА О.С. Ставрополь – СОДЕРЖАНИЕ ВВЕДЕНИЕ.. ГЛАВА I. ТЕОРЕТИЧЕСКИЕ И...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.