WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Министерство Российской Федерации

по связи и информатизации

Сибирский государственный университет

телекоммуникаций и информатики

Н. И. Чернова

МАТЕМАТИЧЕСКАЯ

СТАТИСТИКА

Учебное пособие

Новосибирск

2009

УДК 519.2

Доцент, канд. физ.-мат. наук Н. И. Чернова. Математическая статистика:

Учебное пособие / СибГУТИ.— Новосибирск, 2009.— 90 с.

Учебное пособие содержит полугодовой курс лекций по математической статистике для студентов экономических специальностей. Учебное пособие соответствует требованиям Государственного образовательного стандарта к профессиональным образовательным программам по специальности 080116 — «Математические методы в экономике».

Кафедра ММБП Табл. 7, рисунков — 9, список лит. — 8 наим.

Рецензенты: А. П. Ковалевский, канд. физ.-мат. наук, доцент кафедры высшей математики НГТУ В. И. Лотов, д-р физ.-мат. наук, профессор кафедры теории вероятностей и математической статистики НГУ Для специальности 080116 — «Математические методы в экономике»

Утверждено редакционно-издательским советом СибГУТИ в качестве учебного пособия c Сибирский государственный университет телекоммуникаций и информатики, 2009 г.

ОГЛАВЛЕНИЕ

Предисловие.................................. Г л а в а I. Основные понятия математической статистики........ § 1. Задачи математической статистики................. § 2. Выборка................................ § 3. Выборочные характеристики.................... § 4. Свойства эмпирической функции распределения......... § 5. Свойства выборочных моментов................... § 6. Гистограмма как оценка плотности................. § 7. Вопросы и упражнения........................ Г л а в а II. Точечное оценивание...................... § 1. Точечные оценки и их свойства................... § 2. Метод моментов............................ § 3. Свойства оценок метода моментов................. § 4. Метод максимального правдоподобия............... § 5. Асимптотическая нормальность оценок.............. § 6. Вопросы и упражнения........................ Г л а в а III. Сравнение оценок....................... § 1. Среднеквадратичный подход к сравнению оценок......... § 2. Неравенство Рао — Крамера..................... § 3. Вопросы и упражнения........................ Г л а в а IV. Интервальное оценивание................... § 1. Доверительные интервалы...................... § 2. Принципы построения доверительных интервалов........ § 3. Вопросы и упражнения........................ Г л а в а V. Распределения, связанные с нормальным.......... § 1. Основные статистические распределения.............. § 2. Преобразования нормальных выборок............... § 3. Доверительные интервалы для нормального распределения... 4 ОГЛАВЛЕНИЕ § 4. Вопросы и упражнения........................ Г л а в а VI. Проверка гипотез........................ § 1. Гипотезы и критерии......................... § 2. Вопросы и упражнения........................ Г л а в а VII. Критерии согласия...................... § 1. Общий вид критериев согласия................... § 2. Проверка простых гипотез о параметрах.............. § 3. Критерии для проверки гипотезы о распределении........ § 4. Критерии для проверки параметрических гипотез........

ПРЕДИСЛОВИЕ

Учебное пособие содержит полный курс лекций по математической статистике для студентов, обучающихся по специальности «Математические методы в экономике» Сибирского государственного университета телекоммуникаций и информатики. Содержание курса полностью соответствует образовательным стандартам подготовки бакалавров по указанной специальности.

Курс математической статистики опирается на семестровый курс теории вероятностей и является основой для годового курса эконометрики. В результате изучения предмета студенты должны овладеть математическими методами исследования различных моделей математической статистики.

Курс состоит из восьми глав. Первая глава является главной для понимания предмета. Она знакомит читателя с основными понятиями математической статистики. Вторая глава посвящена методам точечного оценивания неизвестных параметров распределения: моментов и максимального правдоподобия.

Третья глава рассматривает сравнение оценок в среднеквадратичном смысле. Здесь же изучается неравенство Рао — Крамера как средство проверки эффективности оценок.

В четвёртой главе рассматривается интервальное оценивание параметров, которое завершается в следующей главе построением интервалов для параметров нормального распределения. Для этого вводятся специальные статистические распределения, которые затем используются в критериях согласия в восьмой главе. Глава шестая даёт необходимые основные понятия теории проверки гипотез, поэтому изучить её читателю следует весьма тщательно.



Наконец, главы седьмая и восьмая дают перечень наиболее часто используемых на практике критериев согласия. В девятой главе рассмотрены простые модели и методы регрессионного анализа и доказаны основные свойства полученных оценок.

Практически каждая глава завершается списком упражнений по тексту главы. Приложение содержит таблицы с перечнем основных характеристик дискретных и абсолютно непрерывных распределений, таблицы основных статистических распределений.

6 ПРЕДИСЛОВИЕ

В конце книги приведен подробный предметный указатель. В списке литературы перечислены учебники, которые можно использовать в дополнение к курсу, и сборники задач для практических занятий.

Нумерация параграфов в каждой главе отдельная. Формулы, примеры, утверждения и т. п. имеют сквозную нумерацию. При ссылке на объект из другой главы для удобства читателя указан номер страницы, на которой содержится объект. При ссылке на объект из той же главы приводится только номер формулы, примера, утверждения. Окончание доказательств отмечено значком.

ГЛАВА I

ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Математическая статистика опирается на методы теории вероятностей, но решает иные задачи. В теории вероятностей рассматриваются случайные величины с заданным распределением или случайные эксперименты, свойства которых целиком известны. Но откуда берутся знания о распределениях в практических экспериментах? С какой вероятностью, например, выпадает герб на данной монете? Для определения этой вероятности мы можем подбрасывать монету много раз. Но в любом случае выводы придётся делать по результатам конечного числа наблюдений. Так, наблюдая 5 035 гербов после 10 000 бросаний монеты, нельзя сделать точный вывод о вероятности выпадения герба: даже если эта вероятность отличается от 0,5, герб может выпасть 5035 раз. Точные выводы о распределении можно делать лишь тогда, когда проведено бесконечное число испытаний, что неосуществимо. Математическая статистика позволяет по результатам конечного числа экспериментов делать более-менее точные выводы о распределениях случайных величин, наблюдаемых в этих экспериментах.

Предположим, что мы повторяем один и тот же случайный эксперимент в одинаковых условиях. В результате каждого повторения эксперимента наблюдается некоторый набор данных (числовых или каких-то иных).

При этом возникают следующие вопросы.

1. Если наблюдается одна случайная величина — как по набору её значений в нескольких экспериментах сделать возможно более точный вывод о её распределении?

2. Если наблюдается проявление двух или более признаков, — что можно сказать о виде и силе зависимости наблюдаемых случайных величин?

Часто можно высказать некие предположения о наблюдаемом распределении или о его свойствах. В этом случае по опытным данным требуется подтвердить или опровергнуть эти предположения («гипотезы»). При этом надо помнить, что ответ «да» или «нет» может быть дан лишь с определенной степенью достоверности, и чем дольше мы можем продолжать эксперимент, тем точнее могут быть выводы. Иногда можно заранее утверждать о наличии

8 ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

некоторых свойств наблюдаемого эксперимента — например, о функциональной зависимости между наблюдаемыми величинами, о нормальности распределения, о его симметричности, о наличии у распределения плотности или о его дискретном характере и т. д.

Итак, математическая статистика работает там, где есть случайный эксперимент, свойства которого частично или полностью неизвестны, и где мы умеем воспроизводить этот эксперимент в одних и тех же условиях некоторое (а лучше — какое угодно) число раз.

Результаты экспериментов могут носить количественный или качественный характер. Количественные результаты можно, например, складывать.

Так, одной из их осмысленных характеристик является среднее арифметическое наблюдений. Качественные результаты складывать бессмысленно, хотя они и могут быть облечены в числовую форму. Скажем, месяц рождения опрошенного — качественное, а не количественное наблюдение: его хоть и можно задать числом, но среднее арифметическое этих чисел несёт столько же разумной информации, как сообщение о том, что в среднем человек родился между июнем и июлем.

В первых главах мы будем изучать работу с количественными результатами наблюдений.

Пусть : R — случайная величина, наблюдаемая в случайном эксперименте. Проводя n раз этот эксперимент в одинаковых условиях, мы получим числа X1, X2,..., Xn — значения наблюдаемой случайной величины в первом, втором и т. д. экспериментах. Случайная величина имеет некоторое распределение F, которое нам частично или полностью неизвестно.

Рассмотрим подробнее набор X = (X1,..., Xn ), называемый выборкой.

В серии уже произведённых экспериментов выборка — это набор чисел. Но до того, как эксперимент проведён, имеет смысл считать выборку набором случайных величин (независимых и распределённых так же, как ). Действительно, до проведения опытов мы не можем сказать, какие значения примут элементы выборки: это будут какие-то из значений случайной величины.

Поэтому имеет смысл считать, что до опыта Xi — случайная величина, одинаково распределенная с, а после опыта — число, которое мы наблюдаем в i -м по счёту эксперименте, т. е. одно из возможных значений случайной величины Xi.

О п р е д е л е н и е 1. Выборкой X = (X1,..., Xn ) объёма n из распределения F называется набор из n независимых и одинаково распределенных случайных величин, имеющих распределение F.

Элементы выборки часто преобразуют для удобства работы с большим набором данных — упорядочивают или группируют.

Если элементы выборки X1,..., Xn упорядочить по возрастанию, получится набор новых случайных величин, называемый вариационным рядом:

Здесь X(1) = min{X1,..., Xn }, X(n) = max{X1,..., Xn }. Элемент X(k) называется k -м членом вариационного ряда или k -й порядковой статистикой.

При группировке данных выделяют несколько групп значений элементов выборки, подсчитывают количество элементов в каждой группе и далее имеют дело только с этим новым набором данных. Как группировка, так и упорядочение данных отбрасывают часть содержащейся в выборке информации.

Задачей математической статистики является получение по выборке выводов о неизвестном распределении F, из которого она извлечена. Распределение характеризуется функцией распределения, плотностью или таблицей, По выборке нужно уметь строить приближения для всех этих характеристик. Такие приближения называют оценками. Термин «оценка» не имеет никакого отношения к неравенствам. Оценкой для некоторой неизвестной характеристики распределения называют построенную по выборке случайную величину, которая в каком-то смысле является приближением этой неизвестной характеристики распределения.

П р и м е р 1. Шестигранный кубик подброшен 100 раз. Первая грань выпала 25 раз, вторая и пятая — по 14 раз, третья — 21 раз, четвёртая — 15 раз, шестая — 11 раз. Мы имеем дело с числовой выборкой, которая для удобства сгруппирована по количеству выпавших очков.

По данным результатам эксперимента нельзя определить вероятности p1,..., p6 выпадения граней. Можно лишь сказать, что получены числовые оценки для этих вероятностей: 0,25 для p1, 0,14 для p2 и для p5 и т. д.

Даже не проводя такой эксперимент, мы могли бы заранее сказать, что оценкой для неизвестной вероятности p1 будет случайная величина а оценкой для вероятности p2 будет случайная величина В данной серии экспериментов эти случайные величины приняли значения 0,25 и 0,14 соответственно. В другой серии их значения изменятся.

10 ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Из теории вероятностей нам известно универсальное средство для приближённого вычисления всевозможных математических ожиданий: закон больших чисел. Этот закон гарантирует, что средние арифметические независимых и одинаково распределённых слагаемых в некотором смысле сближаются с математическим ожиданием типичного слагаемого (если, конечно, это математическое ожидание существует).

Поэтому в качестве приближения (оценки) для неизвестного математического ожидания E X1 можно использовать среднее арифметическое всех элементов выборки: выборочное среднее В качестве оценки для E X1 годится выборочный k -й момент а в качестве оценки для дисперсии D X1 = E (X1 E X1 )2 = E X1 (E X1 ) используется выборочная дисперсия В общем случае величину можно использовать для оценивания величины E g(X1 ).

Точно так же закон больших чисел Бернулли позволяет нам оценивать различные вероятности. Например, вероятность события {X1 < 3} можно заменить на долю успешных испытаний в схеме Бернулли: если для каждого элемента выборки успехом считать событие {Xi < 3}, то доля успехов будет сходиться (по вероятности) к вероятности успеха P(X1 < 3).

Оценивать неизвестную функцию распределения F (y) = P(X1 < y) можно с помощью эмпирической функции распределения § 4. Свойства эмпирической функции распределения Познакомимся подробно с каждой из введённых выше выборочных характеристик и изучим её свойства. К ожидаемым свойствам оценок относят следующие два: несмещённость и состоятельность.

Свойство состоятельности оценки гарантирует, что оценка приближается (по вероятности) к оцениваемой величине с ростом объёма выборки.

Оценку называют несмещённой, если её математическое ожидание совпадает с оцениваемой величиной. Это свойство означает отсутствие систематического смещения в большую или меньшую сторону при многократном использовании данной оценки.

§ 4. Свойства эмпирической функции распределения П р и м е р 2. Пусть дана числовая выборка X = (0; 2; 1; 2,6; 3,1; 4,6; 1; 4,6; 6; 2,6; 6; 7; 9; 9; 2,6).

Построим по ней вариационный ряд и эмпирическую функцию распределения (рис. 1).

Рис. 1. Эмпирическая функция распределения Эмпирическая функция распределения имеет скачки в точках выборки (вариационного ряда), величина скачка в точке Xi равна, где m — коn личество элементов выборки, совпадающих с Xi. Эмпирическая функция распределения по вариационному ряду строится так:

12 ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Т е о р е м а 1. Пусть дана выборка из распределения с функцией распределения F и пусть Fn — эмпирическая функция распределения, построенная по этой выборке. Тогда для любой фиксированной точки y выполнены свойства:

1) Fn (y) F (y) при n, т. е. Fn (y) является состоятельной оценкой для F (y);

2) E Fn (y) = F (y), т. е. Fn (y) является несмещённой оценкой для F (y).

Свяжем с выборкой схему Бернулли: в i -м испытании произошёл успех, если Xi < y. В таком случае величина n, равная количеству Xi меньших y, есть число успехов в n независимых испытаниях Бернулли с вероятностью успеха p = P(X1 < y) = F (y). По закону больших чисел Бернулли Величина n имеет биномиальное распределение с параметрами n и p. Поэтому На самом деле сходимость эмпирической функции распределения к теоретической имеет даже «равномерный» характер: наибольшее из расхождений между этими функциями распределения стремится к нулю.

Выборочное среднее X, определённое формулой (1), является несмещённой и состоятельной оценкой для теоретического среднего (математического ожидания), которое для удобства мы будем обозначать m1.

Т е о р е м а 3. Пусть имеется выборка из распределения с конечным первым моментом E X1 = m1. Тогда 1) EX = m1, т. е. выборочное среднее X является несмещённой оценкой для истинного математического ожидания m1 ;

2) X m1 при n, т. е. выборочное среднее X является состоятельной оценкой для m1.

Д о к а з а т е л ь с т в о. Первое утверждение следует из свойств математического ожидания:

Из ЗБЧ в форме Хинчина получаем второе утверждение:

Выборочный k -й момент X k, определённый формулой (2), является несмещённой и состоятельной оценкой для теоретического k -го момента.

Обозначим теоретический k -й момент буквой mk.

Т е о р е м а 4. Пусть имеется выборка из распределения с конечным k -м моментом E X1 = mk. Тогда 1) EX k = mk, т. е. X k является несмещённой оценкой для mk ;

2) X k mk при n, т. е. X k является состоятельной оценкой для mk.

У п р а ж н е н и е. Доказать теорему 4.

Выше мы определили формулой (3) выборочную дисперсию S 2. Оказывается однако, что оценка S 2, будучи состоятельной, обладает систематическим смещением в меньшую сторону по сравнению с истинной дисперсией распределения D X1 = 2. Введём поэтому ещё одну, теперь уже несмещённую, оценку для дисперсии. Величину называют несмещённой выборочной дисперсией. Убедимся в адекватности её названия.

Т е о р е м а 5. Пусть дана выборка из распределения с конечной дисперсией D X1 = 2. Тогда 1) обе выборочные дисперсии S 2 и S0 являются состоятельными оценками для истинной дисперсии:

2) величина S 2 — смещённая оценка дисперсии, а S0 — несмещённая:

Д о к а з а т е л ь с т в о. Докажем первое утверждение теоремы. Воспользуемся вторым равенством из формулы (3): S 2 = X 2 (X)2. Используя состоятельность первого и второго выборочных моментов и свойства сходимости

14 ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

по вероятности, получаем Далее, Для доказательства второго утверждения теоремы воспользуемся несмещённостью первого и второго выборочных моментов:

откуда сразу следует ES0 = Важной характеристикой для абсолютно непрерывного распределения является плотность распределения.

Эмпирическим аналогом плотности распределения является так называемая гистограмма.

Гистограмма строится по группированным данным. Область на прямой, занимаемую элементами выборки, делят на k интервалов. Пусть A1,..., Ak — интервалы на прямой, называемые интервалами группировки.

Обозначим для j = 1,..., k через j число элементов выборки, попавших в интервал Aj. Случайная величина j равна числу успехов в n испытаниях схемы Бернулли, если в i -м испытании успехом считать событие {Xi Aj }.

На каждом из интервалов Aj строят прямоугольник, площадь которого пропорциональна j. Общая площадь всех прямоугольников должна равняться единице. Поэтому высота fj прямоугольника над интервалом Aj равна где через lj обозначена длина интервала Aj.

Полученная фигура, состоящая из объединения прямоугольников, называется гистограммой.

П р и м е р 3. Имеется вариационный ряд из примера 2:

Разобьём отрезок [0, 10] на четыре равных отрезка. Отрезку [0, 2,5) принадлежат четыре элемента выборки, отрезку [2,5, 5) — шесть, отрезку [5, 7,5) — три, и отрезку [7,5, 10] — два элемента выборки. Строим гистограмму (рис. 2). На рис. 3 — гистограмма для той же выборки, но при разбиении области на пять равных отрезков.

Чем больше интервалов группировки, тем лучше: фигура, состоящая из более узких прямоугольников, точнее приближает истинную плотность распределения. С другой стороны, бессмысленно брать число интервалов k = k(n) порядка n: тогда в каждый интервал попадёт в среднем по одной точке и гистограмма не будет приближаться к плотности с ростом n. Справедливо следующее утверждение.

Пусть плотность распределения элементов выборки является непрерывной функцией. Если количество интервалов группировки стремится к бесконечности таким образом, что k(n)/n 0, то имеет место сходимость по вероятности гистограммы к плотности в каждой точке y.

Обычно берут число интервалов порядка c · 3 n (или длину интервала порядка c/ 3 n).

1. Дана числовая выборка (0, 1, 1, 0, 0, 0, 1, 0, 1, 1, 1, 1, 0, 1, 0) из распределения Бернулли. Вычислить по ней значения выборочного среднего, выборочных k -х моментов, выборочной дисперсии и несмещённой выборочной дисперсии. Построить график эмпирической функции распределения.

2. Дана числовая выборка (1, 3, 2, 5, 0, 0, 1, 2, 1, 1, 3, 2) из распределения Пуассона. Вычислить по ней значения выборочного среднего, выборочной дисперсии и несмещённой выборочной дисперсии. Построить график эмпирической функции распределения.

3. Выборка объёма n = 100 задана таблицей:

16 ГЛАВА I. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

Числа Ni соответствуют количеству значений, равных Xi, в выборке. Вычислить по этой выборке значения выборочного среднего, выборочной дисперсии и несмещённой выборочной дисперсии. Построить график эмпирической функции распределения.

4. Выборка объёма n = 100 утеряна, осталась лишь информация по интервалам группировки:

Построить гистограмму.

5. Пусть ( 0,8; 2,9; 4,3; 5,7; 1,1; 3,2) — наблюдавшиеся значения выборки. Построить график эмпирической функции распределения и проверить, что F6 (5) = 1/6, F6 (0) = 1/2 и F6 (4) = 5/6.

6. Пусть (3, 0, 4, 3, 6, 0, 3, 1) — наблюдавшиеся значения выборки. Построить график эмпирической функции распределения и проверить, что F8 (1) = = 1/4, F8 (3) = 3/8 и F8 (5) = 7/8.

7. Указать какую-нибудь выборку объёма n = 12, которая имеет ту же эмпирическую функцию распределения, что и выборка из упражнения 5.

8. Указать какую-нибудь (отличную от выборки из упражнения 6) выборку объёма n = 8, которая имеет ту же эмпирическую функцию распределения, что и выборка из упражнения 6.

Г Л А В А II

ТОЧЕЧНОЕ ОЦЕНИВАНИЕ

Ситуация, когда о распределении наблюдений не известно совсем ничего, встречается довольно редко. Проводя эксперимент, мы можем предполагать или утверждать что-либо о распределении его результатов. Например, может оказаться, что это распределение нам известно с точностью до значений одного или нескольких числовых параметров. Так, в широких предположениях рост юношей одного возраста имеет нормальное распределение с неизвестными средним и дисперсией, а число покупателей в магазине в течение часа — распределение Пуассона с неизвестной «интенсивностью». Рассмотрим задачу оценивания по выборке неизвестных параметров распределения. Оказывается, различными способами бывает возможно построить даже не одну, а множество оценок для одного и того же неизвестного параметра.

Параметрические семейства распределений. Пусть имеется выборка X1,..., Xn объёма n, извлечённая из распределения F, которое известным образом зависит от неизвестного параметра.

Здесь F — некий класс распределений, целиком определяющихся значением скалярного или векторного параметра.

Примерами параметрических семейств распределений могут служить все известные нам распределения: распределение Пуассона, где > 0; распределение Бернулли Bp, где p (0, 1); равномерное распределение Ua, b, где a < b; равномерное распределение U0,, где > 0; нормальное распределение Na, 2, где a R, > 0 и т. д.

Точечные оценки. Пусть дана выборка объёма n из параметрического семейства распределений F.

О п р е д е л е н и е 2. Статистикой (оценкой) называется произвольная функция = (X1,..., Xn ) от элементов выборки.

З а м е ч а н и е 1. Статистика есть функция от эмпирических данных, но никак не от параметра. Статистика, как правило, предназначена именно для оценивания неизвестного параметра (поэтому её иначе называют оценкой ), и уже поэтому от него зависеть не может.

18 ГЛАВА II. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ

Свойства оценок. Дадим три определения хороших свойств оценок. Про два из них мы уже говорили ранее.

О п р е д е л е н и е 3. Статистика = (X1,..., Xn ) называется несмещённой оценкой параметра, если E =.

О п р е д е л е н и е 4. Статистика = (X1,..., Xn ) называется асимптотически несмещённой оценкой параметра, если E при n.

О п р е д е л е н и е 5. Статистика = (X1,..., Xn ) называется состояp тельной оценкой параметра, если при n.

Несмещённость — свойство оценок при фиксированном n. Означает это свойство отсутствие ошибки «в среднем», т. е. при систематическом использовании данной оценки. Несмещённость является желательным, но не обязательным свойством оценок. Достаточно, чтобы смещение оценки (разница между её средним значением и истинным параметром) уменьшалось с ростом объёма выборки. Поэтому асимптотическая несмещённость является весьма желательным свойством оценок. Свойство состоятельности означает, что последовательность оценок приближается к неизвестному параметру при увеличении количества наблюдений. В отсутствие этого свойства оценка совершенно «несостоятельна» как оценка.

П р и м е р 4. Пусть X1,..., Xn — выборка объёма n из нормального распределения Na,2, где a R, > 0. Как найти оценки для параметров a и 2, если оба эти параметра (можно их считать одним двумерным параметром) неизвестны?

Мы уже знаем хорошие оценки для математического ожидания и дисперсии любого распределения. Оценкой для истинного среднего a = EX1 может служить выборочное среднее a = X. Теорема 3 (с. 12) утверждает, что эта оценка несмещённая и состоятельная.

Для дисперсии 2 = DX1 у нас есть сразу две оценки:

Как показано в теореме 5 (с. 13), обе эти оценки состоятельны, и одна из них — несмещённая (которая?), а другая — асимптотически несмещённая.

Рассмотрим некоторые стандартные методы получения точечных оценок.

Метод моментов предлагает для нахождения оценки неизвестного параметра использовать выборочные моменты вместо истинных. Этот метод заключается в следующем: любой момент случайной величины X1 (например, k -й) является функцией от параметра. Но тогда и параметр может оказаться функцией от теоретического k -го момента. Подставив в эту функцию вместо неизвестного теоретического k -го момента его выборочный аналог, получим вместо параметра его оценку.

Пусть X1,..., Xn — выборка объёма n из семейства распределений F, где — неизвестный числовой параметр.

Вычислим какой-нибудь из существующих моментов распределения.

Пусть E X1 = mk = h(), причём функция h(x) непрерывна и обратима (взаимно-однозначна). Тогда параметр можно выразить через k -й момент:

= h1 (mk ). В качестве оценки метода моментов для параметра берут величину = h1 (X k ).

З а м е ч а н и е 2. Если параметр — вектор, а не число, т. е. если неизвестных параметров несколько, то в методе моментов берут не один момент mk, а столько, сколько требуется для того, чтобы выразить через моменты все неизвестные параметры.

П р и м е р 5. Пусть X1,..., Xn — выборка объёма n из равномерного на отрезке [0, ] распределения U0,, где > 0.

Найдём оценку метода моментов по первому моменту:

Найдём оценку метода моментов по k -му моменту:

тогда П р и м е р 6. Пусть X1,..., Xn — выборка объёма n из нормального распределения Na, 2.

Найдём оценки метода моментов для неизвестных параметров a и 2. Мы можем сразу записать выражения параметров через первые два момента:

П р и м е р 7. Пусть X1,..., Xn — выборка объёма n из показательного распределения E.

Найдём оценку метода моментов по первому моменту E X1 = m1 =.

Выразим =

20 ГЛАВА II. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ

Т е о р е м а 6. Оценки, полученные методом моментов, являются состоятельными оценками.

Д о к а з а т е л ь с т в о. Пусть = h1 (X k ) — оценка для параметра, полученная методом моментов из равенства mk = h(), где функция y = h(x) непрерывна и обратима. По теореме 4 имеем Поскольку функция y = h(x) непрерывна и обратима, то и обратная к ней функция x = h1 (y) также непрерывна. Поэтому Если оценки метода моментов обязаны быть состоятельными, то свойство несмещённости для них является скорее исключением, нежели правилом.

П р и м е р 8. Рассмотрим последовательность оценок для неизвестного параметра равномерного на отрезке [0, ] распределения, полученную в примере 5 и исследуем напрямую их свойства.

Их состоятельность вытекает из теоремы 6. Проверим несмещённость полученных оценок. По теореме 3, EX = m1, поэтому т. е. оценка = 2X несмещённая.

Рассмотрим оценку = 3X 2. Функция y = x является вогнутой в области x > 0, поэтому мы можем воспользоваться неравенством Йенсена:

Полезно заметить, что знак равенства в неравенстве Йенсена возможен только для линейных функций либо для вырожденных случайных величин. В данном случае y = x нелинейна, а случайная величина 3X 2 имеет невырожденное распределение. Поэтому E <, т. е. оценка является смещённой.

Такими же смещёнными будут и оценки k кой. Действительно, применяя неравенство Йенсена к выпуклой на (0, +) функции y = 1/x, получим:

Метод максимального правдоподобия — ещё один разумный способ построения оценки неизвестного параметра. Состоит он в том, что в качестве «наиболее правдоподобного» значения параметра берут значение, максимизирующее вероятность получить при n опытах данную выборку X = (X1,..., Xn ).

Это значение параметра зависит от выборки и является искомой оценкой.

Выясним сначала, что такое «вероятность получить данную выборку», т. е.

чт именно нужно максимизировать. Вспомним, что для абсолютно непрео рывных распределений F их плотность f (y) — «почти» (с точностью до dy ) вероятность попадания в точку y:

А для дискретных распределений F вероятность попасть в точку y равна P (X1 = y). В зависимости от типа распределения F обозначим через f (y) одну из следующих двух функций:

В дальнейшем функцию f (y), определённую формулой (7), мы будем называть плотностью распределения F независимо от того, является ли это распределение дискретным или абсолютно непрерывным.

называется функцией правдоподобия. При фиксированном эта функция является случайной величиной. Функция (тоже случайная) называется логарифмической функцией правдоподобия.

В дискретном случае при фиксированных x1,..., xn значение функции правдоподобия f (x1,..., xn, ) равно вероятности, с которой выборка X1,..., Xn в данной серии экспериментов принимает значения x1,..., xn.

Эта вероятность меняется в зависимости от :

22 ГЛАВА II. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ

В абсолютно непрерывном случае эта функция пропорциональна вероятности попасть «почти» в точку x1,..., xn, а именно, в «кубик» со сторонами dx1,..., dxn вокруг точки x1,..., xn.

О п р е д е л е н и е 7. Оценкой максимального правдоподобия (ОМП) для неизвестного параметра называют такое значение, при котором достигается максимум функции f (X; ).

З а м е ч а н и е 3. Поскольку функция ln y монотонна, то точки максимума функций f (X; ) и L(X; ) совпадают (обосновать ). Поэтому оценкой максимального правдоподобия можно называть точку максимума (по переменной ) функции L(X; ).

Напомним, что точки экстремума функции — это либо точки, в которых производная обращается в нуль, либо точки разрыва функции или её производной, либо крайние точки области определения функции.

П р и м е р 10. Пусть X1,..., Xn — выборка объёма n из распределения Пуассона, где > 0. Найдём ОМП для неизвестного параметра.

Здесь поэтому функция правдоподобия равна Поскольку эта функция при всех > 0 дифференцируема по, можно искать точки экстремума, приравняв к нулю частную производную по. Но удобнее это делать для логарифмической функции правдоподобия:

Тогда Проверим, что в точке = X достигается максимум функции L. Для этого достаточно выяснить, будет ли отрицательной вторая производная функции L в этой точке. Но вторая производная функции L равна Это распределение имеет плотность Перемножив плотности в точках X1,..., Xn, получим функцию правдоподобия а затем логарифмическую функцию правдоподобия В точке экстремума (по a и 2 ) гладкой функции L обращаются в нуль обе частные производные Оценка максимального правдоподобия для (a, 2 ) является решением системы уравнений Решая, получаем хорошо знакомые оценки У п р а ж н е н и е. Проверить, что (X, S 2 ) — точка максимума, а не минимума. Для этого вычислить матрицу вторых производных функции L в данной точке и проверить её отрицательную определённость, т. е. чередование знаков главных миноров (первый отрицательный, второй положительный).

П р и м е р 12. Пусть X1,..., Xn — выборка объёма n из равномерного распределения U0,, где > 0.

Плотность этого распределения равна

24 ГЛАВА II. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ

Запишем функцию правдоподобия Представим функцию f (X; ) как функцию переменной :

Рис. 4. График функции правдоподобия распределения U0, Видим на рис. 4, что максимум функции правдоподобия достигается в точке X(n). Она и будет ОМП: = X(n) = max{X1,..., Xn }.

Ещё одно важное свойство оценок связано с их предельным поведением. Предположим, что разность оценки и параметра, подходящим образом нормированная, имеет распределение, которое с ростом n всё более похоже на стандартное нормальное распределение. В таком случае оценку (последовательность оценок) называют асимптотически нормальной. Асимптотическая нормальность оценок является важным свойством последовательностей оценок. В дальнейшем мы увидим, что это свойство используется при построении доверительных интервалов для неизвестных параметров, в задачах проверки гипотез о значениях этих параметров, а также позволяет сравнивать качества оценок.

Пусть X1,..., Xn — выборка объёма n из параметрического семейства распределений F.

О п р е д е л е н и е 8. Оценка называется асимптотически нормальной оценкой (АНО) параметра с коэффициентом 2 (), если при n распределение случайной величины сходится к стандартному норВопросы и упражнения мальному распределению, т. е. для любого x = 2X и = X(n) асимптотически нормальными.

есть среднее арифметическое случайных величин с математическим ожиданием E (2X1 ) = 2 · /2 = и дисперсией D (2X1 ) = 4D X1 = 2 /3.

Поэтому оценка = 2X является АНО для параметра с коэффициентом асимптотической нормальности 2 () = 2 /3.

Для проверки асимптотической нормальности оценки = X(n) заметим, что величина n (X(n) ) при любом n принимает только отрицательные значения, поэтому её распределение не может приближаться ни к какому нормальному закону. Оценка не является асиптотически нормальной.

1. Дана выборка X1,..., Xn из распределения Бернулли Bp с параметром p (0, 1). Проверить, что X1, X1 X2, X1 (1 X2 ) являются несмещёнными оценками соответственно для p, p2, p(1 p). Являются ли эти оценки состоятельными?

2. Дана выборка X1,..., Xn из распределения Пуассона с параметром > 0. Проверить, что X1 является несмещённой оценкой для. Является ли эта оценка состоятельной?

3. Дана выборка X1,..., Xn из равномерного распределения U0, с параметром > 0. Проверить состоятельность и несмещённость оценок = X(n) , = X(n) + X(1) для параметра.

26 ГЛАВА II. ТОЧЕЧНОЕ ОЦЕНИВАНИЕ

4. Построить оценки неизвестных параметров по методу моментов для неизвестных параметров следующих семейств распределений: Bp — по первому моменту, — по первому и второму моменту, Ua, b — по первому и второму моменту, E — по всем моментам, E1/ — по первому моменту, U, — как получится,, — по первому и второму моменту, Na, 2 (для 2 при a известном и при a неизвестном).

5. Построить оценки неизвестных параметров по методу максимального правдоподобия для следующих семейств распределений: Bm, p при известном значении m N, +1, U0, 2, E2+3, U,, Na, 2 при известном a.

6. Какие из оценок в упражнениях 4 и 5 несмещённые? Какие из них состоятельны?

7. Эмпирическая функция распределения Fn (y) строится по выборке из равномерного распределения на отрезке [0, a], где a > 1. Для какого параметра = (a) статистика Fn (1) является несмещённой оценкой? Является ли она состоятельной оценкой того же параметра?

8. Пусть элементы выборки X1,..., Xn имеют распределение с плотностью где > 0 — неизвестный параметр. Найти ОМП для параметра.

9. Дана числовая выборка 0, 1, 6, 0, 1, 3, 2, 2, 1, 0, 3, 4, 4, 2 из распределения Пуассона с параметром. Вычислить значение оценок метода моментов для параметра, полученных по первому и второму моментам.

10. Дана выборка X1,..., Xn из равномерного распределения Ua, b с параметрами a < b. Доказать, что оценками максимального правдоподобия для параметров a и b будут X(1) и X(n) соответственно.

11. Дана выборка X1,..., Xn из распределения Пуассона с параметром > 0. Проверить, что X является асимптотически нормальной оценкой для . Найти коэффициент асимптотической нормальности.

Г Л А В А III

СРАВНЕНИЕ ОЦЕНОК

Используя метод моментов и метод максимального правдоподобия, мы получили для каждого параметра достаточно много различных оценок. Каким же образом их сравнивать? Что должно быть показателем «хорошести» оценки?

Понятно, что чем дальше оценка отклоняется от параметра, тем она хуже.

Но величина | | для сравнения непригодна: во-первых, параметр неизвестен, во-вторых, — случайная величина, поэтому при разных значениях выборки эти расстояния будут, вообще говоря, различны. Для сравнения оценок используют обычно усреднённые характеристики рассеяния. Например, это может быть E( )2, E| |, либо какие-то иные средние.

§ 1. Среднеквадратичный подход к сравнению оценок Среднеквадратичный подход использует в качестве «расстояния» от оценки до параметра величину E( )2.

Пусть X1,..., Xn — выборка объёма n из параметрического семейства распределений F.

О п р е д е л е н и е 9. Говорят, что оценка не хуже оценки в среднеквадратичном смысле, если для любого Среди всех мыслимых оценок наилучшей в среднеквадратичном смысле не существует. Но если разбить оценки на отдельные классы, то наилучшая в каждом классе может и найтись. Обычно рассматривают классы оценок, имеющих одинаковое смещение b() = E.

Обозначим через Kb = Kb() класс всех оценок со смещением, равным заданной функции b():

Здесь K0 — класс несмещённых оценок.

О п р е д е л е н и е 10. Оценка Kb называется эффективной оценкой в классе Kb, если она лучше (не хуже) всех других оценок класса Kb в среднеквадратичном смысле.

28 ГЛАВА III. СРАВНЕНИЕ ОЦЕНОК

З а м е ч а н и е 4. Для оценки K0 по определению дисперсии т. е. сравнение в среднеквадратичном несмещённых оценок есть просто сравнение их дисперсий. Для смещённых оценок Kb т. е. сравнение в среднеквадратичном оценок с одинаковым смещением также приводит к сравнению их дисперсий.

З а м е ч а н и е 5. Заметим без доказательства, что в классе оценок с одинаковым смещением не может существовать двух различных эффективных оценок: если эффективная оценка существует, она единственна.

Для примера рассмотрим сравнение двух оценок. Разумеется, сравнивая оценки попарно между собой, наилучшей оценки в целом классе не найти, но выбрать лучшую из двух тоже полезно. А способами поиска наилучшей в целом классе мы тоже скоро займёмся.

П р и м е р 15. Пусть дана выборка объёма n из равномерного распределения U0,, где > 0. В примерах 5 и 12 мы нашли ОММ по первому моменту = 2X и ОМП = X(n) = max{X1,..., Xn }.

Сравним их в среднеквадратичном смысле. Оценка = 2X несмещённая, поэтому Для имеем E( )2 = E( )2 2 E + 2. Найдём функцию и плотность распределения случайной величины :

Посчитаем первый и второй моменты случайной величины = X(n) :

Поэтому При n = 1, 2 среднеквадратичные отклонения оценок и равны: ни одна из этих оценок не лучше другой в среднеквадратичном смысле, а при n > 2 оценка X(n) оказывается лучше, чем 2X :

Оценку X(n) можно превратить в несмещённую оценку X(n), т. е.

оценку из того же класса, что и 2X. Но и тогда исправленная оценка оказывается лучше в среднеквадратичном смысле, чем 2X (см. упражнение 2 § 3).

В классе одинаково смещённых оценок эффективной мы назвали оценку с наименьшим среднеквадратичным отклонением. Но попарное сравнение оценок — далеко не лучший способ отыскания эффективной оценки. Существует утверждение, позволяющее во многих случаях доказать эффективность оценки (если, конечно, она на самом деле эффективна). Это утверждение называется неравенством Рао—Крамра и говорит о том, что в любом классе Kb() существует нижняя граница для среднеквадратичного отклонения любой оценки. Таким образом, если найдётся оценка, отклонение которой в точности равно этой нижней границе (самое маленькое), то данная оценка — эффективна, поскольку у всех остальных оценок отклонение меньшим быть не может. К сожалению, данное неравенство верно не для всех семейств распределений. Например, оно не имеет места для равномерных распределений.

Более точно, исключим из рассмотрения любые семейства распределений, для которых область значений элементов выборки зависит от параметра.

Потребуем также, чтобы так называемая информация Фишера была конечна, положительна и непрерывна по.

Если данные условия выполнены, справедливо следующее утверждение.

Т е о р е м а 7 (н е р а в е н с т в о Р а о — К р а м е р а). Для любой несмещённой оценки K0 справедливо неравенство

30 ГЛАВА III. СРАВНЕНИЕ ОЦЕНОК

Неравенство сформулировано для класса несмещённых оценок. Похожим образом выглядит неравенство Рао — Крамера для смещённых оценок.

Сформулируем очевидное следствие из неравенства Рао — Крамера.

С л е д с т в и е 1. Если для оценки K0 достигается равенство в неравенстве Рао — Крамера то оценка эффективна в классе K0.

П р и м е р 16. Пусть дана выборка объёма n из нормального распределения Na, 2. Проверим, является ли оценка a = X K0 эффективной.

Найдём информацию Фишера относительно параметра a. Плотность распределения равна Соответственно, ln fa (y) = 2. Найдя второй момент этого выражения при y = X1, получим информацию Фишера Найдём дисперсию оценки X: DX = DX1 =.

Сравнивая левую и правую части в неравенстве Рао — Крамера, получаем равенство Итак, оценка a = X эффективна (т. е. обладает наименьшей дисперсией среди несмещённых оценок).

П р и м е р 17. Пусть дана выборка объёма n из нормального распределения N0, 2. Проверим, является ли эффективной оценка У п р а ж н е н и е. Получить эту оценку методом моментов и методом максимального правдоподобия.

Найдём информацию Фишера относительно параметра 2. Плотность распределения равна Продифференцируем это выражение по параметру 2 :

Вычислим информацию Фишера Осталось найти DX1 = EX1 (EX1 ) = EX1 4. Используем тот факт, что величина = X1 / имеет стандартное нормальное распределение, и её четвёртый момент равен трём (мы вычисляли его в курсе теории вероятностей): E4 = 3, X1 = ·, поэтому Итак, DX1 = EX1 4 = 24, Найдём дисперсию оценки = X 2 и сравним её с правой частью неравенства Рао — Крамера:

Поэтому оценка 2 = X 2 эффективна.

1. Дана выборка объёма n из распределения Пуассона с параметром.

Сравнить оценки X1, 1 и X в среднеквадратичном смысле.

2. Используя вычисления из примера 15, сравнить в среднеквадратичном смысле оценки = 2X и = X(n). Проверить, является ли оценка несмещённой.

3. Является ли эффективной несмещённая оценка = 2X, полученная по выборке из равномерного распределения на отрезке [0, ]?

4. Дана выборка из распределения Пуассона с параметром. Проверить эффективность оценки = X с помощью неравенства Рао — Крамера.

5. Дана выборка из биномиального распределения Bm, p, где m = 10.

Проверить по неравенству Рао — Крамера эффективность оценки p = X/10.

Г Л А В А IV

ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ

Пусть есть выборка из распределения F с неизвестным параметром. До сих пор мы занимались «точечным оцениванием» неизвестного параметра — находили оценку (для числовой выборки это число), способную в некотором смысле заменить параметр. Существует другой подход к оцениванию, при котором мы указываем случайный интервал, накрывающий параметр с заранее заданной вероятностью. Границы этого интервала зависят от выборки. Такой подход называется интервальным оцениванием. Сразу заметим: чем больше уверенность в том, что параметр лежит в интервале, тем шире интервал. Поэтому бессмысленно искать диапазон, внутри которого содержится гарантированно — таким интервалом будет вся область возможных значений параметра.

Пусть X1,..., Xn — выборка объёма n из распределения F с параметром R. Пусть задано число 0 < < 1.

О п р е д е л е н и е 11. Интервал (, + ), границы которого зависят от заданного и от выборки X1,..., Xn, называется доверительным интервалом для параметра уровня доверия 1, если при любом возможном значении З а м е ч а н и е 6. Интервал из определения 11 называют также точным доверительным интервалом.

О п р е д е л е н и е 12. Интервал (, + ) называется асимптотическим доверительным интервалом для параметра (асимптотического) уровня доверия 1, если при любом возможном значении На самом деле в определении 12 речь идёт, конечно, не об одном интервале, но о последовательности интервалов, зависящих от n.

З а м е ч а н и е 7. Случайны здесь границы интервала (, + ), поэтому читают событие { < < + } как «интервал (, + ) накрывает параметр », а не как « лежит в интервале... ».

Прежде чем рассматривать какие-то регулярные способы построения точных и асимптотических доверительных интервалов, разберем два примера, а затем попробуем извлечь из них некоторую общую философию построения доверительных интервалов.

П р и м е р 18. Пусть X1,..., Xn — выборка объёма n из нормального распределения Na, 2, где a R — неизвестный параметр, а значение > известно. Требуется при произвольном n построить точный доверительный интервал для параметра a уровня доверия 1.

Знаем, что нормальное распределение устойчиво по суммированию. Поэтому распределение суммы элементов выборки при любом её объёме n нормально: nX = X1 +... + Xn имеет нормальное распределение Nna, n2, а центрированная и нормированная величина имеет стандартное нормальное распределение.

По заданному (0, 1) найдём число c > 0 такое, что Число c является квантилью уровня 1 стандартного нормального распределения (рис. 5):

Рис. 5. Квантили стандартного нормального распределения По заданному в таблице значений функции (x) найдём квантили c = 1/2 или c = /2. Разрешив затем неравенство c < < c отноГЛАВА IV. ИНТЕРВАЛЬНОЕ ОЦЕНИВАНИЕ сительно a, получим точный доверительный интервал:

где K(y) есть функция распределения Колмогорова Значения этой функции (рис. 9) находят из соответствующих таблиц.

Положим (X) = n sup |Fn (y) F1 (y)|.

§ 3. Критерии для проверки гипотезы о распределении По заданному с помощью таблицы значений функции K(y) можно найти C такое, что = K(y). Тогда критерий Колмогорова выглядит так:

Этот критерий имеет асимптотический размер и является состоятельным.

Критерий 2 Пирсона. Критерий 2 основывается на группированных данных. Область значений предполагаемого распределения F1 делят на некоторое число интервалов. После чего строят функцию отклонения по разностям теоретических вероятностей попадания в интервалы группировки и эмпирических частот.

Дана выборка объёма n из распределения F. Проверяется простая гипотеза H1 = {F = F1 } при альтернативе H2 = {F = F1 }.

Пусть A1,..., Ak — интервалы группировки в области значений случайной величины с предполагаемым распределением F1. Пусть для каждого j = 1,..., k величина j равна числу элементов выборки, попавших в интервал Aj :

Пусть число pj > 0 равно теоретической вероятности попадания в интервал Aj случайной величины с распределением F1. Здесь p1 +... + pk = 1. Как правило, длины интервалов выбирают так, чтобы p1 =... = pk = 1/k. Пусть З а м е ч а н и е 11. Поскольку мы строим критерий, опираясь только на частоту попадания элементов выборки в интервалы группировки, мы должГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ ны заранее понимать, что критерий не сможет отличить два распределения, у которых одинаковы вероятности попасть во все интервалы группировки.

Верна теорема.

Т е о р е м а 13 (П и р с о н а). Если верна гипотеза H1, то при фиксированном k и при n распределение величины (X) приближается к распределению Hk1, где Hk1 есть 2-распределение с k1 степенью свободы.

Осталось построить критерий согласия по определению 21. Пусть случайная величина имеет распределение Hk1. По таблице распределения Hk найдём C, равное квантили уровня 1 этого распределения: = P( C).

Критерий 2 устроен обычным образом:

Число интервалов k выбирают так, чтобы значения np1 =... = npk были не менее 5—6. Если выборка уже сгруппирована, то группы, в которые попало менее пяти элементов выборки, объединяют с соседними, уменьшая тем самым число интервалов группировки.

П р и м е р 29. Для проверки равномерности распределения дней рождения по месяцам года взят список дней рождений 683 студентов ИВТ СибГУТИ по данным на сентябрь 2007 г. Получено следующее распределение дней рождения: январь — 60, февраль — 62, март — 60, апрель — 63, май — 69, июнь — 59, июль — 62, август — 54, сентябрь — 41, октябрь — 45, ноябрь — 48 и декабрь — 60.

Итак, есть 12 интервалов группировки. Проверяемая гипотеза состоит в том, что вероятность элементу выборки попасть в каждый из них одна и та же и равна 1/12 (можно было взять разные вероятности, пропорциональные числу дней каждого месяца).

Вычислим статистику критерия:

Возьмём = 0,05 и найдём по таблице критических точек распределения 2 величину C такую, что P(2 > C) = 0,05. Получим C = 19,68. Величина оказалась меньше C, поэтому критерий принимает основную гипотезу.

Реально достигнутый уровень значимости = P(2 > 13,193) равен 0, (для его вычисления следует воспользоваться более подробными таблицами или любым подходящим пакетом программ). Он показывает, что достигнуто достаточно хорошее согласие с проверяемой гипотезой.

§ 4. Критерии для проверки параметрических гипотез § 4. Критерии для проверки параметрических гипотез Очень часто требуется проверить, например, нормальность распределения выборки безо всякого знания о параметрах распределения. Предыдущие два критерия не годятся, поскольку проверяемая гипотеза является сложной.

Следующий критерий является вариантом критерия Пирсона.

Критерий 2 для проверки параметрической гипотезы. Критерий 2 часто применяют для проверки гипотезы о принадлежности распределения выборки некоторому параметрическому семейству.

Пусть дана выборка из неизвестного распределения F. Проверяется гипотеза о том, что это распределение принадлежит некоторому семейству распределений F, где — неизвестный векторный параметр (размерности d ).

Разобьём всю числовую ось на k > d + 1 интервалов группировки A1,... Ak и вычислим j — число элементов выборки, попавших в интервал Aj. Но теперь вероятность pj = PH1 (X1 Aj ) = pj () зависит от неизвестного параметра. Функция отклонения (15) также зависит от неизвестного параметра, и использовать её в критерии Пирсона нельзя:

Пусть — такое значение параметра, при котором функция (X; ) принимает наименьшее значение. Подставив вместо истинных вероятностей pj их оценки pj ( ), получим функцию отклонения Т е о р е м а 14 (Р. Ф и ш е р). Пусть верна гипотеза H1. Если число d есть размерность вектора параметров и выполнены некоторые условия гладкости функций pj (), то при фиксированном k и при n распределение величины (X; ) сближается с распределением Hk1d, где Hk1d есть 2-распределение с k 1 d степенями свободы.

Построим критерий 2. Пусть случайная величина имеет распределение Hk1d. По заданному найдём C такое, что = P( C).

Критерий согласия 2 устроен обычным образом:

60 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

З а м е ч а н и е 12. Вычисление точки минимума функции (X; ) в общем случае возможно лишь численно. Поэтому часто вместо оценки используют оценку максимального правдоподобия, построенную по выборке X1,..., Xn. Однако при такой замене предельное распределение величины (X; ) уже не равно Hk1d и зависит от.

Данный вариант критерия Пирсона годится для проверки любой параметрической гипотезы. Но для проверки нормальности распределения выборки можно использовать специальные критерии.

Критерий Андерсона — Дарлинга. Пусть X = (X1,..., Xn ) — выборка из неизвестного распределения и X(1),..., X(n) — соответствующий вариационный ряд (выборка, упорядоченная по возрастанию).

Проверяется гипотеза H1 о том, что распределение выборки принадлежит классу нормальных распределений (с неизвестными параметрами).

Вычислим выборочное среднее X, выборочную дисперсию S 2 и преобразуем элементы вариационного ряда:

Построим статистику критерия Андерсона — Дарлинга так:

Обычно вводят поправочный коэффициент, необходимый для небольших объёмов выборки:

Предельное распределение статистики Андерсона — Дарлинга при верной основной гипотезе имеет весьма сложный вид. Приведём значения квантилей этого распределения для нескольких часто используемых уровней:

Критерий Андерсона — Дарлинга принимает гипотезу о нормальности распределения выборки, если A2 < h1, и отвергает в противном случае. Вероятность ошибки первого рода этого критерия с ростом n стремится к.

Заметим, что критерий Андерсона — Дарлинга годится не только для проверки нормальности: используя в статистике критерия вместо другие непрерывные функции распределения, можно проверять принадлежность выборки соответствующему распределению. Однако предельное распределение статистики критерия зависит от теоретического распределения, поэтому для проверки других гипотез следует использовать другие квантили.

Критерий Жарка — Бера (Jarque — Bera). Пусть X = (X1,..., Xn ) — выборка из неизвестного распределения. Проверяется гипотеза H1 о том, что распределение выборки принадлежит классу нормальных распределений (с неизвестными параметрами). Критерий основан на величине выборочных коэффициентов асимметрии и эксцесса. Напомним, что для нормального распределения коэффициенты асимметрии и эксцесса равны нулю.

Вычислим выборочное среднее X, выборочную дисперсию S 2 и введём выборочные асимметрию и эксцесс так:

Статистику критерия построим так:

Если гипотеза о нормальности верна, распределение статистики критерия с ростом n приближается к распределению хи-квадрат с двумя степенями свободы, т. е. к показательному распределению с параметром 0,5. Это означает, что для любого y Поэтому критерий Жарка — Бера с асимптотическим размером предписывает отвергать основную гипотезу, как только > C, где C есть решение уравнения eC/2 =, т. е. C = 2 ln.

Двувыборочный критерий Колмогорова—Смирнова. Даны две независимые выборки X = (X1,..., Xn ) и Y = (Y1,..., Ym ) из неизвестных распределений F и G соответственно. Проверяется сложная гипотеза H1 = {F = G} при альтернативе H2 = {H1 неверна}.

Критерий Колмогорова — Смирнова используют, если F и G имеют непрерывные функции распределения.

Пусть Fn (y) и G (y) — эмпирические функции распределения, построенm ные по выборкам X и Y, Т е о р е м а 15. Если гипотеза H1 верна, то для любого y >

62 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

В таблице распределения Колмогорова по заданному найдём C такое, что = K(C), и построим критерий Колмогорова — Смирнова Ранговый критерий Вилкоксона, Манна и Уитни. Даны две независимые выборки X = (X1,..., Xn ) и Y = (Y1,..., Ym ) из неизвестных распределений F и G. Проверяется сложная гипотеза H1 = {F = G} при альтернативе H2 = {H1 неверна}.

Критерий Вилкоксона, Манна и Уитни (Wilcoxon, Mann, Whitney) используют, если F и G имеют непрерывные функции распределения. Составим из выборок X и Y общий вариационный ряд и подсчитаем статистику Вилкоксона W, равную сумме рангов r1,..., rm (номеров мест) элементов выборки Y в общем вариационном ряду. Зададим функцию U так (статистика Манна — Уитни):

Статистику критерия возьмём, центрировав и нормировав статистику U :

Мы не будем доказывать следующее утверждение.

Т е о р е м а 16. Если непрерывные распределения F и G таковы, что P(X1 < Y1 ) = 0,5 то распределение величины (X, Y ) приближается к стандартному нормальному распределению при n, m.

Построим критерий асимптотического размера :

где C — квантиль уровня 1 /2 распределения N0, 1. Пользоваться этим критерием рекомендуют при min(n, m) > 25.

Этот критерий может отличить от H1 далеко не любую гипотезу. Например, если F и G — два нормальных распределения с одним и тем же средним, но разными дисперсиями, то разность Xi Yj имеет нормальное распределение с нулевым средним, и примерно в половине случаев Xi будут меньше или больше Yi.

Итак, на самом деле построенный выше критерий проверяет гипотезу Используя его для проверки первоначальной гипотезы однородности, следует помнить, какие альтернативы он не отличает от основной гипотезы.

Критерий Фишера. Критерий Фишера используют в качестве первого шага в задаче проверки однородности двух независимых нормальных выборок.

Особенно часто возникает необходимость проверить равенство средних двух нормальных совокупностей: например, в медицине или биологии для выяснения наличия или отсутствия действия препарата. Эта задача решается с помощью критерия Стьюдента (с ним мы познакомимся на следующей странице), но только в случае, когда неизвестные дисперсии равны. Для проверки же равенства дисперсий пользуются сначала критерием Фишера. Самое печальное, если гипотеза равенства дисперсий отвергается критерием Фишера.

Задачу о построении критерия точного размера (что особенно важно при маленьких выборках) для проверки равенства средних в этих условиях называют проблемой Беренса — Фишера. Её решение возможно лишь в частных случаях.

Пусть даны две независимые выборки из нормальных распределений: X = = (X1,..., Xn ) из Na1, 2 и Y = (Y1,..., Ym ) из Na2, 2, средние которых, вообще говоря, неизвестны. Критерий Фишера предназначен для проверки гипотезы H1 = {1 = 2 }.

Обозначим через S0 (X) и S0 (Y ) несмещённые выборочные дисперсии и зададим функцию (X, Y ) как их отношение (X, Y ) = S0 (X)/S0 (Y ).

Удобно, если > 1. С этой целью выборкой X называют ту из двух выборок, несмещённая дисперсия которой больше. Поэтому предположим, что S0 (X) > S0 (Y ).

Т е о р е м а 17. При верной гипотезе H1 величина (X, Y ) имеет распределение Фишера Fn1, m1 с n 1 и m 1 степенями свободы.

Д о к а з а т е л ь с т в о. По лемме Фишера, независимые случайные величины имеют распределения Hm1 и Hn1 соответственно. При 1 = 2 по определению распределения Фишера

64 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

Возьмём квантиль f1 распределения Фишера Fn1, m1. Критерием Фишера называют критерий Критерий Стьюдента. Пусть имеются две независимые выборки: выборка X = (X1,..., Xn ) из Na1, 2 и выборка Y = (Y1,..., Ym ) из Na2, 2 с неизвестными средними и одной и той же неизвестной дисперсией 2. Проверяется сложная гипотеза H1 = {a1 = a2 }.

Построим критерий Стьюдента точного размера.

Т е о р е м а 18. Случайная величина tn+m2, равная имеет распределение Стьюдента Tn+m2.

Д о к а з а т е л ь с т в о. Легко видеть (убедиться, что легко!), что случайная величина X a1 имеет распределение N0, 2/n, а случайная величина Y a2 имеет распределение N0, 2/m. Тогда их разность распределена тоже нормально с нулевым средним и дисперсией Нормируем эту разность:

Из леммы Фишера следует, что независимые случайные величины (n 1) S0 (X)/2 и (m 1) S0 (Y )/2 имеют распределения Hn1 и Hm соответственно, а их сумма имеет 2-распределение Hn+m2 с n + m 2 степенями свободы (почему?) и не зависит от X и от Y (почему?).

ние Стьюдента Tn+m2. Осталось подставить в эту дробь 0 и S 2 и убедиться, что сократится и получится tn+m2 из теоремы 18.

Введём функцию Из теоремы 18 следует свойство (K1): если H1 верна, т. е. если a1 = a2, то величина = tn+m2 имеет распределение Стьюдента Tn+m2.

Критерий Стьюдента выглядит как все критерии согласия: при двусторонней альтернативе H2 = {a1 = a2 } где число C = 1/2 — квантиль распределения Tn+m2.

При односторонней альтернативе H2 = {a1 < a2 } или H2 = {a1 > a2 } критерий имеет вид где число C = 1 — квантиль распределения Tn+m2.

П р и м е р 30. По двум независимым выборкам из нормальных распределений найдены выборочные средние X = 136,53 и Y = 142,21, а также несмещённые выборочные дисперсии S0 (X) = 2,7 и S0 (Y ) = 3,3. Объёмы выборок равны 13 и 10 соответственно. При уровне значимости 0, проверить гипотезу равенства средних H1 = {a1 = a2 } при односторонней альтернативе H1 = {a1 < a2 }.

Проверим сначала критерием Фишера гипотезу равенства дисперсий. Дисперсионное отношение равно (делим большую дисперсию на меньшую) Найдём по таблице 5 приложения число C такое, что P(f9, 12 > C) = 0,05.

Получаем C = 2,8. Поскольку значение статистики критерия 1,222 меньше, чем 2,8, нет оснований отвергнуть гипотезу равенства дисперсий.

Воспользуемся критерием Стьюдента для проверки равенства средних.

Вычислим статистику критерия Стьюдента:

66 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

Поскольку альтернатива односторонняя, критическая область будет иметь вид C, где C таково, что P(t21 > C) = 0,05. В таблице 4 приложения приведены границы лишь для двусторонних критических областей.

Поэтому воспользуемся этой таблицей с удвоенным = 2 = 0,1. Получим C = 1,72. Видим, что значение статистики критерия попадает в критическую область: 7,853 < 1,72, поэтому основную гипотезу о равенстве средних следует отвергнуть в пользу альтернативы: истинное математическое ожидание у первой выборки меньше, чем у второй.

Заметим, что при такой большой разнице средних даже весьма «нетребовательный» критерий с размером = 0,0005, почти никогда не отвергающий основную гипотезу, всё равно вынужден будет отвергнуть наше предположение, поскольку 7,853 < 3,82.

Однофакторный дисперсионный анализ. Предположим, что влияние некоторого «фактора» на наблюдаемые нормально распределённые величины может сказываться только на значениях их математических ожиданий. Мы наблюдаем несколько выборок при различных «уровнях» фактора. Требуется определить, влияет или нет изменение уровня фактора на математическое ожидание.

Говоря формальным языком, однофакторный дисперсионный анализ решает задачу проверки равенства средних нескольких независимых нормально распределённых выборок с одинаковыми дисперсиями. Для двух выборок эту задачу мы решили с помощью критерия Стьюдента.

Пусть даны k независимых выборок из нормальных распределений xi Naj, 2 с одной и той же дисперсией.

Верхний индекс у наблюдений отвечает номеру выборки. Проверяется основная гипотеза H1 = {a1 =... = ak }.

Для каждой выборки вычислим выборочные среднее и дисперсию Положим n = n1 +... + nk. Определим также общее выборочное среднее и общую выборочную дисперсию Критерий для проверки гипотезы H1 основан на сравнении внутригрупповой и межгрупповой дисперсий. Вычислим так называемую межгрупповую дисперсию, или дисперсию выборочных средних Она показывает, насколько отличны друг от друга выборочные средние при разных уровнях фактора. Именно эта дисперсия отражает влияние фактора.

При этом каждое выборочное среднее вносит в дисперсию вклад, пропорциональный объёму соответствующей выборки: выбросы средних могут быть вызваны малым числом наблюдений.

Вычислим так называемую внутригрупповую дисперсию Она показывает, насколько велики разбросы внутри выборок относительно выборочных средних. Эти разбросы определяются случайностью внутри выборок. Вывод о том, что средние существенно различны, т. е. присутствует влияние фактора на среднее, может быть сделан, если межгрупповая дисперсия оказывается существенно больше внутригрупповой. Чтобы понять, насколько больше, следует рассмотреть распределения этих случайных величин при верной основной гипотезе.

По основному следствию из леммы Фишера при любом j = 1,..., k велиj) чина nj S (j)/2 имеет распределение Hnj 1 и не зависит от X. Из независимости выборок и устойчивости 2 -распределения относительно суммирования получаем Кроме того, величина Sв не зависит от X,..., X. Поэтому она не зависит и от их взвешенного среднего X, а также (что уже совсем невероятно) от межгрупповой дисперсии Sм, поскольку последняя является функцией только от перечисленных средних. Эти свойства никак не связаны с проверяемой гипотезой и верны независимо от равенства или неравенства истинных средних.

Пусть гипотеза H1 верна. Тогда выборки можно считать одной выборкой объёма n. По основному следствию леммы Фишера nS 2 /2 Hn1.

68 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

Величины S 2, Sм и Sв удовлетворяют легко проверяемому основному дисперсионному соотношению Величина в левой части имеет распределение Hn1, справа — сумма двух независимых слагаемых, второе из которых имеет распределение Hnk. Оказывается, что тогда первое распределено по закону Hk1.

Итак, при верной гипотезе H1 мы получили два 2 -распределения независимых случайных величин Построим по ним статистику из распределения Фишера Fk1, nk По заданному найдём квантиль C уровня 1 распределения Фишера Fk1, nk и устроим следующий критерий точного размера :

З а м е ч а н и е 13. Предположение о равенстве дисперсий проверяют, например, с помощью критерия Бартлетта (см. [6]).

Сравнение долей признака в двух выборках. Пусть есть две независимые выборки X = (X1,..., Xn1 ) и Y = (Y1,..., Yn2 ) из распределений Бернулли.

Как проверить гипотезу о совпадении вероятностей успеха этих распределений? Обычно даны даже не выборки, а общее число успехов в каждой серии испытаний m1 = n1 X и m2 = n2 Y, либо доли успехов w1 = m1 /n1, w2 = = m2 /n2.

Пусть p1 и p2 — гипотетические вероятности успеха. Проверяется основная гипотеза H1 = {p1 = p2 } при возможных альтернативах p1 = p2, p1 < p или p1 > p2.

Если основная гипотеза верна, выборки можно соединить в одну большую выборку из распределения Бернулли, и вероятность успеха оценить общей долей p = (m1 + m2 )/(n1 + n2 ).

Построим статистику аналогично тому, как это делалось в критерии Стьюдента. При верной основной гипотезе статистика имеет при больших n1 и n2 распределение, близкое к стандартному нормальному. Это сразу следует из теоремы Муавра — Лапласа.

Построим критерий для случая двусторонней альтернативы:

где число C = 1/2 — квантиль стандартного нормального распределения.

При односторонней альтернативе критерий использует одностороннюю критическую область, и квантиль следует брать уровня 1.

Сравнение долей признака в нескольких выборках. Если имеется k независимых выборок из распределений Бернулли, в каждой из которых наблюдается своя доля успехов wj = mj /nj (число успехов, делённое на объём выборки), то для проверки гипотезы о совпадении истинных вероятностей успеха p1 =... = pk пользуются одним из вариантов критерия хи-квадрат.

Пусть p — оценка для истинной вероятности успеха в предположении, что основная гипотеза верна:

Статистика критерия выглядит так:

При верной основной гипотезе распределение статистики с ростом объмов всех выборок приближается к распределению 2. Поэтому критеk рий с асимптотическим размером будет отвергать основную гипотезу, если > C, где P(2k1 > C) =.

Пользоваться данным критерием рекомендуется, если количества успехов и неудач в каждой выборке оказываются не менее десятка, а лучше — нескольких десятков.

П р и м е р 31. Исследован процент юношей в группах ИВТ СибГУТИ 2006 и 2007 года поступления. Проверяется гипотеза о независимости гендерного состава от направления специализации. Получены следующие данные (число юношей/число всех студентов) по потокам специализации: П — 184/233, ВМ — 102/109, ММ — 44/102. Заметим сразу, что при таком числе девушек на потоке ВМ, вообще говоря, критерий использовать нельзя.

Проверяем гипотезу о равенстве трёх вероятностей p1 = p2 = p3. Вычислим оценку для истинной доли:

70 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

Вычислим значение статистики критерия:

Квантиль любого разумного уровня для распределения 2 (то же, что показательное распределение с параметром 0,5 ) гораздо меньше, чем полученное значение статистики критерия. Действительно, реально достигнутый уровень значимости есть примерно Это настолько мало, что гипотеза об однородности (о совпадении долей юношей для трёх потоков) отвергается категорически.

Есть выборка (X1, Y1 ),..., (Xn, Yn ) значений двух наблюдаемых совместно случайных величин X и Y в n независимых экспериментах. Проверяется гипотеза H1 = {X и Y независимы}.

Введём k интервалов группировки 1,..., k для значений X и m интервалов группировки 1,..., m для значений Y :

Посчитаем эмпирические частоты:

Если гипотеза H1 верна, то теоретические вероятности попадания пары (X, Y ) в любую из областей i j равны произведению вероятностей: для всех i и j По ЗБЧ при n служит основанием для отклонения гипотезы независимости. Пусть Т е о р е м а 19. Если гипотеза H1 верна, то при n распределение величины (X, Y ) приближается к распределению H(k1)(m1).

Критерий согласия асимптотического размера строится как обычно:

по заданному найдём C, равное квантили уровня 1 распределения H(k1)(m1). Тогда критерий имеет вид Количество интервалов группировки следует выбирать таким, чтобы в каждую ячейку попадало минимум 5–6 элементов выборки.

Мы рассмотрели некоторые типичные задачи проверки гипотез. Разумеется, полностью охватить все возможные виды задач нельзя. Например, мы не рассматривали критерии, проверяющие качества самой выборки: независимость и/или одинаковую распределённость элементов выборки друг от друга, мы ничего не сказали о том, как можно определять силу зависимости двух выборок друг от друга и т. п. Критерии для решения этих и многих других проблем читатель сможет найти самостоятельно.

1. Построить критерий для проверки равенства дисперсий двух независимых нормальных выборок с известными средними, статистика которого имеет при верной основной гипотезе распределение Фишера с n и m степенями свободы.

2. Построить критерий для проверки гипотезы о равенстве средних двух независимых нормальных выборок с произвольными известными дисперсиями, статистика которого имеет при верной основной гипотезе стандартное нормальное распределение.

3. Построить критерий точного размера для различения трёх гипотез о среднем нормального распределения с неизвестной дисперсией:

4. Какие из приведённых в главе VII критериев можно сформулировать, используя доверительные интервалы? Сделать это.

72 ГЛАВА VII. КРИТЕРИИ СОГЛАСИЯ

5. Проверяется простая гипотеза о параметре H1 = { = 0 } против альтернативы H2 = { = 0 }. Какими свойствами должен обладать доверительный интервал, чтобы критерий, построенный с его помощью, был состоятелен?

6. Имеется выборка из распределения Бернулли. Построить критерий для проверки гипотезы p = 1/2 при альтернативе p = 1/2.

7. Подбросить игральную кость 300 раз и проверить её правильность с помощью подходящего критерия.

8. Подбросить симметричную монету 200 раз и проверить своё умение правильно её подбрасывать с помощью критерия 2.

9. Построить критерий асимптотического размера для проверки гипотезы однородности двух независимых выборок с разными объёмами из распределения Бернулли.

10. Показать, что при k = 2 критерий для решения задачи однофакторного дисперсионного анализа совпадает с критерием Стьюдента.

11. Доказать основное дисперсионное соотношение.

Г Л А В А VIII

ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ

Часто требуется определить, как зависит наблюдаемая случайная величина от одной или нескольких других величин. Самый общий случай такой зависимости — зависимость статистическая: например, X = + и Z = + зависимы, но эта зависимость не функциональная. Для зависимых случайных величин имеет смысл рассмотреть математическое ожидание одной из них при фиксированном значении другой и выяснить, как влияет на среднее значение первой величины изменение значений второй. Так, стоимость квартиры зависит от площади, этажа, района и других параметров, но не является функцией от них.

Зато можно считать её среднее функцией от этих величин. Разумеется, наблюдать это среднее значение мы не можем — в нашей власти лишь наблюдать значения результирующей случайной величины при разных значениях остальных.

Эту зависимость можно воображать как вход и выход некоторой машины — «ящика с шуршавчиком». Входные данные (факторы) известны. На выходе мы наблюдаем результат преобразования входных данных в ящике по каким-либо правилам.

Пусть наблюдаемая случайная величина X зависит от случайной величины или случайного вектора Z. Значения Z мы либо задаём, либо наблюдаем.

Обозначим через f (t) функцию, отражающую зависимость среднего значения X от значений Z :

Функция f (t) называется линией регрессии X на Z, а уравнение x = f (t) — уравнением регрессии. После n экспериментов, в которых Z последовательно принимает значения Z = t1,..., Z = tn, получим значения наблюдаемой величины X, равные X1,..., Xn. Обозначим через i разницу Xi E(X | Z = ti ) = Xi f (ti ) между наблюдаемой в i -м эксперименте случайной величиной и её математическим ожиданием.

Итак, Xi = f (ti ) + i, i = 1,..., n, где i — ошибки наблюдения, равные в точности разнице между реальным и усредненным значением случайной величины X при значении Z = ti. Про совместное распределение 1,..., n

74 ГЛАВА VIII. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ

обычно что-либо известно или предполагается: например, что вектор ошибок состоит из независимых и одинаково нормально распределённых случайных величин с нулевым средним.

Требуется по значениям t1,..., tn и X1,..., Xn оценить как можно точнее функцию f (t). Величины ti не являются случайными, вся случайность сосредоточена в неизвестных ошибках i и в наблюдаемых Xi. Но пытаться в классе всех возможных функций восстанавливать f (t) по «наилучшим оценкам» для f (ti ) довольно глупо: наиболее точными приближениями к f (ti ) оказываются Xi, и функция f (t) будет просто ломаной, построенной по точкам (ti, Xi ). Поэтому сначала определяют вид функции f (t). Часто в качестве f (t) берут полином небольшой степени с неизвестными коэффициентами.

Будем пока предполагать, что функция f (t) полностью определяется неизвестными параметрами 1,..., k.

Оценки неизвестных параметров находят с помощью метода максимального правдоподобия. Он предписывает выбирать неизвестные параметры так, чтобы максимизировать функцию правдоподобия случайного вектора Будем, для простоты, предполагать, что вектор ошибок состоит из независимых и одинаково распределённых случайных величин с плотностью распределения h(x) из некоторого семейства распределений с нулевым средним и, вообще говоря, неизвестной дисперсией. Обычно полагают, что i имеют симметричное распределение — нормальное N0, 2, Стьюдента, Лапласа и т. п.

Поскольку Xi от i зависят линейно, то распределение Xi окажется таким же, как у i, но с центром уже не в нуле, а в точке f (ti ).

Поэтому Xi имеет плотность h x f (ti ). Функция правдоподобия вектора X1,..., Xn в силу независимости координат равна Если величины i имеют разные распределения, то h следует заменить на соответствующие hi. Для зависимых i произведение плотностей в формуле (20) заменится плотностью их совместного распределения.

Метод максимального правдоподобия предписывает находить оценки неизвестных параметров i функции f (t) и оценки дисперсии 2 = Di, максимизируя по этим параметрам функцию правдоподобия (20).

Рассмотрим, во что превращается метод максимального правдоподобия в наиболее частых на практике предположениях.

Предположим, что вектор ошибок состоит из независимых случайных величин с нормальным распределением N0, 2. Функция правдоподобия (20) имеет вид Очевидно, что при любом фиксированном 2 максимум функции правдоподобия достигается при наименьшем значении суммы квадратов ошибок О п р е д е л е н и е 22. Оценкой метода наименьших квадратов (ОМНК) для неизвестных параметров 1,..., k уравнения регрессии называется набор значений параметров, доставляющий минимум сумме квадратов отклонений Найдя оценки для i, найдём тем самым оценку f (t) для f (t). Обозначим через f (ti ) значения этой функции, и через i = Xi f (ti ) соответствующие оценки ошибок. Оценка максимального правдоподобия для 2, она же точка максимума по 2 функции правдоподобия, равна Найдём ОМНК для функций f (t) в ряде частных случаев.

П р и м е р 32. Пусть функция f (t) = — постоянная, — неизвестный параметр. Тогда наблюдения равны Xi = + i, i = 1,..., n. Легко узнать задачу оценивания неизвестного математического ожидания по выборке из независимых и одинаково распределённых случайных величин X1,..., Xn.

76 ГЛАВА VIII. ИССЛЕДОВАНИЕ СТАТИСТИЧЕСКОЙ ЗАВИСИМОСТИ

Найдём ОМНК для параметра :

Трудно назвать этот ответ неожиданным. Соответственно, 2 = S 2.

П р и м е р 33 (л и н е й н а я р е г р е с с и я). Рассмотрим линейную регрессию Xi = 1 + ti 2 + i, i = 1,..., n, где 1 и 2 — неизвестные параметры.

Здесь f (t) = 1 + t2 — прямая.

Найдём оценку метода наименьших квадратов 1, 2, на которой достиXi 1 ti 2 )2. Приравняв к нулю гается минимум величины частные производные этой суммы по параметрам, найдём точку экстремума.

У п р а ж н е н и е. Убедиться, что решением системы уравнений является пара О п р е д е л е н и е 23. Выборочным коэффициентом корреляции называется величина которая характеризует степень линейной зависимости между наборами чисел Выборочный коэффициент корреляции можно использовать для проверки основной гипотезы H1, состоящей в отсутствии между случайными величинами линейной корреляционной зависимости (коэффициент корреляции равен нулю). Это нежелательное предположение в регрессионном анализе.

Напротив, альтернативой является желательное предположение о наличии корреляционной зависимости.

Если набор данных (X1, t1 ),..., (Xn, tn ) есть выборка из двумерного нормального распределения, то для проверки гипотезы об их некоррелированности (отсутствии линейной зависимости) используют статистику Гипотеза о некоррелированности отвергается, если |t| > C, где C есть квантиль уровня 1 /2 для распределения Стьюдента Tn2.

П р и м е р 34. Термин «регрессия» ввёл Гальтон (Francis Galton. Regression towards mediocrity in hereditary stature // Journal of the Anthropological Institute. — 1886. — v. 15. — p. 246—265).

Гальтон исследовал, в частности, рост детей высоких родителей и установил, что он «регрессирует» в среднем, т. е. в среднем дети высоких родителей не так высоки, как их родители. Пусть X — рост сына, а Z1 и Z2 — рост отца и матери. Для линейной модели регрессии Гальтон нашел оценки параметров а средний рост дочери ещё в 1,08 раз меньше. Независимо от добавочной постоянной суммарный вклад высокого роста родителей в рост детей не превышает половины. Остальное — неизменная добавка.

Дальнейшее изучение регрессионных моделей ждёт читателя в курсах эконометрики и многомерного статистического анализа.

ПРИЛОЖЕНИЕ

Название, параметры Вырожденное Биномиальное Bn, p p (0, 1) Пуассона p (0, 1) 0 n, K N

ПРИЛОЖЕНИЕ

Основные абсолютно непрерывные распределения Название, параметры Ua, b, a < b Показательное Na, 2, Гамма,, 999 1117, 9 1105,9 1088,5 1073,6 926,6 913,3 898, 0 887,

ПРИЛОЖЕНИЕ

Критические точки распределения Стьюдента Приведены значения x, при которых P(|tk | > x) = Критические точки распределения Фишера Приведены значения x, при которых P(fk1, k2 > x) = 0,

ПРИЛОЖЕНИЕ

0,3,0000,0000,0000,0001,0002,0003,0005,0008,0013, 0,4,0028,0040,0055,0074,0097,0126,0160,0200,0247, 2,0,9993,9994,9994,9995,9995,9996,9996,9996,9997, 2,1,9997,9997,9998,9998,9998,9998,9998,9998,9999, Функция распределения стандартного нормального закона

ПРИЛОЖЕНИЕ

При x > 0 значения (x) находят по такому правилу:

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

Андерсона — Дарлинга критерий, 60 простая, Аппроксимация Фишера, 39 сложная, несмещённость оценки, 18 Гливенко — Кантелли теорема, нормальность оценки, 24 Группировка наблюдений, 14, Бартлетта критерий, 68 Дисперсионный анализ, Беренса — Фишера проблема, 63 Дисперсия Вероятность ошибки i -го рода, 48 Доверительный интервал, Вилкоксона критерий, 62 асимптотический, Внутригрупповая дисперсия, 67 построение, состоятельность, Выборочное среднее, 10 Жарка — Бера критерий, несмещённость, состоятельность, Выборочный k -й момент, несмещённость, состоятельность, коэффициент корреляции, Гамма-распределение, Гипотеза, альтернативная, независимости, нормальности, 60, о вероятности успеха, о доле признака,

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

для проверки равенства долей призна- несмещённая, Колмогорова — Смирнова, 61 нормального распределения, Фишера, 2 для проверки независимости, 70 Параметрическое семейство распределеПирсона, 57, 59 ний, Линейная регрессия, Логарифмическая функция правдоподо- Ранг, Манна — Уитни критерий, Матрица ортогональная, Межгрупповая дисперсия, Метод максимального правдоподобия, 21, моментов, наименьших квадратов, МНК-оценка, Мощность критерия, Наименьших квадратов метод, Неравенство информации, Рао — Крамера, Несмещённая выборочная дисперсия, Несмещённость выборочного момента, выборочного среднего, выборочной дисперсии, оценки, 11, эмпирической функции распределения, Оценка, 9, асимптотически несмещённая, асимптотически нормальная, максимального правдоподобия,

88 ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ

Теорема Гливенко — Кантелли, Колмогорова, Пирсона, Уравнение регрессии, Уровень доверия, асимптотический, значимости критерия, реально достигнутый, Факторы регрессии, Фишера критерий, лемма, распределение, 41, Фишера — Снедекора распределение, Функция правдоподобия, логарифмическая, 2 критерий, для проверки независимости, для проверки сложной гипотезы, 2 распределение, Эмпирическая функция распределения, несмещённость, состоятельность,

СПИСОК ЛИТЕРАТУРЫ

1. Бочаров П. П., Печинкин А. В. Теория вероятностей. Математическая статистика. М.: Гардарика, 1998, 328 с.

2. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. М.:

Наука, 1965.

3. Ивченко Г. И., Медведев Ю. И. Математическая статистика.

М.: Высш. шк., 1984, 248 с.

4. Колемаев В. А., Калинина В. Н. Теория вероятностей и математическая статистика. М.: ИНФРА-М, 1997, 302 с.

5. Пугачев В. С. Теория вероятностей и математическая статистика. М.: ФИЗМАТЛИТ, 2002, 496 с.

6. Чистяков В. П. Курс теории вероятностей. М.: Агар, 2000, 255 с.

7. Гмурман В. Е. Руководство к решению задач по теории вероятностей и математической статистике. М.: Высшее образование, 2006, 404 с.

8. Сборник задач по теории вероятностей, математической статистике и теории случайных функций / Под редакцией А. А. Свешникова. М.: Наука, 1970, 656 с.

МАТЕМАТИЧЕСКАЯ СТАТИСТИКА

Редактор: О. А. Игнатова Корректор:

Подписано в печать Формат бумаги 62 84/16, отпечатано на ризографе, шрифт №10, 630102, Новосибирск, ул. Кирова, 86.





Похожие работы:

«СМОЛЕНСКИЙ ГУМАНИТАРНЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ ПСИХОЛОГИИ И ПРАВА КАФЕДРА ГОСУДАРСТВЕННО-ПРАВОВЫХ ДИСЦИПН ОДОБРЕНО УТВЕРЖДАЮ на заседании кафедры Протокол № 7 от 27 марта 2012 г. Проректор по учебной и Заведующий кафедрой воспитательной работе / Лопатина Т.М. / Мажар Л.Ю. Рабочая программа дисциплины ЗЕМЕЛЬНОЕ ПРАВО Направление подготовки 030900.62 Юриспруденция Профиль подготовки Квалификация (степень) выпускника Бакалавр Формы обучения очная очно-заочная заочная СМОЛЕНСК Составители: к.б.н.,...»

«Саратовский государственный университет им. Н. Г. Чернышевского Зональная научная библиотека им. В. А. Артисевич Отраслевой учебный отдел общественных и педагогических наук БИБЛИОФРЕШ Выпуск 2 В И Р Т УА Л Ь Н А Я В Ы С Т А В К А Н О В И Н О К Л И Т Е РА Т У Р Ы Саратов, 2014 ИСТОРИЯ (читальный з а л г у м а н и т а р н ы х н ау к ) История России : учебник / А. С. Орлов [и др.] ; Моск. гос. ун-т им. М. В. Ломоносова, Ист. фак. – 4-е изд., перераб. и доп. – Москва : Проспект, 2012. – 527, [1]...»

«А. Н. ФОМИНОВА, Т. Л. ШАБАНОВА ПЕДАГОГИЧЕСКАЯ ПСИХОЛОГИЯ УЧЕБНОЕ ПОСОБИЕ 2-е издание, переработанное и дополненное Допущено Учебно-методическим объединением по направлениям педагогического образования Министерства образования Российской Федерации в качестве учебного пособия для студентов высших педагогических учебных заведений 2013 Фоминова А.Н., Шабанова Т.Л. ПЕДАГОГИЧЕСКАЯ ПСИХОЛОГИЯ: Учебное пособие, 2-е изд., перераб., дополн.– 2013. В пособии рассматриваются история возникновения,...»

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. М.В. ЛОМОНОСОВА МОСКОВСКАЯ ШКОЛА ЭКОНОМИКИ УЧЕБНАЯ ПРОГРАММА ДИСЦИПЛИНЫ ЭКОНОМИКА ФИРМЫ Направление 080100 Экономика для подготовки студентов – бакалавров очного отделения 2-й курс 4-й семестр Автор – составитель программы - КУЗЬМИЧЕВА Н.И., к.э.н., доцент Учебная программа утверждена решением Ученого совета МШЭ МГУ Протокол № от _ 2013 г. Москва- 2013 1 ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЕ УКАЗАНИЯ I. Цель курса - ознакомить студентов с многообразием...»

«Министерство образования и науки Российской Федерации Волгоградский государственный архитектурно-строительный университет Кафедра экономики и управления проектами в строительстве ЭКОНОМИКА ОТРАСЛИ Методические указания к курсовой работе по профилю Водоснабжение и водоотведение Волгоград 2012 УДК 628.1:338.512 (076.5) Экономика отрасли [Электронный ресурс] : методические указания к курсовой работе по профилю Водоснабжение и водоотведение / [сост. О.Н. Антонян, А.С. Соловьева] ; М-во образования...»

«Министерство образования и науки Российской Федерации Федеральное государственное автономное образовательное учреждение высшего профессионального образования Северный (Арктический) федеральный университет имени М.В. Ломоносова СТАТИСТИКА Методические указания к выполнению расчетно-графической работы Архангельск ИПЦ САФУ 2012 Рекомендовано к изданию редакционно-издательским советом Северного (Арктического) федерального университета имени М.В. Ломоносова Составитель: С а з а н о в а Е.В., д о ц е...»

«Федеральное агентство по образованию Российской федерации Федеральное государственное образовательное учреждение высшего профессионального образования Сибирский федеральный университет Институт инженерной физики и радиоэлектроники Кафедра теоретической физики ТЕОРЕТИЧЕСКАЯ ФИЗИКА: ЭЛЕКТРОДИНАМИКА. ЭЛЕКТРОДИНАМИКА СПЛОШНЫХ СРЕД Учебное пособие по курсу Электродинамика и основы электродинамики сплошных сред Красноярск 2008 УДК 530/537 А.М.Баранов, С.Г.Овчинников, О.А.Золотов, Н.Н.Паклин,...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ РОССИЙСКОЙ ФЕДЕРАЦИИ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ “УРАЛЬСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ-УПИ” ЭЛЕКТРОТЕХНИКА И ЭЛЕКТРОНИКА Часть 2. Электромагнитные устройства и электрические машины Методические указания по выполнению лабораторных работ на стенде Электротехника и основы электроники Екатеринбург 2007 УДК При подготовке настоящих методических указаний использован паспорт НТЦ-01.00.00ПС и...»

«Академия управления при Президенте Республики Беларусь Учебно-методическое объединение высших учебных заведений Республики Беларусь по образованию в области управления УТВЕРЖДАЮ Председатель Учебно-методического объединения вузов Республики Беларусь по образованию в области управления, ректор Академии управления при Президенте Республики Беларусь _ А.Н. Морозевич 26 июня 2009 г. ПОЛОЖЕНИЕ о порядке присвоения учебным изданиям грифа Учебно-методического объединения высших учебных заведений...»

«УЧЕБНОЕ ПОСОБИЕ ДЛЯ ВУЗОВ Е.И. Зритнева СОЦИОЛОГИЯ СЕМЬИ Допущено Советом по социологии, социальной антропологии и организации работы с молодежью Учебно-методического объединения по классическому университетскому образованию в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 020300 Социология Москва 2006 УДК 316.356.2(075.8) ББК 60.561.5я73 З-90 Р е ц е н з е н т ы: доктор философских наук Г.Д. Гриценко; кандидат педагогических наук, доцент Т.Ф....»

«Содержание Введение 1. Основные понятия и проблема повышению эффективности деятельности предприятий социально-культурной сферы 2.Организация деятельности социально-культурного центра ООО Земля светлячков 3.Реализация программы по повышению эффективности деятельности учреждений и организаций социально-культурной сферы (на примере социально-культурного центра ООО Земля светлячков) 4.Совершенствование деятельности организаций СКД (на примере СКЦ ООО Земля светлячков) Заключение Список...»

«Таблица – Сведения об учебно-методической, методической и иной документации, разработанной образовательной организацией для обеспечения образовательного процесса по направлению подготовки 022000.62 Экология и природопользование № Наименование дисциплины Наименование учебно-методических, методических и иных материалов (автор, п/п по учебному плану место издания, год издания, тираж) 1) Учебно-методический комплекс по дисциплине История, 2013 г./ электронная версия. История 2) Отечественная...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СИБИРСКАЯ ГОСУДАРСТВЕННАЯ ГЕОДЕЗИЧЕСКАЯ АКАДЕМИЯ (ФГБОУ ВПО СГГА) В.С. Айрапетян, О.К. Ушаков ФИЗИКА ЛАЗЕРОВ Рекомендовано Сибирским региональным учебно-методическим центром для межвузовского использования в качестве учебного пособия для студентов, обучающихся по направлениям подготовки бакалавров 200200.62 и магистров 200200.68 Оптотехника...»

«© 2000 г. Л.Г. ТИТАРЕНКО МЕТОДИЧЕСКИЕ АСПЕКТЫ СОВЕРШЕНСТВОВАНИЯ ПРЕПОДАВАНИЯ СОЦИОЛОГИИ С УЧЕТОМ ЗАРУБЕЖНОГО ОПЫТА ТИТАРЕНКО Лариса Григорьевна - доктор социологических наук, профессор кафедры социологии Белорусского государственного университета (Минск). Как пробудить интерес к социологии у студентов? Начнем с парадоксального, на первый взгляд, явления. На фоне растущего общественного интереса в Беларуси к социальным проблемам и бесспорного объективного возрастания роли социологии как...»

«МЕТОДИЧЕСКОЕ ПОСОБИЕ по организации проведения оперативно-розыскных мероприятий, выявлению и расследованию преступлений в лесном секторе Москва, 2008 МЕТОДИЧЕСКОЕ ПОСОБИЕ по организации проведения оперативно розыскных мероприятий, выявлению и расследованию преступлений в лесном секторе Москва Май 2008 Лесная программа WWF России С 1998 года WWF ведет проекты по сохранению и устойчивому управлению лесами более чем в 20 регионах России. Задачи Лесной программы: • сохранение девственных и других...»

«А. М. Мухамедьяров Инновационный менеджмент: учебное пособие Текст предоставлен правообладателемhttp://www.litres.ru Инновационный менеджмент: Учеб. пособие. – 2-е изд.: ИНФРА-М; Москва; 2008 ISBN 978-5-16-003094-4 Аннотация В учебном пособии раскрыты методологические и методические основы управления инновационным процессом в условиях рыночных отношений. Рассмотрены особенности государственного регулирования инновационных процессов, раскрыт инновационный механизм и даны характеристики его...»

«Г. Э. Романова, М. А. Парпин, Д. А. Серегин КОНСПЕКТ ЛЕКЦИЙ ПО КУРСУ КОМПЬЮТЕРНЫЕ МЕТОДЫ КОНТРОЛЯ ОПТИКИ Учебное пособие Санкт-Петербург 2012 МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ САНКТ-ПЕТЕРБУРГСКИЙ НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ, МЕХАНИКИ И ОПТИКИ Г.Э. Романова, М.А. Парпин, Д.А. Серегин КОНСПЕКТ ЛЕКЦИЙ ПО КУРСУ КОМПЬЮТЕРНЫЕ МЕТОДЫ КОНТРОЛЯ ОПТИКИ Учебное пособие Санкт-Петербург Г.Э.Романова, М.А.Парпин, Д.А. Серегин Конспект лекций по...»

«МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ (МИИТ) ИНСТИТУТ ЭКОНОМИКИ И ФИНАНСОВ Кафедра Экономика и управление на транспорте Н.В. Емельянова, Н.В. Шульгина Экономическая география транспорта Методические указания и задание к курсовой работе для специальностей: Экономика и управление на предприятии (железнодорожный транспорт) Маркетинг МОСКВА - 2008 0 МОСКОВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ПУТЕЙ СООБЩЕНИЯ (МИИТ) Институт экономики и финансов Кафедра Экономика и управление на...»

«О.Л. Гнатюк ОСНОВЫ ТЕОРИИ КОММУНИКАЦИИ Допущено УМО по направлениям педагогического образования в качестве учебного пособия для студентов высших учебных заведений, обучающихся по направлению 050400 Социально экономическое образование МОСКВА 2010 УДК 316.77(075.8) ББК 60.56я73 Г56 Рецензенты: И.П. Яковлев, проф. кафедры теории коммуникации Санкт Петербургского госу дарственного университета, д р филос. наук, А.В. Соколов, засл. деятель науки РФ, засл. работник культуры России, проф. ка федры...»

«Министерство образования Республики Беларусь Учреждение образования Полоцкий государственный университет СОПРОТИВЛЕНИЕ МАТЕРИАЛОВ УЧЕБНО-МЕТОДИЧЕСКИЙ КОМПЛЕКС для студентов специальностей 1-70 04 02 Теплогазоснабжение, вентиляция и охрана воздушного бассейна, 1-70 04 03 Водоснабжение, водоотведение и охрана водных ресурсов Составитель В.К. Родионов Под общей редакцией Л.С. Турищева Новополоцк 2005 УДК 539.3/.4 (075.8) ББК 30.121 я 73 С 64 РЕЦЕНЗЕНТЫ: В.В. Поляков, генеральный директор ОАО...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.