«Мхитарян В.С. Трошин Л.И Адамова Е.В. Шевченко К.К. Бамбаева Н.Я. ТЕОРИЯ ВЕРОЯТНОСТЕЙ И МАТЕМАТИЧЕСКАЯ СТАТИСТИКА Москва, 2003 УДК - 519.2 ББК - 22.172 М - 936 Мхитарян В.С. Трошин Л.И Адамова Е.В. Шевченко К.К., ...»
Московский международный институт эконометрики,
информатики, финансов и права
Мхитарян В.С.
Трошин Л.И
Адамова Е.В.
Шевченко К.К.
Бамбаева Н.Я.
ТЕОРИЯ ВЕРОЯТНОСТЕЙ И
МАТЕМАТИЧЕСКАЯ
СТАТИСТИКА
Москва, 2003
УДК - 519.2 ББК - 22.172 М - 936 Мхитарян В.С. Трошин Л.И Адамова Е.В. Шевченко К.К., Бамбаева Н.Я. Теория вероятностей и математическая статистика / Московский международный институт эконометрики, информатики, финансов и права. - М.: 2003. - 148 с.
Рекомендовано Учебно-методическим объединением по образованию в области статистики в качестве учебного пособия для студентов высших учебных заведений, обучающихся по специальности 061700 «Статистика» и другим экономическим специальностям.
© Мхитарян Владимир Сергеевич, © Трошин Лев Иванович, © Адамова Евгения Владимировна, © Шевченко Кармен Константиновна, © Бамбаева Наталья Яковлевна, © Московский международный институт эконометрики, информатики, финансов и права,
СОДЕРЖАНИЕ
1. ЭЛЕМЕНТЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ1.1. Случайные события и вероятности
1.1.1. Случайные события
1.1.2. Классическое определение вероятности
1.1.3. Статистическое определение вероятности
1.1.4. Понятие об аксиоматическом определении вероятности........ 1.1.5. Теоремы сложения и умножения вероятностей
1.1.6. Формулы полной вероятности и вероятности гипотез............ 1.1.7. Повторение испытаний. Формула Бернулли
1.1.8. Локальная и интегральная теоремы Лапласа
1.1.9. Формула Пуассона
1.2. Случайные величины и их числовые характеристики............... 1.2.1. Случайная величина и ее распределение
1.2.2. Математическое ожидание и дисперсия случайной величины
1.2.3. Основные свойства математического ожидания и дисперсии
1.2.4. Моменты случайной величины
1.2.5. Биномиальный закон распределения
1.2.6. Нормальный закон распределения
1.3. Закон больших чисел
1.3.1. Принцип практической невозможности маловероятных событий. Формулировка закона больших чисел
1.3.2. Лемма Маркова. Неравенство и теорема Чебышева. Теоремы Бернулли и Пуассона
1.3.3. Центральная предельная теорема
2. СТАТИСТИЧЕСКАЯ ОЦЕНКА ПАРАМЕТРОВ
РАСПРЕДЕЛЕНИЯ2.1. Понятие о статистической оценке параметров
2.2. Законы распределения выборочных характеристик, используемые при оценке параметров
2.2.1. Распределение средней арифметической
2.2.2. Распределение Пирсона (2 - хи квадрат)
2.2.3. Распределение Стьюдента (t - распределение)
2.3. Точечные оценки параметров распределений
2.3.1. Основные свойства точечной оценки
2.3.2. Точечные оценки основных параметров распределений......... 2.4. Интервальные оценки параметров распределений
2.4.1. Интервальные оценки для генеральной средней
2.4.2. Интервальные оценки для генеральной дисперсии и среднего квадратического отклонения
2.4.3. Интервальные оценки для генеральной доли
3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
3.1. Проверка статистической гипотезы и статистического критерия
3.2. Распределение Фишера-Снедекора
3.3. Гипотезы о генеральных средних нормально распределенных совокупностей
3.3.1. Проверка гипотезы о значении генеральной средней............. 3.3.2. Проверка гипотезы о равенстве генеральных средних двух номинальных совокупностей
3.4. Гипотезы о генеральных дисперсиях нормально распределенных генеральных совокупностях
3.4.1. Проверка гипотезы о значении генеральной дисперсии.......... 3.4.2. Проверка гипотезы о равенстве генеральных дисперсий двух нормальных совокупностей
3.4.3. Проверка гипотезы об однородности ряда дисперсий............. 3.5. Гипотеза об однородности ряда вероятностей
3.6. Вычисление мощности критерия
3.6.1. Мощность критерия при проверке гипотезы о значении генеральной средней
3.7. Гипотезы о виде законов распределения генеральной совокупности
3.7.1. Основные понятия
3.7.2. Критерий Пирсона
4. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ
4.1. Задачи и проблемы корреляционного анализа
4.2. Двумерная корреляционная модель
4.3. Трехмерная корреляционная модель
4.4. Методы оценки корреляционных моделей.
4.5. Ранговая корреляция.
4.6. Нелинейная парная корреляция
5. РЕГРЕССИОННЫЙ АНАЛИЗ
5.1. Задачи регрессионного анализа
5.2. Исходные предпосылки регрессионного анализа и свойства оценок
5.3. Двумерная линейная регрессионная модель
Выводы
1. ЭЛЕМЕНТЫ ТЕОРИИ ВЕРОЯТНОСТЕЙ
Одним из основных понятий теории вероятностей является случайное событие. Случайным событием называется событие, которое должно либо произойти, либо не произойти при выполнении некоторого комплекса условий.В дальнейшем вместо “выполнение некоторого комплекса условий” и “случайное событие” будем употреблять выражения “произведено испытание”, “событие” и “результат испытания”.
Случайные события обычно обозначаются заглавными буквами латинского алфавита: A, B, C,... Зафиксируем некоторое испытание, то есть комплекс условий, и будем рассматривать некоторую систему S событий A, B, C.
Укажем некоторые соотношения, которые могут существовать между событиями системы S.
1. Если в результате испытания при каждом появлении события A наступает событие B, то говорят, что A является частным случаем B, и записывают этот факт в виде 2. Если A B и B A, то A=B. События A и B называются равносильными, если при каждом испытании они оба наступают, либо не наступают.
3. Произведением событий A и B называется такое событие AB, которое заключается в совместном наступлении этих событий.
4. Суммой событий A и B называется такое событие A+B, которое заключается в наступлении по крайней мере одного из этих событий.
5. Событие U называется достоверным, если оно с необходимостью должно произойти при каждом испытании. Событие V называется невозможным, если оно не происходит ни при каком испытании. Все достоверные события равносильны, то же самое относится и к невозможным событиям.
6. Событие A называется противоположным событию A /и наоборот/, если для них одновременно выполняются неравенства 7. События A и B называются несовместимыми, если их совместное наступление неосуществимо, т. е. если 8. События A1, A2,... An образуют полную группу попарно несовместных событий, если события Ai и Aj при ij несовместимы и хотя бы одно из событий A1, A2,... An непременно должно произойти.
Иными словами, полная группа попарно несовместных событий A1, A2,... An удовлетворяют двум условиям:
A1+A2+...+An=U /полная группа/ AiAj=V, ij /попарная несовместимость/ Введенные операции над событиями удовлетворяют следующим правилам:
а) A+B=B+A; A+V=A; A+U=U; A+A=A;
б) AB=BA; AU=A; AV=V; AA=A;
Одним из наглядных представлений случайных событий и операций над ними являются так называемые диаграммы Виена. Пусть внутри квадрата, изображенного на рис. 1.1. наудачу выбирается точка, не лежащая ни на одной из нарисованных окружностей. Обозначим через A и B соответствующий выбор точки в левом и правом кругах. Области, заштрихованные на рис. 1.1. изображают соответственно события A, A, B, B, A + B, AB. По диаграммам Виена легко проверяются правила сложения и умножения событий.
A A B B AB
1.1.2. Классическое определение вероятности Классическое определение вероятности исходит из некоторой системы равновозможных (равновероятных) событий, которые формально не определяются.равновозможных событий E1, E2,..., EN. Добавим к этим N невозможное событие V и сложные события, образованные с помощью операции сложения любого числа и любых номеров событий E1, E2,..., EN.
Полученная система событий называется полем событий S. Система S исчерпывается конечным числом событий, если считать равносильные события просто тождественно равными друг другу.
Пусть, например, полная группа попарно несовместимых равновозможных событий состоит из двух событий E1 и E2. Тогда система S содержит следующие четыре события: V, E1, E2, E1+E2=U.
Если же полная группа попарно несовместимых равновозможных событий состоит из трех событий E1, E2, E3, то система S содержит восемь событий: V, E1, E2, E3, E1+E2, E1+E3, E2+E3, E1+E2+E3=U.
Назовем для краткости событие Ei (i=1,2,...,N) возможным случаем. Пусть событие A является некоторым событием системы S, тогда A представляется в виде суммы некоторых возможных случаев Ei.
Слагаемые Ei, входящие в разложение A, назовем случаями, благоприпятствующими событию A, а их число обозначим буквой M.
Определение. Вероятность P(A) события A равняется отношению числа возможных случаев, благоприпятствующих событию A, к числу всех возможных случав, то есть Из определения вероятности следует, что для вычисления P(A) требуется прежде всего выяснить, какие события в условиях данной задачи, являются возможными случаями, затем подсчитать число возможных случаев, благоприятствующих событию A, число всех возможных случаев и найти отношение числа благоприятствующих случаев к числу всех возможных.
Пример 1.1. На семи карточках написаны: а, а, о, с, т, т, ч. Какова вероятность того, что при произвольном порядке расположения этих карточек в ряд будет составлено слово “частота”?
Решение. Нумеруем данные карточки. Возможными случаями считаются любые расположения этих карточек в ряд. Следовательно, число всех возможных случаев N есть число перестановок, Благоприятствующими возможными случаями для события А, вероятность которого требуется найти, будут те перестановки, у которых на первом месте стоит буква “ч”, на втором - “а”, на третьем с”, на четвертом - “т”, на пятом - “с”, на шестом - “т” и на седьмом а”. На втором и седьмом местах буква “а” может появится 2! способами в зависимости от номера, присвоенного карточке с буквой “а”.
Следовательно, различных перестановок, благоприятствующих появлению слова “частота” и отличающихся только номерами карточек с буквой “а”, будет 2!. То же самое можно сказать о букве “т”. Число перестановок, благоприятствующих появлению слова “частота” и отличающихся как номерами карточек с буквой “а”, так и номерами карточек с буквой “т”, будет равно 2! 2!. Итак, число случаев, благоприятствующих событию А, равно М=2! 2!. В результате получаем искомую вероятность:
Пример 1.2. Известно, что среди 11 приборов имеется непроверенных. Какова вероятность при случайном безвозвратном отборе 5 приборов обнаружить среди них 2 непроверенных.
Решение. Перенумеруем все 11 приборов. Возможными случаями будем считать соединения по пять приборов из 11, отличающихся только номерами приборов, входящих в каждое соединение. Отсюда следует, что число всех возможных случаев будет равно числу сочетаний из 11 элементов по 5 элементов:
Для подсчета возможных благоприятствующих случаев учитываем, что 2 непроверенных из 3 непроверенных приборов можно извлечь С 2 = 3 способами. Кроме того, 3 непроверенных прибора можно способами. Каждый вариант из двух непроверенных приборов комбинируется с каждым вариантом из трех проверенных, следовательно, число возможных случаев М, благоприятствующих событию А, вероятность которого требуется найти, равно Пример 1.3. В лифт восьмиэтажного дома вошли три человека.
Каждый из них с одинаковой вероятностью выходит на любой из трех этажей, начиная с третьего. Найти вероятность того, что все пассажиры лифта выйдут на разных этажах.
Решение. Возможными случаями в данном примере считаются любые мыслимые распределения, отличающиеся не только количеством, но и индивидуальностью пассажиров лифта, выходящих на том или ином этаже. Так как любой человек может выйти на каждом из шести (от третьего до восьмого) этажей, всех возможных случаев будет N = 63 = 216. Для подсчета благоприятствующих случаев предположим сначала, что пассажиры выходят по одному на фиксированных этажах.
Общее число таких случаев равно 3!. Теперь обратим внимание на тот факт, что общее число сочетаний из 6 этажей по три этажа равно. Следовательно, число благоприятствующих случаев М равно С 3 3!, то есть равно числу размещений из 6 элементов по 3 А 3. Итак, Рассмотрим некоторые свойства вероятностей, вытекающие из классического определения.
1. Вероятность достоверного события равна единице. Достоверное событие U обязательно происходит при испытании, поэтому все возможные случаи являются для него благоприятствующими и 2. Вероятность невозможного события равна нулю. Число благоприятствующих случаев для невозможного события равна нулю (М=0), поэтому P(V ) = = 0.
3. Вероятность события есть число, заключенное между нулем и единицей.
В силу того, что дробь не может быть числом отрицательным и большим единицы, справедливо неравенство:
1.1.3. Статистическое определение вероятности Следует отметить, что классическое определение вероятности имеет существенный недостаток, заключающийся в том, что в практических задачах не всегда можно найти разумный способ выделения “равносильных случаев”. Например, затруднительно определить вероятность того, что ребенок, который должен родиться, окажется мальчиком, или определить вероятность брака в партии деталей. Из-за указанного недостатка наряду с классическим пользуются статистическим определением вероятности, опирающимся на понятие частоты (или частости).
Если классическое определение вероятности исходит из соображений равновозможности событий при некоторых испытаниях, то статистически вероятность определяется из опыта, наблюдения результатов испытания.
Назовем число m появления события А при n испытаниях частотой, а отношение - частостью (относительной частотой) события.
Например, пусть испытание состоит в подбрасывании монеты, а событием является появление герба. Приведем результаты трех опытов, произведенных известными статистиками Бюффоном и К.Пирсоном.
Как видно, относительные частоты незначительно уклоняются от вероятности 0,5, вычисленной на основе классического определения вероятности.
Тот факт, что при большем числе испытаний относительная частота событий остается почти постоянной, приводит к предположению о наличии объективных закономерностей, характеризующих это событие и не зависящих от испытателя.
Вероятностью случайного события А можно назвать некоторую постоянную, являющуюся числовой характеристикой, мерой объективной возможности этого события, около которой колеблется относительная частота.
Статистическое определение вероятности заключается в том, что за вероятность события А принимается относительная частота или число, близкое к ней. При этом требуется, чтобы в неизменных условиях было проведено достаточно большое число испытаний, независимых друг от друга, в каждом из которых может произойти или не произойти событие А.
К недостаткам статистического определения вероятности следует отнести то, что оно носит описательный, а не формальноматематический характер; кроме того, такое определение не показывает реальных условий, при которых наблюдается устойчивость частот.
1.1.4. Понятие об аксиоматическом определении вероятности Классическое и статистическое определения вероятности в совокупности до некоторой степени компенсируют друг друга и лишены недостатков, присущих им в отдельности.
Точным, строгим с математической точки зрения является аксиоматическое определение вероятности. Такое построение теории вероятностей опирается на теорию меры и интегрирования и исходит из некоторого списка не определяемых формально основных понятий и аксиом, на основе которого все дальнейшие понятия отчетливо определяются, а дальнейшие предложения доказываются.
В настоящее время в теории вероятностей принята система аксиом, сформулированная академиком А.Н. Колмогоровым.
Основным понятием аксиоматики является элементарное событие. Рассматривается множество всех элементарных событий U.
Выбирается некоторая система S подмножеств этого множества.
Элементы множества S определяются как случайные события или события. События подчиняются следующим аксиомам.
1. Если А и В - события, то А, АВ и А+В - тоже события.
2. Каждому событию А соответствует неотрицательное число Р(А), называемое вероятностью события А.
3. Достоверное событие U является событием с вероятностью, равной единице, то есть Р(U)=1.
является событием и вероятность его равна сумме вероятностей этих событий:
Из аксиом и определений выводятся другие свойства вероятностей.
1.1.5. Теоремы сложения и умножения вероятностей На основании классического определения вероятностей можно доказать теоремы о вычислении вероятностей сложных событий.
Теорема сложения вероятностей для несовместимых событий Если событие А является суммой несовместимых событий В и С, входящих в поле событий S, то вероятность суммы этих событий равна сумме их вероятностей:
Доказательство. Пусть событию В благоприятствует МВ, а событию С-МС событий Еi системы S. В силу несовместимости событий благоприятствующим С и наоборот. Следовательно, событию А благоприятствуют М=МВ+МС случаев из общего числа N случаев, откуда Следствие. Вероятность события А, противоположного событию А, равна единице без вероятности события А:
Доказательство. События А и А несовместимы и в сумме составляют достоверное событие U. Применяя теорему сложения вероятностей, получим:
Так как вероятность достоверного события равна единице, получим:
Пример 1.4. Каждое из трех несовместимых событий А, В и С происходит соответственно с вероятностями 0,01; 0,02 и 0,03. Найти вероятность того, что в результате опыта не произойдет ни одного события.
Решение. Найдем вероятность того, что в результате опыта произойдет хотя бы одно из событий А, В и С, то есть найдем вероятность суммы событий Д=А+В+С. Так как по условию события А, В и С несовместимы, т( Д ) = т( А) + т(В ) + т(С ) = 0,06.
Событие, вероятность которого требуется найти в задаче, является противоположным событию Д. Следовательно, искомая вероятность равна:
Два события А и В называются зависимыми, если вероятность одного из них зависит от наступления или не наступления другого. В случае зависимых событий вводится понятие условной вероятности события.
Условной вероятностью Р(А/В) события А называется вероятность события А, вычисленная при условии, что событие В произошло.
Аналогично через Р(В/А) обозначается условная вероятность события В при условии, что А наступило.
Безусловная вероятность события А отличается от условной вероятности этого события. Например, пусть брошены две монеты и требуется определить вероятность того, что появится два “орла” (событие А), если известно, что на первой монете появится “орел” (событие В). Все возможные случаи следующие: (орел, решка), (орел, орел), (решка, орел), (решка, решка), в скобках на первом месте указана сторона первой монеты, на втором месте - второй монеты.
Если речь идет о безусловной вероятности событий А, то N=4, M=1 и P(A)=0,25. Если же событие В произошло, то число благоприятствующих А случаев остается тем же самым М=1, а число возможных случаем N=2: (орел, орел), (орел, решка). Следовательно, условная вероятность А при условии, что В наступило, есть Р(А/В)=0,5.
Теорема умножения вероятностей зависимых событий.
Вероятность совместного наступления двух зависимых событий равна вероятности одного события, умноженной на условную вероятность другого события при условии, что первое произошло:
Доказательство. Пусть событию А благоприятствуют m случаев, событию В благоприятствуют k случаев и событию АВ благоприятствуют r случаев. Очевидно, r m и r k. Обозначим через N P( A B ) = ; P(A ) = или P(B ) =. Если событие А произошло, то осуществится один из m случаев, ему благоприятствующих. При таком благоприятствующих АВ. Следовательно, P( B / A) =. Точно так же Р(А / В) =. Подставляя соответствующие обозначения в очевидные равенства Говорят, что событие А независимо от события В, если имеет место равенство Р(А/В)=Р(А).
Следствие 1. Вероятность совместного наступления двух независимых событий равна произведению вероятностей этих событий (теорема умножения для независимых событий):
Доказательство. Пусть А не зависит от В, тогда согласно теореме умножения вероятностей и равенству Р(А/В)=Р(А), получим Р(АВ)=Р(В) Р(А) или Р(АВ)=Р(А) Р(В), так что следствие доказано.
Кроме того, имеем равенство:
откуда Р(В/А)=Р(В), т.е. свойство независимости событий взаимно: если А не зависит от В, то В не зависит от А.
Следствие 2. Вероятность суммы двух событий равна сумме вероятностей этих событий без вероятности совместного их наступления (теорема сложения для любых событий), т.е. если А и В любые события, совместимые или несовместимые, то Доказательство. Рассмотрим следующие представления событий А+В и В:
Поскольку в правых частях представлены несовместимые события, то, применяя теорему сложения вероятностей, получим:
откуда следует:
Отметим, что если события А и В несовместимы, то совместное наступление их невозможно: АВ=V и Р(АВ)=Р(V)=0, так что Следствие 3. Пусть производится n одинаковых независимых испытаний, при каждом из которых событие А появляется с вероятностью р. Тогда вероятность появления события А хотя бы один раз при этих испытаниях равна 1-(1-р)n.
Доказательство. Обозначим через Аi появление события А в i-м испытании (i=1,2,...,n). Тогда событие В, состоящее в появлении события А в n испытаниях хотя бы один раз, запишется в виде Рассмотрим событие B, заключающееся в том, что при n испытаниях событие А не появится ни разу, тогда Так как В + В = U, получим, что Так как для любых i события Аi не зависят от остальных, окончательно получим Пример 1.5. Вероятность попадания стрелка в мишень при каждом выстреле равна 0,8. Найти вероятность того, что после двух выстрелов мишень окажется поврежденной.
Решение. Обозначим через А1 событие, заключающееся в попадании в мишень при первом выстреле, а через А2 - при втором выстреле. Тогда А1 А2 является событием, означающим попадание в мишень при обоих выстрелах. Событие А, вероятность которого требуется найти в задаче, является суммой события А1 и А2. Применяя теоремы сложения и умножения вероятностей для совместимых независимых событий А1 и А2 получим Подставляя значение т( А1 ) = т( А2 ) = 0,8, будем иметь Искомую вероятность можно найти иначе: события А, заключающиеся в попадании в мишень хотя бы при одном выстреле, и А 1 А 2, означающее непопадание в мишень ни при одном выстреле, являются противоположными, поэтому, применяя теорему умножения вероятностей, вычислим вероятность попадания хотя бы при одном выстреле.
Так как т А1 = т А2 = 1 0,8 = 0,2, искомая вероятность равна Пример 1.6. Вероятность попадания стрелка в цель при одном выстреле равна 0,2. Сколько выстрелов должен сделать стрелок, чтобы с вероятностью не менее 0,9 попасть в цель хотя бы один раз?
Решение. Обозначим через событие А попадания стрелка в цель хотя бы один раз при n выстрелах. Так как события, состоящие в попадании в цель при первом, втором и т.д. выстрелах независимы, искомая вероятность равна По условию Р(А)0,9 и следовательно, т А1 = т А 2 =... = т А N = 1 0,2 = 0, и в результате получим Отсюда 0,8 N 01. Прологарифмировав это неравенство и учитывая, что N lg 0,8 N lg 01, получим следовательно, стрелок должен произвести не менее 11 выстрелов.
1.1.6. Формулы полной вероятности и вероятности гипотез Рассмотрим полную группу n попарно несовместимых событий A1,A2,...,An, то есть и некоторое событие В. Возьмем произведение события U на событие В:
и, применяя свойства операций над событиями, получим События A i B и A j B при i j попарно несовместимы, так как (A j B ) ( Ai B ) = (Ai A j ) B = VB = V. По теореме сложения вероятностей для несовместимых событий получим далее, применяя теорему умножения, окончательно будем иметь Итак, вероятность Р(В) события В, которое может произойти только совместно с одним из событий A1, A 2,..., A n, образующих полную группу попарно несовместимых событий, определяется последней формулой, носящий название формулы полной вероятности.
Пример 1.7. В магазин поступила новая продукция с трех предприятий. Процентный состав этой продукции следующий: 20% продукция первого предприятия, 30% - продукция второго предприятия, 50% - продукция третьего предприятия; далее, 10% продукции первого предприятия высшего сорта, на втором предприятии - 5% и на третьем продукции высшего сорта. Найти вероятность того, что случайно купленная новая продукция окажется высшего сорта.
Решение. Обозначим через В событие, заключающееся в том, что будет куплена продукция высшего сорта, через А1, А2 и А3 обозначим события, заключающиеся в покупке продукции, принадлежащей соответственно первому, второму и третьему предприятиям. Очевидно, и можно применить формулу полной вероятности, причем в наших обозначениях Подставляя эти значения в формулу полной вероятности, получим искомую вероятность Пусть, как и при выводе формулы полной вероятности, событие В может наступить в различных условиях, относительно существа которых можно сделать n предположений, гипотез: А1, А2, А3...Аn. Вероятности Р(А1), Р(А2)...Р(Аn) этих гипотез известны до испытания, и, кроме того, известна вероятность Р(В/Аi), сообщаемая событию В гипотезой Аi.
Пусть после проведенного испытания событие В наступило, требуется при этом условии найти вероятность гипотезы Аi.
Воспользуемся для вывода формулы искомой вероятности теоремой умножения:
откуда Подставив в знаменатель этой формулы правую часть формулы полной вероятности (1.8), окончательно будем иметь:
Полученные формулы носят название формул вероятности гипотез, или формул Бейеса.
Пример 1.8. В течение месяца в порт нефтеперерабатывающего завода приходят независимо друг от друга два танкера одинакового тоннажа. Технико-экономические условия для данного завода таковы, что завод может выполнить месячный заказ, если придет хотя бы один из этих танкеров в течении первых пяти суток месяца; завод не выполнит заказ, если в начале месяца не придет ни один танкер.
Вероятность прихода каждого танкера в течение первых пяти суток постоянна и равна 0,1. Доставленная в начале месяца нефть обеспечивает выполнение плана с вероятностью 0,05, если придет только один танкер, и с вероятностью 0,2, если придут оба танкера.
Завод выполнил план. Указать при этом условии число танкеров, прибывших в течении первых пяти суток месяца, вероятность которого наибольшая.
Решение. Обозначим через Е1 событие, заключающееся в том, что в начале месяца пришел первый танкер, а через Е2 - второй. Пусть гипотеза А1 состоит в том, что в первые пять суток пришел только один танкер, тогда, согласно правилам операций над событиями, имеем:
Пусть, далее, А2 - гипотеза, заключающаяся в приходе в начале планируемого периода обоих танкеров, тогда и, наконец, А3 - гипотеза, состоящая в том, что не пришел ни один танкер в начале месяца, тогда Найдем вероятности этих гипотез исходя из условий P( E1 ) = P( E2 ) = 0,1; P E1 = P E2 = 0,9 и применяя теоремы сложения и умножения вероятностей:
Обозначим через В событие, заключающееся в выполнении заказа заводом, тогда причем согласно условиям задачи По формуле полной вероятности получим Теперь вычислим вероятности всех гипотез при условии, что событие В имело место, применяя формулы Бейса:
Сравнивая полученные вероятности, заключаем: если завод выполнил заказ, то вероятнее всего за счет того, что пришел в первые пять суток планируемого периода один танкер.
1.1.7. Повторение испытаний. Формула Бернулли При решении вероятностных задач часто приходится сталкиваться с ситуациями, в которых одно и тоже испытание (опыт) испытания повторяется многократно.
Поставим задачу общем виде. Пусть в результате испытания возможны два исхода: либо появится событие А, либо противоположное ему событие A. Проведем n испытаний Бернулли. Это означает, что все n испытаний независимы; вероятность появления события А в каждом отдельно взятом или единичном испытании постоянна и от испытания к испытанию не изменяется (т.е. испытания проводятся в одинаковых условиях). Обозначим вероятность Р(А) появления события А единичном испытании буквой р, т.е. Р(А) = р, а вероятность Р(A ) буквой q, т.е. Р(A ) = 1- P(A ) = 1-p = q.
Найдем вероятность Pn(m) наступления события А ровно m раз (ненаступления n-m раз) в этих n испытаниях. Отметим, что здесь не требуется появление m раз события А в определенной последовательности.
Обозначим: Ai - появление события А в i-м опыте; А i непоявление события А в i-м опыте, где i=1, 2, 3,..., n.
Для одного испытания возможны следующие два исхода: А, A.
Вероятности этих исходов выпишем в виде следующей таблицы:
Очевидно, P1(1) = p; P1(0) = q и P1(1)+P1(0)=(p+q)1 = 1.
Для двух испытаний возможно следующие 4 = 22 исхода: А1А2, A1A 2, А 1A 2, А1A 2 Вероятность этих исходов также запишем в виде таблицы:
Очевидно, P2(2) = p2, P2(1) =P(А1A 2 )+P( A1A 2 ) = 2pq, P2(0) = q2 и P2(2)+P2(1)+P2(0) = p2+2pq+q2 = (p+q)2 = 1.
Для трех испытаний возможны следующие 8 = 23 исходов A1A2A3, этих исходов запишем в виде таблицы:
Очевидно, P3(3) = p3, P3(2) = P(A1A 2A 3 )+P( A1A 2A 3 )+P( A1A 2 A 3 )=3p2q, P3(1) P3(3)+P3(2)+P3(1)+P3(0) = p +3p q+3pq +q = (p+q) = 1. Анализируя эти случаи, можно сделать общий вывод: вероятность Pn(m) пропорциональности равен C n, т.е. m Полученную формулу называют формулой Бернулли.
Пример 1.9. Монету бросают 6 раз. Какова вероятность того, что раза выпадет “орел”.
Решение. Обозначим: количество испытаний n = 6; число поступлений события “выпадет орел” m = 4; вероятность поступления события “выпадет орел” p = 0,5; тогда q = 1-p = 0,5.
По формуле Бернулли получаем Пусть производится n одинаковых независимых испытаний с вероятностью появления события в каждом испытании, равной p. Тогда вероятность частоты m наступления события А определяется, как было показано ранее по формуле Бернулли:
Вычисление по этой формуле трудно практически осуществить при n>20.
Муавром и Лапласом была получена асимптотическая формула, позволяющая найти указанную вероятность. Теорема, выражающая эту формулу, носит название локальной теоремы Муавра-Лапласа.
Если производится n одинаковых испытаний, в каждом из которых вероятность появления события равна p, то вероятность того, что данное событие появится m раз, определяется по формуле Эта теорема дает приближение биномиального закона распределения к нормальному при n и p, значительно отличающемся от нуля и единицы. Для практических расчетов удобнее представлять полученную формулу в виде Если m=m0=np, то вероятность наиболее вероятной частоты находится по формуле Пример 1.10. Для мастера определенной квалификации вероятность изготовить деталь отличного качества равна 0,75. За смену он изготовил 400 деталей. Найти вероятность того, что в их числе деталей отличного качества.
Решение. По условию n = 400, p = 0,75, q = 0,25 и m = 280, откуда По таблицам (t) найдем (-2.31)= (2.31) = 0,0277.
Искомая вероятность равна Для вычисления вероятности того, что частота m, подчиненная биномиальному закону распределения, заключена между данными значениями m1 и m2, применяют интегральную теорему Лапласа, выраженную асимптотической формулой где Формулу, выражающую интегральную терему Лапласа, можно получить из закона нормального распределения (см. далее), положив X = m; x1=m1; x2=m2; µ = np; = npq.
При больших значениях n наиболее вероятная частота m совпадает с математическим ожиданием (см. далее) частоты. Поэтому для нахождения вероятности того, что абсолютная величина отклонения частоты от наиболее вероятной частоты не превосходит заданного числа > 0, применим формулу закона нормального распределения Интегральная кривая имеет вид (рис. 1.8) 1.2.2. Математическое ожидание и дисперсия случайной Для практического применения не всегда необходимо иметь полное представление о случайной величине, достаточно знать некоторые ее числовые характеристики, дающие суммарное представление о случайной величине.
К таким характеристикам прежде всего относятся математическое ожидание и дисперсия.
Математическое ожидание /среднее значение/ M(X) дискретной случайной величины X определяется по формуле где символ заменяется числом n, если случайная величина имеет Если случайная величина X непрерывна и p(x) - ее плотность распределения, то математическим ожиданием случайной величины называется интеграл в тех случаях, когда существует интеграл Пример 1.16. Найти математическое ожидание случайных величин, рассмотренных в примерах 1.12 и 1.13.
Решение. Для числа появлений “орла” имеем следующий ряд распределения:
так что среднее число появлений “орла” при трех бросаниях монеты следующее:
Для интервала времени между двумя появленими автобуса на остановке плотность распределения имеет вид Среднее значение интервала времени получаем равным:
M ( X) = Дисперсия D(x) случайной величины X характеризует средний разброс, рассеяние значений случайной величины около математического ожидания.
Дисперсией случайной величины называется математическое ожидание квадрата отклонения случайной величины от математического ожидания, то есть Пусть имеется дискретная случайная величина X, заданная рядом распределения:
Рассмотрим случайную величину X-M(X), равную разности случайной величины X и постоянной величины M(X) и называемую отклонением X от M(X). Ряд распределения для отклонения имеет следующий вид:
так как случайная величина X-M(X) принимает значение xk-M(X) тогда и только тогда, когда X принмает значение xk, следовательно, вероятность значений xk и xk-M(X) - одна и та же и равна pk.
Далее рассмотрим случайную величину, равную квадрату отклонения случайной величины X от ее математического ожидания M(X). Рассуждая, как выше, получим следующий ряд распределения для Тогда дисперсия вычисляется по формуле:
Заметим, что правая часть формулы для дисперсии верна и в случае, когда x k M ( X ) = x l M ( X ) для некоторых k l, хотя ряд для примет это значение, то X-M(X) примет значение либо xkM(X) либо xl-M(X).
Для непрерывной случайной величины дисперсия определяется по формуле Пример 1.17. Найти дисперсию случайных величин, приведенных в примерах 1.12 и 1.13.
Решение. Напишем ряд распределения для квадрата отклонений от числа выпадений орла от среднего значения, равного 1,5:
Затем вычислим дисперсию:
Дисперсия для интервала времени между двумя появлениями автобуса найдем по формуле для дисперсии непрерывной случайной величины, имея M(X)=2,5 :
Как не трудно заметить, если случайная величина выражена в некоторых единицах измерения, то дисперсия имеет наименование, выраженное в квадратных единицах. Для удобства представления случайной величины через свои характеристики вводят понятие среднего квадратического отклонения ( x ), равного арифметическому корню из дисперсии:
1.2.3. Основные свойства математического ожидания и Доказательства рассматриваемых свойств будем проводить для дискретных случайных величин.
Свойство 1. Математическое ожидание постоянной равно этой постоянной.
Доказательство. Постоянную C можно рассматривать как дискретную случайную величину, принимающую единственное значение c с вероятностью единица, поэтому M (C) = c 1 = c.
Свойство 2. Математическое ожидание суммы случайных величин равно сумме их математических ожиданий:
соответственно следующие ряды распределения:
Напишем ряд распределения для суммы X+Y.
Возможные значения случайной величины X+Y есть следующие:
Более компактная запись возможных значений выглядит так:
Обозначим вероятность того, что X примет значение xk, а Y - значение yl через pkl, тогда:
Рассмотрим событие X+Y=xk+Y и найдем вероятность этого события. Это событие происходит тогда и только тогда, когда Y принимает одно из значений y1, y2,..., yl,..., ym, причем события xk+y1, xk+y2,..., xk+ym попарно несовместимы. Следовательно, можно применить формулу вероятности суммы:
следовательно Аналогично доказывается формула По определению математического ожидания Следствие. Математическое ожидание суммы конечного числа случайных величин равно сумме их математических ожиданий.
Доказательство. Применяя свойство 2 и метод математической индукции, получим Свойство 3. Математическое ожидание произведения независимых случайных величин X и Y равно произведению математических ожиданий этих величин: M XY = M X M Y. Пусть случайные величины X и Y заданы рядами распределения. Ряд распределения для произведения случайных величин выглядит следующим образом:
Причем в силу независимости случайных величин X и Y события (X=xk) и (Y=yl) независимы, следовательно, по теореме умножения вероятностей независимых событий получим p kl = p k p l.
По определению математического ожидания Следствие. Постоянный множитель можно выносить за знак математического ожидания:
Доказательство. Постоянную c можно рассматривать как случайную величину, причем c и X - независимые случайные величины, поэтому Свойство 4. Дисперсия постоянной величины равна нулю.
Доказательство. Согласно свойству Свойство 5. Постоянную величину можно вынести за знак дисперсии, предварительно возведя ее в квадрат, т.е.
Доказательство. В силу следствия из свойства 3 имеем:
Свойство 6. Дисперсия суммы независимых случайных величин X и Y равна сумме их дисперсии:
Доказательство. По определению дисперсии и по свойству получим:
Величины X и Y независимы, поэтому величины X-M(X) и YM(Y) также независимы, следовательно:
Следствие. Если x1, x2,..., xn - случайные величины, каждая из которых независима от суммы остальных, то D(X1+X2+...+Xn)=D(X1)+D(X2)+...+D(Xn). (1.20) Пусть дана случайная величина X, имеющая математическое ожидание M(X) и среднее квадратическое отклонение ( x ) 0, тогда случайная величина называется стандартизованной (нормированной). Такая случайная величина обладает тем свойством, что ее математическое ожидание равно нулю, а дисперсия равна единице.
Действительно, Для характеристики случайной величины, кроме математического ожидания и дисперсии, применяются и моменты.
Моментом k - порядка называется математическое ожидание k - й степени отклонения случайной величины X от некоторой постоянной c.
Если в качестве c берется нуль, моменты называют начальными, то есть Если c=M(X), то моменты называются центральными, то есть В формулах, определеяющих начальные и центральные моменты, нижние индексы указывают порядок момента.
С помощью свойств математического ожидания легко показать, что начальными:
В частности, для первых четырех моментов выведенная формула дает следующие равенства:
Первые моменты играют важную роль в статистике при нахождении параметров функции распределения.
употребляется для вычисления дисперсии.
Пример 1.18. Вычислить начальный и центральный моменты третьего порядка для случайных величин, рассмотренных в примерах 1.12 и 1.13.
Решение. Для вычисления моментов дискретной случайной величины, числа появлений “орла” (пример 1.12), удобно воспользоваться схемой, указанной в таблице.
Теперь воспользуемся формулой и получим Для вычисления центрального момента третьего порядка непрерывной случайной величины - интервала времени между двумя появлениями автобуса (пример 4.2) удобнее пользоваться формулой, непосредственно определяющей центральные моменты:
Так как M(X)=2,5, то Подстановкой x 2,5 = z мы приводим этот интеграл к виду Так как под интегралом стоит нечетная функция, а пределы интегрирования равны по абсолютной величине и противоположны по знаку, интеграл равен нулю, следовательно, µ 3 = 52 0 = 0.
В заключение заметим, что если кривая распределения p(x) непрерывной случайной величины X симметрично расположена относительно оси, проходящей через M(X), то все центральные моменты нечетного порядка равны нулю. То же самое заключение можно сделать по поводу дискретной случайной величины X, если ее полигон симметричен относительно оси, проходящей через среднее значение случайной величины.
Биноминальное распределение представляет собой распределение вероятностей возможных чисел появления события А при n независимых испытаний, в каждом из которых событие А может осуществиться с одной и той же вероятностью P(A) = p = const. Кроме события A может произойти также противоположное событие A, вероятность которого P( A ) = 1-p = q.
Вероятности любого числа событий соответствуют членам разложения бинома Ньютона в степени, равной числу испытаний:
где p n - вероятность того, что при n испытаниях событие A наступит n раз;
q n - вероятность того, что при n испытаниях событие A не наступит ни разу;
c m p m q n m - вероятность того, что при n испытаниях событие A наступит m раз, а событие A наступит n-m раз;
c m - число сочетаний (комбинаций) появления события A и A.
Таким образом, вероятность осуществления события A m раз при n независимых испытаниях с одинаковой вероятностью p можно рассчитать по формуле общего члена разложения бинома Ньютона:
Эта формула называется формулой Бернулли. Ее целесообразно использовать при небольшом числе испытаний, порядка n 8.
Сумма вероятностей всех комбинаций равна единице, как сумма вероятностей единственно возможных и несовместных событий (комбинаций), составляющих полную группу событий.
Ряд распределения вероятностей случайной величины X = m записывают следующим образом:
где n - число независимых испытаний;
m=0n - частота появления события A в n независимых испытаниях.
Числовые характеристики биноминального распределения:
M(m)=np - математическое ожидание частоты появлений события A при n независимых испытаниях;
D(m)=npq - дисперсия частоты появления события A;
(m) = npq - среднее квадратическое отклонение частоты.
Когда число испытаний n велико, то для вычисления вероятности комбинаций используется локальная теорема Лапласа:
распределения;
- нормированное значение частоты.
Нормальное распределение - наиболее часто встречающийся вид распределения. С ним приходится сталкиваться при анализе погрешностей измерений, контроле технологических процессов и режимов, а также при анализе и прогнозировании различных явлений в в экономике, социологии, демографии и других областях знаний.
Наиболее важным условием возникновения нормального распределения является формирование признака как суммы большого числа взаимно независимых слагаемых, ни одно из которых не характеризуется исключительно большой по сравнению с другими дисперсией. В производственных условиях такие предпосылки в основном соблюдаются.
Главная особенность нормального распределения состоит в том, что оно является предельным, к которому приближаются другие распределения.
Нормальным называется распределение, функция плотности вероятности которого имеет вид где µ - математическое ожидание случайной величины;
2 - дисперсия случайной величины, характеристика рассеяния значений случайной величины около математического ожидания.
1.3.1. Принцип практической невозможности маловероятных событий. Формулировка закона больших чисел Ранее было отмечено, что нельзя предвидеть, какое из возможных значений примет случайная величина, так как мы не можем учесть все обстоятельства, от которых зависит это событие. Однако в некоторых случаях можно указать вероятность такого события.
Опыт подсказывает нам, что события, вероятность наступления которых мала, редко происходят, а события, имеющие вероятность, близкую к единице, почти обязательно происходят.
Принцип, заключающийся в том, что маловероятные события на практике рассматриваются как невозможные, носит название “принципа практической невозможности маловероятных событий”. События, происходящие с вероятностями, весьма близкими к единице, считаются практически достоверными (принцип практической достоверности).
Сколь мала или сколь велика должна быть вероятность события, зависит от практического применения, от важности этого события.
Следовательно одной из основных задач теории вероятностей является установление закономерностей, происходящих с вероятностями близкими к единице. Эти закономерности должны учитывать совместное влияние большого числа независимо (или слабо зависимо) действующих факторов. При этом каждый фактор в отдельности характеризуется незначительным воздействием. Всякое предложение, устанавливающее отмеченные выше закономерности, называется законом больших чисел. Законом больших чисел, по определению проф.
А.Я.Хиничина, следует назвать общий принцип, в силу которого совокупное действие большого числа факторов приводит при некоторых весьма общих условиях к результату, почти не зависящему от случая.
Некоторые конкретные условия, при которых выполняется закон больших чисел, указаны в теоремах Чебышева, Бернули, Пуасона и Ляпунова.
1.3.2. Лемма Маркова. Неравенство и теорема Чебышева.
неравенство:
Доказательство. Для определенности предположим, что Х непрерывная случайная величина с плотностью р(х). По определению математического ожидания получаем Далее будем иметь Оба слагаемых в правой части не отрицательны, поэтому но теперь x, и следовательно, Таким образом, Рассмотрим теперь случайную величину Х, имеющую математическое ожидание М(Х) и дисперсию D(X). Оценим вероятность события, заключающегося в том, что отклонение Х-М(Х) не превысит по абсолютной величине положительного числа. Оценка указанной вероятности получается с помощью неравенства Чебышева.
Вероятность того, что отклонение случайной величины Х от ее математического ожидания по обсолютной величине меньше (конечной) случайной величины Х:
распределения имеет вид Не ограничивая общность рассуждения, можно предположить, что первые к значений случайной величины X M ( X ) меньше заданного, а остальные значения не меньше. Тогда на основании теоремы сложения вероятностей получим следующую формулу:
Опуская в правой части этого равенства первую сумму и заменяя во второй сумме [ xi M ( X ) ] меньшей величиной, получим неравенство Из этого неравенства следует:
Подставляя правую часть (1.28) в (1.26), окончательно получим что и требовалось доказать.
Рассмотрим достаточно большое число n независимых случайных величин Х1, Х2, … Хn. Если дисперсии их ограничены числом с, то событие, заключающееся в том, что отклонение среднего арифметического этих случайных величин от среднего арифметического их математических ожиданий будет по абсолютной величине сколь угодно малым, является почти достоверным. Это предложение, относящиеся к закону больших чисел, доказал П.Л. Чебышев.
Теорема Чебышева. Если Х1, Х2, … Хn попарно независемые случайные величины, причем дисперсии их не привышают постоянноо числа с, то как бы мало ни было положительное число, вероятность неравенства где - частость появления события А.
Доказательство. Для доказательства рассмотрим случайную величину Хi=mi, являющуюся числом наступления события А в I испытании, так что m=m1+m2+…+mi+…+mn, и случайные величины mi попарно независимы. Ранее было показано, что М(mi)=p и D(mi)=pq. Так как pq, то дисперсии случайных величин mi ограничены одним и тем же числом c =, следовательно, получаем все условия, при которых справедлива теорема Чебышева и окончательно получим откуда Пример 1.20. На предприятии, выпускающем кинескопы, 0,8 всей продукции выдерживает гарантийный срок службы. С вероятностью, превышающей 0,95, найти пределы, в которых находится доля кинескопов, выдерживающих гарантийный срок, из партии кинескопов.
Решение. Применяем теорему Бернулли при n=8000, Р0,95, р=0, и q=0,2. Подставляя в равенство p,q и n, найдем =0,02. Из неравенства получим 0,78 < < 0, Теорема Пуассона. Если в последовательности независимых испытаний появление события А в К-ом испытании равна рк, то где m есть случайная величина, равная числу появлений событя А в первых n испытаниях.
Доказательство. Пусть случайная величина Хк=mk означает число независимы. Таким образом, теорема Пуассона является частным случаем теоремы Чебышева. На основании свойств математического следующие формулы:
неравенство, выражающее теорему Пуассона:
Пример 1.21. Произведено 900 независимых испытаний, причем в 450 из этих испытаний вероятность появления события А равна 2/3, в 200 - 0,5, в 160 - 0,3 и в 90 - 0,4. Найти оценку вероятности того, что частость появления события А отклоняется по абсолютной величине от средней вероятности не больше, чем на 0,1.
Решение. Применяем теорему Пуассона. Находим p и pq :
Подставляя в правую часть неравенства значения p, pq, и n, получим Р0,97.
Теорема Бернулли является частным случаем теоремы Пуассона.
В самом деле, если вероятность появления данного события в каждом испытании постоянна: р1=р2=…рn=р, то p = p и pq = pq Замечание. В тех случаях, когда вероятность появления события в каждом испытании не известна, за верхнюю границу дисперсии принимают с=1/4, т.е.
Теоремы Чебышева, Бернулли, Пуассона устанавливают нижнюю границу вероятности, что часто бывает недостаточно. В некоторых случаях важно знать достаточно точное значение вероятности. Этому требованию отвечают так называемые предельные теоремы закона больших чисел, указывающие асимптотические формулы для случайных величин Xi.
Мы уже знаем, что вероятность неравенства по интегральной теорема Лапласа, а именно Следовательно, достаточно точным выражением теоремы Бернулли является интегральная теорема Лапласа. Асимптотическую формулу для теоремы Чебышева доказал его ученик А.М. Ляпунов.
Приведем теорему Ляпунова без доказательства.
Теорема Ляпунова. Рассмотрим n независимых случайных величин Х1, Х2,…,Хn, удовлетворяющих условиям:
1) все величины имеют определенные математические ожидания и конечные дисперсии;
2) ни одна из величин не выделяется резко от остальных по своим значениям.
случайной величины Таким образом, имеем следующую асимптотическую формулу:
Пример 1.22. Дисперсия каждой из 400 независимых случайных величин равна 25. Найти вероятность того, что абсолютная величина отклонения средней арифметической случайных величин от средней арифметической их математических ожиданий не превысит 0,5.
Решение. Применим теорему Ляпунова. По условию задачи n=400, D(Xi)=25, следовательно, D( X ) =25 и =0,5. Подставляя эти данные в формулу = t, получим t=2 откуда Р=Ф(2)=0,9545.
1. Каково максимальное значение вероятности произведения противоположных событий?
2. Чему равна вероятность достоверного события?
3. Монета подбрасывается 2 раза. Какова вероятность выпадения “орла” один раз.
4. Монета была подброшена 10 раз. “Герб” выпал 4 раза. Какова частость (относительная частота) выпадания “герба”?
5. Консультационный пункт института получает пакеты с контрольными работами студентов из городов А, В и С. Вероятность получения пакета из города А равна 0,7, из города В - 0,2. Какова вероятность того, что очередной пакет будет получен из города С?
6. Какова вероятность выигрыша хотя бы одной партии у равносильного противника в матче, состоящем из трех результативных партий?
7. Если вероятность наступления события в каждом испытании постоянна, но мала, а число испытаний велико, то для нахождения вероятности того, что событие А произойдет m раз в n испытаниях следует использовать:
а) формулу Бернулли;
б) локальную теорему Муавара-Лапласа;
в) формулу Пуассона;
г) теорему умножения вероятностей.
8. Чему равно математическое ожидание случайной величины У=2X+1, если математическое ожидание случайной величины X равно 5?
9. Чему равна дисперсия случайной величины У=2X+1, если дисперсия случайной величины X равна 2?
10. Какое из положений закона больших чисел оценивает вероятность отклонения случайной величины х от ее математического ожидания?
а) Неравенство Чебышева б) Теорема Бернулли в) Теорема Чебышева г) Лемма Маркова
2. СТАТИСТИЧЕСКАЯ ОЦЕНКА ПАРАМЕТРОВ
РАСПРЕДЕЛЕНИЯ
2.1. Понятие о статистической оценке параметров Методы математической статистики используются при анализе явлений, обладающих свойством статистической устойчивости. Это свойство заключается в том, что, хотя результат Х отдельного опыта не может быть предсказан с достаточной точностью, значение некоторой неограниченном увеличении объема выборки теряет свойство случайности и сходится по вероятности к некоторой неслучайной величине.Рассмотрим некоторые понятия.
Генеральной совокупностью Х называют множество результатов всех мыслимых наблюдений, которые могут быть сделаны при данном комплексе условий.
В некоторых задачах генеральную совокупность рассматривают как случайную величину Х.
Выборочной совокупностью (выборкой) называют множество результатов, случайно отобранных из генеральной совокупности.
Выборка должна быть репрезентативной, т.е. правильно отражать пропорции генеральной совокупности. Это достигается случайностью отбора, когда все объекты генеральной совокупности имеют одинаковую вероятность быть отобранными.
Задачи математической статистики практически сводятся к обоснованному суждению об объективных свойствах генеральной совокупности по результатам случайной выборки.
Параметры генеральной совокупности есть постоянные величины, а выборочные характеристики (статистики) - случайные величины.
В самом общем смысле статистическое оценивание параметров распределения можно рассматривать как совокупность методов, позволяющих делать научно обоснованные выводы о числовых параметрах генеральной совокупности по случайной выборке из нее.
Сформулируем задачу статистической оценки параметров в общем виде. Пусть X - случайная величина, подчиненная закону распределения F(x,), где - параметр распределения, числовое значение которого неизвестно. Исследовать все элементы генеральной совокупности для вычисления параметра не представляется возможным, поэтому о данном параметре пытаются судить по выборкам из генеральной совокупности.
Всякую однозначно определенную функцию результатов наблюдений, с помощью которой судят о значении параметра, называют оценкой (или статистикой) параметра.
Рассмотрим некоторое множество выборок объемом n каждая.
Оценку параметра, вычисленную по i-ой выборке, обозначим через ~i.
Так как состав выборки случаен, то можно сказать, что i примет неизвестное заранее числовое значение, т.е. является случайной величиной. Известно, что случайная величина определяется соответствующим законом распределения и числовыми характеристиками, следовательно, и выборочную оценку также можно описывать законом распределения и числовыми характеристиками.
Основная задача теории оценивания состоит в том, чтобы произвести выбор оценки n параметра, позволяющей получить хорошее приближение оцениваемого параметра.
2.2. Законы распределения выборочных характеристик, 2.2.1. Распределение средней арифметической Пусть из генеральной совокупности X, имеющей нормальный закон распределения N(µ;) с математическим ожиданием µ и средним квадратическим отклонением, взята случайная выборка объемом n и определена средняя арифметическая где xi - результат i-го наблюдения.
Здесь и в дальнейшем будем рассматривать выборку объема n, т.е.
последовательность наблюдений X1, X2,... Xn, как систему независимых, одинаково распределенных случайных величин с распределением N(µ; ).
Таким образом, если случайная величина X распределена нормально, то средняя арифметическая распределена также нормально с Откуда следует, что Для одинаково распределенных и взаимно независимых случайных величин дисперсия распределения средней арифметической в n раз меньше дисперсии случайной величины X.
Если X1, X2,..., Xn есть ряд независимых, нормированных, нормально распределенных случайных величин N(0,1), т.е. MXi=0 и Dxi=1 для i=1, 2,...,, то случайная величина имеет распределение 2 с степенями свободы, где - единственный параметр распределения 2, характеризующий число независимых случайных величин в выражении (2.3).
В таблицах приложения для различных приводятся числа, вероятность превышения которых случайной величиной U2 равна заданному значению уровня значимости =1-.
Отметим, что математическое ожидание случайной величины U равно числу степеней свободы, а дисперсия - удвоенному числу степеней свободы Распределение Пирсона используется для построения доверительного интервала для генеральной дисперсии.
2.2.3. Распределение Стьюдента (t - распределение) В 2.2.1. был рассмотрен закон распределения средней арифметической X, зависящей от среднего квадратичного отклонения генеральной совокупности. Однако во многих практических приложениях математической статистики параметр, как правило, не известен. В этой связи возникает задача определения закона распределения X, не зависящего от, которую решил английский статистик Госсет, публиковавшийся под псевдонимом Стьюдент.
Распределение Стьюдента находит широкое применение в теории статистического оценивания параметров генеральной совокупности и в проверке статистических гипотез.
Дадим определение случайной величины, имеющей распределение Стьюдента.
Если случайная величина Z имеет нормированное распределение N(0;1), а величина U2 имеет распределение 2 с степенями свободы, причем Z и U взаимно независимы, то случайная величина имеет t распределение с степенями свободы.
Наибольшее применение на практике находят таблицы, в которых даны значения t(,), соответствующие заданному числу степеней свободы =1, 2,..., и уровню значимости, т.е. вероятности выполнения неравенства P[|T|>t(,)]=.
Если из генеральной совокупности X с нормальным законом распределения N(µ;) взята случайная выборка объемом n, то статистика имеет распределение Стьюдента с =n-1 степенями свободы.
Распределение Стьюдента (t - распределение) используется при интервальной оценке математического ожидания при неизвестном значении среднего квадратического отклонения.
Теория статистического оценивания рассматривает два основных вида оценок параметров распределений: точечные и интервальные оценки.
2.3. Точечные оценки параметров распределений Точечной оценкой называют некоторую функцию результатов наблюдения n(x1, x2, ..., xn), значение которой принимается за наиболее приближенное в данных условиях к значению параметра генеральной совокупности.
Примером точечных оценок являются X, S2, S и др., т.е. оценки параметров одним числом.
Из точечных оценок в приложениях математической статистики часто используют начальные где моменты до четвертого порядка включительно, т.е. k=1,2,3,4.
Основная проблема точечной оценки заключается в выборе возможно лучшей оценки, отвечающей требованиям несмещенности, эффективности и состоятельности.
Точечную оценку n называют несмещенной, если ее математическое ожидание равно оцениваемому параметру:
Выполнение требования несмещенности оценки гарантирует отсутствие ошибок в оценке параметра одного знака.
Эффективной называют несмещенную выборочную оценку, обладающую наименьшей дисперсией среди всех возможных несмещенных оценок параметра для данного объема выборки n и функции распределения вероятности F(X,) генеральной совокупности.
Точечная оценка n параметра называется состоятельной, если при n оценка n сходится по вероятности к оцениваемому параметру, т.е. выполняется условие Следует отметить, что при состоятельности оценки оправдывается увеличение объема наблюдений, так как при этом становится маловероятным допущение значительных ошибок при оценивании.
2.3.2. Точечные оценки основных параметров распределений Наиболее важными числовыми характеристиками случайной величины являются математическое ожидание и дисперсия.
Рассмотрим вопрос о том, какими выборочными характеристиками лучше всего в смысле несмещенности, эффективности и состоятельности оцениваются математическое ожидание и дисперсия.
1. Средняя арифметическая X, вычисленная по n независимым наблюдениям над случайной величиной X, которая имеет математическое ожидание M(x)=µ и дисперсию D(x)=2, является несмещенной и состоятельной оценкой этого параметра.
2. Если случайная величина X распределена нормально с параметрами N(µ,), то несмещенная оценка X математического поэтому средняя арифметическая X в этом случае является также эффективной оценкой математического ожидания.
3. Если случайная подборка состоит из n независимых наблюдений над случайной величиной X с математическим ожиданием MX и дисперсией DX=2, то выборочная дисперсия S2 = является несмещенной оценкой генеральной дисперсии 2.
Несмещенной оценкой дисперсии генеральной совокупности является исправленная выборочная дисперсия где дробь называется поправкой Бесселя. При малых значениях n поправка Бесселя довольно значительно отличается от единицы, с увеличением значений n она стремиться к единице. При n> практически нет разницы между оценками S 2 и S 2. Оценки S 2 и S 2 являются состоятельными оценками генеральной дисперсии 2.
4. Если известно значение математического ожидания µ, то несмещенной, состоятельной и эффективной оценкой генеральной дисперсии является выборочная оценка 5. Если случайная величина X имеет биноминальное распределение, то несмещенной и состоятельной оценкой генеральной доли P является частость события (статистическая доля ).
2.4. Интервальные оценки параметров распределений При выборке небольшого объема точечная оценка ~ n может существенно отличаться от истинного значения параметра, т.е.
приводить к грубым ошибкам. Поэтому в случае малой выборки часто используют интервальные оценки.
( n, n ), определяемый по результатам выборки, относительно которого можно утверждать с определенной, близкой к единице вероятностью, что он заключает в себе значение оцениваемого параметра генеральной совокупности, т.е.
где n(1) и n( 2 ) называют также нижней и верхней границами доверительного интервала параметра.
Вероятность =1- принято называть доверительной вероятностью.
Выбор значения доверительной вероятности следует производить исходя из конкретной задачи.
Чтобы получить представление о точности и надежности оценки n параметра, можно для каждой близкой к единице вероятности указать такое значение, что Оценка ~ n будет тем точнее, чем меньше для заданной доверительной вероятности будет. Из соотношения (2.13) следует, что вероятность того, что доверительный интервал ( ~ n -; ~ n +) со случайными границами накроет неизвестный параметр, равна.
Величину, равную половине ширины h доверительного интервала называют точностью оценки. В общем случае границы интервала ~ n - и n + есть некоторые функции от результатов наблюдений X1, X2,..., Xn.
Вследствие случайного характера выборки при многократном ее повторении будут изменяться как положение, так и величина доверительного интервала Рассмотрим теперь правила построения доверительных интервалов для некоторых параметров распределений.
2.4.1. Интервальные оценки для генеральной средней математического ожидания зависит от того, известна или не известна дисперсия генеральной совокупности 2.
Пусть из генеральной совокупности X с нормальным законом распределения N(µ; ) и известным генеральным средним квадратическим отклонением взята случайная выборка X1, X2,..., Xn объемом n и вычислено X. Требуется найти интервальную оценку для µ.
Используем среднюю арифметическую X, которая имеет нормальное распределение с параметрами N (µ; n ).
Тогда статистика имеет нормированное нормальное распределение с параметрами N(0;1). Вероятность любого отклонения X µ может быть вычислена по интегральной теореме Лапласа для интервала, симметричного относительно µ, по формуле Задавая определенную доверительную вероятность по таблице интегральной функции вероятностей Ф(t), можно определить значение t.
Для оценки математического ожидания преобразуем формулу (2.14) и далее будем иметь доверительный интервал для математического ожидания µ.
Точность оценки равна Формула (2.17) в практических приложениях занимает особое место. По этой формуле можно, например, вычислить объем случайной выборки n, необходимый для оценки нормальной средней с заданной надежностью и точностью, а также при заданной точности и известном объеме выборки n можно определить надежность (вероятность).
Нижняя и верхняя границы доверительного интервала равны Ширина доверительного интервала равна Предположим теперь, что генеральная совокупность X распределена по нормальному закону N(µ;) с неизвестным средним квадратическим отклонением.
В этом случае для построения интервальной оценки генеральной распределение Стьюдента с числом степеней свободы = n-1.
Предполагается, что средняя арифметическая x и выборочное среднее квадратическое отклонение S определены по результатам выборки объемом n из генеральной совокупности X.
По таблице t - распределения (Стьюдента) для = n-1 степеней свободы находим значение t,, для которого справедливо равенство где точность оценки генеральной средней равна При достаточно больших n различия между доверительными интервалами, определенными по формулам (2.16) и (2.20), мало, так как при n распределение Стьюдента стремится к нормальному распределению.
Пример 2.1. По результатам n = 10 наблюдений установлено, что средний темп роста акций предприятий отрасли равен X = 104,4%. В предположении, что ошибки наблюдений распределены по нормальному закону со средним квадратическим отклонением = 1%, определить надежность = 0,95 интервальную оценку для генеральной средней µ.
Решение. Поскольку параметр нам известен, интервальную оценку будем искать согласно (2.16).
По таблице интегральной функции Лапласа Ф(t) из условия = 0,95 найдем t = 1,96.
Тогда точность оценки равна Отсюда доверительный интервал имеет вид и окончательно Пример 2.2. Средняя урожайность пшеницы на 17 опытных участках области составила X = 25 ц/га, а S = 2 ц/га. Найти с надежностью 0,9 границы доверительного интервала для оценки генеральной средней.
Решение. Так как нам неизвестно, то интервальную оценку генеральной средней µ будем искать согласно (2.20).
Из таблиц t-распределения для числа степеней свободы =n-1= = и = 1- = 1-0,9 = 0,1 найдем t =1,746.
Тогда точность оценки согласно (2.20) равна Отсюда доверительный интервал равен и окончательно 2.4.2. Интервальные оценки для генеральной дисперсии и Пусть из генеральной совокупности X, распределенной по нормальному закону N(µ;), взята случайная выборка объемом n и вычислена выборочная дисперсия S2. Требуется определить с надежностью интервальные оценки для генеральной дисперсии 2 и среднего квадратического отклонения.
Построение доверительного интервала для генеральной дисперсии основывается на том, что случайная величина 2 имеет распределение Пирсона ( ) с = n степенями свободы, а величина имеет распределение Пирсона с = n-1 степенями свободы.
Подробно рассмотрим построение доверительного интервала для второго случая, так как он наиболее часто встречается на практике.
Для выбранной доверительной вероятности = 1-, учитывая, что имеет распределение 2 с = n-1 степенями свободы, можно записать Далее по таблице 2 - распределения нужно выбрать такие два значения 1 и 2, чтобы площадь, заключенная под дифференциальной функцией распределения 2 между 1 и 2, была равна = 1-.
Обычно 1 и 2 выбирают так, чтобы т.е. площади, заштрихованные на рис. 2.1 были равны между собой.
Так как таблица 2 - распределения содержит лишь P( 2 >, ), то для вычисления P( 2 < 1 ) запишем следующее тождество:
Подставив (2.24) в (2.23), получим и окончательно Формула (2.25) используется при решении обратной задачи нахождении доверительной вероятности по заданному доверительному интервалу генеральной дисперсии.
Преобразуем двойное неравенство в (2.23):
окончательно получим Это и есть доверительный интервал для генеральной дисперсии, когда неизвестно значение генеральной средней и по выборке объемом n вычисляется выборочная дисперсия S2.
Ширина доверительного интервала для генеральной дисперсии равна квадратического отклонения при n 30 равен При достаточно больших объемах выборки (n > 30) доверительный интервал для генерального среднего квадратического отклонения определяется по формуле где t - нормированное значение нормальной случайной величины, соответствующее заданной надежности и определяемое по таблице функции Лапласа Ф(t).
Пример 2.3. По результатам контроля n = 9 деталей вычислено выборочное среднее квадратическое отклонение S = 5 мм. В предположении, что ошибка изготовления деталей распределена нормально, определить с надежностью = 0,95 доверительный интервал для параметра.
Решение. Так как n < 30, то используется 2 распределение.
Согласно (2.26) По таблице 2 - распределения для числа степеней свободы = n - 1 = 8 и найденных вероятностей 0,975 и 0,025 определяем, что 1 = 2,180 и 2 = 17,535.
Доверительный интервал (2.30) равен и окончательно 2.4.3. Интервальные оценки для генеральной доли Пусть в n независимых испытаниях некоторое событие A, вероятность появления которого в каждом испытании равна p, имело место m раз, где 0 m n, тогда границы доверительного интервала для генеральной доли определяются из уравнений Эти уравнения решаются приближенно. Для различных значений m, n и надежности могут быть найдены p1 и p2. Могут быть составлены специальные таблицы.
При достаточно больших n (n > 30) можно считать, что частость имеет приближенно нормальное распределение с параметрами N p;. В этом случае доверительный интервал для генеральной доли p определяется соотношением где t определяется по таблице интегральной функции Лапласа Ф(t):
1 - частость противоположного события A ;
Точность оценки генеральной доли p равна Пример 2. При испытании зерна на всхожесть из n = 400 зерен проросло m = 384. С надежностью = 0,98 определить доверительный интервал для генеральной доли p.
Решение. По таблице интегральной функции Лапласа из условия = Ф(t) = 0,98 определяем t = 3,06.
Доверительный интервал равен и окончательно В заключении приведем табл. 2.1, в которой укажем формулы, используемые при интервальном оценивании основных параметров распределений.
Основные формулы, используемые при интервальном оценивании Основные формулы, используемые при интервальном Пояснения к табл. 2.1.
1. Стрелка вправо () означает порядок решения "прямой" задачи, т.е. определения доверительного интервала по заданной доверительной вероятности.
2. Стрелка вправо () означает порядок решения "обратной" задачи, т.е. определения доверительной вероятности по заданному доверительному интервалу.
3. Ф(t), S(t) и 2 - соответствующие таблицы законов распределения: нормального, Стьюдента, Пирсона.
4. - точность оценки соответствующих параметров.
5. h = 2 - ширина доверительного интервала параметров µ или p.
1. Какая статистика является несмещенной оценкой математического ожидания:
2. Какая статистика является несмещенной оценкой генеральной дисперсии:
3. Какая оценка параметра является несмещенной:
1. Если дисперсия оценки является минимальной.
2. Если математическое ожидание оценки равно значению оцениваемого параметра 3. Если математическое ожидание оценки меньше значения оцениваемого параметра 4. Если расстояние между оценкой и параметром не превышает 4. Для расчета интервальной оценки математического ожидания µ по выборке объема n, при известной дисперсии, точность оценки определяется по формуле:
5. Для расчета нижней границы доверительного интервала математического ожидания µ, при неизвестной дисперсии, используют формулу:
6. Для расчета верхней границы доверительного интервала генеральной дисперсии 2, если объем выборки составляет n 30, используют формулу:
7. С вероятностью = 0,95 найти нижнюю границу доверительного интервала для математического ожидания µ случайной величины x, если 8. С вероятностью = 0,95 найти нижнюю границу доверительного интервала для генерального среднего квадратического отклонения случайной величины X, если n = 9, S = 9. Определить доверительную вероятность интервальной оценки математического ожидания µ случайной величины X, если точность оценки равна = 2,45 найдена по выборке, с характеристиками: n = 9, 10. Определить доверительную вероятность интервальной оценки генеральной дисперсии 2, случайной величины X, если верхняя граница интервала равна 37,21, а n = 9 и S =
3. ПРОВЕРКА СТАТИСТИЧЕСКИХ ГИПОТЕЗ
3.1. Проверка статистической гипотезы и статистического Статистическая проверка гипотез тесно связана с теорией оценивания параметров распределений. В экономике, технике, естествознании, медицине, демографии и т.д. часто для выяснения того или иного случайного явления прибегают к высказыванию гипотез (предположений), которые можно проверить статистически, т.е.опираясь на результаты наблюдений в случайной выборке.
Статистической гипотезой называют любое предположение о виде неизвестного закона распределения случайной величины или значении его параметров.
Статистическую гипотезу, однозначно определяющую закон распределения, называют простой, в противном случае ее называют сложной.
Например, статистической является гипотеза о том, что распределение производительности труда рабочих, выполняющих одинаковую работу в одинаковых организационно-технических условиях, имеет нормальный закон распределения, или статистической является также гипотеза о том, что средние размеры деталей, производимых на однотипных, параллельно работающих станках, не различаются между собой.
Основные принципы проверки статистических гипотез состоят в следующем. Пусть f(X,) - закон распределения случайной величины X, зависящей от одного параметра. Предположим, что необходимо проверить гипотезу о том, что = 0, где 0 - определенное число.
Назовем эту гипотезу нулевой (проверяемой) и обозначим ее через H0.
Нулевой гипотезой H0 называют выдвинутую гипотезу, которую необходимо проверить.
Конкурирующей (альтернативной) гипотезой H1 называют гипотезу, противоположную нулевой.
Таким образом, задача заключается в проверке гипотезы H относительно конкурирующей гипотезы H1 на основании выборки, состоящей из n независимых наблюдений X1, X2,..., Xn над случайной величиной X. Следовательно, все возможное множество выборок объемом n можно разделить на два непересекающихся подмножества (обозначим их через Q и W) таких, что проверяемая гипотеза H0 должна быть отвергнута, если наблюдаемая выборка попадает в подмножество W, и принята если наблюдаемая выборка принадлежит подмножеству Q.
Подмножество W называют критической областью, Q - областью допустимых значений.
Вывод о принадлежности данной выборки к соответствующему подмножеству делают по статистическому критерию.
Статистическим критерием называют однозначно определенное правило, устанавливающее условия, при которых проверяемую гипотезу H0 следует либо отвергнуть либо не отвергнуть.
Основой критерия является специально составленная выборочная характеристика (статистика) Q* = f(X1, X2,..., Xn), точное или приближенное распределение которой известно.
Основные правила проверки гипотезы состоят в том, что если наблюдаемое значение статистики критерия попадает в критическую область, то гипотезу отвергают, если же оно попадает в область допустимых значений, то гипотезу не отвергают (или принимают).
Такой принцип проверки гипотезы не дает логического доказательства или опровержения гипотезы. При использовании этого принципа возможны четыре случая:
гипотеза H0 верна и ее принимают согласно критерию;
гипотеза H0 неверна и ее отвергают согласно критерию;
гипотеза H0 верна но ее отвергают согласно критерию;
т.е. допускается ошибка, которую принято называть ошибкой первого рода;
гипотеза H0 неверна и ее принимают согласно критерию, т.е. допускается ошибка второго рода.
Уровнем значимости = 1- называют вероятность совершить ошибку первого рода, т.е. вероятность отвергнуть нулевую гипотезу H0, когда она верна. С уменьшением возрастает вероятность ошибки второго рода.
Мощностью критерия (1 - ) называют вероятность того, что нулевая гипотеза H0 будет отвергнута, если верна конкурирующая гипотеза H1, т.е. вероятность не допустит ошибку второго рода.
Обозначим через P(Q*W/H) вероятность попадания статистики критерия Q* в критическую область W, если верна соответствующая гипотеза H.
Тогда требования к критической области аналитически можно записать следующим образом:
где H0 - нулевая гипотеза;
H1 - конкурирующая гипотеза.
Второе условие выражает требование максимума мощности критерия.
Из условий (3.1) следует, что критическую область нужно выбирать так, чтобы вероятность попадания в нее была бы минимальной (равной ), если верна нулевая гипотеза H0, и максимальной в противоположном случае.
В зависимости от содержания конкурирующей гипотезы H выбирают правостороннюю, левостороннюю или двустороннюю критические области.
Границы критической области при заданном уровне значимости находят из соотношений:
при правосторонней критической области при левосторонней критической области при двусторонней критической области где Qкр.лев. - левосторонняя, а Qкр.пр. - правосторонняя граница критической области.
Следует иметь ввиду, что статистические критерии не доказывают справедливости гипотезы, а лишь устанавливают на принятом уровне значимости ее согласие или несогласие с результатом наблюдений.
При проверки статистических гипотез наряду с известными уже нам законами распределения используется распределение ФишераСнедекора (F- распределение).
Во многих задачах математической статистики, особенно в дисперсионном анализе в проверке статистических гипотез, важную роль играет F - распределение. Это распределение отношения двух выборочных дисперсий впервые было исследовано английским статистиком P. Фишером. Однако оно нашло широкое применение в статистических исследованиях лишь после того, как американский статистик Дж. Снедекор составил таблицы для данного распределения. В этой связи F - распределение называют распределением ФишераСнедекора.
Пусть имеем две независимые случайные величины X и Y, подчиняющиеся нормальному закону распределения. Произведены две независимые выборки объемами n1 и n2, и вычислены выборочные 1 степенями свободы. Случайная величина имеет F - распределение с 1 и 2 степенями свободы. Причем U 1 U 2, так что F 1.
Закон распределения случайной величины F не зависит от неизвестных параметров (µ 1, 1 ) и (µ 2, 2 ) а зависит лишь от числа наблюдений в выборках n1 и n2. Составлены таблицы распределения случайной величины F, в которых различным значениям уровня значимости и различным сочетаниям величин 1 и 2 соответствуют такие значения F(,1, 2), для которых справедливо равенство P[F > F(,1, 2)] =.
3.3. Гипотезы о генеральных средних нормально распределенных 3.3.1. Проверка гипотезы о значении генеральной средней Пусть из генеральной совокупности X, значения признака которой имеют нормальный закон распределения с параметрами N(µ,) при неизвестном математическом ожидании µ и неизвестной дисперсии 2, взята случайная выборка объемом n и вычислена выборочная средняя арифметическая x, а µ0 и µ1 - определенные значения параметра µ. Для проверки нулевой гипотезы H0: µ = µ0 при конкурирующей гипотезе H1:
µ = µ1 используют статистику которая при выполнении нулевой гипотезы имеет нормированное нормальное распределение N(0;1).
Согласно требованию к критической области при µ1 > µ0 выбирают правостороннюю критическую область, при µ1 < µ0 - левостороннюю, а при µ1 µ0 - двустороннюю критическую область.
Границы критической области tкр определяют по интегральной функции Лапласа Ф(t) из условий:
в случае правосторонней и левосторонней критической областей в случае двусторонней критической области При проверке гипотезы о значении генеральной средней H0: µ = µ0 при неизвестной генеральной дисперсии 2 используют статистику которая при выполнении нулевой гипотезы H0 имеет распределение Стьюдента (t - распределение) с = n-1 степенями свободы.
Границы критической области tкр определяют по таблице t распределения для заданного уровня значимости (при двусторонней симметричной критической области) или 2 (при правосторонней и левосторонней критических областях) и числа степеней свободы = n - 1.
Правила проверки гипотезы сводятся к следующему:
1) при левосторонней критической области, если tH -tкр, нулевая гипотеза H0 не отвергается;
2) при правосторонней критической области, если tH < -tкр, нулевая гипотеза H0 не отвергается;
3) при двусторонней критической области, если tH -tкр, нулевая гипотеза H0 не отвергается;
В противном случае нулевая гипотеза H0 отвергается с вероятностью ошибки.
3.3.2. Проверка гипотезы о равенстве генеральных средних двух Пусть X и Y - нормальные генеральные совокупности с известными генеральными дисперсиями 1 и 2 и неизвестными математическими ожиданиями µx и µy. Из генеральных совокупностей взяты две независимые выборки объемами n1 и n2 и вычислены средние арифметические x и y. Для проверки гипотезы о равенстве генеральных средних H 0 :µ x = µ y используют статистику которая при выполнении нулевой гипотезы имеет нормированный нормальный закон распределения N(0;1).
конкурирующей гипотезы H1. Согласно требованию к критической области при H1: µx > µy выбирают правостороннюю, при H1: µx < µy H1: µx µy - двустороннюю критические левостороннюю, а при области.
Границы критических областей находят по интегральной функции Лапласа из условий (3.7) и (3.8).
При неизвестных генеральных дисперсиях либо требуется достаточно большой объем выборки для надежной и точной оценки, либо требуется, чтобы эти дисперсии были одинаковы, в противном случае известные критерии малоэффективны.
Если генеральные дисперсии равны 1 = 2, то для проверки гипотезы H0: µx = µy используют статистику имеющую распределение Стьюдента с = n1 + n2 - 2 степенями свободы.
Вид критической области зависит, как обычно, от конкурирующей гипотезы.
Границы критической области (tкр) находят по таблице распределения Стьюдента при двусторонней симметричной критической области для заданного уровня значимости, а при правосторонней и левосторонней критических областях при 2.
Правила проверки гипотезы H0: µx = µy такие же, как гипотезы H0: µ = µ0. Гипотеза H0 отвергается при t H > t к р.
3.4. Гипотезы о генеральных дисперсиях нормально 3.4.1. Проверка гипотезы о значении генеральной дисперсии Пусть из генеральной совокупности, значения признака которой распределены по нормальному закону с неизвестной дисперсией 2, взята случайная выборка из n независимых наблюдений и вычислена выборочная дисперсия S2.
Требуется проверить нулевую гипотезу H0: 2 = 2, где 2 определенное заданное значение генеральной дисперсии. Для проверки нулевой гипотезы используют статистику которая при выполнении гипотезы H0 имеет распределение 2 с = n степенями свободы.
Как было сказано ранее, в зависимости от конкурирующей гипотезы выбирают правостороннюю, левостороннюю или двустороннюю критическую область.
Границы критической области 2 р определяют по таблице распределения Пирсона 2.
Рассмотрим три случая:
1. Если H 1: 21 > 2 0, то выбирают правостороннюю критическую область и кр2 находят из условия где кр (, n-1) - табличное значение 2, найденное для уровня значимости и числа степеней свободы = n - 1.
Правила проверки гипотезы заключается в следующем:
1) если U 2 2 р, то нулевая гипотеза не отвергается;
2) если U H > к р, то нулевая гипотеза отвергается;
2. Если H 0 : 1 2, то строят двустороннюю симметричную критическую область и ее границы 2 р. ле в и 2 р.п р находят из условий Правила проверки гипотезы заключаются в следующем:
3. Если H 1: 1 < 0, то строят левостороннюю критическую область и к р находят из условия Правила проверки гипотезы заключаются в следующем:
1) если U 2 2 р., то гипотеза не отвергается;
2) если U H < к р., то гипотеза отвергается;
3.4.2. Проверка гипотезы о равенстве генеральных дисперсий Пусть X и Y - генеральные совокупности, значения признаков которых распределены по нормальному закону с дисперсиями 1 и 2.
Из этих совокупностей взяты две независимые выборки объемами n1 и n и вычислены исправленные выборочные дисперсии S 21 и S 2 2, причем S12 > S 2.
Требуется проверить нулевую гипотезу H 0 : 1 = 2 против конкурирующей гипотезы H 1: 1 > 2. Основу критерия для проверки нулевой гипотезы составляет статистика которая при выполнении нулевой гипотезы имеет распределение Фишера-Снедекора (F- распределение) со степенями свободы 1 = n1 - 1 и 2= n2 - 1, где 1 - число степеней свободы числителя, а 2 - число степеней свободы знаменателя (меньшей дисперсии).
Для проверки гипотезы выбирают правостороннюю критическую область. Границу критической области Fкр. определяют по таблице F распределения из условия Правила проверки гипотезы заключаются в следующем:
1) если FH Fкр., то гипотеза не отвергается;
3) если FH > Fкр., то гипотеза отвергается.
3.4.3. Проверка гипотезы об однородности ряда дисперсий При сравнении более двух генеральных дисперсий применяют два наиболее часто употребляемых критерия: критерий Бартлета и критерий Кохрана.
Критерий Бартлета применятся при проверке гипотезы H 0 : = =... = по выборкам разного объема n 1 n 2... n l.
В качестве выборочной характеристики Барлет предложил использовать статистику i = ni - 1 - число степеней свободы i-ой выборки;
где xij - результат j-ого наблюдения в i-ой выборки;
x i - средняя арифметическая i-ой выборки;
= i - сумма чисел степеней свободы l выборок;
l выборкам;
При выполнении нулевой гипотезы и при i > 3 статистика U 2 H приближенно имеет распределение с числом степеней свободы Для проверки нулевой гипотезы строят правостороннюю критическую область, границы которой 2 р. определяют по таблице 2 к распределения из условия:
Критерий Бартлета весьма чувствителен к отклонениям законов распределения случайных величин Xi от нормального закона распределения.
Критерий Кохрана применяется при проверке гипотезы соответственно из нормальных генеральных совокупностей.
Для проверки нулевой гипотезы Кохран предложил критерий, основанный на статистике которая при выполнении нулевой гипотезы имеет G - распределение с числом степеней свободы = n - 1 и числа сравниваемых совокупностей l, где S max - наибольшая из исправленных выборочных дисперсий.
Для проверки нулевой гипотезы также строят правостороннюю критическую область, границу которой Gкр определяют по таблице G распределения из условия Правила проверки гипотезы заключаются в следующем:
1) если G H G к р. - то нулевая гипотеза не отвергается;
2) если G H > G к р. - то нулевая гипотеза отвергается;
Пусть X 1, X 2,..., X l - l генеральных совокупностей, каждая из которых характеризуется неизвестным параметром Pi, где Pi вероятность появления события А в соответствующей выборке.
Требуется по результатам выборочных наблюдений проверить нулевую гипотезу о равенстве вероятностей появления события А в генеральных совокупностях, т.е. H 0 : p1 = p 2 =... = p l.
Для проверки гипотезы используется статистика mi - частота появления события А в i-ой выборке;
ni - объем i-ой выборки;
l - число выборок;
~ = mi - частость появления события А во всех выборках;
~ = 1 ~ - частота появления события A во всех выборках;
Статистика U 2 при выполнении нулевой гипотезы имеет асимптотическое - распределение с = l - 1 степенями свободы.
Для проверки нулевой гипотезы строят правостороннюю критическую область, границу которой определяют из условия Правила проверки гипотезы заключаются в следующем:
1) если U 2 2 р., то гипотеза не отвергается;
2) если U H > к р., то нулевая гипотеза отвергается.
При решении задач проверки статистических гипотез необходимо в первую очередь уяснить содержание проверяемой H0 и конкурирующей H1 гипотез, так как от этого зависит выбор алгоритма (формулы) для вычисления наблюдаемого значения критерия. От содержания конкурирующей гипотезы зависит также выбор вида критической области.
В таблице 3.1 приведены основные формулы, используемые при проверке гипотез о значении параметров распределений.
Пример 3.1. Точность работы автоматической линии проверяют по дисперсии контролируемого признака, которая не должна превышать 0, мм2. По результатам выборочного контроля получены следующие данные:
Требуется проверить на уровне значимости 0,01, обеспечивает ли линия требуемую точность.
Решение. Задача состоит в проверке гипотезы о значении генеральной дисперсии H 0 : 2 01. Автоматическая линия не обеспечивает требуемой точности, если H 1 : 1 > 2, следовательно в данном случае строится правостороння критическая область.
следовательно, по данным вариационного ряда сначала необходимо вычислить выборочную дисперсию, для чего определяем среднюю арифметическую и средний квадрат по условным вариантам, принимая x 0 = 43,0.
Вычисляем наблюдаемое значение критерия По таблице 2 - распределения при заданном уровне значимости = 0,01 и = n - 1 = 30 - 1 = 29 определяем кр. = 49,588.
Сравнивая U 2 и 2 р., получаем U 2 (= 66,0) > 2 р. (= 49,588), т.е.
нулевая гипотеза Ho отвергается; так как генеральная дисперсия не равна 0,1, автоматическая линия не обеспечивает заданную точность и требуется ее регулировка.
Пример 3.2. Во время экзамена студентам были предложены задачи из семи разделов изучаемого курса. Результаты экзамена представлены в таблице.
Требуется на уровне значимости 0,1 проверить гипотезу о том, что вероятность решения задачи не зависит от того, к какому разделу он относится.
Решение. Задача заключается в проверке гипотезы об однородности ряда вероятностей: H 0 : p 1 = p 2 =... = p 7.
предложенных задач Доля решенных 0,855 0,509 0,522 0,484 0,860 0,412 0,42 задач задач mi Наблюдаемое значение критерия вычисляется по формуле (3.22).
Сначала необходимо определить среднюю частность решенных задач по всем семи разделам курса:
Вычисляем необходимое значение критерия + (0,522 0,538) 270 + (0,484 0,538) 160 + (0,860 0,538) 350 + (0,420 0,538)2 150 = 4,023 (16,58 + 0,06 + 0,07 + 0,47 + 8,29 + 5,57 + 2,09) = = 4,023 33,13 = 133,28.
По таблице 2 - распределения при заданном уровне значимости = 0,1 и = n - 1 = 6 определяем 2кр. = 10,645.
Так как U 2 = 133,28 > 2 р. = 10,645, нулевая гипотеза отвергается, т.е.
ряд вероятностей неоднороден, разделы данного курса студентами усвоены с разной вероятностью.
Мощность критерия (1 - ) может быть вычислена только при проверке простых статистических гипотез: гипотезы о значении генеральной средней H0 : µ = µ0 и гипотезы о значении генеральной дисперсии H 0 : 2 = 2 и только при односторонней критической области.
3.6.1. Мощность критерия при проверке гипотезы о значении Если известна генеральная дисперсия 2, то при проверке гипотезы H0 : µ = µ0 используется нормальное распределение. Для вычисления мощности критерия при односторонней конкурирующей гипотезе применяется формула т.е. tкр. определяется по таблице функции Лапласа Ф(t) по вероятности ( - 2).
Если генеральная дисперсия неизвестна, то мощность критерия определяется по формулам:
т.е. tкр. определяется по таблице распределения Стьюдента по вероятности 2 и = n - 1.
Мощность критерия при проверке гипотезы о значении генеральной дисперсии При проверки гипотезы H 0 : 2 = 2 мощность критерия вычисляется с использованием распределения Пирсона 2.