Министерство образования и науки Российской Федерации
НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ
УНИВЕРСИТЕТ
Компьютерные технологии анализа
данных и исследования статистических
закономерностей:
исследование мощности критериев
проверки статистических гипотез
Методические указания
к выполнению курсовых проектов для студентов VI-го курса ФПМИ по направлению 010400.68 дневного отделения Новосибирск, 2012 Методические указания предназначены для студентов, выполняющих курсовые проекты по курсу "Компьютерные технологии анализа данных и исследования статистических закономерностей" в третьем семестре (направление 010400.68 – Прикладная математика и информатика, магистерская программа – Математическое и программное обеспечение информационных технологий моделирования и анализа данных). Указания содержат необходимые сведения для выполнения курсового проекта, порядок выполнения, структуру оформления пояснительной записки и примерное содержание её разделов, варианты заданий.
Составители: доктор техн. наук, проф. Б.Ю. Лемешко, канд. техн. наук, доц. С.Н. Постовалов, канд. техн. наук, доц. Е.В. Чимитова Работа подготовлена на кафедре прикладной математики Тема «Исследование мощности критериев проверки статистических гипотез».
1. Цель выполнения работы Знакомство с современными тенденциями развития аппарата прикладной математической статистики и состоянием программного обеспечения задач статистического анализа. Освоение методов статистического моделирования как средства исследования и развития аппарата прикладной математической статистики. Исследование особенностей методов оценивания и критериев проверки статистических гипотез. Исследование статистических свойств оценок. Исследование мощности критериев относительно различных конкурирующих гипотез.
Сравнительный анализ мощности групп критериев, ориентированных на проверку аналогичных гипотез. Закрепление навыков проведения самостоятельных исследований.
2. Методические указания Курсовой проект (КП) носит исследовательский характер. Варианты заданий могут быть связаны с известными методами или критериями, изложение которых в литературных источниках не позволяет однозначно охарактеризовать их свойства по сравнению с аналогами, либо остается неясной картина корректности статистических выводов в случае нарушения стандартных предположений. Задание может быть связано с исследованием свойств оценок или критериев в нестандартных условиях, связанных с конкретной областью приложения, либо в заданных нестандартных условиях.
Предпочтение отдается вариантам заданий, ориентированным на развитие аппарата прикладной математической статистики и создание программного обеспечения задач статистического анализа.
В процессе выполнения КП необходимо ознакомиться с историческими аспектами, состоянием и тенденциями развития в соответствующем разделе прикладной математической статистики, предпосылками, определившими интерес и потребности к исследованиям в данном направлении.
Охарактеризовать место и роль исследуемого метода или критерия в развитии прикладных методов статистического анализа, актуальность проводимых исследований. Обязательно наличие библиографического обзора работ, связанных со становлением и развитием соответствующего метода.
В процессе выполнения КП должны быть описаны предпосылки (условия), выполнение которых обеспечивает корректность статистических выводов при использовании данного метода или критерия.
Расчетная часть КП должна предусматривать вычислительные эксперименты, направленные, например, на проверку выполнения асимптотических свойств оценок, на проверку соответствия распределений статистик критериев предельным (или асимптотическим) в зависимости от объемов выборок и при выполнении предпосылок применения соответствующего критерия. Вычислительные эксперименты могут быть, направлены на уточнение области использования метода или критерия при исследовании последних в условиях нарушения стандартных предположений, обуславливающих корректность статистических выводов.
Выполнение экспериментальной части КП может предусматривать:
– самостоятельную разработку некоторого программного обеспечения;
– развитие существующего программного обеспечения;
– использование различных математических пакетов и программных систем, например, для исследования реальных свойств классических методов и критериев статистического анализа в условиях нарушения стандартных предположений.
При анализе результатов численных экспериментов целесообразно использование доступных математических пакетов, программных систем статистического анализа и средств графической визуализации.
Тематика КП может быть связана с анализом и развитием статистических методов, статистических критериев, характером использования методов и критериев в статистических пакетах, с корректностью применения статистических методов в приложениях и в программном обеспечении.
3. Структура пояснительной записки к КП Рекомендуемый объем записки не должен превышать 30-35 страниц текста.
Примерная структура пояснительной записки имеет следующий вид.
1. Введение Во введении указывается цель работы, кратко характеризуется место и значение соответствующего метода в аппарате прикладной математической статистики.
2. Постановка задачи Постановка задачи включает алгоритм или последовательность действий, связанную с применением соответствующего метода или критерия, основные соотношения, а также формулировку предпосылок, обуславливающих область корректного использования метода.
3. Аналитический обзор Аналитический обзор характеризует состояние соответствующей области на момент появления (создания) метода (критерия). Он включает указания на ключевые работы, связанных с возникновением, развитием и актуальным применением соответствующих методов в приложениях.
4. Результаты исследований Приводятся результаты исследований (численных экспериментов) автора КП. Из теста записки должно быть однозначно понятно, с какой целью проводились эксперименты, что для этого было сделано, какие средства использовались, какова точность экспериментов, что было выявлено в результате исследований (что подтвердилось, что не подтвердилось, почему).
5. Выводы На основании п.4. приводится краткая формулировка ключевых результатов численных экспериментов. Формулируются общие выводы, в которых приводится краткая характеристика исследуемого метода (критерия), области его применения, даются рекомендации по использованию.
6. Список использованных источников Приводится список источников, отмеченных в библиографическом обзоре ключевых работ по теме КП, включая Интернет-издания, а также работ, использованных в связи с проведенными экспериментами.
4. Порядок выполнения 1. Сформулировать постановку задачи, связанной с применением исследуемого метода, алгоритма или критерия. Четко сформулировать предпосылки, выполнение которых обуславливает корректность применения соответствующего метода или критерия.
2. Выполнить библиографический обзор ключевых работ, связанных с возникновением, развитием и актуальным применением соответствующих методов в приложениях. Основной упор сделать на использование ресурсов научной электронной библиотеки (http://elibrary.ru/defaultx.asp), информационно-поисковых систем (http://scholar.google.ru/), свободной энциклопедии (http://www.wikipedia.org/), сайтов научных журналов. Провести исторический анализ, характеризующий состояние соответствующей области на момент появления (создания) метода (критерия).
3. Наметить план вычислительных экспериментов по исследованию мощности критериев согласия: сформулировать несколько альтернативных гипотез (не менее двух), объемы выборок, доли цензурирования и т.п.
4. Выбрать доступные и наиболее оптимальные средства для проведения вычислительных экспериментов при необходимости, разработав требуемое программное обеспечение.
5. Провести намеченные вычислительные (имитационные) эксперименты. Оценить точность моделирования. Удостовериться в корректности результатов исследований. Проанализировать результаты экспериментов, сравнить с имеющимися теоретическими результатами.
6. Сформулировать выводы по работе. Оформить пояснительную записку по работе.
Варианты заданий 10 17,18,19 11 18,19,20 12 19,20,21 13 20,21,22 14 21,22,23 15 22,23,24 16 23,24,25 17 24,25,26 18 27,28,29 19 28,29,30 20 29,30,31 21 32,33,34 22 35,36,37 23 36,37,38 24 37,38,39 25 38,39,40 26 39,40,41 27 35,37,39 28 36,38,40 29 42,43,44 30 43,44,45 Критерии согласия 2 Пирсона (простая гипотеза) 2 Рао-РобсонаЭкспоненциальное 3, 5, 7, Никулина (сложная гипотеза) Модифицированный [3], с. 225 Нормальное, Модифицированный [3], с. 225 Логистическое, Смирнова Модифицированный [3], с. 226 Нормальное, Ченга-Спиринга). [3], с.322 Равномерный Саркади-Косика). [3], с.323 Равномерный Гринвуда-Кэсенберри- [3], с.320 Равномерный Холландера- Прошана [5] с. 1814 Экспоненциальное Критерии однородности распределений 34 Катценбайссера-Хакля Логистическое, рассмотреть разные комбинации Критерии однородности дисперсий (характеристик рассеяния) Критерии выявления тренда 42 Сериальный критерий [3], с. Шведа-Эйзенхарта 43 Критерий автокорреляции [3], с. Кенуя 44 Критерий Блума-Кифера- [3], с. Розенблатта 45 Критерий Гёфдинга [3], с. Литература 1. Статистический анализ данных, моделирование и исследование вероятностных закономерностей. Компьютерный подход :
[монография] / Б. Ю. Лемешко [и др.]. - Новосибирск, 2011. - 887 с. :
2. Лемешко Б.Ю., Чимитова Е.В., Плешкова Т.А. Проверка простых и сложных гипотез о согласии по цензурированным выборкам // Научный вестник НГТУ. - 2010. - № 4(41). – С.13-28.
http://ami.nstu.ru/~headrd/seminar/publik_html/N_vestnik_2010.pdf 3. Кобзарь А.И. Прикладная математическая статистика для инженеров и научных работников. – М.: Физматлит, 2006. – 816 с.
4. Большев Л.Н. К вопросу о проверке «показательности». Вероятность и ее применения С. 542-544. (есть в электронном виде) 5. Ascher S. A survey of tests for exponentiality. Communications in Statistics - Theory and Methods, 1811-1825 (есть в электронном виде) 6. Henze N. and Meintanis S.G. Recent and classical tests for exponentiality: a partial review with comparisons. Metrika (2005) 61: 29–45 (есть в электронном виде)