WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 |

«ПРИМЕНЕНИЕ КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ ДЛЯ РАСШИРЕНИЯ ПРИКЛАДНЫХ ВОЗМОЖНОСТЕЙ КЛАССИЧЕСКИХ МЕТОДОВ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ ...»

-- [ Страница 1 ] --

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ

УЧРЕЖДЕНИЕ

ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ

«НОВОСИБИРСКИЙ ГОСУДАРСТВЕННЫЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ»

На правах рукописи

Постовалов Сергей Николаевич

ПРИМЕНЕНИЕ КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ ДЛЯ

РАСШИРЕНИЯ ПРИКЛАДНЫХ ВОЗМОЖНОСТЕЙ КЛАССИЧЕСКИХ

МЕТОДОВ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

05.13.17 – «Теоретические основы информатики»

Диссертация на соискание ученой степени доктора технических наук

Научный консультант: д.т.н., профессор Лемешко Борис Юрьевич Новосибирск, Оглавление ВВЕДЕНИЕ

ГЛАВА 1. МЕТОДИКА КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ В ПРИМЕНЕНИИ К

ЗАДАЧАМ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Метод Монте-Карло

1. Статистические гипотезы и критерии их проверки

1. Вычисление достигаемого уровня значимости

1. Аппроксимация функции распределения статистики критерия

1. Вычисление критических значений

1. Вычисление мощности критерия

1. Определение количества повторений

1. 1.7.1 Определение количества повторений при оценивании вероятности наступления некоторого события

Погрешность моделирования функции распределения

1.7. Погрешность моделирования процентных точек

1.7. Погрешность моделирования мощности статистического критерия

1.7. 1.7.5 Погрешность моделирования мощности статистического критерия при известном виде закона распределения статистики критерия

Исследование скорости сходимости распределения статистики критерия к 1. предельному закону

Определение скорости сходимости

1.8. 1.8.2 Алгоритм моделирования закона распределения статистики критерия при конечном объеме выборки

Аппроксимация расстояния до предельного закона степенной функцией........... 1.8. Моделирование псевдослучайных величин

1. Генераторы псевдослучайных величин

1.9. Моделирование псевдослучайных величин по непрерывному закону.................. 1.9. Выводы

1.

ГЛАВА 2. ОПТИМАЛЬНОЕ ПЛАНИРОВАНИЕ СТАТИСТИЧЕСКОГО ЭКСПЕРИМЕНТА

ДЛЯ РАЗЛИЧЕНИЯ ДВУХ ПРОСТЫХ ГИПОТЕЗ

Простая гипотеза о виде распределения

2. Дивергенция Кульбака-Лейблера

2. Критерий отношения правдоподобия

Последовательный критерий отношения правдоподобия

Необходимый объем выборки для критерия отношения правдоподобия................. Относительная эффективность критерия

Оптимальное группирование для различения двух простых гипотез

Связь между оптимальным группированием и мощностью критерия Оптимальное планирование эксперимента по различению двух гипотез................. Необходимый объем выборки и ошибки измерения

Выводы

ГЛАВА 3. СОКРАЩЕНИЕ СРЕДНЕГО ОБЪЕМА ВЫБОРКИ В ПОСЛЕДОВАТЕЛЬНЫХ

КРИТЕРИЯХ

Критерий Вальда

Критерий Айвазяна

Критерий Лордена

Оценивание точных критических границ методом Монте-Карло

Средний объем выборки до принятия решения по последовательным критериям при использовании оценок точных и приближенных критических границ

Применение последовательных критериев к цензурированным наблюдениям........ Вычисление критических границ для последовательного t-критерия

Вычисление критических границ при проверке сложных гипотез

Выводы

ГЛАВА 4. ИССЛЕДОВАНИЕ МОЩНОСТИ КРИТЕРИЕВ СОГЛАСИЯ ПРИ ПРОВЕРКЕ

СЛОЖНЫХ ГИПОТЕЗ

Исследуемые критерии

Критерий Колмогорова

2

Методы оценивания

Метод максимального правдоподобия

Методы минимального расстояния

Оценивание параметров по порядковым статистикам

Сравнение мощности критериев согласия для пары гипотез «Нормальное распределение против логистического»

Мощность критериев для пары гипотез «распределение Вейбулла-Гнеденко против гамма-распределения»

Выводы

ГЛАВА 5. СРАВНЕНИТЕЛЬНЫЙ АНАЛИЗ МОЩНОСТИ КРИТЕРИЕВ ОДНОРОДНОСТИ

ЗАКОНОВ РАСПРЕДЕЛЕНИЯ

Гипотеза однородности

Критерий Смирнова

2

Критерий Лемана–Розенблатта

Критерий однородности Андерсона-Дарлинга-Петита

Сравнение мощности критериев

Мощность критерия Андерсона-Дарлинга-Петита

Мощность критерия однородности Смирнова

Мощность критерия Лемана-Розенблатта

Сравнение мощности критериев однородности по данным типа времени жизни.. Выводы

ГЛАВА 6. ИНВАРИАНТНЫЕ КРИТЕРИИ ПРОВЕРКИ ГИПОТЕЗЫ О МНОГОМЕРНОЙ

НОРМАЛЬНОСТИ

Гипотеза о многомерной нормальности

Моделирование многомерной случайной величины

Инвариантные критерии проверки многомерной нормальности

Критерии, основанные на вычислении коэффициента асимметрии

Критерии, основанные на вычислении коэффициента эксцесса



6.3.3 Критерии многомерной нормальности, основанные на полярной декомпозиции вектора наблюдения случайной величины

Сходимость распределений статистик критериев многомерной нормальности к предельному закону

Исследование мощности критериев проверки многомерной нормальности.......... Конкурирующие гипотезы

6.5.2 Зависимость мощности критериев многомерной нормальности от размерности выборки

Анализ мощности инвариантных критериев многомерной нормальности......... Выводы

ГЛАВА ОПТИМАЛЬНОЕ ПЛАНИРОВАНИЕ ПРОВЕРКИ ГИПОТЕЗЫ

ОДНОРОДНОСТИ ПРИ ПРОВЕДЕНИИ ДВУХЭТАПНОГО ПОЛНОГЕНОМНОГО

АНАЛИЗА АССОЦИАЦИЙ

Полногеномный анализ ассоциаций

Одноэтапный эксперимент по выявлению ассоциации

Основная и конкурирующие гипотезы

Критерии ассоциаций

Критерий Хи-квадрат

Критерий отношения правдоподобия с ограничением (CLRT)

Критерий тренда Кокрена-Армитеджа

MERT критерий

Критерий максимума (MAX3)

Критерий минимума (MIN2)

Критерий выбора генетической модели (GMS)

Критерий Кульбака-Лейблера

Сравнительный анализ мощности критериев ассоциаций

Зависимость необходимого объема выборки от дивергенции Кульбака-Лейблера Относительная эффективность критериев ассоциаций

Оптимальное планирование двухэтапного эксперимента

7.8.1 Моделирование вероятностей ошибок первого и второго рода

7.8.2 Оптимальное планирование двухэтапного эксперимента

7.8.3 Оптимальное дискретное планирование двухэтапного эксперимента

Выводы

ГЛАВА 8. ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ СТАТИСТИЧЕСКОГО АНАЛИЗА............. Программная система статистического анализа интервальных наблюдений одномерных непрерывных случайных величин "Интервальная статистика" (ISW).......... Программное обеспечение статистического моделирования в задачах проведения и обработки измерений «НКЦ ИТР: Статистика 1.0»

Программная платформа 1С:Предприятие 8.2

Объектная модель программной системы

Идентификация закона распределения

Проверка статистических гипотез

Выявление зависимостей и значимых факторов

Поддержка ГОСТов по статистике

Выводы

ЗАКЛЮЧЕНИЕ

СПИСОК ЛИТЕРАТУРЫ

ПРИЛОЖЕНИЕ 1. АКТ О ВНЕДРЕНИИ В УЧЕБНЫЙ ПРОЦЕСС

ПРИЛОЖЕНИЕ 2. СВИДЕТЕЛЬСТВА О РЕГИСТРАЦИИ ПРОГРАММЫ ДЛЯ ЭВМ

«ИНТЕРВАЛЬНАЯ СТАТИСТИКА» ISW

ПРИЛОЖЕНИЕ 3. СВИДЕТЕЛЬСТВА О РЕГИСТРАЦИИ ПРОГРАММЫ ДЛЯ ЭВМ «НКЦ

ИТР: СТАТИСТИКА 1.0»

ПРИЛОЖЕНИЕ 4. ГОСТ Р 50.1.033-2001 (ФРАГМЕНТ)

ПРИЛОЖЕНИЕ 5. ГОСТ Р 50.1.037-2002 (ФРАГМЕНТ)

ВВЕДЕНИЕ

Актуальность темы исследования. Использование методов статистического анализа на практике всегда связано с применением вычислительных и, как правило, сложных алгоритмов. Однако численные методы, к сожалению, редко используются для получения новых фундаментальных знаний в самой математической статистике.

Методика компьютерного моделирования, основанная на методе МонтеКарло, позволяет более эффективно решать классические задачи статистического анализа. Данная методика дополняет аналитические методы, обеспечивая нахождение приближенного решения в тех случаях, когда этого не удается сделать аналитическими методами. Численное моделирование на компьютере дает наиболее реальный, надежный и относительно простой аппарат для исследования законов распределений различных статистик, для исследования их изменчивости в зависимости от различных факторов. На основании результатов моделирования можно прослеживать изменения закономерностей с ростом объемов выборок и изменением размерности данных. Методика позволяет на основе результатов имитационного моделирования строить модели распределений любой исследуемой статистики в конкретной ситуации.

Появление метода Монте-Карло совпало по времени с появлением первых электронных вычислительных машин (ЭВМ). Именно рост мощности современных ЭВМ сделал возможным применение компьютерного моделирования не только для исследования фундаментальных закономерностей, но и для исследования в интерактивном режиме (в ходе проводимого статистического анализа) закономерностей, имеющих место в реальных (нестандартных) условиях приложений, с последующим использованием полученных результатов (вместо асимптотических, часто существенно отличающихся от имеющих место) в процессе принятия решения.

Степень разработанности. Метод Монте-Карло предложен в 1945 году в процессе работы группы американских физиков и математиков (Дж. фон Нейман, С. Улам, Н. Метрополис, Г.Кан, Э. Ферми и др.) над созданием атомного реактора. Значительный вклад в развитие метода Монте-Карло внесли С. М.

Ермаков, Г. А. Михайлов, И. М. Соболь, G. S. Fishman, C. P. Robert, G. Casella.

Обширные исследования статистических критериев с помощью компьютерного моделирования проводились Б.Ю. Лемешко, С.Б. Лемешко, Е.В. Чимитовой, С.С. Помадиным, В.М. Волковой, А.П. Рогожниковым.

Объект исследования. Объектом исследования диссертационной работы являются критерии проверки статистических гипотез. Проверка статистических гипотез является одной из важнейших задач как математической, так и прикладной статистики. При проверке статистических гипотез на практике любой исследователь сталкивается со следующими вопросами.

Во-первых, как выбрать статистический критерий, и какой критерий наиболее предпочтителен? Во-вторых, насколько точными (корректными) являются статистические выводы при проверке гипотезы по применяемому критерию? В-третьих, как уменьшить затраты на проведение экспериментов, необходимых для проверки статистической гипотезы?

Традиционно при ответе на эти вопросы и при решении соответствующих проблем использовались аналитические методы. В то же время для разрешения множества проблем с успехом можно применять компьютерное моделирование.

Цели и задачи. Основной целью диссертации является развитие аппарата прикладной математической статистики, предназначенного для решения задач проверки статистических гипотез, за счет интенсивного использования методов компьютерного моделирования для исследования вероятностных и статистических закономерностей.

Для достижения этой цели решаются следующие задачи.

1. Построение более точных аппроксимаций законов распределений статистик критериев при конечных объемах выборок.

2. Сравнительный анализ мощности критериев и решение задачи выбора наиболее предпочтительного критерия при разных конкурирующих гипотезах.

3. Построение точных критических границ в последовательных критериях проверки статистических гипотез.

4. Оптимальное планирование эксперимента для различения двух статистических гипотез с заданными вероятностями ошибок I и II рода.

При этом в диссертации рассматриваются, главным образом, гипотезы о виде распределения (простые и сложные гипотезы, с оцениванием параметров законов распределений) и гипотезы однородности распределений.

Научная новизна диссертационной работы заключается:

• в выявлении зависимости мощности непараметрических критериев согласия при проверке сложных гипотез от метода оценивания параметров; в сравнительном анализе мощности критериев Колмогорова, Крамера-Мизеса-Смирнова, Андерсона-Дарлинга;

• в построении точных критических границ последовательных критериев Вальда, Айвазяна и Лордена;

• в результатах сравнительного анализа мощности критерия однородности Андерсона-Дарлинга-Петита с другими критериями однородности относительно ряда близких альтернатив;

• в результатах сравнительного анализа мощности инвариантных критериев многомерной нормальности для ряда близких альтернатив;

• в выявлении зависимости оптимального объема выборки и стоимости проведения эксперимента от симметричной дивергенции Кульбака-Лейблера между распределениями в выборке случаев и в контрольной выборке при проведении полногеномного анализа ассоциаций по критерию • в оценке относительной эффективности критерия MAX3 по сравнению с критерием тренда Кокрена-Армитеджа при оптимальном наборе коэффициентов.

Теоретическая и практическая значимость работы. В диссертационной работе численные методы и статистическое моделирование направлены на изучение закономерностей самой математической статистики, на уточнение условий, в которых корректно применение конкретных теоретических результатов математической статистики, на исследование постановок, появившихся в последнее время в связи с потребностями практики. Теоретическая значимость работы заключается в том, что полученные результаты развивают аппарат прикладной математической статистики.

Практическая значимость заключается в расширении сферы корректного применения ряда статистических критериев в приложениях, в повышении точности статистических выводов при проверке статистических гипотез, в случае применения последовательных критериев (за счет использования более точных критических границ) в сокращении средних объемов выборок, требуемых для принятия решения (следовательно, в сокращении стоимости проведения экспериментов).

Результаты исследований и средства моделирования включены в программные системы «Интервальная статистика» ISW и конфигурации «НКЦ ИТР:Статистика 1.0», разработанной для платформы «1С:Предприятие 8.2».

На основе результатов исследований свойств критериев согласия при проверке простых и сложных гипотез разработаны рекомендации по стандартизации Госстандарта РФ по правилам применения критериев согласия Р 50.1.033-2001 [24] и Р 50.1.037-2002 [25]. Рекомендации введены в действие постановлениями Госстандарта с 01.07.2002.

Методология и методы исследования. Для решения поставленных задач использовался аппарат теории вероятностей, математической статистики, статистического моделирования, математического программирования, теории принятия решений в условиях неопределенности.

Положения, выносимые на защиту. На защиту выносятся:

1. Алгоритм определения точных критических границ для последовательных критериев Вальда, Айвазяна и Лордена;

2. Результаты исследования распределений статистик и сравнительного анализа мощности критериев согласия Колмогорова, Крамера-МизесаСмирнова и Андерсона-Дарлинга при проверке сложных гипотез о виде распределения и различных методах оценивания параметров.

3. Результаты исследования распределений статистики и мощности критерия однородности Андерсона-Дарлинга-Петита, сравнительного анализа мощности с другими критериями однородности.

4. Результаты исследования распределений статистик и сравнительного анализа мощности критериев многомерной нормальности.

5. Результаты исследования распределений статистик и сравнительного анализа мощности критериев ассоциаций.

6. Алгоритмы оптимального планирования экспериментов при проведении полногеномного анализа ассоциаций.

Соответствие диссертации паспорту научной специальности. Содержание диссертации соответствует п.5 «Разработка и исследование моделей и алгоритмов анализа данных, обнаружения закономерностей в данных и их извлечениях, разработка и исследование методов и алгоритмов анализа текстов, устной речи и изображений» паспорта специальности 05.13.17 – «Теоретические основы информатики» (в области технических наук).

Степень достоверности и апробация результатов.

исследований докладывались на Российской научно-технической конференции «Информатика и проблемы телекоммуникаций'' (Новосибирск, 1996, 2004, 2005, 2006, 2010, 2011); Международной научно-технической конференции «Информатика и проблемы телекоммуникаций» (Новосибирск, 1995, 1997, 1998, 1999, 2001, 2002); Российской научно-технической конференции "Обработка информационных сигналов и математическое моделирование" (Новосибирск, 2012, 2013);

непараметрическим и робастным методам в кибернетике (Красноярск, 1995, Железногорск, 1997); Международных конференциях «Актуальные проблемы электронного приборостроения'' (АПЭП) (Новосибирск, 1996, 1998, 2000, 2004, 2006, 2008, 2010, 2012); Международной научно-технической конференции «Микропроцессорные системы автоматики'' (Новосибирск, 1996); Сибирском Конгрессе по Прикладной и Индустриальной Математике (ИНПРИМ) (Новосибирск, 1996); Межреспубликанском совещании по интервальной «Информационные технологии в моделировании и управлении» (СанктПетербург, 1996); Международной научно-методической конференции «Новые информационные технологии в университетском образовании» (Новосибирск, Международной научной конференции «Всесибирские чтения по 1997);

математике и механике'' (Томск, 1997); Международном совещании по интервальной математике (Красноярск, 1997); Международной конференции “Korea-Russia International Symposium of Science and Technology” (KORUS) (Ulsan, 1997, 2003; Novosibirsk, 1999; Tomsk, 2004); Международной конференции “Computer Data Analysis and Modeling: Robustness and Computer Intensive Methods” (CDAM) (Минск, 2004); Международной конференции “Mathematical Methods in Reliability. Theory. Methods. Applications” (MMR) (Москва, 2009); Международной конференции «Accelerated Life Testing, Reliability-based Analysis and Design» (ALT) (Clermont-Ferrand, France, 2010);

Международной научно-практической конференции "Новые информационные технологии в образовании" (Москва, 2011, 2013); Международной конференции «Applied Stochastic Models and Data Analysis» (ASMDA) (Крит, Греция, 2007, Рим, 2011); Международной конференции “Applied Methods of Statistical Analysis. Simulations and Statistical Inference” (AMSA) (Новосибирск, 2011, 2013), Всероссийской конференции по вычислительной математике КВМ- вероятностное моделирование реальных процессов" в ЦЭМИ РАН (Москва, 2012).

Работа выполнена при поддержке федеральной целевой научно-технической программы «Исследования и разработки по приоритетным направлениям развития науки и техники» на 2002-2006 годы (проекты № РИ-19.0/002/091, 2006-РИ-19.0/001/119), федеральной целевой программы «Научные и научнопедагогические кадры инновационной России 2009-2013 гг» (проекты НКП, НК-15П/15, ГК № 02.740.11.5187, соглашение № 14.B37.21.0860), аналитической ведомственной целевой программы «Развитие научного потенциала высшей школы» (проект № 2.1.2/11855), грантов РФФИ (№ № 00-01-00913а, 06а, 09-01-00056а), Министерства образования и науки РФ в рамках госзадания (проект 8.1274.2011). Результаты главы 7 получены во время научной стажировки в институте медицинской биометрии и статистики (г. Любек, Германия) при поддержке DAAD (грант A/11/76161).

Основные результаты исследований по теме диссертации опубликованы в 106 печатных работах [5, 32, 37, 38, 43-47, 49-61, 63-72, 74-85, 87, 89, 92-93, 95общим объемом 113 п.л., в том числе 23 статьи в рецензируемых научных журналах (из них 19 статей в журналах, входящих в перечень изданий, рекомендуемых ВАК РФ), монография, рекомендации по стандартизации [24, 25], учебное пособие с главами научного содержания [89], 78 публикаций в сборниках научных работ, трудах и материалах научных конференций. Получены пять свидетельств о государственной регистрации программ для ЭВМ [145, 146, 147, 148, 149].

В опубликованных работах автору принадлежат результаты, изложенные в тексте диссертации.

Структура работы. Диссертация состоит из введения, 8 глав основного содержания, заключения, списка литературы и приложений. Основное содержание представлено на 285 страницах, включая 58 таблиц, 82 рисунков и списка литературы из 281 источника.

В первой главе рассмотрена методика компьютерного моделирования в применении к задачам проверки статистических гипотез. Сформулированы алгоритмы моделирования достигаемого уровня значимости и мощности статистического критерия. Рассмотрены вопросы определения необходимого числа повторений метода Монте-Карло для получения заданной погрешности.

Предложена методика определения скорости сходимости распределения статистики к предельному закону.

Во второй главе рассмотрены критерии различения двух простых гипотез как с фиксированным объемом выборки, так и для случая, когда объем определяется в процессе выполнения наблюдений. Рассмотрена симметричная дивергенция Кульбака-Лейблера и ее связь с процедурой оптимального планирования эксперимента по различению двух простых гипотез. Предложен численный алгоритм для определения оптимального объема выборки для критерия отношения правдоподобия.

В третьей главе рассмотрены последовательные критерии различения двух гипотез о виде распределения Вальда, Айвазяна и Лордена. Предложен алгоритм для оценивания точных критических границ с помощью компьютерного моделирования. Проведено численное сравнение среднего объема выборки для последовательных критериев с использованием приближенных границ и оценок точных границ, найденных методом компьютерного моделирования.

Колмогорова, Крамера-Мизеса-Смирнова и Андерсона-Дарлинга и их обобщение для проверки сложных гипотез. Показано, что распределения статистик и мощность критериев зависят от используемого метода оценивания.

распределений Смирнова, Лемана-Розенблатта и Андерсона-Дарлинга-Петита.

Проведено исследование скорости сходимости распределения статистики критерия Андерсона-Дарлинга-Петита к предельному закону. Выполнено сравнение мощности критериев однородности. Проведено сравнение мощности критериев однородности на данных типа времени жизни для альтернатив с пересечениями и без пересечений.

В шестой главе рассмотрены инвариантные критерии проверки гипотезы распределений статистик критериев многомерной нормальности к предельному закону. Найдены аппроксимации законов распределения статистик критериев радиуса. Проведено сравнение мощности инвариантных критериев многомерной нормальности.

В седьмой главе рассмотрены критерии проверки однородности выборки случаев и контрольной выборки при проведении полногеномного анализа ассоциаций. Проведено сравнение мощности критериев ассоциаций.

Рассмотрена задача оптимального планирования эксперимента для проверки гипотезы однородности. Показана связь между симметричной дивергенцией Кульбака-Лейблера и процедурой оптимального планирования эксперимента при проверке гипотезы однородности при полногеномном анализе ассоциаций.

В восьмой главе рассмотрено программное обеспечение статистического анализа данных, которое использовалось при получении представленных в диссертации результатов, а также программное обеспечение, в котором были реализованы полученные в диссертации результаты.

В приложении 1 приведен акт о внедрении результатов диссертационной работы в учебный процесс Новосибирского государственного технического университета. В приложениях 2 и 3 приведены копии свидетельств о регистрации программ для ЭВМ. В приложениях 4 и 5 приведены фрагменты рекомендаций по стандартизации Госстандарта РФ по правилам применения критериев согласия Р 50.1.033-2001 [24] и Р 50.1.037-2002 [25].

Автор выражает глубокую признательность научному консультанту д.т.н.

профессору Б.Ю. Лемешко за помощь и ценные советы при выполнении диссертационной работы.

ГЛАВА 1. МЕТОДИКА КОМПЬЮТЕРНОГО МОДЕЛИРОВАНИЯ В

ПРИМЕНЕНИИ К ЗАДАЧАМ ПРОВЕРКИ СТАТИСТИЧЕСКИХ

ГИПОТЕЗ

1.1 Метод Монте-Карло Компьютерное моделирование уже много лет успешно применяется при изучении сложных объектов во многих областях науки и техники. Одним из методов компьютерного моделирования является метод Монте-Карло (или метод статистических испытаний), который основан на получении большого числа реализаций стохастического (случайного) процесса.

Идея метода довольно проста, и ее история тесно связана с появлением теории вероятностей в XVII веке. Классическим примером этого метода является алгоритм вычисления числа, предложенный Бюффоном в 1777 году [19]. Однако по-настоящему доступным этот метод стал только после появления первых компьютеров, т.к. моделирование случайных чисел вручную (например, в алгоритме Бюффона – это подбрасывание иглы) является весьма трудоемким.

Современное название этого метода – «Метод Монте-Карло» появилось в группе ученых (Дж. фон Нейман, С. Улам, Н. Метрополис, Г.Кан, Э. Ферми и др.), работавших над созданием атомных реакторов в г. Лос-Алмос (США) в 1945 году [229]. Поскольку работа над проектом была засекречена, то впервые официальное название этого метода появилось в 1949 году, когда вышла статья Н. Метрополиса и С. Улама «Метод Монте-Карло» [228], в которой были сформулированы основные принципы этого метода.

раскладывания пасьянса (мы подразумеваем здесь только такие игры, где умение игрока не играет никакой роли) является трудноразрешимой задачей.

С другой стороны законы больших чисел и асимптотические теоремы теории вероятностей не слишком проливают свет даже на качественные вопросы, касающиеся такой вероятности. Очевидно, что практическая процедура может состоять в том, чтобы произвести большое число реализаций заданной игры и затем вычислить относительную долю успехов. Пасьянс в данном примере является только иллюстрацией целого класса комбинаторных задач, встречающихся как в чистой, так и в прикладной науке. Мы можем показать сразу, что оценка никогда не будет ограничена заданными пределами с полной определенностью, но только (если число испытаний большое) – с большой вероятностью. Чтобы установить это, мы должны обратиться к законам больших чисел и другим результатам теории вероятностей» [228].

С помощью метода Монте-Карло решается множество задач в математике, физике, химии, экономике, социологии и других науках [181, 153, 35, 36, 189, 6, 33,100]. В настоящей работе метод Монте-Карло применяется для решения теоретических задач математической статистики, в частности в применении к задачам проверки статистических гипотез.

В данной главе изложена методика применения метода Монте-Карло к задачам проверки статистических гипотез, основанная на многолетнем опыте компьютерного моделирования при исследованиях критериев проверки статистических гипотез [32, 67, 89, 93, 97].

1.2 Статистические гипотезы и критерии их проверки Статистической гипотезой называется любое утверждение о виде или свойствах распределения наблюдаемых в эксперименте случайных величин.

Обычно статистические гипотезы делят на следующие виды: однородности, если имеется две или более выборок случайных величин; независимости, если имеется выборка многомерной случайной величины; случайности, если есть предположения о независимости и одинаковом распределении наблюдений в выборке; виде распределения, если есть предположения о законе распределения случайной величины (рисунок 1.1).

Проверка статистической гипотезы состоит в том, чтобы сформулировать такое правило, которое позволило бы по результатам проведенных наблюдений принять или отклонить гипотезу. Правило, согласно которому гипотеза принимается или отвергается, называется критерием проверки статистической гипотезы.

С проверкой статистических гипотез связывают ошибки двух типов.

Ошибкой первого рода называют событие, когда верная проверяемая гипотеза отвергается критерием. Ошибкой второго рода называют событие, когда неверная проверяемая гипотеза принимается критерием. Вероятности ошибок первого и второго рода обозначают и, соответственно. Вероятность ошибки второго рода зависит от выдвигаемой конкурирующей гипотезы.

Вероятность отклонения ложной проверяемой гипотезы, т.е. принятия правильного решения в пользу конкурирующей, называется мощностью, и она равна 1. Вероятность ошибки первого рода также называют уровнем значимости критерия.

Есть небольшая терминологическая тонкость в использовании выражения «гипотеза принимается критерием». Часто, вместо этого говорят «гипотеза не отвергается критерием», понимая, что по выборке большего объема гипотеза может быть отвергнута этим же критерием, или же говорят «нет оснований для отвержения гипотезы по данной выборке». В дальнейшем, для упрощения текста будет использоваться самый краткий вариант.

Гипотезу, которую мы проверяем, будем называть основной или нулевой гипотезой, и будем всегда обозначать H 0. Альтернативные или конкурирующие гипотезы будем обозначать H1, H 2, …, H m.

Однород- ОднородНормальсемейством Рисунок 1.1 – Классификация статистических гипотез Для проверки одной и той же гипотезы, как правило, существует подходящего статистического критерия, вообще говоря, не является тривиальной задачей. Можно сформулировать следующие принципы подбора статистических критериев.

1. Должны выполняться “стандартные” предположения, обуславливающие возможность применения рассматриваемого критерия (например, о виде распределения случайной величины и о наблюдаемых данных). Так, например, нельзя применять критерий Колмогорова по группированным данным, или по наблюдениям дискретной случайной величины.

2. Критерий должен быть состоятельным, т.е. его мощность должна стремиться к единице с ростом объема выборки.

3. Критерий должен быть несмещенным, т.е. мощность должна быть больше, чем вероятность ошибки первого рода.

4. Критерий должен обладать наибольшей мощностью при заданном объеме выборки и заданном уровне значимости критерия.

представляется возможным, потому что построить наиболее мощный критерий удается только в очень редких случаях, например, когда основная и конкурирующая гипотезы являются простыми [39]. Чаще всего, для разных конкурирующих гипотез, для разных уровней значимости, для разных объемов выборки, более мощными оказываются разные критерии.

В этой ситуации для выбора оптимального критерия можно применить классическую теорию принятия решений в условиях неопределенности [271].

Критерии являются стратегиями, конкурирующие гипотезы – состояниями среды, функция полезности u (Ti, H j ) – это мощность критерия (таблица 1.1).

Другим способом определения функции полезности при выборе критерия может быть стоимость проведения эксперимента по различению основной и конкурирующей гипотез с заданными вероятностями ошибок первого и второго рода.

Таблица 1.1 – Матрица полезности выбора критерия Ti при конкурирующих гипотезах H j Существуют разные подходы к выбору оптимальной стратегии при принятии решения в условиях неопределенности. В случае, когда нет никакой информации о том, какая конкурирующая гипотеза может быть верна, рациональным выглядит выбор критерия по правилу Вальда [271] (известны также такие названия как «критерий крайнего пессимиста» или «критерий осторожного наблюдателя»):

Критерий, выбранный по правилу Вальда, максимизирует полезность против самой «неудобной» конкурирующей гипотезы.

выборочное пространство на доверительную область X 0 и критическую область X1. При попадании выборки в критическую область гипотеза отвергается, а при попадании в доверительную область – принимается. Чаще всего такое разбиение производится с помощью одномерной статистики – функции от выборки, поэтому критическая и доверительная область формулируются уже как подмножества множества вещественных чисел.

Доверительная область включает такие значения статистики критерия, при которых гипотеза принимается, а критическая область – значения, при которых гипотеза отвергается. Кроме того, вероятность попадания выборки (статистики критерия) в критическую область, когда гипотеза верна, по определению равна вероятности ошибки первого рода, а вероятность попадания выборки (статистики критерия) в доверительную область, когда гипотеза не верна, равна вероятности ошибки второго рода.

Как правило, встречаются три вида критических областей для статистики критерия:

• правосторонняя критическая область ( t, ) ;

• левосторонняя (,t ) ;

1.3 Вычисление достигаемого уровня значимости Достигаемый уровень значимости (p-value) определяется как вероятность попадания статистики критерия:

• в область ( S ( X n ), ), если критическая область правосторонняя;

• в область (, S ( X n ) ), если критическая область левосторонняя;

- где S ( X n ) - вычисленное значение статистики по реализации выборки.

Гипотеза отвергается, если достигаемый уровень значимости оказывается меньше заданной вероятности ошибки первого рода. Достоинство процедуры проверки гипотезы с использованием p-value в том, что не нужно заранее фиксировать уровень значимости и определять критическую область для значений статистики критерия. Кроме того, p-value характеризует “степень уверенности” в принимаемом решении, т.е. чем меньше p-value, тем больше оснований для отвержения основной гипотезы.

Если критическая область двусторонняя, то однозначного способа вычисления достигаемого уровня значимости нет. Например, можно вычислять Достигаемый уровень значимости является случайной величиной, статистический вывод о принятии гипотезы. Чем ближе значение p-value к 1, тем больше оснований для принятия гипотезы, чем ближе значение p-value к 0, тем больше оснований для отвержения гипотезы. Однако следует помнить о следующем важном замечании относительно p-value.

Когда основная гипотеза ложна, то p-value будет стремиться к 0 с ростом объема наблюдаемой выборки. Однако, когда основная гипотеза истинна, pvalue не стремится к 1, а распределено равномерно на интервале [0,1].

Вычисление p-value относительно просто, когда известно теоретическое распределение статистики критерия при справедливости основной гипотезы.

Однако возможны ситуации, когда:

• неизвестен аналитический вид закона распределения статистики;

• известен только асимптотический закон распределения статистики;

• закон распределения статистики меняется от объема выборки, от метода оценивания параметров, от доли цензурирования и т.п.

В таких ситуациях для вычисления p-value можно эффективно применить метод Монте-Карло (алгоритм 1.1). Очень важным для корректного вычисления p-value (с требуемой точностью) является вопрос о правильном выборе числа повторений N, который будет рассмотрен в пункте 1.7.

Алгоритм 1.1. Вычисление достигаемого уровня значимости статистического критерия c правосторонней или левосторонней критической областью методом Монте-Карло.

Входные данные: гипотеза H 0, выборка X n, количество повторений N, функция вычисления статистики S ( X n ).

Действия.

1. Вычислить S = S ( X n ) – статистику критерия по выборке.

2. Установить m = 0.

3. Сгенерировать выборку Yn при верной гипотезе H0.

4. Вычислить значение S (Yn ).

6. Повторять шаги 3-5 N раз.

Выходные данные: оценка достигаемого уровня значимости (p-value) равна • p= для правосторонней критической области;

• p =1 для левосторонней критической области;

• p = 2 min,1 для двусторонней критической области.

Применение метода Монте-Карло для вычисления достигаемого уровня значимости удобно, если нам нужно проверить гипотезу однократно, по одной выборке. Однако если нужно проверить гипотезу по нескольким выборкам, то алгоритм 1.1 будет неэффективным, т.к. достаточно трудоемкая процедура по моделированию статистики критерия будет повторяться много раз. Чтобы сократить затраты на моделирования возможны следующие варианты.

1. Cохранить выборку статистик S (Yn ) в массиве или во внешнем файле.

Тогда p-value можно вычислить по формуле 1 GN ( S ( X n )) для правосторонней критической области или по формуле GN ( S ( X n )) для левосторонней критической области, где GN (t ) эмпирическая функция распределения статистики критерия.

аппроксимирующую GN (t ). Тогда p-value можно вычислить по формуле 1 G ( S ( X n )) для правосторонней критической области или по формуле G ( S ( X n )) для левосторонней критической области.

1.4 Аппроксимация функции распределения статистики критерия Для аппроксимации функции распределения статистик используется процедура подбора закона распределения в системе ISW [89, 97], которая включает более 30 стандартных законов и распределений, получаемых с помощью операций над этими стандартными моделями: операций сдвига, масштаба, смеси законов, произведения, усечения, логарифмирования.

После визуального анализа эмпирической функции распределения статистики критерия, делается отбор вероятностных моделей похожих по форме на искомое распределение. Далее для каждой модели выполняется идентификация – оценивание параметров модели и проверка гипотезы о согласии, и выбирается наилучшая модель.

Даже если подходящей модели в системе ISW не оказалось, можно разбить область определения на три области – левый «хвост», середину и правый «хвост», и попробовать аппроксимировать функцию распределения на каждой области по-отдельности разными моделями. Для этого выборка цензурируется (для левого «хвоста» – справа, для правого «хвоста» – слева, а для середины – с обеих сторон), по такой цензурированной выборке подбирается закон распределения по описанной выше процедуре.

По описанной технологии, в частности, были построены аппроксимации законов распределения непараметрических критериев согласия при проверке сложных гипотез [220].

1.5 Вычисление критических значений Критическое значение (иногда называемое процентной точкой) может быть вычислено по формуле t = G 1 ( ) для левосторонней критической области или t = G 1 (1 ) для правосторонней критической области, где G (t ) – функция распределения статистики критерия.

Если функция распределения неизвестна, но имеется смоделированная по методу Монте-Карло выборка статистик S1, S2,…, S N, упорядоченная по возрастанию, то критическое значение t можно найти по формуле для вычисления выборочного квантиля порядка q. Выборочная квантиль порядка q это член вариационного ряда с номером [ Nq ] + 1, если Nq не целое число, и полусумма членов вариационного ряда с номерами Nq и Nq + 1, если число Nq целое. Таким образом, правосторонней критической области. В данной записи [ x] обозначает целую часть от числа x, а - это множество натуральных чисел.

Выборочная квантиль является состоятельной оценкой теоретической квантили, если функция распределения случайной величины является непрерывной и строго монотонной в точке теоретической квантили [39].

1.6 Вычисление мощности критерия Для вычисления мощности статистического критерия необходимо знать распределения статистики критерия при основной и конкурирующей гипотезах.

Если распределение статистики критерия при верной основной гипотезе часто можно получить при достаточно общих предположениях, то распределение статистики критерия при верной конкурирующей гипотезе найти аналитическими методами очень сложно, и оно, естественно, будет зависеть от множества факторов: от вида конкурирующей гипотезы, от объема выборки, от метода оценивания параметров (если он используется при вычислении статистики), от процента цензурирования (для цензурированных выборок) и т.п. Поэтому основным методом проведения исследований, связанных со сравнительным анализом мощности статистических критериев, является метод Монте-Карло.

Для вычисления мощности критерия по методу Монте-Карло можно воспользоваться алгоритмом 1.2.

Алгоритм 1.2. Вычисление мощности статистического критерия методом Монте-Карло.

Входные данные: гипотеза H1, критическая область W с уровнем значимости, количество повторений N, функция вычисления статистики S (Yn ) по выборке Yn.

Действия.

2. Сгенерировать выборку Yn при верной гипотезе H1.

3. Вычислить значение S (Yn ).

4. Если критическая область правосторонняя и S (Yn ) W, то m = m + 1.

5. Повторять шаги 2-4 N раз.

Выходные данные: оценка мощности равна 1.7 Определение количества повторений В рассмотренных алгоритмах 1.1 и 1.2 вычисления достигаемого уровня значимости и мощности имеется параметр – число повторений, от которого зависит, насколько точно мы найдем оценки.

Выбор требуемого количества повторений производится с помощью построения доверительного интервала для искомой вероятности. Половину длины этого доверительного интервала будем называть абсолютной погрешностью моделирования.

Оценка точности характеристик и необходимое число реализаций (повторений) в методе Монте-Карло приводится в книге Вентцель Е.С. [8], причем рассматривается простейший случай, когда с помощью метода МонтеКарло оценивается вероятность наступления некоторого события. В пунктах 1.7.2-1.7.4 будет рассмотрена задача определения количества повторений при оценивании функции распределения, процентных точек и мощности статистического критерия.

1.7.1 Определение количества повторений при оценивании вероятности наступления некоторого события Пусть требуется вычислить вероятность p появления некоторого случайного события A. В каждой из N реализаций процесса количество наступлений события A является случайной величиной, принимающей значение x1 = 1 с вероятностью p, и значение x2 = 0 с вероятностью 1 p. Случайная величина подчиняется распределению Бернулли с вероятностью успеха p и имеет математическое ожидание p и дисперсию p (1 p ).

В качестве оценки для искомой вероятности p принимается частота m N наступлений события A при N реализациях где xi – количество наступлений события A в реализации с номером i.

В силу центральной предельной теоремы теории вероятностей частота при достаточно больших N имеет распределение, близкое к нормальному:

Отсюда где t = 1 – квантиль стандартного нормального распределения, вероятностью равна моделирования не превышает, равно где [] означает целую часть, так как количество повторений должно быть натуральным числом.

Погрешность моделирования зависит от величины p и достигает максимального значения при p = 0,5. При p 0 и при p 1 погрешность стремится к нулю. Для значений p близких к нулю или единице имеет смысл рассматривать относительную погрешность моделирования Величина 0 = показывает, во сколько раз погрешность моделирования превосходит вероятность p, близкую к 0. Величина 1 = показывает, во сколько раз погрешность моделирования превосходит вероятность 1 p, когда p близко к 1. Формула (1.4) обобщает эти две ситуации.

Тогда формулу (1.3) можно переписать для относительной погрешности в виде относительная погрешность не превышала 5%. В таблице 1.2 приведены рекомендуемые количества повторений для разных значений вероятности p при относительной погрешности 5%.

Таблица 1.2 – Требуемое количество повторений при относительной погрешности моделирования 5% 1.7.2 Погрешность моделирования функции распределения Пусть требуется определить функцию распределения F ( x) некоторой случайной величины. В качестве непараметрической оценки распределения можно использовать эмпирическую функцию распределения:

где x(1) x(2) …. x( N ) – вариационный ряд, построенный по выборке.

0,1 / N, 2 / N,...,1. Математическое ожидание и дисперсия FN ( x) равны:

Тогда формулы (1.2) и (1.3) для вычисления значения p = F ( x) с помощью случайной величины m / N = FN ( x) примут вид где [] означает целую часть числа.

Абсолютная погрешность моделирования зависит от величины F(x) и достигает максимума при F(x)=0,5. Поэтому можно найти оценку сверху абсолютной погрешности и необходимого количества повторений:

Так, например, для доверительной вероятности = 0,99 необходимое число повторений равно для = 0,001 равно 1 658 725.

Отметим, что на практике при проверке статистических гипотез часто опираются на значения процентных точек (квантилей) распределения статистики критерия, то есть на такие значения x, при которых F ( x) =0,85; 0,90;

0,95; 0,99; 0,999. Абсолютная и относительная погрешности моделирования F ( x) при разных количествах повторений приведены в таблицах 1.3 и 1.4, соответственно.

Как и следовало ожидать, погрешности моделирования F(x) в этих точках при достаточно больших количествах повторений малы. Однако какова при этом будет погрешность моделирования самих процентных точек?

Таблица 1.3 – Абсолютная погрешность моделирования F ( x) Таблица 1.4 – Относительная погрешность моделирования F ( x) 1.7.3 Погрешность моделирования процентных точек выборочная квантиль, вычисляемая по формуле (1.1). Известно [39], что данная статистика в асимптотике имеет нормальное распределение с математическим ожиданием и дисперсией где f ( x) – функция плотности. Тогда формулы (1.2) и (1.3) для оценивания значения F 1 ( p ) с помощью выборочной квантили x([ pN ]) примут вид Естественно, что на величину погрешности в (1.8) существенный вклад оказывает вид функции распределения случайной величины. Вычислим погрешности при определении процентных точек методом Монте-Карло в распределение с параметром масштаба :

В этом случае Тогда получаем, что Абсолютная и относительная погрешности моделирования F 1 ( p ), при = 1, и разных N приведены в таблицах 1.5 и 1.6 соответственно. Как видно из таблиц 1.3 и 1.5, в то время как абсолютная погрешность моделирования функции распределения при заданном N уменьшается с приближением p к единице, погрешность моделирования процентных точек увеличивается.

Если сравнить таблицы 1.4 и 1.6, то видно, что и относительная погрешность моделирования функции распределения, и относительная погрешность моделирования процентных точек растут с приближением p к единице, причем порядок погрешностей примерно одинаков.

Таблица 1.5 – Абсолютная погрешность моделирования F 1 ( p ) для экспоненциального закона распределения Таблица 1.6 – Относительная погрешность моделирования F 1 ( p ) для экспоненциального закона распределения 1.7.4 Погрешность моделирования мощности статистического критерия При оценивании мощности методом Монте-Карло накладываются две погрешности – первая при определении процентной точки t и вторая – при вычислении вероятности ошибки второго рода. Оценка погрешностей в этом случае еще более сложная задача, чем оценка погрешностей при вычислении процентных точек. Поэтому для оценки погрешности вычисления мощности воспользуемся методом Монте-Карло.

экспоненциальное распределение с параметром масштаба 1, а при верной гипотезе H1 – экспоненциальное распределение с параметром 4. Критерий имеет правостороннюю критическую область. В данном случае критическое значение можно вычислить по формуле t = ln, а мощность критерия равна Для N = 1000,10000, 100000 мощность критерия была вычислена раз по алгоритму 1.2. Далее по эмпирической функции распределения Fn (t ) была вычислена половина длины 99% доверительного интервала по формуле Оценки абсолютной погрешности моделирования мощности приведены в таблице 1.7, относительной погрешности – в таблице 1.8. Погрешность моделирования мощности превосходит погрешности, соответствующие причем погрешность растет при приближении к нулю.

Следует также отметить, что распределение погрешности моделирования мощности хорошо аппроксимируется нормальным законом (рисунок 1.2). Из-за сильной дискретности распределения при небольшом N гипотеза о согласии с N = 100000 гипотеза о согласии не отвергается. Таким образом, для оценивания мощности можно выполнять моделирование сериями с последующим вычислением доверительного интервала.

Еще один недостаток использования небольшого N в том, что оценка мощности в этом случае имеет небольшое смещение. При N = 1000 смещение составляет примерно 0,001. С ростом N смещение уменьшается.

Поскольку погрешность моделирования мощности сильно зависит от конкурирующей гипотезах, то дать общую рекомендацию о выборе числа повторений при оценке мощности невозможно. Пожалуй, лучше всего вычислить мощность критерия для одной пары конкурирующих гипотез несколько раз, затем полученные значения усреднить и оценить погрешность погрешностей подчиняется нормальному закону.

Количество повторений при моделировании распределения статистики критерия при верной гипотезе H 0 не обязательно должно равняться количеству повторений при моделировании распределения статистики критерия при верной гипотезе H1. Так как бльшая погрешность связана с оцениванием процентной точки t, то бльшее количество повторений следует делать при моделировании распределения статистки критерия при верной основной гипотезе.

Таблица 1.7 – Абсолютная погрешность моделирования мощности критерия Таблица 1.8 – Относительная погрешность моделирования мощности критерия Таблица 1.9 – Сравнение абсолютной погрешности моделирования вероятностей ошибок первого и второго рода и мощности критерия Таблица 1.10 – Согласие распределения погрешности моделирования мощности c нормальным законом при =0.05 и разных объемах моделирования Рисунок 1.2 – Распределения погрешности моделирования мощности 1.7.5 Погрешность моделирования мощности статистического критерия при известном виде закона распределения статистики критерия Если известен закон распределения, которому подчиняется статистика критерия, но неизвестны параметры этого закона, то можно существенно уменьшить погрешность моделирования. Рассмотрим эту ситуацию на следующем примере.

экспоненциальное распределение с параметром масштаба 0, а при верной гипотезе H1 – экспоненциальное распределение с параметром 1. Критерий имеет правостороннюю критическую область. Эффективную оценку параметра масштаба экспоненциального закона можно найти по формуле где Si – это значения статистики критерия при моделировании.

Тогда критическое значение можно оценить по формуле t = 0 ln, а мощность критерия оценивается как Результаты моделирования представлены на рисунке 1.3 для =0,05.

Видно, что при оценивании параметров закона распределения статистики критерия дисперсия погрешности моделирования уменьшается. Более существенно погрешность моделирования уменьшается при приближении уровня значимости к нулю (таблица 1.11). Так, например, при =0, сокращению объема моделирования в 10 раз.

Таблица 1.11 – Сравнение погрешности моделирования мощности критерия при известном и неизвестном законе распределения статистики критерия, при N= Рисунок 1.3 – Распределения погрешности моделирования мощности при Отметим, что сокращению дисперсии погрешности моделировании в некоторых случаях посвящен ряд работ [193, 252, 263]. Подробное описание техники сокращения дисперсии изложено в монографии [253].

1.8 Исследование скорости сходимости распределения статистики критерия к предельному закону Пусть в случае верной гипотезы H 0 статистика критерия S ( X n ) имеет функцию распределения Gn ( x), а при n - предельную функцию распределения G ( x). Доказать сходимость Gn ( x) к G ( x) с помощью компьютерного моделирования невозможно, однако можно решить следующие задачи:

• оценить скорость сходимости Gn ( x) к G ( x) ;

• определить объем выборки, при котором расстояние до предельного закона не превышает заданного числа.

Эти две задачи близки по смыслу, но не эквивалентны. Первая задача представляет теоретический интерес, например, если нужно проверить некоторые теоретические предположения о скорости сходимости. Вторая задача имеет важный смысл для практики, – при каком объеме выборки с приемлемой величиной ошибки вместо “истинного” можно использовать предельный закон распределения статистики.

1.8.1 Определение скорости сходимости Пусть (Gn, G ) - расстояние между двумя функциями распределения Gn ( x) и G ( x). Например, свойствами расстояния в пространстве законов распределений обладает статистика Колмогорова:

если c0 1 c1, то производят второе наблюдение x2 и также исследуют величину оканчивается либо выбором H 0, либо выбором H1, т.е. на каком-то шаге n статистика выйдет за интервал [ c0, c1 ].

вероятностей ошибок первого и второго рода заданным значениям и.

Обозначим эту зависимость через c0 (, ) и c1 (, ). В случае проверки простой гипотезы известна следующая теорема [273].

Теорема 2.2. Критические значения c0 и c1 критерия Вальда удовлетворяют неравенствам:

где и - вероятности ошибок первого и второго рода соответственно.

При этом, если границы с0 и с1 заменить правыми частями в (2.9), то вероятности ошибок первого и второго рода будут равны (,), где отношения правдоподобия с приближенными границами (2.10), которые не зависят от распределений, заданных гипотезами H 0 и H1, но при этом дают меньшую суммарную вероятность ошибок первого и второго рода (2.11).

Оцениванию точных критических границ с помощью метода Монте-Карло будет посвящена третья глава.

последовательного критерия рассматривается математическое ожидание объема выборки (average sample number, ASN). Вальдом найдена нижняя граница для SPRT [273], причем эта граница обратно пропорциональна дивергенции Кульбака-Лейблера.

Теорема 2.3. Оценка снизу среднего числа наблюдений для любого последовательного критерия с вероятностями ошибок и имеет вид:

где Нижние границы 2.12 и 2.13 являются неулучшаемыми, но для большинства конкурирующих гипотез средний объем выборки существенно больше.

Айвазяном в 1959 были получены асимптотические (по сближению различаемых гипотез) точные формулы для среднего объема выборки [1].

Теорема 2.4. Если f0(x)=f(x,0), f1(x)=f(x,1) и 1 0, то при выполнении ряда условий справедливо:

Рассмотрим, насколько применимы формулы (2.15) и (2.16). Отношение правой части (2.15) к (2.12) равно Аналогично, отношение правой части (2.16) к (2.13) равно Анализируя выражения (2.17) и (2.18), можно сделать вывод, что одно из них должно быть больше 1, а другое – меньше 1, в зависимости от того, что больше: D( H1, H 0 ) или D( H 0, H1 ). Таким образом, (2.15) и (2.16) могут быть верными одновременно тогда и только тогда, когда D( H1, H 0 ) = D( H 0, H1 ).

Поэтому правые части в (2.15) и (2.16) совпадут с нижними границами в (2.13) и (2.14), и, следовательно, теорема 2.4 дает пример (асимптотический), при котором достигается нижняя граница в неравенстве Вальда (2.12)-(2.13).

В 1948 году Вальд и Вольфовиц доказали оптимальность среднего объема выборки в SPRT [274].

Теорема 2.5. Пусть T – последовательный критерий отношения правдоподобия с критическими границами - 1, для d = 1 требуется слишком большой объем выборки.

Критерии, основанные на радиальной части X 6.3.4. В основе данных критериев лежит квадрат радиуса:

Упорядочим значения R 2 и обозначим их как D( j ), j = 1, 2,..., n :

Пусть Gd - функция d -распределения. Тогда проверка гипотезы о нормальности эквивалентна проверке гипотезы о том, что выборка (6.40) подчинена d -распределению. Это можно сделать с помощью критериев согласия, описанных в главе 4. В 1982 Козиол предложил использовать статистику Крамера-Мизеса [197], в 1987 Полсон, Рухон и Сулло предложили использовать критерий Андерсона-Дарлинга [240].

Гипотеза о том, что выборка (6.40) подчинена d -распределению, является простой. Но так как Dn, jj являются зависимыми друг от друга величинами [185], то распределения статистик критериев согласия при справедливости проверяемой гипотезы в данном случае отличаются от предельных законов, имеющих место при проверке простых гипотез о выборках независимых одинаково распределенных случайных величин.

Распределения статистик критериев Колмогорова, Андерсона-Дарлинга и Крамера-Мизеса зависят от размерности d (см. рисунки 6.23-6.25) и хорошо Аппроксимация проводилась по выборкам статистик критериев радиуса при n = 1000 (объем выборки многомерной нормальной случайной величины), N = 1000000 (количество выборок). С ростом размерности d различия между законами распределения статистик уменьшается так, что графики законов неразличимы. Поэтому для практических целей при размерностях больших можно пользоваться аппроксимацией для d = 8.

Бета-распределение III-го рода является обобщением бета-распределения с функцией распределения (6.41) и функцией плотности (6.42).

Так как бета-распределение III-го рода в качестве области определения имеет отрезок [ 4, 4 + 3 ], то параметры 3 и 4 выбирались вручную: левая граница 4 =0, а правая граница получена, исходя из условия, чтобы правая граница была заведомо больше максимальной порядковой статистики из распределениями и аппроксимирующими законами вычислено по расстоянию Колмогорова и показано в последних колонках таблиц 6.2-6.4.

Погрешность аппроксимации принимает значения от 0,006 до 0,009, и, таким образом, найденные аппроксимирующие законы могут использоваться в практических целях.

Рисунок 6.24 – Распределение статистики критерия радиуса Колмогорова при n = 1000 и d = 1, 2,…,8 ; K ( x) - распределение Колмогорова Рисунок 6.25 – Распределение статистики критерия радиуса АндерсонаДарлинга при n = 1000, d = 1, 2,…,8 ; a 2 - распределение статистики АндерсонаДарлинга Рисунок 6.26 – Распределение статистики радиуса Крамера-Мизеса-Смирнова при n = 100, d = 1, 2,…,8 ; a1 - распределение статистики Крамера-МизесаСмирнова Таблица 6.2 – Аппроксимации предельных распределений критерия радиуса Колмогорова Аппроксимирующий закон распределения Бе-III (53.6236, 15.3955, 45.0496, 10.0000, 0.0000) Бе-III (61.3277, 16.7835, 49.1481, 10.0000, 0.0000) Бе-III (65.7375, 17.6448, 51.0536, 10.0000, 0.0000) Бе-III (68.9325, 18.1012, 52.7890, 10.0000, 0.0000) Бе-III (69.5879, 18.5017, 52.4714, 10.0000, 0.0000) Бе-III (68.1034, 18.9962, 50.2919, 10.0000, 0.0000) Бе-III (68.1446, 19.2711, 49.7699, 10.0000, 0.0000) Бе-III (51.2230, 21.5792, 33.3143, 10.0000, 0.0000) Таблица 6.3 – Аппроксимации предельных распределений критерия радиуса Андерсона-Дарлинга Аппроксимирующий закон распределения Бе-III (14.0000, 3.6001, 74.3281, 10.0000, 0.0000) Бе-III (14.0000, 4.0891, 69.4148, 10.0000, 0.0000) Бе-III (14.0000, 4.3370, 67.1246, 10.0000, 0.0000) Бе-III (14.0000, 4.4716, 66.0749, 10.0000, 0.0000) Бе-III (14.0000, 4.5555, 65.3704,10.0000, 0.0000) Бе-III (14.0000, 4.6272, 64.8145, 10.0000, 0.0000) Бе-III (14.0000, 4.6756, 64.3915, 10.0000, 0.0000) Бе-III (14.0000, 4.6935, 64.3243, 10.0000, 0.0000) Таблица 6.4 – Аппроксимации предельных распределений критерия радиуса Крамера-Мизеса-Смирнова Аппроксимирующий закон распределения Бе-III (7.9674, 3.1108, 64.5654, 2.0000, 0.0000) Бе-III (9.4144, 3.5315, 73.9401, 2.0000, 0.0000) Бе-III (9.5174, 3.7138, 73.9973, 2.0000, 0.0000) Бе-III (9.8276, 3.8724, 75.0000, 2.0000, 0.0000) Бе-III (9.7771, 3.9000, 75.0000, 2.0000, 0.0000) Бе-III (9.6594, 3.9050, 75.0000, 2.0000, 0.0000) Бе-III (9.6528, 3.9400, 75.0000, 2.0000, 0.0000) Бе-III (9.6460, 3.9592, 75.0000, 2.0000, 0.0000) Сходимость распределений статистик критериев многомерной 6. нормальности к предельному закону Все рассмотренные в данной главе критерии имеют предельные распределения. Однако скорость сходимости статистик критериев к предельному закону ранее практически не исследовалась, за исключением технического отчета Hara и Seo [182] за февраль 2011, в котором с помощью метода Монте-Карло исследовалось изменение выборочных характеристик статистик с ростом объема выборки. Информации о том, какой из рассматриваемых критериев является более мощным, в современной литературе найти не удалось.

По результатам настоящих исследований видно, что статистики распределениям. С увеличением размерности при небольших объемах выборок ( n = 20, n = 50 ) расстояние от распределения статистики до предельного закона увеличивается.

Статистика критерия проверки на коэффициент асимметрии Шриваставы обладает высокой скоростью сходимости к предельному закону: уже при распределения оказывается меньше 0,05. Медленнее других статистик критериев проверки на асимметрию, сходится к предельному распределение статистики критерия Мардия.

Распределения статистик критериев проверки многомерной выборки на эксцесс Козиола, Мардия и Шриваставы плохо сходятся к предельным распределениям. Модификации критериев Мардия ( Z Mnt, Z M ) и Шриваставы ( Z Snt, Z S ) увеличивают скорость сходимости распределений статистик к предельному закону: при объеме выборки n = 20 расстояние до предельного закона Dn 0.05.

Результаты исследований показали, что распределение статистики критерия, основанного на угловой части Х, также с ростом n сходится к предельного закона (при том же n ) увеличивается.

основанного на угловой части вектора наблюдений Х, отмечена сильная "ступенчатость", слабо зависящая от n, что приводит к более медленной сходимости к предельному закону. С ростом размерности d > 1 многомерной "Пороговым" значением объема выборки n, при котором расстояние до предельного закона меньше или равно 0,01, является 20972, 10 и наблюдений, для d = 1, d = 2 и d =4 соответственно. Очевидно, что использовать Хи-квадрат распределение в качестве предельного закона для рассматриваемого критерия можно только при d > 1, так как для d = требуются большие объемы выборки.

Показано, что распределения статистик критериев согласия АндерсонаДарлинга, Крамера-Мизеса и Колмогорова, применяемых для анализа многомерных статистик, формируемых при проверке многомерной нормальности и базирующихся на анализе радиальной части X, хорошо аппроксимируются бета-распределениями 3-го рода.

Исследование мощности критериев проверки многомерной 6. нормальности В данном пункте рассмотрена мощность инвариантных критериев многомерной нормальности.

6.5.1 Конкурирующие гипотезы Альтернативная гипотеза имеет вид:

В данной работе при исследовании мощности в качестве конкурирующих рассматриваются гипотезы, предполагающие принадлежность выборки многомерному распределению, построенному на базе одномерных законов, отличных от нормального.

Соответствующее многомерное распределение получается из одномерного с помощью специального преобразования, описанного в п. 6.2.

Определим 6 конкурирующих гипотез следующим образом.

H1 : многомерное распределение, основанное на одномерном распределении Коши;

H 2 : многомерное распределение, основанное на одномерном распределении Лапласа;

H 3 : многомерное распределение, основанное на одномерном логистическом распределении;

H 4 : многомерное распределение, основанное на одномерном двустороннем экспоненциальном распределении (его еще называют обобщенное нормальное распределение) с параметром формы 4;

H 5 : многомерное распределение, основанное на одномерном равномерном распределении;

H 6 : многомерное распределение, основанное на одномерном распределении наибольшего значения.

На рисунке 6.27 представлены функции распределения, соответствующие одномерном случае. Видно, что конкурирующие распределения отличаются от нормального тяжестью хвостов (в случае гипотез H1 и H 2 – имеют более тяжелые хвосты, при H 4 – более легкие хвосты, при H 5 – хвосты отсутствуют) и формой (у закона, соответствующего гипотезе H 3, коэффициент эксцесса равен 6/5; у соответствующего гипотезе H 6 –коэффициент эксцесса 12/5, а коэффициент асимметрии примерно 1,14).

Рисунок 6.27 – Одномерные функции распределения конкурирующих гипотез 6.5.2 Зависимость мощности критериев многомерной нормальности от размерности выборки Результаты исследования мощности приведены в таблицах 6.5-6.9 для размерностей d от 1 до 5. Полужирным шрифтом выделены максимальные значения мощности разных критериев против одной альтернативы. В последней колонке приведено минимальное значение мощности одного критерия против разных альтернатив.

Оценки мощности находились методом Монте-Карло при числе повторений в 1 000 000 раз.

Анализ результатов исследования мощности показывает, что размерность d влияет на мощность критериев многомерной нормальности, которая, как правило, растет с увеличением размерности, а затем уменьшается, как показано на рисунках 6.28-6.29 для объемов выборки n = 20, 50, 100 и 200 для мощности относительно конкурирующей гипотезы H 3 (логистическое распределение) и вероятности ошибки первого рода 0,05.

Хотя мощность критериев зависит от размерности выборки, однако набор критериев, обладающих наибольшей мощностью рассматриваемых Исключением является одномерный случай ( d = 1 ), когда совпадают мощности критериев асимметрии Мардия, Мори и Шриваставы, а также совпадают мощности критериев эксцесса Мардия, Козиола и Шриваставы.

0, 0, 0, 0, 0, 0, Рисунок 6.28 – Зависимость мощности от размерности d при альтернативе H (логистическое распределение) и объеме n = 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, Рисунок 6.29 – Зависимость мощности от размерности d при альтернативе H (логистическое распределение) и объеме n = 0, 0, 0, 0, 0, 0, Рисунок 6.30 – Зависимость мощности от размерности d при альтернативе H (логистическое распределение) и объеме n = 1, 1, 0, 0, 0, Рисунок 6.31 – Зависимость мощности от размерности d при альтернативе H (логистическое распределение) и объеме n = 6.5.3 Анализ мощности инвариантных критериев многомерной нормальности Наибольшей мощностью относительно конкурирующих гипотез H (распределение Коши), H 2 (распределение Лапласа) и H 3 (логистическое распределение) обладает критерий эксцесса Мардия. Немного уступают ему критерии эксцесса Козиола и Шриваставы.

Наибольшей мощностью относительно гипотез H4 (двустороннее экспоненциальное распределение с параметром формы 4), H 5 (равномерное распределение) обладает “критерий радиуса” Крамера-Мизеса-Смирнова.

Немного уступает ему “критерий радиуса” Андерсона-Дарлинга.

Наибольшей мощностью относительно конкурирующей гипотезы H (распределение наибольшего значения) обладают критерии асимметрии Мардия и Мори. Немного меньшую мощность имеет критерий асимметрии Шриваставы.

Рассмотрим достоинства и недостатки каждой группы критериев.

Критерии асимметрии, как и следовало ожидать, оказались наилучшими для случая несимметричной альтернативы, однако относительно конкурирующих законов с легкими хвостами (без асимметрии) они имеют нулевую мощность, т.е. являются смещенными и несостоятельными.

Критерии эксцесса оказались очень хороши относительно конкурирующих законов с более тяжелыми хвостами (Коши, Лапласа), а также против логистического распределения. Однако, как и критерии асимметрии, критерии эксцесса оказались смещенными и несостоятельными против альтернативы с легкими хвостами.

Критерий “углов” показал невысокую мощность практически на всех альтернативах, и также как критерии асимметрии и эксцесса оказался смещенным при альтернативах с легкими хвостами.

Критерии “радиуса” оказались наилучшими против альтернатив с легкими хвостами, уступая при этом критериям асимметрии и эксцесса в случае остальных альтернатив. Недостатком критериев данного типа является быстрое падение мощности при увеличении размерности d при небольших объемах выборки.

Какой же из критериев лучше использовать на практике? С точки зрения робастности, используя правило Вальда, оптимальным является использование конкурирующих гипотез этот критерий показал наибольшую мощность в наихудших условиях.

Таблица 6.5 – Мощность критериев многомерной нормальности, d = Продолжение таблицы 6. Радиуса (КМС) 0,050 1,000 0,872 0,246 0,510 0,953 0,201 0, Радиуса (АД) 0,050 1,000 0,872 0,244 0,476 0,960 0,223 0, Радиуса (Колм.) 0,050 1,000 0,818 0,208 0,424 0,889 0,169 0, Таблица 6.6 – Мощность критериев многомерной нормальности, d = Srivastava (асимм.) 0,050 0,916 0,294 0,144 0,014 0,007 0,347 0, Srivastava (асимм.) 0,050 0,987 0,428 0,213 0,006 0,002 0,730 0, Продолжение таблицы 6. Радиуса (КМС) 0,050 1,000 0,677 0,178 0,415 0,880 0,219 0, Радиуса (АД) 0,050 1,000 0,716 0,191 0,382 0,858 0,223 0, Радиуса (Колм.) 0,050 1,000 0,607 0,154 0,341 0,789 0,187 0, Srivastava (асимм.) 0,050 0,997 0,508 0,261 0,004 0,001 0,932 0, Таблица 6.7 – Мощность критериев многомерной нормальности, d = Srivastava (асимм.) 0,050 0,962 0,300 0,142 0,017 0,011 0,341 0, Srivastava (эксц.) 0,050 0,988 0,391 0,165 0,010 0,004 0,251 0, Продолжение таблицы 6. Радиуса (КМС) 0,050 0,956 0,165 0,048 0,189 0,413 0,067 0, Радиуса (АД) 0,050 0,972 0,239 0,065 0,174 0,389 0,075 0, Радиуса (Колм.) 0,050 0,941 0,147 0,048 0,162 0,344 0,065 0, Srivastava (асимм.) 0,050 0,998 0,457 0,217 0,008 0,003 0,728 0, Таблица 6.8 – Мощность критериев многомерной нормальности, d = Srivastava (асимм.) 0,050 0,980 0,296 0,138 0,020 0,014 0,331 0, Продолжение таблицы 6. Радиуса (КМС) 0,050 1,000 0,963 0,390 0,813 0,999 0,632 0, Радиуса (АД) 0,050 1,000 0,981 0,431 0,821 0,999 0,630 0, Радиуса (Колм.) 0,050 1,000 0,934 0,330 0,702 0,995 0,561 0, Таблица 6.9 – Мощность критериев многомерной нормальности, d = Srivastava (асимм.) 0,050 0,989 0,288 0,134 0,023 0,017 0,319 0, Продолжение таблицы 6. Радиуса (КМС) 0,050 1,000 0,597 0,119 0,480 0,906 0,261 0, Радиуса (АД) 0,050 1,000 0,719 0,158 0,493 0,916 0,277 0, Радиуса (Колм.) 0,050 1,000 0,528 0,108 0,387 0,813 0,231 0, 6. В данной главе рассмотрены инвариантные критерии многомерной нормальности: асимметрии (Мардия, Мори, Шриваставы), эксцесса (Мардия, Козиола, Шриваставы), критерии, основанные на полярной декомпозиции (критерий “углов” и критерии “радиуса”).

Проведено исследование скорости сходимости распределений статистик критериев к предельным законам распределения.

Впервые построены модели, аппроксимрующие законовы распределения Дарлинга и Колмогорова [132].

Проведен сравнительный анализ мощности критериев относительно шести конкурирующих гипотез, представляющих собой многомерные законы распределения, построенные на основании соответствующих одномерных законов (Коши, Лапласа, логистического, обобщенного нормального с параметром формы 4, равномерного и наибольшего значения) в соответствии с рассмотренной процедурой преобразования (моделирования) [125, 132].

Проведено исследование зависимости мощности критериев многомерной нормальности от размерности случайных величин. Показано, что мощность критериев, чаше всего, сначала увеличивается при увеличении размерности d, а затем уменьшается.

Поскольку относительно разных конкурирующих гипотез более мощными оказались критерии разных типов, то на основании правила Вальда принятия решения в условиях неопределенности сделана рекомендация о предпочтительном использовании критерия “радиуса” Андерсона-Дарлинга для проверки гипотезы о многомерной нормальности.

ГЛАВА 7. ОПТИМАЛЬНОЕ ПЛАНИРОВАНИЕ ПРОВЕРКИ ГИПОТЕЗЫ

ОДНОРОДНОСТИ ПРИ ПРОВЕДЕНИИ ДВУХЭТАПНОГО

ПОЛНОГЕНОМНОГО АНАЛИЗА АССОЦИАЦИЙ

Двухэтапный план эксперимента с использованием контрольной выборки и выборки случаев был впервые использован для эпидемиологических исследований Уайтом [277] и был развит Бреслоу [168]. Элстон предложил минимизировать затраты в двухэтапном планировании [175] для анализа сцепленного наследования. Позднее этот подход был перенесен для анализа ассоциаций [256, 257, 258].

Оптимальное планирование заключается в определении необходимых объемов выборок на первом и втором этапах, и выборе критических значений таким образом, чтобы общая стоимость эксперимента была минимальной при заданных значениях вероятностей ошибок первого и второго рода [254; 262;

276; 201, 202; 233; 265; 236].

Полногеномный анализ ассоциаций 7. В генетической эпидемиологии полногеномный анализ ассоциаций (genome-wide association study, GWAS) – это изучение общей генетической информации у разных индивидуумов с целью обнаружить, какие генетические варианты ассоциированы с заболеванием. Обычно в GWAS исследуют связь между однонуклеотидным полиморфизмом (single nucleotide polymorphism, SNP) и основными заболеваниями.

В GWAS обычно сравнивают ДНК двух групп участников: первая группа с заболеваниями (группа случаев, cases), а вторая – без (контрольная группа, controls).

(генотипирование), из которых формируются массивы SNP. Если один тип варианта (одна аллель) встречается чаще в группе случаев, то говорят, что SNP ассоциирован с болезнью. Такими SNP отмечают область генома человека, повышающую риск заболевания.

Два произвольно взятых человека имеют отличия в геноме примерно в миллионах нуклеотидных оснований, в то время как общее количество нуклеотидных оснований в геноме человека 3 миллиарда. В полногеномных исследованиях анализируют от 100 тысяч до миллиона SNP.

Первый успешный полногеномный анализ ассоциаций был проведен в 2005 году при выявлении генетических причин макулодистрофии (macular degeneration) – заболевания, поражающего сетчатку глаза [196].

На основании баз данных, в которых собираются результаты GWAS [190] можно сказать, что к 2011 году было проведено более 1200 полногеномных экспериментов, и было найдено почти 4000 SNP, ассоциированных с заболеваниями.

В полногеномном анализе ассоциаций исследователи часто рассматривают три типа альтернативных гипотез: при рецессивной, аддитивной и доминантной модели наследования, с различными заданными частотами аллелей, относительным генетическим риском (GRR, genetic relative risk) или отношением шансов (OR, odds ratio).

По характеру проявления признака в гетерозиготном организме наследование разделяют на доминантное и рецессивное. При доминантном наследовании заболевание проявляется, если хотя бы одна из гомологичных хромосом несет патологический аллель, при рецессивном — только в случае, когда обе гомологичные хромосомы несут патологический аллель [4].

Аддитивное наследование является комбинацией доминантного и рецессивного наследования.

Одноэтапный эксперимент по выявлению ассоциации 7. однонуклеотидного полиморфизма с двумя аллелями, A и a. Пусть имеется r объектов в выборке случаев (cases) и s объектов в контрольной выборке (controls). Среди r объектов в выборке случаев r0, r1 и r2 человек имеют генотипы AA, Aa и aa соответственно. Среди s объектов в контрольной выборке s0, s1 и s2 человек имеют генотип AA, Aa и aa соответственно (таблица 7.1).

Таблица 7.1 – Результаты наблюдений за группой больных (группа случаев) и группой здоровых (контрольная группа) (controls) Основная и конкурирующие гипотезы 7. Основной гипотезой H 0 является предположение, что нет никакой связи между заболеванием и SNP. Имеется три группы конкурирующих гипотез, основанных на модели наследования (MOI – mode of inheritance): H r – рецессивной, H d – доминантной и H a – аддитивной модели наследования.

Далее в таблицах рецессивная модель наследования будет обозначаться как «R», доминантная – «D», а аддитивная – «A».

Пусть pa = P (a ) – частота аллели a в популяции, pi = P{число аллелей a равно i |объект из выборки случаев} и qi = P{число аллелей a равно i |объект из контрольной выборки}; fi = P{объект в выборке случаев | число аллелей a распространенность заболевания в популяции.

Конкретная конкурирующая гипотеза задается MOI, частотой pa, и отношением шансов (OR) или относительным генетическим риском (GRR) Разницу между распределениями в выборке случаев и контрольной выборке ( P = { p0, p1, p2 } и Q = {q0, q1, q2 } соответственно) можно измерить с помощью дивергенции Кульбака-Лейблера (которая был рассмотрена в главе 2, п.2.3):

Если гипотеза H0 верна, то DKL = 0. Дивергенция Кульбака-Лейблера связана с pa, K, 1 и 2 как где может быть найдено из уравнения Дивергенция Кульбака-Лейблера связана с pa, K, 1 и 2 как асимметричной, а распределения в выборке случаев и контрольной выборке неизвестны, то предпочтительнее использовать симметричную дивергенцию Кульбака-Лейблера KL Симметричная дивергенция Кульбака-Лейблера связана с pa, K, 1 и 2 как Симметричная дивергенция Кульбака-Лейблера KL был рассчитана для распространенности заболевания в популяции K = 0,05. Результаты приведены в таблице 7.2. Для нахождения параметра уравнение (7.5) решалось численно с помощью метода Ньютона.

Таблица 7.2 - Симметричная дивергенция Кульбака-Лейблера KL для разных генетических моделей при K = 0,05.

Продолжение таблицы 7. 7.4 Критерии ассоциаций Рассмотрим наиболее известные и применяемые критерии проверки гипотезы однородности при проведении полногеномного анализа ассоциаций, которые далее будут называться просто критерии ассоциаций.

7.4.1 Критерий Хи-квадрат Классический критерий для проверки однородности двух выборок – это критерий 2. Его статистика [39] имеет вид При верной основной гипотезе в пределе статистика T 2 подчиняется распределению с двумя степенями свободы.

7.4.2 Критерий отношения правдоподобия с ограничением (CLRT) Тогда статистика критерия CLRT может быть вычислена как [275] При верной основной гипотезе асимптотическим распределением статистик (7.11) является смесь распределений 2 [275].

7.4.3 Критерий тренда Кокрена-Армитеджа Статистика критерия тренда Кокрена-Армитеджа (CATT) [160, 161] может быть определена как [255] Для рецессивной модели наследования статистика Tr использует вектор коэффициентов =(0,0,1), для аддитивной модели наследования статистика Ta использует вектор коэффициентов =(0,1,2) и для доминантной модели наследования статистика Td имеет вектор коэффициентов =(0,1,1).

Эти статистики в пределе подчиняются стандартному нормальному закону [255] при верной основной гипотезе. Основная гипотеза отвергается при больших абсолютных значениях статистики TCATT.

Критерий тренда Кокрена-Армитеджа использует вектор коэффициентов, который является оптимальным с точки зрения максимизации асимптотической относительной эффективности по Питмену (2.29) для логистической регрессии [270]. Статистические свойства оптимального критерия для аддитивной модели были исследованы Слагером и Шейдом [266].

Известно, что критерий тренда Кокрена-Армитеджа имеет существенную потерю мощности, когда используются оптимальные коэффициенты для одной генетической модели, а данные подчиняются другой генетической модели [266].

Распределение статистики критерия тренда Ta имеет явно выраженные ступеньки в середине распределения (в области нуля), как показано на рисунке 7.1. С ростом объемов выборок эти ступеньки уменьшаются, и гипотеза о согласии со стандартным нормальным распределением не отвергается (см.

таблицу 7.3). Так как при проверке гипотезы однородности наиболее важны именно хвосты закона распределения статистики, то на практике можно использовать стандартное нормальное распределение для вычисления достигаемого уровня значимости.

Рисунок 7.1 - Функция распределения статистики Ta для объемов 50, 100, Таблица 7.3 - Достигаемый уровень значимости при проверке согласия распределения статистики Ta со стандартным нормальным законом распределения (объем выборки статистик равен N = 1700 000 ) 7.4.4 MERT критерий Критерий является максиминным эффективным робастным критерием (MERT, maximin efficiency robust) для семейства всевозможных моделей, которым подчиняются наблюдения, если нет никакого другого критерия, который имеет бльшую минимальную относительную эффективность к асимптотически оптимальному критерию для каждой модели [179].

Статистика критерия MERT, предложенного Гаствиртом (Gastwirth) в 1985 г. имеет вид [179]:

где Статистика (7.13) подчиняется стандартному нормальному распределению при достаточно большом объеме выборки (рисунок 7.2).

Рисунок 7.2 - Функция распределения статистики TMERT для объемов 50, 100 и 7.4.5 Критерий максимума (MAX3) Как уже было отмечено в п. 7.4.3 критерии тренда Кокрена-Армитеджа существенно теряют мощность при неправильном выборе коэффициентов.

Поэтому в работе [179] был предложен мощный и в тоже время робастный (т.е.

независимый от предположения о конкурирующей гипотезе) критерий, статистика которого равна максимальному значению статистик критерия тренда Кокрена-Армитеджа с наборами коэффициентов, оптимальными для трех моделей наследования (рецессивной, доминантной и аддитивной):

7.4.6 Критерий минимума (MIN2) В 2007 “World trust case-control consortium” (WTCCC) использовал для проверки ассоциаций другой робастный критерий, основанный на двух критериях – Хи-квадрат и критерии тренда Кокрена-Армитеджа с оптимальным набором коэффициентов для аддитивной модели [278]. Статистика критерия имеет вид где pv(Ta ) – это достигаемый уровень значимости по критерию тренда Кокрена-Армитеджа с оптимальным набором коэффициентов для аддитивной модели, а pv T 2 это достигаемый уровень значимости критерия Хиквадрат. Распределение TMIN2 было найдено и исследовано Joo [191].

7.4.7 Критерий выбора генетической модели (GMS) Другой подход к построению робастного критерия использовали Zheng и Ng [281], предложившие двухэтапную процедуру проверки гипотезы. На первом этапе определяется генетическая модель, а на втором этапе используется оптимальный для этой модели критерий тренда КокренаАрмитеджа. Генетическая модель определяется на основе статистики THWDTT [267] Статистика критерия GMS может быть записана как [Joo_2009] где c – это константа, обычно равная 1,645. В работе [279] Zang, Fung и Zheng предложили алгоритм для вычисления асимптотических распределений статистик критериев MAX3 и GMS при верной основной гипотезе.

7.4.8 Критерий Кульбака-Лейблера Эмпирическая симметричная дивергенция Кульбака-Лейблера может быть найдена с использованием оценок pi = ri r and qi = si s :

На базе этой статистики автор предложил построить новый критерий ассоциаций, который логично назвать критерием Кульбака-Лейблера. Эта статистика может рассматриваться как статистика критерия тренда КокренаАрмитеджа с вектором коэффициентов = ( ln(r0 s0 ),ln(r1 s1 ),ln(r2 s2 ) ). Для практических целей лучше использовать статистику которая при верной основной гипотезе в пределе подчиняется стандартному экспоненциальному распределению:

Функция распределения TKL для разных объемов выборки приведена на рисунке 7.3. При малых объемах выборки распределение имеет дискретный вид ( n = 30 ). При n > 100 ступеньки сглаживаются, распределение смещается вправо. При n = 1000 распределение находится правее предельного, а затем начинает к нему приближаться, и при n = 10000 оно визуально неотличимо от стандартного экспоненциального закона распределения.

Рисунок 7.3 - Функция распределения TKL для объемов выборки 30, 300, 1000 и 7.5 Сравнительный анализ мощности критериев ассоциаций Сравнение мощности критериев ассоциаций проведено для трех конкурирующих гипотез с разными видами наследуемости (таблица 7.3).

Результаты моделирования методом Монте-Карло с использованием повторений показаны в таблице 7.4 и на рисунках 7.4 и 7.5.

На рисунке 7.2 хорошо видно, что критерии тренда Кокрена-Армитеджа действительно сильно теряют в мощности при неправильном выборе MOI.

Остальные критерии более или менее робастны по отношению к выбору конкурирующей гипотезы.

Мощность критерия Кульбака-Лейблера больше, чем мощность критерия 2, но меньше, чем мощность критериев MAX3, GMS и CLRT, которые наиболее предпочтительны при использовании на практике.

Таблица 7.3 - Близкие альтернативы для анализа ассоциаций гипотеза Таблица 7.4 - Мощность критериев ассоциаций при близких конкурирующих гипотезах, = 104 и n= Power Рисунок 7.4 – Мощность критериев ассоциаций относительно близких power Рисунок 7.5 – Минимальные мощности критериев ассоциаций относительно 7.6 Зависимость необходимого объема выборки от дивергенции Кульбака-Лейблера В работе [179] рассчитаны необходимые объемы выборок для критерия тренда Кокрена-Армитеджа для различения конкурирующих гипотез с заданными вероятностями ошибок 1-го и 2-го рода. Для данных из таблиц 2 и работы [179] были рассчитаны значения симметричной дивергенции KL, nTa KL и nTr KL (таблицы 7.5 и 7.6). Когда модель соответствует оптимальному вектору коэффициентов, то произведение n KL близко к константе. Но если модель определена неверно, тогда величины n KL различаются при разных KL.

Это показано на рисунке 7.6. Ромбиками и квадратами показаны точки, когда вектор коэффициентов выбран неправильно, а кружочками и кружками – когда вектор коэффициентов соответствовал модели наследования. В обоих случаях зависимость n( KL ) аппроксимируется гиперболой. В логарифмической шкале наклон кривой n( KL ) больше, когда модель определена неверно.

Необходимый объем выборок для критерия MAX3 и для разных генетических моделей при = 0,05 / m (m = 610000 – число маркеров), и = 0,1 рассчитан в работе [236]. Данные из таблиц 1-3 этой работы вместе с KL приведены в таблице 7.7. Зависимость необходимого объема выборки от KL показана на рисунке 7.7.

Таблица 7.5. Объемы выборки, необходимые для достижения мощности критерия 80% при = 0.05 относительно конкурирующей гипотезы H r Таблица 7.6. Объемы выборки, необходимые для достижения мощности критерия 80% при = 0.05, относительно конкурирующей гипотезы H d Sample size (y) Sample size (y) Рисунок 7.7 – Зависимость необходимого объема выборки от KL для критерия Таблица 7.7 – Объем выборок, необходимый для того, чтобы критерий MAX достигал 90% мощности при = 0.05 /610000. Распространенность заболевания K=0.05.

Продолжение таблицы 7. В предыдущем случае была рассмотрена ситуация, когда объемы выборки случаев и контрольной выборки совпадали. Но что произойдет, если пропорция не будет равна ? Женг и Гаствирт [280] нашли необходимые объем выборок для критерия тренда Кокрена-Армитеджа с различными оценками дисперсии при различных пропорциях между объемами выборки случаев и контрольной выборки r : 0.5 (1:1), 0.33 (1:2), 0.20 (1:4). Данные из таблицы II [280] KL и nTa KL приведены в таблице 7.8. График зависимости необходимого объема выборки от симметричной дивергенции КульбакаЛейблера показан на рисунке 7.8. Полученная зависимость также хорошо аппроксимируется гиперболой, при этом из полученных графиков следует вывод, что наименьший объем выборок требуется при одинаковом объеме выборки случаев и контрольной выборок.

Таблица 7.8 - Объемы выборок, необходимые чтобы критерий тренда CATT с аддитивным вектором коэффициентов достигал 80% мощности при = 0.05 и пропорцией объемов выборки случаев и контрольной выборки, равной 0,5; 0, и 0. Продолжение таблицы 7. Продолжение таблицы 7. Sample size (y) Рисунок 7.8 - Зависимость необходимого объема выборок от KL для CATT с аддитивным вектором коэффициентов и пропорцией объемов выборки случаев 7.7 Относительная эффективность критериев ассоциаций На основании вычисления необходимого объема выборок можно сравнить различные критерии ассоциаций. По формуле из [280] можно предположить, что необходимый объем выборки для критерия тренда КокренаАрмитеджа пропорционален величине где и - вероятности ошибок первого и второго рода, соответственно.

необходимого объема выборки от вероятностей ошибок первого и второго рода и симметричной дивергенции Кульбака-Лейблера между распределениями в выборке случаев и контрольной выборке имеет вид а для критерия MAX3 соответственно В этом случае относительная эффективность критерия MAX3 по отношению к критерию тренда Кокрена-Армитеджа с оптимальным набором коэффициентов, вычисленная по формуле (2.28), равна 0,95, т.е. критерий MAX3 требует в среднем на 5% больше наблюдений, чем оптимальный критерий.

7.8 Оптимальное планирование двухэтапного эксперимента Целью оптимального планирования эксперимента является нахождение таких параметров эксперимента, при которых затраты на его проведение минимальны. Для одноэтапного эксперимента это эквивалентно минимизации объема выборки при заданных вероятностях ошибок первого и второго рода.

При проведении одноэтапного эксперимента, как правило, затраты пропорциональны объему выборки, поэтому оптимальное планирование сводится к нахождению необходимого объема выборки, при котором вероятности ошибок первого и второго рода равны заданным значениям.

пропорции между размерами выборок на первом и втором этапах, а также критических границ таким образом, чтобы минимизировать совокупные затраты при заданных вероятностях ошибок первого и второго рода [254; 262;

276; 201, 202; 233; 265; 236].

Совокупные затраты двухэтапного эксперимента могут быть вычислены как где CR – затраты на фенотипирование одного человека, CG1 – затраты на генотипирование одного маркера на первом этапе и CG2 – на втором этапе, m – количество маркеров, d – число ассоциированных с заболеванием маркеров, n – общее число людей, протестированных на обоих этапах, – пропорция между числом человек, протестированных на первом этапе, и общим количеством людей, 1 – вероятность ошибки первого рода на первом этапе, 1 – вероятность ошибки второго рода на первом этапе.

7.8.1 Моделирование вероятностей ошибок первого и второго рода Для того чтобы определять оптимальные параметры двухэтапного эксперимента, используются алгоритмы моделирования вероятностей ошибок первого и второго рода, представленные на рисунках 7.9 и 7.10. На рисунках MN ( p1, p2, p3 ) категориями, каждая из которых имеет вероятность pi. Случайная величина, подчиненная мультиномиальному закону, легко моделируется при помощи k 1 биномиальной величины, где k – это число категорий. Для моделирования биномиального распределения используется алгоритм BTRD при np 10 и алгоритм BINV np < 10 [188, 192].

Рисунок 7.10 – Алгоритм моделирования вероятности ошибки второго рода 7.8.2 Оптимальное планирование двухэтапного эксперимента Оптимальное планирование двухэтапного эксперимента по критерию MAX3 были выполнено Нгуен, Палом и Шеффером [236] на основании шестимерного нормального распределения компонент статистики Tmax на первом и втором этапе. Анализ этого плана с помощью компьютерного моделирования показал, что их результаты не являются точными, как показано в таблице 7.9. Например, для первой строки этой таблицы вероятность ошибки второго рода оказывается равной примерно 0,087, в то время как она должна быть равна 0,1. В результате удалось уточнить оптимальные планы с уменьшением стоимости эксперимента до 3% в некоторых случаях.

Параметры генетической модели, оптимальные n,, затраты и KL приведены в таблице 7.10. График стоимости проведения эксперимента в зависимости от KL показан на рисунке 7.11. По графику хорошо видно, что и при двухэтапном эксперименте затраты обратно пропорционально зависят от симметричной дивергенции Кульбака-Лейблера между распределениями в выборке случаев и в контрольной выборке.

Это, вообще говоря, позволяет сделать следующий вывод. При планировании эксперимента ПГАА с использованием критерия MAX3 неважно, какая рассматривается конкурирующая модель: аддитивная, рецессивная или доминантная. Главное при таком планировании – задать расстояние между распределениями в основной и контрольной выборках, на основании которого можно определить необходимый объем выборки и примерную стоимость эксперимента.

Таблица 7.9 – Проверка планов из [236], при = 8,2 108, = 0,1 методом Монте-Карло при количестве повторений N = 8,7 108 и N = 2, MOI Таблица 7.10 – Робастный двухэтапный план эксперимента при 90% мощности и = 0.05 /610000. Распространенность заболевания K=0.05. Объемы выборки случаев и контрольной выборки совпадают R 0,1 1,00 1,25 0,00054 383340 0,489 3,6650 5,4876 159,520 R 0,1 1,00 1,50 0,00195 105627 0,490 3,6020 5,5407 44,557 R 0,1 1,00 1,75 0,00398 53239 0,486 3,6797 5,3274 22,019 R 0,1 1,00 2,00 0,00648 33127 0,482 3,6881 5,2479 13,608 R 0,3 1,00 1,25 0,00442 46291 0,489 3,5949 5,3447 19,616 R 0,9 1,00 1,25 0,00719 28630 0,488 3,6647 5,4056 11,901 A 0,9 1,25 1,56 0,00826 25084 0,481 3,6541 5,4590 10,343 D 0,1 1,25 1,25 0,00814 25324 0,485 3,6608 5,4397 10,488 Продолжение таблицы 7. Costs, 1e9xG1 (y) 7.8.3 Оптимальное дискретное планирование двухэтапного эксперимента Современные технологии сканирования ДНК позволяют выполнять параллельную обработку нескольких образцов с помощью микроплашек, которые имеют, как правило, размер 96 или 384 ячеек (рисунок 7.12).

Поэтому, вообще говоря, более рационально планировать эксперимент, который загружает максимальное количество микроплашек на первом этапе (на втором этапе сканируется небольшое число участков ДНК, поэтому используется другая технология). Таким образом, к начальной постановке по поиску оптимального плана добавляется условие кратности числа испытуемых на первом этапе числу ячеек в микроплашке.

Решение данной задачи может быть выполнено в два этапа: сначала находится оптимальный непрерывный план, а затем проводится минимизация затрат по узлам дискретной сетки, которая строится вокруг оптимального непрерывного плана.



Pages:     || 2 |


Похожие работы:

«Мальцева Юлия Михайловна ЕВРОПЕЙСКИЙ АВАНГАРДНЫЙ ДРАМАТИЧЕСКИЙ ТЕАТР: КОНЦЕПТУАЛЬНЫЕ КОНСТАНТЫ И ДИСКУРСИВНЫЕ ТРАНСФОРМАЦИИ. Специальность: 09.00.13. – философская антропология, философия культуры Диссертация на соискание ученой степени кандидата философских наук Научный руководитель : доктор философских наук профессор кафедры культурологии СПбГУ Соколов Евгений Георгиевич Санкт-Петербург Содержание. Введение... Глава I....»

«ОВАНЕСОВ Михаил Владимирович Влияние факторов внутреннего пути свертывания крови на пространственную динамику роста сгустка 03.00.02 - биофизика Диссертация на соискание ученой степени кандидата биологических наук Научный руководитель : доктор биологических наук, профессор Ф.И. Атауллаханов Москва Final Aug2002 diss15(final)15print(final).doc СОДЕРЖАНИЕ Список сокращений ВВЕДЕНИЕ...»

«ГИНЗБУРГ Юрий Владимирович Формирование предмета наук и финансового права в России в XIX — начале XX века 12.00.04 — Финансовое право; налоговое право; бюджетное право Диссертация на соискание ученой степени кандидата юридических наук Научный руководитель доктор юридических наук, профессор Козырин А.Н. Москва 2014 СОДЕРЖАНИЕ Введение Глава 1. Генезис финансового права § 1. Особенности эволюции финансового права...»

«НЕДОЛУЖКО Илья Валерьевич ИНТЕГРАЦИЯ РЕСУРСОВ СПУТНИКОВОГО ЦЕНТРА В ИНФОРМАЦИОННЫЕ СИСТЕМЫ НАБЛЮДЕНИЯ ЗА ЗЕМЛЁЙ специальность 05.13.11 — математическое и программное обеспечение вычислительных машин, комплексов, компьютерных сетей ДИССЕРТАЦИЯ на соискание учёной степени кандидата технических наук Научный руководитель : д.т.н....»

«Лапшина Татьяна Николаевна ПСИХОФИЗОЛОГИЧЕСКАЯ ДИАГНОСТИКА ЭМОЦИЙ ЧЕЛОВЕКА ПО ПОКАЗАТЕЛЯМ ЭЭГ Специальность 19.00.02 - Психофизиология (психологические наук и) Диссертация на соискание ученой степени кандидата психологических наук Научный руководитель доктор психологических наук, профессор Черноризов Александр Михайлович Москва - Оглавление ОГЛАВЛЕНИЕ ИСПОЛЬЗУЕМЫЕ СОКРАЩЕНИЯ 1. ВВЕДЕНИЕ 1.1....»

«Белик Глеб Андреевич Метод повышения устойчивости печатных узлов БРЭА космических аппаратов к возникновению ЭСР 05.12.04 - Радиотехника, в том числе системы и устройства телевидения Диссертация на соискание ученой степени кандидата технических наук Научный руководитель : д.т.н., профессор Саенко Владимир Степанович Москва, 2013 2 Содержание Введение..4 Глава 1 Объёмная электризация космических аппаратов:...»

« Ткаченко Лия Викторовна Морфо – функциональная характеристика лимфатической системы легких и их регионарных лимфатических узлов кроликов в норме и эксперименте 06.02.01 – диагностика болезней и терапия животных, онкология, патология и морфология животных Диссертация на соискание ученой степени доктора биологических наук...»

«C.Z.U.: 330.332:658:005(043.3)161.1 S-58 СИМОВ ДЕНИС ВЛАДИМИРОВИЧ РАЗРАБОТКА И РЕАЛИЗАЦИЯ ИНВЕСТИЦИОННОЙ СТРАТЕГИИ, ОРИЕНТИРОВАННОЙ НА ЭКОНОМИЧЕСКУЮ РЕНТАБЕЛЬНОСТЬ СОВРЕМЕННОГО ПРЕДПРИЯТИЯ 08.00.05 – Экономика и менеджмент (предпринимательская деятельность предприятия) Диссертация на соискание ученой степени доктора экономики Научный руководитель доктор экономики, конф. универ. _ Благоразумная Ольга Автор _ Кишинев, © Симов Денис,...»

«ЧЖОУ ХАНЬ ЖУЙ ФРАЗЕОЛОГИЗМ КАК ЭТНОКУЛЬТУРНЫЙ ФЕНОМЕН: ЛИНГВОСТРАНОВЕДЧЕСКИЙ АСПЕКТ (на материале китайского и русского языков) 10.02.19. – Теория языка Диссертация на соискание учёной степени кандидата филологических наук Научный руководитель – доктор филологических наук, профессор Л.Ю. Буянова Краснодар 2014 Содержание ВВЕДЕНИЕ.. ГЛАВА 1. Фразеологизм как единица языка и речи: общетеоретические аспекты интерпретации.. 1.1....»

«РАДЬКО Сергей Иванович РАЗРАБОТКА И ИССЛЕДОВАНИЕ ЭЛЕКТРОТЕХНОЛОГИЧЕСКОГО ОБОРУДОВАНИЯ ДЛЯ ПЕРЕРАБОТКИ ТЕХНОГЕННЫХ ОТХОДОВ С ИСПОЛЬЗОВАНИЕМ ПАРОВОДЯНОГО ПЛАЗМОТРОНА Специальность: 05.09.10 – Электротехнология Диссертация на соискание ученой степени кандидата технических наук Научный руководитель – доктор технических наук,...»

«ВЯТКИНА ВАЛЕРИЯ ВАЛЕРЬЕВНА ФОРМИРОВАНИЕ ЦЕЛЕВЫХ КОМПЛЕКСНЫХ ПРОГРАММ СОЦИАЛЬНОЙ ЗАЩИТЫ ДЕТЕЙ-СИРОТ В РЕГИОНЕ Специальность 08.00.05 – Экономика и управление народным хозяйством: региональная экономика; экономика, организация и управление предприятиями, отраслями, комплексами: сфера услуг...»

«Краева Юлия Валерьевна РАЗРАБОТКА НАУЧНО-ОРГАНИЗАЦИОННЫХ ПОДХОДОВ К ОПТИМИЗАЦИИ ЛЕЧЕНИЯ БОЛЬНЫХ С ОСТРЫМИ ОТРАВЛЕНИЯМИ НА ДОГОСПИТАЛЬНОМ ЭТАПЕ 14.03.04 – токсикология Диссертация на соискание ученой степени кандидата медицинских наук Научный руководитель : Доктор медицинских наук Брусин...»

«Шкрыгунов Константин Игоревич Эффективность использования тыквенного жмыха и фуза в кормлении цыплят-бройлеров 06.02.08 кормопроизводство, кормление сельскохозяйственных животных и технология кормов ДИССЕРТАЦИЯ на соискание ученой степени кандидата сельскохозяйственных наук Научный руководитель : доктор сельскохозяйственных...»

«УДК 538.566:621.372:535.417:539.293:537.87 Козарь Анатолий Викторович ИНТЕРФЕРЕНЦИОННЫЕ ЯВЛЕНИЯ В СЛОИСТЫХ СТРУКТУРАХ И ИХ ПРИМЕНЕНИЕ В ЗАДАЧАХ ПРИЕМА СИГНАЛОВ И ДИАГНОСТИКИ НЕОДНОРОДНЫХ СРЕД Специальность : 01.04.03. – радиофизика; 01.04.05. - оптика ДИССЕРТАЦИЯ в виде научного доклада на соискание ученой степени доктора физико-математических наук Москва 2004г. Работа выполнена на кафедре...»

«МОИСЕЕВА ЕКАТЕРИНА НИКОЛАЕВНА ЭКОНОМИКО-СОЦИОЛОГИЧЕСКИЙ АНАЛИЗ РЫНКА РИТУАЛЬНЫХ УСЛУГ В РОССИИ 22.00.03 – Экономическая социология и демография (социологические наук и) диссертация на соискание ученой степени кандидата социологических наук Научный руководитель – доктор социологических...»

«Жердев Павел Александрович ПЕРВОНАЧАЛЬНЫЙ ЭТАП РАССЛЕДОВАНИЯ ПРЕСТУПЛЕНИЙ, СВЯЗАННЫХ С ПОДДЕЛКОЙ ИЛИ УНИЧТОЖЕНИЕМ ИДЕНТИФИКАЦИОННОГО НОМЕРА ТРАНСПОРТНОГО СРЕДСТВА В ЦЕЛЯХ ЭКСПЛУАТАЦИИ ИЛИ СБЫТА Специальность 12.00.12 – криминалистика; судебно-экспертная деятельность; оперативно-розыскная деятельность Диссертация на соискание...»

«КАЗИЕВА Ирина Эльбрусовна КЛИНИКО-ЭКСПЕРИМЕНТАЛЬНОЕ ОБОСНОВАНИЕ К ИСПОЛЬЗОВАНИЮ ИНГИБИТОРА РЕЗОРБЦИИ КОСТНОЙ ТКАНИ НА ОСНОВЕ РАСТИТЕЛЬНЫХ ФЛАВОНОИДОВ ПРИ ДЕНТАЛЬНОЙ ИМПЛАНТАЦИИ 14.01.14 – стоматология ДИССЕРТАЦИЯ на соискание ученой степени кандидата медицинских наук Научный...»

«Раскин Михаил Александрович Сверхслова, меры на них и их полупрямые произведения 01.01.06 – математическая логика, алгебра и теория чисел диссертация на соискание ученой степени кандидата физико-математических наук Научный руководитель д. ф.-м. н., профессор Николай Константинович Верещагин Москва – 2014 2 Содержание Введение...........................»

«КАРКИЩЕНКО Елизавета Александровна ГЕНДЕРНЫЕ СТЕРЕОТИПЫ: ДИСКУРСНЫЕ СРЕДСТВА ФОРМИРОВАНИЯ И РЕПРЕЗЕНТАЦИИ В КОММУНИКАТИВНОМ ПОВЕДЕНИИ ПОДРОСТКОВ 10.02.19 – Теория языка Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель : д.ф.н., профессор В.В. КРАСНЫХ Москва СОДЕРЖАНИЕ ВВЕДЕНИЕ ГЛАВА I. ГЕНДЕР В ГУМАНИТАРНЫХ ИССЛЕДОВАНИЯХ....»

«НИКОЛОВА ВЯРА ВАСИЛЕВА РУССКАЯ ДРАМАТУРГИЯ В БОЛГАРСКОМ КНИГОИЗДАНИИ 1890-1940-Х ГОДОВ Специальность 05.25.03 – Библиотековедение, библиографоведение и книговедение Диссертация на соискание ученой степени кандидата филологических наук Научный руководитель : кандидат филологических наук, профессор И.К....»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.