WWW.DISS.SELUK.RU

БЕСПЛАТНАЯ ЭЛЕКТРОННАЯ БИБЛИОТЕКА
(Авторефераты, диссертации, методички, учебные программы, монографии)

 

Pages:     || 2 | 3 | 4 | 5 |

«ПРИКЛАДНАЯ СТАТИСТИКА Учебник для вузов Издательство ЭКЗАМЕН МОСКВА 2004 1 Орлов А.И. Прикладная статистика. Учебник. / А.И.Орлов.- М.: Издательство Экзамен, 2004. - 656 с. Аннотация Учебник посвящен основным методам ...»

-- [ Страница 1 ] --

А.И.Орлов

ПРИКЛАДНАЯ СТАТИСТИКА

Учебник для вузов

Издательство

«ЭКЗАМЕН»

МОСКВА

2004

1

Орлов А.И.

Прикладная статистика. Учебник. / А.И.Орлов.- М.: Издательство «Экзамен», 2004. - 656 с.

Аннотация Учебник посвящен основным методам современной прикладной статистики. В первой части рассмотрен вероятностно-статистический фундамент прикладной статистики.

Основные проблемы прикладной статистики – описание данных, оценивание, проверка гипотез – разобраны во второй части. Методам статистического анализа числовых величин, многомерного статистического анализа, временных рядов, статистики нечисловых и интервальных данных посвящена третья часть учебника. Обсуждается методология прикладной статистики, ее современное состояние и перспективы развития. Изложение соответствует рекомендациям Российской академии статистических методов.

Каждая глава учебника – это введение в большую область прикладной статистики.

Приведенные литературные ссылки помогут выйти на передний край теоретических и прикладных работ, познакомиться с доказательствами теорем, помещенных в учебник.

Для студентов и преподавателей вузов, слушателей институтов повышения квалификации, структур второго образования и программ МВА («Мастер делового администрирования»), инженеров различных специальностей, менеджеров, экономистов, социологов, научных и практических работников, связанных с анализом данных.

ОГЛАВЛЕНИЕ

Предисловие Введение. Прикладная статистика как область научно-практической деятельности Часть 1. Фундамент прикладной статистики 1.1. Различные виды статистических данных 1.1.1. Количественные и категоризованные данные 1.1.2. Основные шкалы измерения 1.1.3. Нечисловые данные 1.1.4. Нечеткие множества – частный случай нечисловых данных 1.1.5. Данные и расстояния в пространствах произвольной природы 1.1.6. Аксиоматическое введение расстояний 1.2. Основы вероятностно-статистических методов описания неопределенностей в прикладной статистике 1.2.1. Теория вероятностей и математическая статистика – научные основы прикладной статистики 1.2.2. Основы теории вероятностей 1.2.3. Суть вероятностно-статистических методов 1.2.4. Случайные величины и их распределения 1.2.5. Основные проблемы прикладной статистики - описание данных, оценивание и проверка гипотез 1.2.6. Некоторые типовые задачи прикладной статистики и методы их решения 1.3. Выборочные исследования 1.3.1. Применение случайной выборки (на примере оценивания функции спроса) 1.3. 2. Маркетинговые опросы потребителей 1.3. 3. Проверка однородности двух биномиальных выборок 1.4. Теоретическая база прикладной статистики 1.4.1. Законы больших чисел 1.4.2. Центральные предельные теоремы 1.4.3. Теоремы о наследовании сходимости 1.4.4. Метод линеаризации 1.4.5. Принцип инвариантности 1.4.6. Нечеткие множества как проекции случайных множеств 1.4.7. Устойчивость выводов и принцип уравнивания погрешностей.

Часть 2. Основные проблемы прикладной статистики 2.1. Описание данных 2.1.1. Модели порождения данных 2.1.2. Таблицы и выборочные характеристики 2.1.3. Шкалы измерения, инвариантные алгоритмы и средние величины 2.1.4. Вероятностные модели порождения нечисловых данных 2.1.5. Средние и законы больших чисел 2.1.6. Непараметрические оценки плотности 2.2. Оценивание 2.2.1. Методы оценивания параметров 2.2.2. Одношаговые оценки 2.2.3. Асимптотика решений экстремальных статистических задач 2.2.4. Робастность статистических процедур 2.3. Проверка гипотез 2.3.1. Метод моментов проверки гипотез 2.3.2. Неустойчивость параметрических методов отбраковки выбросов 2.3.3. Предельная теория непараметрических критериев 2.3.4. Метод проверки гипотез по совокупности малых выборок 2.3.5. Проблема множественных проверок статистических гипотез 3.1. Статистический анализ числовых величин 3.1.1. Оценивание основных характеристик распределения 3.1.2. Методы проверки однородности характеристик двух независимых выборок 3.1.3. Двухвыборочный критерий Вилкоксона 3.1.4. Состоятельные критерии проверки однородности независимых выборок 3.1.5. Методы проверки однородности связанных выборок 3.1.6. Проверка гипотезы симметрии 3.2. Многомерный статистический анализ 3.2.1. Коэффициенты корреляции 3.2.2. Восстановление линейной зависимости между двумя переменными 3.2.3. Основы линейного регрессионного анализа 3.2.4. Основы теории классификации 3.2.5. Статистические методы классификации 3.2.6. Методы снижения размерности 3.2.7. Индексы и их применение 3.3. Статистика временных рядов 3.3.1. Методы анализа и прогнозирования временных рядов 3.3.2. Оценивание длины периода и периодической составляющей 3.3.3. Метод ЖОК оценки результатов взаимовлияний факторов 3.3.4. Моделирование и анализ многомерных временных рядов 3.3.5. Балансовые соотношения в многомерных временных рядах 3.4. Статистика нечисловых данных 3.4.1. Структура статистики нечисловых данных 3.4.2. Теория случайных толерантностей 3.4.3. Теория люсианов 3.4.4. Метод парных сравнений 3.4.5. Статистика нечетких множеств 3.4.6. Статистика нечисловых данных в экспертных оценках 3.5. Статистика интервальных данных 3.5.1. Основные идеи статистики интервальных данных 3.5.2. Интервальные данные в задачах оценивания характеристик и параметров распределения 3.5.3. Интервальные данные в задачах проверки гипотез 3.5.4. Линейный регрессионный анализ интервальных данных 3.5.5. Интервальный дискриминантный анализ 3.5.6. Интервальный кластер-анализ 3.5.7. Статистика интервальных данных и оценки погрешностей характеристик финансовых потоков инвестиционных проектов 3.5.8. Место статистики интервальных данных (СИД) в прикладной статистике Часть 4. Заключение. Современная прикладная статистика 4.1. Точки роста 4.2. Высокие статистические технологии 4.3. Компьютеры в прикладной статистике 4.4. Основные нерешенные проблемы прикладной статистики Приложение 1. Методологические вопросы прикладной статистики Приложение 2. Глазами американцев: российская дискуссия о прикладной статистике Приложение 3. Об авторе этой книги

ПРЕДИСЛОВИЕ



Прикладная статистика – это наука о том, как обрабатывать данные. Методы прикладной статистики активно применяются в технических исследованиях, экономике, теории и практике управления (менеджмента), социологии, медицине, геологии, истории и т.д. С результатами наблюдений, измерений, испытаний, опытов, с их анализом имеют дело специалисты во всех отраслях практической деятельности, почти во всех областях теоретических исследований. Настоящий учебник позволяет овладеть современными методами прикладной статистики на уровне, достаточном для использования этих методов в научной и практической деятельности.

Содержание учебника. Учебник посвящен основным методам современной прикладной статистики и состоит из четырех частей. В первой части рассмотрен вероятностно-статистический фундамент прикладной статистики. Для удобства читателей включены основы современной теории вероятностей и математической статистики, на которых базируется прикладная статистика.

Основные проблемы прикладной статистики – описание данных, оценивание, проверка гипотез – разобраны во второй части. Методам статистического анализа числовых величин, многомерного статистического анализа, временных рядов, статистики нечисловых и интервальных данных посвящена третья часть учебника. В заключительной четвертой части обсуждаются перспективы развития прикладной статистики и ее методология. В конце каждой главы приведены процитированные в ней литературные источники, контрольные вопросы и задачи, а также темы докладов, рефератов, исследовательских работ. Нумерация таблиц, рисунков, формул, теорем, примеров проводится по главам, в отдельных случаях – по подразделам (параграфам, пунктам).

Общее количество статей и книг по прикладной статистике давно превысило 106, из них актуальными к настоящему времени являются не менее 105. Конкретный специалист может овладеть несколькими тысячами из них. Следовательно, ни один исследователь не может претендовать на знакомство более чем с 2-3% актуальных публикаций, и в любом учебнике содержится лишь небольшая часть знаний, накопленных в прикладной статистике. Однако автор надеется, что наиболее важные подходы, идеи, результаты и алгоритмы расчетов включены в учебник. Эта надежда основана на более чем тридцатилетнем опыте теоретической и практической работы в прикладной статистике, на совокупном опыте членов научных сообществ, скрупулезном анализе положения в прикладной статистике при создании Всесоюзной статистической ассоциации, Российской ассоциации статистических методов и Российской академии статистических методов.

В отличие от учебной литературы по математическим дисциплинам, в настоящей книге практически отсутствуют доказательства. Однако в нескольких случаях мы сочли целесообразным их привести. При первом чтении доказательства теорем можно пропустить.

О роли литературных ссылок в учебнике необходимо сказать достаточно подробно.

Прежде всего, эта книга представляет собой замкнутый текст, не требующий для своего понимания ничего, кроме знания стандартных учебных курсов высшей математике. Зачем же нужны ссылки? Доказательства всех приведенных в учебнике теорем приведены в ранее опубликованных статьях и монографиях. Дотошный читатель, в частности, при подготовке рефератов и при желании глубже проникнуть в материал учебника, может обратиться к приведенным в каждой главе спискам цитированной литературы. Каждая глава учебника – это введение в большую область прикладной статистики. Приведенные литературные ссылки помогут читателям выйти на передний край теоретических и прикладных работ, познакомиться с доказательствами теорем, включенных в учебник. За многие десятилетия накопились большие книжные богатства, и их надо активно использовать.

Включенные в учебник материалы прошли многолетнюю и всестороннюю проверку. Кроме МГТУ им. Н.Э.Баумана, они использовались при преподавании во многих других отечественных и зарубежных образовательных структурах. О некоторых из них можно получить представление из справки «Об авторе этой книги» в конце учебника.

В 2002 и 2003 гг. издательством «Экзамен» был выпущен двумя изданиями учебник «Эконометрика» А.И.Орлова. Это говорит об актуальности тематики настоящего учебника, поскольку под эконометрикой понимают применение статистических методов (в том числе прикладной статистики) в экономике и управлении (менеджменте).

Для кого написан учебник? Учебник предназначен для студентов различных специальностей, прежде всего технических, управленческих и экономических, слушателей институтов повышения квалификации, структур послевузовского (в том числе второго) образования, в частности, программ МВА («Мастер делового администрирования»), преподавателей вузов. Он будет полезен инженерам, менеджерам, экономистам, социологам, биологам, медикам, психологам, историкам, другим специалистам, самостоятельно повышающим свой научный уровень. Короче, всем научным и практическим работникам, связанным с анализом данных.

Учебник может быть использован при изучении дисциплин, полностью или частично посвященным методам анализа результатов наблюдений (измерений, испытаний, опытов). Типовые названия таких вузов - «Прикладная статистика», «Эконометрика», «Анализ данных», «Многомерный статистический анализ», «Общая теория статистики», «Планирование эксперимента», «Биометрика», «Теория принятия решений», «Управленческие решения», «Экономико-математическое моделирование», «Математические методы прогнозирования», «Прогнозирование и технико-экономическое планирование», «Хемометрия», «Математические методы в социологии», «Математические методы в геологии» и т.п.

Специалистам по теории вероятностей и математической статистике эта книга также может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную математическую статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований.

Отечественная научная школа по прикладной статистике. В нашей стране прикладная статистика активно развивалась с начала 1980-х годов. В 1990 г. при создании Всесоюзной статистической ассоциации (ВСА) одной из ее четырех секций была секция прикладной статистики, а руководитель этой секции А.И.Орлов был избран вицепрезидентом ВСА. В XXI в. развитие при5кладной статистики продолжается в рамках Российской ассоциации статистических методов и Российской академии статистических методов.

По ряду причин исторического характера основное место публикаций научных работ по прикладной статистике в нашей стране - отдел "Математические методы исследования" журнала "Заводская лаборатория". В отделе публикуются статьи по статистическим методам анализа технических и технико-экономических данных. Автор искренне благодарен главному редактору журнала академику РАН Н.П.Лякишеву, зам.

главного редактора М.Г.Плотницкой, редактору отдела М.Е.Носовой. Автору приятно выразить радость от возможности работать вместе со своими коллегами по секции "Математические методы исследования", прежде всего с заслуженным деятелем науки РФ проф. В.Г.Горским. Автор искренне благодарен своим учителям - академику АН УССР Б.Г.

Гнеденко, члену-корреспонденту АН СССР Л.Н. Большеву, проф. В.В. Налимову.

Автор искренне благодарен заведующему кафедрой "Экономика и организация производства" факультета "Инженерный бизнес и менеджмент" Московского государственного технического университета им. Н.Э. Баумана профессору, доктору экономических наук С.Г. Фалько за постоянную поддержку проекта по разработке и внедрению эконометрических курсов. Хотелось бы сказать спасибо всему коллективу кафедры и факультета в целом, декану и членам Ученого Совета, поддержавшим инициативу о введении эконометрики в учебный процесс МГТУ им. Н.Э.Баумана.

С текущей научной информацией по прикладной статистике проще всего познакомиться на сайтах автора www.antorlov.chat.ru, www.newtech.ru/~orlov, www.antorlov.euro.ru, входящих в Интернет. Достаточно большой объем информации содержит электронный еженедельник "Эконометрика", выпускаемый с июля 2000 г. (автор искренне благодарен редактору этого электронного издания А.А.Орлову за многолетний энтузиазм по выпуску еженедельника).

В учебнике изложено представление о прикладной статистике, соответствующее общепринятому в мире. Изложение доведено до современного уровня научных исследований в этой области. Конечно, возможны различные точки зрения по тем или иным частным вопросам. Автор будет благодарен читателям, если они сообщат свои вопросы и замечания по адресу издательства или непосредственно автору по электронной почте Е-mail: [email protected].

как область научно-практической деятельности Развитие представлений о статистике. Впервые термин «статистика» мы находим в художественной литературе – в «Гамлете» Шекспира (1602 г., акт 5, сцена 2). Смысл этого слова у Шекспира – знать, придворные. По-видимому, оно происходит от латинского слова status, что в оригинале означает «состояние» или «политическое состояние».

В течение следующих 400 лет термин «статистика» понимали и понимают поразному. В работе [1] собрано более 200 определений этого термина, некоторые из которых приводятся ниже.

Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение:

«Статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб (в нашей стране – Государственного комитета РФ по статистике) вполне укладывается в это определение.

Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту «Статистика – это бюджет вещей». Тем самым статистические методы были признаны полезными не только для административного управления, но и на уровне отдельного предприятия. Согласно формулировке 1833 г. «цель статистики заключается в представлении фактов в наиболее сжатой форме». Приведем еще два высказывания. Статистика состоит в в наблюдении явлений, которые могут быть подсчитаны или выражены посредством чисел (1895). Статистика – это численное представление фактов из любой области исследования в их взаимосвязи (1909).

В ХХ в. статистику часто рассматривают прежде всего как самостоятельную научную дисциплина. Статистика есть совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных (1925). В 1954 г. академик АН УССР Б.В. Гнеденко дал следующее определение:

«Статистика состоит из трех разделов:

1) сбор статистических сведений, т.е. сведений, характеризующих отдельные единицы каких-либо массовых совокупностей;

2) статистическое исследование полученных данных, заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;

3) разработка приемов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».

Термин «статистика» употребляют еще в двух смыслах. Во-первых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Во-вторых, статистикой называют функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.

Чтобы подойти к термину «прикладная статистика», кратко рассмотрим историю реальных статистических работ.

Краткая история статистических методов. Типовые примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.

В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Госкомстат РФ. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм. Однако нет продвижения по сравнению с работами российских статистиков конца девятнадцатого начала двадцатого века (типовой монографией тех времен можно считать книгу [2], которая в настоящее время ещё легко доступна).

Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных.

Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0.5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов исследований, к лучшим из них относится очерк [3].

В 1794 г. (по другим данным - в 1795 г.) К.Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты астероида Церера - для борьбы с ошибками астрономических наблюдений [4]. В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [5]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской АН М.В.

Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х в. [3].

Статистические методы управления качеством и сертификации продукции сейчас весьма актуальны [6].

Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основан журнал «Biometrika». Первая треть ХХ в. прошла под знаком параметрической статистики. Изучались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона.

Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный анализ, сформулированы основные идеи планирования эксперимента.

Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство.

Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных величин, то сумму естественно описывать нормальным распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств чисто формальная операция.

Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н.Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [7]. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, далеких от новых веяний в статистике. Почему так происходит? Чтобы попытаться ответить на этот вопрос, обратимся к наукометрии.

Наукометрия статистических исследований. В рамках движения за создание Всесоюзной статистической ассоциации (учреждена в 1990 г.) был проведен назад анализ статистики как области научно-практической деятельности. Он показал, в частности, что актуальными для специалистов в настоящее время являются не менее чем 100 тысяч публикаций (подробнее см. статьи [8,9]). Реально же каждый из нас знаком с существенно меньшим количеством книг и статей. Так, в известном трехтомнике М Кендалла и А.

Стьюарта [10-12] – наиболее полном на русском языке издании по статистическим методам - всего около 2 тысяч литературных ссылок. При всей очевидности соображений о многократном дублировании в публикациях ценных идей приходится признать, что каждый специалист по прикладной статистике владеет лишь небольшой частью накопленных в этой области знаний. Не удивительно, что приходится постоянно сталкиваться с игнорированием или повторением ранее полученных результатов, с уходом в тупиковые (с точки зрения практики) направления исследований, с беспомощностью при обращении к реальным данным, и т.д. Все это - одно из проявлений адапционного механизма торможения развития науки, о котором еще 30 лет назад писали В.В.Налимов и другие науковеды (см., например, [13]).

Традиционный предрассудок состоит в том, что каждый новый результат, полученный исследователем - это кирпич в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом, а затем и при решении практических задач. Реальная ситуация - совсем иная. Основа профессиональных знаний исследователя, инженера, экономиста менеджера, социолога, историка, геолога, медика закладывается в период обучения. Затем знания пополняются в том узком направлении, в котором работает специалист. Следующий этап - их тиражирование новому поколению. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, согласно мнению экспертов, по научному уровню в основном соответствуют 40-60-м годам ХХ в. А потому середине ХХ в. соответствует большинство вновь публикуемых исследований и тем более - прикладных работ. Одновременно приходится признать, что результаты, не вошедшие в учебники, независимо от их ценности почти все забываются.

Активно продолжается развитие тупиковых направлений. Психологически это понятно. Приведу пример из своего опыта. В свое время по заказу Госстандарта я разработал методы оценки параметров гамма-распределения [14]. Поэтому мне близки и интересны работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам, понятия функции максимального правдоподобия, эффективности оценок, использование неравенства РаоКрамера и т.д. К сожалению, я знаю, что это - тупиковая ветвь теории статистики, поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы, о которых речь пойдет ниже. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим утверждением. В том числе и мне. Но необходимо идти вперед. Поэтому настоящий учебник очищен от тупиковых подходов. В том числе и от неравенства Рао-Крамера.

Появление прикладной статистики. В нашей стране термин «прикладная статистика» вошел в широкое употребление в 1981 г. после выхода массовым тиражом (33940 экз.) сборника «Современные проблемы кибернетики (прикладная статистика)». В этом сборнике обосновывалась трехкомпонентная структура прикладной статистики [15].

Во-первых, в нее входят ориентированные на прикладную деятельность статистические методы анализа данных (эту область можно назвать прикладной математической статисткой и включать также и в прикладную математику). Однако прикладную статистику нельзя целиком относить к математике. Она включает в себя две внематематические области. Во-первых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, как представлять результаты. Во-вторых, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных.

В нашей стране термин «прикладная статистика» использовался и ранее 1981 г., но лишь внутри сравнительно небольших и замкнутых групп специалистов [15].

Прикладная статистика и математическая статистика – это две разные научные дисциплины. Различие четко проявляется и при преподавании. Курс математической статистики состоит в основном из доказательств теорем, как и соответствующие учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе).

Структура современной статистики. Внутренняя структура статистики как науки была выявлена и обоснована при создании в 1990 г. Всесоюзной статистической ассоциации [9]. Прикладная статистика - методическая дисциплина, являющаяся центром статистики. При применении методов прикладной статистики к конкретным областям знаний и отраслям народного хозяйства получаем научно-практические дисциплины типа "статистика в промышленности", "статистика в медицине" и др. С этой точки зрения эконометрика - это "статистические методы в экономике" [6]. Математическая статистика играет роль математического фундамента для прикладной статистики.

К настоящему времени очевидно четко выраженное размежевание этих двух научных направлений. Математическая статистика исходит из сформулированных в 1930гг. постановок математических задач, происхождение которых связано с анализом статистических данных. Начиная с 70-х годов ХХ в. исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих задач.

Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.

Сам термин «прикладная статистика» возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.

Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением. Как правило, математические дисциплины проходят в своем развитии ряд этапов. Вначале в какой-либо прикладной области возникает необходимость в применении математических методов и накапливаются соответствующие эмпирические приемы (для геометрии это - "измерение земли", т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это - время Евклида). Затем идет внутриматематическое развитие и преподавание (считается, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та порождает новые научные дисциплины (сейчас "измерением земли" занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке). Следующий этап - окончательное вытеснение дисциплины из реальной жизни в историю науки (объем преподавания элементарной геометрии в настоящее время постепенно сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечает проф.

МГУ им. М.В. Ломоносова В.Н. Тутубалин [16], теория вероятностей и математическая статистика успешно двигаются по ее пути - вслед за элементарной геометрией.

Подведем итог. Хотя статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете), современная математическая статистика как наука была создана, по общему мнению специалистов, сравнительно недавно - в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики. После чего специалисты по математической статистике занялись внутриматематическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина - прикладная статистика.

В настоящее время статистическая обработка данных проводится, как правило, с помощью соответствующих программных продуктов. Разрыв между математической и прикладной статистикой проявляется, в частности, в том, что большинство методов, включенных в статистические пакеты программ (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам [17].

Что дает прикладная статистика народному хозяйству? Так называлась статья [18], в которой приводились многочисленные примеры успешного использования методов прикладной математической статистики при решении практических задач. Перечень примеров можно продолжать практически безгранично (см., например, недавнюю сводку [19]).

Методы прикладной статистики используются в зарубежных и отечественных экономических и технических исследованиях, работах по управлению (менеджменту), в медицине, социологии, психологии, истории, геологии и других областях. Их применение дает заметный экономический эффект. Например, в США - не менее 20 миллиардов долларов ежегодно только в области статистического контроля качества. В 1988 г. затраты на статистический анализ данных в нашей стране оценивались в 2 миллиарда рублей ежегодно [20]. Согласно расчетам сравнительной стоимости валют на основе потребительских паритетов [5], эту величину можно сопоставить с 2 миллиардами долларов США. Следовательно, объем отечественного "рынка статистических услуг" был на порядок меньше, чем в США, что совпадает с оценками и по другим показателям, например, по числу специалистов.

Публикации по новым статистическим методам, по их применениям в техникоэкономических исследованиях, в инженерном деле постоянно появляются, например, в журнале "Заводская лаборатория", в секции "Математические методы исследования". Надо назвать также журналы "Автоматика и телемеханика" (издается Институтом проблем управления Российской академии наук), "Экономика и математические методы" (издается Центральным экономико-математическим институтом РАН).

Однако необходимо констатировать, что для большинства менеджеров, экономистов и инженеров прикладная статистика является пока экзотикой. Это объясняется тем, что в вузах современным статистическим методам почти не учат. Во всяком случае, по состоянию на 2003 г. каждый квалифицированный специалист в этой области - самоучка.

Этому выводу не мешает то, что в вузовских программах обычно есть два курса, связанных со статистическими методами. Один из них - "Теория вероятностей и математическая статистика". Этот небольшой курс обычно читают специалисты с математических кафедр. Они успевают дать лишь общее представление об основных понятиях математической статистики. Кроме того, внимание математиков обычно сосредоточено на внутриматематических проблемах, их больше интересует доказательства теорем, а не применение современных статистических методов в задачах экономики и менеджмента. Другой курс - "Статистика" или "Общая теория статистики", входящий в стандартный блок экономических дисциплин. Фактически он является введением в прикладную статистику и содержит первые начала эконометрических методов (по состоянию на 1900 г.).

Прикладная статистика как учебный предмет опирается на два названных вводных курса. Она призвана вооружить специалиста современным статистическим инструментарием. Специалист – это инженер, экономист, менеджер, геолог, медик, социолог, психолог, историк, химик, физик и т.д. Во многих странах мира - Японии и США, Франции и Швейцарии, Перу и Ботсване и др. - статистическим методам обучают в средней школе. ЮНЕСКО постоянно проводят конференции по вопросам такого обучения [21]. В СССР и СЭВ, а теперь - по плохой традиции - и в России игнорируют этот предмет в средней школе и лишь слегка затрагивают его в высшей. Результат на рынке труда очевиден - снижение конкурентоспособности специалистов.

Проблемы прикладной статистики постоянно обсуждаются специалистами.

Широкий интерес вызвала дискуссия в журнале «Вестник статистики», в рамках которой были, в частности, опубликованы статьи [9, 18]. На появление в нашей стране прикладной статистики отреагировали и в США [22].

В нашей стране получены многие фундаментальные результаты прикладной статистики. Огромное значение имеют работы академика РАН А.Н. Колмогорова [23]. Во многих случаях именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений прикладной статистики. Зачастую еще 50-70 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Как правило, его работы не устарели и сейчас. Свою жизнь посвятили прикладной статистике члены-корреспонденты АН СССР Н.В. Смирнов и Л.Н. Большев. В настоящем учебнике постоянно встречаются ссылки на лучшую публикацию ХХ в. по прикладной статистике – составленные ими подробно откомментированные «Таблицы …» [24].

Структура учебника. Настоящий учебник состоит из четырех основных частей.

Первая из них посвящена фундаменту здания современной прикладной статистики.

Анализируются различные виды статистических данных - количественных и категоризованных (качественных), нечисловых и нечетких, соответствующих тем или иным шкалам измерения. Современная прикладная статистика позволяет анализировать данные в пространствах произвольной природы, при этом ее математический аппарат опирается на использование расстояний в таких пространствах. Дается представление о введении расстояний с помощью тех или иных систем аксиом.

Современная прикладная статистика основана на использовании вероятностных моделей. Поэтому мы сочли полезным включить в учебник главу 1.2, посвященную основам вероятностно-статистических методов описания неопределенностей в прикладной статистике. Обсуждаются понятия вероятностного пространства, случайной величины, ее распределения и характеристик. Дается представление об основных проблемах прикладной статистики - описании данных, оценивании, проверке гипотез. Следующая глава посвящена выборочным исследованиям. Рассматриваются примеры применения случайных выборок при оценивании функции спроса и изучении предпочтений потребителей.

Ряд результатов теории вероятностей, составляющих теоретическую базу прикладной статистики, приведен в главе 1.4. Рассмотрены законы больших чисел, центральные предельные теоремы, теоремы о наследовании сходимости, метод линеаризации и принцип инвариантности. Показано, что нечеткие множества можно рассматривать как проекции случайных множеств. Обсуждаются проблемы устойчивости статистических выводов.

Основным проблемам прикладной статистики посвящена вторая часть. Начинаем с описания данных. При обсуждении моделей порождения данных, показано, в частности, что распределения реальных данных, как правило, не являются нормальными. Рассмотрено построение таблиц и использование выборочных характеристик. Выбор средних величин увязан со шкалами измерения данных и видом соответствующих инвариантных алгоритмов. В рамках вероятностных моделей порождения нечисловых данных введены эмпирические и теоретические средние в пространствах произвольной природы, для них доказаны законы больших чисел. В прикладной статистике широко используются непараметрические ядерные оценки плотности, в том числе в дискретных пространствах.

Среди методов оценивания параметров предпочтение отдается одношаговым оценкам. Установлено поведение решений экстремальных статистических задач при росте объемов выборок. Эти результаты позволяют установить состоятельность обычно используемых оценок. В рамках теории робастности статистических процедур изучается устойчивость оценок к малым отклонениям от исходных предпосылок.

Завершающая глава второй части посвящена проверке гипотез. Обоснован метод моментов проверки гипотез. Продемонстрирована неустойчивость параметрических методов отбраковки выбросов. Развита предельная теория непараметрических критериев.

На основе теории несмещенных оценок разработан метод проверки гипотез по совокупности малых выборок. Обсуждается проблема множественных проверок статистических гипотез.

В третьей части рассмотрены конкретные методы прикладной статистики, сгруппированные по типу обрабатываемых данных. Статистический анализ числовых величин начинается с оценивания основных характеристик распределения. Затем обсуждаются методы проверки однородности характеристик двух независимых выборок, в том числе двухвыборочный критерий Вилкоксона и состоятельные критерии проверки однородности независимых выборок. Среди различных методов проверки однородности связанных выборок выделяются ориентированные на проверку гипотезы симметрии распределения.

В многомерном статистическом анализе от коэффициентов корреляции переходим к основам линейного регрессионного анализа, рассматриваемым в основном на примере восстановления линейной зависимости между двумя переменными. Уделено внимание основам теории классификации и статистическим методам классификации, методам снижения размерности, индексам и их применению (на примере индекса инфляции).

В следующей главе рассмотрены методы анализа и прогнозирования временных рядов. Внимание уделено оцениванию длины периода и периодической составляющей.

Рассмотрен один из наиболее современных методов статистики временных рядов - метод ЖОК оценки результатов взаимовлияний факторов. Обсуждаются вопросы моделирования и анализа многомерных временных рядов, в том числе с учетом балансовых соотношений.

Одно из центральных мест в учебнике занимает статистика нечисловых данных.

Рассмотрена структура этой области прикладной статистики. Развиваются теория случайных толерантностей и теория люсианов. Проанализированы метод парных сравнений и статистика нечетких множеств. Обсуждается применение статистики нечисловых данных в теории и практике экспертных оценках.

Заключительная глава третьей части посвящена развитой в течение последних лет статистике интервальных данных. После обсуждения основных идей статистики интервальных данных рассмотрены интервальные варианты основных методов прикладной статистики. Речь идет об оценивании характеристик и параметров распределения, задачах проверки гипотез, линейном регрессионном анализе интервальных данных, интервальном дискриминантном анализе и интервальном кластер-анализе. В качестве примера практического использования разобрано применение статистики интервальных данных для оценки погрешностей характеристик финансовых потоков инвестиционных проектов.

Завершается глава обсуждением места статистики интервальных данных в прикладной статистике.

В заключительной четвертой части учебника речь идет об основных проблемах современной прикладной статистики. Выделены «точки роста» этой научно-практической дисциплины. Обсуждаются вопросы развития и внедрения высоких статистических технологий. Рассмотрена роль компьютеров при вероятностно-статистическом моделировании реальных явлений и процессов и их использование при изучении теоретических проблем анализа статистических данных. В конце четвертой части сформулированы основные нерешенные проблемы современной прикладной статистики.

К учебнику даны три приложения. В первом рассмотрены методологические вопросы прикладной статистики. Во втором рассказывается о дискуссии по основным проблемам прикладной статистики, прошедшей в нашей стране в 1980-е годы, и последовавших затем событиях. Для большей объективности отражения дискуссии в качестве приложения 2 использовано изложение статьи [22] в журнале Американской статистической ассоциации. Наконец, в приложении 3 приведены основные сведения о научной и преподавательской деятельности автора настоящего учебника, поясняющие положенные в основу учебника идеи.

Таким образом, настоящий учебник построен на основе обобщения опыта многих специалистов по анализу конкретных технических, экономических, медицинских и иных данных и отражает современное представление о прикладной статистике как самостоятельной научно-практической дисциплине.

1. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина «статистика». – М.: МГУ, 1972. – 46 с.

2. Ленин В.И. Развитие капитализма в России. Процесс образования внутреннего рынка для крупной промышленности. - М.: Политиздат, 1986. - XII, 610 с.

3. Гнеденко Б.В. Очерк по истории теории вероятностей. – М.:УРСС, 2001. – 88 с.

4. Клейн Ф. Лекции о развитии математики в ХIХ столетии. Часть I. - М.-Л.: Объединенное научно-техническое издательство НКТП СССР, 1937. - 432 с.

5. Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. - М.: Финансы и статистика. 1990. - 295 с.

6. Орлов А.И. Эконометрика. Учебник для вузов. Изд. 2-е, исправленное и дополненное. М.: Изд-во "Экзамен", 2003. – 576 с.

7. Бернштейн С.Н. Современное состояние теории вероятностей и ее приложений. - В сб.:

Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. - М.-Л.: ГИЗ, 1928. С.50-63.

8. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов. / Заводская лаборатория. 1992. Т.58. № 1. С.67-74.

9. Орлов А.И. О перестройке статистической науки и её применений. / Вестник статистики.

1990. № 1. С.65 - 71.

10. Кендалл М., Стьюарт А. Теория распределений. - М.: Наука, 1966. - 566 с.

11. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.: Наука, 1973. - 899 с.

12. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.:

Наука, 1976. - 736 с.

13. Налимов В.В., Мульченко З.М. Наукометрия. Изучение развития науки как информационного процесса. - М.: Наука, 1969. - 192 с.

14. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гамма-распределения. - М.: Изд-во стандартов.

1984. - 53 с.

15. Орлов А.И. О развитии прикладной статистики. - В сб.: Современные проблемы кибернетики (прикладная статистика). - М.: Знание, 1981, с.3-14.

16. Тутубалин В.Н. Границы применимости (вероятностно-статистические методы и их возможности). - М.: Знание, 1977. - 64 с.

17. Орлов А.И. Сертификация и статистические методы. - Журнал "Заводская лаборатория". 1997. Т.63. № 3. С.55-62.

18. Орлов А.И. Что дает прикладная статистика народному хозяйству? – Журнал «Вестник статистики». 1986, No.8. С.52 – 56.

19. Орлов А.И., Орлова Л.А. Применение эконометрических методов при решении задач контроллинга. – Журнал «Контроллинг». 2003. №4.

20. Комаров Д.М., Орлов А.И. Роль методологических исследований в разработке методоориентированных экспертных систем (на примере оптимизационных и статистических методов). - В сб.: Вопросы применения экспертных систем. - Минск:

Центросистем, 1988. С.151-160.

21. The teaching of statistics / Studies in mathematical education, vol.7. - Paris, UNESCO, 1991.

- 258 pp.

22. Котц С., Смит К. Пространство Хаусдорфа и прикладная статистика: точка зрения ученых СССР. - The American Statistician. November 1988. Vol. 42. № 4. Р. 241-244.

23. Кудлаев Э.М., Орлов А.И. Вероятностно-статистические методы исследования в работах А.Н.Колмогорова. – Журнал «Заводская лаборатория». 2003. Т.69. № 5. С.55-61.

24. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1е изд.), 1968 (2-е изд.), 1983 (3-е изд.).

1.1.1. Количественные и категоризованные данные Методы прикладной статистики – это методы анализа данных, причем обычно достаточно большого количества данных. Статистические данные могут иметь различную природу. Исторически самыми ранними были два вида данных – сведения о числе объектов, удовлетворяющих тем или иным условиям, и числовые результаты измерений.

Первый из этих видов данных до сих пор главенствует в статистических сборниках Госкомстата РФ. Такого рода данные часто называют категоризованными, поскольку о каждом из рассматриваемых объектов известно, в какую из нескольких заранее заданных категорий он попадает. Примером является информация Госкомстата РФ о населении страны, с разделением по возрастным категориям и полу. Часто при составлении таблиц жертвуют информацией, заменяя точное значение измеряемой величины на указание интервала группировки, в которую это значение попадает. Например, вместо точного возраста человека используют лишь один из указанных в таблице возрастных интервалов.

Второй наиболее распространенный вид данных – количественные данные, рассматриваемые как действительные числа. Таковы результаты измерений, наблюдений, испытаний, опытов, анализов. Количественные данные обычно описываются набором чисел (выборкой), а не таблицей.

Нельзя утверждать, что категоризованные данные соответствуют первому этапу исследования, а числовые – следующему, на котором используются более совершенные методы измерения. Дело в том, что человеку свойственно давать качественные ответы на возникающие в его практической деятельности вопросы. Примером является используемая А.А. Пивнем таблица сильных и слабых сторон внутренней среды Компании (табл.1).

Показатели Компании (По отношению к предприятиям отрасли) привлекательность производства Организация и управление управленческого персонала на изменения во внешней среде Показатели Компании (По отношению к предприятиям отрасли) полномочий и функций управлении информации управления персонала информации производственного персонала переподготовке персонала персонала в технической области Ясно, что вполне можно превратить в числа значения признаков, названия которых приведены в столбце «Показатели Компании», однако этот переход будет зависеть от исследователя, носить неизбежный налет субъективизма.

Иногда не удается однозначно отнести данные к категоризованным или количественным. Например, в Ветхом Завете, в Четвертой книге Моисеева «Числа»

указывается количество воинов в различных коленах. С одной стороны, это типичные категоризованные данные, градациями служат названия колен. С другой стороны, эти данные можно рассматривать как количественные, как выборку, их вполне естественно складывать, вычислять среднее арифметическое и т.п.

Описанная ситуация типична. Существует весьма много различных видов статистических данных. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента, то получаем т.н. цензурированные данные, состоящие из набора чисел – продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Такого рода данные часто используются при оценке и контроле надежности технических устройств.

Описание вида данных и, при необходимости, механизма их порождения – начало любого статистического исследования.

В простейшем случае статистические данные – это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке. Используют и более сложные признаки, перечень которых будет расширяться по мере развертывания изложения в учебнике.

При измерении по нескольким количественным или качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть часть координат – числа, а часть – качественные (категоризованные) данные, то говорим о векторе разнотипных данных.

Одним элементом выборки, т.е. одним измерением, может быть и функция в целом.

Например, электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.

Элементами выборки могут быть и бинарные отношения. Например, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.

Итак, математическая природы элементов выборки в различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных – числовые и нечисловые. Соответственно прикладная статистика разбивается на две части – числовую статистику и нечисловую статистику.

Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты. Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы больших чисел и центральные предельные теоремы (см. главу 1.3).

Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о суммах нечисловых статистических данных. Они являются элементами нечисловых математических пространств (множеств). Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах. С помощью расстояний определяются эмпирические и теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д. (см. главу 3.4).

Сведем информацию об основных областях прикладной статистики в табл.2. Отметим, что модели порождения цензурированных данных входят в состав каждой из рассматриваемых областей.

№ п/п Вид статистических данных Область прикладной статистики 2 Конечномерные вектора Многомерный статистический анализ 4 Объекты нечисловой природы Статистика нечисловых данных (статистика Почему необходима теория измерений? Теория измерений (в дальнейшем сокращенно ТИ) является одной из составных частей прикладной статистики. Она входит в состав статистики объектов нечисловой природы.

Использование чисел в жизни и хозяйственной деятельности людей отнюдь не всегда предполагает, что эти числа можно складывать и умножать, производить иные арифметические действия. Что бы вы сказали о человеке, который занимается умножением телефонных номеров? И отнюдь не всегда 2+2=4. Если вы вечером поместите в клетку двух животных, а потом еще двух, то отнюдь не всегда можно утром найти в этой клетке четырех животных. Их может быть и много больше - если вечером вы загнали в клетку овцематок или беременных кошек. Их может быть и меньше - если к двум волкам вы поместили двух ягнят. Числа используются гораздо шире, чем арифметика.

Так, например, мнения экспертов часто выражены в порядковой шкале (подробнее о шкалах говорится ниже), т.е. эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д. Но он не в состоянии сказать, во сколько раз или на сколько более важен, соответственно, более опасен. Экспертов часто просят дать ранжировку (упорядочение) объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Ранг - это номер (объекта экспертизы) в упорядоченном ряду значений характеристики у различных объектов.

Такой ряд в статистике называется вариационным. Формально ранги выражаются числами 1, 2, 3,..., но с этими числами нельзя делать привычные арифметические операции. Например, хотя в арифметике 1 + 2 = 3, но нельзя утверждать, что для объекта, стоящем на третьем месте в упорядочении, интенсивность изучаемой характеристики равна сумме интенсивностей объектов с рангами 1 и 2. Так, один из видов экспертного оценивания - оценки учащихся. Вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), хорошист соответствует двум двоечникам (2 + 2 = 4), а между отличником и троечником такая же разница, как между хорошистом и двоечником (5 - 3 = 4 Поэтому очевидно, что для анализа подобного рода качественных данных необходима не всем известная арифметика, а другая теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть ТИ.

При чтении литературы надо иметь в виду, что в настоящее время термин "теория измерений" применяется для обозначения целого ряда научных дисциплин. А именно, классической метрологии (науки об измерениях физических величин), рассматриваемой здесь ТИ, некоторых других направлений, например, алгоритмической теории измерений. Обычно из контекста понятно, о какой конкретно теории идет речь.

Краткая история теории измерений. Сначала ТИ развивалась как теория психофизических измерений. В послевоенных публикациях американский психолог С.С.

Стивенс основное внимание уделял шкалам измерения. Во второй половине ХХ в. сфера применения ТИ стремительно расширяется. Посмотрим, как это происходило. Один из томов выпущенной в США в 1950-х годах "Энциклопедии психологических наук" назывался "Психологические измерения". Значит, составители этого тома расширили сферу применения РТИ с психофизики на психологию в целом. А в основной статье в этом сборнике под названием, обратите внимание, "Основы теории измерений", изложение шло на абстрактноматематическом уровне, без привязки к какой-либо конкретной области применения. В этой статье [1] упор был сделан на "гомоморфизмах эмпирических систем с отношениями в числовые" (в эти математические термины здесь вдаваться нет необходимости), и математическая сложность изложения возросла по сравнению с работами С.С. Стивенса.

Уже в одной из первых отечественных статей по РТИ (конец 1960-х годов) было установлено, что баллы, присваиваемые экспертами при оценке объектов экспертизы, как правило, измерены в порядковой шкале. Отечественные работы, появившиеся в начале 1970-х годов, привели к существенному расширению области использования РТИ. Ее применяли к педагогической квалиметрии (измерению качества знаний учащихся), в системных исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.

Итоги этого этапа были подведены в монографии [2]. В качестве двух основных проблем РТИ наряду с установлением типа шкалы измерения конкретных данных был выдвинут поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании шкалы (т.е. является инвариантным относительно этого преобразования).

Метрологи вначале резко возражали против использования термина "измерение" для качественных признаков. Однако постепенно возражения сошли на нет, и к концу ХХ в. ТИ стала рассматриваться как общенаучная теория.

Шесть типов шкал. В соответствии с ТИ при математическом моделировании реального явления или процесса следует прежде всего установить типы шкал, в которых измерены те или иные переменные. Тип шкалы задает группу допустимых преобразований шкалы. Допустимые преобразования не меняют соотношений между объектами измерения.

Например, при измерении длины переход от аршин к метрам не меняет соотношений между длинами рассматриваемых объектов - если первый объект длиннее второго, то это будет установлено и при измерении в аршинах, и при измерении в метрах. Обратите внимание, что при этом численное значение длины в аршинах отличается от численного значения длины в метрах - не меняется лишь результат сравнения длин двух объектов.

Укажем основные виды шкал измерения и соответствующие группы допустимых преобразований.

В шкале наименований (другое название этой шкалы - номинальная; это - переписанное русскими буквами английское название шкалы) допустимыми являются все взаимнооднозначные преобразования. В этой шкале числа используются лишь как метки. Примерно так же, как при сдаче белья в прачечную, т.е. лишь для различения объектов. В шкале наименований измерены, например, номера телефонов, автомашин, паспортов, студенческих билетов. Номера страховых свидетельств государственного пенсионного страхования, медицинского страхования, ИНН (индивидуальный номер налогоплательщика) измерены в шкале наименований. Пол людей тоже измерен в шкале наименований, результат измерения принимает два значения - мужской, женский. Раса, национальность, цвет глаз, волос номинальные признаки. Номера букв в алфавите - тоже измерения в шкале наименований.

Никому в здравом уме не придет в голову складывать или умножать номера телефонов, такие операции не имеют смысла. Сравнивать буквы и говорить, например, что буква П лучше буквы С, также никто не будет. Единственное, для чего годятся измерения в шкале наименований это различать объекты. Во многих случаях только это от них и требуется. Например, шкафчики в раздевалках для взрослых различают по номерам, т.е. числам, а в детских садах используют рисунки, поскольку дети еще не знают чисел.

В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между объектами. Простейшим примером являются оценки знаний учащихся. Символично, что в средней школе применяются оценки 2, 3, 4, 5, а в высшей школе ровно тот же смысл выражается словесно - неудовлетворительно, удовлетворительно, хорошо, отлично. Этим подчеркивается "нечисловой" характер оценок знаний учащихся. В порядковой шкале допустимыми являются все строго возрастающие преобразования.

Установление типа шкалы, т.е. задания группы допустимых преобразований шкалы измерения - дело специалистов соответствующей прикладной области. Так, оценки привлекательности профессий мы в монографии [2], выступая в качестве социологов, считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с нами, полагая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.

Оценки экспертов, как уже отмечалось, часто следует считать измеренными в порядковой шкале. Типичным примером являются задачи ранжирования и классификации промышленных объектов, подлежащих экологическому страхованию.

Почему мнения экспертов естественно выражать именно в порядковой шкале? Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах.

В различных областях человеческой деятельности применяется много других видов порядковых шкал. Так, например, в минералогии используется шкала Мооса, по которому минералы классифицируются согласно критерию твердости. А именно: тальк имеет балл 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10. Минерал с большим номером является более твердым, чем минерал с меньшим номером, при нажатии царапает его.

Порядковыми шкалами в географии являются - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и т.д.), шкала силы землетрясений. Очевидно, нельзя утверждать, что землетрясение в 2 балла (лампа качнулась под потолком - такое бывает и в Москве) ровно в 5 раз слабее, чем землетрясение в 10 баллов (полное разрушение всего на поверхности земли).

В медицине порядковыми шкалами являются - шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по схеме: заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия… Иногда выделяют стадии 1а, 1б и др. Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья.

Номера домов также измерены в порядковой шкале - они показывают, в каком порядке стоят дома вдоль улицы. Номера томов в собрании сочинений писателя или номера дел в архиве предприятия обычно связаны с хронологическим порядком их создания.

При оценке качества продукции и услуг, в т.н. квалиметрии (буквальный перевод:

измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Иногда применяют четыре градации: имеются критические дефекты (делающие невозможным использование) - есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Аналогичный смысл имеет сортность продукции высший сорт, первый сорт, второй сорт,… При оценке экологических воздействий первая, наиболее обобщенная оценка - обычно порядковая, например: природная среда стабильна - природная среда угнетена (деградирует).

Аналогично в эколого-медицинской шкале: нет выраженного воздействия на здоровье людей отмечается отрицательное воздействие на здоровье.

Порядковая шкала используется и во многих иных областях. В эконометрике это прежде всего различные методы экспертных оценок. (см. посвященный им материал в части 3).

Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.

Порядковая шкала и шкала наименований - основные шкалы качественных признаков. Поэтому во многих конкретных областях результаты качественного анализа можно рассматривать как измерения по этим шкалам.

Шкалы количественных признаков - это шкалы интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Исследователь должен сам задать точку отсчета и сам выбрать единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции. Температурные шкалы Цельсия и Фаренгейта связаны именно такой зависимостью: 0С = 5/9 (0F - 32), где 0С температура (в градусах) по шкале Цельсия, а 0F - температура по шкале Фаренгейта.

Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены в экономике. Допустимыми преобразованиями шкале отношений являются подобные (изменяющие только масштаб).

Другими словами, линейные возрастающие преобразования без свободного члена. Примером является пересчет цен из одной валюты в другую по фиксированному курсу. Предположим, мы сравниваем экономическую эффективность двух инвестиционных проектов, используя цены в рублях. Пусть первый проект оказался лучше второго. Теперь перейдем на валюту самой экономически мощной державы мира - юани, используя фиксированный курс пересчета.

Очевидно, первый проект должен опять оказаться более выгодным, чем второй. Это очевидно из общих соображений. Однако алгоритмы расчета не обеспечивают автоматически выполнения этого очевидного условия. Надо проверять, что оно выполнено. Результаты подобной проверки для средних величин описаны ниже (раздел 2.1.3).

В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) принимаем естественной единицей измерения, и по шкале интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова.

Так, согласно новой статистической хронологии [3], разработанной группой известного историка акад. РАН А.Т.Фоменко, Господь Иисус Христос родился примерно в 1054 г. по принятому ныне летоисчислению в Стамбуле (он же - Царьград, Византия, Троя, Иерусалим, Рим).

Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова.

Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.

В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и определение типа шкалы (вместе с обоснованием выбора определенного типа шкалы). Кроме перечисленных шести основных типов шкал, иногда используют и иные шкалы.

Обсуждение шкал измерения будет продолжено далее в более широком контексте – как одного из понятий статистики нечисловых данных.

Статистика нечисловых данных - это направление в прикладной статистике, в котором в качестве исходных статистических данных (результатов наблюдений) рассматриваются объекты нечисловой природы. Так принято называть объекты, которые нецелесообразно описывать числами, в частности элементы нелинейных пространств. Примерами являются бинарные отношения (ранжировки, разбиения, толерантности и др.), результаты парных и множественных сравнений, множества, нечеткие множества, измерение в шкалах, отличных от абсолютных. Этот перечень примеров не претендует на законченность. Он складывался постепенно, по мере того, как развивались теоретические исследования в области статистики нечисловых данных и расширялся опыт применений этого направления прикладной статистики.

Объекты нечисловой природы широко используются в теоретических и прикладных исследованиях по экономике, менеджменту и другим проблемам управления, в частности управления качеством продукции, в технических науках, социологии, психологии, медицине и т.д., а также практически во всех отраслях народного хозяйства.

Начнем с первоначального знакомства с основными видами объектов нечисловой природы.

Результаты измерений в шкалах, отличных от абсолютной. Рассмотрим подробнее, чем раньше, конкретное исследование в области маркетинга образовательных услуг, послужившее поводом к развитию отечественных исследований по теории измерений. При изучении привлекательности различных профессий для выпускников новосибирских школ был составлен список из 30 профессий. Опрашиваемых просили оценить каждую из этих профессий одним из баллов 1,2,...,10 по правилу: чем больше нравится, тем выше балл. Для получения социологических выводов необходимо было дать единую оценку привлекательности определенной профессии для совокупности выпускников школ. В качестве такой оценки в работе [4] использовалось среднее арифметическое баллов, выставленных профессии опрошенными школьниками. В частности, физика получила средний балл 7,69, а математика - 7,50. Поскольку 7,69 больше, чем 7,50, был сделан вывод, что физика более предпочтительна для школьников, чем математика.

Однако этот вывод противоречит данным работы [5], согласно которым ленинградские школьники средних классов больше любят математику, чем физику. Обсудим одно из возможных объяснений этого противоречия, которое сводится к указанию на неадекватность (с точки зрения теории измерений) методики обработки эконометрических данных, примененной в работе [4].

Дело в том, что баллы 1,2,...,10 введены конкретными исследователями, т.е.

субъективно. Если одна профессия оценена в 10 баллов, а вторая - в 2, то из этого нельзя заключить, что первая ровно в 5 раз привлекательней второй. Другой коллектив социологов мог бы принять иную систему баллов, например 1,4,9,16,...,100. Естественно предположить, что упорядочивание профессий по привлекательности, присущее школьникам, не зависит от того, какой системой баллов им предложит пользоваться маркетолог. Раз так, то распределение профессий по градациям десятибалльной системы не изменится, если перейти к другой системе баллов с помощью любого допустимого преобразования в порядковой шкале, т.е. с помощью строго возрастающей функции g : R R. Если, Y, Y,...,Y -ответы n выпускников школ, касающихся математики, а Z1, Z2,...,Zn -физики, то после перехода к новой системе баллов ответы относительно математики будут иметь вид g(Y1), g(Y2),...,g(Yn), а относительно физики - g(Z1), g(Z2),...,g(Zn).

Пусть единая оценка привлекательности профессии вычисляется с помощью функции f(X, X,...,X ). Какие требования естественно наложить на функцию f : R R, чтобы полученные с ее помощью выводы не зависели от того, какой именно системой баллов пользовался специалист по маркетингу образовательных услуг?

Замечание. Обсуждение можно вести в терминах экспертных оценок. Тогда вместо сравнения математики и физики n экспертов (а не выпускников школ) оценивают по конкурентоспособности на мировом рынке, например, две марки стали. Однако в настоящее время маркетинговые и социологические исследования более привычны, чем экспертные.

Единая оценка вычислялась для того, чтобы сравнивать профессии по привлекательности. Пусть f(X1, X2,...,Xn) - среднее по Коши. Пусть среднее по первой совокупности меньше среднего по второй совокупности:

Тогда согласно теории измерений необходимо потребовать, чтобы для любого допустимого преобразования g из группы допустимых преобразований в порядковой шкале было справедливо также неравенство f(g(Y1), g(Y2),...,g(Yn)) < f(g(Z1), g(Z2),...,g(Zn)).

т.е. среднее преобразованных значений из первой совокупности также было меньше среднего преобразованных значений для второй совокупности. Причем сформулированное условие должно быть верно для любых двух совокупностей Y1, Y2,...,Yn и Z1, Z2,...,Zn и, напомним, любого допустимого преобразования. Средние величины, удовлетворяющие сформулированному условию, называют допустимыми (в порядковой шкале). Согласно теории измерений только такими средними можно пользоваться при анализе мнений выпускников школ, экспертов и иных данных, измеренных в порядковой шкале.

Какие единые оценки привлекательности профессий f(X1, X2,...,Xn) устойчивы относительно сравнения? Ответ на этот вопрос дается ниже в главе 2.1. В частности, оказалось, что средним арифметическим, как в работе [4] новосибирских специалистов по маркетингу образовательных услуг, пользоваться нельзя, а порядковыми статистиками, т.е. членами вариационного ряда (и только ими) - можно.

Методы анализа конкретных экономических данных, измеренных в шкалах, отличных от абсолютной, являются предметом изучения в статистике нечисловых данных как части эконометрики. Как известно, основные шкалы измерения делятся на качественные (шкалы наименований и порядка) и количественные (шкалы интервалов, отношений, разностей, абсолютная). Методы анализа статистических данных в количественных шкалах сравнительно мало отличаются от таковых в абсолютной шкале. Добавляется только требование инвариантности относительно преобразований сдвига и/или масштаба. Методы анализа качественных данных - принципиально иные.

Напомним, что исходным понятием теории измерений является совокупность = { } допустимых преобразований шкалы (обычно Ф- группа), : R R. Алгоритм обработки данных W, т.е. функция W : R A (здесь A-множество возможных результатов работы алгоритма) называется адекватным в шкале с совокупностью допустимых преобразований Ф, если для всех xi R, i = 1,2,..., n, и всех. Таким образом, теорию измерений рассматриваем как теорию инвариантов относительно различных совокупностей допустимых преобразований Ф. Интерес вызывают две задачи:

а) дана группа допустимых преобразований Ф (т.е. задана шкала); какие алгоритмы анализа данных W из определенного класса являются адекватными?

б) дан алгоритм анализа данных W; для каких шкал (т.е. групп допустимых преобразований Ф) он является адекватным?

В главе 2.1 первая задача рассматривается для алгоритмов расчета средних величин.

Информацию о других результатах решения задач указанных типов можно найти в работах [2,6,7].

Бинарные отношения. Пусть W : R A - адекватный алгоритм в шкале наименований. Можно показать, что этот алгоритм задается некоторой функцией от матрицы B =|| bij ||= B( x1, x 2,..., x n ), Если W : R A - адекватный алгоритм в шкале порядка, то этот алгоритм задается некоторой функцией от матрицы Матрицы B и C можно проинтерпретировать в терминах бинарных отношений. Пусть некоторая характеристика измеряется у n объектов q1,q2,…,qn, причем xi - результат ее измерения у объекта qi Тогда матрицы B и C задают бинарные отношения на множестве объектов Q ={q1,q2,…,qn}. Поскольку бинарное отношение можно рассматривать как подмножество декартова квадрата Q Q, то любой матрице D = ||dij|| порядка n n из 0 и соответствует бинарное отношение R(D), определяемое следующим образом: i j тогда и только тогда, когда dij = 1.

Бинарное отношение R(B) - отношение эквивалентности, т.е. симметричное рефлексивное транзитивное отношение. Оно задает разбиение Q на классы эквивалентности.

Два объекта qi и qj входят в один класс эквивалентности тогда и только тогда, когда xi = x j, bij = 1.

Выше показано, как разбиения возникают в результате измерений в шкале наименований. Разбиения могут появляться и непосредственно. Так, при оценке качества промышленной продукции эксперты дают разбиение показателей качества на группы. Для изучения психологического состояния людей их просят разбить предъявленные рисунки на группы сходных между собой. Аналогичная методика применяется и в иных экспериментальных психологических исследованиях, необходимых для оптимизации управления персоналом.

Во многих эконометрических задачах разбиения получаются "на выходе" (например, в кластерном анализе) или же используются на промежуточных этапах анализа данных (например, сначала проводят классификацию с целью выделения однородных групп, а затем в каждой группе строят регрессионную зависимость).

Бинарное отношение R(С) задает разбиение Q на классы эквивалентности, между которыми введено отношение строгого порядка. Два объекта qi и qj входят в один класс тогда и только тогда, когда cij= 1 и cji= 1, т.е. xi = xj. Класс эквивалентности Q1 предшествует классу эквивалентности Q2 тогда и только тогда, когда для любых i имеем cij = 1, cji= 0, т.е. xi < xj. Такое бинарное отношение в статистике часто называют ранжировкой со связями;

связанными считаются объекты, входящие в один класс эквивалентности. В литературе встречаются и другие названия: линейный квазипорядок, упорядочение, квазисерия, ранжирование. Если каждый из классов эквивалентности состоит только из одного элемента, то имеем обычную ранжировку (другими словами, линейный порядок).

Как известно, ранжировки возникают в результате измерений в порядковой шкале. Так, при описанном выше опросе ответ выпускника школы - это ранжировка (со связями) профессий по привлекательности. Ранжировки часто возникают и непосредственно, без промежуточного этапа - приписывания объектам квазичисловых оценок - баллов.

Многочисленные примеры тому даны английским статистиком М. Кендэлом [8]. При оценке качества промышленной продукции широко применяемые нормативные и методические документы предусматривают использование ранжировок.

Для прикладных областей, кроме ранжировок и разбиений, представляют интерес толерантности, т.е. рефлексивные симметричные отношения. Толерантность - математическая модель для выражения представлений о сходстве (похожести, близости). Разбиения - частный вид толерантностей. Толерантность, обладающая свойством транзитивности - это разбиение.

Однако в общем случае толерантность не обязана быть транзитивной. Толерантности появляются во многих постановках теории экспертных оценок, например, как результат парных сравнений (см. ниже).

Напомним, что любое бинарное отношение на конечном множестве может быть описано матрицей из 0 и 1.

Дихотомические (бинарные) данные. Это данные, которые могут принимать одно из двух значений (0 или 1), т.е. результаты измерений значений альтернативного признака. Как уже было показано, измерения в шкале наименований и порядковой шкале приводят к бинарным отношениям, а те могут быть выражены как результаты измерений по нескольким альтернативным признакам, соответствующим элементам матриц, описывающих отношения.

Дихотомические данные возникают в прикладных исследованиях и многими иными путями.

В настоящее время в большинстве стандартов, технических условий, технических регламентов, договоров на поставку конкретной продукции предусмотрен контроль по альтернативному признаку. Это означает, что единица продукции относится к одной из двух категорий - "годных" или "дефектных", т.е. соответствующих или не соответствующих требованиям стандарта. Отечественными специалистами проведены обширные теоретические исследования проблем статистического приемочного контроля по альтернативному признаку.

Основополагающими в этой области являются работы академика А.Н.Колмогорова. Подход советской вероятностно-статистической школы к проблемам контроля качества продукции отражен в монографиях [9,10] (см. также главу 3.4).

Дихотомические данные - давний объект математической статистики. Особенно большое применение они имеют в экономических и социологических исследованиях, в которых большинство переменных, интересующих специалистов, измеряется по качественным шкалам. При этом дихотомические данные зачастую являются более адекватными, чем результаты измерений по методикам, использующим большее число градаций. В частности, психологические тесты типа MMPI используют только дихотомические данные. На них опираются и популярные в технико-экономическом анализе методы парных сравнений [11].

Элементарным актом в методе парных сравнений является предъявление эксперту для сравнения двух объектов (сравнение может проводиться также прибором). В одних постановках эксперт должен выбрать из двух объектов лучший по качеству, в других ответить, похожи объекты или нет. В обоих случаях ответ эксперта можно выразить одной из двух цифр (меток)- 0 или 1. В первой постановке: 0, если лучшим объявлен первый объект; 1 если второй. Во второй постановке: 0, если объекты похожи, схожи, близки; 1 - в противном случае.

Подводя итоги изложенному, можно сказать, что рассмотренные выше данные представимы в виде векторов из 0 и 1 (при этом матрицы, очевидно, могут быть записаны в виде векторов). Поскольку все результаты наблюдений имеют лишь несколько значащих цифр, то, используя двоичную систему счисления, любые виды анализируемых статистическими методами данных можно записать в виде векторов конечной длины (размерности) из 0 и 1.

Представляется, что эта возможность в большинстве случаев имеет лишь академический интерес, но во всяком случае можно констатировать, что анализ дихотомических данных необходим во многих прикладных постановках.

Множества. Совокупность Xn векторов X = (x1, x2,…,xn) из 0 и 1 размерности n находится во взаимно-однозначном соответствии с совокупностью 2n всех подмножеств множества N = {1, 2,..., n}. При этом вектору X = (x1, x2,…,xn) соответствует подмножество N(X) N, состоящее из тех и только из тех i, для которых xi = 1. Это объясняет, почему изложение вероятностных и статистических результатов, относящихся к анализу данных, являющихся объектами нечисловой природы перечисленных выше видов, можно вести на языке конечных случайных множеств, как это было сделано в монографии [2].

Множества как исходные данные появляются и в иных постановках. Из геологических задач исходил Ж. Матерон, из электротехнических - Н.Н. Ляшенко и др. Случайные множества применялись для описания процесса случайного распространения, например распространения информации, слухов, эпидемии или пожара, а также в математической экономике. В монографии [2] рассмотрены приложения случайных множеств в теории экспертных оценок и в теории управления запасами и ресурсами (логистике).

Отметим, что с точки зрения математики реальные объекты можно моделировать случайными множествами как из конечного числа элементов, так и из бесконечного, однако при расчетах на ЭВМ неизбежна дискретизация, т.е. переход к первой из названных возможностей.

Объекты нечисловой природы как статистические данные. В эконометрике и прикладной математической статистике наиболее распространенный объект изучения выборка x1, x2,…,xn, т.е. совокупность результатов n наблюдений. В различных областях статистики результат наблюдения - это или число, или конечномерный вектор, или функция...

Соответственно проводится, как уже отмечалось, деление прикладной математической статистики: одномерная статистика, многомерный статистический анализ, статистика временных рядов и случайных процессов... В статистике нечисловых данных в качестве результатов наблюдений рассматриваются объекты нечисловой природы, в частности, перечисленных выше видов - измерения в шкалах, отличных от абсолютной, бинарные отношения, вектора из 0 и 1, множества, нечеткие множества. Выборка может состоять из n ранжировок или n толерантностей, или n множеств, или n нечетких множеств и т.д.

Отметим необходимость развития методов статистической обработка "разнотипных данных", обусловленную большой ролью в прикладных исследованиях "признаков смешанной природы". Речь идет о том, что результат наблюдения состояния объекта зачастую представляет собой вектор, у которого часть координат измерена по шкале наименований, часть - по порядковой шкале, часть - по шкале интервалов и т.д. Статистические методы ориентированы обычно либо на абсолютную шкалу, либо на шкалу наименований (анализ таблиц сопряженности), а потому зачастую непригодны для обработки разнотипных данных.

Есть и более сложные модели разнотипных данных, например, когда некоторые координаты вектора наблюдений описываются нечеткими множествами.

Для обозначения подобных неклассических результатов наблюдений в 1979 г. в монографии [2] предложен собирательный термин - объекты нечисловой природы. Термин "нечисловой" означает, что структура пространства, в котором лежат результаты наблюдений, не является структурой действительных чисел, векторов или функций, она вообще не является структурой линейного (векторного) пространства. При расчетах объекты числовой природы, разумеется, изображаются с помощью чисел, но эти числа нельзя складывать и умножать.

С целью "стандартизации математических орудий" (выражение группы французских математиков Н.Бурбаки) целесообразно разрабатывать методы статистического анализа данных, пригодные одновременно для всех перечисленных выше видов результатов наблюдений. Кроме того, в процессе развития прикладных исследований выявляется необходимость использования новых видов объектов нечисловой природы, отличных от рассмотренных выше, например, в связи с развитием статистических методов обработки текстовой информации. Поэтому целесообразно ввести еще один вид объектов нечисловой природы - объекты произвольной природы, т.е. элементы множества, на которые не наложено никаких условий (кроме "условий регулярности", необходимых для справедливости доказываемых теорем). Другими словами, в этом случае предполагается, что результаты наблюдений (элементы выборки) лежат в произвольном пространстве X. Для получения теорем необходимо потребовать, чтобы X удовлетворяло некоторым условиям, например, было так называемым топологическим пространством. Как известно, ряд результатов классической математической статистики получен именно в такой постановке. Так, при изучении оценок максимального правдоподобия элементы выборки могут лежать в пространстве произвольной природы. Это не влияет на рассуждения, поскольку в них рассматривается лишь зависимость плотности вероятности от параметра. Методы классификации, использующие лишь расстояние между классифицируемыми объектами, могут применяться к совокупностям объектов произвольной природы, лишь бы в пространстве, где они лежат, была задана метрика. Цель статистики нечисловых данных (в некоторых литературных источниках используется термин "статистика объектов нечисловой природы") состоит в том, чтобы систематически рассматривать методы статистической обработки данных как произвольной природы, так и относящихся к указанным выше конкретным видам объектов нечисловой природы, т.е. методы описания данных, оценивания и проверки гипотез. Взгляд с общей точки зрения позволяет получить новые результаты и в других областях прикладной статистики.

Использование объектов нечисловой природы при формировании статистической или математической модели реального явления. Использование объектов нечисловой природы часто порождено желанием обрабатывать более объективную, более освобожденную от погрешностей информацию. Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах. Другими словами, использование объектов нечисловой природы - средство повысить устойчивость эконометрических и экономикоматематических моделей реальных явлений. Сначала конкретные области статистики объектов нечисловой природы (а именно, прикладная теория измерений, нечеткие и случайные множества) были рассмотрены в монографии [2] как частные постановки проблемы устойчивости математических моделей социально-экономических явлений и процессов к допустимым отклонениям исходных данных и предпосылок модели, а затем была понята необходимость проведения работ по развитию статистики объектов нечисловой природы как самостоятельного научного направления.

Обсуждение начнем со шкал измерения. Науку о единстве мер и точности измерений называют метрологией. Таким образом, репрезентативная теория измерений - часть метрологии. Методы обработки данных должны быть адекватны относительно допустимых преобразований шкал измерения в смысле репрезентативной теории измерений. Однако установление типа шкалы, т.е. задание группы преобразований - дело специалиста соответствующей прикладной области. Так, оценки привлекательности профессий мы считали измеренными в порядковой шкале. Однако отдельные социологи не соглашались с этим, считая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, интервальной шкалой. Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.

Порядковые шкалы широко распространены не только в социально-экономических исследованиях. Они применяются в медицине - шкала стадий гипертонической болезни по Мясникову, шкала степеней сердечной недостаточности по Стражеско-Василенко-Лангу, шкала степени выраженности коронарной недостаточности по Фогельсону; в минералогии шкала Мооса (тальк - 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10), по которому минералы классифицируются согласно критерию твердости; в географии - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и др.) и т.д. Напомним, что по шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой, на которой не отмечены ни начало, ни единица измерения; по шкале отношений - большинство физических единиц: массу тела, длину, заряд, а также цены в экономике. Время измеряется по шкале разностей, если год принимаем естественной единицей измерения, и по шкале интервалов в общем случае. В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее), затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра) и, наконец, после открытия абсолютного нуля температур - по шкале отношений (шкала Кельвина). Следует отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины.

Отметим, что термин "репрезентативная" использовался, чтобы отличить рассматриваемый подход к теории измерений от классической метрологии, а также от работ А.Н.Колмогорова и А. Лебега, связанных с измерением геометрических величин, от "алгоритмической теории измерения" и др.

Необходимость использования в математических моделях реальных явлений таких объектов нечисловой природы, как бинарные отношения, множества, нечеткие множества, кратко была показана выше. Здесь же обратим внимание, что используемые в классической статистике результаты наблюдений также "не совсем числа". А именно, любая величина X измеряется всегда с некоторой погрешностью X и результатом наблюдения является Как уже отмечалось, погрешностями измерений занимается метрология. Отметим справедливость следующих фактов:

а) для большинства реальных измерений невозможно полностью исключить систематическую ошибку, т.е. M (X ) 0;

б) распределение X в подавляющем большинстве случаев не является нормальным (см. главу 2.1);

в) измеряемую величину X и погрешность ее измерения X обычно нельзя считать независимыми случайными величинами;

г) распределение погрешностей оценивается по результатам специальных наблюдений, следовательно, полностью известным считать его нельзя; зачастую исследователь располагает лишь границами для систематической погрешности и оценками таких характеристик для случайной погрешности, как дисперсия или размах.



Pages:     || 2 | 3 | 4 | 5 |


Похожие работы:

«ГУБЕРНАТОРСКИЙ ВЕСТНИК 2220 РОТАРИ ОКРУГ Тема: Месяц ротарианских сообществ Июнь 2013 год Выпуск №12 МИР ЧЕРЕЗ СЛУЖЕНИЕ ЛЮДЯМ Мир через служение людям Информационный бюллетень 2012-2013 год Страница 1 Месяц ротарианских сообществ Содержание Обращение губернатора округа 2220..3 Клубам необходима библиотека основных документов.6 Об Ассамблее и конференции округа 2220.7 Ротарианские международные обмены в действии!.9 Программа профессионального обмена Rotary GSE 2013.11 В России реализуется...»

«Антиретровирусная терапия для профилактики передачи ВИЧ от матери ребенку Антиретровирусная терапия для профилактики передачи ВИЧ от матери ребенку СБОРНИК СТАТЕЙ Контактная информация: СПИД Фонд Восток-Запад (AIDS Foundation East-West — AFEW) Россия, Москва, 125047, ул. Чаянова, д. 15/ Тел.: +7 095 2506377; факс: +7 СПИД Фонд Восток-Запад E-mail: [email protected] Веб-сайт: http://www.afew.org (AIDS Foundation East-West — AFEW) Москва, Российская Федерация © СПИД Фонд Восток-Запад (AIDS Foundation...»

«Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации Северо-Западный институт управления Рекомендовано для использования в учебном процессе Эффективность информационных технологий [Электронный ресурс]: учебно-методический комплекс / ФГБОУ ВПО Российская академия народного хозяйства и государственной службы при Президенте Российской Федерации,...»

«УДК 378 ВОПРОСЫ РЕАЛИЗАЦИИ ЗАДАЧ НАУЧНО-ИССЛЕДОВАТЕЛЬСКОЙ РАБОТЫ В ПРОЦЕССЕ ПОДГОТОВКИ СПЕЦИАЛЬНЫХ ПСИХОЛОГОВ НА ДЕФЕКТОЛОГИЧЕСКОМ ФАКУЛЬТЕТЕ КУРСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА © 2012 Е. А. Калмыкова канд. пед. наук, доц. каф. коррекционной психологии и педагогики e-mail: [email protected] Курский государственный университет Статья посвящена изучению различных аспектов организации научноисследовательской работы обучающихся по направлению подготовки Специальное (дефектологическое) образование,...»

«МИНОБРНАУКИ РОССИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Чувашский государственный университет имени И.Н. Ульянова Утверждаю: Ректор Агаков В.Г. 20 г. Номер внутривузовской регистрации ОСНОВНАЯ ОБРАЗОВАТЕЛЬНАЯ ПРОГРАММА ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ Направление подготовки 010400 Прикладная математика и информатика Профиль подготовки Прикладная математика и информатика Квалификация (степень) БАКАЛАВР Форма обучения очная...»

«Программа для подготовки к вступительному экзамену в магистратуру по направлению 080100.68 Экономика Вопросы для вступительного экзамена. 1. Структура экономики: сферы, сектора, комплексы, отрасли, предприятия. 2. Предприятие (организация) как основной субъект предпринимательской деятельности. 3. Правовое регулирование процесса создания, реорганизации и ликвидации коммерческих организаций. 4. Основополагающие законы организации. Законы организации второго уровня. 5. Экономические системы и их...»

«МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное автономное образовательное учреждение высшего профессионального образования Северный (Арктический) федеральный университет имени М.В. Ломоносова Филиал в г. Северодвинске Архангельской области УТВЕРЖДАЮ Первый проректор по образованию и науке Л.Н. Шестаков 20 июня 2013г. Основная образовательная программа высшего профессионального образования Направление подготовки: 180100.62 Кораблестроение, океанотехника и...»

«МОНИТОРИНГ РОССИЙСКОЙ ПРЕССЫ О ДЕЯТЕЛЬНОСТИ ИНО-ЦЕНТРА И МИОНОВ ИЮНЬ 2007 ИСТОЧНИК ДАТА ФРАГМЕНТ И наш выигрыш не случаен, - утверждает В.Курилов. - До этого мы были в числе первых во всех основных конкурсах: по созданию 22.06.2007 научно-образовательного центра Морская биота, Поиск Межрегионального института общественных наук, Центра международной безопасности в АТР Поиск Дата: 22.06.2007 Страница: 17-18 Москва Автор: Спецвыпуск подготовила Елизавета ПОНАРИНА БУДЕТ ЗАВТРА?. Если упустим время,...»

«ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО РЫБОЛОВСТВУ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования Калининградский государственный технический университет ФГОУ ВПО КГТУ УТВЕРЖДЕНО Проректор по НР Иванов А.В. от _ 2012 г. ПРОГРАММА вступительного экзамена в аспирантуру по специальности 05.02.08- Технология машиностроения Кафедра – Автоматизированного машиностроения Калининград Программа составлена на основании государственного образовательного стандарта...»

«ПЕРВОЕ ВЫСШЕЕ ТЕХНИЧЕСКОЕ УЧЕБНОЕ ЗАВЕДЕНИЕ РОССИИ МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ федеральное государственное бюджетное образовательное учреждение высшего профессионального образования НАЦИОНАЛЬНЫЙ МИНЕРАЛЬНО-СЫРЬЕВОЙ УНИВЕРСИТЕТ ГОРНЫЙ Согласовано Утверждаю _ _ Руководитель ООП Зав. кафедрой ХТ по направлению 240100 проф. А.И. Алексеев проф. Н.М. Теляков ПРОГРАММА ИТОГОВОГО ГОСУДАРСТВЕННОГО ЭКЗАМЕНА Направление подготовки: 240100 Химическая технология Программа...»

«Министерство сельского хозяйства Российской Федерации Федеральное государственное образовательное учреждение высшего профессионального образования Кубанский государственный аграрный университет РАБОЧАЯ ПРОГРАММА по дисциплине Основы избирательного права (индекс и наименование дисциплины) Специальность 111201.65 “Ветеринария” Квалификация (степень) выпускника Ветеринарный врач Факультет Ветеринарной медицины Кафедра-разработчик Государственного и международного права Ведущий преподаватель...»

«Издание 1 страница 1 из 17 ОГЛАВЛЕНИЕ 1 Общие положения 3 2 Характеристика профессиональной деятельности выпускника 3 ООП ВПО по направлению подготовки 110400 Агрономия магистр 2.1 Область профессиональной деятельности выпускника 3 Виды профессиональной деятельности выпускника 2.2 3 Задачи профессиональной деятельности выпускника 2.3 4 3 Требования к результатам освоения основной образователь- 5 ной программы по направлению подготовки 110400 Агрономия магистр 4 Документы, регламентирующие...»

«ЧЕТВЕРТАЯ ВСЕРОССИЙСКАЯ КОНФЕРЕНЦИЯ ПО ПРОБЛЕМАМ ТЕРМОМЕТРИИ ЕВРОАЗИАТСКОЕ СОТРУДНИЧЕСТВО ГОСУДАРСТВЕННЫХ МЕТРОЛОГИЧЕСКИХ УЧРЕЖДЕНИЙ Т Е М П Е Р А Т У Р А - 2011 4-я Всероссийская и стран-участниц КООМЕТ конференция по проблемам термометрии ПРОГРАММА 19-21 апреля 2011 года Санкт-Петербург, Россия 19 -21 апреля 2011 г.Санкт-Петербург ЧЕТВЕРТАЯ ВСЕРОССИЙСКАЯ КОНФЕРЕНЦИЯ ПО ПРОБЛЕМАМ ТЕРМОМЕТРИИ Т Е М П Е Р А Т У Р А - 4-я Всероссийская и стран-участниц КООМЕТ конференция по проблемам термометрии...»

«НАЦИОНАЛЬНАЯ АКАДЕМИЯ НАУК БЕЛАРУСИ МИНИСТЕРСТВО ПРОМЫШЛЕННОСТИ РЕСПУБЛИКИ БЕЛАРУСЬ ГОСУДАРСТВЕННЫЙ КОМИТЕТ ПО НАУКЕ И ТЕХНОЛОГИЯМ РЕСПУБЛИКИ БЕЛАРУСЬ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ НАН БЕЛАРУСИ ПРОГРАММА VIII МЕЖДУНАРОДНОЙ НАУЧНО-ТЕХНИЧЕСКОЙ КОНФЕРЕНЦИИ СОВРЕМЕННЫЕ МЕТОДЫ И ТЕХНОЛОГИИ СОЗДАНИЯ И ОБРАБОТКИ МАТЕРИАЛОВ 18 – 20 сентября 2013 г. г. Минск Организационный комитет Гордиенко А.И. (председатель) Астапчик С.А. (зам. председателя) Белый А.В. (зам. председателя) Ефимочкин А.С. (зам....»

«Программа Международной научно-практической конференции ПРОБЛЕМЫ ФОРМИРОВАНИЯ ЦЕННОСТНЫХ ОРИЕНТИРОВ В ВОСПИТАНИИ СЕЛЬСКОЙ МОЛОДЕЖИ 5-6 июня 2014 г. Тюмень ФГБОУ ВПО Государственный аграрный университет Северного Зауралья Департамент АПК Тюменской области Департамент образования и наук и Тюменской области Совет молодых учёных и специалистов Тюменской области УО Белорусская государственная сельскохозяйственная академия НП ВПО Прикамский социальный институт Юго-чешский университет (Чехия, г....»

«Министерство здравоохранения и социального развития Российской Федерации ФГУ Научный центр акушерства гинекологии и перинатологии им. В.И. Кулакова Росмедтехнологий Российский государственный медицинский университет Российская ассоциация специалистов перинатальной медицины Федерация Анестезиологов и Реаниматологов России Конгресс-оператор ЗАО МЕДИ Экспо I Всероссийский конгресс Анестезия и реанимация в акушерстве и неонатологии Программа заседаний 2 - 5 декабря 2008 года Москва 2 I...»

«государственное бюджетное образовательное учреждение среднего профессионального образования (среднее специальное учебное заведение) Челябинский государственный промышленно-гуманитарный техникум им. А.В. Яковлева ПРОГРАММА РАЗВИТИЯ на 2012-2016 гг. 2011 г. 1 Разработчики программы – инженерно-педагогические и руководящие работники техникума: Пименова Н.А. – директор ГБОУ СПО ЧГПГТ им. А.В.Яковлева Дегтеренко Л.Н. – зам. директора по НМР Любченко Г.Н. – зам. директора по практике Казакова Т.И. –...»

«История школьного учебника в России: рекомендательный список к выставке Астрономия: 1. Каменщиков, Н. Космография (начальная астрономия) : учебник для средних учебных заведений и пособие для самообразования / Н. Каменщиков. - Спб. : Тип. А. С. Суворина, 1912. - 250 с. 2. Клеин, Г. Астрономические вечера : очерки из истории астрономии. Солнечный мир, звёзды, туманности / Г. Клеин. - Спб. : Тип. И. Н. Скороходова, 1895. - 290 с. ; илл. 3. Покровский, К. Д. Курс космографии : для средних учебных...»

«ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБЩЕОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ГИМНАЗИЯ № 441 ФРУНЗЕНСКОГО РАЙОНА Г.САНКТ-ПЕТЕРБУРГА РАССМОТРЕНО ПРИНЯТО УТВЕРЖДЕНО Председатель МО Педагогическим советом Директор ГБОУ ГБОУ гимназии №441 гимназии №441 Протокол №1 Протокол №1 (Г.П.Опарина) от 28 августа 2013 от 30 августа 2013 31 августа 2013 РАБОЧАЯ ПРОГРАММА ПО НЕМЕЦКОМУ ЯЗЫКУ ДЛЯ 10”Б” КЛАССА НА 2013-2014 УЧЕБНЫЙ ГОД СОСТАВИТЕЛЬ: Учитель немецкого языка Архипова Ю.С. Первая квалификационная категория 2013-2014 гг....»

«СИБИРСКИЙ ИНСТИТУТ МЕЖДУНАРОДНЫХ ОТНОШЕНИЙ И РЕГИОНОВЕДЕНИЯ Ю.И. ДУБРОВИН Программа вступительных испытаний по Истории НОВОСИБИРСК Издается по решению Учебно-методического совета СИМОиР Рецензент: Плотникова О.В. – доктор политических наук, профессор. Рекомендовано Учёным Советом Сибирского института международных отношений и регионоведения для абитуриентов, поступающих по специальностям и направлениям: Политология, Международные отношения, Регионоведение, Зарубежное регионоведение, Публичная...»






 
2014 www.av.disus.ru - «Бесплатная электронная библиотека - Авторефераты, Диссертации, Монографии, Программы»

Материалы этого сайта размещены для ознакомления, все права принадлежат их авторам.
Если Вы не согласны с тем, что Ваш материал размещён на этом сайте, пожалуйста, напишите нам, мы в течении 1-2 рабочих дней удалим его.