«А.И.Орлов НЕЧИСЛОВАЯ СТАТИСТИКА МЗ-Пресс Москва 2004 2 Серия Статистические методы Редакционный совет серии: Богданов Ю.И., Вощинин А.П., Горбачев О.Г., Горский В.Г., Кудлаев Э.М., Натан А.А., Новиков Д.А., Орлов А.И. ...»
Серия: СТАТИСТИЧЕСКИЕ МЕТОДЫ
А.И.Орлов
НЕЧИСЛОВАЯ
СТАТИСТИКА
МЗ-Пресс
Москва 2004
2
Серия «Статистические методы»
Редакционный совет серии:
Богданов Ю.И., Вощинин А.П., Горбачев О.Г., Горский В.Г.,
Кудлаев Э.М., Натан А.А., Новиков Д.А., Орлов А.И.
(председатель), Татарова Г.Г., Толстова Ю.Н., Фалько С.Г., Шведовский В.А.
Рецензенты:
Заслуженный деятель науки РФ, профессор, доктор технических наук В.Г.Горский Профессор, доктор технических наук Д.А.Новиков Профессор, доктор социологических наук Ю.Н.Толстова Кафедра «Анализ стохастических процессов в экономике»
Российской экономической академии им. Г.В.Плеханова Орлов А.И.
Нечисловая статистика / А.И.Орлов. – М.: МЗ-Пресс, 2004. – 513 с.
Впервые систематически рассматривается одна из четырех основных областей современной прикладной математической статистики - статистика нечисловых данных. Она порождена в 70-х годах ХХ в. потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основой ее математического аппарата является использование расстояний между объектами нечисловой природы и решений оптимизационных задач, а не операций суммирования данных, как в других областях статистики. В книге рассмотрены основные виды нечисловых данных и особенности их статистического анализа.
Большое внимание уделяется проблемам практического применения методов и результатов нечисловой статистики.
Книга предназначена для студентов, преподавателей и специалистов, заинтересованных в применении современных статистических методов, разработчиков таких методов и соответствующего программного обеспечения. Она представляет интерес также для исследователей в области прикладной и математической статистики, анализа данных, методов оптимизации, математического моделирования.
ОГЛАВЛЕНИЕ
ПредисловиеВведение. Нечисловая статистика - основа статистических методов
В-1. О развитии статистических методов В-2. Структура нечисловой статистики Глава 1. Нечисловые статистические данные
1.1. Количественные и категоризованные данные 1.2. Основы теории измерений 1.3. Виды нечисловых данных 1.4. Вероятностные модели порождения нечисловых данных 1.5. Нечеткие множества – частный случай нечисловых данных 1.6. Сведение нечетких множеств к случайным 1.7. Данные и расстояния в пространствах произвольной природы 1.8. Аксиоматическое введение расстояний и показателей различия Глава 2. Статистические методы в пространствах произвольной природы
2.1. Эмпирические и теоретические средние 2.2. Законы больших чисел 2.3. Экстремальные статистические задачи 2.4. Одношаговые оценки 2.5. Непараметрические оценки плотности 2.6. Статистики интегрального типа 2.7. Методы восстановления зависимостей 2.8. Методы классификации 2.9. Методы шкалирования Глава 3. Статистика нечисловых данных конкретных видов......... 3.1. Инвариантные алгоритмы и средние величины 3.2. Теория случайных толерантностей 3.3. Метод проверки гипотез по совокупности малых выборок 3.4. Теория люсианов 3.5. Метод парных сравнений 3.6. Статистика нечетких множеств 3.7. Статистика нечисловых данных в экспертных оценках Глава 4. Статистика интервальных данных
4.1. Основные идеи статистики интервальных данных 4.2. Интервальные данные в задачах оценивания 4.3. Интервальные данные в задачах проверки гипотез 4.4. Линейный регрессионный анализ интервальных данных 4.5. Интервальный дискриминантный анализ 4.6. Интервальный кластер-анализ 4.7. Интервальные данные в инвестиционном менеджменте 4.8. Статистика интервальных данных в прикладной статистике Приложение 1. Теоретическая база нечисловой статистики.......... П-1. Законы больших чисел П-2. Центральные предельные теоремы П-3. Теоремы о наследовании сходимости П-4. Метод линеаризации П-5. Принцип инвариантности Приложение 2. Об авторе
ПРЕДИСЛОВИЕ
В этой книге впервые систематически рассматривается одна из четырех основных областей современной прикладной статистики - нечисловая статистика. Она порождена в 70-х годах ХХ в.потребностями прикладных социально-экономических, технических и медико-биологических исследований. Основой ее математического аппарата является использование расстояний оптимизационных задач, а не операций суммирования данных, как в других областях статистики. В учебнике рассмотрены основные виды нечисловых данных и особенности их статистического анализа. Большое внимание уделяется проблемам практического применения рассматриваемых методов и результатов.
нечисловых данных или статистикой объектов нечисловой природы. Она является сердцевиной современной прикладной статистики. Ее рассматривают также как одну из четырех основных областей статистики. Три других - это статистика чисел (случайных величин), статистика векторов (многомерный статистический анализ), статистика функций (временных рядов и случайных процессов).
технического, социально-экономического, медицинского объекта изучения часто удается представить в виде вектора, часть координат которого измерена по количественным шкалам, а часть по качественным, имеющим конечное число градаций. Это наиболее распространенный тип нечисловых данных.
В общем случае под нечисловыми данными понимают элементы пространств, не являющихся линейными (векторными), в которых нет операций сложения элементов и их умножения на действительное число. Кроме результатов измерений по последовательности из 0 и 1, бинарные отношения (ранжировки, разбиения, толерантности); множества (в том числе плоские расплывчатые, fuzzy) числа и множества, их частный случай интервалы; результаты парных сравнений и другие объекты, возникающие в прикладных исследованиях. Все эти виды нечисловых данных и вероятностные модели их порождения подробно рассматриваются в монографии. Их обобщением, как и обобщением числовых данных (чисел, векторов, функций), являются элементы пространств произвольной природы.
Исторически нечисловые данные стали рассматриваться раньше, чем статистические данные в виде действительных чисел.
Книга Чисел Ветхого Завета содержит обширные сведения о численностях тех или иных совокупностей. Натуральные числа можно отнести к нечисловым данным - хотя их можно складывать, но умножение на действительное число выводит за пределы натурального ряда. Теория вероятностей также начиналась с моделирования нечисловых данных, таких, как результаты бросания игральных костей и вытаскивания шаров из урн. Однако к началу ХХ века основное внимание статистиков переместилось на рассмотрение числовых случайных величин, моделирующих действительнозначные результаты наблюдений.
К 70-м годам ХХ в. развитие прикладных научных исследований в инженерном деле, социологии, экономике, менеджменте, психологии, медицине и других областях привело к необходимости разработки методов статистического анализа нечисловых данных. В СССР вокруг семинара "Экспертные оценки и нечисловая статистика" сложился неформальный научный коллектив из нескольких десятков активных исследователей.
Сначала изучались методы анализа конкретных видов нечисловых данных, устанавливались связи между ними. Затем самостоятельной области прикладной статистики со своей подходами и результатами, относящимися к тем или иным видам нечисловых данных.
Статистика нечисловых данных была выделена нами как самостоятельная область прикладной статистики в 1979 г. За прошедшие с тех пор годы арсенал ее методов пополнился многими полезными новшествами. Но основные идеи выдержали проверку временем, что и оправдывает их изложение в настоящей книге.
О развитии нечисловой статистики. В 70-е годы ХХ в. в СССР возник неформальный научный коллектив исследователей, изучающих методы анализа нечисловых данных различных видов.
Центром являлся научный семинар "Экспертные оценки и нечисловая статистика" и одноименная комиссия в составе "Кибернетика".
частности, аксиоматическое введение расстояний между объектами репрезентативная теория измерений, нечеткие множества Заде, парные сравнения по Дэвиду и др. Затем были проведены многочисленные самостоятельные исследования. В частности, были установлены взаимосвязи между подходами и результатами для различных типов нечисловых данных, разработана общая теория статистического анализа нечисловых данных произвольной природы.
В итоге стало возможным говорить о новой области прикладной статистики - нечисловой статистике. Время ее окончательного формирования - первая половина 80-х годов - было и временем наибольшей организационной активности. Две всесоюзные конференции - в Алма-Ате (1981 г.) и в Таллинне (1984 г.) собрали по 300-500 участников.
нечисловых данных (статистика объектов нечисловой природы) стабильно развивается. Много публикаций содержится в журналах "Заводская лаборатория", "Социология: методология, методы, "Статистические методы оценивания и проверки гипотез". Части нечисловой статистики - статистике интервальных данных была посвящена Международная конференция ИНТЕРВАЛ- (Интервальные и стохастические методы в науке и технике, г.
Калининград Московской области, сентябрь 1992 г.).
включает в себя десятки российских исследователей, а если учитывать авторов одной - двух работ - то и сотни. За более чем лет выпущено несколько десятков сборников и монографий, много статей в научных журналах. Однако из-за отсутствия формальной инфраструктуры (например, Института нечисловой статистики в составе Российской академии наук) имеются лишь единичные практического использования. В отличие от научных монографий практически отсутствуют учебные пособия, а также книги, содержащие введение и общий обзор нечисловой статистики.
литературе по нечисловой статистике. Она дает введение в предмет, позволяет познакомиться с нечисловой статистикой на современном научном уровне. Изложение доводится до переднего края ведущихся в настоящее время научных исследований.
Постоянно в поле зрения находятся вопросы практического применения рассматриваемых подходов, методов, результатов. В частности, используется опыт разработки нашим коллективом автоматизированного рабочего места МАТЭК (математика в экспертизе), предназначенного для организатора экспертного опроса. В монографии отражены также работы по статистике нечисловых данных и ее применениям, за которые автору в 1992 г.
была присуждена ученая степень доктора технических наук (без написания диссертации).
Чтобы в сравнительно небольшой книге охватить всю статистику нечисловых данных, приходится идти на жертвы. Мы отказываемся от разбора большинства доказательств, отсылая читателей к публикациям, содержащим эти доказательства.
Примерами подобного стиля изложения являются обзоры по статистике нечисловых данных, помещенные в разделе "Математические методы исследования" журнала "Заводская лаборатория" (1990, No.3; 1995, No.3, No.5; 1996, No.3).
Стиль книги. В любой математизированной области есть три уровня исследований - методологический, теоретический и практический. На методологическом уровне излагаются общие теоретическом уровне, грубо говоря, доказывают теоремы. В частности, выявление необходимых и достаточных "условий регулярности" обычно осуществляется в результате цепи работ этого уровня.
Например, на методологическом уровне Центральная Предельная Теорема теории вероятностей формулируется так:
"При некоторых условиях регулярности распределение центрированной и нормированной суммы независимых случайных величин при росте числа слагаемых стремится к стандартному нормальному распределению ". Около двухсот лет - от Муавра и Лапласа до Линдеберга и Феллера - "некоторые условия регулярности" уточнялись в работах теоретического уровня.
В настоящей книге изложение идет в основном на методологическом уровне. При спуске на теоретический уровень приводятся формулировки теорем, в основном без доказательств, но со ссылками на публикации, где они содержатся. Обоснованием для выбора такого варианта построения книги, кроме желания ограничить ее объем разумными рамками, послужило следующее представление о предпочтениях будущих читателей: большинство из них не извлечет пользы из того, что в некоторой формулировке можно заменить требование, скажем, дифференцируемости определенной функции на требование ее непрерывности.
Сказанное не означает, что автор отрицает целесообразность проведения научных работ, посвященных подобным ослаблениям статистикой.
На практическом уровне исследований большое внимание исследования нужна отдельная монография, которая обычно и готовится в качестве отчета по работе. Поэтому мы вынуждены ограничиться краткими замечаниями о практическом применении различных методов нечисловой статистики. Однако суммарно эти замысла, так и объема книги.
Содержание книги. Во введении кратко обсуждаем историю и современное состояние статистических методов и, прежде всего, прикладной статистики, место в ней статистики нечисловых данных. Анализируется сложившаяся структура нечисловой статистики.
Книга делится на главы, а главы - на разделы. В главе изучаются конкретные виды нечисловых статистических данных, соответствующие вероятностные модели. Сопоставляются количественные и категоризованные данные. Разобраны основы Продемонстрирована возможность сведения теории нечетких статистические данные и необходимые для их анализа расстояния аксиоматический подход к введению расстояний и показателей природы.
В главе 2 развиваются статистические методы анализа данных произвольного вида, лежащих в метрическом пространстве теоретические средние приходится определять как решения экстремальных статистических задач, и законы больших чисел асимптотическом поведении решений таких задач. Другие классы частных случаев подобных утверждений связаны с теорией одношаговых оценок параметров распределения вероятностей (они имеют преимущества по сравнению с оценками максимального правдоподобия) и с оптимизационными постановками основных задач прикладной статистики, в том числе задач восстановления размерности. Для описания распределений нечисловых данных разработаны непараметрические оценки плотности, используемые также в регрессионном, дискриминантном и кластерном анализах.
В предельной теории статистик интегрального типа найден ряд необходимых и достаточных условий.
Глава 3 посвящена статистическому анализу конкретных репрезентативной теории измерений получены характеризации средних величин свойством устойчивости результата сравнения преобразований шкалы. Изучены случайные толерантности. Метод проверки гипотез по совокупности малых выборок применен в теории люсианов - конечных последовательностей испытаний Бернулли с, вообще говоря, различными вероятностями успеха.
Люсианы находят применение в теории парных сравнений.
Рассмотрены основные вопросы статистики нечетких множеств.
Обсуждается использование нечисловой статистики в теории и практике экспертных оценках - области исследований, во многом стимулировавшей развитие основных идей статистического анализа нечисловых данных.
Глава 4 посвящена основным подходам и результатам статистики интервальных данных, быстро развивающейся в последние годы. Для интервальных данных решен ряд задач оценивания и проверки гипотез. Построены интервальные аналоги регрессионного, дискриминантного и кластерного анализов.
Интервальные данные применены в инвестиционном менеджменте.
Рассмотрена роль статистики интервальных данных в прикладной статистике.
В приложение 1 включены некоторые вопросы, относящиеся к теоретической базе нечисловой статистики. Рассмотрены классические законы больших чисел, центральные предельные теоремы, метод линеаризации и принцип инвариантности. Теоремы о наследовании сходимости сравнительно малоизвестны и могут представить особый интерес. В приложении 2 содержится информация об авторе, позволяющая читателям лучше понять происхождение идей, изложению которых посвящена настоящая книга.
Нумерация формул, определений. теорем, таблиц, рисунков своя в каждом разделе. Литература приводится по главам в порядке первого упоминания. Списки литературы включают основные публикации по нечисловой статистике, а также те работы, на которые даются ссылки в тексте. Он не претендует на полноту хотя бы потому, что перечень известных автору публикаций по рассматриваемой тематике по объему превысил бы настоящую книгу в несколько раз.
Для кого эта книга? Она предназначена для широкого круга читателей - студентов и преподавателей, прикладников и математиков. Для ее чтения достаточно знаний в объеме вводного курса математической статистики, включающего основные задачи описания данных, оценивания и проверки гипотез.
Эта книга - прежде всего учебник. Он предназначен для студентов различных специальностей, прежде всего технических, управленческих и экономических, слушателей институтов повышения квалификации, структур послевузовского (в том числе второго) образования, в частности, программ МВА («Мастер делового администрирования»), преподавателей вузов. Учебник будет полезен инженерам, менеджерам, экономистам, социологам, биологам, медикам, психологам, историкам, другим специалистам, самостоятельно повышающим свой научный уровень. Короче, всем научным и практическим работникам, связанным с анализом данных.
Учебник может быть использован при изучении дисциплин, нечисловых результатов наблюдений (измерений, испытаний, опытов). Типовые названия таких вузов - «Прикладная статистика», «Эконометрика», «Анализ данных», «Статистический анализ», «Теория принятия решений», «Управленческие решения», «Экономико-математическое моделирование», «Прогнозирование», «Хемометрия», «Математические методы в социологии», и т.п.
Специалистам по теории вероятностей и математической статистике эта книга также может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную математическую статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований.
заинтересованных в применении современных статистических методов анализа нечисловых данных в любой предметной области.
Она необходима разработчикам таких методов и соответствующего программного обеспечения, т.е. специалистам по прикладной математической статистике эта книга также может быть интересна и полезна, поскольку в ней описан современный взгляд на прикладную статистику, основные подходы и результаты в этой области, открывающие большой простор для дальнейших математических исследований. Книга представляет интерес для исследователей - специалистов по вопросам управления. вт ом математическому моделированию. Наконец, без нее не сможет обойтись ни один преподаватель прикладной или математической статистики, статистических методов для любой конкретной области применений, если он хочет, чтобы его лекционный курс был современным.
Благодарности. Автор благодарен за полезные обсуждения многочисленным коллегам по научным семинарам, по работе в Институте высоких статистических технологий и эконометрики МГТУ им. Н.Э. Баумана, в Российской ассоциации статистических методов и Российской академии статистических методов.
С текущей научной информацией по статистическим методам можно познакомиться на сайтах автора www.antorlov.nm.ru, www.antorlov.chat.ru, www.newtech.ru/~orlov, www.antorlov.euro.ru.
Достаточно большой объем информации содержит еженедельник "Эконометрика", выпускаемый с июля 2000 г. (о ней рассказано на указанных выше сайтах). Автор искренне благодарен разработчику сайтов и редактору электронного еженедельника А.А. Орлову за многолетний энтузиазм.
Автор будет благодарен читателям, если они сообщат свои вопросы и замечания по адресу издательства или непосредственно автору по электронной почте Е-mail: [email protected].
Введение. Нечисловая статистика - основа В.1. О развитии статистических методов Четыре столетия статистики. Впервые термин «статистика»
появился в «Гамлете» Шекспира (1602 г., акт 5, сцена 2). Смысл этого слова у Шекспира – знать, придворные. По-видимому, оно происходит от латинского слова status, что в оригинале означает «состояние» или «политическое состояние».
В течение следующих 400 лет термин «статистика» понимали и понимают по-разному. В работе [1] собрано более определений этого термина, некоторые из них обсуждаются ниже.
Вначале под статистикой понимали описание экономического и политического состояния государства или его части. Например, к 1792 г. относится определение: «Статистика описывает состояние государства в настоящее время или в некоторый известный момент в прошлом». И в настоящее время деятельность государственных статистических служб (в нашей стране – Государственного комитета РФ по статистике) вполне укладывается в это определение.
Однако постепенно термин «статистика» стал использоваться более широко. По Наполеону Бонапарту «Статистика – это бюджет вещей». Тем самым статистические методы были признаны полезными не только для административного управления, но и на уровне отдельного предприятия. Согласно формулировке 1833 г.
«цель статистики заключается в представлении фактов в наиболее сжатой форме». Приведем еще два высказывания. Статистика состоит в наблюдении явлений, которые могут быть подсчитаны или выражены посредством чисел (1895). Статистика – это численное представление фактов из любой области исследования в их взаимосвязи (1909).
совокупность методов и принципов, согласно которым проводится сбор, анализ, сравнение, представление и интерпретация числовых данных (1925). В 1954 г. академик АН УССР Б.В. Гнеденко дал следующее определение: «Статистика состоит из трех разделов:
характеризующих отдельные единицы каких-либо массовых совокупностей;
заключающееся в выяснении тех закономерностей, которые могут быть установлены на основе данных массового наблюдения;
3) разработка приемов статистического наблюдения и анализа статистических данных. Последний раздел, собственно, и составляет содержание математической статистики».
Термин «статистика» употребляют еще в двух смыслах. Вопервых, в обиходе под «статистикой» часто понимают набор количественных данных о каком-либо явлении или процессе. Вовторых, в специальной литературе статистикой называют функцию от результатов наблюдений, используемую для оценивания характеристик и параметров распределений и проверки гипотез.
Чтобы подойти к термину «нечисловая статистика», кратко рассмотрим историю реальных статистических работ.
примеры раннего этапа применения статистических методов описаны в Ветхом Завете (см., например, Книгу Чисел). Там, в частности, приводится число воинов в различных племенах. С математической точки зрения дело сводилось к подсчету числа попаданий значений наблюдаемых признаков в определенные градации.
В дальнейшем результаты обработки статистических данных стали представлять в виде таблиц и диаграмм, как это и сейчас делает Госкомстат РФ. Надо признать, что по сравнению с Ветхим Заветом есть прогресс - в Библии не было таблиц и диаграмм.
Однако у Госкомстата РФ нет продвижения по сравнению с работами российских статистиков конца девятнадцатого - начала двадцатого веков (типовой монографией тех времен можно считать книгу [2], которая в настоящее время ещё легко доступна).
Сразу после возникновения теории вероятностей (Паскаль, Ферма, 17 век) вероятностные модели стали использоваться при обработке статистических данных. Например, изучалась частота рождения мальчиков и девочек, было установлено отличие вероятности рождения мальчика от 0,5, анализировались причины того, что в парижских приютах эта вероятность не та, что в самом Париже, и т.д. Имеется достаточно много публикаций по истории теории вероятностей с описанием раннего этапа развития статистических методов, к лучшим из них относится очерк [3].
В 1794 г. (по другим данным - в 1795 г.) К.Гаусс разработал метод наименьших квадратов, один из наиболее популярных ныне статистических методов, и применил его при расчете орбиты астероида Церера - для борьбы с ошибками астрономических наблюдений [4]. В Х1Х веке заметный вклад в развитие практической статистики внес бельгиец А. Кетле, на основе анализа большого числа реальных данных показавший устойчивость относительных статистических показателей, таких, как доля самоубийств среди всех смертей [5]. Интересно, что основные идеи статистического приемочного контроля и сертификации продукции обсуждались академиком Петербургской АН М.В. Остроградским (1801-1862) и применялись в российской армии ещё в середине Х1Х сертификации продукции сейчас весьма актуальны [6].
Современный этап развития статистических методов можно отсчитывать с 1900 г., когда англичанин К. Пирсон основан журнал параметрической статистики. Разрабатывались методы, основанные на анализе данных из параметрических семейств распределений, описываемых кривыми семейства Пирсона. Наиболее популярным было нормальное (гауссово) распределение. Для проверки гипотез использовались критерии Пирсона, Стьюдента, Фишера. Были предложены метод максимального правдоподобия, дисперсионный эксперимента.
Разработанную в первой трети ХХ в. теорию анализа данных называем параметрической статистикой, поскольку ее основной объект изучения - это выборки из распределений, описываемых одним или небольшим числом параметров. Наиболее общим является семейство кривых Пирсона, задаваемых четырьмя параметрами. Как правило, нельзя указать каких-либо веских причин, по которым распределение результатов конкретных наблюдений должно входить в то или иное параметрическое семейство. Исключения хорошо известны: если вероятностная модель предусматривает суммирование независимых случайных распределением; если же в модели рассматривается произведение таких величин, то итог, видимо, приближается логарифмически нормальным распределением, и т.д. Однако подобных моделей нет в подавляющем большинстве реальных ситуаций, и приближение реального распределения с помощью кривых из семейства Пирсона или его подсемейств - чисто формальная операция.
Именно из таких соображений критиковал параметрическую статистику академик АН СССР С.Н.Бернштейн в 1927 г. в своем докладе на Всероссийском съезде математиков [7]. Однако эта теория, к сожалению, до сих пор остается основой преподавания статистических методов и продолжает использоваться основной массой прикладников, далеких от новых веяний в статистике.
Почему так происходит? Чтобы попытаться ответить на этот вопрос, обратимся к наукометрии.
Наукометрия статистических исследований. В рамках движения за создание Всесоюзной статистической ассоциации (учреждена в 1990 г.) был проведен анализ статистики как области научно-практической деятельности. Он показал, в частности, что актуальными для специалистов в настоящее время являются не менее чем 100 тысяч публикаций (подробнее см. статьи [8,9]).
Реально же каждый из специалистов знаком с существенно меньшим количеством книг и статей. Так, в известном трехтомнике М Кендалла и А. Стьюарта [10-12] – наиболее полном на русском языке издании по статистическим методам - всего около 2 тысяч литературных ссылок. При всей очевидности соображений о многократном дублировании в публикациях ценных идей приходится признать, что каждый специалист по статистическим методам владеет лишь небольшой частью накопленных в этой области знаний. Не удивительно, что приходится постоянно сталкиваться с игнорированием или повторением ранее полученных результатов, с уходом в тупиковые (с точки зрения практики) направления исследований, с беспомощностью при обращении к реальным данным, и т.д. Все это - одно из проявлений адапционного механизма торможения развития науки, о котором еще 30 лет назад писали В.В.Налимов и другие науковеды (см., например, [13]).
Традиционный предрассудок состоит в том, что каждый новый результат, полученный исследователем - это кирпич в непрерывно растущее здание науки, который непременно будет проанализирован и использован научным сообществом, а затем и при решении практических задач. Реальная ситуация - совсем иная.
Основа профессиональных знаний исследователя, инженера, экономиста менеджера, социолога, историка, геолога, медика закладывается в период обучения. Затем знания пополняются в том узком направлении, в котором работает специалист. Следующий этап - их тиражирование новому поколению. В результате вузовские учебники отстоят от современного развития на десятки лет. Так, учебники по математической статистике, согласно мнению экспертов, по научному уровню в основном соответствуют 40-60-м годам ХХ в. А потому середине ХХ в. соответствует большинство вновь публикуемых исследований и тем более - прикладных работ.
Одновременно приходится признать, что результаты, не вошедшие в учебники, независимо от их ценности почти все забываются.
Активно продолжается развитие тупиковых направлений.
Психологически это понятно. Приведу пример из своего опыта. По заказу Госстандарта я разработал методы оценки параметров гаммараспределения [14]. Поэтому мне близки и интересны работы по оцениванию параметров по выборкам из распределений, принадлежащих тем или иным параметрическим семействам, понятия функции максимального правдоподобия, эффективности оценок, использование неравенства Рао-Крамера и т.д. К сожалению, я знаю, что это - тупиковая ветвь теории статистики, поскольку реальные данные не подчиняются каким-либо параметрическим семействам, надо применять иные статистические методы - непараметрические. Понятно, что специалистам по параметрической статистике, потратившим многие годы на совершенствование в своей области, психологически трудно согласиться с этим утверждением. В том числе и мне. Но необходимо идти вперед.
Появление прикладной статистики. В нашей стране термин «прикладная статистика» вошел в широкое употребление в 1981 г.
«Современные проблемы кибернетики (прикладная статистика)». В этом сборнике обосновывалась трехкомпонентная структура ориентированные на прикладную деятельность статистические методы анализа данных (эту область можно назвать прикладной математической статистикой и включать также и в прикладную математику). Однако прикладную статистику нельзя целиком внематематические области. Во-первых, методологию организации статистического исследования: как планировать исследование, как собирать данные, как подготавливать данные к обработке, как представлять результаты. Во-вторых, организацию компьютерной обработки данных, в том числе разработку и использование баз данных и электронных таблиц, статистических программных продуктов, например, диалоговых систем анализа данных.
использовался и ранее 1981 г., но лишь внутри сравнительно небольших и замкнутых групп специалистов, о некоторых из которых рассказано в статье [15].
Прикладная статистика и математическая статистика – это две разные научные дисциплины. Различие четко проявляется и при основном из доказательств теорем, как и соответствующие учебные пособия. В курсах прикладной статистики основное - методология анализа данных и алгоритмы расчетов, а теоремы приводятся как обоснования этих алгоритмов, доказательства же, как правило, опускаются (их можно найти в научной литературе).
Статистические методы. В области статистического анализа данных естественно выделить три вида научной и прикладной деятельности (по степени специфичности методов, сопряженной с погруженностью в конкретные проблемы):
а) разработка и исследование методов прикладной статистики, предназначенных для анализа данных различной природы;
б) разработка и исследование вероятностно-статистических моделей в соответствии с конкретными потребностями науки и практики (моделей управления качеством, сбора и анализа оценок экспертов и др.);
в) применение статистических методов и моделей для анализа конкретных данных (например, данных о росте цен с целью изучения инфляции).
Кратко рассмотрим три только что выделенных вида научной и прикладной деятельности. По мере движения от а) к в) сужается широта области применения статистического метода, но при этом повышается его значение для анализа конкретной ситуации. Если работам вида а) соответствуют научные результаты, значимость которых оценивается по общенаучным критериям, то для работ вида в) основное - успешное решение задач конкретной области.
Работы вида б) занимают промежуточное положение, поскольку, с одной стороны, теоретическое изучение статистических моделей может быть достаточно сложным и математизированным (см., например, монографию [6]), с другой - результаты представляют интерес не для всей науки, а лишь для некоторого направления в ней.
Структура современной статистики. Внутренняя структура статистики как науки была выявлена и обоснована при создании в 1990 г. Всесоюзной статистической ассоциации [9]. Прикладная статистика - методическая дисциплина, являющаяся центром статистики. При применении методов прикладной статистики к конкретным областям знаний и отраслям народного хозяйства получаем научно-практические дисциплины типа "статистика в промышленности", "статистика в медицине" и др. С этой точки зрения эконометрика - это "статистические методы в экономике" [6]. Математическая статистика играет роль математического фундамента для прикладной статистики.
К настоящему времени очевидно четко выраженное размежевание этих двух научных направлений. Математическая статистика исходит из сформулированных в 1930-50 гг. постановок математических задач, происхождение которых связано с анализом конкретных статистических данных. Начиная с 70-х годов ХХ в.
исследования по математической статистике посвящены обобщению и дальнейшему математическому изучению этих задач.
Поток новых математических результатов (теорем) не ослабевает, но новые практические рекомендации по обработке статистических данных при этом почти не появляются. Можно сказать, что математическая статистика как научное направление замкнулась внутри себя.
Сам термин «прикладная статистика» возник как реакция на описанную выше тенденцию. Прикладная статистика нацелена на решение реальных задач. Поэтому в ней возникают новые постановки математических задач анализа статистических данных, развиваются и обосновываются новые методы. Обоснование часто проводится математическими методами, т.е. путем доказательства теорем. Большую роль играет методологическая составляющая - как именно ставить задачи, какие предположения принять с целью дальнейшего математического изучения. Велика роль современных информационных технологий, в частности, компьютерного эксперимента.
Рассматриваемое соотношение математической и прикладной статистик отнюдь не являются исключением. Как правило, математические дисциплины проходят в своем развитии ряд этапов.
накапливаются соответствующие эмпирические приемы (для геометрии это - "измерение земли", т.е. землемерие, в Древнем Египте). Затем возникает математическая дисциплина со своей аксиоматикой (для геометрии это - время Евклида). Затем идет внутриматематическое развитие и преподавание (считается, что большинство результатов элементарной геометрии получено учителями гимназий в XIX в.). При этом на запросы исходной прикладной области перестают обращать внимание, и та порождает занимается не геометрия, а геодезия и картография). Затем научный интерес к исходной дисциплине иссякает, но преподавание по традиции продолжается (элементарная геометрия до сих пор изучается в средней школе, хотя трудно понять, в каких практических задачах может понадобиться, например, теорема о том, что высоты треугольника пересекаются в одной точке).
Следующий этап - окончательное вытеснение дисциплины из сокращается, в частности, ей все меньше уделяется внимания на вступительных экзаменах в вузах). К интеллектуальным дисциплинам, уже закончившим свой жизненный путь, относится средневековая схоластика. Как справедливо отмечает проф. МГУ им. М.В. Ломоносова В.Н. Тутубалин [16], теория вероятностей и математическая статистика успешно двигаются по ее пути - вслед за элементарной геометрией.
Подведем итог. Хотя статистические данные собираются и анализируются с незапамятных времен (см., например, Книгу Чисел в Ветхом Завете), современная математическая статистика как сравнительно недавно - в первой половине ХХ в. Именно тогда были разработаны основные идеи и получены результаты, излагаемые ныне в учебных курсах математической статистики.
После чего специалисты по математической статистике занялись внутриматематическими проблемами, а для теоретического обслуживания проблем практического анализа статистических данных стала формироваться новая дисциплина - прикладная статистика.
прикладной статистикой проявляется, в частности, в том, что исследователей статистические пакеты программ (например, в заслуженные Statgraphics и SPSS или в более новую систему Statistica), даже не упоминается в учебниках по математической статистике. В результате специалист по математической статистике оказывается зачастую беспомощным при обработке реальных данных, а пакеты программ применяют (что еще хуже - и разрабатывают) лица, не имеющие необходимой теоретической подготовки. Естественно, что они допускают разнообразные ошибки, в том числе в таких ответственных документах, как государственные стандарты по статистическим методам. Анализ грубых ошибок в стандартах дан в статье [17].
Что дает прикладная статистика народному хозяйству?
Так называлась статья [18], в которой приводились многочисленные математической статистики при решении практических задач.
Перечень примеров можно продолжать практически безгранично (см., например, недавнюю сводку [19]).
Методы прикладной статистики используются в зарубежных и отечественных экономических и технических исследованиях, работах по управлению (менеджменту), в медицине, социологии, психологии, истории, геологии и других областях. Их применение дает заметный экономический эффект. Например, в США - не менее статистического контроля качества. Недавно появилась концепция статистических методов [20]. Внедрение «Шести сигм» дает значительный экономический эффект. Исполнительный директор General Electric Джек Уэлч подчеркнул в ежегодном докладе, что всего за три года «Шесть сигм» сэкономили компании более миллиардов долларов.
В 1988 г. затраты на статистический анализ данных в нашей стране оценивались в 2 миллиарда рублей ежегодно [21]. Согласно потребительских паритетов [6], эту величину можно сопоставить с отечественного "рынка статистических услуг" был на порядок меньше, чем в США, что совпадает с оценками и по другим показателям, например, по числу специалистов.
Публикации по новым статистическим методам, по их инженерном деле постоянно появляются, например, в журнале "Заводская лаборатория", в секции "Математические методы исследования". Надо назвать также журналы "Автоматика и телемеханика" (издается Институтом проблем управления Российской академии наук), "Экономика и математические методы" (издается Центральным экономико-математическим институтом РАН).
Однако необходимо констатировать, что для большинства менеджеров, экономистов и инженеров прикладная статистика и другие статистические методы является пока экзотикой. Это объясняется тем, что в вузах современным статистическим методам почти не учат. Во всяком случае, по состоянию на 2004 г. каждый квалифицированный специалист в этой области - самоучка.
Этому выводу не мешает то, что в вузовских программах обычно есть два курса, связанных со статистическими методами.
Один из них - "Теория вероятностей и математическая статистика".
представление об основных понятиях математической статистики.
Кроме того, внимание математиков обычно сосредоточено на внутриматематических проблемах, их больше интересует статистических методов в задачах экономики и менеджмента.
Другой курс - "Статистика" или "Общая теория статистики", входящий в стандартный блок экономических дисциплин.
Фактически он является введением в прикладную статистику и содержит первые начала эконометрических методов (по состоянию на 1900 г.).
Прикладная статистика и другие статистические методы опираются на два названных вводных курса. Цель - вооружить специалиста современным статистическим инструментарием.
Специалист – это инженер, экономист, менеджер, геолог, медик, социолог, психолог, историк, химик, физик и т.д. Во многих странах мира - Японии и США, Франции и Швейцарии, Перу и Ботсване и др. - статистическим методам обучают в средней школе.
ЮНЕСКО постоянно проводят конференции по вопросам такого обучения [22]. В СССР и СЭВ, а теперь - по плохой традиции - и в России игнорируют этот предмет в средней школе и лишь слегка затрагивают его в высшей. Результат на рынке труда очевиден снижение конкурентоспособности специалистов.
Проблемы прикладной статистики и других статистических методов постоянно обсуждаются специалистами. Широкий интерес вызвала дискуссия в журнале «Вестник статистики», в рамках которой были, в частности, опубликованы статьи [9, 18]. На появление в нашей стране прикладной статистики отреагировали и в США [23].
В нашей стране получены многие фундаментальные результаты прикладной статистики. Огромное значение имеют работы академика РАН А.Н. Колмогорова [24]. Во многих случаях именно его работы дали первоначальный толчок дальнейшему развитию ряда направлений прикладной статистики. Зачастую еще 50-70 лет назад А.Н. Колмогоров рассматривал те проблемы, которые только сейчас начинают широко обсуждаться. Как правило, его работы не устарели и сейчас. Свою жизнь посвятили прикладной статистике члены-корреспонденты АН СССР Н.В.
Смирнов и Л.Н. Большев. В настоящем учебнике постоянно встречаются ссылки на лучшую публикацию ХХ в. по прикладной статистике – составленные ими подробно откомментированные «Таблицы …» [25].
Основное продвижение в статистике конца ХХ в. - это создание нечисловой статистики. Ее называют также статистикой нечисловых данных или статистикой объектов нечисловой природы.
В.2. Структура нечисловой статистики самостоятельное научное направление была выделена в нашей стране. Термин "статистика объектов нечисловой природы" впервые появился в 1979 г. в монографии [26]. В том же году в работе [27] была сформулирована программа развития этого нового направления статистических методов.
Со второй половины 80-х годов существенно возрос интерес к этой тематике и у зарубежных исследователей. Это проявилось, в частности, на Первом Всемирном Конгрессе Общества математической статистики и теории вероятностей им. Бернулли, состоявшемся в сентябре 1986 г. в Ташкенте. Нечисловая статистика используется в нормативно-технической и методической документации, ее применение позволяет получить существенный технико-экономический эффект [28].
Цель настоящего раздела - дать введение в нечисловую статистику (статистику нечисловых данных, статистику объектов нечисловой природы), выделить ее структуру, указать основные идеи и результаты, подробнее рассмотренные в дальнейших главах книги.
Напомним, что объектами нечисловой природы называют элементы пространств, не являющихся линейными. Примерами являются вектора из 0 и 1, измерения в качественных шкалах, бинарные отношения (ранжировки, разбиения, толерантности), множества, последовательности символов (тексты). Объекты нечисловой природы нельзя складывать и умножать на числа, не теряя при этом содержательного смысла. Этим они отличаются от издавна используемых в прикладной статистике (в качестве элементов выборок) чисел, векторов и функций.
Прикладную статистику по виду статистических данных принято делить на следующие направления:
статистика случайных величин (одномерная статистика);
многомерный статистический анализ;
статистика временных рядов и случайных процессов;
нечисловая статистика, или статистика нечисловых данных (ее важная часть – статистика интервальных данных).
статистики исторически первыми были рассмотрены объекты нечисловой природы - белые и черные шары в урне. На основе биномиальное, гипергеометрическое и другие дискретные распределения. Получены теоремы Муавра-Лапласа, Пуассона и др.
Современное развитие этой тематики привело, в частности, к созданию теории статистического контроля качества продукции по А.Н.Колмогорова, Б.В. Гнеденко, Ю.К. Беляева, Я.П. Лумельского и многих других (см., например, классические монографии [29,30]).
В семидесятых годах ХХ в. в связи с запросами практики весьма усилился интерес к статистическому анализу нечисловых данных. Московская группа, организованная Ю.Н. Тюриным, Б.Г.Литваком, А.И.Орловым, Г.А. Сатаровым, Д.С. Шмерлингом и другими специалистами вокруг созданного в 1973 г. научного семинара "Экспертные оценки и нечисловая статистика", развивала в основном вероятностную статистику нечисловых данных. Были установлены разнообразные связи между различными видами объектов нечисловой природы и изучены свойства этих объектов.
Московской группой выпущены десятки сборников и обзоров, перечень которых приведен в итоговой работе [31]. Хотя в названиях многих из этих изданий стоят слова "экспертные подавляющая часть статей посвящена математико-статистическим вопросам, а не проблемам проведения экспертиз. Частое употребление указанных слов отражает лишь один из импульсов, стимулирующих развитие нечисловой статистики и идущих от запросов практики. При этом необходимо подчеркнуть, что полученные результаты могут и должны активно использоваться в теории и практике экспертных оценок.
Новосибирская группа (Г.С. Лбов, Б.Г. Миркин и др.), как правило, не использовала вероятностные модели, т.е. вела исследования в рамках детерминированного анализа данных. В московской группе в рамках анализа данных также велись работы, в частности, Б.Г.Литваком. Исследования по статистике объектов нечисловой природы выполнялись также в Ленинграде, Ереване, Киеве, Таллинне, Тарту, Красноярске, Минске, Днепропетровске, Владивостоке, Калинине и других отечественных научных центрах.
Внутреннее деление нечисловой статистики. Внутри рассматриваемого направления прикладной статистики выделяют следующие области:
1. Статистика конкретных видов объектов нечисловой природы.
2. Статистика в пространствах общей (произвольной) природы.
3. Применение идей, подходов и результатов статистики объектов нечисловой природы в классических областях прикладной статистики.
Единство рассматриваемому направлению придает прежде всего вторая составляющая, позволяющая с единой точки зрения подходить к статистическим задачам описания данных, оценивания, проверки гипотез при рассмотрении выборки, элементы которой имеют ту или иную конкретную природу. Внутри первой составляющей рассматривают:
1.1) теорию измерений;
1.2) статистику бинарных отношений;
1.3) теорию люсианов (бернуллиевских векторов);
1.4) теорию парных сравнений;
1.5) статистику случайных множеств;
1.6) статистику нечетких множеств;
1.7) статистику интервальных данных 1.8) аксиоматическое введение метрик;
(существенную часть этой тематики относят также к многомерному статистическому анализу), и др.
Перечисленные разделы тесно связаны друг с другом, как продемонстрировано, в частности, в работах [26, 32] и дальнейших главах настоящего учебника. Вне данного перечня остались работы по хорошо развитым классическим областям - статистическому контролю, таблицам сопряженности, а также по анализу текстов и некоторые другие (см. [6, 31, 33]).
Кратко обсудим постановки 1970-2004 гг. вероятностной статистики нечисловых данных, чтобы рассмотреть как единое целое это направление прикладной статистики.
Статистика в пространствах общей природы. Пусть x1,x2,…,xn -элементы пространства X, не являющегося линейным.
Как определить среднее значение для x1,x2,…,xn? Поскольку нельзя складывать элементы X, сравнивать их по величине, то необходимы подходы, принципиально новые по сравнению с классическими. В статистике объектов нечисловой природы предложено использовать показателя различия: чем больше d(x,y), тем больше различаются x экстремальной задачи Таким образом, среднее En(d)- это совокупность всех тех x X, для которых функция достигает минимума на X.
Как известно, для классического случая X = R1 при d(x,y) = (xy)2 имеем En(d) = x. При X = R1, d(x,y)=|x-y| среднее En(d) при нечетном объеме выборки совпадает с выборочной медианой. А при четном объеме - En(d) является отрезком с концами в двух средних элементах вариационного ряда.
Для ряда конкретных объектов среднее как решение экстремальной задачи вводилось рядом авторов. В 1929 г.
итальянские статистики Джини и Гальвани применили такой подход для усреднения точек на плоскости и в пространстве Американский исследователь Джон Кемени решение задачи (1) называл медианой или средним для выборки, состоящей из ранжировок (см. монографию [34]). При моделировании лесных пожаров согласно выражению (1) было введено "среднеуклоняемое множество" для описания средней выгоревшей площади (см. об этом в монографии [26]). Общее определение эмпирических средних вида (1) было впервые введено в работе [27].
Основной результат, связанный со средними вида (1) - аналог закона больших чисел. Пусть x1,x2,…,xn - независимые одинаково распределенные случайные элементы со значениями в пространстве общей природы X. Теоретическим средним, или математическим ожиданием, в статистике объектов нечисловой природы называют Закон больших чисел состоит в сходимости En(d) к En(x1,d) при n. Поскольку и эмпирическое, и теоретическое средние множества, то понятие сходимости требует уточнения.
Одно из возможных уточнений, впервые введенное в работе [27], таково. Для функции введем понятие " -пятки" ( >0) Очевидно, - пятка f - это окрестность Argmin(f) (если он достигается), заданная в терминах минимизируемой функции. Тем самым снимается вопрос о выборе метрики в пространстве X. Тогда при некоторых условиях регулярности для любого >0 вероятность события стремится к 1 при n, т.е. справедлив закон больших чисел.
Подробное доказательство приведено в главе 2 ниже.
Естественное обобщение рассматриваемой задачи позволяет построить общую теорию оптимизационного подхода в статистике.
Как известно, большинство задач прикладной статистики может быть представлено в качестве оптимизационных. Как себя ведут решения экстремальных задач? Частные случаи этой постановки:
как ведут себя при росте объема выборки оценки максимального правдоподобия и минимального контраста (в том числе робастные в смысле Тьюки - Хьюбера)? Что можно сказать о поведении оценок нагрузок в факторном анализе и методе главных компонент при отсутствии нормальности, об оценках метода наименьших модулей в регрессии и т.д.?
пространств X и последовательности случайных функций.fn(x) при. n найдется функция f(x) такая, что для любого x X (сходимость по вероятности). Требуется вывести отсюда, что т.е. решения экстремальных задач также сходятся. Понятие сходимости в соотношении (8) уточняется, например, с помощью -пяток, как это сделано выше для закона больших чисел. Условия регулярности, при которых справедливо предельное соотношение (8), приведены в исследовании [35]. Практически для всех реальных задач эти условия выполняются.
пространстве общей природы? Поскольку понятие функции природы? Это функция g : X [0,+ ) такая, что для любого A X справедливо соотношение где. µ - некоторая мера в X. Ряд непараметрических оценок плотности был предложен в работе [27]. Например, ядерной оценкой плотности называется оценка где d - показатель различия; H - ядерная функция; hn последовательность положительных чисел; (hn, x) - нормирующий множитель. Удалось установить, что, что статистики типа (10) фиксированном x, что и их классические аналоги при X = R1. В частности, такой же скоростью сходимости. Некоторые изменения необходимы при рассмотрении дискретных X, каковыми являются многие пространства конкретных объектов нечисловой природы (см. главу 2). С помощью непараметрических оценок плотности можно развивать регрессионный анализ, дискриминантный анализ и другие направления в пространствах общей природы.
Для проверки гипотез согласия, однородности, независимости в пространствах общей природы могут быть использованы статистики интегрального типа где f n ( x, ) -последовательность случайных функций на X; Fn ( x, ) последовательность случайных распределений (или зарядов).
Обычно f n ( x, ) при n сходится по распределению к некоторой случайной функции f ( x, ), а Fn ( x, ) - к распределению F(x). Тогда распределение статистики интегрального типа (11) сходится к распределению случайного элемента Условия, при которых это справедливо, даны в главе 2 на основе работы [36]. Пример применения - вывод предельного распределения статистики типа омега-квадрат для проверки симметрии распределения.
нечисловой природы.
Теория измерений. Цель теории измерений - борьба с субъективизмом исследователя при приписывании численных значений реальным объектам. Так, расстояния можно измерять в верстах, аршинах, саженях, метрах, микронах, милях, парсеках и других единицах измерения. Выбор единиц измерения зависит от исследователя, т.е. субъективен. Статистические выводы могут быть адекватны реальности только тогда, когда они не зависят от того, какую именно единицу измерения предпочтет исследователь, преобразования шкалы.
Теория измерений известна в нашей стране уже более 35 лет.
С начала семидесятых годов активно работают отечественные исследователи. В настоящее время изложение основ теории измерений включают в справочные издания, помещают в научнопопулярные журналы и книги для детей. Однако она еще не стала общеизвестной среди специалистов. Поэтому опишем одну из задач теории измерений (ср. раздел 3.1 ниже).
преобразований (прямой в себя). Номинальная шкала (шкала ( x) = ax + b, a > 0, задает шкалу интервалов. Группа ( x) = ax, a > 0, определяет шкалу отношений. Наконец, группа, состоящая из одного тождественного преобразования, описывает абсолютную шкалу. Это - шкалы количественных признаков. Используют и некоторые другие шкалы.
демонстрируют на примере задачи сравнения средних значений для двух совокупностей x1, x2,…,xn и y1, y2,…,yn. Пусть среднее вычисляется с помощью функции f : R n R 1. Если то необходимо, чтобы для любого допустимого преобразования из задающей шкалу группы. (В противном случае результат сравнения будет зависеть от того, какое из эквивалентных представлений шкалы выбрал исследователь.) Требование равносильности неравенств (13) и (14) вместе с некоторыми условиями регулярности приводит к тому, что в порядковой шкале в качестве средних можно использовать только члены вариационного ряда, в частности, медиану, но нельзя использовать среднее геометрическое, среднее арифметическое, и т.д. В количественных шкалах это требование выделяет из всех обобщенных средних по А.Н. Колмогорову в шкале интервалов только среднее арифметическое, а в шкале отношений - только степенные средние. Кроме средних, аналогичные задачи рассмотрены в статистике нечисловых данных для расстояний, мер связи случайных признаков и других процедур анализа данных [26].
Приведенные результаты о средних величинах применялись, например, при проектировании системы датчиков в АСУ ТП доменных печей. Велико прикладное значение теории измерений в задачах стандартизации и управления качеством, в частности, в квалиметрии. Так, В.В. Подиновский показал, что любое изменение коэффициентов весомости единичных показателей качества продукции приводит к изменению упорядочения изделий по средневзвешенному показателю, а Н.В. Хованов развил одну из возможных теорий шкал измерения качества. Теория измерений полезна и в других прикладных областях.
Статистика бинарных отношений. Оценивание центра распределения случайного бинарного отношения проводят обычно с помощью медианы Кемени. Состоятельность вытекает из закона больших чисел [26]. Разработаны различные вычислительные процедуры нахождения медианы Кемени.
Методы проверки гипотез развиты отдельно для каждой разновидности бинарных отношений. В области статистики ранжировок, или ранговой корреляции, классической является книга Кендалла [37]. Современные достижения отражены в работах Ю.Н.Тюрина и Д.С. Шмерлинга. Статистика случайных разбиений развита А.В.Маамяги. Статистика случайных толерантностей (рефлексивных симметричных отношений) впервые изложена в работе [26]. Многие ее задачи являются частными случаями задач теории люсианов.
Теория люсианов (бернуллиевских векторов). Люсиан (бернуллиевский вектор) - это последовательность испытаний Бернулли с, вообще говоря, различными вероятностями успеха.
последовательность из 0 и 1. Люсианы (бернуллиевские вектора) рассматривались при статистическом анализе случайных множеств с независимыми элементами, а также результатов независимых парных сравнений. Последовательность результатов контроля альтернативному признаку - также реализация люсиана (бернуллиевского вектора). Случайная толерантность может быть записана в виде люсиана. Поскольку один и тот же математический объект необходим в различных прикладных областях, естественно для его наименования применять специально введенный термин "бернуллиевский вектор". Используется также более краткий термин "люсиан".
согласованности (одинаковой распределенности), однородности двух выборок, независимости люсианов. Методы проверки бернуллиевских векторов фиксировано, а их длина растет. При этом число неизвестных параметров возрастает пропорционально объему данных, т.е. теория построена в асимптотике растущего числа параметров. Ранее подобная асимптотика под названием асимптотики А.Н.Колмогорова использовалась в дискриминантном анализе, но там применялись совсем другие методы для решения иных задач прикладной статистики.
предположении независимости результатов отдельных сравнений) часть теории люсианов. В параметрической теории выражают вероятности того или иного исхода через значения гипотетических или реальных параметров сравниваемых объектов. Известны модели Терстоуна, Бредли-Терри-Льюса и др. В нашей стране построен ряд новых моделей парных сравнений. В частности, имеются модели парных сравнений с тремя исходами (больше, меньше, неразличимо), модели зависимых сравнений, сравнений нескольких объектов (сближающие рассматриваемую область с теорией случайных ранжировок) и т.д.
Статистика случайных и нечетких множеств. Давнюю историю имеет статистика случайных геометрических объектов (отрезков, треугольников, кругов и т.д.). Современная теория случайных множеств сложилась при изучении пористых сред и объектов сложной природы в таких областях, как металлография, петрография, биология. Различные направления внутри этой теории рассмотрены в работе [26, гл.4]. Остановимся на двух.
Случайные множества, лежащие в евклидовом пространстве, можно складывать: сумма множеств A и B- - это объединение всех векторов x+y, где x A, y B. Н.Н. Ляшенко получил аналоги законов больших чисел, центральной предельной теоремы, ряда методов прикладной статистики, систематически используя подобные суммы.
Для нечисловой статистики интереснее подмножества пространств, не являющихся линейными. В работе [26] рассмотрены некоторые задачи теории конечных случайных множеств. Позже ряд интересных результатов получил С.А.
Ковязин, в частности, он доказал нашу гипотезу о справедливости закона больших чисел при использовании расстояния между множествами где µ - некоторая мера; - знак симметрической разности.
Расстояние (15) выведено из некоторой системы аксиом в монографии [26]. Прикладники также делают попытки развивать и применять методы статистики случайных множеств.
С теорией случайных множеств тесно связана теория нечетких множеств, начало которой положено статьей Л.А.Заде 1965 г. Это направление прикладной математики получило бурное развитие - к настоящему времени число публикаций измеряется десятками тысяч, имеются международные журналы, постоянно ощутимый технико-экономический эффект. При изложении теории вероятностными моделями. Между тем еще в первой половине 1970-х годов было установлено [26], что теория нечеткости в определенном смысле сводится к теории случайных множеств, хотя эта связь, возможно, имеет в основном теоретическое значение.
С точки зрения нечисловой статистики нечеткие множества лишь один из видов объектов нечисловой природы. Поэтому к ним применима общая теория, развитая для пространств произвольной природы. Имеются работы, в которых совместно используются соображения вероятности и нечеткости.
Многомерное шкалирование и аксиоматическое введение метрик. Многомерное шкалирование имеет целью представление объектов точками в пространстве небольшой размерности (1 - 3) с максимально возможным сохранением расстояний между точками.
Из сказанного выше ясно, какое большое место занимают в статистике объектов нечисловой природы метрики (расстояния).
Как их выбрать? Предлагают выводить вид метрик из некоторых систем аксиом. Аксиоматически получена метрика в пространстве коэффициентом ранговой корреляции Кендалла [34]. Метрика (15) в пространстве множеств получена в работе [26] также исходя из некоторой системы аксиом. Г.В. Раушенбахом [38] дана сводка по аксиоматическому подходу к введению метрик в пространствах нечисловой природы. К настоящему времени практически для каждой используемой в прикладных работах метрики удалось подобрать систему аксиом, из которой чисто математическими средствами можно вывести именно эту метрику.
Применения статистики объектов нечисловой природы.
Идеи, подходы, результаты статистики объектов нечисловой природы позволила с единых позиций рассмотреть всю прикладную дисперсионный и дискриминантный анализы являются частными случаями общей схемы регрессионного анализа в пространстве произвольной природы. Поскольку структура модели - объект нечисловой природы, то ее оценивание, в частности, оценивание степени полинома в регрессии, также относится к статистике нечисловых данных. Если учесть, что результаты измерения всегда имеют погрешность, т.е. являются не числами, а интервалами или нечеткими множествами, то приходим к необходимости разработки состоятельность оценок, нецелесообразно увеличивать объем выборок сверх некоторого предела (см. главу 4).
Технико-экономическая эффективность от применения методов статистики нечисловых данных достаточно высока. К сожалению, из-за изменения экономической ситуации, в частности, из-за инфляции трудно сопоставлять конкретные экономические результаты в разные моменты времени. Кроме того, методы нечисловой статистики составляют часть методов прикладной статистики. А те, в свою очередь - часть методов, входящих в систему информационной поддержки принятия решений на предприятии. Какую часть приращения прибыли предприятия надо отнести на эту систему? Можно проанализировать, как работает система управления фирмой в настоящее время. Но можно только оценивать, скорее всего, с помощью экспертных оценок, каковы были бы результаты финансово-хозяйственной деятельности предприятия, если бы система управления фирмой была бы иной, например, содержала бы методы нечисловой статистики.
Нечисловая статистика как часть прикладной статистики продолжает бурно развиваться. В частности, постоянно увеличивается количество ее практически полезных применений при анализе конкретных технических, экономических, медицинских данных - в научных, инженерно-технических, социологических, исторических, маркетинговых исследованиях, в контроллинге, при управлении качеством и предприятием в целом, в макроэкономике, при проведении научных медицинских работ и др.
Нечисловая статистика и концепция устойчивости.
Основой для развития нечисловой статистики послужили результаты, полученные в монографии [26]. Судя по названию, она посвящена проблемам устойчивости в математических моделях социально-экономических явлений и процессов. Устойчивость выводов и принимаемых решений рассматривается относительно допустимых отклонений исходных данных и предпосылок модели.
Как связаны проблемы устойчивости с нечисловой статистикой?
Во-первых, результаты объективного измерения нечисловых объектов обычно более устойчивы, чем числовых величин.
Например, заключение о качестве изделия (годно - дефектно) более устойчиво, чем результат измерения его числового параметра (например, массы). Из-за погрешности повторного измерения масса изделия будет описываться несколько иным числом, а вывод о дефектности при повторной проверке сохранится.
Во-вторых, человеку свойственно использовать в своем мышлении нечисловые величины, прежде всего слова, а не появившиеся исторические недавно числовые системы. Именно поэтому для описания лингвистических переменных стали использовать нечеткие множества. Нечисловые оценки и выводы первичны, их числовая оболочка - вторична. Поэтому нечисловая сердцевина устойчива числовой периферии мышления и принятия решений. Другими словами, результаты субъективного измерения нечисловых объектов также более устойчивы, чем результаты субъективного измерения числовых величин.
приобретают естественный вид в рамках концепции устойчивости.
Например, требование устойчивости результата сравнения средних приводит к характеризации средних величин шкалами измерений, в которых их можно использовать. Любая предельная теорема - это утверждение об устойчивости того или иного математического объекта относительно изменения объема выборки или другого параметра, по которому происходит переход к пределу. Много подобных примеров приведено в монографии [26].
Таким образом, нечисловая статистика - это не только наиболее современная область статистических методов, но и центральная часть этой научно-практической дисциплины, наиболее важная как с теоретической, так и с прикладной точки зрения.
1. Никитина Е.П., Фрейдлина В.Д., Ярхо А.В. Коллекция определений термина «статистика». – М.: МГУ, 1972. – 46 с.
2. Ленин В.И. Развитие капитализма в России. Процесс образования Политиздат, 1986. - XII, 610 с.
3. Гнеденко Б.В. Очерк по истории теории вероятностей. – М.:УРСС, 2001. – 88 с.
4. Клейн Ф. Лекции о развитии математики в ХIХ столетии. Часть I.
- М.-Л.: Объединенное научно-техническое издательство НКТП СССР, 1937. - 432 с.
5. Плошко Б.Г., Елисеева И.И. История статистики: Учеб. пособие. М.: Финансы и статистика. 1990. - 295 с.
6. Орлов А.И. Эконометрика. Учебник для вузов. Изд. 2-е, исправленное и дополненное. - М.: Изд-во "Экзамен", 2003. – 576 с.
7. Бернштейн С.Н. Современное состояние теории вероятностей и ее приложений. - В сб.: Труды Всероссийского съезда математиков в Москве 27 апреля - 4 мая 1927 г. - М.-Л.: ГИЗ, 1928. С.50-63.
8. Орлов А.И. О современных проблемах внедрения прикладной статистики и других статистических методов. / Заводская лаборатория. 1992. Т.58. № 1. С.67-74.
9. Орлов А.И. О перестройке статистической науки и её применений. / Вестник статистики. 1990. № 1. С.65 - 71.
10. Кендалл М., Стьюарт А. Теория распределений. - М.: Наука, 1966. - 566 с.
11. Кендалл М., Стьюарт А. Статистические выводы и связи. - М.:
Наука, 1973. - 899 с.
12. Кендалл М., Стьюарт А. Многомерный статистический анализ и временные ряды. - М.: Наука, 1976. - 736 с.
13. Налимов В.В., Мульченко З.М. Наукометрия. Изучение развития науки как информационного процесса. - М.: Наука, 1969. с.
14. ГОСТ 11.011-83. Прикладная статистика. Правила определения оценок и доверительных границ для параметров гаммараспределения. - М.: Изд-во стандартов. 1984. - 53 с.
15. Орлов А.И. О развитии прикладной статистики. - В сб.:
Современные проблемы кибернетики (прикладная статистика). - М.:
Знание, 1981, с.3-14.
16. Тутубалин В.Н. Границы применимости (вероятностностатистические методы и их возможности). - М.: Знание, 1977. - 17. Орлов А.И. Сертификация и статистические методы. - Журнал "Заводская лаборатория". 1997. Т.63. № 3. С.55-62.
18. Орлов А.И. Что дает прикладная статистика народному хозяйству? – Журнал «Вестник статистики». 1986, No.8. С.52 – 56.
19. Орлов А.И., Орлова Л.А. Применение эконометрических «Контроллинг». 2003. №4. С.50-54.
20. Панде П., Холп Л. Что такое «Шесть сигм»? Революционный метод управления качеством / Пер. с англ. - М.: Альпина Бизнес Букс, 2004. - 158 с.
исследований в разработке методоориентированных экспертных систем (на примере оптимизационных и статистических методов). В сб.: Вопросы применения экспертных систем. - Минск:
Центросистем, 1988. С.151-160.
22. The teaching of statistics / Studies in mathematical education, vol.7. Paris, UNESCO, 1991. - 258 pp.
23. Котц С., Смит К. Пространство Хаусдорфа и прикладная статистика: точка зрения ученых СССР. - The American Statistician.
November 1988. Vol. 42. № 4. Р. 241-244.
24. Кудлаев Э.М., Орлов А.И. Вероятностно-статистические методы исследования в работах А.Н.Колмогорова. – Журнал «Заводская лаборатория». 2003. Т.69. № 5. С.55-61.
25. Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. - М.: Наука, 1965 (1-е изд.), 1968 (2-е изд.), 1983 (3-е изд.).
26. Орлов А.И. Устойчивость в социально-экономических моделях.
- М.: Наука, 1979. - 296 с.
27. Орлов А.И. Статистика объектов нечисловой природы и экспертные оценки. – В сб.: Экспертные оценки / Вопросы кибернетики. Вып.58. - М.: Научный Совет АН СССР по комплексной проблеме "Кибернетика", 1979. - С.17-33.
28. Кривцов В.С., Орлов А.И., Фомин В.Н. Современные статистические методы в стандартизации и управлении качеством продукции. – Журнал «Стандарты и качество». 1988. No.3. С.32-36.
29. Беляев Ю.К. Вероятностные методы выборочного контроля. М.: Наука, 1975. - 408 с.
30. Лумельский Я.П. Статистические оценки результатов контроля качества. - М.: Изд-во стандартов, 1979. - 200 с.
31. Орлов А.И. Статистика объектов нечисловой природы (Обзор).
– Журнал «Заводская лаборатория». 1990. Т.56. No.3. С.76-83.
32. Вероятность и математическая статистика: Энциклопедия / Гл.
ред. Ю.В. Прохоров. - М.: Большая Российская энциклопедия, 1999.
- 910 с.
33. Толстова Ю.Н. Анализ социологических данных. – М.: Научный мир, 2000. – 352 с.
34. Кемени Дж., Снелл Дж. Кибернетическое моделирование:
Некоторые приложения. - М.: Советское радио, 1972. - 192 с.
35. Орлов А.И. Асимптотика решений экстремальных статистических задач. – В сб.: Анализ нечисловых данных в системных исследованиях. Сборник трудов. Вып.10. - М.:
Всесоюзный научно-исследовательский институт системных исследований, 1982. - С. 4-12.
36. Орлов А.И. Асимптотическое поведение статистик интегрального типа. – В сб.: Вероятностные процессы и их приложения. Межвузовский сборник. - М.: МИЭМ, 1989. С.118-123.
37. Кендэл М. Ранговые корреляции. - М.:Статистика,1975. - 216 с.
38. Раушенбах Г.В. Меры близости и сходства. - В сб.: Анализ нечисловой информации в социологических исследованиях. - М.:
Наука, 1985. - С.169-203.
Глава 1. Нечисловые статистические данные 1.1. Количественные и категоризованные данные Статистические методы – это методы анализа данных, причем обычно достаточно большого количества данных. Статистические данные могут иметь различную природу. Исторически самыми ранними были два вида данных – сведения о числе объектов, удовлетворяющих тем или иным условиям, и числовые результаты измерений.
Первый из этих видов данных до сих пор главенствует в статистических сборниках Госкомстата РФ. Такого рода данные часто называют категоризованными, поскольку о каждом из рассматриваемых объектов известно, в какую из нескольких заранее заданных категорий он попадает. Примером является информация Госкомстата РФ о населении страны, с разделением по возрастным категориям и полу. Часто при составлении таблиц жертвуют информацией, заменяя точное значение измеряемой величины на указание интервала группировки, в которую это значение попадает.
Например, вместо точного возраста человека используют лишь один из указанных в таблице возрастных интервалов.
количественные данные, рассматриваемые как действительные числа. Таковы результаты измерений, наблюдений, испытаний, опытов, анализов. Количественные данные обычно описываются набором чисел (выборкой), а не таблицей.
соответствуют первому этапу исследования, а числовые – следующему, на котором используются более совершенные методы измерения. Дело в том, что человеку свойственно давать качественные ответы на возникающие в его практической деятельности вопросы. Примером является таблица1, посвященная анализу сильных и слабых сторон конкретной Компании (табл.1).
Она составлена одним из руководителей этой Компании и предназначена для использования при управлении Компанией.
Показатели, (По отношению к предприятиям показателя описывающие различные отрасли) стороны работы Очень Вы- Сре- Низ- Очень Вы- Сре- НизКомпании высо- со- дняя кая низ- со- дняя кая активов привлекательность капитал 2. Производство оборудования мощности качества расширения производства 3. Организация и управленческого персонала Данные взяты из выпускной работы А.А. Пивня «Анализ и перспективы развития маркетинга ЗАО «Компания Новгородский завод «ГАРО» (Академия народного хозяйства при правительстве Российской Федерации, 2003).
управления на изменения во внешней среде полномочий и функций используемой в управлении информации оргструктуры управления марки сбыта сбытового персонала поступающей информации 5. Кадровый состав квалификации производственного персонала подготовке и переподготовке персонала сбытового персонала в технической области 6. Технология стандарты Ясно, что вполне можно превратить в числа значения признаков, названия которых приведены в столбце «Показатели Компании», однако этот переход будет зависеть от исследователя, носить неизбежный налет субъективизма. Отметим, что важность количественно.
Иногда нецелесообразно однозначно относить данные к категоризованным или количественным. Например, в Ветхом Завете, в Четвертой книге Моисеева «Числа» указывается количество воинов в различных коленах. С одной стороны, это типичные категоризованные данные, градациями служат названия колен. С другой стороны, эти данные можно рассматривать как количественные, как выборку, их вполне естественно складывать, вычислять среднее арифметическое и т.п.
Описанная ситуация типична. Существует весьма много различных видов статистических данных. Это связано, в частности, со способами их получения. Например, если испытания некоторых технических устройств продолжаются до определенного момента, то получаем т.н. цензурированные данные, состоящие из набора чисел – продолжительности работы ряда устройств до отказа, и информации о том, что остальные устройства продолжали работать в момент окончания испытания. Такого рода данные часто используются при оценке и контроле надежности технических устройств.
Описание вида данных и, при необходимости, механизма их порождения – начало любого статистического исследования.
В простейшем случае статистические данные – это значения некоторого признака, свойственного изучаемым объектам. Значения могут быть количественными или представлять собой указание на категорию, к которой можно отнести объект. Во втором случае говорят о качественном признаке. Используют и более сложные развертывания изложения в учебнике.
качественным признакам в качестве статистических данных об объекте получаем вектор. Его можно рассматривать как новый вид данных. В таком случае выборка состоит из набора векторов. Есть (категоризованные) данные, то говорим о векторе разнотипных данных.
Одним элементом выборки, т.е. одним измерением, может быть и функция в целом. Например, электрокардиограмма больного или амплитуда биений вала двигателя. Или временной ряд, описывающий динамику показателей определенной фирмы. Тогда выборка состоит из набора функций.
Элементами выборки могут быть и бинарные отношения.
Например, при опросах экспертов часто используют упорядочения (ранжировки) объектов экспертизы – образцов продукции, инвестиционных проектов, вариантов управленческих решений. В зависимости от регламента экспертного исследования элементами выборки могут быть различные виды бинарных отношений (упорядочения, разбиения, толерантности), множества, нечеткие множества и т.д.
различных задачах прикладной статистики может быть самой разной. Однако можно выделить два класса статистических данных – числовые и нечисловые. Соответственно прикладная статистика разбивается на две части – числовую статистику и нечисловую статистику (ее называют также статистикой нечисловых данных или статистикой объектов нечисловой природы).
Числовые статистические данные – это числа, вектора, функции. Их можно складывать, умножать на коэффициенты.
Поэтому в числовой статистике большое значение имеют разнообразные суммы. Математический аппарат анализа сумм случайных элементов выборки – это (классические) законы приложение 3).
Нечисловые статистические данные – это категоризованные данные, вектора разнотипных признаков, бинарные отношения, множества, нечеткие множества и др. Их нельзя складывать и умножать на коэффициенты. Поэтому не имеет смысла говорить о элементами нечисловых математических пространств (множеств).
Математический аппарат анализа нечисловых статистических данных основан на использовании расстояний между элементами (а также мер близости, показателей различия) в таких пространствах.
теоретические средние, доказываются законы больших чисел, строятся непараметрические оценки плотности распределения вероятностей, решаются задачи диагностики и кластерного анализа, и т.д..
Сведем информацию об основных областях прикладной рассматриваемых областей.
№ п/п Вид статистических данных Область прикладной статистики 2 Конечномерные вектора Многомерный статистический анализ 4 Объекты нечисловой природы Нечисловая статистика Почему необходима теория измерений? Теория измерений (в дальнейшем сокращенно ТИ) является одной из составных частей прикладной статистики. Она входит в состав статистики объектов нечисловой природы (нечисловой статистики).
Использование чисел в жизни и хозяйственной деятельности людей отнюдь не всегда предполагает, что эти числа можно складывать и умножать, производить иные арифметические действия. Что бы вы сказали о человеке, который занимается умножением телефонных номеров? И отнюдь не всегда 2+2=4. Если вы вечером поместите в клетку двух животных, а потом еще двух, то отнюдь не всегда можно утром найти в этой клетке четырех животных. Их может быть и много больше - если вечером вы загнали в клетку овцематок или беременных кошек. Их может быть и меньше - если к двум волкам вы поместили двух ягнят. Числа используются гораздо шире, чем арифметика.
порядковой шкале (подробнее о шкалах говорится ниже), т.е.
эксперт может сказать (и обосновать), что один показатель качества продукции более важен, чем другой, первый технологический объект более опасен, чем второй, и т.д. Но он не в состоянии сказать, во сколько раз или на сколько более важен, соответственно, (упорядочение) объектов экспертизы, т.е. расположить их в порядке возрастания (или убывания) интенсивности интересующей организаторов экспертизы характеристики. Ранг - это номер характеристики у различных объектов. Такой ряд в статистике называется вариационным. Формально ранги выражаются числами 1, 2, 3,..., но с этими числами нельзя делать привычные арифметические операции. Например, хотя в арифметике 1 + 2 = 3, но нельзя утверждать, что для объекта, стоящем на третьем месте в упорядочении, интенсивность изучаемой характеристики равна сумме интенсивностей объектов с рангами 1 и 2. Так, один из видов экспертного оценивания - оценки учащихся. Вряд ли кто-либо будет утверждать, что знания отличника равны сумме знаний двоечника и троечника (хотя 5 = 2 + 3), хорошист соответствует двум двоечникам (2 + 2 = 4), а между отличником и троечником такая же разница, как между хорошистом и двоечником (5 - 3 = 4 - 2).
Поэтому очевидно, что для анализа подобного рода качественных данных необходима не всем известная с начальной школы арифметика, а другая теория, дающая базу для разработки, изучения и применения конкретных методов расчета. Это и есть теория измерений (ТИ).
При чтении литературы надо иметь в виду, что в настоящее время термин "теория измерений" применяется для обозначения направлений, например, алгоритмической теории измерений.
Обычно из контекста понятно, о какой конкретно теории идет речь.
послевоенных публикациях2 американский психолог С.С. Стивенс основное внимание уделял шкалам измерения (в основном связям между объективной величиной физического воздействия и его субъективным восприятием для различных видов воздействий). Во второй половине ХХ в. сфера применения ТИ стремительно расширяется. Посмотрим, как это происходило. Один из томов Вышедших сразу после Второй мировой войны.
психологических наук" назывался "Психологические измерения".
Значит, составители этого тома расширили сферу применения РТИ с психофизики на психологию в целом. А в основной статье в этом сборнике под названием, обратите внимание, "Основы теории измерений", изложение шло на абстрактно-математическом уровне, без привязки к какой-либо конкретной области применения. В этой статье [1] упор был сделан на "гомоморфизмах эмпирических систем с отношениями в числовые" (в эти математические термины здесь вдаваться нет необходимости), и математическая сложность изложения заметно возросла по сравнению с работами С.С.
Стивенса.
Уже в одной из первых отечественных статей по РТИ (конец 1960-х годов) утверждалось, что баллы, присваиваемые экспертами при оценке объектов экспертизы, как правило, измерены в порядковой шкале. Дальнейшие работы, появившиеся в начале 1970-х годов, привели к существенному расширению области использования РТИ. Ее применяли к педагогической квалиметрии исследованиях, в различных задачах теории экспертных оценок, для агрегирования показателей качества продукции, в социологических исследованиях, и др.
Итоги этого этапа были подведены в монографии [2]. В качестве одной из двух основных проблем РТИ наряду с установлением типа шкалы измерения конкретных данных был выдвинут поиск алгоритмов анализа данных, результат работы которых не меняется при любом допустимом преобразовании преобразования).
Метрологи вначале резко возражали против использования термина "измерение" для качественных признаков. Однако постепенно возражения сошли на нет, и к концу ХХ в. все научные школы стали рассматривать ТИ как общенаучную теорию.
математическом моделировании реального явления или процесса следует прежде всего установить типы шкал, в которых измерены те или иные переменные. Тип шкалы задает группу допустимых преобразований шкалы. Допустимые преобразования не меняют соотношений между объектами измерения. Например, при измерении длины переход от аршин к метрам не меняет соотношений между длинами рассматриваемых объектов - если первый объект длиннее второго, то это будет установлено и при измерении в аршинах, и при измерении в метрах. Обратите внимание, что при этом численное значение длины в аршинах отличается от численного значения длины в метрах - не меняется лишь результат сравнения длин двух объектов.
Укажем основные виды шкал измерения и соответствующие группы допустимых преобразований.
В шкале наименований (другое название этой шкалы номинальная; это - переписанное русскими буквами английское название шкалы) допустимыми являются все взаимно-однозначные преобразования. В этой шкале числа используются лишь как метки.
Примерно так же, как при сдаче белья в прачечную, т.е. лишь для различения объектов. В шкале наименований измерены, например, номера телефонов, автомашин, паспортов, студенческих билетов.
Номера страховых свидетельств государственного пенсионного страхования, медицинского страхования, ИНН (индивидуальный номер налогоплательщика), штрих-коды товаров измерены в шкале наименований. Пол людей тоже измерен в шкале наименований, результат измерения принимает два значения - мужской, женский.
Раса, национальность, цвет глаз, волос - номинальные признаки.
Номера букв в алфавите - тоже измерения в шкале наименований.
Никому в здравом уме не придет в голову складывать или умножать номера телефонов, такие операции не имеют смысла. Сравнивать буквы и говорить, например, что буква П лучше буквы С, также никто не будет. Единственное, для чего годятся результаты измерений в шкале наименований - для различения объектов. Во многих случаях только это от них и требуется. Например, шкафчики для одежды в раздевалках для взрослых различают по номерам, т.е.
числам, а в детских садах используют рисунки, поскольку дети еще не знают чисел.
В порядковой шкале числа используются не только для различения объектов, но и для установления порядка между объектами. Простейшим примером являются оценки знаний учащихся. Символично, что в средней школе применяются оценки 2, 3, 4, 5, а в высшей школе ровно тот же смысл выражается словесно - неудовлетворительно, удовлетворительно, хорошо, отлично. Этим подчеркивается "нечисловой" характер оценок знаний учащихся. В порядковой шкале допустимыми являются все строго возрастающие преобразования.
Установление типа шкалы, т.е. задания группы допустимых преобразований шкалы измерения привлекательности профессий мы в монографии [2], выступая в качестве социологов, считали измеренными в порядковой шкале.
Однако отдельные социологи не соглашались с нами, полагая, что выпускники школ пользуются шкалой с более узкой группой допустимых преобразований, например, шкалой интервалов.
Очевидно, эта проблема относится не к математике, а к наукам о человеке. Для ее решения может быть поставлен достаточно трудоемкий эксперимент. Пока же он не поставлен, целесообразно принимать порядковую шкалу, так как это гарантирует от возможных ошибок.
Оценки экспертов, как уже отмечалось, часто следует считать измеренными в порядковой шкале. Типичным примером являются задачи ранжирования и классификации промышленных объектов, подлежащих экологическому страхованию.
Почему мнения экспертов естественно выражать именно в порядковой шкале? Как показали многочисленные опыты, человек более правильно (и с меньшими затруднениями) отвечает на вопросы качественного, например, сравнительного, характера, чем количественного. Так, ему легче сказать, какая из двух гирь тяжелее, чем указать их примерный вес в граммах.
применяется много других видов порядковых шкал. Так, например, в минералогии используется шкала Мооса, по которому минералы классифицируются согласно критерию твердости. А именно: тальк имеет балл 1, гипс - 2, кальций - 3, флюорит - 4, апатит - 5, ортоклаз - 6, кварц - 7, топаз - 8, корунд - 9, алмаз - 10. Минерал с большим номером является более твердым, чем минерал с меньшим номером, при нажатии царапает его.
Порядковыми шкалами в географии являются - бофортова шкала ветров ("штиль", "слабый ветер", "умеренный ветер" и т.д.), шкала силы землетрясений. Очевидно, нельзя утверждать, что землетрясение в 2 балла (лампа качнулась под потолком - такое бывает и в Москве) ровно в 5 раз слабее, чем землетрясение в баллов (полное разрушение всех построек на поверхности земли).
В медицине порядковыми шкалами являются - шкала стадий гипертонической болезни (по Мясникову), шкала степеней сердечной недостаточности (по Стражеско-Василенко-Лангу), шкала степени выраженности коронарной недостаточности (по Фогельсону), и т.д. Все эти шкалы построены по одной схеме:
заболевание не обнаружено; первая стадия заболевания; вторая стадия; третья стадия… Иногда выделяют стадии 1а, 1б и др.
Каждая стадия имеет свойственную только ей медицинскую характеристику. При описании групп инвалидности числа используются в противоположном порядке: самая тяжелая - первая группа инвалидности, затем - вторая, самая легкая - третья.
Номера домов также измерены в порядковой шкале - они показывают, в каком порядке стоят дома вдоль улицы. Номера томов в собрании сочинений писателя или номера дел в архиве предприятия обычно связаны с хронологическим порядком их создания.
При оценке качества продукции и услуг, в т.н. квалиметрии (буквальный перевод: измерение качества) популярны порядковые шкалы. А именно, единица продукции оценивается как годная или не годная. При более тщательном анализе используется шкала с тремя градациями: есть значительные дефекты - присутствуют только незначительные дефекты - нет дефектов. Иногда применяют четыре градации: имеются критические дефекты (делающие невозможным использование) - есть значительные дефекты присутствуют только незначительные дефекты - нет дефектов.
Аналогичный смысл имеет сортность продукции - высший сорт, первый сорт, второй сорт,… При оценке экологических воздействий первая, наиболее обобщенная оценка - обычно порядковая, например: природная среда стабильна - природная среда угнетена (деградирует).
Аналогично в эколого-медицинской шкале: нет выраженного воздействия на здоровье людей - отмечается отрицательное воздействие на здоровье.
Порядковая шкала используется и во многих иных областях.
Отметим различные методы экспертных оценок (см. посвященный им раздел в главе 3).
Все шкалы измерения делят на две группы - шкалы качественных признаков и шкалы количественных признаков.
Порядковая шкала и шкала наименований - основные шкалы качественных признаков. Поэтому во многих конкретных областях науки и практики результаты качественного анализа можно рассматривать как измерения по этим шкалам.
интервалов, отношений, разностей, абсолютная. По шкале интервалов измеряют величину потенциальной энергии или координату точки на прямой. В этих случаях на шкале нельзя отметить ни естественное начало отсчета, ни естественную единицу измерения. Исследователь должен сам задать точку (начало) отсчета и сам выбрать единицу измерения. Допустимыми преобразованиями в шкале интервалов являются линейные возрастающие преобразования, т.е. линейные функции. Температурные шкалы Цельсия и Фаренгейта связаны именно такой зависимостью: 0С = 5/ (0F - 32), где 0С - температура (в градусах) по шкале Цельсия, а 0F температура по шкале Фаренгейта.
Из количественных шкал наиболее распространенными в науке и практике являются шкалы отношений. В них есть естественное начало отсчета - нуль, т.е. отсутствие величины, но нет естественной единицы измерения. По шкале отношений измерены большинство физических единиц: масса тела, длина, заряд, а также цены (и различные стоимостные характеристики) в экономике.
Допустимыми преобразованиями в шкале отношений являются подобные преобразования (изменяющие только масштаб). Другими словами, линейные возрастающие преобразования без свободного члена. Примером является пересчет цен из одной валюты в другую по фиксированному курсу.
Предположим, мы сравниваем экономическую эффективность двух инвестиционных проектов, используя цены в рублях. Пусть первый проект оказался лучше второго. Теперь перейдем на валюту самой экономически мощной державы мира - юани3, используя фиксированный курс пересчета. Очевидно, первый проект должен опять оказаться более выгодным, чем второй. Это очевидно из общих соображений. Однако алгоритмы расчета не обеспечивают автоматически выполнения этого очевидного условия. Надо проверять, что оно выполнено. Результаты подобной проверки для алгоритмов расчета средних величин описаны ниже (раздел 3.1).
В шкале разностей есть естественная единица измерения, но нет естественного начала отсчета. Допустимые преобразования сдвиги, т.е. линейные функции с единичным коэффициентом линейного члена, свободный же член произволен. Время измеряется по шкале разностей, если год (или сутки - от полудня до полудня) интервалов в общем случае. На современном уровне знаний естественного начала отсчета указать нельзя. Дату сотворения мира различные авторы рассчитывают по-разному, равно как и момент рождества Христова. Так, согласно статистической хронологии [4], А.Т.Фоменко, Господь Иисус Христос родился примерно в 1054 г.
по принятому ныне летоисчислению в Стамбуле (он же - Царьград, Византия, Троя, Иерусалим, Рим).
Только для абсолютной шкалы результаты измерений - числа в обычном смысле слова. Примером является число людей в комнате. Для абсолютной шкалы допустимым является только тождественное преобразование.
При использовании курсов валют, основанных на их реальной покупательной способности, по валовому внутреннему продукту (ВВП) Китай лидирует в мире, его ВВП больше, чем у любой другой страны, в частности, больше, чем у США [3].
В процессе развития соответствующей области знания тип шкалы может меняться. Так, сначала температура измерялась по порядковой шкале (холоднее - теплее). Затем - по интервальной (шкалы Цельсия, Фаренгейта, Реомюра). Наконец, после открытия абсолютного нуля температуру можно считать измеренной по шкале отношений (шкала Кельвина). Надо отметить, что среди специалистов иногда имеются разногласия по поводу того, по каким шкалам следует считать измеренными те или иные реальные величины. Другими словами, процесс измерения включает в себя и основных типов шкал, иногда используют и иные шкалы.