«Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D. Professor of Medicine Member, Cardiovascular Reserch Institute Member, Institute for Health Policy Studies University of California, San ...»
одни и те же больные последовательно подвергаются нескольким методам лечения или просто наблюдаются в несколько последовательных моментов времени. По-другому распределяется и общая вариация Sобщ (рис. 9.5). Прежде всего можно выделитьмежиндивидуальную (SМИ) и внутрииндивидуальную (SВИ) вариацию, последняя, в свою очередь, распадается на обусловленную методом лечения (Sле) и остаточную (Sост), обусловленную случайными колебаниями, ошибкой измерения и т. п.
Обозначения, которые мы будем использовать в дисперсионном анализе повторных измерений, приведены в табл. 9.4. Представлены 4 больных, каждого из которых последовательно лечили 3 методами. Значения интересующего нас признака обоТаблица 9.4. Обозначения, используемые в дисперсионном анализе повторных измерений значены Хмб, например, Х12 — значение у 2-го больного при 1-м методе лечения, Х31 — значение у 1-го больного при 3-м методе лечения и так далее. Величины X б ( X1, X 2, X 3 и X 4 ) — это «индивидуальные» средние (средние значения признака при всех методах лечения у 1-го, 2-го и т. д. больного):
где т — число методов лечения. Tм ( T1, T2, T3 и T4) — средние значения признака у всех больных при 1-м, 2-м и т. д. методе лечения:
где п — число больных.
Общая вариация — это сумма квадратов отклонений всех значений (у всех больных при всех методах лечения) от общего среднего, которое составляет таким образом, Соответствующее число степеней свободы общ = тп – 1.
Общая вариация складывается из межиндивидуальной и внутрииндивидуальной вариации. Рассчитаем внутрииндивидуальную вариацию SВИ. У первого больного сумма квадратов отклонений от индивидуального среднего X1 равна У второго больного
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
и так далее. Чтобы рассчитать внутрииндивидуальную вариацию, просуммируем SВИб по всем больным:Соответствующее число степеней свободы составляет ВИ = = n(m – 1).
Перейдем к межиндивидуальной вариации. Она складывается из квадратов отклонений индивидуальных средних X б от общего среднего X :
Множитель т появляется из-за того, что каждое X б — это среднее по т методам лечения. Число степеней свободы МИ = = n – 1.
Можно показать*, что общая вариация равна сумме внутри- и межиндивидуальной вариаций:
Теперь из внутрииндивидуальной вариации нам предстоит выделить вариацию, связанную с лечением Sле, и остаточную вариацию Sост, связанную со случайными отклонениями и ошибками измерения. Вариация, связанная с лечением, складывается из квадратов отклонений средних по методам лечения Tм от общего среднего X :
Наличие коэффициента п связано с тем, что каждое Тм — это среднее по п больным.
Соответствующее число степеней свободы ле = m – 1.
Остаточная вариация — вторая составляющая внутрииндивидуальной вариации — получается вычитанием:
* Вывод этого равенства см. в: В. J. Winer, D. R. Brown, К. М. Michels.
Statistical principles in experimental design, 3d ed. McGraw-Hill, New York, Аналогично вычисляется и остаточное число степеней свободы ост:
Теперь мы можем получить две независимые оценки дисперсии: на основании вариации, связанной с лечением и на основании остаточной вариации:
после чего можно применить знакомый нам критерий F:
Далее следует поступить как при обычном дисперсионном анализе. Вычисленное значение F сравнивают с критическим для выбранного уровня значимости и числа степеней свободы.
Чтобы воспользоваться табл. 3.1, нужно в качестве меж взять ле, а в качестве вну — соответственно ост.
Боюсь, читателя утомили сложные выкладки и громоздкие термины, которыми несколько перегружен этот раздел. Пора перейти к практическим применениям. Как мы уже говорили, дисперсионный анализ повторных наблюдений можно использовать не только когда к одним и тем же больным применяется несколько методов лечения, но и когда больные просто наблюдаются в несколько разных моментов времени. Именно на таком, очень простом примере мы и рассмотрим применение дисперсионного анализа повторных измерений.
Гидралазин при первичной легочной гипертензии Первичная легочная гипертезия — редкое и чрезвычайно тяжелое заболевание, при котором вследствие неизвестных причин щаются, что затрудняет газообмен в легких. Из-за повышенной нагрузки на правый желудочек страдает сердце. Без лечения больные живут не более нескольких лет. Гидралазин — препарат, расширяющий сосуды, — успешно используется при гипертонической болезни. Л. Рубин и Р. Питер* предположили, что его можно использовать и при первичной легочной гипертензии. В исследование вошли 4 больных. Измерения производили трижды: перед началом лечения, спустя 48 ч и 3—6 мес лечения. (В дальнейшем мы будем говорить просто о 1,2 и 3-м измерениях.) Измеряли, в частности, легочное сосудистое сопротивление. Этот показатель отражает тяжесть легочной гипертензии: чем выше сопротивление, тем тяжелее гипертензия.
Результаты представлены на рис. 9.6. Похоже, данные говорят в пользу препарата. С другой стороны, они получены на малочисленной выборке. Поэтому не будем доверяться впечатлениям, а воспользуемся дисперсионным анализом повторных измерений.
Обратимся к табл. 9.5. Здесь помимо первичных данных приведены средние значения легочного сосудистого сопротивления для каждого из 4 больных и для каждого из трех моментов измерения. Например, у второго больного среднее легочное сосудистое сопротивление составило а среднее легочное сосудистое сопротивление при 1-м измерении:
Среднее сопротивление по всем измерениям X = 11,63, а общая вариация Sобщ = 289,82.
В табл. 9.5 приведены также суммы квадратов отклонений от индивидуального среднего. Например, для второго больного S ВИ2 = (17,0 – 9,83)2 + (6,3 – 9,83)2 + (6,2 – 9,83)2 = 77,05.
* L. J. Rubin and R. H. Peter. Oral hydralazine therapy for primary pulmonary hypertension. N. Engl. J. Med., 302:69—73, 1980.
Рис. 9.6. Изменение легочного сосудистого сопротивления у 4 больных с легочной гипертензией при лечении гидралазином.
Внутрииндивидуальная вариация составляет SВИ = 147,95 + 77,05 + 18,35 + 21,45 = 264,80.
Можно найти межиндивидуальную вариацию SМИ = 3[(12,73 – 11,63)2 + (9,83 – 11,63)2 + + (10,63 – 11,63)2 + (13,33 – 11,63)2] = 25,02.
Заметьте, что, как это и должно быть, выполняется равенство Sобщ = SВИ + SМИ.
Рассчитаем Sле (теперь эта вариация связана со временем, но мы оставим прежнее обозначение):
Sле = 4[(17,58 – 11,63)2 + (7,73 – 11,63)2 + (9,60 – 11,63)2] = 218,93.
Соответствующее число степеней свободы:
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Таблица 9.5. Легочное сосудистое сопротивление у больных первичной легочной гипертензией на фоне лечения гидралазином Общее среднее X = 11,63. Общая вариация Sобщ = 289,82.Наконец, остаточная вариация определяется равенством Sост = SВИ – Sле = 264,80 – 218,93 = 45, и имеет ост = (n – 1)(m – 1) = (4 – 1)(3 – 1) = 6 степеней свободы.
Все найденные величины сведены в табл. 9.6. Обратите внимание, что здесь общая вариация разложена на большее число составляющих, чем в табл. 9.3. Причина в том, что теперь рассматриваются результаты повторных измерений одной группы, а не однократных измерений нескольких групп.
Вычисляем оценку дисперсии на основании вариации, обусловленной лечением:
и на основании остаточной вариации:
Теперь, наконец, можно вычислить F:
Критическое значение для числа степеней свободы меж = 2 и Таблица 9.6. Таблица дисперсионного анализа (исследование гидралазина при первичной легочной гипертензии) Межиндивидуальная SМИ = 25,02 Внутрииндивидуальная SВИ = 264,80 вну = 6 составляет 10,92, то есть меньше полученного нами. Таким образом, легочное сосудистое сопротивление нельзя считать постоянным. По крайней мере в один из моментов легочное сосудистое сопротивление значимо отличается от наблюдаемого в остальные моменты. Ответить на вопрос, что это за момент и что это за отличия, дисперсионный анализ не может.
Для этого следует воспользоваться методами множественных сравнений (гл.4).
Как выявить различия в повторных измерениях В гл. 4 мы познакомились с критерием Стьюдента с поправкой Бонферрони. Он вычисляется как обычный критерий Стьюдента:
Однако уровень значимости в каждом из сравнений, согласно поправке Бонферрони, принимается равным = /k, где — истинный уровень значимости (по всем сравнениям в целом), а k — число сравнений. Критерий Стьюдента с поправкой Бонферрони, как и другие методы множественного сравнения, применяется лишь после того, как дисперсионный анализ обнаружит сам факт существования различий.
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
При дисперсионном анализе повторных измерений схема использования критерия остается прежней. Отличие в том, что в формуле для t вместо s2 следует взять остаточную дисперсию sост, а средние по группам заменить на средние по методам лечения (моментам наблюдения) Tм. Тогда формула для t примет вид:Полученное значение нужно сравнить с критическим значением для распределения Стьюдента при ост степенях свободы.
Вернемся к эксперименту с гидралазином. Остаточная оценка дисперсии sост = 7,65. Число больных при каждом измерении n = 4.
Сравним 1-е и 2-е измерения:
Сравним 1-е и 3-е измерения:
И наконец, 2-е и 3-е измерения:
Чтобы вероятность ошибочно обнаружить различие была в совокупности по всем трем сравнениям меньше 0,05, нужно в каждом отдельном сравнении использовать в три раза меньший уровень значимости 0,05/3 = 0,016. Для этого уровня значимости и при числе степеней свободы = 6 находим по табл. 4.1 критическое значение, приближенно равное 3,37 (поскольку таблица не содержит значений для = 0,016, оно расчитывается приблизительно по соседним значениям = 0,01 и = 0,02).
Значения t для первых двух сравнений больше критического, а для третьего — меньше. Поэтому при уровне значимости 0, (но ни в коем случае не 0,016, используемом в каждом сравнении) различие в величине общего легочного сопротивления до и после приема гидралазина статистически значимо, а между измерениями на фоне приема гидралазина статистически незначимо.
Заканчивая обсуждение парных сравнений, скажем, что вместо поправки Бонферрони можно воспользоваться более точным критерием Ньюмена—Кейлса или критерием Тыоки. Кроме того, в рассматриваемом примере, где измерения, выполненные до начала лечения, играют роль «контрольной группы», пригоден и критерий Даннета для множественного сравнения с контрольной группой. Все эти критерии описаны в гл. 4. При их применении нужно, как и в случае критерия Стьюдента с поправкой Бонферрони, в качестве оценки дисперсии брать sост, а при нахождении критического значения использовать число степеней свободы остаточной вариации.
Чувствительность дисперсионного анализа повторных измерений Чувствительность вычисляется так же, как в обычном дисперсионном анализе, с той разницей, что в качестве оценки для s используется sост, а вместо численности отдельных групп — численность единственной рассматриваемой группы.
КАЧЕСТВЕННЫЕ ПРИЗНАКИ: КРИТЕРИЙ МАК-НИМАРА
Парный критерий Стьюдента и дисперсионный анализ повторных измерений применимы, только если зависимый признак является числовым и, сверх того, подчиняется нормальному закону распределения. Как быть, если признак качественный, то есть знаками мы познакомились в гл. 5). Они часто встречаются в медицине. Например, диагноз — типичный качественный признак. Сейчас мы познакомимся с критерием Мак-Нимара. Он предназначен для анализа повторных измерений качественных признаков и в некотором смысле является аналогом парного критерия Стьюдента. Знакомство с новым критерием мы начнем с примера.Проба с динитрохлорбензолом при онкологических заболеваниях Ослабление иммунитета повышает риск онкологических заболеваний. Считается также, что при уже развившемся злокачественном новообразовании ослабление иммунитета — плохой прогностический признак и наоборот — сохранность иммунитета говорит о высокой вероятности успеха лечения. Для оценки состояния иммунитета применяется кожная проба с динитрохлорбензолом. Проба считается положительной, если через часов после нанесения динитрохлорбензола на кожу развивается выраженная воспалительная реакция. Положительная проба говорит о сохранности иммунитета.
Ряд авторов оспаривают значение пробы, указывая, в частности, на то, что воспалительная реакции может быть вызвана местнораздражающим действием динитрохлорбензола и не отражает состояния иммунитета.
Чтобы выяснить этот вопрос, Рот и соавт.* проделали следующий опыт. На кожу больных наносили динитрохлорбензол и одновременно — на соседний участок кожи — кротоновое масло. Кротоновое масло оказывает местнораздражающее действие, которое не зависит от состояния иммунитета. Если оба раздражителя вызовут сходную реакцию, рассуждал автор, то в обоих случаях она не отражает состояния иммунитета.
В табл. 9.7 приведены результаты опыта. Знак «плюс» соответствует наличию реакции, знак «минус» — отсутствию. При виде такой таблицы хочется немедленно рассчитать 2. ПосмотJ. A. Roth, F. R. Eilber, J. A. Nizle, D. L. Morton. Lack of correlation between skin reactivity to dinitrochlorobenzene and croton oil in patients with cancer.
N. Engl. J. Med., 293:388–389, 1975.
рим, что из этого получится. Вычисленное с поправкой Йейтса значение 2 = 1,107. Это заметно меньше критического значения 3,841, соответствующего уровню значимости 0,05 при одной степени свободы. Напрашивается вывод вроде: «Статистически значимых различий между реакцией на динитрохлорбензол и кротоновое масло не выявлено».
В этой формулировке есть неточность, на первый взгляд незначительная. При построении критерия 2 в гл. 5 мы проверяли нулевую гипотезу об отсутствии связи между признаками.
Например, мы предполагали, что аспирин не влияет на частоту тромбоза. Если нулевая гипотеза отвергалась, мы признавали существование связи между признаками. Если строки таблицы представлены двумя методами лечения, это равнозначно признанию различий эффективности этих методов. В данном случае это не так, поэтому мы должны ограничиться констатацией отсутствия связи между реакцией на динитрохлорбензол и кротоновое масло. В отличие от поспешного вывода, который мы привели выше, это утверждение говорит в пользу самостоятельного значения пробы с динитрохлорбензолом: если бы она давала те же резулътатьт, что и проба с кротоновым маслом, это как раз и говорило бы о том, что ее результат, скорее всего, обусловлен местнораздражающим действием.
Этого мало. С помощью критерия Мак-Нимара мы покажем, что динитрохлорбензол дает меньше положительных результатов пробы, чем кротоновое масло.
Реакция только на динитрохлорбензол наблюдалась у 23 больных, а только на кротоновое масло — у 48. Если действие динитрохлорбензола и кротонового масла примерно одинаково, то больные, у которых наблюдалась реакция только на один раздражитель, разделились бы примерно поровну — у одной половины реакцию вызвал бы динитрохлорбензол, у другой — кротоновое масло. Следовательно, ожидаемое число в обоих случаях (23 + 48)/2 = 35,5. Для сравнения наблюдаемых чисел с ожидаемыми воспользуемся критерием 2. (Поскольку число степеней свободы равно 1, применим также поправку Йейтса.) Имеем:
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Таблица 9.7. Кожная реакция на ДНХБ и кротоновое масло Для уровня значимости 0,01 табличное значение 2 с одной степенью свободы равно 6,635 (см. табл. 5.7), то есть меньше вычисленного. Таким образом, оказывается, что действие динитрохлорбензола отличается от действия кротонового масла.Рассмотренный пример показывает, сколь далекими от истины могут оказаться выводы при необоснованном применении статистических методов.
Критерий Мак-Нимара, подобно парному критерию Стьюдента, часто используется для выявления изменений в наблюдениях типа «до—после», когда интересующий нас признак принимает одно из двух значений («есть—нет»). Другое, очень важное, применение критерия связано с анализом парных наблюдений. Что это такое, вы узнаете, решив задачи 9.9 и 9.10.
А теперь перечислим шаги критерия Мак-Нимара.
• Исключите из рассмотрения больных, реакция которых была неизменной, и подсчитайте число тех, чья реакция изменилась.
• Поделите это число пополам.
• Вычислите меру отклонения наблюдаемого числа меняющих реакцию больных от ожидаемого. Для этого воспользуйтесь критерием 2 с поправкой Йейтса.
• Сравните полученное значение 2 с критическим, имеющим одну степень свободы.
9.1..., Baker et al. Influence of preimmunization antibody levels on the specificity of the immune response to related polysaccharide antigens. N. Engl. J. Med., 303:173—178, 1980)
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Концентрация антител до и после вакцинации Антитела к пневмококкам, Антитела к стрептококкам, До вакцинации вакцинации До вакцинации вакцинации Оцените статистическую значимость изменения уровня антител к пневмококкам и стрептококкам.9.3. Чему равна вероятность обнаружить не менее чем двукратное увеличение концентрации антител к пневмококкам и стрептококкам при уровне значимости 0,05? Графики чувствительности критерия Стьюдента, изображенные на рис. 6.9, применимы к парному критерию Стьюдента, если используемое в них п приравнять к удвоенному объему выборки.
9.4. Решите задачу 9.2 с помощью дисперсионного анализа повторных измерений. Как связаны между собой значения F и парного критерия Стьюдента?
9.5. При ишемической болезни сердца курение может вызвать приступ стенокардии. Это связано с тем, что никотин увеличивает потребность миокарда в кислороде, а окись углерода связывается с гемоглобином, тем самым снижая поступление кислорода. Однако не способствуют ли развитию приступов и другие компоненты табачного дыма? Чтобы выяснить это, У.
Аронов (W. Aronow. Effect of non-nicotine cigarettes and carbon monoxide on angina. Circulation, 61:262—265, 1979) определил у 12 больных ишемической болезнью сердца продолжительность физической нагрузки до развития приступа стенокардии. У каждого больного опыт проводили до и после выкуривания пяти безникотиновых сигарет, а затем до и после вдыхания эквивалентного количества окиси углерода. Были получены следующие результаты.
Длительность нагрузки до развития приступа стенокардии, секунды Курение безникотиновых Вдыхание окиси Какие выводы позволяют сделать эти данные?
9.6. Определяя эффективность гидралазина, Л. Рубин и Р.
Питер измеряли не только легочное сосудистое сопротивление, но и сердечный выброс. Результаты приведены в таблице.
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Менялся ли сердечный выброс?9.7. Существует операция ушивания желудка для похудания.
Уменьшенный желудок наполняется быстрее и чувство насыщения возникает при меньшем объеме съеденной пиши. Нельзя ли обойтись без операции и ограничиться сдавливанием живота надувным поясом? При оценке эффективности последнего метода А. Гелибтер и соавт. (A. Geliebter et al. Extraabdominal pressure alters food intake, intragastric pressure, and gastric emptying rate. Am. J. Physiol., 250:R549—R552, 1986) наблюдали, какой объем пищи съедают добровольцы. Однако истинная цель исследования была скрыта. Участникам опыта объясняли, что по давлению внутри поясов измеряется увеличение живота во время еды и что исследователям нужно подобрать такое исходное давление, при котором измерения были бы наиболее точны.
От участников требовалось есть до появления сытости. Вот каких показателей они достигли.
Что позволяют заключить эти данные?
9.8. По данным предыдущей задачи определите вероятность выявить снижение объема съеденной пищи на 100 мл при уровне значимости 5%.
9.9. У плода легкие не функционируют. Артериальный проток — сосуд, соединяющий аорту и легочную артерию, — позволяет крови, минуя легкие, попадать в плаценту, где и происходит газообмен. После рождения артериальный проток закрывается; если этого не происходит, то кровь, по-прежнему минуя легкие, не насыщается кислородом и не очищается от двуокиси углерода. Закрытию артериального протока способствует индометацин. Однако на результаты лечения влияет множество обстоятельств — гестационный возраст, возраст начала лечения, сопутствующие заболевания и их лечение. В таких случаях для оценки лечения можно применить следующий метод: найти пары детей с совпадающими значениями всех факторов, которые могут повлиять на результат терапии, затем случайным образом одному ребенку из пары назначить индометацин, а другому — плацебо. Предположим, такое исследование было проведено и дало следующий результат:
Эффективен ли индометацин?
9.10. Представим результаты исследования по-другому.
Какой вывод можно сделать по этим данным? Почему изменилось заключение по результатам того же исследования? Какой способ представления результатов лучше?
9.11. Просмотрите все статьи, опубликованные в доступном вам медицинском журнале за последний год. В скольких из них можно было бы применить дисперсионный анализ, повторных измерений? В скольких из них он действительно использован?
Какие методы использованы в остальных статьях? Совпали бы, по-вашему, их выводы с выводами дисперсионного анализа повторных измерений?
Непараметрические критерии Для определения эффективности одного или нескольких методов лечения используется дисперсионный анализ, в частности критерий Стьюдента. Эти критерии основаны на допущении, что наблюдаемый признак подчиняется нормальному распределению.
Более того, для применимости этих методов требуется, чтобы сравниваемые совокупности имели одинаковые дисперсии. Различными могут быть только значения средних. По их различию и судят о различии совокупностей. Применяя тот или иной метод, нужно быть уверенным, что допущения, на которых он основан, выполняются хотя бы приближенно. Иначе велик риск, что, выполнив, казалось бы, правильную последовательность действий, мы придем к ошибочным выводам.
Условия применимости дисперсионного анализа и критерия Стьюдента выполняются часто, но не всегда. В одних случаях слишком велика разница дисперсий, в других распределение далеко от нормального. Наконец, измеряемый признак может оказаться нечисловым или «не вполне числовым». В такой ситуации следует воспользоваться непараметрическими методами. Один из таких критериев знаком нам по гл. 5 — это критерий 2, другой пример — критерий Мак-Нимара (гл. 9). Теперь мы займемся непараметрическими критериями, основанными на рангах.
Ранее мы уже встречались с порядковыми признаками. Природа порядковых признаков такова, что о двух значениях можно сказать лишь, какое больше или меньше, но в принципе нельзя — на сколько или во сколько раз. (Любой количественный признак можно рассматривать как порядковый, но не наоборот.) Первое, что следует сделать при анализе таких признаков, это перейти к их рангам — номерам, под которыми будут стоять исходные данные, если выстроить их по возрастанию. Критерии, основанные на рангах, не нуждаются в предположениях о типе распределения. Единственное требование состоит в том, чтобы тип распределения в сравниваемых совокупностях был одинаковым. При этом не нужно знать, что это за распределение и каковы его параметры.
Мы начнем с аналогов критерия Стьюдента — критерия суммы рангов Манна—Уитни и критерия Уилкоксона. Затем будет изложен критерий Крускала—Уоллиса — аналог дисперсионного анализа и критерий Фридмана — аналог дисперсионного анализа повторных измерений.
ПАРАМЕТРИЧЕСКИЕ И НЕПАРАМЕТРИЧЕСКИЕ МЕТОДЫ.
КАКОЙ ВЫБРАТЬ?
Математическая модель, которая используется при построении дисперсионного анализа, предполагает нормальное распределение. Вспомним жителей маленького городка, которых мучили диетами, якобы влияющими на сердечный выброс (гл. 3), и мужественных добровольцев, принимавших совершенно неэффективный диуретик (гл. 4), — все это были выборки из нормально распределенной совокупности. Поэтому критические значения F и t, которые мы нашли в этих главах, дадут правильное представление о статистической значимости различий только в случае, если выборки извлечены именно из такой совокупности.рируют параметрами распределения. В частности, дисперсионный анализ и его частный случай, критерий Стьюдента, основаны на сравнении средних и дисперсий. Но эти параметры правильно описывают только нормально распределенную совокупность. Если распределение далеко от нормального, среднее и дисперсия дадут о нем неверное представление. Столь же неверными окажутся и критерии, основанные на этих параметрах.
В гл. 2 мы изучали рост юпитериан (см. рис. 2.3А). Средний рост составил 37,6см, а стандартное отклонение 4,5см. На рис.
2.3Б изображено, как выглядело бы нормальное распределение с такими параметрами. Оно мало похоже на распределение, наблюдаемое в действительности. Если бы распределение роста юпитериан было нормальным, рост большинства из них оказался бы в пределах 37—38 см и рост практически всех — в интервале от 26 до 49 см. Однако картина иная. Рост большинства юпитериан группируется вокруг 35 см, то есть ниже среднего. При этом интервал, охватывающий все значения роста (от 31 до 52 см), смещен вправо, то есть распределение асимметрично.
Непараметрические методы, которые мы рассмотрим в этой главе, заменяют реальные значения признака рангами. При этом мы сохраняем большую часть информации о распределении, но избавляемся от необходимости знать, что это за распределение.
Нас не интересуют более параметры распределения, отпадает и необходимость равенства дисперсий. Остается в силе только предположение, что тип распределения во всех случаях одинаков*.
Если выполняется условие нормальности распределения, параметрические критерии обеспечивают наибольшую чувствительность. Если же это условие не выполняется хотя бы приблизительно, их чувствительность существенно снижается и непараметрические критерии дают больше шансов выявить реально существующие различия. Что будет, если применить непараметрический критерий при нормальном распределении? Чувствительность критериев, которые мы рассмотрим в этой главе, составляет в этом случае примерно 95% от чувствительности их параКроме того, теоретически распределение должно быть непрерывным. При практическом применении непараметрических критериев этим условием можно пренебречь.
метрических аналогов (это обстоятельство можно использовать для оценки чувствительности непараметрических критериев и определения необходимого числа наблюдений).
Как выяснить, согласуются ли данные с предположением о нормальности распределения? Простейший способ состоит в том, чтобы нанести их на график, подобный тем, которые мы рисовали, изучая рост инопланетян в гл. 2. Нарисовав график, прикиньте, похож ли он на нормальное распределение. Та ли у него форма, достаточно ли он симметричен относительно среднего, покрывает ли интервал, равный плюс-минус двум стандартным отклонениям от среднего, практически все наблюдения? Сравните графики для разных групп. Близок ли разброс значений? Ответив на все вопросы утвердительно, воспользуйтесь параметрическим критерием. В противном случае следует использовать непараметрический критерий. Изложенный нехитрый прием почти наверняка поможет правильно выбрать тип критерия.
Для тех, кто не привык полагаться на зрительные впечатления, укажем еще два способа, иногда более точные и всегда более трудоемкие. Первый основан на использовании нормальной вероятностной бумаги. Вы легко поймете, о чем идет речь, если когда-нибудь видели логарифмическую бумагу. Вся разница в том, что на логарифмической бумаге вертикальная ось проградуиро-вана так, чтобы графиком экспоненты была прямая, а на нормальной вероятностной бумаге прямой окажется функция нормального распределения. На такую бумагу определенным образом наносят имеющиеся значения. Если они расположатся почти на одной прямой, можно применять параметрические методы. Второй способ опирается на критерий 2. Он позволяет сравнить реальные данные с теми, которые дало бы нормальное распределение, имеющее то же среднее и дисперсию. Мы не будем останавливаться на этих процедурах*, поскольку их выводы наверняка совпадут с теми, что даст простая прикидка.
Как правило, основная трудность состоит не в том, какой из * Желающие могут познакомиться с ними по книгам J. H. Zar. Bio-statstical analisys. 2nd ed. Prentice-Hall, Englewood Cliffs, N. J., 1984 и W. J. Dixon, F.
J. Massey, Jr. Introduction to statistical analisys. 4th ed., McGraw-Hill, New
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
перечисленных способов выбрать, а в том, что объем выборки слишком мал, чтобы применить любой из них. Убедительные свидетельства в пользу гипотезы нормальности или против нее встречаются редко. Гораздо чаще все решают интуиция, привычка и вкус исследователя. Существуют две точки зрения на то, как следует поступать в таких случаях. Согласно одной, в отсутствие очевидных противоречий между данными и гипотезой их нормального распределения следует применить параметрический метод. Согласно другой, если нет явного подтверждения гипотезы нормальности распределения, лучше воспользоваться непараметрическим методом. Сторонники первой точки зрения упирают на то, что параметрические методы более чувствительны и более известны. Приверженцы второй резонно замечают, что исследователь не должен исходить из предположений, которые нельзя проверить, и что, применяя непараметрические критерии, мы почти ничем не рискуем — ведь даже в случае нормального распределения их чувствительность не намного ниже чувствительности параметрических. Ни одна из сторон пока не одержала верх, и похоже, этого не произойдет никогда.
СРАВНЕНИЕ ДВУХ ВЫБОРОК: КРИТЕРИЙ МАННА—УИТНИ
Напомним схему, по которой строились все параметрические методы, будь то критерий Стьюдента, дисперсионный или корреляционный анализ. Из нормально распределенной совокупности мы извлекали все возможные выборки определенного объема и строили распределение значений соответствующего критерия. Теперь, упорядочив значения признака и перейдя от реальных значений к рангам, мы поступим несколько иначе. Мы просто перечислим все возможные варианты упорядочивания двух групп.Как это сделать, мы покажем на простом примере. Чтобы вариантов упорядочивания было не слишком много, рассмотрим опыт с участием 7 добровольцев. Из них 3 принимают плацебо (контрольная группа), а 4 препарат, предположительно диуретик (экспериментальная группа). В табл. 10.1 приведены данные о суточном диурезе. Против каждого значения диуреза указан Таблица 10.1. Эксперимент с диуретиком (контрольная группа) (экспериментальная группа) его ранг — место в общем упорядоченном ряду. Рангом наименьшей величины будет 1; ранг наибольшей величины равен числу наблюдений, то есть 7. Если препарат увеличивает диурез, то ранги в экспериментальной группе должны быть больше, чем В контрольной. Мерой отличия изберем сумму рангов в меньшей из групп и обозначим ее Т. В нашем примере меньшая группа — контрольная. Соответствующее значение Т равно 9.
Достаточно ли мало значение T, чтобы отклонить гипотезу об отсутствии действия препарата?
Для ответа на этот вопрос рассмотрим совокупность всех возможных перестановок. Заметьте, после перехода к рангам нам уже не нужно рассматривать сами исходные величины и совокупность их возможных значений. Поэтому наши дальнейшие рассуждения полностью применимы к любым двум группам наблюдений по 3 и 4 наблюдения в каждой.
Итак, нулевая гипотеза — гипотеза об отсутствии влияния препарата на диурез. Если она справедлива, любой ранг может равновероятно оказаться в любой из групп. Чтобы узнать, велика ли вероятность случайно получить перестановку из табл. 10.1, рассмотрим все возможные перестановки. Понятно, что распределить ранги по двум группам — это то же самое, что набрать ранги для одной из групп (оставшиеся автоматически попадут во вторую). Тогда, перечислив все варианты выбора 3 рангов из 7, мы тем самым перечислим все варианты распределения семи рангов по двум группам. Число способов по-разному выбрать 3 ранга из 7 равно 35. Все 35 вариантов приведены в табл. 10.2. Крестиком помечены ранги, попадающие в контрольную группу. В правом
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
столбце для каждого из вариантов указана величина T — сумма рангов меньшей (контрольной) группы. Если нанести значения T на график, получится распределение, показанное на рис. 10.1.
Если справедлива нулевая гипотеза, то все сочетания рангов равновероятны. Это значит, что если, например, Т = 12 в 5 вариантах из 35, то вероятность случайно получить значение T = равна 5/35. Таким образом, на рис. 10.1 изображено распределение значений T в случае справедливости нулевой гипотезы об отсутствии действия препарата. По форме оно напоминает распределение t (рис. 4.5). Однако есть и отличия. Действительно, распределение t непрерывно. Оно построено по бесконечной совокупности значений, вычисленных для бесконечного числа выборок из бесконечной нормально распределенной совокупности. Напротив, распределение Т конечно и дискретно, то есть имеет ступенчатый вид, принимая значения лишь в конечном числе целочисленных точек.
Глядя на рис. 10.1, легко определить вероятность получить то или иное значение Т при условии справедливости нулевой гипотезы. Например, значения T = 9 и Т = 15 наблюдаются в вариантах, то есть вероятность появления каждой из этих сумм равна 3/15. Вероятность получить значение Т, равное 8 или 16, составляет 2/35 = 0,057. Будем считать эти значения T критическими. В нашем опыте Т = 9, так что нулевую гипотезу отвергнуть мы не можем.
Уровень значимости обычно принимают равным 5% или 1%.
Можно ли установить такой уровень в нашем примере? Оказывается, нет. У нас есть всего 13 разных значений Т, поэтому уровень значимости может меняться только скачками. Назвав произвольный уровень значимости, мы скорее всего обнаружим, что нет такого значения Т, которому бы он соответствовал. В ствует уровень значимости, наиболее близкий к 1 или 5%. В нашем примере ближе всего к 5% находится уровень значимости 5,7%, соответствующий Т = 8.
Критические значения критерия Манна— Уитни приведены в табл. 10.3. Столбец критических значений содержит пары чисел. Различия статистически значимы, если Т не больше первого из них или не меньше второго. Например, когда в одной группе 3 человека, а в другой 6, различия статистически значимы, если Изложенный вариант критерия известен как T-критерий Манна—Уитни*. Порядок его вычисления таков.
• Данные обеих групп объединяют и упорядочивают по возрастанию. Ранг 1 присваивают наименьшему из всех значений, ранг 2 — следующему и так далее. Наибольший ранг присваивают самому большому среди значений в обеих группах. Если значения совпадают, им присваивают один и тот же средний ранг (например, если два значения поделили 3-е и 4-е места, обоим присваивают ранг 3,5).
• Для меньшей группы вычисляют Т — сумму рангов ее членов. Если численность групп одинакова, Т можно вычислить для любой из них.
• Полученное значение T сравнивают с критическими значениями. Если Т меньше или равно первому из них либо больше или равно второму, то нулевая гипотеза отвергается (различия статистически значимы).
Что делать, если нужной численности групп в таблице не оказалось? Можно самому построить распределение Т. К сожалению, с ростом численности групп сделать это становится все труднее. Например, если объем каждой из групп равен 10, то * Существует еще U-критерий Манна—Уитни, в котором вместо Т вычисляют U, при этом U = T – nм (nм + 1)/2, где n м — численность меньшей из групп. Об этом варианте критерия можно прочесть в книге S. Siegel, N. J. Castellan. Nonparametric Statistics for the Behavioral Sciences, 2nd ed. McGraw-Hill, N. Y., 1988. Подробный вывод Ткритерия и его связь с U-критерием приведены в книге F. Mosteller, R. Rourke. Sturdy Statistics: Nonparametrics and Order Statistics, Addison-Wesley, Reading, Mass., 1973.
Таблица 10.3. Критические значения критерия (двусторонний вариант) Манна— Уитни Численность Приблизительный уровень значимости мень- боль- Критические значе- Критические значение значения ние шей шей значения
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
число вариантов равно 184756. Поэтому лучше воспользоваться тем, что при численности групп, большей 8, распределение Т приближается к нормальному со средним и стандартным отклонением где nм и nб — объемы меньшей и большей выборок*.В таком случае величина имеет стандартное нормальное распределение. Это позволяет сравнить zT с критическими значениями нормального распределения (последняя строка табл. 4.1). Более точный результат обеспечивает поправка Йейтса:
Роды по Лебуайе В последние десятилетия произошел коренной пересмотр взглядов на родовспоможение. Акушерская революция совершалась под лозунгом «Отец вместо седативных средств». ВосторжеЕсли некоторые значения совпадают, стандартное отклонение должно быть уменьшено согласно формуле:
где N = nм и n б — общее число членов обеих выборок, i — число значений i-го ранга, а суммирование производится по всем совпадающим рангам.
ствовала точка зрения, согласно которой при нормальных родах следует прибегать к помощи психологических, а не лекарственных средств. Что делать конкретно, мнения расходились. Масла в огонь подлила книга Лебуайе «Рождение без насилия».
Французский врач предлагал комплекс мер, призванных свести к минимуму потрясение, которое испытывает новорожденный при появлении на свет. Роды надлежит принимать в тихом затемненном помещении. Сразу после родов ребенка следует уложить на живот матери и не перерезать пуповину, пока та не перестанет пульсировать. Затем, успокаивая младенца легким поглаживанием, нужно поместить его в теплую ванну, чтобы «внушить, что разрыв с организмом матери — не шок, но удовольствие». Лебуайе указывал, что дети, рожденные по его методике, здоровее и радостнее других. Многие врачи считали, что предложенная методика не только противоречит общепринятой практике, но и создает дополнительную опасность для матери и ребенка. Тем не менее у Лебуайе нашлись и сторонники.
Как часто бывает в медицине, отсутствие достоверных данных могло затянуть спор на многие годы. Пока Н. Нелсон и соавт.* не провели клиническое испытание, материалы ограничивались «клиническим опытом» автора методики.
В эксперименте Нелсон, проведенном в клинике канадского университета Макмастер, участвовали роженицы без показаний к искусственному родоразрешению, срок беременности которых составлял не менее 36 недель и которые были согласны рожать как по обычной методике, так и по Лебуайе. Роженицы были случайным образом разделены на две группы. В контрольной роды проводились по общепринятой методике в нормально освещенном помещении с обычным уровнем шума; после рождения пуповина немедленно перерезалась, ребенка пеленали и отдавали матери. В экспериментальной группе роды принимались по методике Лебуайе. В обеих группах при родах присутствовали мужья, применение обезболивающих средств было миN. Nelson, M. Enkin, S. Saigal, К. Bennett, R. Milner, D. Sackett. A randomized clinical trial of the Leboyer approach to childbirth. N. Engl.
J. Med., 302: 655–660, 1980.
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
нимальным. Тем самым, группы различались только в том, в чем методика Лебуайе не совпадает с общепринятой.То, в какую группу попала роженица, было известно самой роженице и всем, кто присутствовал при родах. На этом этапе эффект плацебо исключить было невозможно. Однако уже на этапе послеродового наблюдения одна из сторон, а именно врачи, которые оценивали состояние ребенка, не знали, по какой методике происходили роды. Таким образом исследование Нелсон было простым слепым: условия знала только одна из сторон, наблюдателю же они были неизвестны.
Для оценки развития детей была разработана специальная шкала. Из числа детей, рожденных по обычной методике, оценку «отлично» по этой шкале получали примерно 30%. Изучив труды Лебуайе, Нелсон и соавт. пришли к выводу, что предлагаемый метод, судя по заявлениям автора, гарантирует оценку «отлично» у 90% детей. Приняв уровень значимости = 0,05, исследователи рассчитали, что для обеспечения 90% вероятности выявить такие различия в каждой из групп должно быть по детей.
Работа продолжалась целый год. За это время исследователи провели беседы с 187 потенциальными участницами, разъясняя им смысл предстоящего эксперимента. 34 женщины не подошли по состоянию здоровья, 97 отказались участвовать в эксперименте (из них 70 собирались рожать только по методике Лебуайе). Из оставшихся 56 женщин одна успела родить до рандомизации. В результате число участниц сократилось до 55.
Их и разделили случайным образом на две группы. После того как из исследования выбыла одна из попавших в контрольную группу, в этой группе оказалось 26, а в экспериментальной рожениц. Однако у 6 женщин в контрольной группе и у 8 в экспериментальной возникли осложнения, и их пришлось исключить из участия в эксперименте. В итоге в каждой из групп оказалось по 20 женщин. Вы видите, насколько трудно обеспечить достаточную численность групп даже в простом исследовании*.
Оценка по шкале развития производилось сразу после родов, * D. Sackett, M. Gent. Controversy in counting and attributing events in clinical trials. N. Engl. J. Med., 301:1410–1412, 1979.
Рис. 10.2. Продолжительность бодрствования в первый час жизни после обычных родов и родов по Лебуайе. Обратите внимание, что в обеих группах распределение асимметрично — преобладают высокие значения.
а также спустя несколько месяцев. Мы остановимся на одном из показателей — времени бодрствования в первый час жизни.
Предполагалось, что чем лучше состояние новорожденного, тем более он активен. Значит, у младенцев, рожденных по Лебуайе, время бодрствования должно быть продолжительнее, чем у рожденных по обычной методике.
Из рис. 10.2 видно, что данные не подчиняются нормальному распределению. Особенно это заметно в экспериментальной группе. Тем самым, параметрические методы, например критерий Стьюдента, к этим данным неприменимы. Поэтому воспользуемся непараметрическим критерием Манна—Уитни.
Объединим данные, относящиеся к обеим группам, и упорядочим их по возрастанию. В табл. 10.4 кроме суммарного времени бодрствования указан также его ранг. Поскольку численность групп одинакова, сумму рангов Т можно вычислить для любой из них. Подсчитаем T для контрольной группы. Она равна 374.
Размер групп достаточен, чтобы воспользоваться нормальным приближением для Т. Поэтому перейдем от Т к zT. Итак, полагая истинной нулевую гипотезу, вычисляем среднее всех возможных значений Т
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.4. Продолжительность бодрствования в первый час жизни, мин Роды по и стандартное отклонение Таким образом, с учетом поправки Йейтса, В табл. 4.1 находим 5% критическое значение для бесконечГЛАВА ного числа степеней свободы. Найденное критическое значение равно 1,960, то есть больше полученного. Тем самым, имеющиеся данные не позволяют отклонить гипотезу о том, что младенцы, рожденные по методике Лебуайе, по своей активности ничем не отличаются от остальных.Общая оценка развития также не показала существенной разницы между двумя группами детей. Исследование Нелсон и соавт. — пример тщательно спланированного и проведенного клинического испытания. На четко поставленный вопрос был получен ответ. Сегодня мало кто помнит о родах по Лебуайе. Не беда — на смену идут роды под водой. Оценка их влияния на развитие ребенка, быть может, станет темой будущих исследований.
СРАВНЕНИЕ НАБЛЮДЕНИЙ ДО И ПОСЛЕ ЛЕЧЕНИЯ:
КРИТЕРИЙ УИЛКОКСОНА
В гл. 9 было описано использование парного критерия Стьюдента для сравнения состояния больных до и после лечения.Однако для применения этого критерия необходимо, чтобы изменения имели нормальное распределение. Существует критерий, основанный на рангах, не ограниченный этим условием, — это критерий Уилкоксона. Принцип критерия следующий.
Для каждого больного вычисляют величину изменения признака. Все изменения упорядочивают по абсолютной величине (без учета знака). Затем рангам приписывают знак изменения и суммируют эти «знаковые ранги» — в результате получается значение критерия Уилкоксона W.
Как видим, используется информация об абсолютной величине изменения и его знаке (то есть уменьшении или увеличении наблюдаемого признака). Метод основан на рангах, поэтому не нуждается в предположениях о типе распределения изменений. Как в случае с критерием Манна— Уитни, здесь также можно перечислить все возможные величины W и найти критическое значение.
Обратите внимание, исходно ранга присваиваются в соответствии с абсолютной величиной изменения. Так, например,
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.5. Действие диуретика Участник приема приема изменения нения ранг величины 5,32 и –5,32 получат один и тот же ранг, а уже затем рангам будет присвоен знак изменения.Рассмотрим пример. Допустим, мы исследуем некий препарат, предположительно диуретик. Дадим его 6 добровольцам и сравним диурез до и после приема препарата. Результаты представлены в табл. 10.5.
У 5 человек диурез увеличился. Значит ли это, что препарат является диуретиком?
Упорядочим изменения диуреза по абсолютной величине и присвоим им ранги от 1 до 6. Затем, приписав рангу каждого изменения соответствующий изменению знак, перейдем к знаковым рангам (последний столбец табл. 10.5). Наконец, вычислим сумму знаковых рангов W = 13.
Если препарат не оказывает действия, сумма рангов со знаком «+» должна быть примерно равна сумме рангов со знаком «–» и значение W окажется близким нулю. Напротив, если препарат увеличивает (или уменьшает) диурез, будут преобладать положительные (отрицательные) ранги и значение W будет отличным от нуля.
Чтобы найти критическое значение W, выпишем все 64 возможных исхода опыта (табл. 10.6 и рис. 10.3). В четырех случаях значение W no абсолютной величине равно или превосходит 19. Таким образом, отвергая нулевую гипотезу при |W| > 19, мы обеспечим уровень значимости 4/64 = 0,0625. Изменение диуреза в нашем опыте надо признать статистически не значимым:
Таблица 10.6. Возможные сочетания знаковых рангов для 6 пар измерений
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.6. Окончание Рис. 10.3. 64 возможные суммы рангов для группы из 6 человек (см. табл. 10.6). 4 наибольших по абсолютной величине значения помечены черным.Р < 0,0625. На самом деле в таблице имеется 14 значений W, по абсолютной величине не меньших 13. Поскольку 14/64 = 0,219, мы могли бы записать Р < 14/64.
Как и в случае критерия Манна— Уитни, распределение W не является непрерывным и поэтому нельзя указать критическое значение, для которого уровень значимости в точности равнялся бы, например, 5%. В табл. 10.7 приведены критические значения, наиболее близкие к 5 и 1% уровням значимости для случая, когда численность группы не превосходит 20.
Если число пар измерений больше 20, то распределение W достаточно близко к нормальному со средним µW = 0 и стандартным отклонением где n — число пар наблюдений (то есть численность группы).
Можно, таким образом, использовать Чтобы приближение было более точным, воспользуемся поправкой Йейтса на непрерывность:
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.7. Критические значения W (двусторонний вариант) F. Mostellerand R. Rourke. Sturdy statistics: nonparametrics and order statistics, AddisonWesley, Reading, Mass., 1973.При анализе наблюдений до—после встречается два вида совпадений. Это, во-первых, совпадение величин, которым присваиваются ранги. Такая ситуация возникает при использовании любого рангового метода, будь то критерий Манна—Уитни или коэффициент корреляции Спирмена. Как всегда, совпадающим величинам присваивается общий ранг, равный среднему мест, занимаемых ими в упорядоченном наборе*.
Единственная особенность — то, что в случае наблюдений (до—после) речь идет о совпадении не самих величин наблюдаеЕсли некоторые значения совпадают, стандартное отклонение должно быть уменьшено в соответствии со следующей формулой:
где n — численность группы, i, - число значений i-го ранга.
мого признака, а их изменений. Другой вид совпадения — совпадение значений «до» и «после». Каждую такую пару наблюдений нужно исключать из расчета, соответственно уменьшая на единицу объем выборки.
Повторим последовательность шагов, позволяющую по наблюдениям, выполненным до и после лечения, проверить его эффективность.
• Вычислите величины изменений наблюдаемого признака. Отбросьте пары наблюдений, которым соответствует нулевое изменение.
• Упорядочите изменения по возрастанию их абсолютной величины и присвойте соответствующие ранги. Рангами одинаковых величин назначьте средние тех мест, которые они делят в упорядоченном ряду.
• Присвойте каждому рангу знак в соответствии с направлением изменения: если значение увеличилось — «+», если уменьшилось — «–».
• Вычислите сумму знаковых рангов W*.
• Сравните полученную величину W с критическим значением. Если она больше критического значения, изменение показателя статистически значимо.
А теперь применим критерий Уилкоксона к анализу рассмотренного в гл. 9 эксперимента Левина.
Курение и функция тромбоцитов В гл. 9 мы разобрали исследование Левина, посвященное влиянию курения на функцию тромбоцитов. В частности, на рис.
9.2 приведены результаты опыта с выкуриванием сигареты: агрегация тромбоцитов до и после этого вредоносного воздействия.
Рассмотрим еще раз эти данные (табл. 10.8). Обратим внимание на 4-й столбец: здесь показана величина изменения интересуюСуществует вариант критерия Уилкоксона, в котором суммируют только положительные или только отрицательные знаковые ранги.
На выводе это никак не сказывается, однако значение W, естественно, получается другим. Поэтому важно знать, на какой вариант критерия рассчитана имеющаяся в вашем распоряжении таблица критических значений.
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.8. Агрегация тромбоцитов до и после сигареты выкуривания Участ- До После Измене- Ранг изме- Знаковый ранг Рис. 10.4. Изменение агрегации тромбоцитов после выкуривания сигареты. Вряд ли мы имеем дело с нормальным распределением, об этом свидетельствует, в частности, «выпадающее» значение 27%. В таких случаях непараметрические методы, например критерий Уилкоксона, предпочтительнее параметрических, таких, как критерий Стьюдента.щего нас показателя. Можно ли считать распределение изменения нормальным? При большом желании да, но следует все же признать, что для суждения о типе распределения данных слишком мало. Смущает и «выскакивающее» значение 27% — оно наводит на мысль о возможной асимметрии распределения.
В подобных случаях лучше не рисковать и воспользоваться непараметрическим критерием. Применим критерий Уилкоксона.
Выпишем абсолютные величины изменений в порядке возрастания. Полученные ранги приведены в пятом столбце табл.
10.8, а шестой столбец содержит те же ранги, но со знаками, соответствующими направлению изменения. Сумма знаковых рангов W = 2 + 3,5 + 6 + 7 + 10 + 8,5 + 3,5 + 11 + 5 + (–l) + 8,5 = 64.
В табл. 10.7 находим 1,8% критическое Значение для суммы рангов. Оно равно 52, то есть меньше полученного нами. Поэтому мы признаем изменение агрегации тромбоцитов статистически значимым (Р < 0,018).
СРАВНЕНИЕ НЕСКОЛЬКИХ ГРУПП:
КРИТЕРИЙ КРУСКАЛА-УОЛЛИСА
В гл. 3 была рассмотрена задача сравнения нескольких выборок. Эта задача возникает, например, когда нужно определить, одинаково ли эффективны несколько методов лечения, каждый из которых испытывается на отдельной группе. Предполагалось, что данные, полученные для каждой из групп, подчиняются нормальному распределению, причем дисперсии по всем группам примерно одинаковы. На этом допущении и основан изложенный в гл. 3 однофакторный дисперсионный анализ. Сейчас мы познакомимся с его непараметрическим аналогом, не. требующим предположения о нормальности распределения. Это критерий Крускала—Уоллиса.Критерий Крускала—Уоллиса представляет собой обобщение критерия Манна—Уитни. Сначала все значения, независимо от того, какой выборке они принадлежат, упорядочивают по возрастанию. Каждому значению присваивается ранг — номер его места в упорядоченном ряду. (Совпадающим значениям присваивают общий ранг, равный среднему тех мест, которые эти величины делят между собой в общем упорядоченном ряду.) Затем вычисляют суммы рангов, относящихся к каждой группе, и для каждой группы определяют средний ранг. При отсутствии межгрупповых различий средние ранги групп должны оказаться близки. Напротив, если существует значительное расхождение средних рангов, то гипотезу об отсутствии межгрупповых различий следует отвергнуть. Значение критерия Крускала— Уоллиса H и является мерой такого расхождения средних рангов.
Для простоты положим, что групп всего три. Обобщение на большее число групп получится автоматически. Имеются результаты измерения некоторого признака в трех группах. ЧисНЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ ленность групп — n1, n2 и n3. Значения объединим, упорядочим и каждому присвоим ранг. Вычислим сумму рангов для каждой группы — R1, R2 и R3. Найдем средние ранги: R1 = R1 n1, R2 = R2 n и R3 = R3 n3.
Общее число наблюдений N = n1 + n2 + n3. Для объединенной группы рангами являются числа 1,2,..., N и общая сумма рангов равна Тогда средний ранг R для объединенной группы равен Теперь найдем величину D, равную Это прямой аналог межгрупповой вариации, знакомой нам по гл. 9. Величина D зависит от размеров групп. Чтобы получить показатель, отражающий их различия, следует поделить D на N(N +1)/12. Полученная величина является значением критерия Крускала—Уоллиса. Суммирование в приведенной формуле производится по всем группам.
Как найти критическое значение Н? Можно было бы просто перечислить все сочетания рангов, как это делалось для критериев Манна—Уитни и Уилкоксона. Однако сделать это довольно трудно — число вариантов слишком велико. К счастью, если группы не слишком малы, распределение H хорошо приближается распределением 2 с числом степеней свободы = = k – 1, где k — число групп. Тогда для проверки нулевой гипотезы нужно просто вычислить по имеющимся наблюдениям значение Н и сравнить его с критическим значением 2 из табл. 5.7.
В случае трех групп приближение с помощью 2 пригодно, если численность каждой группы не меньше 5. Для четырех групп — если общее число наблюдений не менее 10. Но если группы совсем малы, не остается ничего, кроме как обратиться к таблице точных значений распределения Крускала—Уоллиса (мы не приводим эту таблицу из-за ее громоздкости).
Итак, чтобы выяснить, одинаково ли действие нескольких методов лечения, каждый из которых испытывается на отдельной группе, нужно проделать следующее.
• Объединив все наблюдения, упорядочить их по возрастанию.
Совпадающим значениям ранги присваиваются как среднее тех мест, которые делят между собой эти значения*.
• Вычислить критерий Крускала—Уоллиса Н.
• Сравнить вычисленное значение Н с критическим значением 2 для числа степеней свободы, на единицу меньшего числа групп. Если вычисленное значение Н окажется больше критического, различия групп статистически значимы.
Приведем пример использования критерия Крускала—Уоллиса.
Влияние пероральных контрацептивов на выведение кофеина Ряд лекарственных средств и пищевых продуктов (кофе, чай и прохладительные напитки) содержат кофеин. Беременным не следует увлекаться крепким кофе, поскольку кофеин может оказать неблагоприятное влияние на плод, а выведение кофеина у беременных замедлено. Существует предположение, что замедленное выведение кофеина обусловлено высоким уровнем половых гормонов во время беременности. Р. Патвардан и соавт.** решили косвенно подтвердить это предположение, определив скорость * При большом числе совпадающих рангов значение H следует где N — число членов всех групп, i — как обычно, число рангов в i-й связке, а суммирование производится по всем связкам.
** R. Patwardhan, P. Desmond, R. Johnson, S. Schenker. Impaired elimination of caffeine by oral contraceptives. J. Lab. Clin. Med., 95:603—608, 1980.
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.9. Период полувыведения кофеина Мужчины контрацептивов контрацептивы Сумма рангов выведения кофеина у женщин, принимающих пероральные контрацептивы. (При приеме пероральных контрацептивов уровень эстрогенов и прогестагенов в крови повышается — то же самое происходит и при беременности.) Скорость выведения кофеина (как и других веществ) непостоянна — она прямо пропорциональна его концентрации в плазме. Поэтому нет смысла измерять скорость выведения, скажем, в миллиграммах в минуту. Вместо этого используют период полувыведения (T1/2) — время уменьшения концентрации вдвое:после того как вещество всосется и поступит в кровь, эта величина остается постоянной, пока вещество не будет почти полностью выведено из организма.
T1/2 определили у женщин, принимающих и не принимающих пероральные контрацептивы, а также у мужчин. Численность групп составила соответственно 9, 9 и 13 человек. КажГЛАВА дый участник эксперимента принимал 250 мг кофеина, что соответствует примерно 3 чашкам кофе, после чего дважды определяли концентрацию кофеина в крови и рассчитывали T1/2. Результаты представлены в табл. 10.9.
Общий средний ранг Вычисляем взвешенную сумму квадратов отклонений средних по группам от общего среднего D = 13(11,23 – 16)2 + 9(14,22 – 16)2 + 9(24,67 – 16)2 = 1000, и значение критерия Крускала—Уоллиса По табл. 5.7 находим 1% критическое значение 2 с числом степеней свободы = k – l = 3 – l = 2. Оно равно 9,210, то есть меньше полученного нами. Таким образом, различия групп статистически значимы (Р < 0,01).
Непараметрическое множественное сравнение Потребность во множественном сравнении возникает всякий раз, когда с помощью дисперсионного анализа (или его непараметрического аналога — критерия Крускала—Уоллиса) обнаруживается различие нескольких выборок. В этом случае и требуется установить, в чем состоит это различие. В гл. 4 мы познакомились с параметрическими методами множественного сравнения. Они позволяют сравнить группы попарно и затем объединить их в несколько однородных наборов так, что различия между группами из одного набора статистически незначимы, а между группами из разных наборов — значимы. Кроме того, они позволяют сравнить все группы с контрольной.
К счастью, параметрические методы множественного сравнения легко преобразовать в непараметрические. Когда объемы выборок равны, для множественного сравнения используют неНЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ параметрические варианты критериев Ньюмена—Кейлса и Даннета. Когда же объемы выборок различны, применяется критерий Данна. Опишем вкратце эти методы.
Начнем с критериев для выборок равного объема. Критерии Ньюмена—Кейлса и Даннета совпадают практически полностью, поскольку критерий Даннета есть просто вариант критерия Ньюмена—Кейлса для сравнения всех выборок с одной контрольной.
Формула для непараметрического варианта критерия Ньюмена—Кейлса:
где RA RB — суммы рантов двух сравниваемых выборок, п — объем каждой выборки, l — интервал сравнения. Вычисленное q сравнивается с критическим значением в табл. 4.3 для бесконечного числа степеней свободы.
Значение непараметрического критерия Даннета определяется формулой:
где Rкон, — сумма рангов контрольной выборки, а остальные величины те же, что в Критерии q. Уточним только, что l — число всех выборок, включая контрольную. Значение q сравнивается с критическим значением для бесконечного числа степеней свободы (табл. 4.4).
Наконец, для сравнения выборок разного объема используется критерий Данна. Впрочем, ничто не мешает применить его и к выборкам одинакового объема. Значение критерия Данна:
Таблица 10.10. Критические значения Q для попарного сравнения групп Число сравниваемых где R A и RB — средние ранги двух сравниваемых выборок, пA и пB — их объемы, а N — общий объем всех сравниваемых выборок.
Критические значения Q приведены в табл. 10.10. «Стягивающее» сравнение проводится как в критерии Ньюмена—Кейлса.
Критерием Данна можно воспользоваться и для сравнения с контрольной выборкой. Приэтом формула для Q остается прежней, только критические значения находятся уже по табл. 10.11.
Еще одна чашка кофе Вернемся к исследованию выведения кофеина. Мы уже установили, что между тремя группами (группа мужчин и две группы
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.11. Критические значения Q для сравнения с контрольной группой Число сравниваемых J. H. Zar, Biostatistical analysis, 2nd ed., Prentice-Hall, Englewood Cliffs, N.J., 1984.женщин — принимающих и не принимающих пероральные контрацептивы) существует различие в скорости выведения кофеина. Однако осталось неизвестным, какие группы отличаются друг от друга, а какие похожи. Для ответа на этот вопрос предназначены методы множественного сравнения. Поскольку численность групп разная, применим критерий Данна.
Из табл. 10.9 видно, что сильнее всего различаются средние ранги в 3-й группе (женщины, принимающие пероральные контрацептивы) и в 1-й группе (мужчины). Вычисляем значение критерия Данна:
В табл. 10.10 находим 5% критическое значение для k = 3. Оно равно 2,394, то есть меньше выборочного. Тем самым, различия групп статистически значимы (Р < 0,05). Продолжим стягивающие сравнения. Следующая пара групп — женщины, принимающие пероральные контрацептивы (3-я группа), и женщины, не принимающие пероральных контрацептивов (2-я группа):
Это значение также больше критического.
Наконец, для оставшейся пары групп:
что меньше критического. Итак, выведение кофеина у женщин, принимающих пероральные контрацептивы, медленнее, чем у женщин, не принимающих пероральных контрацептивов, и у мужчин; последние же две группы по скорости выведения кофеина друг от друга не отличаются. Предположение о влиянии половых гормонов на выведение кофеина подтвердилось.
ПОВТОРНЫЕ ИЗМЕРЕНИЯ: КРИТЕРИЙ ФРИДМАНА
Если одна и та же группа больных последовательно подвергается нескольким методам лечения или просто наблюдается в разные моменты времени, применяют дисперсионный анализ повторных измерений (гл. 9). Но чтобы использование дисперсионного анализа было правомерно, данные должны подчиняться нормальноНЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ Таблица 10.12. Данные для расчета критерия Фридмана.Пример Больной Метод лечения му распределению. Если вы в этом не уверены, лучше воспользоваться критерием Фридмана — непараметрическим аналогом дисперсионного анализа повторных измерений.
Логика критерия Фридмана очень проста. Каждый больной ровно один раз подвергается каждому методу лечения (или наблюдается в фиксированные моменты времени). Результаты наблюдений у каждого бального упорядочиваются. Обратите внимание, что если раньше мы упорядочивали группы, то теперь мы отдельно упорядочиваем значения у каждого больного независимо от всех остальных. Таким образом, получается столько упорядоченных рядов, сколько больных участвует в исследовании.
Далее, для каждого метода лечения (или момента наблюдения) вычислим сумму рангов. Если разброс сумм велик — различия статистически значимы.
В табл. 10.12 описаны результаты испытания 4 методов лечения на 5 больных. В таблице указаны не сами значения, а их ранги среди данных, относящихся к одному больному. Каждая строка, кроме последней, соответствует одному больному. Последняя строка содержит суммы рангов для каждого из методов лечения. Различие сумм невелико; не похоже, чтобы эффективность какого-то метода отличалась от эффективности других.
Теперь обратимся к табл. 10.13. Различие в эффективности методов выражено предельно четко — упорядочение одинаково для всех больных. Во всех случаях наиболее эффективным оказался первый метод лечения, следующим — третий, за ним четвертый, и наконец, наименее эффективным — второй.
Таблица 10.13. Данные для расчета критерия Фридмана.
Пример Перейдем к количественному оформлению наших впечатлений. Критерий Фридмана сходен с критерием Крускала—Уоллиса и вычисляется следующим образом. Сначала рассчитаем среднюю сумму рангов, присвоенных одному методу. (Именно этой величине равнялась бы сумма рангов любого из методов, если бы они были в точности равноэффективны.) Затем вычислим сумму квадратов S отклонений истинных сумм рангов, полученных каждым из методов, от средней суммы.
Разберем это на примере данных из табл. 10.12 и 10.13. Для каждого больного средний ранг равен (1 + 2 + 3 + 4)/4 = 2,5. В общем случае при k методах лечения средний ранг равен Если каждым методом лечилось n больных, средняя сумма рангов равна п(k +1)/2. В нашем примере п = 5. Поэтому средняя сумма рангов равна 5(4 + 1)/2 = 12,5.
Значение критерия S определяется формулой где Rм — истинные суммы рангов для методов лечения. Тогда для табл. 10.12 находим:
S = (11 – 12,5)2 + (14 – 12,5)2 + (13 – 12,5)2 + (12 – 12,5)2 = =(–1,5)2 + (1,5)2 + (0,5)2 + (–0,5)2 = 5,
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
а для табл. 10.13:S = (20 – 12,5)2 + (5 – 12,5)2 + (l5 – 12,5)2 + (10 – 12,5)2 = = (7,5)2 + (–7,5)2 + (2,5)2 + (–2,5)2 = 125.
Значение S для второй таблицы значительно превосходит значение для первой, что соответствует нашим первоначальным впечатлениям. Величина S позволяет судить, одинакова ли эффективность исследуемых методов.
Однако поделив ее на nk(k + 1)/12, мы получим более удобный критерий:
Это и есть критерий Фридмана. При большой численности группы его величина приблизительно следует распределению 2 с числом степеней свободы = k – 1. Однако при k = 3 и n и при k = 4 и n 4 это приближение оказывается слишком грубым. В таком случае нужно воспользоваться приведенными в табл. 10.14 точными значениями r2.
Повторим порядок расчета критерия Фридмана.
• Расположите значения для каждого больного по возрастанию, каждому значению присвойте ранг.
• Для каждого из методов лечения подсчитайте сумму присвоенных ему рангов.
• Вычислите значение r2.
• Если число методов лечения и число больных присутствует в табл. 10.14, определите критическое значение r2 по этой таблице. Если число методов лечения и число больных достаточно велико (отсутствует в таблице), воспользуйтесь критическим значением 2 с числом степеней свободы = k – 1.
• Если рассчитанное значение r2 превышает критическое — различия статистически значимы.
Теперь применим критерий Фридмана для анализа уже знакомого исследования.
Таблица 10.14. Критические значения критерия Фридмана k — число методов лечения (моментов наблюдения), п — число больных, — уровень значимости.
Owen. Handbook of statistical tables. US Department of Eneigy, Addison-Wesley, Reading, Mass., 1962.
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Таблица 10.15. Легочное сосудистое сопротивление при лечении гидралазином Легочное сосудистое сопротивление (контрольное) Спустя 48 часов месяцев Больной Величина Ранг Величина Ранг Величина Ранг Гидрапазин при первичной легочной гипертензии В табл. 10.15 воспроизведены данные о легочном сосудистом сопротивлении из табл. 9.5. В предыдущей главе мы применили к ним дисперсионный анализ повторных измерений. Это допустимо в случае нормального распределения. Но данных так мало, что судить о распределении невозможно. Поэтому прибегнем к критерию Фридмана, не требующему нормальности распределения.Имеем три измерения (k = 3) у четырех больных (п = 4). Средний ранг для каждого наблюдения 1 + 2 + 3/3 = 2. Средняя сумма рангов для каждого измерения равна 4 2 = 8. Сумма квадратов отклонений для трех наблюдений:
S = (12 – 8)2 + (5 – 8)2 + (7 – 8)2 = (42) + (–3)2 + (–1)2 = 26, Эта величина совпадает с критическим значением r2 при п = 4 и k = 3. Соответствующий точный уровень значимости составляет 0,042. Таким образом, различия между измерениями статистически значимы (Р < 0,05).
Множественное сравнение после применения критерия Фридмана Как всегда, за выявлением различий между несколькими методами лечения должно последовать выяснение, в чем состоят эти различия, то есть попарное сравнение методов лечения. Поскольку число больных, подвергшихся каждому методу лечения, одинаково, для этой цели легко приспособить критерий Ньюмена—Кейлса. Если считать один из методов лечения «контролем», то остальные можно сравнить с ним при помощи критерия Даннета. Если речь идет о повторных наблюдениях в ходе лечения, таким контролем естественно считать значения, полученные перед началом лечения.
Итак, для попарного сравнения методов лечения (или моментов наблюдения) применяется критерий Ньюмена—Кейлса:
где RA и RB — суммы рангов для двух сравниваемых методов лечения, l — интервал сравнения, а п — число больных. Найденное значение q сравнивается с критическим из табл. 4.3 для бесконечного числа степеней свободы. Если найденное значение больше критического, различие методов лечения (моментов наблюдения) статистически значимо.
Для сравнения с контрольной группой применяется критерий Даннета:
где l — число всех групп, включая контрольную, Rкон — сумма рангов в контрольной группе. Остальные величины определяются, как в формуле для q. Значение q сравнивается с критическим из табл. 4.4 для бесконечного числа степеней свободы.
Пассивное курение при ишемической болезни сердца При ишемической болезни сердца коронарные артерии сужены атеросклеротическими бляшками. В отсутствие физической нагрузки, когда потребность миокарда в кислороде низка, это никак не сказывается на состоянии больного. Однако при физиНЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ ческой нагрузке, когда потребность миокарда в кислороде увеличивается, коронарные артерии уже не могут обеспечить соответствующего увеличения кровотока и развивается приступ стенокардии.
Курение для больных ишемической болезнью сердца особенно вредно. Тому есть несколько причин. Первая — при курении происходит сужение артерий и ухудшается кровоток. К сердцу поступает меньше кислорода и питательных веществ, затрудняется удаление продуктов метаболизма. Вторая причина — окись углерода из сигаретного дыма проникает в кровь и связывается с гемоглобином, замещая кислород. И наконец, третья причина — никотин и другие содержащиеся в табачном дыме вещества снижают сократимость миокарда, уменьшая кровоток и снабжение кислородом и питательными веществами всех органов, в том числе самого миокарда. В результате переносимость физической нагрузки снижается — приступы стенокардии возникают при менее интенсивной и продолжительной физической нагрузке.
Приводит ли к таким же последствиям пассивное курение?
На этот вопрос попытался ответить У. Аронов*.
В эксперименте участвовали 10 больных ишемической болезнью сердца. Переносимость физической нагрузки определяли как время, в течение которого больной мог выполнять работу (крутить велотренажер) до возникновения приступа стенокардии.
У каждого больного определяли переносимость физической нагрузки, затем в течение 2 часов он отдыхал в отдельной комнате, где присутствовала специальная группа окуривателей из человек. Окуриватели либо не курили, либо выкуривали по сигарет, в последнем случае помещение либо проветривали, либо не проветривали. После такого отдыха переносимость физической нагрузки определяли вновь. Исследование продолжалось 3 дня, и каждый больной испытал (в случайном порядке) все три вида отдыха, по одному в день. Результаты представлены в табл. 10.16.
Сначала, рассматривая данные как 6 отдельных измерений, * W. S. Aronow. Effect of passive smoking on angina pectoris. N. Engl. J. Med., 299: 21—24, 1978.
оценим статистическую значимость различий между ними. Применим критерий Фридмана. Средний ранг равен Средняя сумма рангов по каждому измерению 3,510 = 35.
Тогда:
S = (44 – 35)2 + (53 – 35)2 + (39 – 35)2 + + (20 – 35)2 + (44 – 35)2 + (10 – 35)2 = 1352, Полученное значение больше 20,517 — критического значения 2 для 0,1% уровня значимости при n = k – 1 = 6 – 1 = степенях свободы (см. табл. 5.7). Тем самьм, различия статистически значимы.
Чтобы понять, в чем заключаются различия, применим критерий Ньюмена—Кейлса. Все измерения перенумеруем как показано в табл. 10.6, расположим по убыванию сумм рангов и приступим к попарному сравнению. Крайние суммы рангов — 53 при 2-м измерении и 10 при 6-м измерении. Интервал сравнения l = 6, число больных n = 10.
Значение q превышает 4,030 — критическое значение q для уровня значимости = 0,05, интервала сравнения l = 6 и бесконечного числа степеней свободы (табл. 4.3А). Различия статистически значимы. Остальные попарные сравнения приведены в табл. 10.17. Уровни четко разделяются на три группы. Первая группа (максимальная переносимость физической нагрузки) включает 1, 2, 3 и 5-е измерения, то есть все три измерения до отдыха, а также измерение после отдыха на свежем воздухе. Вторая группа представлена единственным измерением — после отдыха в прокуренном, но проветриваемом помещении. НакоТаблица 10.16. Продолжительность физической нагрузки у больных ишемической болезнью сердца до и после отдыха при пассивном курении разной интенсивности, с До отдыха После отдыха До отдыха После отдыха До отдыха После отдыха Больной Время Ранг Время Ранг Время Ранг Время Ранг Время Ранг Время Ранг время W, S. Aronow. Effect of passive smoking on angina pectoris. N. Engl. J.Med., 299:21–24, 1978.
Таблица 10.17. Попарные сравнения нец, третья группа (переносимость физической нагрузки минимальная) также содержит единственное измерение — после отдыха в прокуренном непроветриваемом помещении. Между измерениями, вошедшими в разные группы, различия статистически значимы (при = 0,05). Общий вывод из работы Аронова: пассивное курение снижает переносимость физической нагрузки при ишемической болезни сердца.
ВЫВОДЫ
Изложенные в этой главе методы предназначены для проверки тех же гипотез, что критерий Стьюдента и дисперсионный анализ, но при этом не требуют, чтобы данные подчинялись нормальному распределению. Заменяя исходные данные рангами и избавляясь тем самым от необходимости делать какие-либо предположения относительно типа распределения, мы сохраняем большую часть информации о значениях признака и их измеНЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ нениях. Если распределение все же оказывается нормальным, то при этом происходит некоторое снижение чувствительности. Однако если распределение отлично от нормального, непараметрические методы чувствительнее параметрических.Обратите внимание, что, оперируя не данными, а рангами, рассмотренные методы строятся, в сущности, по тому же принципу, что и рассмотренные ранее пераметрические, такие, как критерий Стьюдента и дисперсионный анализ. Заменив данные рангами, мы делаем следующее.
• Формулируем нулевую гипотезу, то есть предполагаем, что наблюдаемые различия случайны.
• Выбираем критерий, то есть числовое выражение различий.
• Определяем, каким было бы распределение величины критерия при условии справедливости нулевой гипотезы.
• Находим критическое значение, то есть величину, которую при справедливости нулевой гипотезы значение критерия превышает достаточно редко (точнее, с вероятностью, равной уровню значимости ).
• Вычисляем значение критерия для наших данных и сравниваем его с критическим: если вычисленное значение больше, признаем различия статистически значимыми. Выбор между параметрическими и непараметрическими методами определяется прежде всего характером данных. Имея дело с порядковыми признаками, не остается ничего, кроме как воспользоваться непараметрическими методами. Если признак числовой, стоит подумать, нормально ли его распределение. Тут могут помочь как общие соображения, так и графическое представление данных. Даже если нет веских оснований сомневаться в нормальности распределения, но данных мало, или вы не хотите делать никаких предположений о типе распределения — воспользуйтесь непараметрическими методами.
ЗАДАЧИ
10.1 Анализы, инструментальные исследования и лекарственные средства назначает врач, а платит за них главным образом больной. Многие врачи весьма смутно представляют себе К задаче 10.1.Врач расходами расходами расходами расходами стоимость своих назначений и не озабочены тем, чтобы уменьшить расходы больного. Чтобы побудить врачей задуматься об этом, все шире практикуется учет затрат на обследование и лечение. Есть ли основания считать, что это сделает врача более экономным? Интересное исследование провели С. Шредер и соавт. (S. Schroeder et al. Use of laboratory tests and pharmaceuticals:
variation among physicians and effect of cost audit on subsequent use. JAMA, 225:969—973, 1973). В течение трех месяцев они регистрировали расходы на обследование и лечение амбулаторных больных, которых наблюдали врачи из клиники Вашингтонского университета. Данные собирали по больным со сходными заболеваниями. Рассчитав для каждого врача среднегодовые расходы на обследование и лечение одного больного, составили общий список, который раздали врачам. Каждый врач знал свой номер в списке, но не знал номеров своих коллег,
НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
таким образом он мог сравнить свои расходы с расходами других, но не знал, кого именно. Через некоторое время исследователи проверили, какие изменения произошли в расходовании средств у тех же врачей. Результаты представлены в таблице на предыдущей странице.Произошли ли изменения в расходах на обследование и лечение? Есть ли связь между расходами на обследование и лечение? Как можно объяснить полученные результаты?
10.2. При заболеваниях сетчатки повышается проницаемость ее сосудов. Дж. Фишмен и соавт. (G. Fishman et al. Blood-retinal barrier function in patients with cone or cone-rod dystrophy. Arch.
Ophthalmol., 104:545—548, 1986) измерили проницаемость сосудов сетчатки у здоровых и у больных с ее поражением. Полученные результаты приведены в таблице.
Проницаемость сосудов сетчатки С помощью непараметрического метода проверьте, подтверждают ли эти данные гипотезу о различии в проницаемости сосудов сетчатки? После этого воспользуйтесь соответствующим параметрическим методом. Если выводы окажутся иными, объясните, в чем причина различия.
10.3. Данные задачи 10.2 — часть более широкого исследования проницаемости сетчатки. Сравните данные, относящиеся к разным видам поражений.
Проницаемость сосудов сетчатки Нормальная Поражение только в Аномалии в области сетчатка области центральной центральной ямки 10.4. Решите задачи 9.5 и 9.6, используя непараметрические методы.
10.5. В гл. 3 на примере больных пиелонефритом была рассмотрена зависимость продолжительности госпитализации от правильности лечения. Д. Кнапп и соавт. решили выяснить, наблюдается ли такая зависимость при лечении пневмонии. Изучив 28 историй болезни, исследователи обнаружили следующее.
Продолжительность госпитализации, сут При правильном лечении При неправильном лечении Есть ли разница в продолжительности госпитализации?
10.6. Предсердный натрийуретический гормон усиливает выведение натрия и воды почками. В. Хименес и соавт. (W. Jimenez class='zagtext'>НЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ
Крысам вводили экстракт предсердия: одной группе — экстракт, полученный от здоровых крыс, другой — от крыс с циррозом печени. Регистрировали изменение выделения натрия с мочой (в процентах от исходного). Результаты представлены в таблице. Какой вывод можно сделать по результатам опыта?
Экстракт от здоровых крыс Экстракт от крыс с циррозом 10.7. Введя изотоп внутривенно и наблюдая за его распространением с помощью гамма-камеры, можно определить кровенаполнение различных органов, в том числе легких. Р. Окада и соавт. (R. Okada et al. Radionuclide-determined change in pulmonary blood volume with exercise: improved sensitivity ofmultigated bloodpool scanning in detecting coronary-artery disease. N. Engl. J. Med., 301:569—576, 1979) решили использовать этот метод для локализации поражения коронарных артерий при ишемической болезни сердца. Правая коронарная артерия снабжает кровью главным образом правый желудочек, левая — главным образом левый. Левый желудочек перекачивает кровь, которая поступает в него из легких, по всему телу. При поражении левой коронарной артерии кровоснабжение левого желудочка ухудшается. В покое, когда объем перекачиваемой крови невелик, это никак не проявляется, однако при физической нагрузке это приводит к накоплению крови в легких. При поражении правой коронарной артерии этого не происходит. Примерно так рассуждали авторы, приступая к работе. Было обследовано 33 человека: 9 здоровых (1-я группа) и 24 больных ишемической болезнью сердца, из них 5 с поражением только правой коронарной артерии (2-я группа) и 19 с поражением обеих коронарных артерий или только левой (3-я группа). Рассчитывали отношение кровенаполнения легких при физической нагрузке к кровенаполнению в покое:
по мысли авторов, в 3-й группе этот показатель должен быть выше, чем в первых двух. Результаты представлены в таблице.
Различаются ли группы межцу собой? Если да, то как именно и достаточно ли велико различие, чтобы исследуемый показаНЕПАРАМЕТРИЧЕСКИЕ КРИТЕРИИ тель можно было использовать для определения пораженной коронарной артерии?
10.8. Грезя о славе, автор этих строк предложил новый метод оценки эффективности лечения. Преимущество метода — его простота. Он состоит в следующем. Если у больного интересующий нас показатель увеличивается, ставится оценка +1, если уменьшается — 0 (допустим, случай неизменности показателя исключен). Сумма оценок по всем больным и есть значение критерия G. Вот пример расчета.
Больной лечения лечения показателя Оценка Значение критерия G = 1 + 1 + 0 + 1 = 3. Является ли G полноценным критерием? Постройте распределение G и найдите критическое значение для случаев, когда число больных равно 4 и 6.
До сих пор мы имели дело только с полными данными: мы знали исход лечения у каждого больного. В гл. 5 мы разобрали работу, целью которой было определить влияние аспирина на риск тромбоза шунта у больных на гемодиализе. Мы подсчитали число больных с тромбозом и без тромбоза в группах аспирина и плацебо и свели результаты в таблицу сопряженности (см. табл.
5.1). Затем мы построили вторую таблицу сопряженности, содержавшую ожидаемые числа, которые наблюдались бы, если бы в группах аспирина и плацебо частота тромбозов была одинаковой. По двум этим таблицам мы вычислили величину 2.
Полученное значение оказалось достаточно большим, чтобы отклонить гипотезу об отсутствии межгрупповых различий. В этом исследовании срок наблюдения всех больных был одинаковым и никто из них не выбыл из-под наблюдения до завершения исследования. То же самое можно сказать об исследовании галотановой и морфиновой анестезии, с которым мы впервые встретились в гл. 2. Тогда, говоря о трудностях, связанных с проспективными исследованиями, мы упомянули о проблеме выбывания*, но в рассмотренных примерах мы с ней не сталкивались. Однако ситуация, когда исследование должно быть завершено до наступления исхода у всех больных, для проспективных исследований, в частности клинических испытаний, скорее правило, чем исключение. Понятно, что на этот случай нужны специальные статистические методы.
Наиболее типичный пример исследования такого рода — это изучение выживаемости, когда больных наблюдают от начала болезни до смерти. Обычно больных включают в исследование на всем его протяжении, поэтому оно всегда заканчивается до смерти последнего больного. Истинная продолжительность болезни выживших к концу исследования остается неизвестной.
Кроме того, исследователь может потерять больного из виду до завершения исследования, если тот, к примеру, переехал в другой город. Наконец, больной может умереть по причине, не связанной с изучаемым заболеванием, например погибнуть вавтокатастрофе. Во всех этих случаях длительность заболевания остается неизвестной, мы знаем только, что она превышает некоторый срок.
Сейчас мы займемся именно изучением выживаемости, однако будем иметь в виду, что те методы, которые мы освоим, пригодны и для других исследований, в том числе для контролируемых испытаний.
ПАССИВНОЕ КУРЕНИЕ НА ПЛУТОНЕ
Табачные дельцы, теснимые все дальше от Земли борцами за здоровый образ жизни, окопались на Плутоне. Они решили превратить эту девственную планету в оплот табакокурения. Многое наивные плутониане поддались навязчивой рекламе и закурили.Но это еще полбеды. Как известно, на Плутоне очень холодно, * Здесь мы не говорим о пропусках в данных, причины которых — ошибка измерения, разбитая пробирка с пробой, потерянный анализ и т. п. К данным, содержащим пропуски, применяются обычные статистические методы с внесением необходимых вычислительных поправок. Подробнее об анализе данных с пропусками можно прочесть в книге S. Glantz, В. Slinker.
Primer of applied regression and analysis of variance. McGraw-Hill, N.Y., 1990.
поэтому его обитатели редко покидают свои домики. Чрезвычайно деликатные по природе, плутониане не могут выставить курильщика на улицу и вынуждены дышать табачным дымом, который производит их несознательный соотечественник.
Плутониане вообще живут недолго, что же будет теперь, когда Плутон охватила эпидемия пассивного курения! Первое, что мы должны сделать в этой ситуации, — это оценить продолжительность жизни плутонианина после начала пассивного курения.
Вот как проводилось исследование. Мы попросили всех плутониан сообщать нам, как только в их домике появится активный курильщик. Выявленных таким образом пассивных курильщиков включали в группу наблюдения и дожидались (увы!) их смерти. Исследование длилось 15 плутонианских часов; за это время пассивными курильщиками стали 10 плутониан. Первыми сообщили о начале пассивного курения А и Б. Остальные участники вошли в группу наблюдения уже после начала исследования (что типично для исследований выживаемости); их звали В, Г, Д, Е, Ж, 3, И и К. Периоды наблюдения за каждым из них показаны на рис 11.1А в виде горизонтальных отрезков. Из десяти участников к концу исследования умерли семь — А, Б, В, Е, Ж, 3 и К; в живых остались двое — Г и И. Еще одного участника, Д, местное начальство на 14-м часу исследования послало в командировку на Нептун; что с ним было дальше, нам неизвестно.
Таким образом, продолжительность жизни после начала пассивного курения нам известна в 7 случаях. В 3 случаях нам известно только, что наблюдаемые прожили не меньше такого-то срока*. Неважно, почему они не прослежены до конца жизни — * В исследованиях выживаемости неполные данные называют также цензурированными. Данные о трех выбывших плутонианах цензурированы справа — известен момент начала наблюдения, но неизвестно, когда наблюдаемый умер. Если бы в исследовании участвовали плутониане, начавшие курить до его начала, то мы могли бы получить также данные, цензурированные слева, а также цензурированные с обеих сторон. Эта виды цензурирования и соответствующие методы анализа можно найти в D. Collett. Modelling survival in medical research. Chapman and Hall, London, 1994 и Е. Т. Lee. Statistical methods for survival data analysis. Wiley, 2nd ed..
Рис. 11.1. Продолжительность жизни плутониан после начала пассивного курения. А. Ход исследования показан в обычной шкале времени. Жизнь плутонианина после начала пассивного курения представлена горизонтальным отрезком. Левый конец отрезка—это начало наблюдения. На правом конце отрезка — черный или белый кружок. Черный кружок означает, что плутонианин умер и, таким образом, продолжительность его жизни нам известна. Белый кружок означает, что исследование закончилось до его смерти либо он куда-то уехал — словом, выбыл из-под наблюдения. Относительно выбывших нам известно только, что они прожили не меньше определенного срока. Б. Ход исследования показан так, как будто все плутониане начали наблюдаться одновременно. Теперь на шкале времени не астрономические часы, а часы наблюдения. Такое представление данных облегчит нам дальнейшие расчеты.
прекратилось ли исследование, уехали они куда-то, — всех их мы будем называть выбывшими.
На рис. 11.1 Б изображены те же данные, что и на рис. 11.1А.
Теперь отрезки, соответствующие периоду наблюдения за каждым плутонианином, расположены так, как если бы все наблюдения были начаты в один момент. Это представление данных более удобно. Теперь сразу видно, кто сколько прожил после начала пассивного курения. Кружок на правом конце каждого из отрезков показывает, умер плутонианин за время наблюдения (кружок закрашен) или выбыл (кружок не закрашен).
Если бы продолжительность наблюдения была одинаковой, мы могли бы рассчитать долю выживших и применить методы, описанные в гл. 5. Однако поскольку участники входили в группу наблюдения на разных сроках исследования, это условие не выполняется. Если бы все наблюдаемые умерли, то можно было бы применить методы, изложенные в гл. 2 или 10. Однако и этого не произошло, как это обычно и бывает в исследованиях такого рода.
Для анализа выживаемости нужны новые методы. Прежде чем с ними познакомиться, сформулируем требования, которым должны удовлетворять все исследования выживаемости.
• Для всех наблюдаемых известно время начала наблюдения.
• Для всех наблюдаемых известно время окончания наблюдения, а также — умер он или выбыл.
• Выбор наблюдаемых произведен случайно.
Для начала мы научимся строить кривую выживаемости, а затем перейдем к оценке статистической значимости различий кривых выживаемости.
КРИВАЯ ВЫЖИВАЕМОСТИ
Кривая выживаемости задает вероятность пережить любой из моментов времени после некоторого начального события. Эту вероятность обычно называют просто выживаемостью. В примере, который мы сейчас разбираем, кривая выживаемости применяется для изучения продолжительности жизни. Однако кривыми такого рода можно описать продолжительность самых разнообразных процессов. Тогда в качестве исхода будет выступать Рис. 11.2. Типичная кривая выживаемости. В начале значение функции выживаемости S(t), естественно, равно 1. В дальнейшем оно уменьшается, постепенно приближаясь к нулю. Время, за которое значение функции выживаемости достигает значения 0,5, называется медианой выживаемости.не смерть, а другое интересующее нас событие, не всегда нежелательное. Например, можно изучать срок лечения какого-либо заболевания (исход — ремиссия), длительность лечения бесплодия или эффективность контрацепции (исход в обоих случаях — наступление беременности), долговечность протеза (исходполомка).
Для начала, как всегда, рассмотрим кривую выживаемости для совокупности. Такая кривая получилась бы, если бы мы проследили судьбу всех плутониан от рождения до смерти. Выживаемость к моменту времени t обозначим S(t), Дадим определение.
Выживаемость S(t) — это вероятность прожить более t с момента начала наблюдения.
Для совокупности эта вероятность выражается формулой:
Типичная кривая выживаемости изображена на рис. 11.2. Понятно, что в точке 0, соответствующей начальному моменту, например моменту рождения, выживаемость равна 1. Затем кривая постепенно понижается и, начиная с некоторой точки, становится равной 0. Возраст, до которого доживает ровно половина совокупности, называется медианой выживаемости.
Наша цель состоит в том, чтобы оценить выживаемость по выборке. Никакого другого способа ее оценки не существует.
Если бы не выбывшие, это было бы очень просто:
В тех случаях, когда имеет место выбывание (а это бывает почти всегда), мы не сможем воспользоваться этой формулой.
Вместо этого поступим следующим образом. Для каждого момента времени, когда произошла хотя бы одна смерть, оценим вероятность пережить этот момент. Такой оценкой будет отношение числа переживших этот момент к числу наблюдавшихся к этому моменту. Тогда, согласно правилу умножения вероятностей, вероятность пережить некоторый момент времени для каждого вступившего в исследование будет равна произведению этих оценок от нулевого до данного момента. Рассмотрим эту процедуру более подробно на примере плутонианских пассивных курильщиков.
Будем считать, что все начали наблюдаться в момент времени t = 0, и от этого момента будем отсчитывать все сроки (рис. 11.1Б).