«Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D. Professor of Medicine Member, Cardiovascular Reserch Institute Member, Institute for Health Policy Studies University of California, San ...»
Рассмотрим пример. На рис. 2.6 представлены распределение по росту всех 200 ныне живущих марсиан, а также три случайные выборки по 10 марсиан в каждой. Рост 95% всех марсиан лежит в пределах от 31 до 49 см. Средний рост марсианина — 40 см, стандартное отклонение — 5 см. Три выборки, изображенные в нижней части рисунка, дают следующие оценки среднего роста: 41,5, 36 и 40 см. Выборочные стандартные отклонения — соответственно 3,8, 5 и 5 см. Применим к этим выборочным оценкам правило двух стандартных отклонений. Полученные доверительные интервалы изображены на рис. 7.5А.
Как видим, в двух из трех случаев интервалы не покрывают 95% всех членов совокупности.
Причина, в общем, понятна. Выборочное среднее и выбоГЛАВА рочное стандартное отклонение — не более чем оценки истинного среднего и стандартного отклонения. Точность этих оценок при малом объеме выборок невелика. Ошибка в оценке одного параметра накладывается на ошибку в оценке другого — в результате шансы получить правильный результат и вовсе низки.
Рассмотрим выборку на рис. 2.6В. Нам повезло — оценка стандартного отклонения совпала с истинным его значением 5 см.
Однако оценка среднего оказалась заниженной — 36 см вместо 40 см. Поэтому интервал смещен относительно истинного среднего и накрывает менее 95% всех значений.
Учитывая приблизительность оценок по выборкам небольшого объема, нужно брать интервал, более широкий, чем плюс-минус два стандартных отклонения (при выборках большого объема такая страховка не нужна). Этот интервал вычисляют по формуле где X — выборочное среднее, s — выборочное стандартное отклонение, а К — коэффициент, который зависит от доли f членов совокупности, которые должны попасть в доверительный интервал, от вероятности того, что они действительно туда попали 1 – и от объема выборки п. Этот коэффициент играет примерно ту же роль, что t или z. Для вычисления 95% доверительного интервала нужно определить К0,05; зависимость К0,05 от объема выборки для различных значений f показана на рис. 7.6.
Заметим, что К больше, чем t (как t больше, чем z), поскольку учитывает не только значение среднего, но и неопределенность оценок среднего и стандартного отклонения*.
При объеме выборки от 5 до 25, типичном для медицинских исследований, К должен быть существенно больше двух. Если бы в рассматриваемом случае мы взяли интервал в плюс-минус два стандартных отклонения от среднего, то он покрыл бы заметно менее 95% совокупности. На рис. 7.5Б изображены 95% доверительные интервалы для роста 95% членов совокупности * Вывод формулы для К, показывающий его связь с доверительными интервалами для среднего и стандартного отклонения, можно найти, например, в работе: А. Е. Lewis, Biostatistics, Reinhold, New York, 1966, Chap. 12. Tolerance limits and indices of discrimination.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
Рис. 7.6. Коэффициент К0,05 зависит от объема выборки и от доли членов совокупности f, которые должны попадать в 95% доверительный интервал.марсиан, построенные по трем выборкам с рис. 2.6. Теперь все три интервала покрывают не менее 95% членов совокупности.
Применение правила двух стандартных отклонений к выборкам небольшого объема приводит к зауживанию доверительного интервала значений. Упомянем еще об одной распространенной ошибке. Как говорилось в гл. 2, многие путают стандартную ошибку среднего со стандартным отклонением. Найдя интервал «выборочное среднее плюс-минус две стандартные ошибки среднего», они уверены, что в него попадет 95% совокупности (тогда как на самом деле 95% составляет вероятность, что в интервал попадет среднее по совокупности). В результате интервал допустимых значений оказывается еще более зауженным.
ЗАДАЧИ
7.1. По данным из задачи 2.6 найдите 90 и 95% доверительные интервалы для среднего числа авторов статей, опубликованных в медицинских журналах за 1946, 1956, 1966 и 1976 гг.7.2. Ранее (задача 3.1) мы познакомились с исследованием Ч. О’Херлихи и Г. Мак-Дональда (С. O’Herlihy, H. MacDonald.
Influence of preinduction prostaglandin E2 vaginal gel on cervical ripening and labor. Obstet. Gynecol., 54:708—710, 1979). Как выяснилось, гель с простагландином Е2 сокращает продолжительность родов. Позволяет ли он избежать кесарева сечения?
В группе, получавшей гель с простагландином Е2, кесарево сечение потребовалось 15% женщин, в контрольной группе — 23,9%. В обеих группах было по 21 женщине. Найдите 95 % доверительные интервалы для доли рожениц, которым требуется кесарево сечение в обеих группах. Найдите 95% доверительный интервал для разности долей. Можно ли утверждать, что простагландин снижает вероятность кесарева сечения?
7.3. По данным задачи 3.1 найдите 95% доверительный интервал для разности средней продолжительности родов у получавших гель с простагландином Е2 и получавших плацебо. Позволяет ли вычисленный доверительный интервал утверждать, что различия статистически значимы?
7.4. По данным задачи 5.1 найдите 95% доверительные интервалы для долей больных, которые не чувствовали боли при включенном и выключенном приборе. Можно ли по этим интервалам оценить статистическую значимость различий?
7.5. Поданным задачи 3.2 найдите 95% доверительные интервалы для каждой из групп. В чем заключаются различия между группами?
7.6. По данным задачи 5.6 найдите 95% доверительные интервалы для доли работ, где данные были получены до планирования исследования.
7.7. По данным задачи 2.2 найдите 95% доверительные интервалы для 90 и 95% значений. Результаты представьте на одном рисунке с исходными данными.
Самый первый из рассмотренных нами примеров (рис. 1.2) был посвящен вопросу об эффективности диуретика. Пяти людям дали разные дозы препарата, измерили диурез и увидели, что чем больше доза, тем больше диурез. В дальнейшем оказалось, что этот результат не отражает реальной картины и что никакой связи между дозой и диурезом на самом деле нет. Тогда мы еще не знали о методах анализа зависимостей. Им посвящена эта глава. Мы узнаем, как с помощью уравнения регрессии выразить связь между дозой диуретика и диурезом (так называемый регрессионный анализ) и как с помощью коэффициента корреляции измерить силу этой связи.
Подобно тому как мы поступали в предыдущих главах, рассмотрим сначала уравнение регрессии для совокупности, а затем выясним, как оценивать его параметры по выборке. В гл. 3 и 4 мы брали нормально распределенную совокупность, находили параметры распределения (среднее µ и стандартное отклонение ), затем находили выборочные оценки этих параметров (X и s) и использовали их для оценки значимости различий между группами, например получавших препарат и не получавших. Теперь мы также будем иметь дело с нормально распределенной совокупностью, но группа будет только одна. Интересовать же нас будет связь между двумя количественными признаками, характеризующими членов этой группы, например между дозой препарата и эффектом, ростом и весом. Мы ограничимся случаем линейной зависимости двух переменных*.
Сколько весит марсианин?
Итак, начнем с совокупности. Совокупность марсиан нами уже достаточно хорошо изучена, особенно что касается роста. Но ведь мы их еще и взвешивали! Разберемся, как связаны вес и рост. Вы, конечно, помните, что на Марсе живет 200 марсиан. В гл. 2 мы обнаружили, что их рост подчиняется нормальному распределению со средним µ = 40 см и стандартным отклонением = 5 см. Оказывается, что вес марсиан тоже подчиняется нормальному распределению с параметрами µ = 12г и =2,5г.
Но самое замечательное, что отчетливо видно на рис. 8.1, — это зависимость веса от роста. Как правило, чем больше рост марсианина, тем больше вес, причем эта зависимость линейна.
Посмотрим, сколько весят марсиане, чей рост равен 32 см.
Таких марсиан четверо, а их вес равен соответственно 7,1; 7,8;
8,3 и 8,8 г. Таким образом, средний вес марсиан ростом 32 см равен 8 г. Восемь марсиан ростом 46 см весят 13,7; 14,5; 14,8;
15,0; 15,1; 15,2; 15,3 и 15,8 г. Их средний вес 15 г. Если для каждого значения роста мы подсчитаем соответствующий ему средний вес, то окажется, что найденные значения лежат на прямой линии, как изображено на рис. 8.2.
Теперь, выбрав какой-то рост, мы всегда сможем примерно определить вес марсианина этого роста. Точнее, мы сможем опЛинейная зависимость у от х определяется формулой у = + х. Возможна нелинейная зависимость, например у = + х2. Возможна и множественная зависимость, когда определяющих признаков более одного, например у = + х + z. Она рассматривается в книге S. Glantz, В.
Slinker. Primer of applied regression and analysis of variance. McGrawНill, New York, 1990.
Рис. 8.1. Рост и вес марсиан. Как известно, число обитателей Марса составляет 200;
каждый из них был измерен и взвешен, результат нанесен на график в виде кружка.
Распределение марсиан по росту и по весу нормально. Более того, средний вес марсиан определенного роста связан с ростом линейной зависимостью; разброс значений веса для всех ростов одинаков. Чтобы к совокупности можно было применить регрессионный анализ, она должна обладать всеми этими свойствами.
Рис. 8.2. Если рассчитать средний вес марсиан разного роста и нанести полученные значения на график, окажется, что они образуют прямую линию. Иначе говоря, средний вес марсиан линейно зависит от роста.
ределить средний вес марсиан этого роста, поскольку для каждого роста существует определенный разброс веса. Разброс этот, кстати, можно оценить, рассчитав стандартное отклонение веса для каждого роста. Оказывается, какой бы рост мы ни взяли, стандартное отклонение веса составит 1 г, что заметно меньше стандартного отклонения веса для всей, не разделенной по весам, совокупности марсиан.
УРАВНЕНИЕ РЕГРЕССИИ
Прежде чем перейти к обобщению этих закономерностей, дадим несколько определений. В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, — зависимой. Набор значений у, соответствующих определенному значению х, обозначим у|х.В примере с марсианами рост мы будем рассматривать как независимую переменную, а вес — как зависимую. Понятно, что это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго. В условиях эксперимента мы произвольно меняем независимую переменную и смотрим, как меняется зависимая. При этом речь действительно идет о зависимости, то есть о причинной связи. В прочих же случаях выявление статистической связи двух переменных указывает на возможность причинной связи, но не доказывает ее. Разобраться в причинах и следствиях вообще невозможно чисто статистическими методами. Необходимо, в частности, найти биологический механизм, порождающий выявленную связь. Например, эпидемиологические данные о связи пассивного курения с заболеваемостью ишемической болезнью сердца еще не доказывают, что пассивное курение способствует развитию ИБС. Может быть, и то и другое — следствие какой-либо неизвестной причины, например нервной обстановки в рабочем коллективе. Однако экспериментальные данные* о том, что пассивное курение и отдельные компоненты таО том, как анализировать совокупность эпидемиологических и экспериментальных данных для выявления причинных связей, можно прочесть в работах: S. A. Glantz, W. W. Parmley. Passive smoking and бачного дыма вызывают поражение сердца у лабораторных животных, говорят в пользу именно причинной связи.
Вернемся к нашим марсианам. Для каждого значения независимой переменной х (в нашем примере это рост) рассчитаем среднее значение зависимой переменной у (вес). Это среднее в точке х обозначим µy|x. Тогда обнаруженная нами линейная зависимость описывается уравнением Здесь — значение у в точке х = 0 (коэффициент сдвига), — коэффициент наклона*. В нашем примере при увеличении роста на 1 см средний вес увеличивается на 0,5 г, поэтому =0,5. Хотя представить марсиан весом –8 г не легче, чем ростом 0 см, тем не менее для прямой с рис. 8.2 имеем = –8 г. Таким образом, прямая средних (для каждого роста) весов задается формулой Теперь посмотрим, как распределены веса марсиан одного роста. В данном случае это нормальное распределение со средним µy|x и стандартным отклонением y|x. Но этого еще недостаточно для применения методов, которые мы рассмотрим ниже.
Помимо нормальности распределения требуется, чтобы y|x было одинаковым для разных х. Иначе говоря разброс значений зависимой случайной переменной у должен быть неизменным при любом значении независимой переменной х. В нашем примере это условие выполняется.
Итак, значения переменных должны удовлетворять следующим условиям.
• Среднее значение µy|x линейно зависит от х.
• Для любого значения х значения у|х распределены нормально.
• Стандартное отклонение y|x одинаково при всех значениях х.
Функция, задающая зависимость µy|x от х, определяется паheart disease: epidemiology, physiology, and biochemistry. Circulation, 83:1—12,1991 и S. A. Glantz, W. W. Parmley. Passive smoking and heart disease: mechanisms and risk. JAMA, 273:1047—1053, 1995.
* Эти обозначения совпадают с обозначениями ошибок I и II рода. Будем надеятся. что это не породит путаницы.
раметрами и. Разброс значений у|х в точке х задается стандартным отклонением y|x. Оценим эти параметры.
ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО
ВЫБОРКЕ
В реальной жизни редко удается получить данные обо всей совокупности, и исследователю приходится довольствоваться выборками. Допустим, мы располагали бы данными не о всех марсианах, а только о десяти. На рис. 8.ЗА они показаны черными кружками среди 190 своих собратьев. На рис. 8.3Б данные показаны так, как их видит исследователь, изучивший эту выборку.Что можно сказать о совокупности, основываясь на этих выборочных данных?
Похоже, что в этом случае исследователю повезло. Зависимость веса от роста в выборке выглядит примерно так же, как и в совокупности в целом. Но ведь выборка может вводить в заблуждение. Вспомним пример с рис. 1.2. В выборке из 5 человек диурез отчетливо увеличивался с ростом дозы препарата (рис 1.2А), тогда как на самом деле никакой зависимости не было (рис 1.2Б). Какова вероятность ошибочного заключения? Как мы скоро увидим, эта задача сводится к оценке параметров уравнения регрессии и по выборке.
Метод наименьших квадратов Сейчас нам предстоит оценить параметры уравнения регрессии и. Обозначим их выборочные оценки соответственно а и b.
Найти наилучшие оценки этих параметров — это то же самое, что провести наилучшую прямую через имеющиеся точки, поскольку у =а + bх — это уравнение прямой. Какую прямую считать наилучшей? Посмотрим на рис. 8.4. На нем изображены прямые. Прямая I явно не годится — все точки оказались по одну сторону от нее. Прямая II немного лучше, она хотя бы пересекает область, где находятся наши точки. Однако она слишком круто устремляется вверх. Какая из прямых III и IV является лучшей, сказать трудно. Почему прямая II кажется лучше прямой I, а прямая III — лучше прямой II? Очевидно, прямая тем лучше, Рис. 8.3. А. Случайная выборка объемом 10 из совокупности марсиан.
Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может наблюдать всю совокупность.
чем ближе она ко всем точкам выборки. Иными словами, лучше та прямая, относительно которой разброс точек минимален.
С оценкой разброса мы уже сталкивались в гл. 2. Там мы использовали средний квадрат отклонения от среднего. Поступим аналогичным образом. Определим расстояние по вертикали от каждой точки до прямой (рис. 8.5). Возведем полученные величины в квадрат и сложим. Возведение в квадрат потребовалось, чтобы отклонения, равные по абсолютной величине, но разные по знаку, вносили один и тот же вклад.
Сумма квадратов отклонений от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше представляет зависимость у от х. Более того, можно доказать, что для прямой IV сумма квадратов отклонений выборочных значений зависимой переменной минимальна. Способ нахождения линии, сумма квадратов расстояний от которой до всех точек выборки минимальна, называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавливаться на выводе формул* и сообщим сразу результат.
Напомним, что мы ищем параметры уравнения регрессии:
Тогда коэффициент сдвига и коэффициент наклона где X и Y — значения независимой и зависимой переменных у п членов выборки**.
* Интересующихся выводом этих формул отсылаем к книге: S. A. Glantz.
Mathematics for biomedical applications. University of California Press, Berkely, 1979, pp. 322–325.
** Вычисления можно упростить, если сначала вычислить b, а уже потом найти а по формуле a = Y bX, где Y и X — выборочные средние для переменных у и х.
Рис. 8.4. Провести прямую через десять точек можно по-разному. Прямые I и II явно не годятся, прямые III и IV выглядят лучше.
Рис. 8.5. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б).
Сумма квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямой IV серым цветом показана линия средних с рис. 8.2. Как видим, прямые достаточно близки.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.5. Окончание Таблица. 8.1. Расчет параметров уравнения регрессии Рассчитаем параметры уравнения регрессии для нашей выборки из 10 марсиан. Вспомогательные величины для вычислений приведены в табл. 8.1. Объем выборки п = 10, X = 369, Y = 103,8, X 2 =13841 и XY = 3930,1. Подставим эти числа в формулы для коэффициентов регрессии:
Таким образом, прямая регрессии имеет вид:
Именно это уравнение задает прямую IV.
Разброс значений вокруг прямой регрессии Мы получили а и b — оценки коэффициентов регрессии и.
Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное отклонение постоянно и равно y|x. Выборочной оценкой y|x служит где а + bХ — значение уравнения регрессии в точке X, Y – (а + bХ) — расстояние от точки до прямой регрессии, обозначает суммирование квадратов этих расстояний. Не будем объяснять, почему сумма квадратов отклонений должна быть поделена на п – 2, а не на п или п – 1. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен п – 1.
Величина sy|x называется остаточным стандартным отклонением (соответственно s 2| x, называется остаточной дисперy сией). Связь sy|x со стандартными отклонениями SY и sX зависимой и независимой переменных определяется формулой Для рассмотренной нами выборки sX = 5,0, sY = 2,4. Тогда Как видим, оценка sy|x оказалась близкой к истинному значению y|x, равному 1,0 г.
Стандартные ошибки коэффициентов регрессии Подобно тому как выборочное среднее — это оценка истинного среднего (среднего по совокупности), так и выборочные параметры уравнения регрессии a и b — не более чем оценки истинных коэффициентов регрессии и. Разные выборки дают разные оценки среднего — точно так же разные выборки будут давать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = –6,0 и b = 0,44. Рассмотрим другую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Б эта выборка показана такой, какой ее видит исследователь. Общая закономерность осталась прежней — высокие марсиане веГЛАВА Рис. 8.6. А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марсиане, попавшие в выборку, помечены точками.
Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается от полученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2.
сят больше низкорослых. Однако, рассчитав коэффициенты регрессии, получим а = –4,0 г и b = 0,38 г/см.
Если построить все возможные выборки по 10 марсиан в каждой, получится совокупность всех значений а и b. Их средние равны и, а стандартные отклонения — и. Эти стандартные отклонения называются стандартными ошибками коэффициентов регрессии. Стандартные ошибки коэффициентов регрессии, подобно стандартной ошибке среднего или доли, используются при проверке гипотез и вычислении доверительных интервалов. Выборочные оценки для и обозначаются соответственно sa и sb и вычисляются по следующим формулам*:
Для выборки с рис. 8.3Б имеем:
Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего — для нахождения доверительных интервалов и проверки гипотез.
* Вывод формул для стандартных ошибок коэффициентов регрессии можно найти в большинстве учебников статистики. См., например, J. Neter and W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974, chap. 3, «Inferences in regression analysis».
Есть ли зависимость?
Помня о досадном недоразумении с «диуретиком» из гл. 1 (см.
рис. 1.2), исследователь вправе спросить: как убедиться, что зависимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипотезы о том, что коэффициент наклона = 0*?
Совокупность всех выборочных значений коэффициента наклона b приближенно подчиняется нормальному распределению.
Поэтому можно воспользоваться критерием Стьюдента, аналогично тому, как мы пользовались им в гл. 4 для проверки гипотезы относительно среднего. В общем виде критерий Стьюдента можно определить как:
Выборочная оценка Истинная величина Стандартная ошибка выборочной оценки Для оценки коэффициента наклона:
Оценить вероятность гипотезы о равенстве = 0 можно двумя способами.
Приравняв к нулю, имеем Теперь по табл. 4.1 найдем t — критическое значение t для выбранного уровня значимости и числа степеней свободы = п – 2.
Если полученное значение t по абсолютной величине превосходит t, то Р <, то есть зависимость статистически значима.
Потренируемся на марсианах. Для выборки с рис. 8.3Б мы нашли b = 0,44 и sb = 0,068 Тогда t = 0,44/0,068 = 6,47. Объем выборки равен 10. Положим уровень значимости равным 0,001. В табл.
4.1 для этого уровня значимости и числа степеней свободы * Речь идет исключительно о линейной зависимости. Как мы вскоре увидим, зависимость может быть и нелинейной; в таком случае излагаемый способ даст неправильный результат.
= 10 – 2 = 8 находим критическое значение t = 5,041. Поскольку t > t, гипотезу об отсутствии зависимости веса от роста следует отвергнуть.
Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополучный диуретик из гл. 1). Но вероятность совершить эту ошибку не превышает 0,001.
Второй способ основан на использовании доверительных интервалов. 100(1 – )-процентный доверительный интервал для имеет вид Рассчитаем 95% доверительный интервал. Число степеней свободы = 10 – 2 = 8. По таблице 4.1 находим t0,05 = 2,306.
Выборочные значения b = 0,44 и sb = 0,068. Следовательно, доверительный интервал для :
Поскольку ноль в этот интервал не попадает, вероятность того, что = 0, меньше 5%.
Если рассчитать 99,9% доверительный интервал, можно убедиться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожидать, совпадает с полученным с помощью доверительного интервала. Заметим, что истинное значение = 0,5 попадает в доверительный интервал.
Можно вычислить доверительный интервал и для коэффициента. Например, 95% доверительный интервал имеет вид:
то есть Интервал покрывает истинное значение = –8 г.
Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной.
Доверительная область для линии регрессии Обычно мы не знаем истинных величин коэффициентов регрессии и. Нам известны только их оценки а и b. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффициентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% доверительная область для выборки с рис. 8.3. Как видим, это довольно узкая полоса, которая несколько расширяется при крайних значениях х.
Мы знаем, что при любом значении независимой переменной х соответствующие значения зависимой переменной у распределены нормально. Средним является значение уравнения регрессии y. Неопределенность его оценки характеризуется стандартной ошибкой регрессии:
В отличие от стандартных ошибок, с которыми мы имели дело до сих пор, s y при разных х принимает разные значения:
чем дальше х от выборочного среднего X, тем она больше.
Теперь можно вычислить 100(1 – )-процентный доверительный интервал для значения уравнения регрессии в точке х:
где t — критическое значение с = n – 2 степенями свободы, а y — значение уравнения регрессии в точке х:
Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С заданной вероятностью, обычно 95%, можно утверждать, что истинГЛАВА Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3).
ная линия находится где-то внутри этой области. Обратите внимание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений (доверительная область для значений гораздо шире).
Авторы медицинских публикаций нередко приводят доверительную область линии регрессии и говорят о ней так, как будто это — доверительная область значений. Это примерно то же самое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Например, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г — из этого Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью.
вовсе не следует, что в этих пределах окажется вес 95% марсиан такого роста.
Теперь займемся доверительной областью для значений зависимой переменной.
Доверительная область для значений Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой линии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение sy|x, а неопределенГЛАВА ности положения линии регрессии — стандартная ошибка регрессии s y. Дисперсия суммы двух величин равна сумме дисперсий, поэтому Подставив в эту формулу выражение для s y из предыдущего раздела, получим:
Тогда 100(1 – )-процентный доверительный интервал для зависимой переменной Заметьте, что входящие в это неравенство величины y и sY зависят от х.
На рис. 8.7Б изображена полученная по этой формуле 95% доверительная область для значений зависимой переменной. В эту область попадет 95% всех возможных значений веса марсиан любого роста. Например, с вероятностью 95% можно утверждать, что любой 40-сантиметровый марсианин весит от 9,5 до 14,0г.
СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ
Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами.• Сравнить коэффициенты наклона b, • Сравнить коэффициенты сдвига a.
• Сравнить линии в целом.
В первых двух случаях следует воспользоваться критерием Стьюдента. Если нужно проверить, значимо ли различие в наклоне двух прямых регрессии, критерий Стьюдента t вычисляется по формуле:
где b1 – b2 — разность коэффициентов наклона, a sb1 b2 — ее стандартная ошибка. Затем вычисленное t сравним, как обычно, с критическим значением t, имеющим (n – 2) + (n – 2) = n1 + n2 – степени свободы.
Если обе регрессии оценены по одинаковому числу наблюдений, то стандартная ошибка разности Если же объемы выборок различны, следует воспользоваться объединенной оценкой остаточной дисперсии (она аналогична объединенной оценке дисперсии, приведенной в гл. 4):
Тогда формула для sb1 b2 принимает вид Можно сравнить и коэффициенты сдвига a1 и а2. В этом случае Здесь когда обе регрессии вычислены по одинаковому числу точек.
При неодинаковом числе точек следует воспользоваться объединенной оценкой дисперсии так же, как это было сделано выше.
Перейдем к сравнению двух линий регресии в целом. Сравнить две линии регрессии — значит оценить вероятность нулеГЛАВА вой гипотезы о совпадении линий*. Напомним, что коэффициенты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией s y| x : чем меньше остаточная дисперсия, тем лучше прямая регрессии соответствует имеющимся точкам.
Воспользуемся этим показателем для оценки результатов такого мысленного эксперимента. Объединим обе выборки в одну и построим для нее линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существенно не изменится. И наоборот, если они различаются, то совпадение точек и линии ухудшится и остаточная дисперсия возрастет. Порядок действий таков.
• Построить прямую регресии для каждой из выборок.
• По остаточным дисперсиям s y| x1 и s y| x2 каждой из регрессий вычислить объединенную оценку остаточной дисперсии s y|xобщ.
• Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию s y| xедин.
• Вычислить «выигрыш» от использования двух раздельных регрессий. Мерой выигрыша служит величина:
• По s 2| xв и s y| xобщ вычислить критерий F:
• Сравнить вычисленное значение с критическим значением F для числа степеней свободы меж = 2 и вну = n1 + n2 – 4. Если полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена.
* Методы, предназначенные для сравнения более чем двух линий регрессии, описаны в книге: J. H. Zar. Biostatistical analysis. 2nd ed. Prentice-Hall.
Englewood Cliffs. N. J.. 1984.
Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены кружками, больные ревматоидным артритом — квадратиками. Одинакова ли зависимость у больных и здоровых?
Мышечная сила при ревматоидном артрите Причины ограниченной подвижности при ревматоидном артрите разнообразны: болезненность суставов, их тугоподвижность, атрофия мышц. Каков вклад каждого из этих факторов? Пытаясь ответить на этот вопрос, П. С. Хелливелл и С. Джексон* исследовали, в частности, связь между мышечной массой и силой. В исследовании приняли участие 25 больных ревматоидным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчитывали площадь поперечного сечения предплечья и ручным динамометром определяли силу сжатия кисти. Результат показан на рис. 8.8. Кружки — результаты здоровых, квадратики — больных ревматоидным артритом.
На рис. 8.9А представлены те же наблюдения, что и на рис.
8.8, и кроме того, две построенные по ним линии регрессии.
Проверим, есть ли значимое различие между линиями регресP. S. Helliwell, S. Jackson. Relationship between weakness and muscle wasting in rheumatoid arthritis. Ann. Rheum. Dis., 53:726—728, 1994.
Рис. 8.9. А. Построим линии регрессии для каждой из групп и оценим разброс точек относительно этих линий. Б. Объединим группы и найдем линию регрессии для получившейся группы. Если разброс точек относительно этой линии значительно превышает разброс относительно двух отдельных линий, то различия линий следует считать значимыми.
Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы Коэффициенты регрессии сдвиг а(sa) 3,3(22,4) –7,3(25,3) –23,1(50,5) наклон b(sb) 2,41(0,702) 10,19(0,789) 6,39(1,579) Остаточное стандартное сии. Параметры уравнений регрессии и остаточные стандартные отклонения указаны в табл. 8.2. Вычислим объединенную оценку остаточной дисперсии вующие остаточные дисперсии. Тогда Теперь объединим группы и найдем уравнение регрессии для получившейся группы. Опустим вычисления, результат приведен в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Остаточная дисперсия единой регрессии s y| xедин = 129,12 = 16667. Выигрыш от использования раздельных регрессий:
Значение F:
Критическое значение F при уровне значимости = 0,011 и числе степеней свободы меж = 2 и вну = 25 + 25 – 4 равно 5,10, то есть гораздо меньше полученного нами. Таким образом, у здоро вых людей сила сжатия зависит от размера предплечья иначе чем у больных артритом.
В чем заключается отличие? Сравним коэффициенты регрессий. Начнем с коэффициента сдвига а.
При уровне значимости = 0,05 при числе степеней свободы = n1 + п2 – 4 = 46 критическое значение t равно 2,013.
Поскольку полученное нами значение t меньше критического, заключаем, что между а1 и а2 нет значимого различия.
При сравнении коэффициентов наклона получим t = 7,367, что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых.
КОРРЕЛЯЦИЯ
Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой переменной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют предсказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или графической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто характеристика тесноты (силы) связи между ними, при этом выраженная одним числом.Эта характеристика называется коэффициентом корреляции, РИС. 8.10. Чем теснее связь между переменными, тем ближе абсолютная величина коэффициента корреляции к 1.
жет принимать значения от –1 до +1. Знак коэффициента корреляции показывает направление связи (прямая или обратная), а абсолютная величина — тесноту связи. Коэффициент, равный –1, определяет столь же жесткую связь, что и равный 1. В отсутствие связи коэффициент корреляции равен нулю.
На рис. 8.10 приведены примеры зависимостей и соответствующие им значения r. Мы рассмотрим два коэффициента корреляции.
Коэффициент корреляции Пирсона предназначен для описания линейной связи количественных признаков; как и регрессиГЛАВА онный анализ, он требует нормальности распределения. Когда говорят просто о «коэффициенте корреляции», почти всегда имеют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.
Коэффициент ранговой корреляции Спирмена можно использовать, когда связь нелинейна — и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.
О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки — это обычные числовые данные, такие, как рост, вес, температура. Значения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. Например, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И количественные, и порядковые признаки можно расположить по порядку — на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффициент ранговой корреляции Спирмена. С другими непараметрическими критериями мы познакомимся в гл. 10.
Коэффициент корреляции Пирсона И все же, почему для описания тесноты связи нельзя воспользоваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклонение. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и другие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэффициент корреляции останется прежним.
чаются. Получается, что связь роста с весом одна, а веса с ростом — другая. Асимметричность регрессионного анализа — вот что мешает непосредственно использовать его для характеристики силы связи. Коэффициент корреляции, хотя его идея вытекает из регрессионного анализа, свободен от этого недостатка. Приводим формулу.
где X и Y — средние значения переменных X и Y. Выражение для r «симметрично» —поменяв местами X и Y, мы получим ту же величину. Коэффициент корреляции принимает значения от –1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление связи. При r > 0 говорят о прямой корреляции (с увеличением одной переменной другая также возрастает), при r < 0 — об обратной (с увеличением одной переменной другая уменьшается). Вернемся к рис. 8.10. На рис. 8.10А изображена максимально сильная прямая корреляция: r = +1. На рис. 8.10Б — максимально сильная обратная корреляция: r = –1. На рис. 8.10В корреляция прямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Г какая-либо связь между признаками отсутствует: r = 0.
Возьмем пример с 10 марсианами, который мы уже рассматривали с точки зрения регрессионного анализа. Вычислим коэффициент корреляции. Исходные данные и промежуточные результаты вычислений приведены в табл. 8.3. Объем выборки n = 10, средний рост X = X n = 369 10 = 36,9 и вес Y = Y n = 103,8 10 = 10,38.
Находим (X– X )(Y– Y ) = 99,9, (X– X )2 = 224,8, (Y –Y )2 = 51,9.
Подставим полученные значения в формулу для коэффициента корреляции:
Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреляции следует считать большим, а какой незначительным, взгляниАНАЛИЗ ЗАВИСИМОСТЕЙ Таблица 8.3. Вычисление коэффициента корреляции те на табл. 8.4 — в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.
Связь регрессии и корреляции Все примеры коэффициентов корреляции (табл. 8.4) мы первоначально использовали для построения линий регрессии. Действительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления коэффициента корреляции, которые мы при этом получим, позволят лучше понять смысл этого показателя.
Вспомним, что уравнение регрессии строится так, чтобы минимизировать сумму квадратов отклонений от линии регрессии.
Таблица 8.4. Примеры корреляций Сила сжатия кисти и мышечная масса у 0,938 здоровых (рис. 8.9А) Сила сжатия кисти и мышечная масса, 0,581 объединенная группа (рис. 8.9Б) Обозначим эту минимальную сумму квадратов Sост (эту величину называют остаточной суммой квадратов). Сумму квадратов отклонений значений зависимой переменной Y от ее среднего Y обозначим Sобщ. Тогда:
Величина r2 называется коэффициентом детерминации — это просто квадрат коэффициента корреляции. Коэффициент детерминации показывает силу связи, но не ее направленность.
Из приведенной формулы видно, что если значения зависимой переменной лежат на прямой регрессии, то Sост = 0, и тем самым r = +1 или r = –1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Sост = Sобщ. Тогда r = 0.
Видно также, что коэффициент детерминации равен той доле общей дисперсии Sобщ, которая обусловлена или, как говорят, объясняется линейной регрессией*.
Остаточная сумма квадратов Sост связана с остаточной дисперсией s y| x соотношением Sост = (п – 2) s 2| x, а общая сумма квадy ратов Sобщ с дисперсией s 2 соотношением Sобщ = (п – 1) s 2. В таком случае Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии s 2| x s 2. Чем эта доля меньше, тем больше (по абсолютной веy y личине) коэффициент корреляции, и наоборот.
Мы убедились, что коэффициент корреляции отражает тесноту линейной связи переменных. Однако если речь идет о предсказании значения одной переменной по значению другой, на * Следует помнить, что в статистике слова «обусловлена» и «объясняется»
не обязательно означают причинную связь.
коэффициент корреляции не следует слишком полагаться. Например, данным на рис. 8.7 соответствует весьма высокий коэффициент корреляции (r = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказания довольно значительна. Поэтому даже при большом коэффициенте корреляции обязательно вычислите доверительную область значений.
И под конец приведем соотношение коэффициента корреляции и коэффициента наклона прямой регрессии b:
где b — коэффициент наклона прямой регрессии, sX и sY — стандартные отклонения переменных.
Если не брать во внимание случай sX = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.
Статистическая значимость корреляции Поскольку из b = 0 следует r = 0, гипотеза об отсутствии корреляции равнозначна гипотезе о нулевом наклоне прямой регрессии. Поэтому для оценки статистической значимости корреляции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:
Здесь число степеней свободы = n – 2. Однако если коэффициент корреляции уже вычислен, удобнее воспользоваться формулой:
Число степеней свободы здесь также = п – 2.
При внешнем несходстве двух формул для t, они тождественны. Действительно, из того, что следует Подставив значение s y| x в формулу для стандартной ошибки получим С другой стороны, поскольку имеем Теперь подставим выражения для sb и b в формулу Животный жир и рак молочной железы В опытах на лабораторных животных показано, что высокое содержание животного жира в рационе повышает риск рака молочной железы. Наблюдается ли эта зависимость у людей? К.
Кэррол* собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молочной железы оказался равен 0,90. Оценим статистическую значимость корреляции.
Критическое значение t0,001 при числе степеней свободы = 39 – 2 = 37 равно 3,574, то есть меньше полученного нами. Таким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жиров и смертностью от рака молочной железы.
Теперь проверим, связана ли смертность с потреблением растительных жиров? Соответствующие данные приведены на рис.
8.12Б. Коэффициент корреляции равен 0,15. Тогда Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.
Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые переменные могут зависеть от какой-то третьей. В обсервационК. К. Carroll. Experimental evidence of dietary factors and hormone-dependent cancers. Cancer Res., 35:3375—3383,1975.
Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населения в разных странах. А. Потребление животных жиров. Б. Потребление растительных жиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чего не скажешь о связи с потреблением растительных жиров.
ном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя*. Однако экспериментальные данные, о которых мы упомянули выше, — сильный аргумент в пользу именно причинно-следственной связи.
Вообще истолкование результатов регрессионного и корреляционного анализа зависит от того, в каком исследовании были получены данные — обсервационном или экспериментальном.
Если мы обнаружили связь переменных в обсервационном исследовании, то это не значит, что одна из них влияет на другую.
Возможно, их согласованные изменения — результат действия какого-то неизвестного нам фактора. В экспериментальном исследовании, произвольно меняя одну из переменных, мы можем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом случае. В самом деле, трудно менять только одну переменную. Увеличивая содержание жира в рационе, мы либо увеличиваем общую калорийность, либо снижаем содержание белков и углеводов. Кто поручится, что канцерогенное действие оказывает именно жир, а не дисбаланс питательных веществ?
КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА
Расчет коэффициента корреляции возможен при тех же условиях, что и регрессионный анализ. Это прежде всего линейность связи переменных и нормальность распределения. Эти условия выполняются далеко не всегда. Кроме того, в клинических исследованиях мы часто имеем дело с порядковыми признаками, а к ним ни регрессионный анализ, ни расчет коэффициента корНапример, исследования показывают, что заболеваемость раком молочной железы связана с уровнем доходов, числом автомобилей и телевизоров в семье. (В. S. Drasar, D. Irving. Environmental factors and cancer of the colon and breast. Br. J. Cancer, 27:167—172, 1973.) Ho значит ли это, что, покупая новый автомобиль, домашняя хозяйка увеличивает риск заболеть раком молочной железы? На основании таких данных мы вправе только предположить, что какой-то фактор, связанный с уровнем жизни, влияет на риск рака молочной железы, но не можем точно указать этот фактор.реляци, разумеется, неприменим. В подобных случаях следует воспользоваться коэффициентом ранговой корреляции Спирмена*. Это непараметрический метод — он не требует нормальности распределения; не требует он и линейной зависимости, его можно применять как к количественным, так и к порядковым признакам**.
Идея коэффициента ранговой корреляции Спирмена (его обозначают rs,) проста. Нужно упорядочить данные по возрастанию и заменить реальные значения их рангами. Рангом значения называется его номер в упорядоченном ряду. Например, в ряду 1,4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент корреляции Пирсона. Это и будет коэффициент ранговой корреляции Спирмена. Его можно рассчитать и проще:
где d — разность рангов для каждого члена выборки.
Как быть, если в ряду встретятся одинаковые значения? Скажем, в приведенном примере это две восьмерки. Им следует * Упомянем также коэффициент ранговой корреляции Кендалла, обозначаемый. В отличие от коэффициента ранговой корреляции Спирмена он может быть обобщен для случая нескольких независимых переменных. Заключения, основанные на использовании обоих коэффициентов, одинаковы, хотя числовые значения коэффициентов не совпадают. О коэффициенте ранговой корреляции Кендалла можно прочесть в книге: S. Siegel, N. J. Castellan Non-parametric statistics for the behavioral sciences (2d ed.). McGraw-Hill, New York, 1988.
** Если параметрические методы, требующие нормального распределения, применить к данным с иным типом рапределения, это приведет к ошибочному заключению. Напротив, непараметрические методы можно смело применять и в случае нормального распределения. Однако тогда чувствительность их будет несколько ниже чувствительности параметрических методов. Что касается коэффициента ранговой корреляции Спирмена, то он и в этом случае проигрывает коэффициенту корреляции Пирсона весьма незначительно.
Таблица 8.5. Вычисление коэффициента ранговой корреляции Спирмена Значение, см Ранг Значение, г Ранг Разность рангов присвоить один и тот же ранг, равный среднему занимаемых ими мест: (3 + 4)/2 = 3,5. Рангом стоящего за ними числа будет 5.
Посмотрим, как вычислить rs для знакомой нам выборки из 10 марсиан (табл. 8.5). Вначале упорядочим по возрастанию значения каждой из переменных. Ранг 1 присваивается меньшему значению, 10 — большему. Упорядочим марсиан по росту. На 5-м и 6-м месте в нем стоят одинаковые значения. Присвоим им общий ранг (5 + 6)/2 = 5,5. Затем упорядочим марсиан по весу и для каждого марсианина вычислим разность рангов роста и веса.
Наконец, вычислим коэффициент ранговой корреляции Спирмена:
Обратимся к таблице 8.6, где приведены критические значения коэффициента ранговой корреляции Спирмена для разных уровней значимости и объемов выборки. Критическое значение для уровня значимости 0,001 и объема выборки n = равно 0,903, что меньше полученного нами. Тем самым, корреляция статистически значима (Р < 0,001).
Таблица 8.6. Критические значения коэффициента ранговой корреляции Спирмена Таблица 8.6. Окончание Если объем выборки больше 50, нужно применить критерий Стыодента:
с числом степеней свободы = n – 2.
В данном случае связь веса и роста можно было установить и без помощи коэффициента ранговой корреляции Спирмена.
Применение обычного коэффициента корреляции, как мы видели, приводит к тем же результатам.
Сколько лабораторных анализов нужно врачу?
В первые дни пребывания в больнице больному обычно делают множество дорогостоящих анализов. Все ли из них необходимы?
Шредер с коллегами* попытались, анализируя работу 21 врача, выяснить, существует ли связь между квалификацией врача и стоимостью необходимых ему анализов. Прежде всего, специальная комиссия оценила квалификацию каждого врача. Каждому из врачей присвоили ранг от 1 (лучшая квалификация) до * S. A. Schroeder, A. Schliftman, Т. Е. Piemine. Variation among physicians in use of laboratory tests: relation to quality of care. Med. Care, 12:
709–713, 1974.
21 (худшая квалификация). Затем была подсчитана средняя стоимость анализов, которые потребовались каждому из врачей за первые 3 суток пребывания больного в клинике. Эти данные упорядочили по возрастанию; наименьшей стоимости присвоили ранг 1, наибольшей — 21.
В результате каждому врачу была присвоена пара рангов — ранг по шкале квалификации и ранг по шкале расходов. Эти пары представлены на рис. 8.13. Остается выяснить связь между квалификацией врача и величиной расходов на необходимые ему анализы. Вычислив коэффициент Спирмена, получим всего лишь rs = –0,13. Абсолютная величина rs оказалась меньше критического значения даже при уровне значимости = 0, (критическое значение r0,05 = 0,435).
Однако значит ли это, что не существует связи между квалификацией врача и затратами на анализы? Нет. Связь существует, но она не линейная. Присмотревшись к рис. 8.13, можно заметить, что самыми дешевыми анализы были у лучших и... худших врачей. И тем и другим, чтобы уверенно судить о болезни, не требуется много анализов. Причем, похоже, большей уверенностью отличаются именно худшие специалисты.
Но почему эта связь не была уловлена коэффициентом корреляции? Исключительно из-за ее нелинейной формы. Ни один из коэффициентов корреляции не сможет уловить зависимость, график которой — перевернутая U-образная кривая с рис. 8.13.
Этот пример показьюает, что, прежде чем применять какиелибо методы анализа связей, следует примерно определить, какой может быть форма зависимости. Лучший способ для этого — просто нарисовать график, подобный изображенному на рис. 8.13.
ЧУВСТВИТЕЛЬНОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ
Как уже говорилось, из статистической значимости коэффициента корреляции вытекает статистическая значимость коэффициента наклона. Ограничимся поэтому вычислением чувствительности коэффициента корреляции.Можно показать, что величина Рис. 8.13. А. Квалификация врача и стоимость анализов, которые он назначает больному в первые 3 дня госпитализации. Коэффициент ранговой корреляции Спирмена — всего лишь –0,13. Можно было бы заключить, что стоимость анализов от квалификации никак не зависит. Б. Приглядевшись к данным повнимательнее, можно заметить, что зависимость на самом деле есть, только не линейная, а похожая на перевернутую букву U. Расходы на анализы выше у врачей средней квалификации, у наиболее и наименее квалифицированных врачей расходы ниже.
имеет нормальное распределение со стандартным отклонением Тогда величина в отсутствие корреляции имеет стандартное нормальное распределение со средним, равным нулю. Обозначим истинное значение коэффициента корреляции (греческая «ро»). Тогда средним значением z будет Z Z, где Найдем, какой должна быть чувствительность, чтобы по выборке объемом 10 при уровне значимости 0,05 обнаружить корреляцию, не меньшую 0,9. На рис. 8.14 приведены два распределения z — для нулевого коэффициента корреляции и истинного, равного. (Заметьте, насколько этот этот рисунок похож на рис. 6.7.) Чувствительность равна площади под истинной кривой распределения z справа от критического значения z.
Вычислим Уровню значимости = 0,05 соответствует критическое значение z = 1,960. Центром распределения z является Z Z = Рис. 8.14. Чувствительность выявления корреляции = 0,9 при объеме выборки n = и уровне значимости = 0,05.
стоит на 1,960 – 3,894 = –1,934 стандартных отклонения. Из табл.
6.4 находим, что площадь части стандартного нормального распределения, расположенной правее –1,934 стандартного отклонения от центра, составляет примерно 0,97. То есть искомая чувствительность равна 97%.
Итак, чувствительность 1 –, необходимая для обнаружения корреляции, не меньшей, при уровне значимости и при объеме выборки п равна площади под кривой стандартного нормального распределения правее точки Эта формула для нахождения чувствительности по известному объему выборки. Если нужно найти объем выборки, при котором достигалась бы чувствительность 1 –, то, разрешив это уравнение относительно п, получим:
СРАВНЕНИЕ ДВУХ СПОСОБОВ ИЗМЕРЕНИЯ: МЕТОД
БЛЭНДА—АЛТМАНА
Нередко требуется сравнить результаты измерений, выполненных двумя методами, ни один из которых не является абсолютно надежным. Например, некий гемодинамический показатель определяли непрямым, неинвазивным, методом. Допустим, изобретен новый метод, также непрямой. Естественно выяснить, согласуются ли результаты измерений, выполненных старым и новым методами. Или похожий вопрос — насколько согласованы результаты повторных измерений, выполненных одним и тем же методом.Итак, с помощью двух методов получены две серии измерений. Казалось бы, ничто не мешает применить регрессионный анализ или рассчитать коэффициент корреляции. Увы, эти, на первый взгляд, очевидные действия могут привести к ложными выводами.
Регрессионный анализ неприменим уже потому, что его результаты зависят от того, какую переменную считать независимой, а какую зависимой. Тут следует подчеркнуть отличие задачи сравнения двух методов измерения от задачи калибровки, в которой приближенные измерения сравниваются с некоторым эталоном. Типичный пример калибровки: приготовив ряд растворов известной концентрации, измерить ее исследуемым методом. Здесь регрессионный анализ вполне применим, поскольку эталон — достоверно известная концентрация — очевидным образом и является независимой переменной. Напротив, при сравнении результатов двух приближенных методов никакого эталона нет.
Что может дать коэффициент корреляции? Положим, он статистически значимо отличается от нуля. Но ценен ли этот факт?
Нет, ведь проверялась корреляция измерений одной и той же величины. В этом случае удивления было бы достойно как раз отсутствие значимой корреляции, говорящее о том, что результаты, как минимум, одного из методов нимало не схожи с истинными значениями измеряемого признака. Это практически исключено. Кроме того, как мы видели, даже весьма высоким коАНАЛИЗ ЗАВИСИМОСТЕЙ эффициентам корреляции соответствует довольно значительная неопределенность предсказания зависимой переменной.
Д. Блэнд и Дж. Алтман предложили описательный метод оценки согласованности измерений, выполненных двумя способами*. Идея метода очень проста. Для каждой — выполненной одним и другим способами — пары измерений вычислим их разность. Найдем среднюю величину и стандартное отклонение разности. Средняя разность характеризует систематическое расхождение, а стандартное отклонение — степень разброса результатов. Далее, если в качестве оценки измеряемого признака взять среднее значение пары измерений, то можно определить, зависит ли расхождение от величины признака.
Последнее станет понятнее после того, как мы разберем пример применения метода Блэнда—Алтмана.
Два способа оценки митральной регургитации Вспомним схему кровообращения. Из правого желудочка кровь поступает в легкие, где насыщается кислородом. Из легких кровь попадает в левое предсердие, затем — в левый желудочек. Отсюда кровь перекачивается по всему телу, снабжая органы кислородом, после чего попадает в правое предсердие и вновь в правый желудочек. Митральный клапан, расположенный между левым предсердием и левым желудочком, при сокращении желудочка закрывается и преграждает крови путь обратно в предсердие.
При митральной недостаточности возникает так называемая митральная регургитация: часть крови при сокращении левого желудочка выбрасывается в предсердие. В результате легкие переполняются кровью, что затрудняет их работу. Если митральная регургитация слишком велика, клапан необходимо заменять искусственным, — вот почему ее количественная оценка чрезвычайно важна. Такой оценкой служит фракция регургитации — доля крови, которая при каждом сокращении выбрасываБолее подробное изложение этой процедуры можно найти в статьях:
D. G. Altman and J. M. Bland. Measurement in medicine: the analysis of method comparison studies. Statistician, 32:307—317,1983 и J. M. Bland and D. G. Altman. Statistical methods for assessing agreement between two measures of clinical measurement. Lancet, 1(8476):307—310, 1986.
Таблица 8.7. Фракция митральной регургитации по данным катетеризации сердца и допплеровского исследования исследование Катетеризация Разность значение ется из левого желудочка в левое предсердие. В норме фракция регургитации равна нулю; чем тяжелее митральная недостаточность, тем более фракция регургитации приближается к единице.
Фракцию регургитации можно определить с помощью катетеризации сердца. В левый желудочек вводят катетер, а через него — рентгеноконтрастный препарат. Наблюдая за его распространением, можно определить, какая доля крови выбрасывается в левое предсердие. Описанный способ трудно назвать приятным, дешевым и безопасным.
Рис. 8.15. А. Фракция митральной регургитации при измерении прямым методом и по данным допплеровского исследования. Б. Сравнение результатов по методу Блэнда—Алтмана.
гургитации с помощью допплеровского исследования*. Этот способ значительно проще и вполне безопасен. Насколько согласуются оценки, полученные двумя способами? Фракцию регургитации обоими способами определили у 21 человека. Результаты приведены на рис. 8.15А и в табл. 8.7. Коэффициент корреляции между измерениями, выполненными обоими способами, составил 0,89. Высокое значение коэффициента корреляции говорит о тесной линейной связи, однако для оценки согласованности этого недостаточно.
Помимо самих измерений в табл. 8.7 приведены усредненные по каждому больному значения фракции регургитации и разности этих долей. На рис. 8.15Б изображены разности долей для каждого усредненного значения. Такое представление позволяет сделать ряд выводов. Во-первых, средняя разность между измерениями равна всего лишь –0,03, что говорит об отсутствии систематического расхождения. Во-вторых, стандартное отклонение разностей составило 0,12, что невелико по сравнению с самими значениями. В-третьих, отсутствует зависимость разности измерений от величины фракции регургитации. Таким образом, измерения, полученные обоими способами, хорошо согласуются друг с другом.
ЗАКЛЮЧЕНИЕ
Мы рассмотрели методы, предназначенные для оценки связи между двумя признаками. Успех применения этих методов определяется тем, насколько математическая модель, лежащая в их основе, соответствует действительности. Особенно важна форма зависимости — она должна быть линейной. Поэтому, перед тем как приступить к расчетам, нанесите данные на график — это поможет вам правильно выбрать статистический метод (или отказаться от применения любого из них).* A. I. MacIsaac, I. G. McDonald, R. L. G. Kirsner, S. A. Graham, R. W. Gill Quantification of mitral regurgitation by integrated Doppler backscattei power.
J. Am. Coll. Cardioi, 24:690–695, 1994.
ЗАДАЧИ
8.1. Постройте графики для приведенных наборов данных.Найдите для линии регрессии и коэффициенты корреляции.
X Y X Y X Y
Нанесите данные и прямые регрессии на графики. Что в этих трех случаях общего, в чем различия?8.2. Постройте графики для двух наборов данных. Найдите для каждого линию регрессии и коэффициент корреляции.
Нанесите полученные прямые регрессии на графики с исходными данными. Обсудите результаты.
8.3. На рис. 8.16 и в таблице под ним представлены результаты четырех экспериментов. Вычислите для каждого эксперимента коэффициенты линейной регрессии и коэффициент корреляции. В чем сходство и различие результатов экспериментов? Проверьте, выполняются ли условия применимости регрессионного анализа.
8.4. Исследуя проницаемость сосудов сетчатки, Дж. Фишман и соавт. (G. A. Fishman et al. Blood-retinal barrier function in patients with cone or cone-rod dystrophy. Arch. Ophthalmoi, 104:545—548, 1986) решили выяснить, связан ли этот показатель с электрической активностью сетчатки. Позволяют ли полученные данные говорить о существовании связи?
Проницаемость сосудов Электрическая активность 8.5. Наиболее точную оценку объема левого желудочка дает рентгеноконтрастная вентрикулография — метод, требующий катетеризации сердца, а потому дорогой и небезопасный. Продолжается поиск методов, не требующих катетеризации. Р. Слуцкий* и соавт. (R. Slutsky et al. Left ventricular volumes by gated equilibrium * Роберт Слуцкий был обвинен в подтасовке данных, и ряд его работ объявлен фальсификацией. Принадлежит ли цитируемая статья к их числу, мне неизвестно. Как бы то ни было, мы рассматриваем данные исключительно в учебных целях. Интересующиеся судьбой работ Слуцкого могут обратиться в Калифорнийский университет в Сан-Диего.
Рис. 8.16. К задаче 8.3.
Эксперимент А Эксперимент Б Эксперимент В Эксперимент Г
X Y X Y X Y X Y
radionuclide angiography method. Circulation, 60:556—564, 1979) исследовали метод оценки объема левого желудочка по данным изотопной вентрикулографии с внутривенным введением изотопа.Конечно-диастолический объем Конечно-систолический объем Изотопная Рентгенокон- Изотопная Рентгеноконвентрикуло- трастная вентри- вентрикуло- трастная вентриграфия кулография графия кулография Хорошо ли согласуются результаты?
8.6. Азотистый баланс — разность между количеством азота, который попадает в организм с пищей, и количеством азота, выводимого из организма, — важный показатель полноценности питания. Отрицательный азотистый баланс свидетельствует о том, что организм не получает достаточно белка. Нормы суточного потребления белка, рекомендуемые Всемирной организацией здравоохранения и Японским комитетом питания, рассчитаны главным образом на мужчин. Целью исследования К. Канеко и Г. Койке (К. Kaneko, G. Koike. Utilization and requirement of egg protein in Japanese women. J. Nutr. Sci. Vitaminol.
(Tokyo), 31:43—52, 1985) было определить количество белка в рационе, необходимое для поддержания нулевого азотистого баланса у японских женщин. Связь суточного потребления азота и азотистого баланса определили при калорийности суточного рациона 37 и 33 ккал/кг. Были получены следующие данные.
Калорийность суточного рациона Потребление Азотистый Потребление Азотистый азота, мг/кг баланс, мг/кг азота, мг/кг баланс, мг/кг Найдите уравнения регрессии для обеих групп. Изобразите на одном рисунке результаты наблюдений и линии регрессии.
Является ли различие межцу линиями регрессии статистически значимым? Для группы 37 ккал/кг найдите величину потребления азота, обеспечивающую нулевой азотистый баланс.
8.7. В. Ернайчик (W. Jernajczyk. Latency of eye movement and other REM sleep parameters in bipolar depression. Biol. Psychiatry, 21:465—472, 1986), изучая физиологию сна при депрессии, столкнулся с необходимостью оценки тяжести этого заболевания.
Шкала депрессии Бека основана на опроснике, заполняемом самим больным. Она проста в применении, однако специфичность ее недостаточна. Применение шкалы депрессии Гамильтона более сложно, поскольку требует участия врача, но именно эта шкала дает наиболее точные результаты. Тем не менее автор был склонен использовать шкалу Бека. В самом деле, если ее специфичность недостаточна для диагностики, то это еще не говорит о том, что ее нельзя использовать для оценки тяжести депрессии у больных с уже установленным диагнозом. Сравнив оценки по обеим шкалам у 10 больных, В. Ернайчик получил следующие результаты.
Насколько согласованы оценки?
8.8. Полоскание с хлоргексидином предотвращает образование зубного налета, но имеет вкус, который трудно назвать приятным, кроме того, оно окрашивает зубы. Полоскание на основе хлорида аммония приятнее на вкус, не окрашивает зубы;
считается, однако, что оно менее эффективно. Ф. Эшли и соавт.
(F. P. Ashley et al. Effect of a 0,1% cetylpyridinium chloride mouthrinse on the accumulation and biochemical composition of dental plaque in young adults. Caries Res., 18:465—471, 1984) сравнили эффективность двух видов полоскания. Участники исследования полоскали рот одним из растворов, после чего зубной налет отделяли и взвешивали. Опыт проводился 48 часов: за меньший срок налет не успевал накопиться в количестве, достаточном для точного взвешивания. Исследователей больше интересовало образование налета за 24 часа, поэтому в середине опыта налет оценивали визуально по специально разработанной шкале. Чтобы оценить точность визуальных оценок, их проводили и на 48-м часу и сравнивали с результатами взвешивания. Результаты сопоставления двух способов оценки зубного налета представлены в таблице.
Визуальная оценка зубного Сухой вес Насколько, судя по этим данным, можно полагаться на визуальный способ оценки?
8.9. Нормальный эритроцит легко меняет форму и проходит через мельчайшие сосуды. При генетическом дефекте -цепи гемоглобин полимеризуется, в результате форма части эритроцитов меняется, они становятся ригидными, закупоривают сосуды и разрушаются. Такова в сильно упрощенном виде сущность серповидноклеточной анемии — тяжелого заболевания с многообразными проявлениями. Наиболее мучительны болевые кризы. Они развиваются, когда под влиянием гипоксии происходит массовая полимеризация гемоглобина, деформация эритроцитов и закупорка сосудов. Существует предположение, что дело не только в деформации и ригидности эритроцитов — определенную роль играет также повышенная склонность эритроцитов к адгезии — прилипанию к эндотелию (внутренней выстилке сосудов). Р. Хебелл и соавт. (R. Hebbel et al. Erythrocyte adherence to endothelium in sickle-cell anemia: a possible determinant of disease severity. N. Engl. J. Med., 302:992—995, 1980) решили выяснить, есть ли связь между тяжестью заболевания и адгезивностью эритроцитов. Прежде всего необходимо было разработать способы оценки этих признаков.
Для оценки тяжести серповидноклеточной анемии была построена специальная шкала.
Ежегодное число болевых кризов, требующих госпитализации или применения наркотических анальгетиков Поражение костей (инфаркты, асептический некроз) Баллы за отдельные признаки суммировали, таким образом казедый больной получал от 0 до 13 баллов и более (по 2 балла дается за каждый инфаркт или асептический некроз кости).
Для оценки адгезивности эритроцитов известное их количество наносили на культуру эндотелия, инкубировали и затем смывали. Подсчитав число смытых эритроцитов, определяли число прилипших. Одновременно такой же опыт делали с нормальными эритроцитами. Результат выражали в виде коэффициента адгезии: отношения числа прилипших эритроцитов больного к числу прилипших эритроцитов здорового.
Было обследовано 20 больных. У каждого оценили тяжесть ные гипотезу о связи между адгезивностью эритроцитов и тяжестью серповидноклеточной анемии?
Тяжесть заболевания, баллы Коэффициент адгезии 8.10. Какова вероятность выявить коэффициент корреляции не меньше 0,6 при объеме выборки 39 и уровне значимости 5%?
8.11. Каков должен быть объем выборки, чтобы с вероятностью 80% выявить коэффициент корреляции не меньше 0, при уровне значимости 5%.
8.12. Ожирение предрасполагает к развитию инсулинонезависимого сахарного диабета. При этом играет роль тип ожирения: наиболее опасным считается так называемое ожирение по мужскому типу, когда жир откладывается преимущественно на туловище (при ожирении по женскому типу жир откладывается главным образом на бедрах и ягодицах). Однако далеко не у всех людей с ожирением по мужскому типу развивается инсулинеГЛАВА независимый сахарный диабет. Необходимо действие дополнительного фактора, предположительно генетического. Т. Эндр и соавт. (Т. Endre et al. Insulin resistance is coupled to low physical fitness in normotensive men with a family history of hypertension.
J. Hypertension, 12:81—88, 1994) исследовали связь чувствительности к инсулину (ее снижение лежит в основе инсулинонезависимого сахарного диабета) и отношения объема талии к объему бедра (показатель типа ожирения). Индекс чувствительности к инсулину рассчитывали как логарифм снижения уровня глюкозы плазмы после введения инсулина. В исследование вошло 15 мужчин, у которых не было родственников первой степени с артериальной гипертонией (1 -я группа) и 15 мужчин, у которых такие родственники были (2-я группа).
Отношение Индекс чувстви- Отношение Индекс чувствиобъема талии к тельности к объема талии к тельности к Одинакова ли связь показателей в обеих группах?
Анализ повторных измерений В гл. 3—5 мы рассмотрели методы сравнения данных, полученных на нескольких группах. В типичном случае мы сравнивали группу получавших препарат с группой получавших плацебо.
Об эффективности препарата судили по статистической значимости различий между этими группами. Если разброс в группах велик, эффект лечения «тонет» в нем, и мы не выявляем реально существующих различий. Существует другой подход. В нем вместо двух групп нужна одна, а сравнению подлежит состояние каждого больного до и после лечения. Методически такой подход достаточно труден — ведь нужно быть уверенным, что изменение состояния не обусловлено естественным течением болезни. Тем не менее учет изменения состояния у каждого больного в отдельности, нивелируя влияние разброса данных, значительно повышает чувствительность статистических критериев.
Выявить изменение, располагая парами наблюдений, позволяет парный критерий Стьюдента. С него мы и начнем, после чего перейдем к сравнению более чем двух состояний больного.
Для сравнения нескольких измерений, выполненных у каждого из больных, предназначен дисперсионный анализ повторных измерений, В нем разброс результатов измерений разлагается на три составляющие: разброс значений между больными, в реакциях одного и того же больного и, наконец, между методами лечения. Как обычно, рассматриваемые процедуры основаны на предположении о нормальном распределении измеряемого признака. (В гл. 10 излагаются не требующие этого ранговые методы.) И, завершая рассмотрение методов анализа повторных измерений, мы разберем критерий Мак-Нимара. Он позволяет выявить изменения не числовых, а качественных признаков, представленные таблицами сопряженности.
ПАРНЫЙ КРИТЕРИЙ СТЬЮДЕНТА
Раньше, чтобы оценить эффективность лечения, мы выбирали две группы. Одна проходила лечение, другая нет. Затем мы вычисляли среднее по каждой группе и определяли статистическую значимость различия этих средних. Теперь мы набираем одну группу, измеряем у каждого больного значение признака до и после лечения и вычисляем изменение признака. Затем находим среднее изменение и проверяем статистическую значимость его отличия от нуля.Такой подход более точно улавливает различия, вызванные лечением, нежели сравнение двух независимых групп, «зашумленное» разбросом значений у разных больных.
Почему такой подход повышает чувствительность критерия, легко понять из следующего примера. На рис. 9.1 А и 9.1 Б представлены одни и те же данные. Различие в том, как они получены. Данные на рис. 9.1А получены в результате наблюдения за двумя независимыми группами: левый столбец образуют данные о суточном диурезе больных, получавших плацебо, правый — получавших препарат. Напротив, оба столбца на рис. 9.1Б относятся к одним и тем же больным, левый содержит данные о величине диуреза до приема препарата, правый — после приема. Отрезками соединены пары точек, относящиеся к одному больному.
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Рис. 9.1. А. Суточный диурез у 10 человек после приема плацебо и у других 10 человек после приема препарата (предполагаемого диуретика). На основании таких данных нельзя сделать вывод о наличии диуретического эффекта. Б. Суточный диурез у 10 человек после приема плацебо и у них же— после приема препарата. Диуретический эффект налицо. Обратите внимание, что положение точек на обоих графиках одинаково.Учет изменения диуреза у каждого обследованного в отдельности позволил выявить эффект, который был скрыт, пока мы рассматривали группы в целом.
Глядя на рис. 9.1 А, никак не скажешь, что препарат оказывает диуретический эффект. Разброс данных слишком велик по сравнению со скромной тенденцией к увеличению диуреза.
Вычислив критерий Стьюдента, получим t = 1,33. Это меньше t0,05 =2,101 — критического значения при уровне значимости 0, и числе степеней свободы = 2(n – 1) = 2(10 – 1) = 18. Тем самым, статистически значимых различий не выявлено.
Казалось бы, результат в случае повторных измерений (рис.
9.1Б) будет таким же. Ведь положение точек на рисунках совпадает. Однако теперь мы располагаем дополнительной информацией: мы знаем, как изменился диурез у каждого больноГЛАВА го. Судя по наклону отрезков, препарат увеличил диурез у 8 из 10 больных. А это достаточно веский довод в пользу того, что препарат — диуретик.
Перейдем к количественной оценке этого впечатления. Оценить статистическую значимость изменения позволяет парный критерий Стьюдента. Нулевая гипотеза будет состоять в том, что среднее изменение равно нулю.
В общем случае критерий Стьюдента можно представить в таком виде:
Оценка параметра Истинное значение параметра Интересующий нас параметр — истинное среднее изменение диуреза — обозначим. Его оценкой является наблюдаемое (выборочное) среднее изменение диуреза d. Выборочное стандартное отклонение изменения диуреза составляет а стандартная ошибка Таким образом, критерий Стьюдента принимает вид:
При условии справедливости нулевой гипотезы = 0. Подставив это значение в формулу, получим:
Осталось сравнить полученное значение с критическим для выбранного уровня значимости и числа степеней свободы = n – l.
ющего признака у каждого больного, для оценки статистической значимости этих изменений нужно сделать следующее.
• Вычислить величину изменения для каждого больного d.
• Вычислить среднее этих изменений d и его стандартную ошибку sd.
• Вычислить значение критерия Стьюдента t = d sd.
• Сравнить полученное значение t с критическим для числа степеней свободы = п – 1.
Если обычный критерий Стьюдента требует нормального распределения самих данных, то парный критерий Стьюдента требует нормального распределения их изменений.
Курение и функция тромбоцитов Известно, что курение способствует развитию ишемический болезни сердца. Известно также, что определенную роль в патогенезе этого заболевания играют тромбоциты. Связан ли эффект курения с влиянием на тромбоциты? В поисках ответа на этот вопрос П. Левин исследовал влияние курения на функцию тромбоцитов*. Одним из показателей, который интересовал исследователя, была агрегация тромбоцитов — доля тромбоцитов, слипшихся под воздействием аденозиндифосфата — вещества, стимулирующего агрегацию.
Одиннадцати добровольцам было предложено выкурить по сигарете. Перед курением и сразу после него были взяты пробы крови и определена агрегация тромбоцитов.
Результаты представлены на рис. 92. Левый столбик образовали наблюдения до выкуривания сигареты, правый — после.
Отрезками соединены наблюдения, относящиеся к одному добровольцу. Когда из одной точки на рисунке выходит два отрезка, это значит, что данный результат наблюдался у двух больных.
Агрегация тромбоцитов до курения составила в среднем 43,1%, после курения — 53,5%. Стандартные отклонения равны 15,9 и 18,7% соответственно. Уже при взгляде на эти цифры ясно, что о статистической значимости различий вряд ли может идти речь.
* P. H. Levine. An acute effect of cigarette smoking on platelet function: a possible link between smoking and arterial thrombosis. Circulation, 48: 619-623, 1973.
Рис. 9.2. Агрегация тромбоцитов до и после выкуривания сигареты. Агрегация тромбоцитов повысилась, но значит ли это, что она повысилась от табака?
Действительно, расчет критерия Стьюдента в том виде, в каком он был изложен в гл. 4, дает t = 1,405, что меньше критического значения для 5% уровня значимости и 20 степеней свободы. При сравнении двух независимых групп следовало бы признать влияние курения статистически не значимым. Однако в данном случае наблюдалась одна группа, причем данные позволяют вычислить изменения для каждого ее члена.
ключением одного, агрегация тромбоцитов после курения повысилась. Выпишем изменения у каждого из обследованных.
Получим 2, 4, 10, 12, 16, 15, 4, 27, 9, –1 и 15%. Средняя величина изменения d = 10,3%. Стандартное отклонение величины изменения sd = 8% и стандартная ошибка sd = 8,0 = 11 = 2, 41%. Тогда:
В табл. 4.1 находим критическое значение t0,01 для уровня значимости 0,01 и = п – 1 степеней свободы. Оно равно 3,169, то есть меньше полученного нами. Таким образом, повышение агрегации тромбоцитов после курения статистически значимо.
На этом выводе Левин не остановился. Если курение повышает агрегацию тромбоцитов, то значит ли это, что повышение вызвано курением табака! Нет, не значит. С тем же успехом можно признать причиной вдыхание окиси углерода, выделяющейся при горении сигареты. Не менее веской причиной будет и волнение, испытываемое участниками эксперимента. Имеющиеся данные не позволяют отвергнуть такие объяснения. Значит, нужно провести эксперименты, совпадающие с исходным во всем, кроме интересующего нас фактора — в данном случае курения сигарет с табаком. Именно это и сделал Левин. Добровольцам пришлось выкуривать не только обычные, но и безникотиновые сигареты из салатных листьев. Кроме того, им предлагали подержать в зубах незажженную сигарету, изображая курение.
Результаты приведены на рис. 9.3 вместе с данными с рис. 9.2.
Оказалось, что в отличие от обычной сигареты незажженная или безникотиновая сигарета не вызывает повышения агрегации тромбоцитов.
Разобранное исследование служит иллюстрацией следующего правила.
Единственным различием между контрольной и экспериментальной группой должно быть воздействие исследуемого, и никакого другого, фактора.
Чем лучше удается вычленить действие изучаемого фактора, тем достовернее выводы эксперимента. Так, рассмотренный эксГЛАВА Рис. 9.3. Агрегация тромбоцитов до и после изображения курения с незажженной сигаретой, выкуривания сигареты с салатными листьями, выкуривания сигареты с табаком.
Похоже, что именно табак, а не сам факт курения и не дым вызывает повышение агрегации тромбоцитов.
перимент доказал, что повышение агрегации тромбоцитов вызвано не просто курением, а именно курением табака.
Затронув вопрос о планировании эксперимента, стоит упомянуть еще об одной важной проблеме. Кроме необходимости выделить исследуемый фактор и тем самым исключить неоднозначное толкование результатов эксперимента, нужно избежать искажений, привносимых участниками эксперимента. В медиАНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ цинских экспериментах человек не только оказывает воздействие и наблюдает его результат — он присутствует и как объект наблюдений. Но люди пристрастны и внушаемы. Пристрастность экспериментатора может повлечь неосознанную подтасовку. А лаборантке, поборнице некурения, не составит труда чуть-чуть завысить долю склеившихся тромбоцитов в крови курилыцика и чуть-чуть занизить ее для некурящего.
При проведении клинических испытаний на первый план выходит роль больного. Особенно велика она, если критерием эффективности служат его собственные оценки (боль уменьшилась — усилилась, стал спать лучше — хуже). Вера больного в новый метод лечения — могучий (и благотворный) фактор, однако объективной оценке он мешает. Вернемся к исследованиям агрегации тромбоцитов. Как в данном случае на результат эксперимента может повлиять испытуемый? Человек не может усилием воли изменять состояние своих тромбоцитов, однако, обратившись еще раз к рис. 9.3, можно заметить, что у добровольцев, которым только еще предстояло выкурить (возможно, безвредную салатную) сигарету, агрегация тромбоцитов была заметно выше, чем у тех, которым было известно, что им придется лишь подержать сигарету в зубах. Следовательно, не только субъективные оценки, но и объективные показатели могут изменяться под влиянием отношения испытуемого к экспериментальному воздействию.
Чтобы исключить влияние субъективного фактора, Левин применил двойной слепой метод. Суть метода в том, что экспериментальное воздействие не известно ни испытуемым, ни наблюдателям, оценивающим его результаты. В эксперименте Левина ни исследователям, ни добровольцам не было известно содержимое сигарет, а производившим анализ крови лаборантам — курил ли доброволец, и если да, то что именно.
В действительности исследование Левина не было полностью двойным слепым (о чем свидетельствуют различия исходной агрегации тромбоцитов). Действительно, даже если о содержимом сигареты добровольцам не сообщали, они могли легко определить его на вкус.
Предвидя подобные трудности, исследование часто заранее планируют как простое слепое. В этом случае одна из сторон (обычно наблюдатель) осведомлена о характере экспериментального воздействия, а другая (обычно испытуемый) — нет.
Наконец, характер исследования может быть таков, что ни одну из сторон нельзя держать в полном неведении и обе располагают частью информации — в таких случаях говорят о частично слепом исследовании.
Завершая обсуждение парного критерия Стьюдента, повторим, что он используется для проверки эффективности одного метода лечения в случае, когда имеются данные о состоянии каждого участника до и после лечения. Когда же требуется сравнить эффективность нескольких методов лечения, испытанных на одних и тех же больных, применяют дисперсионный анализ повторных наблюдений. Для его изложения нам потребуется пересмотреть тот вариант дисперсионного анализа, который был изложен в гл. 3, то есть вариант на случай использования разных методов для лечения разных больных. Затем перейдем к варианту дисперсионного анализа на случай повторных наблюдений за одними и теми же больными, подвергаемыми разным методам лечения.
НОВЫЙ ПОДХОД К ДИСПЕРСИОННОМУ АНАЛИЗУ*
Напомним вкратце схему дисперсионного анализа, изложенную в гл. 3. В качестве нулевой гипотезы мы брали предположение о том, что несколько (обычно более двух) методов лечения обладают равной эффективностью, то есть экспериментальные группы — это просто выборки из одной нормально распределенной совокупности и различия между ними обусловлены случайностью. Для проверки нулевой гипотезы мы сравнивали разброс * Если этот раздел, посвященный дисперсионному анализу повторных измерений, покажется вам слишком утомительным из-за обилия выкладок, пропустите его при первом чтении. Только не забудьте вернуться, когда возникнет необходимость. А она обязательно возникнет. Эксперименты, для обработки которых предназначен этот вариант дисперсионного анализа, типичны для медицины. Сам же анализ, увы, не очень. Чаще приходится сталкиваться с многократным использованием критерия Стьюдента, совершенно ошибочнымАНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Таблица 9.1. Сердечный выброс, л/мин Среднее по всем группам = 4, Общая вариация = 4, значений относительно групповых средних с разбросом самих групповых средних. Если разброс средних значительно превышал разброс значений, мы отвергали нулевую гипотезу. В качестве показателя разброса мы использовали дисперсию. Дисперсию можно определить как сумма квадратов отклонений, деленную на число степеней свободы. Теперь показателем разброса будет служить сама сумма квадратов отклонений*, которую мы будем называть вариацией. Основываясь на вариации, мы повторим построение дисперсионного анализа. Перспектива второй раз разбирать уже знакомый метод не слишком вдохновляет, однако мы будем вознаграждены: новый взгляд позволит нам перейти к дисперсионному анализу повторных измерений.В гл. 3 мы рассмотрели такой пример. Чтобы выяснить, влияет ли питание на сердечный выброс, из 200 обитателей городка были случайным образом выбраны четыре группы по семь человек в каждой. Члены первой (контрольной) группы продолжали питаться как обычно, членам второй группы пришлось есть одни макароны, третьей — мясо, а четвертой — фрукты. Эксперимент длился ровно месяц, после чего у каждого участника был измеТакой подход мы уже использовали в гл. 8 при рассмотрении регрессионного анализа.
рен сердечный выброс. Как видно из рис. 3.1, диета не влияет на величину сердечного выброса. Экспериментальные группы — это просто четыре случайные выборки из нормально распределенной совокупности. Однако рис. 3.1 недоступен исследователю, в распоряжении которого есть только данные об участниках эксперимента. Эти данные представлены на рис. 3.2 и в табл.
9.1. Как видим, группы все же различаются по средней величине сердечного выброса. Можно ли объяснить эти различия случайностью?
Новые обозначения Прежде чем двигаться дальше, введем новые обозначения (табл.
9.2). Отвлечемся от фруктов и макарон и вообще специфики рассматриваемого эксперимента. Перенумеруем группы от 1 до 4. Участников исследования также перенумеруем и впредь будем называть больными (хотя применительно к данному случаю это не совсем удачно). Значения признака (в данном случае это сердечный выброс) обозначим Хгб, например Х25 — значение у 5-го больного 2-й группы. Средние по группам обозначим X г, например X 3 — среднее по 3-й группе. Под средними в таблице мы видим групповые вариации Sг — суммы квадратов отклонений от среднего по группе:
Значок «б» под символом суммы означает, что мы суммируем значения для всех больных данной группы. Для примера рассчитаем вариацию для 1-й группы:
=(4,6 – 4,96)2 + (4,7 – 4,96)2 + (4,7 – 4,96)2 + (4,9 – 4,96)2 + +(5,1 – 4,96)2 + (5,3 – 4,96)2 + (5,4 – 4,96)2 = 0,597.
Вспомним определение выборочной дисперсии:
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Таблица 9.2. Обозначения однофакторного дисперсионного анализа Среднее по всем группам X где п — объем выборки. В числителе стоит сумма квадратов отклонений от выборочного среднего, то есть вариация. Тем самым Следовательно, выборочную дисперсию для группы можно записать как где п — численность группы. Если все выборки извлечены из одной совокупности, оценкой ее дисперсии можно взять среднее выборочных дисперсий. Такая оценка называется внутпригрупповой дисперсией:где m — число групп, в данном случае равное 4. Заменим теперь каждую выборочную дисперсию ее выражением через вариацию:
где n — численность каждой из групп. Перенесем n – 1 под дробную черту:
В числителе — сумма вариаций по всем группам. Назовем ее внутригрупповой вариацией и обозначим Sвну. Обратите внимание, что внутригрупповая вариация — это сумма квадратов отклонений от групповых средних, поэтому она не зависит от того, различаются эти средние или нет.
В примере с диетой и сердечным выбросом Sвну = 0,597 + 0,734 + 1,294 + 1,200 = 3,825.
Перепишем еще раз формулу для внутригрупповой дисперсии:
В знаменателе теперь стоит выражение, знакомое нам по гл. 3.
Это внутригрупповое число степеней свободы: вну = m(n – 1). В рассматриваемом примере вну = 4(7 – 1) = 24. Таким образом, внутригрупповую дисперсию можно выразить через внугригрупповую вариацию и внутригрупповое число степеней свободы:
По данным из табл. 9.1 находим ригрупповой нужна межгрупповая дисперсия. Внутригрупповую дисперсию нам удалось выразить через вариацию и число степеней свободы. Проделаем те же действия с межгрупповой дисперсией.
Межгрупповая дисперсия sмеж отражает разброс групповых средних. Мы вычисляли ее по формуле Здесь s X равно В более общем виде:
где т — число групп. Под символом суммы стоит значок «г», это означает, что теперь мы суммируем по группам, а не по больным. Подставив это выражение в формулу межгрупповой дисперсии, получим:
Величину в числителе назовем межгрупповой вариацией и обозначим Sмеж:
Тогда В этой формуле мы снова обнаруживаем число степеней свободы из гл. 3, на этот раз это межгрупповое число степеней свободы: меж = т – 1. Тем самым В нашем примере (табл. 9.1) меж = m – 1 = 4 – 1 = 3. Тогда Формула для критерия F в новых обозначениях принимает вид:
Соответственно, в рассматриваемом примере Новая формула для F получена непосредственно из приведенной в гл. 3 и отличается от нее только обозначениями. Поэтому, конечно, значение F = 1,4 совпадает с найденным в гл. 3.
Естественно спросить, зачем же потребовались столь пространные рассуждения и многочисленные тождественные замены? Неужели для одного только повторения ранее полученных результатов? Ответ состоит в том, что переход к использованию вариации дает возможность понять, из каких компонентов она складывается, и в дальнейшем перейти к дисперсионному анализу повторных измерений.
Разложение общей вариации Внутригрупповая вариация Sвну служит мерой разброса значений внутри трупп. В свою очередь, межгрупповая вариация Sмеж — это мера разброса групповых средних, то есть различий между группами. Но существует и мера общего разброса значений. Это общая сумма квадратов отклонений всех наблюдаемых значений от их общего среднего. Она называется общей вариацией и обозначается Sобщ:
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Два символа суммы означают, что суммирование производится по всем группам и всем больным внутри каждой группы.Число степеней свободы общей вариации обозначается общ и равно тп – 1, то есть оно на единицу меньше общего числа больных (т — число групп, п — число больных в каждой группе).
В рассматриваемом примере Sобщ = 4,51 и общ = 4 7 – 1 = Обратите внимание, что общая дисперсия, вычисленная по всем наблюдениям, равна Существует ли связь между рассмотренными видами вариации: общей, внугригрупповой и межгрупповой? Оказывается, существует, и очень простая. Общая вариация равна сумме внутригрупповой и межгрупповой вариаций:
Sобщ = Sвну + Sмеж.
Докажем справедливость этого разложения (это доказательство можно пропустить). Тождественно верно Возведем левую и правую части тождества в квадрат:
Просуммируем левую часть по всем наблюдениям:
Это не что иное, как общая вариация Sобщ.
Правая часть преобразуется в Суммируя по всем наблюдениям, получим Первый член этого выражения, ( X гб X г ), представляет собой значение Sвну. г б В самом деле, разность ( X г X ) в каждой из групп постоянна, и поэтому ее можно вынести за знак суммирования по больным:
Но— это среднее по группе, то есть Рассмотрим третий член. Поскольку X г X для всех больных в группе одинаково, а это величина Sмеж.
Итак, имеем:
Sобщ = Sвну + 0 + Sмеж = Sвну + Sмеж, что и требовалось доказать.
Как общая вариация разлагается на две составляющие — внутригрупповую и межгрупповую, так и общее число степеней свободы разлагается на внутригрупповое и межгрупповое. Действительно, поскольку
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Рис. 9.4. Разложение вариации и числа степеней свободы при дисперсионном анализе.Таблица 9.3. Таблица дисперсионного анализа для эксперимента с 4 диетами Рис. 9.5. Разложение вариации и числа степеней свободы при дисперсионном анализе повторных измерений.
АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
Оба разложения изображены на рис. 9.4. Перечисленные величины обычно включают в таблицы дисперсионного анализа наподобие табл. 9.3.Теперь, наконец, мы располагаем средствами, необходимыми в дисперсионном анализе повторных измерений.