«Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D. Professor of Medicine Member, Cardiovascular Reserch Institute Member, Institute for Health Policy Studies University of California, San ...»
Проверим гипотезу о том, что физкультурницы и спортсменГЛАВА Таблица 5.7. Критические значения 8 7,344 10,219 13,362 15,507 17,535 20,090 21,955 26, 9 8,343 11,389 14,684 16,919 19,023 21,666 23,589 27, 10 9,342 12,549 15,987 18,307 20,483 23,209 25,188 29, 11 10,341 13,701 17,275 19,675 21,920 24,725 26,757 31, 12 11,340 14,845 18,549 21,026 23,337 26,217 28,300 32, 13 12,340 15,984 19,812 22,362 24,736 27,688 29,819 34, 14 13,339 17,117 21,064 23,685 26,119 29,141 31,319 36, 15 14,339 18,245 22,307 24,996 27,488 30,578 32,801 37, 16 15,338 19,369 23,542 26,296 28,845 32,000 34,267 39, 17 16,338 20,489 24,769 27,587 30,191 33,409 35,718 40, 18 17,338 21,605 25,989 28,869 31,526 34,805 37,156 42, 19 18,338 22,718 27,204 30,144 32,852 36,191 38,582 43, 20 19,337 23,828 28,412 31,410 34,170 37,566 39,997 45, 21 20,337 24,935 29,615 32,671 35,479 38,932 41,401 46, 22 21,337 26,039 30,813 33,924 36,781 40,289 42,796 48, 23 22,337 27,141 32,007 35,172 38,076 41,638 44,181 49, 24 23,337 28,241 33,196 36,415 39,364 42,980 45,559 51, 25 24,337 29,339 34,382 37,652 40,646 44,314 46,928 52, 26 25,336 30,435 35,563 38,885 41,923 45,642 48,290 54, 27 26,336 31,528 36,741 40,113 43,195 46,963 49,645 55, 28 27,336 32,020 37,916 41,337 44,461 48,278 50,993 56, 29 28,336 33,711 39,087 42,557 45,722 49,588 52,336 58, 30 29,336 34,800 40,256 43,773 46,979 50,892 53,672 59, 31 30,336 35,887 41,422 44,985 48,232 52,191 55,003 61, 32 31,336 36,973 42,585 46,194 49,480 53,486 56,328 62, 33 32,336 38,058 43,745 47,400 50,725 54,776 57,648 63, 34 33,336 39,141 44,903 48,602 51,966 56,061 58,964 65, 35 34,336 40,223 46,059 49,802 53,203 57,342 60,275 66, 36 35,336 41,304 47,212 50,998 54,437 58,619 61,581 67, 37 36,336 42,383 48,363 52,192 55,668 59,893 62,883 69, 38 37,335 43,462 49,513 53,384 56,896 61,162 64,181 70, 39 38,335 44,539 50,660 54,572 58,120 62,428 65,476 72, 40 39,335 45,616 51,805 55,758 59,342 63,691 66,766 73,
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
Таблица 5.7. Окончание J. H. Zar, Biostatistical Analysis, 2d ed, Prentice-Hall, Englewood Cliffs, N.J., 1984.ки обращаются к врачу одинаково часто. Для этого выделим из исходной таблицы подтаблицу, содержащую данные по двум этим группам. В табл. 5.8 приведены наблюдаемые и ожидаемые числа; они довольно близки.
Размер таблицы 22. Поэтому вычислим 2 с поправкой Йейтса:
Полученная величина значительно меньше критического значения. Поэтому гипотеза об отсутствии межгрупповых различий не отклоняется. Следовательно, эти группы можно объединить в одну. Полученную объединенную группу бегуний сравним с контрольной (табл. 5.9). На этот раз значение 2 равно 7,39, то Таблица 5.8. Частота обращения к врачу по поводу менструаций (в скобках — ожидаемые числа) Таблица 5.8. Частота обращения к врачу по поводу менструаций (в скобках — ожидаемые числа) Физкультурницы и 55(46,42) 56(64,58) спортсменки есть больше критического значения 6,63, соответствующего уровню значимости 0,01.
Заметьте, мы выполнили два сравнения, используя одни и те же данные. Поэтому нужно применить поправку Бонферрони, умножив уровень значимости на 2. Исправленное значение уровня значимости 20,01 = 0,02. Итак, с уровнем значимости 0, мы заключаем, что физкультурницы не отличаются от спортсменок, но обе эти группы отличаются от женщин, не занимающихся бегом.
ТОЧНЫЙ КРИТЕРИЙ ФИШЕРА
Критерий 2 годится для анализа таблиц сопряженности 22, если ожидаемые значения в любой из ее клеток не меньше 5. Когда число наблюдений невелико, это условие не выполняется и критерий 2 неприменим. В этом случае используют точный критерий Фишера. Он основан на переборе всех возможных вариантов заполнения таблицы сопряженности при данной численности групп, поэтому, чем она меньше, тем проще его применить.Нулевая гипотеза состоит в том, что между лечением и исходом нет никакой связи. Тогда вероятность получить некоторую таблицу равна
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
Таблица 5.10. Обозначения, используемые в точном критерии Фишера где R1 и R2 — суммы по строкам (число больных, лечившихся первым и вторым способом), С1 и С2 — суммы по столбцам (число больных с первым и вторым исходом). O11, O12, O21 и O22 — числа в клетках, N — общее число наблюдений (табл. 5.10). Восклицательный знак, как и всегда в математике, обозначает факториал*. Построив все остальные варианты заполнения таблицы, возможные при данных суммах по строкам и столбцам, по этой же формуле рассчитывают их вероятность. Вероятности, которые не превосходят вероятность исходной таблицы (включая саму эту вероятность), суммируют. Полученная сумма — это величина P для двустороннего варианта точного критерия Фишера.В отличие от критерия 2, существуют одно- и двусторонний варианты точного критерия Фишера. К сожалению, в большинстве учебников описан именно односторонний вариант, он же обычно используется в компьютерных программах и приводится в статьях. Оно и не удивительно — ведь односторонний вариант дает меньшую величину P. Хуже то, что авторы не считают нужным хотя бы упомянуть, каким вариантом они пользовались. В табл. 5.11 показаны данные, которые получили Мак-Кинни и соавт.**, решив выяснить, насколько часто в статьях из двух * Факториал числа — произведение всех целых чисел от этого числа до Факториал нуля равен единице.
** W.. McKinney, M. J. Young,. Harta,.. Lee. The inexact use of Fichers exact test in six major medical journals. JAMA, 261:3430—3433, Таблица 5.11. Частота указания варианта точного критерия Фишера в двух медицинских журналах самых известных медицинских журналов указан вариант критерия. Выборка невелика, и критерии 2 применить нельзя. Поэтому для анализа использования точного критерия Фишера воспользуемся самим точным критерием Фишера. Из приведенной выше формулы для Р следует что вероятность при тех же значениях сумм по строкам и столбцам таблицы получить такой же набор чисел в клетках, что в табл. 5.11 равна Это небольшая вероятность. Теперь возьмем наименьшее из чисел в клетках (это единица на пересечении первой строки и первого столбца) и уменьшим его на 1. Числа в остальных клетках изменим так, чтобы суммы по строкам и столбцам остались прежними. Мы получили табл. 5.12. Соответствующая вероятность равна (Заметим, что числитель можно заново не вычислять, так как его значение зависит только от сумм по строкам и столбцам, которые не изменились). Поскольку наименьшее число в клетке равно нулю, дальше уменьшать его невозможно. Таким образом односторонний вариант точного критерия Фишера дает Р = = 0,00666 + 0,00027 = 0,00695.
Чтобы рассчитать значение двустороннего варианта точного критерия Фишера нужно перебрать и все остальные возможные
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
Таблица 5.12.варианты заполнения таблицы при условии неизменности сумм по строкам и столбцам. Получить все эти варианты несложно — надо только заметить, что при постоянных суммах по строкам и столбцам значения во всех четырех клетках полностью определяются значением в любой из них. Возьмем число, все в той же левой верхней клетке и будем увеличивать его на 1, пересчитывая каждый раз числа в остальных клетках. В результате мы получим восемь вариантов заполнения (табл. 5.13). Для двух последних вариантов вероятность не превышает вероятности исходного варианта заполнения (0,00666), составляя соответственно 0,00242 и 0,00007. Таким образом кроме исходного у нас есть еще три варианта «маловероятного» заполнения таблицы, просуммировав соответствующие вероятности и прибавив к ним вероятность исходного варианта получим Р = 0,00666 + 0,00027 + + 0,00242 + 0,00007 = 0,00944. Это и есть значение двустороннего варианта точного критерия Фишера. Итак, различие частоты правильного использования точного критерия Фишера в журналах New England Journal of Medicine и Lancet статистически значимо (Р = 0,009). В данном случае общий вывод при переходе от одностороннего к двустороннему варианту не изменился, однако так бывает далеко не всегда. Еще более грубая ошибка происходит, когда автор рассчитывает только вероятность получения исходной таблицы, пренебрегая построением остальных вариантов заполнения. Естественно это приводит к сильному занижению P, то есть к «выявлению» различий там, где их нет.
В заключение изложим правила пользования точным критерием Фишера.
• Вычислите вероятность получить исходную таблицу.
• Построите остальные возможные варианты заполнения таблицы при неизменных суммах по строкам и столбцам. Для Таблица 5.13.
этого в одной из клеток проставьте все целые числа от нуля до максимально возможного, пересчитывая числа в остальных клетках так, чтобы суммы по строкам и столбцам оставались неизменными.
• Вычислите вероятности для всех полученных таблиц.
• Просуммируйте вероятность получить исходную таблицу и все вероятности, которые ее не превышают.
Итак, теперь мы умеем работать не только с количественными, но и с качественными признаками. Но вопрос, занимавший нас и в этой, и в предыдущих главах, был в сущности одним и тем же — как оценить статистическую значимость различий. В следующей главе мы взглянем на другую сторону медали. Именно, мы попытаемся понять, что означает отсутствие статистически значимых различий.
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
ЗАДАЧИ
5.1. Т. Бишоп (Т. Bishop. High frequency neural modulation in dentistry. J. Am. Dent. Assoc., 112:176—177, 1986) изучил эффективность высокочастотной стимуляции нерва в качестве обезболивающего средства при удалении зуба. Все больные подключались к прибору, но в одних случаях он работал, в других был выключен. Ни стоматолог, ни больной не знали, включен ли прибор. Позволяют ли следующие данные считать высокочастотную стимуляцию нерва действенным анальгезируюшим средством?5.2. Синдром внезапной детской смерти — основная причина смерти детей в возрасте от 1 недели до 1 года. Обычно смерть наступает на фоне полного здоровья незаметно, во сне, поэтому определение факторов риска имеет первостепенное значение.
Считается, что синдром внезапной детской смерти чаще случается у недоношенных детей, негров, а также в семьях с низкими доходами. Н. Левак и соавт. (N. Lewak et al. Sudden infant death syndrome risk factors: prospective data review. Clin. Pediatr., 18:
404—411, 1979) решили уточнить эти данные. Исследователи собрали сведения о 19047 детях, родившихся в одном из роддомов Окленда, штат Калифорния, с 1960 по 1967 г. Судьбу детей проследили до 1 года. Данных о 48 детях получить не удалось.
От синдрома внезапной детской смерти умерли 44 ребенка. Данные о предполагаемых факторах риска представлены в табл. 5,14.
Найдите признаки, связанные с риском синдрома внезапной детской смерти.
5.3. Могло ли повлиять отсутствие данных о 48 детях на результаты исследования? Если да, то как?
5.4. Р. Феннел и соавт. (R. Fennell et al. Urinary tract infections in children effect of short course antibiotic therapy on recurrence rate in children with previous infections. Clin. Pediatr., 19:121—124, 1980) сравнили эффективность трех антибиотиков при рецидивируГЛАВА Таблица 5.14.
предыдущей беременности Более 1 года 11 Самый низкий гемоглобин во Менее 12 мг% 26 По некоторым признакам данные отсутствуют, поэтому сумма в третьем столбце может оказаться меньше 44, а в четвертом — меньше 18 955.
ющей инфекции мочевых путей у девочек 3—16 лет. После короткого курса одного из антибактериальных препаратов (назначенного случайным образом) в течение года делали повторные посевы мочи. При выявлении бактериурии констатировали рецидив. Были получены следующие результаты.
Есть ли основания говорить о разной эффективности препаратов? Если да, то какой лучше?
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
5.5. А. О’Нил и соавт. (A. O’Neil et al. A waterborn epidemic of acute infectious non-bacterial gastroenteritis in Alberta, Canada. Can.J. Public Health, 76:199—203, 1985) недавно сообщили о вспышке гастроэнтерита в маленьком канадском городке. Исследователи предположили, что источником инфекции была водопроводная вода. Они исследовали зависимость между количеством выпитой воды и числом заболевших. Какие выводы можно сделать из приводимых данных?
Количество выпитой воды, стаканов в день Число заболевших Число не заболевших 5.6. Как правило, качество исследования выше, а соответствие собираемых данных поставленному вопросу точнее, если данные собираются специально для этого исследования после его планирования. Р. и С. Флетчеры (R. Fletcher, S. Fletcher. Clinical research in general medical journals: а 30-year perspective. N. Engl.
J. Med., 301:180—183, 1979) исследовали 612 работ, случайным образом выбранных из журналов Journal of American Medical Association, Lancet и New England Journal of Medicine, чтобы определить, собирали ли их авторы свои данные до или после планирования исследования. Вот что удалось обнаружить:
работ Процент работ, где данные собирали исследования исследования Оцените статистическую значимость различия долей. Если различия есть, то можно ли сказать, что положение меняется к лучшему?
5.7. Одна из причин инсульта — окклюзия сонной артерии.
Чтобы выяснить, какое лечение — медикаментозное или хирургическое — дает в этом случае лучшие результаты, У. Филдс и соавт. (W. Fields et al. Joint study of extracranial arterial occlusion, V: Progress report of prognosis following surgery or nonsurginal treatment for transient ishemic attacks and cervical carotid artery lesions. JAMA, 211:1993—2003, 1970) сравнили долгосрочный прогноз у леченных двумя методами.
Можно ли говорить о превосходстве одного из видов лечения?
5.8. В диагностике ишемической болезни сердца используют нагрузочную пробу, с помощью физической нагрузки вызывают ишемию миокарда, которую выявляют на ЭКГ. Существует другой метод, ишемию вызывают внутривенным введением дипиридамола, а выявляют с помощью эхокардиографии. Ф. Латтанци и соавт. (F. Lattanzi et al. Inhibition of dipyndamole-induced ishemia by antianginal therapy in humans: correlation with exercise electrocardiography. Circulation, 83:1256—1262, 1991) сравнили результаты двух методов у больных, получавших и не получавших антиангинальную терапию. Результаты приведены в таблице.
Без антиангинальной терапии На фоне антиангинальной терапии Оцените различия между результатами двух методов.
АНАЛИЗ КАЧЕСТВЕННЫХ ПРИЗНАКОВ
5.9. Д. Сакетт и М. Гент (D. Sackett, M. Gent. Controversy in counting and attributing events in clinical trials. N. Engl. J. Med., 301:1410—1412, 1979) сделали важное замечание относительно методики сбора данных в исследовании результатов медикаментозного и хирургического лечения окклюзии сонной артерии (задача 5.7). Так как изучался «долгосрочный прогноз», в исследование включали только тех больных, которые не умерли и у которых не было повторного инсульта во время госпитализации. В результате из рассмотрения были исключены оперированных (5 из них умерли, а у 10 инсульт произошел вскоре после операции) и только 1 больной, лечившийся медикаментозно. Если учесть и этих 16 больных, то данные примут такой вид:Что теперь можно сказать о предпочтительности одного из видов лечения? Какое сравнение более верно — с учетом этих 16 больных или без их учета (как в задаче 5.7)? Почему?
5.10. Распространенность болезни X равна 10%. Болезнью Y страдает 1000 человек, болезнью Z — также 1000 человек. Болезнь X с равной вероятностью поражает страдающих болезнями Y и Z. Вероятность госпитализации при этих болезнях разная: для болезни X она составляет 40%, Y — 50%, Z — 20%.
Посмотрим, сколько больных с разными сочетаниями болезней окажется в больнице.
Из 1000 человек, страдающих болезнью Y, болезнь X имеют 10%, то есть 100 человек. Из них 50% (50 человек) будут госпитализированы в связи с болезнью Y, из оставшихся 50 человек в связи с болезнью X госпитализируют 40%, то есть 20 человек.
Таким образом, в больнице окажется 70 больных с сочетанием болезней Y и X.
Из 900 человек, страдающих болезнью Y, но не X, будут госпитализированы 50%, то есть 450 человек.
Такой же расчет для болезни Z показывает, что в больницу попадет 52 человека с сочетанием болезней Z и X, а с болезнью Z, но не Х, — 180 человек.
Исследователь, работающий в больнице в которую попали все госпитализированные, обнаружил следующую связь.
Оцените статистическую значимость различий частоты болезни X среди страдающих болезнями Y и Z. Можно ли по этим данным судить о связи болезней Y и Z с болезнью X? (Приведенный пример заимствован из работы: D. Mainland. The risk of fallacious conclusions from autopsy data on the incidence of diseases with applications to heart disease. Am. Heart J., 45:644—654, 1953).
До сих пор мы занимались оценкой вероятности нулевой гипотезы, то есть предположения об отсутствии эффекта экспериментального воздействия. Вероятность нулевой гипотезы (P) мы оценивали с помощью различных критериев значимости — F, t, q, q, z и 2. Если значение критерия превышало критическое, нулевую гипотезу отклоняли. При этом мы совершенно справедливо утверждали, что нашли статистически значимые различия. Если значение критерия оказывалось меньше критического, говорили об отсутствии статистически значимых различий. И это тоже справедливо. К сожалению, обычно этим не ограничиваются. Не обнаружив различий, исследователь считает это доказательством их отсутствия. А это уже совершенно неверно. Прежде чем сделать вывод об отсутствии различий следует выяснить, была ли чувствительность критерия достаточной, чтобы их обнаружить.
Чувствительностью* называется способность критерия обнаружить различия. Чувствительность зависит от величины разС этим понятием мы уже встречались в гл. 3 и 4; другое название чувствительности — мощность.
личий, от разброса данных и от объема выборки. Наиболее важен объем выборок: чем он больше, тем чувствительнее критерий. При достаточно больших выборках малейшее различие оказывается статистически значимым. И наоборот если выборки малы, даже большие различия статистически незначимы. Зная эти закономерности, можно заранее определить численность выборок, необходимую для выявления эффекта.
ЭФФЕКТИВНЫЙ ДИУРЕТИК
Разбирая критерий Стьюдента, мы использовали пример, в котором препарат, предположительно обладавший диуретическим действием, в действительности не увеличивал диурез. Сейчас рассмотрим обратный пример. Исследуемый препарат на самом деле диуретик. Он увеличивает суточный диурез в среднем с 1200 до 1400 мл. На рис. 6.1А показано распределение суточного диуреза для всех 200 членов совокупности при приеме плацебо, а на рис. 6.1Б при приеме этого препарата.Теперь представим себе исследователя, который, разумеется, не может наблюдать всю совокупность. Случайным образом он выбирает две группы, по 10 человек в каждой, дает 1-й группе плацебо, а 2-й — препарат (диуретик) после чего измеряет суточный диурез в обеих группах. На рис. 6.1В представлены результаты этих измерений. В 1-й группе средний суточный диурез составил 1180 мл (стандартное отклонение 144 мл), а во 2й группе — 1400 мл (стандартное отклонение 245 мл). Оценим различия по критерию Стьюдента.
Объединенная оценка дисперсии равна Значение t равно
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
Рис. 6.1. Исследование диуретического эффекта нового препарата. А. Суточный диурез в совокупности из 200 человек после приема плацебо. Десять человек, попавшие в выборку, помечены черным. Б. Суточный диурез в той же совокупности после приема препарата. Суточный диурез увеличился на 200 мл. Десять человек, попавшие в выборку, помечены штриховкой. В. Такими видит данные исследователь; t = 2,447. Это больше критического значения t для 18 степеней свободы (2,101) и 5% уровня значимости, поэтому можно заключить, что различия статистически значимы, то есть препарат обладает диуретическим действием.Рис. 6.2. А и Б. Та же совокупность, что и на рис. 6.1, но в выборку попали другие люди.
В. Изменился и результат, который наблюдает исследователь. Теперь t = 1,71, что меньше критического значения. В данном случае исследователю не повезло — ему придется признать, что значимых различий не выявлено, то есть диуретическое действие препарата не доказано, — тогда как в действительности оно есть.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
Рис. 6.3. А. Такое распределение мы получим, извлекая пары случайных выборок по человек в каждой из одной и той же совокупности и каждый раз вычисляя t (см. рис.4.5А). Только 5% значений по абсолютной величине превышают 2,1 (помечены черным). Таким образом, 2,1 — критическое значение для 5% уровня значимости. Б. Теперь будем извлекать пары выборок из разных совокупностей, средний диурез в которых различается на 200 мл (рис. 6.1А и Б). Распределение значений t сместилось вправо. Критическое значение превышено в 111 случаях из 200. Следовательно, вероятность получить правильное заключение об эффективности препарата составляет 55%.
что превышает 2,101 — критическое значение при уровне значимости 0,05 и числе степеней свободы 2(n – 1) = 18. Поэтому нулевая гипотеза будет отклонена, а препарат будет назван эффективным диуретиком. Как это и есть на самом деле.
Конечно, исследователь мог бы набрать и другие две группы, например представленные на рис. 6.2. На этот раз средний суточный диурез — 1216 мл в контрольной группе и 1368 мл в группе получавшей препарат. Стандартное отклонение составляет соответственно 97 и 263 мл, а объединенная оценка дисперсии 1/2(972 + 2632) = 1982. Теперь значение t:
что меньше 2,101. Нулевую гипотезу отклонить нельзя, хотя мы то знаем, что она неверна! Какова вероятность такой ситуации?
Для ответа на этот вопрос повторим мысленные эксперименты, подобные тем, что мы проделали в гл. 4 (см. рис. 4.5). Тогда мы строили распределение величины для случая, когда сравниваемые группы представляли собой случайные выборки из одной и той же совокупности. Это распределение показано на рис.
6.ЗА. Теперь построим распределение t для случая, когда выборки извлекаются из разных совокупностей. Из двух совокупностей, показанных на рис. 6.2, можно извлечь более 1027 выборок объемом в 10 человек; ограничимся пока двумястами. Результат показан на рис. 6.3Б. В 111 случаях из 200 значение t оказалось не меньше критического значения 2,101. Итак, в этом случае (то есть при этих величине эффекта, дисперсии и численности групп) вероятность отклонить нулевую гипотезу (то есть найти различие) составляет 111/200 = 0,55. Можно оценить и вероятность не отклонить нулевую гипотезу (то есть не найти существующих различий). Это 1 — 0,55 = 0,45, то есть 45%.
Как видим, шансы обнаружить и не обнаружить диуретический эффект были примерно равны.
ДВА РОДА ОШИБОК
В медицине для характеристики диагностических проб часто используют два показателя: чувствительность и специфичность.Чувствительность — это вероятность положительного результата у больного; она характеризует способность пробы выявлять болезнь. Специфичность — это вероятность отрицательного результата у здорового; можно сказать, что она характеризует способность пробы выявлять отсутствие болезни.
Диагностические пробы и критерии значимости во многом схожи. Диагностические пробы выявляют болезни, критерии значимости выявляют различия. Можно сказать, что с третьей главы по пятую мы занимались специфичностью критериев значимости. В этой главе мы рассматриваем чувствительность, то есть способность критерия выявлять различия. Иногда свойства критериев значимости описывают в несколько иных терминах: не вероятностью правильного результата, а вероятностью ошибки.
Если мы ошибочно отклоняем нулевую гипотезу, то есть, наЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Таблица 6.1. Ошибки критериев значимости По результатам при- Различия Различий Различия Истинноположитель- Ложноположительный результат, 1 – Различий не Ложноотрицательный Истииноотрицательный результат, 1 – выявлено результат (ошибка ходим различия там, где их нет, то это называется ошибкой I рода.
Максимальная приемлемая вероятность ошибки I рода называется уровнем значимости и обозначается. С этой величиной мы уже много раз встречались; обычно принимают равной 0,05 (то есть 5%), однако можно взять и какой-нибудь другой уровень значимости, например 0,1 или 0,01.
Если мы не отклоняем нулевую гипотезу, когда она не верна, то есть не находим различий там, где они есть, то это — ошибка II рода. Ее вероятность обозначается. Ясно, что вероятность обнаружить различия, то есть чувствительность критерия, равна 1 –.
В нашем примере с диуретиком = 0,45 и 1 – = 0,55, то есть чувствительность критерия при данных условиях составляет 55%.
Все, что мы узнали об ошибках критериев значимости, кратко представлено в таблице 6.1.
ЧЕМ ОПРЕДЕЛЯЕТСЯ ЧУВСТВИТЕЛЬНОСТЬ?
Естественно, мы заинтересованы в том, чтобы по возможности уменьшить вероятность ошибки II рода, то есть повысить чувствительность критерия. Для этого нужно знать, от чего она зависит. В принципе, эта задача похожа на ту, что решалась применительно к ошибкам I рода, но за одним важным исключением. Чтобы оценить чувствительность критерия, нужно задать величину различий, которую он должен выявлять. Эта величина определяется задачами исследования. В примере с диуретиком чувствительность была невелика — 55%. Но, может быть, исследоваГЛАВА тель просто не считал нужным выявлять прирост диуреза с до 1400 мл/сут, то есть всего на 17%?С увеличением разброса данных повышается вероятность ошибок обоих типов. Как мы вскоре увидим, величину различий и разброс данных удобнее учитывать совместно, рассчитав отношение величины различий к стандартному отклонению.
Чувствительность диагностической пробы можно повысить, снизив ее специфичность — аналогичное соотношение существует между уровнем значимости и чувствительностью критерия. Чем выше уровень значимости (то есть чем меньше ), тем ниже чувствительность.
Как мы уже говорили, важнейший фактор, который влияет на вероятность ошибок как I, так и II рода, — это объем выборок. С ростом объема выборок вероятность ошибок уменьшается. Практически это очень важно, поскольку прямо связано с планированием эксперимента.
Прежде чем перейти к подробному рассмотрению факторов, влияющих на чувствительность критерия, перечислим их еще раз.
• Уровень значимости. Чем меньше, тем ниже чувствительность.
• Отношение величины различий к стандартному отклонению.
Чем больше это отношение, тем чувствительнее критерий.
• Объем выборок. Чем больше объем, тем выше чувствительность критерия.
Уровень значимости Чтобы получить наглядное представление о связи чувствительности критерия с уровнем значимости, вернемся к рис. 6.3. Выбирая уровень значимости, мы тем самым задаем критическое значение t. Это значение мы выбираем так, чтобы доля превосходящих его значений — при условии, что препарат не оказывает эффекта, — была равна (рис. 6.3А). Чувствительность критерия есть доля тех значений критерия, которые превосходят критическое при условии, что лечение дает эффект (рис.
6.3Б). Как видно из рисунка, если изменить критическое значение, изменится и эта доля.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
Рис. 6.4. Выбирая уровень значимости, мы тем самым определяем критический уровень t. Чем меньше, тем выше критический уровень и тем ниже чувствительность. А. Уровень значимости = 0,05, критическое значение t = 2,101, чувствительность 55%. Б. Теперь уровень значимости = 0,01, критическое значение t выросло до 2,878 и чувствительность снизилась до 45%.Рассмотрим подробнее, как это происходит. На рис. 6.4А изобизображено распределение значений критерия Стьюдента.
Отличие от рис. 6.3 состоит в том, что теперь это распределение, полученное для всех 1027 возможных пар выборок. Верхний график — это распределение значений t для случая, когда препарат не обладает диуретическим действием. Предположим, мы выбрали уровень значимости 0,05, то есть приняли = 0,05.
В этом случае критическое значение равно 2,101, то есть мы отвергаем нулевую гипотезу и признаем различия статистически значимыми при t > +2,101 или t < –2,101. Соответствующие области на графике заштрихованы, а критическое значение изображено вертикальной пунктирной линией, спускающейся к нижнему графику, на котором изображено распределение t для случая, когда препарат обладает диуретическим действием, а именно увеличивает суточный диурез на 200 мл. По форме, нижний график такой же, как верхний, но сдвинут на 200 мл вправо.
Доля значений t, превышающих критическое значение 2, (заштрихованная область), составляет 0,55. Итак, чувствительность критерия в данном случае 55%; а вероятность ошибки второго рода = 1 – 0,55 = 0,45, то есть 45%.
А теперь взглянем на рис. 6.4Б. На нем изображены те же самые распределения значений t. Отличие в выбранном уровне значимости — = 0,01. Критическое значение t повысилось до 2,878, пунктирная линия сместилась вправо и отсекает от нижнего графика только 45%. Таким образом, при переходе от 5% к 1% уровню значимости чувствительность снизилась с 55 до 45%. Соответственно, вероятность ошибки II рода повысилась до 1 – 0,45 = 0,55.
Итак, снижая, мы снижаем риск отвергнуть верную нулевую гипотезу, то есть найти различия (эффект) там, где их нет.
Но тем самым мы снижаем и чувствительность — вероятность выявить имеющиеся на самом деле различия.
Величина различий Рассматривая влияние уровня значимости, мы принимали величину различий постоянной: наш препарат увеличивал суточный диурез с 1200 до 1400 мл, то есть на 200 мл. Теперь примем
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
Рис. 6.5. Чем больше величина различий, тем сильнее распределение t сдвигается вправо и тем выше чувствительность.постоянным уровень значимости = 0,05 и посмотрим, как чувствительность критерия зависит от величины различий. Понятно, что большие различия выявить легче, чем маленькие. Рассмотрим следующие примеры. На рис. 6.5А изображено распределение значений t для случая, когда исследуемый препарат не обладает диуретическим действием. Заштрихованы 5% наибольших по абсолютной величине значений t, расположенных левее – 2,101 или правее +2,101. На рис. 6.5Б изображено распределение значений t для случая, когда препарат увеличивает суточный Чувствительность Рис. 6.6. Чувствительность критерия Стьюдента как функция от величины различий при объеме выборок 10 человек и уровне значимости = 0,05. Пунктирная линия показывает, как пользоваться графиком. Для величины различий 200 мл чувствительность составляет 0,55.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
диурез в среднем на 200 мл (эту ситуацию мы уже рассматривали). Выше правого критического значения лежит 55% возможных значений t: чувствительность равна 0,55. Далее, на рис. 6.5В представлено распределение значений t для случая, когда препарат увеличивает диурез в среднем на 100 мл. Теперь только 17% значений t превышает 2,101. Тем самым, чувствительность критерия равна лишь 0,17. Иными словами, эффект будет обнаружен менее чем в одном из каждых пяти сравнений контрольной и экспериментальной групп. Наконец, рис. 6.5Г представляет случай увеличения диуреза на 400 мл. В критическую область попало 99% значений t. Чувствительность критерия равна 0,99:различия будут выявлены почти наверняка.
Повторяя этот мысленный эксперимент, можно определить чувствительность критерия для всех возможных значений эффекта, от нулевого до «бесконечного». Нанеся результаты на график, мы получим рис. 6.6, где чувствительность критерия показана как функция от величины различий. По этому графику можно определить, какой будет чувствительность при той или иной величине эффекта. Пользоваться графиком пока что не очень удобно, ведь он годится только для этих численности групп, стандартного отклонения и уровня значимости. Вскоре мы построим другой график, более подходящий для планирования исследования, но сначала нужно подробнее разобраться с ролью разброса значений и численности групп.
Разброс значений Чувствительность критерия возрастает с ростом наблюдаемых различий; с ростом разброса значений чувствительность, напротив, снижается.
Напомним, что критерий Стьюдента t определяется следующим образом:
где X 1 и X 2 — средние, s — объединенная оценка стандартного отклонения, n1 и n2 — объемы выборок. Заметьте, что X 1 и X 2 — это оценки двух (различных) средних — µ1 и µ2. Для простоты допустим, что объемы обеих выборок равны, то есть n1 = n2. Тогда вычисленное значение t есть оценка величины Обозначим (греческая буква «дельта») величину эффекта, то есть разность средних: = µ1 – µ2, тогда Таким образом, t зависит от отношения величины эффекта к стандартному отклонению.
Рассмотрим несколько примеров. Стандартное отклонение в исследуемой нами совокупности составляет 200 мл (см. рис. 6.1).
В таком случае увеличение суточного диуреза на 200 или 400 мл равно соответственно одному или двум стандартным отклонениям. Это очень заметные изменения. Если бы стандартное отклонение равнялось 50 мл, то те же самые изменения диуреза были бы еще более значительными, составляя соответственно 4 и стандартных отклонений. Наоборот, если бы стандартное отклонение равнялось, например, 500 мл, то изменение диуреза в мл составило бы 0,4 стандартного отклонения. Обнаружить такой эффект было бы непросто да и вряд ли вообще стоило бы.
Итак, на чувствительность критерия влияет не абсолютная величина эффекта, а ее отношение к стандартному отклонению.
Обозначим его (греческая «фи»); это отношение = / называется параметром нецентральности.
Объем выборки Мы узнали о двух факторах, которые влияют на чувствительность критерия: уровень значимости и параметр нецентральности. Чем больше и чем больше, тем больше чувствиЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ тельность. К сожалению, влиять на мы не можем вовсе, а что касается, то его увеличение повышает риск отвергнуть верную нулевую гипотезу, то есть найти различия там, где их нет.
Однако есть еще один фактор, который мы можем, в определенных пределах, менять по своему усмотрению, не жертвуя уровнем значимости. Речь идет об объеме выборок (численности групп). С увеличением объема выборки чувствительность критерия увеличивается.
Существуют две причины, в силу которых увеличение объема выборки увеличивает чувствительность критерия. Во-первых, увеличение объема выборки увеличивает число степеней свободы, что, в свою очередь, уменьшает критическое значение. Во-вторых, как видно из только что полученной формулы значение t растет с ростом объема выборки n (это справедливо и для многих других критериев).
На рис 6.7А воспроизведены распределения с рис. 6.4А. Верхний график соответствует случаю, когда препарат не обладает диуретическим действием, нижний — когда препарат увеличивает суточный диурез на 200 мл. Численность каждой из групп составляет 10 человек. На рис 6.7Б приведены аналогичные распределения. Отличие в том, что теперь в каждую группу входило не 10, а 20 человек. Раз объем каждой из групп равен 20, число степеней свободы равно = 2(20 – 1) = 38. Из таблицы 4. находим, что критическое значение t при 5% уровне значимости равно 2,024 (в случае выборок объемом 10 оно равнялось 2,101). С другой стороны, увеличение объема выборок привело к увеличению значений критерия. В результате уже не 55, а 87% значений t превышают критическое значение. Итак, увеличение численности групп с 10 до 20 человек привело к повышению чувствительности с 0,55 до 0,87.
Перебирая все возможные объемы выборок, можно построить график чувствительности критерия как функции от численности групп (рис. 6.8). С увеличением объема чувствительность Рис. 6.7. Увеличение объема выборки повышает чувствительность по двум причинам. Во-первых, увеличивается число степеней свободы, и критическое значение t уменьшается. Во-вторых, при той же величине различий получаются более высокие значения t.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
растет. Сначала она растет ускоренно, затем, начиная с некоторого объема выборки, рост замедляется.Расчет чувствительности — важнейшая составная часть планирования медицинских исследований. Теперь, познакомившись с наиболее важным фактором, определяющим чувствительность, мы готовы решить эту задачу.
Как определить чувствительность критерия?
На рис. 6.9 чувствительность критерия Стьюдента представлена как функция от параметра нецентральности = / при уровне значимости = 0,05. Четыре кривые соответствуют четырем объемам выборок.
Подразумевается, что выборки имеют равный объем. Что делать, если это не так? Если вы обратились к рис. 6.9 при планировании исследования (что весьма разумно), то нужно учесть следующее. При заданной общей численности обследованных именно равная численность групп обеспечивает максимальную чувствительность. Значит, равную численность групп и следует запланировать. Если же вы решили рассчитать чувствительность после проведения исследования, когда, не найдя статистически-значимых различий, вы хотите определить, в какой степени это можно считать доказательством отсутствия эффекта, — тогда следует принять численность обеих групп равной меньшей из них. Такой расчет даст несколько заниженную оценку чувствительности, но убережет вас от излишнего оптимизма.
Применим кривые с рис. 6.9 к примеру с диуретиком (см.
рис. 6.1). Мы хотим вычислить чувствительность критерия Стьюдента при уровне значимости = 0,05. Стандартное отклонение равно 200 мл. Какова вероятность выявить увеличение суточного диуреза на 200 мл?
Численность контрольной и экспериментальной групп равна десяти. Выбираем на рис. 6.9 соответствующую кривую и находим, что чувствительность критерия равна 0,55.
До сих пор мы говорили о чувствительности критерия СтьюГЛАВА Рис. 6.8. Чувствительность критерия Стьюдента как функция от объема выборок при величине различий 200 мл, уровне значимости = 0,05 и стандартном отклонении = 200 мл. При объеме выборок 10 человек чувствительность составляет 0,55.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
дента. Можно рассчитать чувствительность и других критериев. Определяется она теми же самыми факторами, но ход вычислений будет несколько иным.Галотан и морфин при операциях на открытом сердце В гл. 4 мы сравнили сердечный индекс при галотановой и морфиновой анестезии (см. табл. 4.2) и не нашли статистически значимых различий. (Напомним, что сердечный индекс — это отношение минутного объема сердца к площади поверхности тела.) Однако группы были малы — 9 и 16 человек. Средняя величина сердечного индекса в группе галотана равнялась 2,08 л/мин/м2; в группе морфина 1,75 л/мин/м2, то есть на 16% меньше. Даже если бы различия были статистически значимыми, вряд ли столь небольшая разница представляла бы какой-либо практический интерес.
Поэтому поставим вопрос так: какова была вероятность выявить разницу в 25%? Объединенная оценка дисперсии s2 = 0,89, значит, стандартное отклонение равно 0,94 л/мин/м2. Двадцать пять процентов от 2,08 л/мин/м2 — это 0,52 л/мин/м2.
Тем самым, Поскольку численности групп не совпадают, для оценки чувствительности выберем меньшую из них — 9. Из рис. 6.9 следует, что в таком случае чувствительность критерия — 0,16.
Шансы выявить даже 25% различия были весьма малы.
Подведем итоги.
• Чувствительность критерия есть вероятность отвергнуть ложную гипотезу об отсутствии различий.
• На чувствительность критерия влияет уровень значимости:
чем меньше, тем ниже чувствительность.
• Чем больше величина эффекта, тем больше чувствительность.
• Чем больше объем выборки, тем больше чувствительность.
• Для разных критериев чувствительность вычисляется по-разному.
Рис. 6.9. Чувствительность критерия Стьюдента в зависимости от параметра нецентральности при уровне значимости = 0,05 для разных объемов выборок n.
Параметр нецентральности — это отношение величины различий к стандартному отклонению в совокупности: = /. Пунктирные линии показывают, как пользоваться графиками. Если, например, величина различий = 200 мл, стандартное отклонение = 200 мл, то = 1. Для объема выборок n = 10 чувствительность составляет 0,55. При = 0,55 и n = 9 чувствительность — всего лишь 0,16.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
ЧУВСТВИТЕЛЬНОСТЬ ДИСПЕРСИОННОГО АНАЛИЗА
Чувствительность дисперсионного анализа* определяется теми же факторами, что чувствительность критерия Стьюдента, похож и способ ее вычисления. Для расчета нам понадобятся следующие данные: число групп, их численность, уровень значимости и величина различий. Что понимать под величиной различий, если число групп больше двух? В качестве величины различий используют минимальную величину различий между любыми двумя группами. Параметр нецентральности рассчитывают по формуле:где — стандартное отклонение в совокупности, k — число групп, n — численность каждой из них**. Есть другой способ, несколько более сложный. Если µi, — среднее в i-й труппе, то где есть среднее по всем группам.
Определив параметр нецентральности, и зная межгрупповое число степеней свободы меж = k – 1, чувствительность находят по графикам, где она представлена как функция от параметра нецентральности. На рис. 6.10 изображены графики для меж = 2, графики для других значений меж вы найдете в приложении Б.
* Во вводном курсе этот раздел можно пропустить без ущерба для понимания последующего материала.
** Численность групп предполагается равной. Как и в случае критерия Стьюдента, именно равная численность групп обеспечивает максимальную чувствительность при заданной общей численности обследованных.
Те же графики можно использовать и для определения численности групп, обеспечивающей необходимую чувствительность. Это сложнее, чем в случае критерия Стьюдента, так как теперь n входит и в параметр нецентральности, и в выражение для числа степеней свободы вну. Поэтому значение n приходится подбирать путем последовательного приближения. Сначала вы произвольно выбираете начальное значение n и вычисляете чувствительность. В зависимости от найденного значения чувствительности вы изменяете n, после чего повторяете вычисление.
Эта процедура повторяется до тех пор, пока значение чувствительности не окажется достаточно близким к нужному.
БЕГ И МЕНСТРУАЦИИ
Чтобы получше разобраться с тем, как вычислить чувствительность и объем выборки при дисперсионном анализе, обратимся к примеру с влиянием бега на частоту менструаций, который мы разбирали в гл. 3 (рис. 3.9). Сейчас нас интересует, какова вероятность выявить различие в одну менструацию в год ( = 1). Число групп k = 3; стандартное отклонение = 2. Численность каждой из групп n = 26. Уровень значимости выбираем: = 0,05. Найдем параметр нецентральности:Межгрупповое число степеней свободы меж = k – 1 = 3 – 1 = и внутригрупповое вну = k(n – 1) =3(26 – 1) = 75. По рис. 6. находим, что чувствительность составит около 0,30.
Результат обескураживающий, что вообще характерно для расчетов чувствительности. Положим, нам хотелось бы иметь чувствительность равной 0,80. Какая численность групп нужна для этого? В том, что объем n = 26 слишком мал, мы только что убедились. Из рис. 6.10 мы видим, что параметр нецентральности должен быть приблизительно равен 2. Для n = 26 он близок к 1.
Значит, численность групп должна быть такой, чтобы параметр нецентральности увеличился вдвое. При вычислении из численности групп n извлекается квадратный корень, поэтому чиcЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Рис. 6.10. Чувствительность дисперсионного анализа как функция от параметра нецентральности при уровне значимости = 0,05 и межгрупповом числе степеней свободы меж = 2. В приложении Б вы найдете аналогичные графики для других значений и меж.
E. S. Pearson, H. O. Hartley. Charts for power function for analysis of variance tests, derived from the non-central F distribution. Biometrika, 38:112–130, ленность групп должна увеличиться в 22 = 4 раза. Таким образом, нужно, чтобы в каждую из групп входило по 100 человек.
Тогда и вну = k(n – 1) = 3(100 – 1) = 297. По рис. 6.10 находим, что в этом случае чувствительность составит 0,88, то есть даже больше, чем мы хотели. Поскольку стандартное отклонение может оказаться больше, чем мы думали, некоторый избыток чувствителности нам не помешает, однако резонно спросить, где же и на какие средства мы наберем такие группы. Нельзя ли хоть немного сократить их численность? Попробуем n = 75. Тогда и вну = 3(75 – 1) = 222. Рис. 6.10 показывает, что теперь чувствительность равна 0,80.
Таким образом, для того чтобы при уровне значимости = 0,05 с вероятностью 80% обнаружить в трех группах различие в одну менструацию в год, когда стандартное отклонение предположительно составляет 2 менструации в год, нужно набрать группы по 75 человек.
ЧУВСТВИТЕЛЬНОСТЬ ТАБЛИЦ СОПРЯЖЕННОСТИ*
Графиками с рис. 6.10 (и из приложения Б) можно воспользоваться для нахождения чувствительности и объема выборки при работе с таблицами сопряженности**. Сначала нужно решить, какое минимальное различие вы хотели бы обнаружить. В случае таблиц сопряженности это означает, что вам нужно заполнить клетки неВо вводном курсе этот раздел можно опустить.** Таблицу сопряженности 22 можно рассматривать как задачу сравнения двух долей. Как в этом случае вычислить чувствительность и объем выборки, вы поймете, решив задачу 6.6. Более подробно этот вопрос изложен в работе: A. F Feinstem. Clinical biostatistics. Mosby, St. Louis, 1977.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
Таблица 6.2. Обозначения, используемые при вычислении чувствительности критерия которыми долями. В таблице 6.2 приведены обозначения, используемые при вычислении чувствительности таблицы сопряженности, для примера взята таблица 32. Здесь рij — доля в i-й строке j-го столбца, например р11 — доля всех наблюдений в левой верхней клетке, p12 — доля наблюдений в правой верхней клетке, и так далее. Сумма всех долей составляет 1. Суммы по строкам обозначаются Ri, по столбцам — Сj. Параметр нецентральности задается формулой где r — число строк, с — число столбцов и N — общее число наблюдений. Зная значение и число степеней свободы вну = и меж = (r – 1)(с – 1), чувствительность можно определить по кривым с рис. 6.10.Для нахождения объема выборки, при котором достигается требуемая чувствительность, воспользуемся обратной процедурой. Именно, сначала по рис. 6.10 найдем значение параметра нецентральности для заданной чувствительности и числа степеней свободы меж = (r – 1)(с – 1) и вну =. А теперь найдем объем выборки, разрешив приведенную выше формулу относительно N:
Бег и менструации Дейл и соавт. изучали не только то, как занятия бегом влияют на частоту менструаций, но и то, какая доля женщин обращалась к врачу. (Этот пример мы подробно рассмотрели в гл. 5, см. табл.
5.5.) Допустим, мы хотим выявить различия не меньшие, чем в табл. 6.3. Уровень значимости = 0,05, общее число обследованных N = 165. Расссчитаем сначала сумму По рис 6.10 находим, что для = 2,50 при меж = (r – 1)(с – 1) = = (3 – 1)(2 – 1) = 2 и вну = степенях свободы и уровне значимости = 0,05 чувствительность равна 0,98.
ПРАКТИЧЕСКИЕ ТРУДНОСТИ
Нетрудно рассчитать чувствительность критерия задним числом, когда и стандартное отклонение, и величина эффекта уже известны. К сожалению, мы не знаем эти параметры, когда планируем исследование. Стандартное отклонение можно примерно оценить по литературным данным или проведя предварительное исследование. Величину эффекта узнать заранее невозможно (обычно ее оценка и является целью исследования). Поэтому при расчете чувствительности нужно указать минимальную величину эффекта, которую мы хотим выявить. Немногие решаются поведать миру о том, какова же эта величина, поэтоЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Таблица 6.3. Предполагаемые доли женщин, обращавшихся к врачу по поводу нерегулярности менструаци му чувствительность очень редко рассчитывают заранее. Между тем делать это совершенно необходимо: иначе мы рискуем проводить исследования, заведомо обреченные на неуспех.Если после проведения исследования эффект обнаружен, то чувствительность уже неважна. В противном случае — если эффекта не выявлено — она приобретает первостепенное значение. В самом деле, если мы не обнаружили статистически значимых различий при чувствительности 80%, то с высокой вероятностью можно утверждать, что различий действительно нет.
Иными словами, мы получили отрицательный результат. Если же чувствительность составляла 25%, то мы просто не получили никакого результата. Обычно данные, необходимые для определения чувствительности, содержатся в статье, поэтому читатель может сам провести расчет.
ЗАЧЕМ ВЫЧИСЛЯТЬ ЧУВСТВИТЕЛЬНОСТЬ?
Ранее, в 4 гл., мы разобрали распространенную ошибку, состоящую в многократном применении критерия Стьюдента. В терминах этой главы можно сказать, что многократное применение критерия Стьюдента увеличивает ошибку I рода. На практике же это означает, что нам сообщают о «статистически значимых различиях» там, где их в действительности нет. Теперь, познакомившись с методами определения чувствительности критерия и убедившись, насколько малой она нередко оказывается, мы можем судить о причинах этого явления. Многие исследования не имели бы никаких шансов на успех, если бы завершались одним единственным сравнением. Конечно, проще сравнить группы по целому ряду лабораторных показателей, чем сделать численГЛАВА ность групп достаточной для выявления разницы в летальности. С другой стороны, пренебрежение оценкой чувствительности приводит к тому, что во вполне корректно (в остальном) проведенном исследовании клинически значимый эффект остается невыявленным из-за слишком малой численности групп.Теперь мы получили достаточное представление о чувствительности, чтобы избежать этих ловушек. Мы узнали о том, как можно оценить чувствительность критерия по данным, приведенным в публикации, и как самому вычислить нужный объем выборок, чтобы обнаружить эффект заданной величины. Результаты таких вычислений часто разочаровывают, поскольку оказывается, что численность групп должна быть огромной (особенно в сравнении с тем обычно небольшим числом больных, которые участвуют в клинических исследованиях)*. Как бы то ни было, мы должны отдавать себе отчет в ограниченности наших возможностей. Однако заведомо несостоятельные исследования все же проводятся. Вряд ли авторы сознательно замалчивают недостаток чувствительности, рассчитывая, что благодаря эффекту множественных сравнений «что-нибудь найдется». На самом деле большинство из них просто никогда ничего не слышали о чувствительности критериев.
Фрейман и соавт.** изучили 71 публикацию*** по результатам контролируемых испытаний, проведенных в 1960—1977 гг., в которых исследуемый метод лечения не дал статистически значимого (Р < 0,05) улучшения исхода. Лишь в 20% работ численность групп была достаточной, чтобы обнаружить снижение частоты неблагоприятных исходов (смерть, осложнение и т. п.) на 25% с * По данным Р. А. и С. У. Флетчеров (R. A. Fletcher, S. W. Fletcher. Clinical research in general medical journals: a 30-year perspective. N. Engl. J. Med., 301:180—183, 1979), изучавших работы, опубликованные в Journal of the American Medical Association, Lancet и New England Journal of Medicine, в период с 1946 по 1976 г. медиана численности группы составляла от до 36 человек.
** J. A. Freiman, Т. С. Chalmers, H. Smith Jr., R. R. Kuebler. The importance of beta, the type II error and sample size in the design and interpretation of the randomized controlled trial. N. Engl. J. Med., 299:690—694, 1978.
*** В журналах Lancet, New England Journal of Medicine, Journal of the American Medical Association.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
вероятностью 50%. Только в одной статье говорилось, что уровень значимости и чувствительность были определены до начала исследования, 14 статей содержали указания на желательность большей численности групп.Пятнадцать лет спустя аналогичное исследование провели Моэр и соавт., рассмотрев публикации по результатам контролируемых испытаний в тех же журналах за 1990 г. Число публикаций по этой теме по сравнению с 1975 г. возросло вдвое, однако доля отрицательных результатов осталась прежней — около 27%. Доля исследований, обеспечивающих достаточную чувствительность, оказалась примерно той же, что и в работе Фреймана и соавт., однако расчет численности групп обнаружен уже в трети статей. Итак, некоторый прогресс налицо, хотя ситуация все же оставляет желать лучшего. Как и во всем, что касается применения статистических методов, полностью полагаться на авторов пока нельзя. Прежде чем принять вывод о неэффективности того или иного метода лечения, читателю следует самостоятельно оценить чувствительность примененного критерия.
Что же все-таки делать с работами, не обнаружившими эффекта из-за недостаточной численности групп*? Нужно ли махНеобходимость заранее определять численность групп ставит исследователей перед нелегким выбором: мириться с высоким риском не получить результат или проводить дорогостоящее широкомасштабное исследование. Эта проблема в значительной мере снимается методами последовательного анализа. При последовательном анализе численность групп не определяется заранее: вместо этого больных включают в исследование по одному. Дождавшись наступления того или иного исхода, выбирают одно из трех: 1) принять гипотезу об отсутствии эффекта, 2) отвергнуть гипотезу либо 3) включить еще одного больного. Последовательный анализ обычно обеспечивает те же величины и, что и обычные методы, при меньшей численности групп. Применять на каждом шаге критерий Стьюдента было бы неправильно: из-за эффекта множественных сравнений мы получили бы чрезмерно «оптимистическое» значение Р. Последовательный анализ требует применения специальных методов оценки статистической значимости, которые изложены в главе «Sequential analysis» книги W.
J. Dixon, F. J. Massey. Introduction to Statistical Analysis, McGraw-Hill, New York, 1969.
нуть рукой на полученные результаты или из них можно извлечь нечто полезное? Оказывается, можно. Для этого следует отказаться от альтернативной логики «эффект есть — эффекта нет»
и вместо этого оценить величину эффекта и степень неопределенности этой опенки, то есть рассчитать доверительный интервал, чем мы и займемся в следующей главе.
ЗАДАЧИ
6.1. Используя данные табл. 4.2, вычислите чувствительность критерия Стьюдента, способного обнаружить 50% различие наилучшего сердечного индекса между галотановой и морфиновой анестезией.6.2. По тем же данным определите, какова должна быть численность групп, чтобы с вероятностью 80% обнаружить 25% различие в наилучшем сердечном индексе.
6.3. Используя данные табл. 4.2, определите чувствительность критерия Стьюдента для выявления изменения среднего артериального давления и общего периферического сосудистого сопротивления на 25%.
6.4. В задаче 3.5 мы не обнаружили влияния внутривенного введения тетрагидроканнабинолов на антибактериальную защиту у крыс. Допустим, минимальное снижение, которое мы хотим выявить, составляет 20%, уровень значимости = 0,05.
Какова чувствительность критерия Стьюдента?
6.5. По тем же данным определите, какой должна быть численность групп, чтобы обеспечить выявление снижения антибактериальной защиты на 20% с вероятностью 90% (уровень значимости = 0,05).
6.6. Какой должна быть численность групп, чтобы с вероятностью 90% обнаруживать снижение летальности с 90 до 30%.
Уровень значимости = 0,05. При решении вам пригодятся табличные значения стандартного нормального распределения (табл. 6.4).
6.7. Используя данные из задачи 3.2, найдите вероятность обнаружить снижение максимальной объемной скорости середины выдоха на 0,25 л/с при уровне значимости = 0,05.
ЧТО ЗНАЧИТ «НЕЗНАЧИМО»: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ
Таблица 6.4. Процентили стандартного нормального распределения Отклонение z от среднего Площадь Площадь (в стандартных отклонениях) слева от z справа от z Таблица 6.4. Окончание Отклонение z от среднего Площадь Площадь (в стандартных отклонениях) слева от z справа от z 6.8. Используя данные из задачи 3.3, найдите вероятность обнаружить увеличение уровня липопротеидов высокой плотности на 5 и 10 мг%. Уровень значимости = 0,05.6.9. По тем же данным определите, какой должна быть численность групп, чтобы изменение в 5 мг% можно было обнаружить с вероятностью 80% при уровне значимости = 0,05.
6.10. В задаче 5.4 сравнивали частоту рецидивов инфекции мочевых путей после короткого курса того или иного антибактериального препарата. Допустим, минимальные различия, которые мы хотим выявить, таковы: в группах ампициллина и триметоприма/сулъфаметоксазола рецидив наступает у двух третей девочек, в группе цефалексина — у одной трети. Какой была бы чувствительность таблицы сопряженности при численности групп, указанной в задаче 5.4? Уровень значимости = 0,05.
6.11. Каким должен быть объем выборки, чтобы в задаче 6. чувствительность составила 80%?
До сих пор мы занимались в основном нахождением различий между группами, не слишком интересуясь величиной этих различий. Мы формулировали нулевую гипотезу, то есть предполагали, что экспериментальные группы — это просто две случайные выборки из одной и той же совокупности. Затем мы оценивали вероятность получить наблюдаемые различия при условии, что нулевая гипотеза верна. Если эта вероятность была мала, мы отвергали нулевую гипотезу и делали вывод, что различия статистически значимы. При таком подходе мы всегда получаем только качественный результат: либо отклоняем нулевую гипотезу, либо не отклоняем, либо признаем различия статистически значимыми, либо не признаем. Количественная оценка различий от нас ускользает. Между тем, как мы выяснили в предыдущей главе, вероятность выявления различий зависит не только от их величины, но и от численности групп. Сколь угодно малые различия при достаточно большой численности групп могут оказаться статистически значимыми, или, как пишут в диссертациГЛАВА ях, «высоко достоверными». При этом речь может идти о разнице в несколько миллиметров ртутного столба.
Характеристика, которая дополняет и даже заменяет качественное суждение (значимо—незначимо), — это доверительный интервал. В гл. 2 мы уже встречались с этим понятием, хотя и не применяли этот термин. Тогда мы выяснили, что истинное среднее в 95% случаев лежит на расстоянии не больше двух ошибок среднего от выборочного среднего. Промежуток длиной в четыре ошибки среднего — это и есть 95% доверительный интервал. Смысл доверительного интервала из этого примера достаточно ясен: мы не знаем точно, чему равна некоторая величина, но можем указать интервал, в котором она находится (с заданной вероятностью). В этой главе мы научимся определять доверительные интервалы для разных величин, в том числе для разности средних (величины эффекта) и доли. Мы покажем, что доверительный интервал можно использовать вместо обычных критериев значимости*. Доверительные интервалы используют также для определения границ нормы лабораторного показателя.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ СРЕДНИХ
В гл. 4 мы определили критерий Стьюдента как Стандартная ошибка разности выборочных средних Вычислив t, его сравнивают с критическим значением t для заданного уровня значимости. Для двух случайных выборок из одной совокупности вероятность получить значение t, по абсолютной величине превышающее t, весьма мала (а именно, не превышает ; напомним, что уровень значимости — это максимальная приемлемая вероятность ошибочно признать существование различий там, где их нет). Поэтому, получив «больСуществует мнение, что только доверительные интервалы и нужно использовать. Эта точка зрения кратко изложена в работе: К. J. Rothman. A show of confidence. N. Engl. J. Med., 299:1362—1363, 1978.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
шое» значение t, мы делаем вывод о статистической значимости различий.Для случайных выборок, извлеченных из одной совокупности, распределение всех возможных значений t (распределение Стьюдента) симметрично относительно среднего, равного нулю (см. рис. 4.5). Если же выборки извлечены из двух совокупностей с разными средними, то распределение всех возможных значений t будет иметь среднее, отличное от нуля (см. рис. 6.3 и 6.5).
Формулу для t можно видоизменить так, чтобы распределение t было всегда симметрично относительно нуля:
Разность выборочных средних – Разность Стандартная ошибка разности выборочных средних Заметим, что если обе выборки извлечены из одной совокупности, то разность истинных средних равна нулю и в этом случае новая формула совпадает с предыдущей.
Вот математическая запись новой формулы:
Поскольку истинных средних (то есть средних по совокупности) мы не знаем, то и вычислить значение t по этой формуле мы не можем. Но эта формула и не предназначена для нахождения t.
Она позволяет сделать другое — оценить разность µ1 – µ2, то есть истинную величину различий. Для этого вместо вычисления t выберем его подходящее значение и, подставив в формулу, вычислим величину µ1 – µ2. Как выбрать «подходящее» значение?
По определению 100 процентов всех возможных значений t расположены левее –t или правее +t. Остальные 100(1 – ) процентов значений t попадают в интервал от –t до +t. Например, 95% значений t находится в интервале от –t0,05 до +t0,05. (Критические значения t, в частности t0,05, можно найти по табл. 4.1.) Значит, в 100(1 – ) процентах всех случаев Преобразуя это неравенство, получаем Таким образом, разность истинных средних отличается от разности выборочных средних менее чем на произведение t и стандартной ошибки разности выборочных средних. Это неравенство задает доверительный интервал для разности средних µ1 – µ2. К примеру, 95% доверительный интервал для разности средних определяется неравенством В этот интервал разность истинных средних попадет в 95% случаев.
Этот способ определения доверительного интервала, как и критерий Стыодента, на котором он основан, можно применять только тогда, когда совокупность имеет хотя бы приближенно нормальное распределение*.
Эффективный диуретик На рис. 6.1 показан суточный диурез в совокупности из 200 человек после приема плацебо (рис. 6.1 А) и диуретика (рис. 6.1Б).
Средний диурез при приеме плацебо составил µп = 1200мл, при приеме диуретика — µд = 1400 мл. Таким образом, препарат увеличивает суточный диурез на µд – µп = 1400 – 1200 = 200 мл. Как обычно, исследователь вынужден довольствоваться выборками, по которым он и оценивает величину эффекта. На рис. 6.1 помимо известных нам, но не исследователю, данных по совокупности приведены данные, полученные по двум выборкам, в каждую из которых входило по 10 человек. В контрольной группе средний диурез составил 1180 мл, а в группе, получавшей диуретик, — 1400 мл. Среднее увеличение диуреза в данном опыте:
Как и всякая выборочная оценка, подверженная влиянию * Доверительные интервалы можно определять и в случае множественных сравнений. Подробнее об этом см.: J. H. Zar. Biostatistical analysis, 2nd ed, Prentice-Hall, Englewood Cliff, N. J., 1984, p. 191-192, 195.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
случая, эта величина отличается от истинного увеличения суточного диуреза, равного 200 мл. И если бы мы, основываясь на выборочных данных, сказали, что препарат увеличивает суточный диурез в среднем на 220 мл, то упустили бы из виду неопределенность, присущую выборочной оценке. Правильнее будет рассчитать доверительный интервал — он покажет не одно число, скорее всего не совпадающее с истинным, а диапазон чисел, куда истинное попадает почти наверняка (например, с вероятностью 95%).Вычислим сначала объединенную оценку дисперсии. По ней мы сможем найти стандартную ошибку разности средних. Стандартные отклонения у принимавших диуретик и плацебо составили соответственно 245 и 144 мл. В обеих группах было по человек. Объединенная оценка дисперсии Стандартная ошибка разности средних Для определения 95% доверительного интервала найдем по табл. 4.1 значение t0,05. Объем каждой из выборок n = 10. Поэтому число степеней свободы = 2(n – 1) = 2(10 – 1) = 18. Соответствующее табличное значение t0,05 равно 2,101.
Теперь можно вычислить 95% доверительный интервал для среднего изменения диуреза:
то есть и окончательно:
Таким образом, 95% доверительный интервал среднего изменения диуреза составляет 31—409 мл. Иными словами, выбоГЛАВА
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
рочные данные позволяют с 95% надежностью утверждать, что препарат увеличивает диурез более чем на 31 мл, но менее чем на 409 мл. Как и следовало ожидать, истинное значение 200 мл находится в этом интервале.Первый из рассчитанных нами доверительных интервалов изображен на рис. 7.1А.
Другие выборки Понятно, что в нашем распоряжении могли оказаться совершенно другие выборки. Ранее мы видели, что разные выборки дают разные оценки среднего и стандартного отклонения. Точно так же по разным выборкам мы будем получать разные доверительные интервалы. (И не удивительно — ведь доверительный интервал рассчитывают по среднему и стандартному отклонению.) Мы вычислили интервал по выборкам с рис 6.1. Для другой пары выборок — например с рис. 6.2 — доверительный интервал будет другим. Вычислим его.
Суточный диурез в группе плацебо составил в среднем 1216 мл, а в группе, получавшей диуретик, — 1368 мл. Стандартные отклонения — 97 и 263 мл соответственно. Увеличение среднего диуреза при приеме препарата X Д X П = 1368 – 1216 = 152 мл. Находим объединенную оценку дисперсии:
Рис. 7.1. Новый взгляд на испытания диуретика. А. 95% доверительный интервал изменения диуреза, вычисленный по данным с рис. 6.1 В. Интервал содержит истинную величину изменения (+200 мл) и не содержит нуля. Последнее говорит о том, что изменение диуреза статистически значимо. Б. Такой же доверительный интервал, вычисленный по данным с рис. 6.2В. Он тоже содержит истинную величину изменения диуреза, но он содержит также и ноль: статистически значимого изменения диуреза не выявлено. В. Еще сорок восемь 95% доверительных интервалов для пар выборок, извлеченных из той же пары совокупностей (рис. 6.1 А и Б).
Теперь у нас в общей сложности 50 доверительных интервалов. Из них 3 не содержат истинного значения и 27 не содержат нуля. Если бы мы построили 95% доверительные интервалы по всем возможным парам выборок, то доля не содержащих истинного значения составила бы 5%, а доля не содержащих нуля – 55%, что соответствует чувствительности критерия.
и стандартную ошибку разности средних:
Тогда 95% доверительный интервал для среднего изменения суточного диуреза:
Этот интервал (рис. 7.1 Б) отличается от полученного ранее.
Однако и он содержит истинное среднее увеличение диуреза — 200 мл. Если бы в нашем распоряжении была только выборка с рис. 6.2, мы бы сказали, что на 95% уверены в том, что препарат увеличивает средний диурез на величину, меньшую 339 и большую –35 мл. Заметьте, на сей раз доверительный интервал включает и отрицательные значения. Тем самым, выборочные данные не противоречат тому, что «диуретик» в действительности может уменьшать диурез. Значение этого интересного обстоятельства мы разберем позже, когда будем обсуждать использование доверительных интервалов для проверки гипотез.
Пока что мы определили доверительные интервалы для двух пар выборок из совокупности, изображенной на рис. 6.1. На самом деле число возможных пар выборок превышает 1027. На рис.
7.1В показаны 95% доверительные интервалы для 48 из них. Теперь у нас в общей сложности 50 доверительных интервалов. Еще раз убедившись, что разные выборки дают разные доверительные интервалы, заметим, что большинство из них — точнее 47 из — содержат истинное значение, показанное на рис. 7.1 вертикальной пунктирной линией. Если бы мы перебрали все возможные выборки, то доля 95% доверительных интервалов, содержащих истинное значение, составила бы в точности 95%.
ИНТЕРВАЛ ШИРЕ — ДОВЕРИЯ БОЛЬШЕ
Мы только что убедились, что 95% доверительный интервал может и не содержать истинного значения, однако, как правило, онДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
его содержит — а именно, в 95% случаев. Вообще, истинное значение содержат k процентов k-процентных доверительных интервалов. Иными словами, k — это вероятность того, что интервал содержит истинное значение. От этой вероятности k зависит ширина интервала. Взглянем еще раз на рис. 7.1. Если мы хотим, чтобы больше интервалов перекрывало истинное значение, нам придется их расширить. Чем больше k, тем шире k-процентный доверительный интервал. Для примера вычислим, в дополнение к 95%, еще и 90 и 99% доверительные интервалы для двух выборок с рис. 6.1. Разность средних и стандартная ошибка разности средних у нас уже есть, осталось только по табл. 4.1 найти новые значения t (по-прежнему число степеней свободы = 18).Для 90% доверительного интервала находим t0,01 = 1,734.
Тогда:
По сравнению с 95%, 90% доверительный интервал более узкий (рис. 7.2). Неужели волшебным образом наши знания о величине µд – µп стали более точными? Разумеется, нет. Сужение доверительного интервала досталось нам ценой снижения вероятности того, что он действительно содержит истинное значение.
Для вычисления 99% доверительного интервала находим в табл. 4.1 критическое значение t0,01 = 2,878. Тогда интервал имеет вид то есть Это самый широкий доверительный интервал из трех изображенных на рис. 7.2.
Подведем итоги. Приводя k-процентный доверительный интервал, мы сообщаем, во-первых, в каких пределах находится истинное значение неизвестной нам величины и, во-вторых — с какой вероятностью k. Например, говоря: «95% доверительный Рис. 7.2. Три доверительных интервала одной и той же разности средних (см. рис. 6.1).
99% доверительный интервал самый широкий, 90% — самый узкий. Истинная разность средних (изменение суточного диуреза) показана вертикальной пунктирной линией.
интервал 31—409 мл», имеют в виду следующее: «Вероятность того, что истинное значение лежит в пределах 31—409 мл, составляет 95%». Не исключено, к сожалению, что вам не повезет и истинное значение окажется вне доверительного интервала.
С 95% доверительными интервалами такое случается в 5% случаев. Желая застраховаться от подобной ошибки, вы можете рассчитать 99% доверительный интервал. Однако учтите, что он окажется шире 95% доверительного интервала. Вообще, чем больше k (вероятность того, что доверительный интервал содержит истинное значение), тем больше ширина интервала.
ПРОВЕРКА ГИПОТЕЗ С ПОМОЩЬЮ ДОВЕРИТЕЛЬНЫХ
ИНТЕРВАЛОВ
Доверительные интервалы можно использовать для оценки статистической значимости различий. Это и не удивительно, ведь диционными методами проверки гипотез. И там и тут мы встречаем разность выборочных средних, ее стандартную ошибку и распределение Стьюдента.Истинная разность средних может находиться в любой точке доверительного интервала, поэтому если доверительный интервал содержит ноль, то мы не можем отвергнуть возможность того, что µд – µп = 0, то есть нулевую гипотезу. С другой стороны, нахождение истинной разности средних вне доверительного интервала маловероятно. Поэтому, если доверительный интервал не содержит нуля, справедливость нулевой гипотезы о равенстве средних маловероятна. Можно сформулировать следующее правило.
Если 100(1 – )-процентный доверительный интервал разности средних не содержит нуля, то различия статистически значимы (Р < ); напротив, если этот интервал содержит ноль, то различия статистически не значимы (Р > ).
Применим это правило к двум только что рассмотренным примерам. На рис. 7.1 А 95% доверительный интервал не содержит нуля, поэтому, как и при использовании критерия Стьюдента, мы заключаем, что препарат увеличивает диурез (уровень значимости = 0,05). Напротив, 95% доверительный интервал на рис. 7.1Б содержит ноль. Значит, в данном случае мы не можем отвергнуть гипотезу об отсутствии эффекта. К такому же выводу мы пришли раньше, используя критерий Стьюдента.
Из пятидесяти 95% доверительных интервалов на рис. 7.1 двадцать три содержат ноль. Следовательно, 23/50 = 44% соответствующих выборок не дают оснований говорить о статистически значимых различиях (то есть о наличии эффекта) при уровне значимости 1 – 0,95 = 0,05. Если бы в нашем распоряжении были все возможные доверительные интервалы, мы увидели бы, что 45% из них содержат ноль. Это значит, что в 45% случаев мы не сможем отвергнуть гипотезу об отсутствии эффекта, то есть совершим ошибку II рода. Следовательно, как и прежде (см. рис. 6.4), = 0,45, а чувствительность критерия равна 1 – 0,45 = 0,55.
Говоря о «статистически значимых различиях», всегда полезно привести еще и доверительный интервал — это даст возможность судить о величине эффекта. Если статистическая значимость обнаружена благодаря большому объему выборки, а не величине эффекта, доверительный интервал укажет на это. Другими cловами, использование доверительных интервалов позволяет среди статистически значимых эффектов выделить те, которые сами по себе слишком слабы, чтобы иметь клиническое значение.
Предположим, мы должны оценить эффективность гипотензивного препарата. Мы набираем две группы по 100 человеке каждой — контрольную, которой даем плацебо, и экспериментальную, которой даем препарат. Пусть в экспериментальной группе диастолическое давление составило в среднем X э = 81 мм рт.ст. (стандартное отклонение 11 мм рт. ст.), а в контрольной — X к = 85 мм рт. ст.
(стандартное отклонение 9 мм рт. ст.). Для оценки статистической значимости различий воспользуемся критерием Стьюдента.
Объединенная оценка дисперсии составляет откуда Это значение по абсолютной величине больше критического значения t0,01 = 2,601 для уровня значимости 0,01 и числа степеней свободы = 2(n – 1) = 198 (см. табл. 4.1). Таким образом, снижение диастолического артериального давления статистически значимо (Р < 0,01).
Мы обнаружили статистически значимый эффект. Но какова его клиническая значимость? Вычислим 95% доверительный интервал для разности средних. Так как при 198 степенях свободы t0,05 равно 1,972 (см. табл. 4.1), доверительный интервал имеет вид то есть Таким образом, с вероятностью 95% препарат снижает артериальное давление на 1,2—6,8 мм рт. ст. Этот эффект невелик, особенно если сравнить его со стандартными отклонениями (9 и
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
11 мм рт. ст.). Итак, гипотензивный эффект выражен слабо, а его статистическая значимость обусловлена исключительно большой численностью групп.Приведенный пример наглядно показывает, почему, знакомясь с исследованием эффективности того или иного препарата, важно знать не только уровень значимости, но и величину эффекта.
Авторы публикаций редко балуют читателя доверительными интервалами, но обычно все же указывают численность групп, средние величины и их стандартные ошибки. В таких случаях нужно самостоятельно рассчитать стандартные отклонения (произведение стандартной ошибки среднего на квадратный корень из численности группы) и построить доверительный интервал. Этого часто достаточно, чтобы понять, имеет исследование сугубо академическую или еще и практическую ценность.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО
Продолжим рассматривать разнообразные применения доверительных интервалов. Найдем доверительный интервал для среднего. Определив выборочное среднее X, мы понимаем, разумеется, что это всего лишь выборочная оценка истинного среднего µ, которое, впрочем, скорее всего находится где-то поблизости. «Где-то поблизости» можно охарактеризовать количественно, то есть указать интервал, в котором с заданной вероятностью k находится истинное среднее. Это и будет k-процентный доверительный интервал для среднего.Приближенный способ вычисления этого интервала изложен в гл. 2: примерно в 95% случаев выборочное среднее уклоняется от истинного не более чем на две стандартные ошибки среднего.
Осталось внести некоторые уточнения.
Ранее мы выяснили, что величина Разность выборочных средних – Разность Стандартная ошибка разности выборочных средних подчиняется распределению Стьюдента. Можно показать, что Выборочное среднее – Истинное среднее t = Стандартная ошибка среднего также подчиняется распределению Стьюдента. Математическая запись для последней величины выглядит так:
Дальнейший вывод аналогичен выводу доверительного интервала для разности истинных средних. Опустив промежуточные этапы, приведем формулу 100(1 – )-процентного доверительного интервала для среднего:
где t — критическое значение t для уровня значимости и числа степеней свободы = n – 1 (n — объем выборки).
Смысл доверительного интервала для среднего совершенно аналогичен смыслу доверительного интервала для разности средних. Приводя k-процентный доверительный интервал среднего, мы утверждаем, что вероятность того, что истинное среднее находится в этом интервале, равна k. Иными словами, если получить все возможные выборки из некоторой совокупности и для каждой рассчитать k-процентный доверительный интервал, то доля интервалов, содержащих среднее по совокупности (истинное среднее), составит k.
Вычислить доверительный интервал несложно, однако — если объем выборки достаточно велик — можно пользоваться и приведенным выше «правилом двух стандартных ошибок». Для выборок, имеющих объем от 20 и выше, t0,05 приблизительно равно 2 (см. табл. 4.1), и мы получим достаточно точный результат.
Если же объем выборки меньше 20, доверительный интервал окажется зауженным, а наше представление о точности, с какой мы можем судить об истинном среднем, — преувеличенным.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ ДОЛЕЙ
Изложенные способы вычисления доверительных интерваловДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
нетрудно приспособить для разности долей. В гл. 5 мы определили критерий z как Разность выборочных долей z = Стандартная ошибка разности выборочных долей Величина z имеет приблизительно нормальное распределение; в гл. 5 мы использовали z для проверки гипотезы о равенстве двух выборочных долей (или, что то же самое, для оценки статистической значимости различий выборочных долей). Можно показать, что даже если в совокупностях, из которых извлечены выборки, доли различны, то отношение Разность выборочных долей – Разность истинных долей z = Стандартная ошибка разности выборочных долей приближенно следует нормальному распределению — при условии, что объемы выборок достаточно велики.Если р1, и р2 — истинные доли в каждой из совокупностей, а p1 и p2 — выборочные оценки этих долей, то В 100(1 – ) процентах случаев z по абсолютной величине не превышает z, то есть Преобразовав это неравенство, мы получим формулу для 100(1 – )-процентного интервала для разности истинных долей:
Как вы помните, распределение Стьюдента с увеличением числа степеней свободы стремится к нормальному. Поэтому z можно найти в табл. 4.1 — в строке, соответствующей бесконечному числу степеней свободы.
Чаще всего используют 95% доверительный интервал, в этом случае z = z0,05 = 1,96.
Галотан и морфин: операционная летальность В гл. 5 мы сравнивали операционную летальность при галотановой и морфиновой анестезии и не нашли статистически значимых различий. Посмотрим, каков 95% доверительный интервал для различия летальностей.
В группе галотана умерли 8 оперированных из 61, доля умерших p1 = 8/61 = 0,13. В группе морфина умерли 10 из 67, p2 = 0,15.
Разность долей равна p1 p2 = 0,13 – 0,15 = –0,02. Объединенная оценка доли и стандартная ошибка разности Тем самым, 95% доверительный интервал для различия летальности имеет вид:
то есть –0,020 – 1,960 0,062 < p1 – p2 < –0,020 + 1,960 0, и окончательно 0,142 < p1 p2 < 0,102.
Итак, с вероятностью 95% можно утверждать, что истинная величина различия попадает в интервал между –14,2 и 10,2%.
Вычисленный доверительный интервал содержит ноль, поэтому различия летальности статистически не значимы*.
* При использовании поправки Йейтса нужно раздвинуть границы доверительного интервала, соответственно уменьшив нижнюю и увеличив верхнюю на величину (1/n1 + 1/n2)/2.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
Тромбоз шунта у больных на гемодиализе В гл. 5 мы рассмотрели влияние аспирина на риск тромбоза шунта у больных на гемодиализе. Доля больных с тромбозом в группе плацебо составила 72%, а в группе, получавшей аспирин, — 32%.Мы уже убедились, что это различие статистически значимо.
Однако мы не можем утверждать, что «аспирин снижает риск тромбоза на 40%», — правильнее будет указать доверительный интервал для снижения риска. Стандартную ошибку разности долей мы уже рассчитали в гл. 5, она составляет 0,15. Поэтому 95% доверительный интервал для истинной разности долей имеет вид 0,40 – 1,96 0,15 < pп – pa < 0,40 + 1,96 0,15, то есть 0,11 < pп – pa < 0,69.
Таким образом, в вероятностью 95% можно утверждать, что прием аспирина снижает риск тромбоза на величину от 11 до 69%.
Отрицателен ли «отрицательный» результат?
В гл. 6 мы познакомились со статьей Фреймана и соавт. Они рассмотрели 71 медицинскую публикацию, в которых исследуемый метод лечения не дал статистически значимого снижения частоты неблагоприятных исходов (под неблагоприятным исходом в разных статьях понимали смерть, осложнения и т. п.). Фрейман и соавт. обнаружили, что в большинстве работ численность групп была слишком мала, чтобы обеспечить достаточную чувствительность. Неужели столь огромный труд пропал даром? Попробуем получить из этих работ хоть какую-то информацию.
На рис. 7.3 представлены 90% доверительные интервалы величины эффекта (разность долей неблагоприятных исходов в контрольной и экспериментальной группах). Статистически значимых различий не было выявлено ни в одном случае, поэтому все они содержат ноль. Посмотрим на верхнюю границу доверительных интервалов. Можно заметить, что во многих случаях она отличается от нуля всего на несколько процентов. Иными словами, с вероятностью 90% мы можем утверждать, что эффект, если и существует, весьма незначителен. Дальнейшие исследования Рис. 7.3. 90% доверительные интервалы величины эффекта в 71 клиническом испытании. Здесь величина эффекта — это разность долей больных с неблагоприятным исходом в контрольной и экспериментальной группах. Поскольку статистически значимого эффекта не было выявлено ни в одном случае, все доверительные интервалы содержат ноль. Видно, что некоторые доверительные интервалы довольно сильно смещены в сторону положительных значений — возможно, при большем числе больных различия достигли бы статистической значимости. В других случаях верхняя граница интервала превышает ноль всего на несколько процентов. Можно сделать вывод, что если соответствующие методы лечения и дают эффект, то очень незначительный.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
соответствующих методов лечения вряд ли перспективны. Верхняя граница некоторых интервалов простирается до 30% и даже до 40%. Напомним, что с вероятностью 90% мы можем утверждать, что истинная величина находится внутри доверительного интервала, но где именно — определить невозможно. Поэтому не исключено, что соответствующие методы лечения все же эффективны и при большей численности групп это удалось бы доказать. Если мы решим повторить испытание, то при его планировании стоит учесть полученные оценки. Было бы неразумно, например, рассчитывать чувствительность и численность групп, полагая, что величина эффекта достигнет 50%.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ДОЛИ
Если объем выборки достаточно велик, то доверительный интервал для доли можно приближенно вычислить, используя нормальное распределение*.Когда выборка мала (а в медицинских исследованиях так оно обычно и бывает), приближение нормальным распределением недопустимо. В таких случаях приходится вычислять точные значения доверительных интервалов, используя биномиальное распределение. Чтобы не обременять читателя вычислительными тонкостями, мы чуть позже приведем графический способ нахождения доверительных интервалов по малым выборкам. Заметим, что при оценке долей по выборкам небольшого объема расчет доверительного интервала особенно желателен. Причина в том, что, если выборка мала, изменение признака даже у одного из ее членов приведет к резкому изменению долей.
Наблюдаемая доля – Истинная доля Стандартная ошибка долей Итак, при достаточно большом объеме выборки величина приближенно следует нормальному распределению (см.
табл. 6.4).
* Как говорилось в гл. 5, для этого нужно, чтобы и пр и п(1 – р) были больше 5 (здесь n — объем выборки, р — доля).
Математическая запись для z:
Отсюда уже знакомым способом получаем формулу для 100(1 – )-процентного доверительного интервала для истинной доли:
Доля статей, содержащих статистические ошибки Как видно из рис. 1.3, доля статей с ошибками в применении статистических методов за последние несколько десятков лет составляет 40—60%. Глядя на график, можно подумать, что доля эта с годами снижается. Однако рассмотрены были далеко не все статьи, поэтому точки — это всего лишь оценки истинной доли. Построим 95% доверительный интервал для последней точки — может быть, наше впечатление изменится.
Последняя точка соответствует периоду с января по март 1976 г.
Из оригинальных статей, опубликованных в этот период, С. Гор и соавт.* рассмотрели 77, статистические ошибки были обнаружены в 32. Выборочная доля составляет p = 32/77 = 0,42, ее стандартная ошибка Тогда 95% доверительный интервал имеет вид 0,42 – 1,96 0,056 < p < 0,42 + 1,96 0,056, то есть В этот интервал попадают обе оценки, сделанные в 60-х гоS. M. Gore, I. G. Jones, E. С. Rytter. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. Br. Med. J., l(6053):85–87, 1977.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
дах. Вряд ли это позволяет утверждать, что ситуация меняется к лучшему.Ошибки плодят ошибки. Авторы обзоров, опираясь на неверные данные оригинальных статей, делают неверные выводы, которые воспринимаются читателями как последнее слово медицинской науки. Насколько широко распространено это явление?
На несостоятельные данные оригинальных статей опирались авторы 5 из 62 обзорных статей, рассмотренных Гор. Таким образом, Тогда 95% доверительный интервал для доли обзорных статей, содержащих необоснованные выводы, имеет вид:
0,081 – 1,960 0,035 < p < 0,081 + 1,960 0,035.
То есть это интервал от 1,2 до 15%.
Точные доверительные интервалы для долей Часто объем выборки или наблюденная доля слишком малы, чтобы использовать приближение с помощью нормального распределения*. В подобных случаях следует воспользоваться точным распределением. Это так называемое биномиальное распределение. Оно чрезвычайно важно для медицинских исследоваПричина, позволившая нам (в этой главе и гл. 5) использовать нормальное распределение вместо биномиального, состоит в том, что с ростом объема выборки биномиальное распределение стремится к нормальному. Это следует из сформулированной в гл. 2 центральной предельной теоремы. Более подробное изложение можно найти в: W. J. Dixon, F. J. Massey. Introduction to statistical analysis, McGrawНill, New York, 1983, sec. 13–5, Binomial distribution: proportion, и В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction, Wiley, New York, 1977, Chap. 7, Statistical Inference for Dichotomous Variable.
Рис. 7.4. 95% доверительные интервалы для долей, вычисленные на основании биномиального распределения. Найдите на горизонтальной оси точку, соответствующую выборочной доле. Проведите через эту точку вертикальную линию. Границы доверительного интервала — это вертикальные координаты точек пересечения этой линии с парой кривых, соответствующих объему выборки n.
ний, в которых часто приходится иметь дело с редкими событиями и выборками малого объема.
Сначала покажем, к чему приводит неправомерное использование метода, основанного на нормальном распределении. Рассмотрим пример, в котором пр < 5, то есть нарушено одно из условий применимости нормального распределения. Испытывая новый препарат, мы дали его 30 добровольцам, и, к счастью, ни у
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
одного из них препарат не оказал побочного действия. Выборочная оценка риска побочного действия Вряд ли можно на этом основании гарантировать, что препарат никогда не окажет побочного действия. Чтобы получить более реалистичную оценку, вычислим 95% доверительный интервал для р.Какие результаты даст расчет, основанный на использовании нормального распределения? Имеем p = 0, поэтому Тем самым, 95% доверительный интервал состоит из единственной точки — нуля. Возможно, это неплохо для рекламы нового препарата, но, увы, противоречит здравому смыслу.
Обратимся теперь к рис. 7.4. Чтобы определить доверительный интервал, основанный на биномиальном распределении, нужно сначала найти на горизонтальной оси точку, соответствующую выборочной доле p. Затем нужно провести из нее перпендикуляр и посмотреть, где его пересекает пара кривых, помеченных числом, равным объему выборки. Вертикальные координаты точек пересечения — это и есть границы 95% доверительного интервала. В нашем примере p = 0 и п = 30. Нижняя граница доверительного интервала — 0, верхняя — около 0,1.
Тем самым с вероятностью 95% мы можем утверждать, что риск побочного действия не превысит 10%.
Предположим, что в одном случае из 30 препарат все-таки оказал побочное действие. Тогда p = 1/30 = 0,033 и Используя нормальное приближение, мы получили бы 0,033 – 1,96 0,033 < р < 0,033 + 1,96 0,033, то есть –0,032 < р < 0,098.
Понятно, что ни в каком случае доля не может быть отрицательной величиной, хотя величина интервала, как окажется, определена правильно.
Какой интервал даст биномиальное распределение? По рис. 7. находим, что это интервал от 0 до примерно 0,13. Обратите внимание, что он не сильно отличается от интервала, найденного для p = 0. Так и должно быть, ведь различие между отсутствием осложнений и одним осложнением весьма незначительно.
Заметьте, что чем меньше объем выборки, тем сильнее он влияет на величину доверительного интервала. Предположим, мы бы дали препарат не 30, а 10 добровольцам. Тогда нижний предел 95% доверительного интервала, конечно, остался бы нулем, но верхний был бы уже не 13, а 33%.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ЗНАЧЕНИЙ*
До сих пор нас интересовали доверительные интервалы для тех или иных параметров распределения, например среднего µ или доли р. Нередко, однако, нужен доверительный интервал для самих значений измеряемого признака. Например, мы хотим оценить диапазон, в который будет попадать 95% всех значений.Особенно часто подобные задачи возникают при определении границ нормы какого-нибудь лабораторного показателя. Обычно доверительный интервал значений определяют как выборочное среднее плюс-минус два стандартных отклонения. Если мы имеем дело с нормальным распределением и объем выборки достаточно велик (больше 100 человек), то правило двух стандартных отклонений дает верный результат. Как быть, если в нашем распоряжении не 100, а менее двух десятков человек, что довольно типично для клинических исследований? Разумеется, об определении границ нормы по столь малой выборке нечего и думать. Тем не менее оценку доверительного интервала можно получить и тут. Однако от правила двух стандартных отклонений * Описанные ниже методы применимы только к данным, приближенно подчиняющимся нормальному распределению.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ
Рис. 7.5. 95% доверительные интервалы для роста марсиан, вычисленные по трем выборкам с рис. 2.6. А. В качестве доверительного интервала использовали среднюю величину плюс-минус два стандартных отклонения. Результат оставляет желать лучшего: два интервала из трех не покрывают истинного интервала, заключающего 95% значений. Б. Доверительные интервалы определили как среднее плюс-минус произведение К 0,05 на стандартное отклонение.Ситуация улучшилась — теперь истинный интервал покрывают два интервала.
придется отказаться: при малых выборках интервал получается слишком узким.