«Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D. Professor of Medicine Member, Cardiovascular Reserch Institute Member, Institute for Health Policy Studies University of California, San ...»
Расположим плутониан по возрастанию длительности наблюдения (табл. 11.1) и укажем саму эту длительность во второй колонке таблицы. Длительность наблюдения выбывших плутониан пометим знаком «+» — это будет означать, что плутонианин прожил более такого-то срока, а на сколько — неизвестно. Первый плутонианин (К) умер через 2 часа, второй (З) — через 6 часов после начала наблюдения. На 7-м часу умерли двое — А и В, на этом же сроке выбыл из-под наблюдения плутонианин И.
Первый плутонианин умер в 2 часа. Наблюдались в это время все 10 плутониан. Значит, вероятность умереть в 2 часа — d2/n2 = 1/10 = 0,1. Соответственно, вероятность не умереть в часа для тех, кто дожил до этого времени:
Таблица 11.1. Результаты исследования продолжительности жизни плутониан после начала пассивного курения.
Следующий плутонианин умер в 6 часов. Наблюдалось к этому времени 9 плутониан. Для доживших до 6 часов вероятность умереть в 6 часов — d6/n6 = 1/9 = 0,111, а вероятность не умереть в 6 часов Теперь мы можем оценить вероятность, что плутонианин проживет более 6 часов, то есть S (6 ). Прожить более 6 часов — это значит не умереть в 2 часа и не умереть в 6 часов. То есть, по правилу умножения вероятностей, Уже рискуя надоесть читателю однообразными рассуждениями, перейдем к следующему печальному событию. В 7 часов умерло сразу 2 плутонианина, наблюдалось к этому времени 8.
Имеем Внимательному читателю может показаться, что мы зря усложняем дело. Действительно, приведя сложные выкладки, мы получили то, что и так было очевидно: если через 7 часов умерло четверо из десяти плутониан, то дольше 7 часов прожило шестеро и выживаемость составляет S (7 ) = 6/10 = 0,600.
Еще терпение! До сих пор у нас не было выбывших, поэтому результаты и совпадают. Посмотрим, что будет в 8 часов. В часов умирает плутонианин Е. Наблюдаются к этому времени плутониан (4 умерли, 1 выбыл: 10 – 4 – 1 = 5).
Если бы мы считали «долю выживших» старым способом, мы бы получили для S (8 ) оценку 0,5. В дальнейшем, чем больше будет выбывших, тем больше будет и расхождение.
Описанная процедура называется расчетом выживаемости моментным методом, или методом Каплана—Мейера.
Математическое выражение моментного метода:
где d t — число умерших в момент t, nt — число наблюдавшихся к моменту t, П (большая греческая буква «пи») — символ произведения. В данном случае она означает, что надо перемножить значения (1 – d t/nt ) для всех моментов, когда произошла хотя бы одна смерть. В принципе, можно перемножать и по остальным моментам, однако, если d t = 0, то (1 – d t/nt) = 1, а умножение на единицу на результате никак не скажется.
В табл. 11.2 расчет выживаемости моментным методом приведен полностью. Теперь мы можем представить результаты исследования выживаемости плутониан после начала пассивного курения в виде графика (рис. 11.3). Точки на графике соответствуют моментам, когда умер хотя бы один из наблюдавшихся. Эти точки обычно соединяют Таблица 11.2. Расчет кривой выживаемости плутониан после начала пассивного курения.
ставляет 1,0, затем постепенно снижается. В данном случае умерли не все наблюдавшиеся — поэтому нуля линия не достигает.
Медиана выживаемости Наиболее полная характеристика выживаемости — это кривая выживаемости, которую мы только что построили. Хотелось бы, однако, иметь и обобщенный показатель, характеризующий выживаемость в виде одного числа. Распределение по продолжительности жизни, как правило, асимметрично, поэтому лучше всего тут подходит медиана. Определение медианы выживаемости для совокупности мы дали выше. Для выборки медиана выживаемости определяется как наименьшее время, для которого выживаемость меньше 0,5.
Чтобы определить медиану выживаемости, нужно построить кривую выживаемости и посмотреть, где она впервые опускается ниже 0,5. Например, на рис. 11.3 это произошло в часов. Аналогично медиане могут быть вычислены другие процентили выживаемости.
Если число умерших меньше половины числа наблюдаемых, медиану определить невозможно.
Рис. 11.3. Эта кривая выживаемости плутониан после начала пассивного курения рассчитана по данным с табл. 11.1; ход вычислений показан в табл. 11.2. Кривая представляет собой ступенчатую линию, каждой ступеньке соответствует момент смерти одного или нескольких плутониан.
Стандартная ошибка и доверительные интервалы выживаемости Как всегда при исследовании выборки, полученная нами кривая выживаемости на самом деле представляет собой оценку кривой выживаемости. Если бы мы могли определить продолжительность жизни всех плутониан, подвергшихся пассивному курению, мы получили бы гладкую кривую вроде изображенной на рис. 11.2. Оценку точности приближения дает стандартная ошибка выживаемости; ее можно рассчитать по формуле Гринвуда*:
где сумма берется по всем моментам ti, от нуля до t включительно. На примере данных по выживаемости плутониан после наВывод этой формулы можно найти в: D. Collett. Modelling survival data in medical research. Chapman and Hall, London, 1994, pp. 22—26.
Рис. 11.4. Кривая выживаемости плутониан после начала пассивного курения и ее 95% доверительная область (ход вычислений показан в табл. 11.3). Границы доверительной области показаны пунктиром.
чала пассивного курения рассчитаем стандартную ошибку выживаемости для 7 часов:
В табл. 11.3 приведены значения стандартной ошибки для вычисленных по табл. 11.1 оценок функции выживаемости.
В гл. 7 было показано, как с помощью стандартной ошибки вычислить доверительные интервалы для долей. Точно также ее используют для вычисления доверительного интервала для выживаемости. Напомним, что 100(1 – )-процентный доверительный интервал для доли р задается неравенством где z — двустороннее критическое значение для стандартного нормального распределения, — уровень значимости, — выp борочное значение доли, s — стандартная ошибка для этой доp ли. Доверительный интервал для выживаемости в момент t определяется аналогично:
Обычно определяют 95% доверительный интервал. Тогда = 1 – 0,95 = 0,05. Соответствующее значение z = 1,960.
Дальнейшие вычисления показаны в таблице 11.3. Отложив на графике доверительные интервалы (рис. 11.4), мы увидим расширяющийся «рукав» — доверительную область для выживаемости. Причина расширения доверительной области понятна: чем меньше остается наблюдаемых, тем больше ошибка.
Как вы помните, при расчете доверительных интервалов для долей существовало ограничение на использование нормального распределения. Аналогичное ограничение существует и при оценке доверительных интервалов для функции выживаемости. Дело в том, что нормальное приближение вносит сильные искажения, когда функция выживаемости принимает значение, близкое к граничным — к 0 или 1. В этом случае доверительный интервал должен быть несимметричен относительно р.
(См. также рис. 7.4 и соответствующее обсуждение в гл. 7.) Приведенная выше формула, напротив, дает симметричную оценку, которая может выйти за граничные значения 1 и 0. Простейший способ подправить такую оценку состоит в том, чтобы значения, большие единицы, заменить на единицу, а меньшие нуля — на ноль. Существует и несколько более сложный способ, он позволяет рассчитать доверительный интервал точнее. Возьмем двойной логарифм ln[–ln S (t )]. В отличие от S (t ), эта величина не должна лежать в пределах от 0 до 1. Затем вычислим для нее стандартную ошибку, после чего вернемся к исходной функции S (t ). Стандартная ошибка для логарифмической формы выживаемости:
Тогда 100(1 – ) процентный доверительный интервал для S(t) определяется неравенством:
Таблица 11.3. Расчет стандартной ошибки и 95% доверительного интервала кривой выживаемости плутониан после начала пассивного курения
АНАЛИЗ ВЫЖИВАЕМОСТИ
* Вычисленные значения были больше 1 либо меньше 0.
СРАВНЕНИЕ ДВУХ КРИВЫХ ВЫЖИВАЕМОСТИ
В клинических исследованиях часто возникает необходимость сравнить выживаемость разных групп больных. Посмотрим, как это делается в случае двух групп*. Нулевая гипотеза состоит в том, что в обеих группах выживаемость одинакова. Если бы не было выбывания и все больные наблюдались равное время, нам бы подошел анализ таблиц сопряженности (см. гл. 5). Если бы все больные наблюдались вплоть до смерти, можно было бы сравнить выживаемость в обеих группах с помощью изложенных в гл. 10 непараметрических методов, например рангового критерия Манна—Уитни или метода Крускала—Уоллиса. В реальной жизни подобные ситуации редки, и, как мы уже говорили, выбывание практически неизбежно. Для сравнения кривых выживаемости нужны специальные методы. Первым мы рассмотрим так называемый логранговый критерий.Он основан на следующих трех допущениях.
• Две сравниваемые выборки независимы и случайны.
• Выбывание в обеих выборках одинаково.
• Функции выживаемости связаны соотношением: S2(t) = [S1(t)].
Величина («пси») называется отношением смертности. Если = 1, то кривые выживаемости совпадают. Если < 1, люди во 2-й выборке умирают позже, чем в 1-й. И наоборот, если > 1, позже умирают в 1-й выборке.
Трансплантация костного мозга при остром лимфобластном лейкозе взрослых При остром лимфобластном лейкозе мутация предшественника лимфоцитов приводит к появлению клона лейкозных клеток, способных неограниченно делиться. В отличие от обычных лимфоцитов, лейкозные клетки функционально неактивны и не обладают защитными свойствами. Размножаясь в костном мозге, они подавляют нормальное кроветворение, в результате развиваСуществуют методы сравнения и нескольких групп. Останавливаться на них мы не будем: они основаны на тех же принципах, но требуют громоздких вычислений.
ются иммунодефицит, анемия и тромбоцитопения. Без лечения острый лимфобластный лейкоз низбежно приводит к смерти.
Задача лечения — полностью уничтожить лейкозные клетки. Этого можно достичь с помощью облучения и химиотерапии. Однако при этом уничтожаются и нормальные кроветворные клетки. Чтобы компенсировать это побочное действие лечения, используют трансплантацию костного мозга. Для трансплантации лучше всего подходит костный мозг близкого родственника (аллотрансплантация). К сожалению, не всегда есть у кого его взять. Поэтому применяется и другой способ, так называемая аутотрансплантация, когда костный мозг берут у самого больного. Из полученного костного мозга специальный методами удаляют лейкозные клетки и, по завершении курса лучевой и химиотерапии, его вновь вводят больному. Н.
Вей с соавт. сравнили выживаемость после ауто- и аллотрансплантации*.
В исследование включали больных старше 15 лет с подтвержденным диагнозом острого лимфобластного лейкоза после достижения первой полной ремиссии. Больным, у которых не было подходящих родственников, проводили аутотрансплантацию (1-я группа), остальным — аллотрансплантацию (2-я группа).
Исследование продолжалось 11 лет.
Полученные данные представлены в табл. 11.4. Как и ранее, выбывшие помечены знаком «+». В табл. 11.5 приведен расчет выживаемости для каждой из групп. Соответствующие кривые показаны на рис. 11.5. Выживаемость в 1-й группе хуже, чем во 2-й. Вопрос состоит в том, какова вероятность получить подобное различие выживаемости случайно.
Перейдем к построению логрангового критерия. Ход вычислений показан в табл. 11.6 (выбывших в таблице нет, показаны * N. Vey, D. Blaise, A. Stoppa et al. Bone marrow transplantation in 63 adult patients with acute lymphoblastic leukemia in first complete remission. Bone Marrow Transplantation, 14:383—388, 1994. В этом исследовании выборки не были случайными: в группу аутотрансплантации попадали больные, у которых не нашлось близких родственников. Авторы указывают, однако, что по основным прогностическим признакам группы были сходны. Это лучшее, что можно сделать, когда рандомизация невозможна. Дальнейшее обсуждение этой темы вы найдете в гл. 12.
Таблица 11.4. Продолжительность жизни после трансплантации костного мозга Ауготрансплантация Аллотрансплантация Месяцы Число смертей Месяцы после Число смертей после пересадки или выбытии пересадки или выбытии только моменты наступления смерти). Как видим, спустя месяц после трансплантации в 1-й группе умерли 3 из 33 больных, во второй — 1 из 21 больного. Каким бы было число умерших при условии справедливости нулевой гипотезы? Рассчитаем ожидаемые числа умерших, подобно тому, как мы это делали в гл. 5.
В первый месяц в обеих группах умерло 3 +1 = 4 из 33 + 21 = больных. Таким образом, смертность в обеих группах составила Рис. 11.5. Выживаемость при остром лимфобластном лейкозе взрослых после трансплантации костного мозга. Костный мозг брали у брата или сестры, совместимых по HLA (аллотрансплантация), либо у самого больного (аутотрано-плантация). Данные приведены в табл. 11.4, ход вычислений — в табл. 11.5.
групповых различий не было, то в первой группе умерло бы 33 0,074 = 2,442 человека. Это число довольно близко к 3 — наблюдаемому числу умерших. Если нулевая гипотеза справедлива, ожидаемые и наблюдаемые числа и дальше будут близки.
Найдем таким же способом ожидаемое число умерших в 1-й группе в каждый из месяцев, когда кто-нибудь умирал хотя бы в одной группе.
где Е1t — ожидаемое число умерших в первой группе в момент времени t; n1t — число наблюдавшихся в 1-й группе к этому моменту, dоб t — общее число смертей в этот момент в обеих группах, nоб t — общее число наблюдавшихся к этому моменту.
Пока что не совсем понятно, как мы учитываем выбывших — ведь в формуле и в табл. 11.6 их число не фигурирует. Выбывшие учитываются косвенно — влияя на число наблюдавшихся. Например, во 2-й группе на сроке 17 мес никто не умер, однако число наблюдавшихся уменьшилось с 13 до 11 человек.
Таблица 11.5. Вычисление выживаемости по данным из табл. 11. Аутотрансплантация Это произошло потому, что 3 больных на этом сроке выбыли изпод наблюдения.
Просуммируем разности наблюдаемого и ожидаемого числа умерших:
Таблица 11.5. Окончание Аллотрансплантация Сумма берется по всем моментам t, когда хотя бы одна смерть наступала в любой из двух групп. Как видно из табл. 11.6, в нашем примере UL = 6,572. Если UL достаточно велико, гипотезу об отсутствии различий выживаемости следует отклонить.
UL приближенно подчиняется нормальному распределению со стандартным отклонением Таблица 11.6. Вычисление логрангового критерия по данным из табл. 11. Аутотрансплантация Аллотрансплантация Объединенная Месяц месяц t месяца t месяц t месяца t месяц t месяца t группе для UL для sU L
АНАЛИЗ ВЫЖИВАЕМОСТИ
где, как и раньше, сумма берется по всем моментам t, когда наблюдалась хотя бы одна смерть*. В последнем столбце табл. 11. приведены слагаемые sU L. Их сумма составляет 7,884, таким образом, sU L = 7, 883 = 2, 808.Разделив значение UL на его стандартную ошибку (то есть стандартное отклонение выборочного распределения), получим Распределение z приблизительно нормально, поэтому сравним эту величину с критическим значением для стандартного нормального распределения (см. последнюю строку табл. 4.1)**.
Критическое значение для уровня значимости 2% в случае нормального распределения равно 2,326, то есть меньше полученного нами. Поэтому мы отклоняем нулевую гипотезу об отсутствии различий в выживаемости.
В заключение заметим, что совершенно неважно, для какой именно из групп вычисляется UL. Для 2-й группы UL равна по абсолютной величине UL для 1-й, но имеет противоположный знак.
Поправка Йейтса для логрангового критерия Мы уже сталкивались с ситуацией, когда дискретное распределение приближенно описывается нормальным, которое по сути своей непрерывно. Практически это приводит к излишней «мягкости» критерия: мы несколько чаще, чем следовало бы, отвергаем нулевую гипотезу. Чтобы компенсировать влияние дискретности, применяют поправку Йейтса. В случае логрангового критерия это делается таким образом:
* Вывод этой формулы приведен в книге D. Collett. Modelling survival data in medical research. Chapman & Hall, London, 1994, pp. 40—42.
** Иногда вместо U L sU вычисляют U L sUL. Эта величина имеет расL пределение 2 с одной степенью свободы. Оба варианта критерия приводят к одному результату. Точно так же к обоим вариантам в равной мере применима поправка Йейтса, о чем ниже.
Для примера, который мы рассматриваем:
В результате применения поправки Йейтса величина z уменьшилась с 2,342 до 2,162, однако она по-прежнему больше 1, — критического значения для уровня значимости 0,05. В данном случае поправка Йейтса не изменила общий вывод — различия выживаемости статистически значимы.
КРИТЕРИЙ ГЕХАНА
Существует другой метод сравнения выживаемости. Он называется критерием Гехана и представляет собой обобщение критерия Уилкоксона. Он не требует постоянства отношения смертности, но на его результаты слишком сильно влияет число ранних смертей.Критерий Гехана вычисляют так. Каждого больного из 1-й группы сравнивают с каждым больным из 2-й группы. Результат сравнения оценивают как +1, если больной из 1-й группы наверняка прожил дольше, –1, если он наверняка прожил меньше, и 0, если невозможно наверняка сказать, кто из них прожил дольше. Последнее возможно в трех случаях: если оба выбыли, если один выбыл до того, как другой умер, и если время наблюдения одинаково.
Результаты сравнения для каждого больного суммируют; эту сумму мы обозначим h. В свою очередь сумма всех h дает величину UW, стандартная ошибка которой определяется по формуле:
И наконец, вычисляют Полученное значение нужно сравнить с критическим значением стандартного нормального распределения (см. последнюю строку табл. 4.1).
Поправка Йейтса применяется к критерию Гехана точно так же, как к логранговому критерию.
Какой критерий предпочесть? Логранговый критерий предпочтительнее критерия Гехана, если справедливо предположение о постоянном отношении смертности: S2(t) = [S1(t)]. Установить, выполняется ли это условие, можно, нарисовав графики ln[–ln S1 (t )] и ln[–ln S 2 (t ) ] — они должны быть параллельны. Во всяком случае, кривые выживаемости не должны пересекаться.
ЧУВСТВИТЕЛЬНОСТЬ И ОБЪЕМ ВЫБОРКИ
Как вы помните, чувствительность любого критерия зависит от трех величин — величины различия, которую он должен уловить, уровня значимости и численности групп. И наоборот, численность групп, необходимая для того, чтобы уловить различия, не меньшие некоторой величины, определяется уровнем значимости и необходимой чувствительностью. Логранговый критерий не является исключением. Чем меньшее различие выживаемости нужно выявить, тем большим должно быть число наблюдений.Для простоты ограничимся случаем равной численности групп*. Заметим, что, как и всегда, при заданном числе обследованных именно равная численность групп обеспечивает максимальную чувствительность.
Прежде всего следует оценить необходимое число исходов (смертей, рецидивов и т. д.). Имеем * Вывод формул можно найти в работе L. S. Freedman. Tables of number of patients required in clinical trials using the log-rank test. Statist. Med., 1:121–129, 1982.
где — отношение смертности, а z и z1– — соответствующие и 1 – значения стандарного нормального распределения (их можно найти в последней строке табл. 4.1). Как определить ?
Поскольку при всех t соблюдается равенство S2(t) = [S1(t)], этот параметр можно оценить как где S1() и S2() — выживаемость в 1-й и 2-й группах к концу наблюдения. Теперь мы можем найти п — численность каждой из групп:
Таким образом, по ожидаемым долям доживших до завершения эксперимента мы можем найти объем п каждой из выборок.
Рассмотрим пример. Пусть мы предполагаем, что выживаемость должна повыситься с 30 до 60% или более. Эти различия мы хотим выявить с вероятностью 80% (то есть чувствительность 1 – = 0,8). Уровень значимости = 0,05. По табл. 4.1 находим z = z0,05 = 1,960 и z1– = z0,80 = 0,840.
подставим значения в формулу для числа исходов и рассчитаем численность каждой группы:
Итак, в каждую из групп должно входить по 44 человека.
ЗАКЛЮЧЕНИЕ
К анализу выживаемости неприменимы обычные способы оценки различий, такие, как сравнение долей и средних величин.Необходимы методы, учитывающие выбывание, которое неизбежно имеет место в исследованиях такого рода. Мы рассмотрели простейшие методы сравнения выживаемости, а именно сравнение выживаемости в двух группах. Соответствующие методы для произвольного числа групп основаны примерно на тех же принципах. Как логранговый критерий, так и критерий Гехана относятся к непараметрическим — они не исходят из предположения об определенной форме кривой выживаемости.
Существуют и параметрические методы анализа выживаемости.
Значение анализа выживаемости чрезвычайно велико. В гл.
4 мы говорили о показателях процесса и показателях результата. Если, например, препарат снижает уровень холестерина, то это еще не значит, что он позволяет продлить жизнь больного или отдалить появление стенокардии, — речь, следовательно, идет о показателе процесса. Напротив, если доказано, что препарат продлевает жизнь, то речь идет о показателе результата, имеющем несомненную клиническую значимость.
Сегодня, когда требования к доказательствам эффективности лечения ужесточаются, изучение выживаемости (и вообще течения заболеваний) приобретает все большее значение. Исследования такого рода, в отличие от простой регистрации показателей процесса, столь же трудны, сколь и необходимы. В следующей главе мы подробнее обсудим разные типы исследований и их роль в медицине.
ЗАДАЧИ
11.1. Амбулаторное лечение пожилых людей дешевле стационарного. Однако позволяет ли амбулаторное наблюдение достаточно надежно выявлять тех, кто нуждается в госпитализации?Для оценки общего состояния пожилого человека предложена так называемая шкала повседневной работы по дому (IADL, дования Б. Келлер и Дж. Поттер (В. Keller, J. Potter. Predictors of mortality in outpatient geriatric evaluation and management clinic patients. J. Gerontology, 49:M246—M251, 1994) был посвящен изучению прогностической ценности этой шкалы.
В исследование были включены люди примерно одного возраста (средний возраст 78,4 года, стандартное отклонение 7, года), разделенные на 2 группы: с высокой и низкой оценкой по шкале повседневной работы по дому. В результате 4-летнего наблюдения были получены следующие данные:
Оцените статистическую значимость различий в выживаемости двух групп.
11.2. Ф. Джирард и соавт. (Р. Girard et al. Surgery for pulmonary metastases: who are the 10 years survivors? Cancer, 74:2791—2797, 1994) изучили выживаемость 34 больных после резекции легкого по поводу метаетазов. Результаты приведены в таблице на следующей странице. Постройте кривую выживаемости и ее 95% доверительную область.
Выживаемость после резекции легкого по поводу метастазов Месяц после операции Число умерших и выбывших 11.3. Основная причина детской смертности в Японии — онкологические заболевания. Позволяют ли современные методы лечения продлить жизнь детей? В. Аджики и соавт. (W.
Ajiki et al. Survival rates of childhood cancer patients in Osaka, Japan, 1975–1984. Jpn. J. Cancer Res., 86:13–20, 1995) сравнили выживаемость (с момента постановки диагноза) детей с онкологическими заболеваниями в период 1975—1979 гг. с выживаемостью в период 1980—1984гг.
(а) Постройте кривые выживаемости и 95% доверительные интервалы, (б) Найдите медианы выживаемости, (в) Оцените статистическую значимость различий выживаемости, (г) Определите чувствительность логрангового критерия с уровнем значимости = 0,05, предполагая, что S() = S(60). (д) Вычислите общее число смертей и численность групп, при которых чувствительность логрангового критерия составит 0,80 при условии, что S() снизилась с 0,40 в период 1975—1979 гг. до 0, или 0,15 в 1980–1984 гг.
Мы познакомились со многими статистическими методами, узнали о принципах, лежащих в их основе, и получили некоторый навык в расчетах. Каждый метод основан на собственной математической модели, и применение его тем успешнее, чем ближе эта модель к действительности. Чтобы правильно выбрать статистической метод, необходимо учитывать прежде всего характер интересующего нас признака (количественный, порядковый или качественный) и тип распределения (нормальное или нет). Ниже мы кратко суммируем все, что узнали о выборе статистического метода. Однако существует еще одно обстоятельство, о котором мы упоминали лишь вскользь, но которое решающим образом влияет на практическую ценность результата исследования.
Это представительность выборки. Любой статистический метод исходит из предположения, что выборка извлечена из совокупности случайно. Если это условие не выполняется (то есть если выборка непредставительна), никакой, даже самый изощренный статистический метод не даст правильного результата.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
Далее, если выборка представительна, то какую совокупность она представляет? Как мы увидим, больные в крупных медицинских центрах, где обычно проводятся клинические испытания, мало напоминают тех, с которыми встречается врач общей практики. И наконец, мы еще раз напомним об опасности эффекта множественных сравнений. Интересно, что этот многоликий враг исследователей в наибольшей степени угрожает самым любознательным из них.
КАКИМ КРИТЕРИЕМ ВОСПОЛЬЗОВАТЬСЯ
В этой книге мы не стремились охватить все статистические методы: многие из них остались вне поля зрения. Так, не были рассмотрены многофакторные методы, в которых исследуются результаты одновременного использования нескольких способов лечения или две группы сравниваются по нескольким показателям.Однако мы выстроили костяк из статистических методов, вокруг которого естественным образом наращиваются более общие. Охватив широкий круг типов задач, внутри каждого типа мы рассмотрели простейшую модель. Встретившись с более сложной задачей того же или сходного типа, вы без труда сами подберете подходящий метод. Тем не менее освоенные нами методы открывают достаточно большие возможности для решения практических задач.
С помощью табл. 12.1 вы легко найдете, каким критерием следует воспользоваться в зависимости от вида исследования и изучавшегося признака (количественный, порядковый или качественный). Виду исследования (применялись ли сравниваемые методы лечения к общей группе больных или каждый испытывался на отдельной группе, равно ли число сравниваемых методов двум и т. д.) соответствуют столбцы таблицы. Строки таблицы определяют, какие признаки изучались — числовые, порядковые или качественные. Данные о выживаемости мы выделили в отдельный тип, поэтому получилось четыре типа данных.
Выбор статистического критерия в случае числовых признаков требует пояснения. Если известно, что распределение признака Таблица 12.1. Каким критерием воспользоваться Количественный Критерий Дисперсионный Парный критерий Дисперсионный Линейная регресраспределение Стьюдента (гл. 4) анализ (гл. 3) Стьюдента (гл. 9) анализ повторных сия, корреляция Выживаемость Критерий Гехана * Если совокупность имеет иное распределение, примените аналогичные непараметрические методы.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
в совокупности нормально, можно использовать параметрический метод, указанный в таблице (иногда необходимы дополнительные условия, например, в случае дисперсионного анализа требуется равенство дисперсий). Если распределение далеко от нормального, или если у вас нет желания использовать параметрические методы, следует воспользоваться их непараметрическими аналогами.Табл. 12.1 — это своего рода путеводитель по статистическим критериям. Но прежде чем им воспользоваться, примите во внимание три вещи. Во-первых, обнаружив, что нулевая гипотеза об отсутствии эффекта не может быть отвергнута, выясните почему.
Для этого определите чувствительность критерия (гл. 6). Если чувствительность мала, причиной может быть малый объем выборки. Но если чувствительность велика, то эффект действительно отсутствует. Во-вторых, обнаружив статистически значимый эффект, не забудьте вычислить его величину и доверительные интервалы (гл. 7 и 8), по которым можно судить о его клинической значимости. И, наконец, в-третьих, обязательно попытайтесь понять, в самом ли деле процедура получения данных обеспечивает их представительность, в противном случае все последующие выкладки потеряют смысл. Тема представительности данных заслуживает более подробного рассмотрения.
РАНДОМИЗАЦИЯ И СЛЕПОЙ МЕТОД
Все статистические методы исходят из предположения, что данные извлечены из совокупности случайно. Что значит «извлечены случайно»? Это значит, что вероятность оказаться выбранным одинакова для всех членов совокупности. Например, если групп две (экспериментальная и контрольная) и их размеры равны, то любой член совокупности может равновероятно попасть в любую из групп.Обеспечить равную вероятность попадания в любую из групп совсем не так просто, как кажется на первый взгляд. (Предназначенные для этого методы называются рандомизацией, с этим понятием мы встречались в гл. 3.) Прежде всего необходимо исключить всякое влияние человека, что довольно сложно. Врачи, участвующие в исследовании, изобретательны и хитроумны.
Любой недочет в системе рандомизации они обязательно используют, чтобы повлиять на формирование групп. При этом они, скорее всего, будут исходить из самых добрых побуждений; тем не менее такое вмешательство неизбежно приведет к нарушению сопоставимости групп и к искажению результатов исследования. Следует тщательно продумать, как сделать такое влияние невозможным для всех участников исследования, и прежде всего для себя самого.
Задача рандомизации — обеспечить такой подбор больных, чтобы контрольная группа ни в чем не отличалась от экспериментальной, кроме метода лечения. Однако этого мало. На этапе оценки результатов вновь появляется пристрастный исследователь. Велика и роль больного, его веры в новый способ лечения.
Обоих следует лишить возможности влиять на результаты. Для этого предназначен слепой метод. В идеале это двойной слепой метод: ни больной, ни наблюдающий его врач не знают, какой из способов лечения был применен. Двойной слепой метод не всегда осуществим, поэтому используют также простой слепой (примененный способ лечения известен врачу, но не больному или наоборот) и частично слепой (и врач, и больной располагают лишь частью информации) методы. В любом случае информацию, которой располагают участники исследования, следует свести к минимуму.
Строго говоря, применение рандомизации и слепого метода — две разные проблемы, однако они настолько тесно связаны, что примеры, которые мы рассмотрим, приложимы к обеим.
Перевязка внутренней грудной артерии при стенокардии Идея этой операции возникла еще в 30-е годы. При ишемической болезни сердца сосуды, питающие миокард, частично закупориваются атеросклеротическими бляшками. Миокард не получает достаточно кислорода, и при физической нагрузке, когда потребность в кислороде увеличена, возникает приступ стенокардии. Если перевязать внутренние грудные артерии, то кровь, которая раньше текла по ним, устремится (по крайней мере частично) в коронарные сосуды — примерно так рассуждали авторы
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
метода. Кровоснабжение миокарда улучшится, приступы стенокардии прекратятся. Сама же операция достаточно проста, ее можно выполнить под местной анестезией. Идея была осуществлена, и в 1958 г. Р. Митчелл и соавт.* опубликовали результаты. Операция была проведена 50 больным. Продолжительность послеоперационного наблюдения составляла от 2 до 6 месяцев.У 34 больных (68% общего числа) состояние улучшилось (у приступы стенокардии прекратились полностью, у 16 стали реже). У 11 больных (22%) состояние осталось прежним, умерли 5 больных (10%). На первый взгляд, превосходные результаты.
Еще до публикации работы Митчелла на страницах журнала «Ридерс Дайджест» появилась восторженная статья «Хирург спасает сердце», принесшая этому способу лечения больше известности, чем все публикации в медицинских журналах.
Однако в наши дни мало кто слышал о перевязке внутренних грудных артерий. Что стало с этим многообещающим методом лечения? В 1959 г. Л. Кобб и соавт.** опубликовали результаты проверки эффективности двусторонней перевязки внутренних грудных артерий, полученные двойным слепым методом. Ни больной, ни врач, оценивавший результат операции, не знали, были ли перевязаны внутренние грудные артерии или нет. Больному делали надрезы и выделяли сосуды. Затем вскрывали конверт, в котором говорилось, нужно ли выполнить перевязку. К какой группе — экспериментальной или контрольной — принадлежал больной, покинувший операционную, знал только оперировавший его хирург. По данным послеоперационного наблюдения группы не различались ни по частоте приступов, ни по переносимости физической нагрузки. Чем было обусловлено обнаруженное Митчеллом улучшение состояния — отбором для операции наиболее легких больных, их энтузиазмом в отношении разрекламированного метода лечения или пристрастностью * J. Mitchell, R. Glover, R. Kyle. Bilateral internal mammary arteryligation for angina pectoris: preliminary clinical considerations. Am. J. Cardiol;
1:46–50, 1958.
** L. Cobb, G. Thomas, D. Dillard, K. Merendino, R. Bruce. An evaluation of internal-mammary-artery ligation by a double-blind technic. N. Engl.
J. Med., 260:1115–1118, 1959.
оценки результатов — судить трудно. Вывод же прост: результаты исследования без контрольной группы, без применения слепого метода несостоятельны.
Портокавальное шунтирование при циррозе печени При алкоголизме часто развивается цирроз печени. Одно из его проявлений — портальная гипертензия: повышение давления в воротной вене из-за затруднения кровотока через печень. Повышение давления в воротной вене приводит к варикозному расширению вен пищевода. Это чрезвычайно опасное состояние: изза разрыва варикозно расширенных вен в любой момент может возникнуть смертельное кровотечение. Для снижения давления в воротной вене применяют портокавальное шунтирование: воротную и нижнюю полую вены соединяют в обход печени.
Ранние работы по оценке результатов этой операции относятся к концу 40-х годов. Типичный план исследования в ту эпоху предусматривал набор определенного числа оперированных и подсчет доли выживших, каковая и рассматривалась в качестве результата. То обстоятельство, что больной мог бы выжить и без операции (а также умереть в результате операции), во внимание не принималось. Контрольные группы больных, не подвергавшихся портокавальному шунтированию, использовались редко.
В 1966 г., через двадцать лет после первой операции, Н. Грейс и соавт.* провели анализ полусотни исследований эффективности этого метода. Предметом анализа была связь между наличием контрольной группы и применением рандомизации, с одной стороны, и оценкой эффективности — с другой. Табл. 12. показывает, как распределились исследования по этим признакам. Проявилась любопытная закономерность. Если исследование выполнялось без контрольной группы или последняя формировалась не случайно, метод, как правило, получал высокую оценку. В тех немногих исследованиях, где использовалась контрольная группа и больные равновероятно распределялись между нею и экспериментальной, метод оценивался невысоко.
* N. Grace, Н. Muench, Т. Chalmers. The present status of shunts for portal hypertension in cirrhosis. Gastroenterohgy, 50:684—691, 1966.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
Таблица 12.2. Оценки эффективности портокавального шунтирования (по результатам 51 исследования) Исследование высокая средняя низкая С нерандомизированной С рандомизированной Причина высоких оценок в исследованиях без контрольной группы ясна, ведь само суждение об эффективности метода здесь совершенно произвольно. Сложнее с оценками, основанными на использовании нерандомизированных групп. Даже при кажущейся беспристрастности отбора сама возможность влиять на него толкает исследователя на построение неравноценных групп. В результате в одну группу попадают более тяжелые больные, в другую — более легкие.Исследователь редко стремится обмануть других, но легко становится жертвой самообмана. При этом форма самообмана может быть весьма изощрённой. Рассмотрим такой пример:
больных, госпитализированных по нечетным дням месяца, определяют в экспериментальную группу, по четным — в контрольную. Можно ли считать такую рандомизацию достаточной? Разумеется, нет. Врач может влиять на срок госпитализации, следовательно, состав групп будет неслучайным.
Если у кого-либо из участников исследования есть возможность влиять на построение групп, эта возможность будет использована.
Для рандомизации недостаточно, чтобы выбор не зависел от исследователя. Он должен быть независим и от самих подопытных. Приведем пример из области лабораторных исследований.
Двадцать крыс, сидящих в клетке, нужно разделить на две группы. Выпустим из клетки десять крыс и назовем их контрольной группой. Представительна ли она? Скорее всего, нет. Вероятно, первыми из клетки выбегут самые сильные и агрессивные особи.
Есть только один способ получить случайную выборку — воспользоваться для этого достоверно случайным процессом, наГЛАВА пример бросанием игральной кости или таблицей (генератором) случайных чисел.
Мы видели, что среди всех исследований эффективности портокавального шунтирования лишь те, в которых применялась рандомизация, показали истинную степень его эффективности. Остальные приводили к оценкам, смещенным в пользу операции. Общим правилом является следующее.
Чем лучше проведено исследование, тем менее вероятно его результат смещен в пользу исследуемого метода.
Влияние качества рандомизации на результаты клинических испытаний исследовали К. Шульц и соавт*. Рассмотрев 250 контролируемых клинических испытаний, они разделили их на хорошо и плохо рандомизированные. Хорошо рандомизированным считалось испытание, в котором распределение по группам основывалось на использовании случайных чисел. В остальных случаях участники исследования могли влиять на распределение по группам и испытание считалось плохо рандомизированным. Так, плохо рандомизированным считалось распределение, зависящее от момента включения в исследование.
Шульц обнаружил, что доля методов лечения, признанных по итогам испытания эффективными, оказалась в плохо рандомизированных испытаниях на 41% выше, чем в хорошо рандомизированных. Некачественная рандомизация привела к почти полуторному завышению числа эффективных методов!
Этична ли рандомизация?
Итак, только рандомизация позволяет надежно оценить эффективность нового метода лечения. Но этична ли она, когда речь идет о жизни и здоровье людей? В гл. 3 мы уже говорили о психологических трудностях, связанных с рандомизацией. Рандомизация лишает права выбора и врача-экспериментатора, и самого больного. Простое решение состоит том, что если достоверно не известно, какой метод лучше, то лечить можно любым.
* К. F. Schuiz, I. Chalmers, R. J. Hayes, D. G. Altman. Empirical evidence of bias: dimensions of methodological quality associated with estimates of treatment effects in controlled trials. JAMA, 273:408–412, 1995.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
К сожалению, на деле все не так просто. У любого метода найдутся сторонники и противники (иначе кто бы взялся за проверку.) Не будем говорить о мнении авторов метода. Но свои воззрения есть и у привлеченного к эксперименту врача, человека обычно просвещенного и не чуждого гуманизма. Почему, нередко спрашивает врач, я должен, подобно язычнику, слепо следовать воле неких случайных чисел, требующих лишить больного лучшего лечения? Этично ли в глазах поборников перевязки грудных артерий было использование Коббом рандомизированной контрольной группы? Однако, как мы видели, неэтичной оказалась скорее не рандомизация, а операция. Слыша мнения о нецелесообразности рандомизированных испытаний, задайте вопрос: на чем, кроме веры и интуиции, основано убеждение в достоинствах одного и недостатках другого метода?Ведь сравнительная проверка еще только предстоит.
Мы привели примеры неэффективных методов, которые успели стать достоянием практической медицины, но все же не превратились в общепринятые. К сожалению, опровергнуть укоренившийся метод почти так же невозможно, как невозможно опровергнуть традицию. Самое тщательное доказательство неэффективности давно прижившегося метода в лучшем случае ускорит его естественное отмирание. Так невозможно доказать отсутствие лечебного действия пиявок, этих священных коров практической медицины.
Мы уже говорили о том, что не следует путать достоверность и статистическую значимость. Именно в совершенно недостоверных работах уровень значимости, как правило, не оставляет желать лучшего. Нередко приходится слышать о «высоко достоверных результатах, Р < 0,01», тогда как речь идет о нерандомизированном исследовании, применительно к которому, как мы показали, вообще бессмысленно говорить о значении Р. И наоборот, если в результате правильно проведенного исследования мы получили значение Р < 0,1, то это значит, что вероятность ошибочно признать существование различий не превышает 10% — и это утверждение истинно. Какой практический вывод сделать из этого истинного утверждения, каждый может решить сам. Считать ли вероятность ошибки 10% слишком большой — это вообще не вопрос статистики. Многое тут зависит от того, чем мы рискуем, признав или отвергнув предлагаемый метод лечения.
Меньше всего следует фетишизировать уровень значимости и придавать ему смысл критерия истинности. В конце концов, различие между 5 и 10% чисто количественное. Гораздо важнее тщательно продумывать, какую совокупность должна представлять ваша выборка, как обеспечить случайность формирования групп и уберечься от невольного самообмана при оценке результатов.
Всегда ли нужна рандомизация?
Следует признать, что великие открытия, изменившие облик медицины в середине XX века, такие, как открытие пенициллина, не подвергались проверке в рандомизированных исследованиях.
Порой сами обстоятельства способны натолкнуть на переоценку общепринятых методов лечения. Так, французский военный хирург Амбруаз Парэ в полном соответствии с предписаниями лечил огнестрельные раны кипящим маслом. Однажды, в одну из битв 1536 г., масла на всех раненых не хватило. Части солдат Парэ сделал перевязку, не обработав рану этим целительным средством. Утром он с удивлением обнаружил, что солдаты, чьи раны перед перевязкой были обработаны по всем правилам, корчатся от боли, тогда как просто перевязанные «прекрасно отдохнули и не испытывали болей»*. История умалчивает, подал ли Парэ рапорт о необходимости проведения рандомизированных клинических испытаний эффективности кипящего масла как средства лечения пулевых ранений. Но нам не кажется, что, соверши он свое открытие в наши дни, ему потребовалось бы детальная проверка.
Наконец, рандомизация не всегда возможна. Так, в гл. 11 мы рассмотрели выживаемость после трансплантации костного мозга при остром лимфобластном лейкозе взрослых. Одним больным пересаживался костный мозг близких родственников, друПример заимствован из книги Н. R. Wullf. Rational Diagnosis and Treatment, Blackwell, Oxford, 1976. В этой небольшой по объему и блистательно написанной книге вы найдете многое идей, перекликающихся с нашим обсуждением.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
гим — их собственный. Случайно распределить больных по двум этим группам невозможно, поскольку не у каждого найдется родственник-донор. К счастью для экспериментаторов, само по себе наличие или отсутствие близких родственников не влияет на течение заболевания. Ситуация, когда разделить больных случайным образом невозможно, в медицинских исследованиях возникает довольно часто. В таких случаях надо стремиться сделать группы максимально схожими по всем известным прогностическим факторам.
ДОСТАТОЧНО ЛИ РАНДОМИЗАЦИИ?
Контролируемые рандомизированные клинические испытания сегодня стали эталоном медицинского исследования. Но всегда ли они приводят к верным заключениям? Нет, не всегда. Нередко в исследовании скрыто присутствует множественное сравнение. Исследователь не учитывает эту множественность и в результате, сам того не подозревая, многократно занижает вероятность ошибочно выявить мнимый эффект. Рассмотрим три типичных случая.Проверкой нового метода лечения независимо друг от друга занимаются несколько исследователей. Получив положительный результат, исследователь опубликует его. А получив отрицательный? Вероятно, воздержится от публикации, но, кроме того, еще и предпримет повторную проверку. В конце концов в одной из многих проверок будет обнаружен желанный «эффект». В гл.
4 мы описали эту ситуацию и привели оценки истинной вероятности ошибиться, многократно превышающей вероятность ошибки в единичном испытании.
В медицине приняты широкомасштабные исследования различных методов лечения, используемых прежде всего при хронических болезнях, таких, например, как ишемическая болезнь сердца и сахарный диабет. Результатом исследования является описание огромного числа разнообразных признаков. Данные подвергаются различным группировкам с целью выяснения наиболее информативных признаков, в наибольшей степени влияющих на конечный показатель — выживаемость. Понятно, что при значительном числе возможных группировок не составит труда выделить группы, на которых тот или иной метод лечения будет наиболее эффективен. Эту плодотворную деятельность мог бы омрачить учет множественности сравнений, например применение поправки Бонферрони. Приведем пример. Администрация по делам ветеранов провела рандомизированное исследование коронарного шунтирования*. Среди наблюдавшихся больных в целом не было выявлено статистически значимых различий в выживаемости между оперированными и неоперированными больными. Однако стоило разделить наблюдения на подгруппы, как оказалось, что хирургическое вмешательство обеспечивает более высокую выживаемость среди «больных с поражением ствола левой коронарной артерии». Интерпретация подобных находок требует крайней осторожности.
Сходная картина наблюдается, когда в данных, полученных для анализа одних факторов, обнаруживается связь между другими. Возможно, это реально существующая связь, но, возможно, и злая шутка эффекта множественных сравнений, когда, попарно сравнивая все со всем, исследователь непременно найдет какую-нибудь статистическую зависимость. Поэтому для проверки такой попутно обнаруженной связи нужно выполнить отдельное исследование.
К чему может привести вольная группировка данных, полученных в безупречно выполненном рандомизированном исследовании, было убедительно показано Ли и соавт.** Они воспроизвели достаточно типичное исследование. Взяв истории болезни 1073 больных ишемической болезнью сердца, они случайным образом разделили их на две группы. Одну группу назвали контрольной, а другую экспериментальной (представим себе, что попавшие в нее получали волшебный препарат «рандомиМ. Murphy, H. Hultgren, К. Detre, J. Thomsen, Т. Takaro. Treatment of chronic stable angina: a preliminary report of survival data of the Randomized Veterans Administration Cooperative Study. N. Engl. J. Med., 297:621–627, 1977.
** K. Lee, F. McNeer, F. Starmer, P. Harris, R. Rosati. Clinical judgement and statistics: lessons from a simulated randomized trial in coronary artery disease. Circulation, 61:508–515, 1980.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
зин»). Между группами не было обнаружено значимых различий по таким признакам, как возраст, пол, число пораженных коронарных артерий и т. д. По одному признаку — сократимости левого желудочка — статистически значимое различие наблюдалось. Несомненно, пытливый исследователь не преминул бы связать это различие с использованием «рандомизина».Однако, увы, по самому важному признаку — выживаемости — различие было статистически не значимым (см. рис. 12.1А).
В этой ситуации исследователь наверняка продолжил бы поиск различий, разделив больных на более мелкие группы. Так и поступил Ли. Больные были разделены (стратифицированы) по двум признакам: числу пораженных коронарных артерий (1, или 3) и сократимости левого желудочка (нормальной или сниженной). В результате получилось 6 подгрупп. Влияние рандомизина на выживаемость изучалось в каждой из этих подгрупп.
Но этого мало. Каждая подгруппа была разделена еще на две в зависимости от наличия или отсутствия сердечной недостаточности. В каждой из получившихся 12 подгрупп вновь оценивалась эффективность рандомизина. Упорные усилия были вознаграждены. В одной из подгрупп (больные с поражением коронарных артерий и сниженной сократимостью левого желудочка) рандомизин оказался эффективен: различия выживаемости «леченых» и «нелеченых» были статистически значимыми, Р < 0,025 (рис. 12.1 Б).
Рандомизин — выдумка. Но многочисленные препараты, эффективность которых была доказана совершенно таким же способом, существуют в действительности. Секрет их «эффективности» очень прост — это множественность сравнений. В исследовании рандомизина бьыо построено 18 пар подгрупп и выполнено 18 сравнений. Чему равна вероятность получить хотя бы один значимый результат в 18 сравнениях, уровень значимости в каждом из которых равен 0,05? Находим: = 1 – (1 – )k = = 1 – (1 – 0,05)18 = 1 – 0,40 = 0,60. Таким образом, истинная вероятность ошибки I рода оказалась в 12 раз выше той, о которой доложил бы исследователь.
Как избежать несостоятельных выводов, не отказываясь от возможности группировать данные? Для этого достаточно в уровне значимости каждого отдельного сравнения учесть, что их Рис. 12.1. А. Больных с ишемической болезнью сердца (1073 человека) случайным образом разделили на 2 группы. Статистически значимых различий выживаемости не обнаружено. Б. Выделив больных с поражением 3 коронарных артерий и сниженной сократимостью левого желудочка, их вновь случайным образом разделили на 2 группы.
На этот раз различия выживаемости статистически значимы (Р < 0,025). Выделяя все новые подгруппы, мы в конце концов всегда найдем различия там, где их нет.
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
более одного. Поправка Бонферрони дает уровень значимости, равный /k, где — выбранный уровень значимости для всего набора из k сравнений. Это чрезмерно жесткая, заниженная оценка. Наиболее продуктивный подход состоит в применении многофакторных статистических методов*. Помимо прочего, они позволяют обнаружить одновременное влияние более чем двух методов лечения, что в принципе недоступно методам, изложенным ранее.
КОГО МЫ ИЗУЧАЕМ
В лабораторных исследованиях, в исследованиях общественного мнения или потребительского спроса существует достаточная определенность, что представляет собой исследуемая совокупность. Понятно и как организовать представительную выборку из нее. Иначе обстоит дело в клинических исследованиях. Здесь нет ясности ни в том, какова изучаемая совокупность, ни в том, как построить представительную выборку из нее.Чаще всего исследования проводятся в крупных клиниках, куда попадают далеко не все больные. При всей своей условности рис. 12.2, тем не менее, отражает реальную картину. Из больных госпитализируется лишь девять и только один попадает в клинику. Ясно, что сложный путь больного по медицинским учреждениям далеко не случаен — он определяется прежде всего тяжестью, сложностью случая или редкостью болезни.
Поэтому при всем желании больных в клиниках трудно признать представительной выборкой. Это несоответствие обязательно нужно иметь в виду, решая, на какую совокупность больных могут быть (и в какой мере) распространены полученные в исследовании результаты.
Данные, относящиеся к госпитализированным больным, и прежде всего к больным из крупных клиник, не отражают ни общий спектр болезней и их стадий, ни их взаимосвязь. Исследователи вынуждены изучать взаимосвязь болезней, опираясь на данС ними вы можете познакомиться в нашей книге: S. A. Glantz, В. К. Sliriker. Primer of Applied Regression and Analysis of Variance.
McGraw-Нill, N.Y., 1990.
Рис. 12.2. В специализированных медицинских учреждениях оказывается лишь очень незначительная доля больных — обычно они лечатся амбулаторно или не лечатся вообще. На рисунке показано, сколько человек на 1000 населения болеют, обращаются к врачу и попадают в больницу в течение месяца.
ные, относящиеся к госпитализированным или амбулаторным больным. Но разные заболевания и разные стадии одного заболевания требуют разных форм лечения. В результате связь заболеваний представляется искаженной. Человек, страдающий несколькими болезнями, имеет больше шансов попасть в больницу, чем человек с одной болезнью. Поэтому наиболее частый вид искажения — это мнимое обнаружение связи заболеваний или преувеличение действительно существующей связи. В задаче 5.10 мы встретились с более сложным видом искажения, когда из-за неравной вероятности госпитализации создается впечатление о более сильной связи болезни Х с болезью Z, чем с болезнью Y. Данные о связи заболеваний, полученные при изучении госпитализированных больных, следует оценивать с чрезКАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ вычайной осторожностью. Эта проблема названа по имени Берксона*, первым обратившего на нее внимание.
КАК УЛУЧШИТЬ ПОЛОЖЕНИЕ
Способность применить статистический подход в медицине не сводится к заучиванию нескольких формул и умению отыскать табличное значение. Как и любая творческая деятельность, применение статистических методов и интерпретация полученных результатов требуют глубокого проникновения в суть дела — понимания как возможностей и ограничений используемых методов, так и существа решаемой клинической задачи. В гл. мы говорили, что значение статистических методов возрастает по мере ужесточения требований к обоснованию эффективности предлагаемых методов лечения. Статистическое обоснование зачастую оказывается важнейшим фактором, определяющим решение в пользу предлагаемого лечения.В то же время сами медики редко занимаются статистическим обоснованием своих исследований в силу того, что их познания в этой области столь же скромны, сколь и оторваны от практики. Обычно вся статистическая сторона дела перепоручается консультантам, нередко действительно разбирающимся в статистике, но имеющим довольно смутное представление о медицинских вопросах. Единственный выход состоит в том, чтобы медики наконец сами занялись статистическим анализом, поскольку именно они знают цели исследования и несут за него ответственность.
* J. Berkson. Limitations of the applications of fourfold table analysis to hospital data. Biometrics, 2:47—53, 1946. Менее формальное обсуждение вы найдете в работе D. Mainland. The risk of fallacious conclusions from autopsy data on the incidence of diseases with application to heart disease. Am. Heart.
J., 45:644—654, 1953. Пример того, сколь различны выводы, полученные в результате наблюдения больных из конкретной клиники, всех госпитализированных больных и, наконец, всех больных, приведен в комментарии Мюнча (N. Engl. J. Med. 272:1134, 1965) к работе Н. Binder, A. Clement, W. Thayer, H. Spiro. Rarity of hiatus hernia in achalasia. N. Engl. J. Med., 272:680—682, 1965.
Увы, проблема усугубляется еще и тем, что у немалой части исследователей сбор данных предшествует формулировке вопроса, на который они должны бы ответить. На этом пути исследователя неизменно подстерегают малоприятные открытия. Всякий раз исследователь попадает в ситуацию, когда данные собраны и остается только вычислить значение Р, но тут обнаруживается, что это значение существует не само по себе, а лишь в связи с проверкой гипотезы. Но самое обескураживающее — чтобы проверить гипотезу, ее, оказывается, нужно иметь.
Не многие исследователи обременяют себя необходимостью еще до начала сбора данных осознать цели исследования и подлежащие проверке гипотезы. Например, лишь 20% протоколов, одобренных комитетом по клиническим исследованиям одного крупного научно-медицинского центра, содержали четко сформулированные гипотезы*.
Попытайтесь понять, что вы хотите от исследования, какой вопрос вы хотите решить. И когда у вас будет конкретная гипотеза, станет понятно, каким должен быть тип предстоящего эксперимента и какие потребуются данные. Тогда по табл. 12.1 вы легко определите нужный метод анализа. Придерживаясь этих правил, вы всегда соберете данные, необходимые и достаточные для анализа.
Лишь очень немногие поступают таким образом. Поэтому неудивительно, что, когда настает время вычислить значение Р, исследователь обнаруживает, что собранные им данные мало связаны с проверяемой гипотезой, да к тому же нарушают предпосылки известных ему статистических методов. Но не начинать же все с начала. Поэтому для устранения и сглаживания статистических несообразностей на этом, завершающем этапе призывается специалист, который оставляет от Монблана данных немногое, хоть как-то пригодное для анализа, заменяет неприменимые параметрические методы неприхотливыми, но менее чувПодробнее об этой проблеме и той роли, которую могли бы сыграть в ее решении комитеты по клиническим исследованиям, говорится в работе М. Giammona, S. Glantz. Poor statistical design in research on humans: the role of Committees on Human Research. Clin. Res., 31:571—
КАК ПОСТРОИТЬ ИССЛЕДОВАНИЕ
ствительными непараметрическими или предлагает вместо одной гипотезы перейти к нескольким, пригодным для статистической проверки. Отчет об исследовании приобретает приемлемый вид. Однако само исследование не становится более осмысленным. Способ избежать этого прост и состоит в том, чтобы задуматься о том, как анализировать данные, в начале, а не в конце исследования.С примерами несостоятельных работ мы неоднократно встречались в этой книге. Еще чаще они встречаются в жизни. Поэтому серьезный врач, особенно исследователь, не должен принимать за чистую монету все, что пишется в журналах.
Знакомясь с материалами очередного исследования, обратите внимание, названы ли:
• подлежащая проверке гипотеза;
• использованные данные и способ их получения (включая метод рандомизации);
• совокупность, которую представляют используемые в исследовании выборки;
• статистические методы, использованные для оценки гипотезы.
Очень трудно найти публикацию, которая бы содержала все это. Но чем ближе она к такому идеалу, тем вернее можно положиться на приведенные в ней выводы. Напротив, очень мало доверия заслуживает статья, в которой использованные методы не указаны вовсе или упоминаются некие «стандартные методы».
Возвращаясь к вопросу об этичности исследований на людях, хочется подчеркнуть, что чем менее грамотно и добросовестно исследование, тем менее оно этично, как по отношению к тем больным, которые в нем участвовали, так и ко всем больным, лечение которых напрямую зависит от его результатов.
Неэтичен любой вводящий в заблуждение результат. Неэтично подвергать людей страданиям и мучить лабораторных животных ради получения данных, на основании которых невозможно сделать какой-либо вывод. Неэтично выполнять такие исследования, опровержение которых потребует чьих-то сил, здоровья и средств.
Конечно, тщательная проработка статистической стороны исследования не освобождает исследователя от обязанности тщаГЛАВА тельно продумать эксперимент с врачебной точки зрения, свести риск и страдания больных к минимуму. Больше того, она даже не гарантирует, что в исследовании будут получены глубокие и новаторские результаты. Иными словами, статистическая корректность — это необходимое, но еще не достаточное условие успеха исследования.
Как же изменить исследовательскую практику к лучшему?
Прежде всего, будьте активны. Если это от вас зависит, не подпускайте к исследованиям людей, несведущих в статистике, как не подпускаете тех, кто не смыслит в медицине. Встретив статистические несуразности в журнале, пишите редактору*. Не стесняйтесь задавать вопросы своим коллегам. Не поддавайтесь гипнозу наукообразия — докапывайтесь до сути дела. Когда вас осыпают мудреными терминами, спросите, что в данном случае означает Р.
Но самое главное, чтобы ваши собственные исследования были безупречны с точки зрения планирования и применения статистических методов.
* Если редактор не утратил интерес к жизни и профессии, он обязательно среагирует. Так, в 1978 г., еще никому неизвестным медиком, я написал в Circulation Research о случаях неверного использования критерия Стьюдента для множественного сравнения (об этом см. гл. 1 и 4). Редакторы получили отзыв на мое письмо у специалиста, после чего пересмотрели требования редакции к изложению в публикуемых статьях статистических методов и методов проведения эксперимента. Два года спустя редакция сообщила о «значительном улучшении применения методов проверки статистической значимости публикуемых в журнале результатов». Желающих ознакомиться с перепиской по этому вопросу отошлем к работам М. Rosen, В. Hoffman. Editorial: statistics, biomedical scientists, and circulation research. Circ. Res., 42:739, 1978 и S. Glantz. Biostatistics: how to detect, correct, and prevent errors in the medical literature. Circulation, 61:1—7, 1980; S. Wallenstein, С. Zucker, J. Heiss. Some statistical methods useful in circulation research. Circ. Res., 47:1—9, 1980.
ДИСПЕРСИЯ
ДИСПЕРСИОННЫЙ АНАЛИЗ
Расчет по групповым средним и стандартным отклонениям Имеется k групп; пi — численность i-й группы, X i — среднее в i-й группе, si — стандартное отклонение в i-й группе.Расчет по исходным данным пi — численность i-й группы, Хij — значение признака у j-го больного i-й группы.
Sвну = Sобщ Sмеж.
Число степеней свободы и величина F вычисляются как при расчете по групповым средним и стандартным отклонениям.
КРИТЕРИЙ СТЬЮДЕНТА
Расчет по групповым средним и стандартным отклонениям гдеФОРМУЛЫ ДЛЯ ВЫЧИСЛЕНИЙ
Расчет по исходным данным Значения t и n вычисляются как при расчете по групповым средним и стандартным отклонениям.
ТАБЛИЦА СОПРЯЖЕННОСТИ
Имеется таблица сопряженности Критерий Мак-Нимара Значения двух качественных признаков «есть—нет» определены у одних и тех же больных:Тогда Точный критерий Фишера где R1 и R2 — суммы по строкам. C1 и C2 — суммы по столбцам.
2. Найти наименьшее из чисел А, В, С и D. Допустим, это число A.
3. Уменьшить A на единицу.
4. Пересчитать числа в остальных клетках так, чтобы суммы по строкам и столбцам остались прежними.
5. Вычислить Р по приведенной формуле.
6. Повторять шаги 3—5, пока А не станет равным 0.
7. Сложить все значения Р, которые не превышают Р для исходной таблицы (включая Р для исходной таблицы).
Полученная сумма представляет собой значение Р для одностороннего варианта точного критерия Фишера. Чтобы получить значение Р для двустороннего варианта, нужно продолжить вычисления в следующем порядке.
8. Вернуться к исходной таблице.
9. Увеличить А на единицу.
10. Пересчитать числа в остальных клетках так, чтобы суммы по строкам и столбцам остались прежними.
11. Вычислить Р.
12. Повторять шаги 9—11, пока одно из чисел в клетках не станет равным 0.
13. Сложить значения Р, которые не превышают Р для исходной таблицы, и прибавить значение Р для одностороннего варианта. Полученная сумма представляет собой значение Р для двустороннего варианта точного критерия Фишера.
ФОРМУЛЫ ДЛЯ ВЫЧИСЛЕНИЙ
Факториалы чисел от 0 до При n > 20 используйте формулу где е = 2,71828 (основание натуральных логарифмов), = 3, (число «пи»).
КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ
ДИСПЕРСИОННЫЙ АНАЛИЗ ПОВТОРНЫХ ИЗМЕРЕНИЙ
k — число измерений, п — число больных. Подстрочные индексы: i — номер измерения, j — номер больного, например Хij — результат i-го измерения у j-го больного.
ФОРМУЛЫ ДЛЯ ВЫЧИСЛЕНИЙ
КРИТЕРИЙ КРУСКАЛА—УОЛЛИСА
где Ri — сумма рангов i-го измерения.Диаграммы чувствительности дисперсионного анализа
ДИАГРАММЫ ЧУВСТВИТЕЛЬНОСТИ
432 ПРИЛОЖЕНИЕ БДИАГРАММЫ ЧУВСТВИТЕЛЬНОСТИ
Чувствительность ЧувствительностьПРИЛОЖЕНИЕ Б
ДИАГРАММЫ ЧУВСТВИТЕЛЬНОСТИ
Чувствительность ЧувствительностьПРИЛОЖЕНИЕ Б
ДИАГРАММЫ ЧУВСТВИТЕЛЬНОСТИ
Чувствительность ЧувствительностьПРИЛОЖЕНИЕ Б
2.1. Среднее — 3,09; стандартное отклонение — 2,89; медиана — 2; 25-й процентиль — 1; 75-й процентиль — 5. Вряд ли данные извлечены из совокупности с нормальным распределением: среднее довольно сильно отличается от медианы, медиана гораздо ближе к 25-му процентилю, чем к 75-му, а значит, распределение асимметрично. Поскольку среднее почти равно стандартному отклонению, в случае нормального распределения примерно 15% значений было бы меньше нуля. Поэтому отсутствие отрицательных значений также говорит против нормальности распределения.2.2. Среднее — 244; стандартное отклонение — 43; медиана — 235,5; 25-й процентиль — 211; 75-й процентиль — 246. Выборка вполне может быть извлечена из совокупности с нормальным распределением: медиана близка к среднему и находится примерно посредине между 25-м и 75-м проценталями. Сравните с предыдущей задачей.
2.3. Среднее — 5,4; стандартное отклонение — 7,6; медиана — 2,0; 25-й процентиль — 1,6; 75-й процентиль — 2,4. Выборку нельзя считать извлеченной из нормально распределенной совокупности: среднее не только не равно медиане, но даже превышает 75-й процентиль. Стандартное отклонение превышает среднее, при этом среди данных нет отрицательных значений (и не может быть по самой природе данных). Высокие значения среднего и стандартного отклонения обусловлены главным образом двумя «выпадающими» значениями — 19,0 и 23,6.
2.4. Это равномерное распределение: все значения от 1 до выпадают с равной вероятностью. Среднее число очков — 3,5.
2.5. Это распределение выборочных средних, вычисленных по выборкам объемом 2, извлеченным из совокупности, описанной в предыдущей задаче. Среднее этого распределения равно среднему в совокупности, то есть 3,5, а стандартное отклонение (примерно 1,2) — это оценка стандартной ошибки среднего, вычисленного по выборке объемом 2.
2.6. Распределение по числу авторов не может быть нормальным уже потому, что нормальное распределение непрерывно, а число авторов всегда целое. Кроме того, все 4 средних меньше двух стандартных отклонений. Это значит, что в случае нормального распределения какое-то число статей должно было бы иметь отрицательное число авторов. Следовательно, мы имеем дело с асимметричным распределением наподобие распределения юпитериан по росту. К 1976 г. среднее число авторов резко возросло, однако стандартное отклонение возросло еще больше, так что теперь среднее меньше одного стандартного отклонения. Это говорит об увеличении асимметрии. Обратите внимание, что если бы Р. и С. Флетчеры привели не стандартное отклонение, а стандартную ошибку, мы не смогли бы прийти к этим выводам.
3.1. F = 15,74; меж = 1; вну = 40. Полученное значение F превышает критическое для данного числа степеней свободы и уровня значимости 0,01 (7,31). Различия статистически значимы.
Можно утверждать, что гель с простагландином Е2 сокращал продолжительность родов.
3.2. F = 64,18; меж = 4; вну = 995. Различия статистически значимы (максимальную объемную скорость середины выдоха нельзя считать одинаковой во всех группах, Р < 0,01).
3.3. F = 35,25; меж = 2; вну = 207; P < 0,01.
3.4. F = 60,37; меж = 6; вну = 245; P < 0,01.
3.5. F = 2,52; меж = 1; вну = 70; Р > 0,05.
3.6. F = 3,85; меж = 5; вну = 90; P < 0,01.
3.7. F = 8,19; меж = 3; вну = 79; P < 0,01.
3.8. F = 0,41; меж =4; вну =101; P > 0,05.
4.1. Для среднего артериального давления t = –1,97, для общего периферического сосудистого сопротивления t = –1,29. Число степеней свободы в обоих случаях = 23, при = 0,05 ему соответствует критическое значение t = 2,069. Следовательно, различия обоих гемодинамическйх показателей статистически не значимо.
4.2. t = 3,14; = 20; Р < 0,01. Различия статистически значимы, однако, вопреки первоначальным предположениям, нифедипин не повышает, а снижает артериальное давление.
4.3. Нет. t = 1,33; = 20; Р > 0,05. Нифедипин не влияет на диаметр коронарных артерий.
4.4. Задача 3.1: t = 3,97; = 40; P < 0,001. Задача 3.5: t = 1, = 70; P > 0,05.
4.5. Вот некоторые результаты попарных сравнений. Некурящие, работающие в помещении, где не курят, и пассивные курильщики — t = 6,21, выкуривающие небольшое число сигарет и выкуривающие среднее число сигарет — t = 4,72, выкуривающие среднее число сигарет и выкуривающие большое число сигарет — t = 2,39. Применим поправку Бонферрони. Поскольку имеется 5 групп, можно провести 10 попарных сравнений. Чтобы истинный уровень значимости остался равным 0,05, в каждом из сравнений уровень значимости следует принять равным 0,05/10 = 0,005. Число степеней свободы = 995. Таким образом, критическое значение t составляет 2,807. Отличия проходимости дыхательных путей у некурящих, работающих в помещении, где не курят, и пассивных курильщиков статистически значимы.
4.6. Некурящие, работающие в накуренном помещении (пассивные курильщики): q = 6,249; l = 5. Выкуривающие небольшое число сигарет: q = 7,499; l = 5. Выкуривающие среднее число сигарет: q = 12,220; l =5. Выкуривающие большое число сигарет: q = 14,580; l = 5. Критическое значение q при уровне значимости 0,01, числе степеней свободы 995 и l = 5 составляет 3,00. Следовательно, отличие некурящих, работающих в помещении, где не курят, от пассивных курильщиков и от собственно курильщиков всех степеней злостности статистически значимо.
4.7. Не занимающиеся спортом и бегуны трусцой: t = 5,616.
Не занимающиеся спортом и бегуны-марафонцы: t = 8,214. Бегуны трусцой и бегуны-марафонцы: t = 2,598. Чтобы истинный уровень значимости остался равным 0,05, в каждом из сравнений уровень значимости следует принять равным 0,05/3 = 0,017. Число степеней свободы = 207. Критический уровень t составляет 2,42. Все три группы различаются статистически значимо.
4.8. Бегуны трусцой: t = 5,616. Бегуны-марафонцы: t = 8,214.
Поскольку в данном случае возможно только два парных сравнения, в каждом из них уровень значимости следует принять равным 0,05/2 = 0,025. Число степеней свободы = 207. Критический уровень t составляет 2,282. Таким образом, не занимающиеся спортом статистически значимо отличаются как от бегунов трусцой, так и от марафонцев. Обратите внимание, что мы получили те же значения t, что и в предыдущей задаче, но число возможных сравнений уменьшилось до 2, благодаря чему критический уровень t снизился. Однако при таком методе анализа мы не можем сделать никакого вывода о различиях бегунов трусцой и марафонцев.
4.9. Контрольная группа, 15 и 30 сигарет; 75 сигарет без тетрагидроканнабинолов и 50 сигарет; 75 и 150 сигарет.
4.10. Всего можно провести 6 сравнений. Контроль и дофамин в низкой дозе: t = 0. Контроль и дофамин в высокой дозе:
t = 3,171. Контроль и нитропруссид натрия: t = 4,228. Дофамин в низкой дозе и дофамин в высокой дозе: t = 2,569. Дофамин в низкой дозе и нитропруссид натрия: t = 3,426. Дофамин в высокой дозе и нитропруссид натрия: t = 0,964. Уровень значимости в каждом из сравнений 0,05/6 = 0,0083, число степеней свободы = 79, соответствующий критический уровень t составляет 2,72.
Итак, группы довольно четко разделились на контроль и дофамин в низкой дозе, с одной стороны, и дофамин в высокой дозе и нитропруссид натрия, с другой. Картину несколько портит сравнение дофамина в низкой и высокой дозе: значение t не достигает критического уровня, хотя и близко к нему. В такой ситуации большинство исследователей, вероятно, все же сочтет различие этих групп статистически значимым, учитывая «жесткость» поправки Бонферрони, их вряд ли можно за это упрекнуть.
4.11. Результаты попарных сравнений:
Контроль и нитропруссид 15 – 7 = 8 5,979 4 3, натрия Контроль и дофамин в 15 – 9 = 6 4,485 3 3, высокой дозе Контроль и дофамин в 15 – 15 = 0 0,000 2 2, низкой дозе Дофамин в низкой дозе и 15 – 7 = 8 4,845 3 3, нитропруссид натрия Дофамин в низкой дозе и 15 – 9 = 6 3,634 2 2, дофамин в высокой дозе Дофамин в высокой дозе и 9 – 7 = 2 1,365 2 2, нитропруссид натрия Критические значения q для уровня значимости = 0,05, числа степеней свободы = 79 и соответствующих значений l приведены в правой колонке. Общий вывод тот же, что и в предыдущей задаче, при этом различие дофамина в низкой и высокой дозе теперь статистически значимо.
4.12. Групп слишком много, чтобы применить поправку Бонферрони: она окажется слишком «строгой». Применим поэтому критерий Ньюмена—Кейлса.
Упорядочим группы по убыванию среднего.
Стандартное отклонение 20,5 14,9 13,4 14,3 14,7 16, Проделаем стягивающие сравнения. Результат приведен в таблице на следующей странице. В правом столбце — критическое значение для уровня значимости = 0,05.
Значение q превышает критическое только в первых 4 сравнениях. Таким образом, все группы можно объединить в две каПРИЛОЖЕНИЕ В тегории. К категории высокой опустошенности относятся медсестры 3-й группы терапевтических отделений и 2-й группы хирургических отделений, к категории умеренной опустошенности — все остальные. Отнесение медицинских сестер 2-й группы хирургических отделений к категории высокой опустошенности довольно условно — их можно было бы отнести и к категории умеренной опустошенности. При множественных сравнениях подобные ситуации встречаются, к сожалению, нередко.
Сравнение 5.1. Да, позволяют: 2 = 17,878; = 1; Р < 0,001.
5.2. Значения 2 для исследованных признаков следующие:
возраст матери — 11,852 (Р < 0,001), время от окончания предыдущей беременности — 10,506 (Р < 0,005), планировалась ли беременность — 3,144 (Р > 0,05), повторная беременность — 1, (Р < 0,05), курение во время беременности — 17,002 (Р < 0,001), посещения врача во время беременности — 4,527 (Р < 0,05), самый низкий гемоглобин во время беременности — 0, (Р > 0,05), раса — 0,527 (Р > 0,05). (Число степеней свободы для расы — 2, для остальных признаков — 1.) Таким образом, факторы риска: возраст матери меньше 25 лет, время от окончания предыдущей беременности менее 1 года, курение во время беременности, возможно также менее 11 посещений врача во время беременности.
5.4. 2 = 7,288; = 2; Р < 0,05, различия эффективности статистически значимы. Сравним ампициллин и цефалексин.
2 = 0,433; = 1; Р > 0,05 (с поправкой Бонферрони), различия статистически не значимы. Объединим соответствующие строки и сравним ампициллин или цефалексин с триметопримом/сульфаметоксазолом.
2 = 5,387; = 1; Р < 0,05 (с поправкой Бонферрони), различия статистически значимы. Итак, Триметоприм/сульфаметоксазол превосходит как ампициллин, так и цефалексин, которые друг от друга не отличаются.
5.5. 2 = 74,925; = 2; Р < 0,001. Связь заболеваемости с количеством выпитой воды статистически значима. Сравнив группы попарно (используя поправку Бонферрони), можно убедиться, что заболеваемость растет с количеством выпитой воды.
5.6. 2 = 48,698; = 3; Р < 0,001, в целом различие долей статистически значимо. Разбиение таблицы показывает, что не отличаются 1946 от 1956 г. и 1966 от 1976 г. Далее, объединенная группа 1946 и 1956 гг. отличаются в лучшую сторону от объединенной группы 1966 и 1976 гг. Таким образом, между 1956 и 1966 г. ситуация изменилась к худшему.
5.7. 2 = 5,185; = 1; Р < 0,025. Различия (в пользу хирургического лечения) статистически значимы.
5.8. Без антиангинальной терапии: в двух клетках ожидаемые числа меньше 5, поэтому следует применить точный критерий Фишера, он дает Р = 0,151. Различия статистически не значимы.
На фоне антиангинальной терапии: можно было бы применить критерий 2, однако для единообразия применим точный критерий Фишера: Р = 0,094. Различия статистически не значимы.
5.9. 2 = 2,273; = 1; Р > 0,05. Теперь статистически значимых различий нет.
5.10. 2 = 8,812; = 1; Р < 0,005. Различия статистически значимы: в больнице среди страдающих болезнью Z доля больных Х выше, чем среди страдающих болезнью Y. Как мы видели, эти различия обусловлены исключительно разной вероятностью госпитализации при этих болезнях.
6.1. / = 1,1; n = 9, чувствительность — 63% (рис. 6.9).
6.2. / = 0,55, чувствительность — 80%, п = 40 (рис. 6.9).
6.3. Среднее артериальное давление: = 0,25 76,8 = 19,2;
= 17,8 (объединенная оценка); / = 1,08; п = 9 (численность меньшей из групп). По рис. 6.9 находим чувствительность — 63%. Общее периферическое сосудистое сопротивление: / = = 553/1154 = 0,48; п = 9; чувствительность примерно 13%.
6.4. Примерно 70%.
6.5. Примерно 50 крыс в каждой группе.
6.6. Обозначим истинную долю р, а ее выборочную оценку. p Наименьшее различие долей, которое мы хотим выявить, обозначим р. Объем каждой из выборок равен п.
Если нулевая гипотеза об отсутствии различий верна, то величина z = p s подчиняется стандартному нормальному расp пределению. Кроме того, при справедливости нулевой гипотезы, 1 и 2 — это две оценки одной и той же доли. Тогда ее объединенная оценка — = ( 1 + 2 )/2 = (0,3 + 0,9)/2 = 0,6, а стандартная ошибка разности:
При уровне значимости = 0,05 критическое значение z составляет z = 1,960. Ему соответствует Истинные доли p1 и p2 составляют соответственно 0,3 и 0,9, тогда их разность р = p2 – p1 = 0,9 – 0,3 = 0,6, а ее стандартная ошибка Величина z = ( p p ) s подчиняется стандартному норp мальному распределению. Поскольку необходимая чувствительность 90%, найдем по таблице 6.4 значение z правее которого лежит 90% всех значений. Это z = –1,282. Ему соответствует Приравняем обе оценки p : 1, Тогда п = 11,7, то есть в каждой группе должно быть 12 больных.
6.7. 80%.
6.8. На 5 мг% — 36%, на 10 мг% — 95%.
6.9. 183.
6.10. При данной численности групп и ожидаемом эффекте лечения мы получим следующие доли в клетках.
= l,4; меж = (3 – 1)(2 – 1) = 2; по рис. 6.10 находим чувствительность — 58%.
6.11. 135.
7.1. 90% доверительные интервалы: 1,8—2,2; 2,1—2,5; 2,6— 3,0; 3,9—5,9. 95% доверительные интервалы: 1,8—2,2; 2,0—2,6;
2,6—3,0; 3,7—6,1. (С округлением до 1 знака после запятой.) 7.2. Воспользовавшись рис. 7.4, найдем: для контрольной группы 6—42%, для группы, получавшей гель с простагландином Е2 — 5—40%. 95% доверительный интервал для разности долей от – 15 до 33% (можно использовать приближение с помощью нормального распределения). Разность долей статистически не значима.
7.3. 95% доверительный интервал разности средней продолжительности родов — от 2,7 до 8,1. Различия статистически значимы (Р < 0,05).
7.4. При включенном приборе не чувствовали боли 80%, по рис. 7.4 находим 95% доверительный интервал — от 60 до 90%.
При выключенном приборе доля — 15%, 95% доверительный интервал — примерно от 3 до 40%. Доверительные интервалы не перекрываются, поэтому различия статистически значимы.
7.5. Некурящие, работающие в помещении, где не курят, — 3,07—3,27; пассивные курильщики — 2,62—2,82; выкуривающие небольшое число сигарет — 2,53—2,73; выкуривающие среднее число сигарет — 2,19—2,39; выкуривающие большое число сигарет — 2,02—2,22. Объединив группы с перекрывающимися доверительными интервалами, получим 3 категории: первая — некурящие, работающие в помещении, где не курят, вторая — пассивные курильщики и выкуривающие небольшое число сигарет, третья — выкуривающие среднее и большое число сигарет.
7.6. 1946 г. — 17–31%; 1956 г. — 22–36%; 1966 г. — 43–59%;
1976 г. — 48–64%.
7.7. Для 90% значений: 121—367, для 95% значений: 108—380.
8.1. а) a = 3,0; b = 1,3; r = 0,79; б) а = 5,1; b = 1,2; r = 0,94; в) а = 5,6;
b = 1,2; r = 0,97. С увеличением диапазона данных растет и коэффициент корреляции.
8.2. а) a = 24,3; b = 0,36; r = 0,561; б) а = 0,5; b = 1,15; r = 0,599.
Первый пример показывает, сколь большое влияние может иметь нести данные на график, прежде чем приступить в регрессионному анализу: здесь выборка явно разнородна и может быть описана двумя различными зависимостями. Условия применимости регрессионного анализа не соблюдены, и попытка выразить связь единственной линией регрессии несостоятельна.
8.3. Во всех четырех экспериментах а = 3,0; b = 0,5; r = 0,82.
Условия применимости регрессионного анализа соблюдены только в первом эксперименте.
8.4. Да. r = –0,68; Р < 0,05.
8.5. Применим метод Блэнда–Алтмана. Для конечно-диастолического объема: средняя разность — 3 мл, стандартное отклонение 14 мл. Для конечно-систолического объема: средняя разность 4 мл, стандартное отклонение 10 мл. Это говорит о хорошей согласованности по обоим показателям. При графическом анализе видно, что в обоих случаях разность увеличивается с ростом среднего показателя.
8.6. При калорийности 37 ккал/кг: а = –44,3; b = 0,34; при калорийности 33 ккал/кг: а = –34,8; b = 0,35. Для разности коэффициентов сдвига t = 1,551; п = 20; Р > 0,05, для разности коэффициентов наклона: t = 0,097; = 20; P > 0,05. При калорийности 37 ккал/кг нулевой азотистый баланс достигается при поступлении азота 130 мг/кг.
8.7. Оценки согласованы достаточно хорошо: коэффициент ранговой корреляции Спирмена rs = 0,89; Р < 0,002. Впрочем, тут можно применить и коэффициент корреляции Пирсона, он даст r = 0,94; Р < 0,001.
8.8. Коэффициент ранговой корреляции Спирмена rs = 0,899;
Р < 0,001. Визуальная оценка достаточно хорошо соответствует результатам взвешивания. Однако, если нанести данные на график, можно заметить, что при большом налете визуальная оценка занижает результат. Дополнительный вопрос: нельзя ли в этом случае воспользоваться методом Блэнда—Алтмана?
8.9. Коэффициент ранговой корреляции Спирмена rs = 0,85;
Р < 0,001. Данные подтверждают гипотезу о связи между адгезивностью эритроцитов и тяжестью серповвдноклеточной анемии.
8.10. 0,999.
8.11. 20.
8.12. Для коэффициентов наклона t = –2,137; = 26; Р < 0,05.
Для коэффициентов сдвига t = –2,396; = 26; Р < 0,05. При сравнении линий регрессии в целом имеем: F = 6,657; меж = 2;
вну = 2. Различия линий регрессии статистически значимы.
9.1. Применив парный критерий Сгьюдента, получим: t = 4,69;
= 9; Р < 0,002. Полоскание с хлоргексидином более эффективно.
9.2. Антитела к пневмококкам: t = 3,2; = 19; Р < 0,01, изменение статистически значимо. Антитела к стрептококкам: t = 1,849, = 19; Р > 0,05, изменение статистически не значимо.
9.3. Антитела к пневмококкам: = 306 (средний начальный уровень), = 621 (стандартное отклонение изменения), = 0,49.
По рис. 6.9 находим чувствительность — примерно 50%. Антитела к стрептококкам: = 0,74; = 2,85; = 0,26, чувствительность около 20%.
9.4. Антитела к пневмококкам: F = 10,073. Антитела к стрептококкам: F = 3,422. В общем случае F = t2.
9.5. Дисперсионный анализ повторных наблюдений дает F = = 184,50; меж = 3; вну = 33. Различия статистически значимы.
Попарные сравнения с помощью критерия Стьюдента и поправки Бонферрони показывают, что результаты до курения и вдыхания окиси углерода статистически значимо не отличаются друг от друга, но отличаются от результатов после курения и вдыхания окиси углерода; те, в свою очередь, статистически значимо отличаются друг от друга.
9.6. Применив дисперсионный анализ повторных наблюдений, получим F = 5,04. Критический уровень F при = 0,05 и числе степеней свободы меж = 2 и вну = 6 составляет 5,14, то есть несколько превышает полученное.
9.7. Дисперсионный анализ повторных измерений дает F = = 4,56; меж = 2; вну = 12. Различия статистически значимы. Критерий Стьюдента с поправкой Бонферрони показывает, что объем пищи при исходном давлении в поясе 20 мм рт. ст. меньше, чем при давлении 0 и 10 мм рт. ст. Результаты при 0 и 10 мм рт. ст.
друг от друга статистически значимо не отличаются.
9.8. = 100, в качестве возьмем квадратный корень из остаточной дисперсии, равный 74. Тогда = 1,35, чувствительность примерно 50%.
9.9. Применим критерий Мак-Нимара: 2 = 4,225; = l, Р < 0,05. Индометацин эффективен.
9.10. Теперь данные представлены в виде обычной таблицы сопряженности; 2 = 2,402; = l, Р > 0,05. Игнорируя парность наблюдений, мы теряем часть информации, в результате чувствительность снижается.
10.1. Изменение расходов на обследование: W = –72, п = (одно нулевое изменение), Р < 0,02. Изменение расходов на лечение: W = –28, п = 13, Р > 0,048. Расходы на обследование снизились, на лечение остались прежними. Статистически значимой связи между расходами на обследование и лечение нет:
rs = 0,201, Р > 0,05.
10.2. Критерий Стьюдента дает t = 1,908, = 22, Р > 0,05.
Статистически значимых различий нет. Применим критерий Манна—Уитни. Т = 203, п = 12. Можно применить приближение нормальным распределением: z = 3,041, Р < 0,005. Различия статистически значимы. Распределение далеко от нормального, noэтому параметрический критерий проигрывает в чувствительности непараметрическому.
10.3. Н = 20,66; = 2, Р < 0,001. Различия статистически значимы.
10.4. Задача 9.5: 2 = 32,4 ; = 3; Р < 0,001. Задача 9.6: 2 = 6,5;
k = 3; n = 4; Р = 0,042. Различия статистически значимы.
10.5. Т = 54; nб = 6; nб = 22; zT = –1,848; Р > 0,05.
10.6. Применим критерий Манна—Уитни с поправкой Йейтса: zT = 3,425; Р < 0,001. Различия статистически значимы.
10.7. Н = 18,36; n = 2; Р < 0,001. Различия групп статистически значимы. Попарное сравнение с помощью критерия Данна показывает следующее:
Группы не распадаются на различающиеся категории, кроме того, различия 2-й 1руппы (поражение только правой коронарной артерии) и 3-й (поражение левой или обеих коронарных артерий) статистически не значимы. Предполагавшееся диагностическое значение исследуемого показателя не доказано.
10.8. Да, критерий G ничем не хуже прочих (если не считать проблемы: что делать, если показатель не изменился).
Для п = 4 распределение его значений таково:
При п = 4 вероятность получить даже самые маловероятные значения — 0 или 64 составляет 1/16 + 1/16 = 1/8 = 0,125. В этом случае мы не можем указать критическое значение для 5% уровня значимости (обратите внимание, что при этой численности группы критерий Уилкоксона тоже не даст результата). При п = критические значения — 0 и 6, соответствующий уровень значимости 1/64 + 1/64 = 1/32 = 0,31.
11.1. Воспользуемся логранговым критерием. Сумма разностей ожидаемого и наблюдаемого числа смертей UL = –13,243, ее стандартная ошибка sU L = 3,090. Таким образом, z = –4,285 (с поправкой Йейтса z = –4,124). Различия выживаемости статистически значимы (Р < 0,001). Выживаемость приведена в таблице.
Высокие оценки Низкие оценки активности Месяцы Выживаемость Месяцы Выживаемость 11.2. Выживаемость представлена в таблице.
Время, Выжива- Стандартная нижняя верхняя 11.3. (а) Выживаемость и 95% доверительные интервалы представлены в таблице.
Месяцы Выживаемость нижняя граница верхняя граница 1975–1979 гг.
1980–1984 гг.
(б) Медиана выживаемости составила 36 мес в 1975—1979 гг.
и 14 мес в 1980—1984 гг. (в) Логранговый критерий дает z = –1, ния для = 0,05; различия выживаемости статистически не значимы. (г) Чувствительность составляет 0,62. (д) Число смертей 104, суммарная численность групп 149 (для снижения S() до 0,20); число смертей 65, суммарная численность групп 89 (для снижения S() до 0,15).
-ошибка — см. Ошибки I и II Выживаемость 372— рода, см. также Уро- доверительный интервал Берксона эффект 419 логранговый критерий Бонферрони неравенство 105 критерий Гехана 395— Бонферрони поправка стандартная ошибка для повторных измерений чувствительность 396— Внутригрупповая дисперсия Даннета критерий 116— Выборочное стандартное от- Дисперсионный анализ 47— чувствительность 181—184, для критерия Уилкоксона Дисперсионный анализ по- для логрангового критерия чувствительность 314 Количественные признаки Дисперсия 30—31 Контролируемое испытание объединенная оценка 88,96 68—69, 405— Доверительная область Корреляция 250— для значений 243—244 и регрессия 255— для линии регрессии коэффициент 250— Доверительный интервал см. Спирмена коэффициент ранговой при малой численности Крускала—Уоллиса критерий для значений 216—219 Линии регрессии, сравнение статистической Логранговый критерий для разности долей 206—207 314— для разности средних Манна—Уитни критерий для среднего 205—206 Медиана 32— и чувствительность 209—211 выживаемости 377, сравнение 132—134 Множественные сравнения, стандартное отклонение см. также Эффект множественных сравнений Йейтса поправка 144—145 Мощность — см. Чувствительдля критерия Гехана 396 ность для множественных сравне- Р, определение 117— чувствительность 325—326 Рандомизация 68, 405— Неравенство Бонферрони 105 Регрессии уравнение 225— Нормальное распределение расчет параметров 227— Нулевая гипотеза 47,117—119 Спирмена коэффициент рангоНьюмена—Кейлса критерий вой корреляции повторные измерения 314 Среднее 29— Обсервационное исследование Стандартное нормальное распределение Ожидаемое число 139—142 Стандартное отклонение Остаточное стандартное от- доли 125— Параметр нецентральности Степени свободы Параметры распределения 29 доли 128— выборочные оценки 36—37 среднего 37— Плацебо эффект 19,293 Стьюдента критерий 81— Повторные измерения и дисперсионный анализ Показатели процесса и резуль- ошибки в использовании Порядковые признаки 123 Таблицы сопряженности Признаки: количественные, преобразование 147— качественные и поряд- чувствительность 184— Проспективное исследование для повторных измерений Процентили 32—36 Уилкоксона критерий 338— Уровень значимости 57 Центральная предельная теореФакториал 151, 427 ма 41— Фишера точный критерий Чувствительность 161— Формула Гринвуда 382 дисперсионного анализа Фридмана критерий 354—357 181— — см. Параметр нецентраль- дисперсионного анализа поности вторных измерений критическое значение объем выборки 174— критерий 141—147 таблицы сопряженности критическое значение 143, 184— Цензурирование — см. Выбы- Эффект множественных сраввание нений 101—103, Программа БИОСТАТ позволит вам применить на практике все статистические критерии, о которых Вы прочли в этой книге.
Программа написана автором книги Стентоном Гланцем и переведена на русский язык в издательском доме «Практика» с полным сохранением принятой в книге терминологии.
Программа поставляется на одной дискете в двух версиях (для DOS и Windows), нетребовательна к памяти и быстродействию, работает на любом IBM-совместимом компьютере. Работать с программой очень просто — не сложнее, чем на калькуляторе.
С программой чтение книги будет более интересным: вы сможете лучше следить за изложением, разбирая приводимые в книге примеры, легче решать задачи.
Программа поможет вам и в исследовательской работе.
Достаточно скопировать данные из электронной или просто текстовой таблицы и нажать кнопку «Результат».
Программа стоит не многим дороже книги.
Заказывайте программу по телефонам (095) 112-85-36, 203-66-50, 203-61-02, 203-60-35.
Книги издательства «Практика»
Зарубежные практические руководства Вудли, Уэлан. Терапевтический справочник Вашингтонского университета (пер. с англ., Фрид, Кардиология в таблицах и схемах (пер. с англ., 736 с.). 1996.
Самуэльс. Неврология (пер. с англ., 640 с.). 1997.
Греф. Педиатрия (пер. с англ., 912 с.). 1997.
Конден и др. Клиническая хирургия (пер. с англ., 716 с.). 1998.
Шайдер. Психиатрия (пер. с англ., 600 с.). 1998.
Лавин и др. Эндокринология (пер. с англ., 1000 с.). 1998.
Лолор. Клиническая иммунология (пер. с англ., 900 с.). 1998.
Нисвандер. Акушерство (пер. с англ., 800 с.). 1998.
Семейная медицина Мёрта. Справочник врача общей практики (пер. с англ., 1230 с., 500 илл.). 1998.
Цветные медицинские атласы Затурофф. Симптомы внутренних болезней. Цветной атлас (439 с., 836 цв. илл.). 1997.
Эмонд и др. Инфекционные болезни. Цветной атлас (440 с., 513 цв. илл.). 1998.