11 ноября 2013

Процедуры множественных проверок гипотез: метод Беньямини-Йекутили



В предыдущем сообщении был описан метод Беньямини-Хохберга, широко используемый для контроля над ожидаемой долей ложных отклонений при проверке большого числа статистических гипотез. Одно из условий применимости этого метода заключается в том, что все проверяемые гипотезы должны быть независимы. На практике это условие выполняется редко, поскольку в большинстве случаев гипотезы проверяются на одном и том же наборе данных. Понимая важность этого ограничения, И. Беньямини и Д. Йекутили (Benjamini and Yekutieli 2001) предложили усовершенствованный метод, учитывающий наличие корреляции между проверяемыми гипотезами (подробное описание метода и соответствующие доказательства см. в указанной оригинальной статье).

05 ноября 2013

Процедуры множественных проверок гипотез: метод Беньямини-Хохберга



Рассмотренные ранее процедуры множественных проверок гипотез обеспечивают контроль над групповой вероятностью ошибки первого рода (в частности, методы Бонферрони, Холма и Тьюки). Такой контроль означает, что вероятность совершить хотя бы одну ошибку первого рода удерживается на уровне \(\leq \alpha \), где \(\alpha\) - принятый в исследовании уровень значимости (например, 0.05). Хотя методы Холма и Тьюки обладают более высокой статистической мощностью, чем поправка Бонферрони, при проверке очень большого числа гипотез их мощность может оказаться недостаточной. Под "недостаточной мощностью" имеется в виду сохранение многих нулевых гипотез, которые потенциально могут представлять исследовательский интерес и которые, соответственно, следовало бы отклонить. Сегодня проверка действительно большого числа гипотез (десятков тысяч и даже миллионов) стала рутинной операцией в самых разных областях, таких как генетика (анализ данных, получаемых при помощи технологии микрочипов), протеомика (данные масс-спектрометрии), нейробиология (анализ изображений мозга), экология, астрофизика, и др. Недостаточная мощность традиционных процедур множественной проверки гипотез привела к разработке новых методов, одному из которых - методу Беньямини-Хохберга - посвящено это сообщение.

22 октября 2013

Несколько книг по R в открытом доступе



В Сети в открытом доступе есть несколько очень полезных книг по R и по современным методам статистики (на англ. яз.):
  • Wickham H. Advanced R Programming (Продвинутое программирование на R)
    Работа Хэдли Уикхэма, автора таких известных пакетов для R, как, например, ggplot2 и plyr. Выход "бумажной" версии этой книги запланирован на декабрь 2013 г., однако по разрешению издательства (Chapman and Hall) ее электронная версия останется в открытом доступе. Эту книгу стоит прочитать каждому, кто планирует серьезно освоить программирование на R (наряду, конечно, с такой классикой, как "голубая книга", "белая книга" и вот эта книга).
  • Hasti T., Tibshirani R., Friedman J. (2011) The Elements of Statistical Learning (Элементы статистического обучения)
    Думаю, что имена этих авторов не нуждаются в представлении... Фундаментальная монография по методам машинного обучения, которую многократно допечатывали после выхода первого издания. Издательство Spinger любезно дало авторам согласие на публичное распространение электронной версии. Хотя эта книга не имеет непосредственного отношения к R, ее можно рассматривать как справочник по многим современным методам, реализованным в R-пакетах.
  • Hyndman R.J., Athanasopoulos G. (2013) Forecasting: Principles and Practice (Прогнозирование: принципы и практика)
    Я уже писал об этой отличной книге ранее. Теперь работа над ней полностью завершена и все главы доступны для чтения.
  • Jockers M.L. Text Analysis with R for Students of Literature (Анализ текстов при помощи R для изучающих литературу)
    Черновик этой книги можно свободно скачать с сайта автора - Мэтью Джокерса, профессора английского языка в Университете Небраски. Работа представляет собой очень доступное введение в анализ текстов при помощи R. Книга будет опубликована издательством Springer в рамках их новой серии "Количественные методы в гуманитарных и социальных науках". В настоящее время Мэтью собирает предложения читателей по улучшению текста - Вы можете сделать свой вклад!
  • Cox S.B. (2013) Applied Biostatistical Analysis with R (Прикладной биостатистический анализ с использованием R)
    Стефен Кокс имеет богатую историю преподавания статистики студентам-биологам, а также опыт работы в качестве аналитика-консультанта. В своей книге, опубликованной в рамках проекта Otexts, он излагает основы биостатистики. Хотя эта работа еще не завершена до конца, многие из запланированных глав уже доступны для чтения.
  • Lavine M. (2009) Introduction to Statistical Thinking (Введение в статистическое мышление)
    Доступно написанная книга о статистическом моделировании, в частности о методе максимального правдоподобия и его использовании для оценивания параметров моделей (подробнее см. здесь). Множество примеров с использованием R-кода. (Внимание: размер файла ~40Mб; скачивается очень медленно!)


19 октября 2013

Процедуры множественных проверок гипотез: критерий Тьюки



Применяя однофакторный дисперсионный анализ, мы можем проверить нулевую гипотезу о том, что все сравниваемые группы происходят из одной генеральной совокупности, и следовательно их средние значения не различаются, т.е. \(H_0: \mu_1 =  \mu_2 = \dots = \mu_m\). Если нулевую гипотезу не удается отвергнуть при заданном уровне значимости (например, \(\alpha = 0.05\)), в дальнейшем анализе, в принципе, нет необходимости. Но что, если нулевая гипотеза отвергается? В этом случае мы делаем заключение о том, что средние значения сравниваемых групп значительно различаются (другими словами, изучаемый фактор оказывает существенное влияние на интересующую нас переменную). Это единственный вывод, который можно сделать при помощи дисперсионного анализа как такового. Однако обычно нам интересно пойти дальше и выяснить, где именно лежат различия, т.е. какие именно группы отличаются друг от друга. Чтобы узнать это, необходимо выполнить попарные сравнения средних значений имеющихся групп. Как было отмечено ранее, критерий Стьюдента "в чистом виде" для таких сравнений неприменим в силу возникновения эффекта множественных сравнений. Теоретически, Р-значения, получаемые при помощи критерия Стьюдента можно было бы скорректировать при помощи поправки Бонферрони. Однако при наличии большого числа сравниваемых групп метод Бонферрони становится очень консервативным, часто не позволяя отвергнуть даже те гипотезы, которые со всей очевидностью должны быть отвергнуты. Для решения описанной проблемы (т.е. для выполнения большого числа попарных сравнений групповых средних без потери статистической мощности) было разработано несколько методов. Это сообщение посвящено одному из них - популярному критерию Тьюки, или критерию достоверно значимой разности Тьюки (англ. Tukey's honestly significant difference test, или просто Tukey's HSD test). Критерий назван так в честь предложившего его американского математика и статистика Джона Тьюки (John Tukey).




13 октября 2013

Процедуры множественных проверок гипотез: поправка Бонферрони и метод Холма



Предыдущее сообщение представляло собой небольшое введение в проблему множественных проверок статистических гипотез. Вкратце, проблема заключается в том, что при одновременной проверке большого числа гипотез на том же наборе данных вероятность сделать неверное заключение в отношении хотя бы одной из этих гипотез значительно превышает изначально принятый уровень значимости (обычно \(\alpha = 0.05\)). Для устранения этого эффекта существует большой арсенал методов, различающихся по своей мощности и применимости в разных ситуациях. В этом сообщении будет рассмотрен один из наиболее известных таких методов - поправка Бонферрони. Кроме того, будет описан метод Холма, который представляет собой модификацию подхода, предложенного Бонферрони.

03 октября 2013

О проблеме множественных проверок статистических гипотез



В практике статистического анализа часто возникает ситуация, когда на одном и том же наборе данных выполняется проверка большого числа гипотез. Например, интерес может представлять выполнение всех возможных попарных сравнений средних значений нескольких экспериментальных групп. В других случаях несколько экспериментальных групп могут сравниваться с одной контрольной группой. Особенно большие количества одновременно проверяемых гипотез можно встретить в некоторых областях биологии: например, при работе с данными, которые получают при помощи технологии микрочипов, проверяются гипотезы в отношении уровней экспресии нескольких тысяч генов (см., например, здесь). По определению, при проверке каждой статистической гипотезы закладывается возможность ошибки первого рода (т.е. отклонение верной нулевой гипотезы; см. например, здесь). Чем больше гипотез мы проверяем на одних и тех же данных, тем больше будет вероятность допустить как минимум одну такую ошибку. Этот явление называют эффектом множественных сравнений (англ. multiple comparisons или multiple testing). Рассмотрим проблему множественных сравнений подробнее.

24 сентября 2013

О доступе к Twitter API



Больше года назад я писал об использовании возможностей R-пакетов twitteR и tm для анализа текста Twitter-сообщений. Такой анализ возможен благодаря тому, что Twitter предоставляет бесплатный доступ к своему API. Однако в последнее время схема, по которой предоставляется этот доступ, изменилась, став, к сожалению, гораздо сложнее (подробнее см. сообщение в официальном блоге сервиса). В основе нового подхода лежит авторизация по протоколу OAuth. Поскольку новая схема доступа к Twitter API отличается от той, которая была описана мною ранее, ниже я приведу пошаговую инструкцию доступа с учетом новых требований.

22 сентября 2013

Книга Роберта Кабакова "R в действии. Анализ и визуализация данных на языке R"



Издательством ДМК Пресс опубликована книга Роберта И. Кабакова (Robert I. Kabacoff) "R в действии. Анализ и визуализация данных на языке R" (оригинальное название "R in Action. Data Analysis and Graphics with R"). Перевод этой работы выполнен Полиной Волковой, одним из авторов первой "толстой книги" по R на русском языке - "Наглядная статистика. Используем R!" (см. также здесь). В настоящее время книгу "R в действии" можно приобрести только на сайте издательства ДМК Пресс (стоимость: 799 рублей), но, видимо, скоро она появится и в магазинах дистрибьюторов.

29 августа 2013

Классические методы статистики: дисперсионный анализ по Краскелу-Уоллису



Как было отмечено ранее, важными условиями применимости классического однофакторного дисперсионного анализа являются нормальность распределения зависимой переменной и однородность (гомоскедастичность) дисперсий во всех сравниваемых группах. В случаях, когда наблюдается существенное нарушение этих условий и ситуацию не получается исправить путем трансформации исходных значений анализируемой переменной (см. Box & Cox 1964), решением может стать применение дисперсионного анализа по Краскелу-Уоллису (англ. Kruskal-Wallis ANOVA by ranks или Kruskal-Wallis rank sum test; см. также оригинальную статью c описанием метода: Kruskal & Wallis 1952). В русскоязычной литературе для этого метода используются также названия "критерий Крускала-Уоллиса", "Н-критерий Крускала-Уоллиса" и даже иногда "критерий Крускала-Валлиса". В этом сообщении я покажу, как тест Краскела-Уоллиса выполняется в программе R.


28 августа 2013

R - наиболее популярный язык среди аналитиков



Уже третий год подряд сайт KDnuggets (известный англоязычный ресурс, посвященный обнаружению знаний в базах данных) проводит опрос своих посетителей на предмет того, какое программное обеспечение (языки программирования) они используют в своих аналитических проектах чаще всего. В этом году в опросе приняли участие более 700 человек. Выяснилось, что, как и ранее, лидирующее место занимает R (61% респондентов), после которого идут Phyton (39%) и SQL (37%) (см. также табл. ниже).

04 августа 2013

Книга Нейтана Яу 'Искусство визуализации в бизнесе. Как представить сложную информацию простыми образами'



Книг по R на русском языке становится все больше, что не может не радовать. Совсем недавно издательством "Манн, Иванов и Фербер" была опубликована работа Нейтана Яу (Nathan Yau) "Искусство визуализации в бизнесе. Как представить сложную информацию простыми образами" (оригинальное название книги "Visualize This: The FlowingData Guide to Design, Visualization, and Statistics"). Нейтан является автором FlowingData - одного из наиболее популярных англоязычных блогов, посвященных визуализации данных. В своей новой книге Нейтан делится приемами создания инфографики, которая позволяет раскрыть порой неочевидные свойства анализируемых данных и рассказать на их основе интересную историю. Следует оговориться, что R - не единственный инструмент для обработки и визуализации данных, обсуждаемый в книге. Наряду с описанием выполнения определенных задач при помощи R, приводится много примеров кода Python, а также рассматриваются Javascript (JSON), XML, Adobe Illustrator, др.

21 июля 2013

Создание картограмм при помощи R. Часть 2



В предыдущем сообщении я показал, как при помощи пакетов maptools и sp можно создать картограммы на основе свободно доступных шейп-фалов. Как это часто случается, в R имеется несколько способов достижения одной и той же цели. Не являются исключением и картограммы. Это сообщение будет посвящено построению картограмм средствами ggplot2 - пожалуй, самого популярного графического пакета для R. Следует сразу оговориться, что синтаксис команд ggplot2 является своего рода мини-языком программирования. Изложение основ ggplot2 не является целью данной статьи - для этого существуют соответствующие руководства, из которых особое внимание стоит обратить на официальную документацию пакета, а также на книги Wickham (2009) и Chang (2013). В приведенных ниже примерах я буду давать лишь краткие пояснения к коду, необходимые для его понимания. Кроме того, предполагается, что вы уже знакомы с содержанием предыдущего сообщения.

06 июля 2013

Создание картограмм при помощи R



Одним из интересных и весьма актуальных аспектов работы с данными является их визуализация в привязке к географическим координатам. В программе R имеется богатый арсенал инструментов для работы с пространственными данными (подробный обзор можно найти на странице CRAN Task Views: Analysis of Spatial Data). Например, в одном из предыдущих сообщений я уже писал о создании пользовательских карт Google средствами пакета googleVis. В этом сообщении я покажу, как можно создать картограммы (англ. choropleth maps) при помощи R.

На картограммах отдельные территориальные единицы залиты цветом, интенсивность которого соответствует величине отображаемой количественной переменной (плотность населения, уровень дохода, процент проголосовавших за  определенного кандидата на выборах, и т.п.). В R подобные карты можно построить несколькими способами. Ниже будет рассмотрен один из них - при помощи пакета sp. Для воспроизведения примеров просто повторяйте описанные ниже шаги.

12 июня 2013

Дисперсионный анализ: структура модельных объектов



При подгонке линейных и других моделей в R мы, как правило, сохраняем результаты вычислений в виде самостоятельного объекта - модельного объекта (англ. model object). С точки зрения представления данных в нем, такой объект обычно является списком. Соответственно, при необходимости мы без труда можем извлечь отдельные элементы из такого списка и использовать их в последующих вычислениях. Такой подход к выводу и хранению результатов подгонки моделей является одним из существенных преимуществ R в сравнении с большинством других статистических программ, которые просто выводят результаты вычислений на экран, без возможности их непосредственного использования в дальнейшем анализе. Рассмотрим, как устроены модельные объекты в R, и как извлекать из их отдельные элементы.

27 мая 2013

Новая книга на русском языке: "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R"



Доктор биологических наук В. К. Шитиков и доктор биологических наук, профессор Г. С. Розенберг завершили работу над своей новой книгой, получившей название "Рандомизация и бутстреп: статистический анализ в биологии и экологии с использованием R". Интернет-версия книги доступна на сайте авторов в свободном доступе. Ниже приведена авторская аннотация к этой работе.

26 мая 2013

Дисперсионный анализ: проверка адекватности модели



Как было показано ранее, дисперсионный анализ представляет собой частный случай общей линейной модели. Оценить параметры такой модели и их значимость позволяет базовая R-функция lm() (см. примеры здесь и здесь). Однако подгонкой модели анализ не заканчивается. Перед тем, как интерпретировать рассчитанные параметры и их Р-значения, необходимо проверить адекватность модели (англ. model adequacy), т.е. выяснить, выполняются ли лежащие в ее основе допущения (англ. model assumptions). Ниже рассмотрены условия применимости классического однофакторного дисперсионного анализа.

26 апреля 2013

О связи между "утечкой мозгов" и объемом пассажирских перевозок



В любом хорошем учебнике по статистике можно узнать, что наличие тесной корреляции между двумя  переменными не обязательно указывает на причинно-следственную связь между ними. Другими словами, наличие корреляции между Х и Y совсем необязательно означает, что именно изменения в Х являются причиной сопутствующих изменений в Y. Ведь вполне возможно существование некой неизвестной нам (латентной) переменной Z, которая оказывает влияние и на Х, и на Y, являясь истинной причиной ковариации между ними.  И тем не менее, достаточно часто, в том числе в научных публикациях, можно встретить безосновательную интерпретацию корреляции именно как причинно-следственной связи.

22 апреля 2013

Новая книга по основам прогнозирования (с использованием R)



Проф. Роб Хиндман (Rob J Hyndman, Университет Монаша, Австралия), автор известного пакета forecast для R (полное описание см. здесь), сообщил в своем блоге об окончании работы над книгой под названием "Forecasting: principles and practice" (Прогнозирование: принципы и практика). Написанная в соавторстве с проф. Джорджем Атанасопулосом (George Athanaspoulos, Университет Монаша, Австралия), книга находится в открытом доступе на сайте основанной проф. Хиндманом издательской компании OTexts. Книга содержит описание основных методов, используемых для прогнозирования в экономических исследованиях, энергетике, и др. областях. Книга написана простым языком и содержит многочисленные примеры, которые сопровождаются полностью воспроизводимым R-кодом. Это делает книгу не только отличным введением в область статистического прогнозирования, но и очень полезным руководством для практикующих аналитиков, работающих с R. Вот ее оглавление (в сокращенном виде):

1. Приступая к работе (Getting started)
2. Набор инструментов прогнозиста (The forecaster's toolbox)
3. Субъективные прогнозы (Judgmental forecasts)
4. Простая регрессия (Simple regression)
5. Множественная регрессия (Multiple regression)
6. Декомпозиция временных рядов (Time series decomposition)
7. Экспоненциальное сглаживание (Exponential smoothing)
8. ARIMA-модели (ARIMA models)
9. Продвинутые методы прогнозирования (Advanced forecasting method)

Рекомендую!

20 апреля 2013

Двухфакторный дисперсионный анализ



Как следует из названия, задача рассмотренного нами ранее однофакторного дисперсионного анализа заключается в выяснении влияния какого-то одного фактора на интересующую нас количественную переменную. Однако очень редко тот или иной процесс определяется только одним фактором. Напротив - обычно  наблюдается одновременное влияние многих факторов. Задача исследователя - выявить, какие факторы оказывают существенное влияние на изучаемое явление, а какие - можно исключить из рассмотрения. Как будет показано ниже, двухфакторный дисперсионный анализ (англ. two-way analysis of variance, или two-way ANOVA) позволяет установить одновременное влияние двух факторов, а также взаимодействие между этими факторами. При наличии более двух факторов говорят о многофакторном дисперсионном анализе (англ. multifactor ANOVA; не путать с MANOVA - multivariate ANOVA!).

07 апреля 2013

Большое событие - вышла 3-я версия R



3 апреля 2013 г. была опубликована новая версия R - v3.0.0. Завершение цикла версий 2.х не означает каких-либо глобальных изменений в языке R - просто разработчики решили таким образом зафиксировать текущее состояние ядра языка. Тем не менее, новая версия, конечно, включает и некоторые существенные изменения, из которых наиболее важным называют реализацию возможности работы с "длинными векторами" (т.е. векторами длиной > 2^31). Эта новая опция весьма актуальна для анализа "больших данных", с которыми исследователи сталкиваются в таких областях, как биоинформатика, метеорология, анализ данных, генерируемых мобильными устройствами, анализ социальных сетей, анализ биржевых данных, и т.п. В соответствии с этим нововведением, на 64-битных машинах больше не будет ограничений на размер оперативной памяти, используемой R. С полным перечнем обновлений, представленных в R 3.0.0, можно ознакомиться здесь.

Важный момент: если вы решите обновить R путем инсталляции поверх более старой версии системы, все дополнительные пакеты также придется переуставить заново. Это можно сделать при  помощи команды update.packages(checkBuilt = TRUE, ask = F)


30 марта 2013

Контрасты в линейных моделях, содержащих категориальные предикторы



Как было показано ранее, однофакторный дисперсионный анализ (ANOVA) представляет собой частный случай общей линейной модели, в которой единственный предиктор представлен категориальной переменной (фактором) с несколькими уровнями (2 и более). В случае многофакторного дисперсионного анализа имеется два или более интересующих нас фактора. Категориальные предикторы могут быть также включены в модели с количественными предикторами, и тогда мы будем иметь дело с ковариационным анализом. Важным понятием при работе с категориальными предикторами, которому, к сожалению, уделяется недостаточно внимания в соответствующей методической литературе, является понятие "контрастов" (англ. contrasts). Ниже я постараюсь дать небольшое введение на эту тему и привести примеры применения контрастов в R. Для простоты изложения речь будет идти только об однофакторном дисперсионном анализе.

24 марта 2013

Дисперсионный анализ как частный случай общей линейной модели



В предыдущем сообщении было показано, что дисперсионный анализ (ANOVA) можно рассматривать  как линейную статистическую модель. Более того, было отмечено, что ANOVA является частным случаем т.н. общей линейной модели (ОЛМ) (General Linear Model). Понимание концепции ОЛМ очень важно для осмысленного использования lm() и других функций R, позволяющих создавать линейные модели. Поэтому стоит остановиться на ОЛМ более подробно.

24 февраля 2013

Однофакторный дисперсионный анализ как линейная модель



В предыдущем сообщении, которое представляло собой небольшое введение в  однофакторный дисперсионный анализ (далее "ANOVA"), я упомянул о том, что этот анализ в R можно выполнить при помощи не только функции aov(), но и lm(). Функция lm() предназначена для построения линейных регрессионных моделей (под статистическими моделями мы будем понимать математические выражения, описывающие связь между анализируемыми случайными  переменными). Где же здесь связь с дисперсионным анализом?

29 января 2013

Однофакторный дисперсионный анализ: введение



Рассмотренный ранее t-критерий Стьюдента (равно как и его непараметрические аналоги) предназначен для сравнения исключительно двух совокупностей. Однако часто он неверно используется для попарного сравнения большего количества групп (рис. 1), что вызывает т.н. эффект множественных сравнений (англ. multiple comparisons; Гланц 1999, с. 101-104). Об этом эффекте и о том, как с ним бороться, мы поговорим позднее. В этом же сообщении я опишу принципы  однофакторного дисперсионного анализа, как раз предназначенного для одновременного сравнения средних значений двух и более групп. Принципы дисперсионного анализа (англ. analysis of variance, ANOVA) были разработаны в 1920-х гг. сэром Рональдом Эйлмером Фишером (англ. Ronald Aylmer Fisher) - "гением, едва не в одиночку заложившим основы современной статистики" (Hald 1998).

20 января 2013

Курс "Анализ данных" от Coursera



22 января на coursera.org начнется бесплатный онлайн-курс "Анализ данных" ("Data analysis"), который продлится 8 недель (при затрате студентом 3-5 часов в неделю). Преподавателем будет Джеффри Лик (Jeffrey Leek), профессор университета Джона Хопкинса (Johns Hopkins Univeristy), один из авторов коллективного блога Simply Statistics.

Этот курс представляет собой введение в прикладной анализ данных. Он начентся с изложения принципов организации, выполнения и представления результатов анализа данных. Затем будут рассмотрены наиболее широко используемые статистические методы, такие как линейная регрессия, метод главных компонент, кросс-валидация, и др. Вместо углубления в математические детали этих методов, лекции будут сосредоточены на практических аспектах их применения, интерпретации результатов, и диагностики потенциальных проблем. Все методы будут рассматриваться на примерах их реализации в системе статистических вычислений R.

Стать участником курса может любой желающий. Единственными требованиями являются хотя бы поверхностное знакомство с R и хороший уровень письменного английского языка. При успешном выполнении всех заданий студент получает сертификат об окончании курса, подписанный преподавателем.


04 января 2013

Классические методы статистики: критерий Кохрана-Мантеля-Хензеля для таблиц сопряженности размером 2 х 2 х K



В одном из предыдущих сообщений я описал, как в R можно рассчитать критерий хи-квадрат для таблиц сопряженности размером 2 х 2. Как правило, таблицу сопряженности 2 х 2 получают в ходе единичного эксперимента (или обсервационного исследования), направленного на изучение распределения того или иного бинарного признака в двух группах объектов (например, в экспериментальной и контрольной группах). Но что, если один и тот же эксперимент повторяют несколько раз? Например, в ходе клинических испытаний часто эффективность какого-либо нового препарата исследуют по одинаковой схеме в разных медицинских учреждениях. В результате получают набор из К таблиц сопряженности размером 2 х 2, где К - это количество участвовавших в исследовании медицинских центров. По разным причинам можно ожидать, что результаты эксперимента будут несколько варьировать от центра к центру. Соответственно, "медицинский центр" становится важной ковариатой, действие которой мы должны учесть при установлении эффективности испытываемого нового препарата. Одним из статистических методов, позволяющих это сделать, является рассмотренный ниже критерий Кохрана-Мантеля-Хензеля (англ. "Cochran-Mantel-Haenszel test" или просто "CMH test" - по фамилии авторов Cochran (1954) и Mantel and Haenszel (1959)). (Насколько мне известно, устоявшегося перевода названия этого критерия в русскоязычной литературе нет - кроме приведенного, встречаются, например, названия "критерий Кохрана-Мантеля-Гензеля" и "критерий Кохрана-Мантеля-Хенселя". Обсуждение того, как правильно перевести фалимию последнего автора, можно найти здесь).