29 января 2013

Однофакторный дисперсионный анализ: введение



Рассмотренный ранее t-критерий Стьюдента (равно как и его непараметрические аналоги) предназначен для сравнения исключительно двух совокупностей. Однако часто он неверно используется для попарного сравнения большего количества групп (рис. 1), что вызывает т.н. эффект множественных сравнений (англ. multiple comparisons; Гланц 1999, с. 101-104). Об этом эффекте и о том, как с ним бороться, мы поговорим позднее. В этом же сообщении я опишу принципы  однофакторного дисперсионного анализа, как раз предназначенного для одновременного сравнения средних значений двух и более групп. Принципы дисперсионного анализа (англ. analysis of variance, ANOVA) были разработаны в 1920-х гг. сэром Рональдом Эйлмером Фишером (англ. Ronald Aylmer Fisher) - "гением, едва не в одиночку заложившим основы современной статистики" (Hald 1998).

20 января 2013

Курс "Анализ данных" от Coursera



22 января на coursera.org начнется бесплатный онлайн-курс "Анализ данных" ("Data analysis"), который продлится 8 недель (при затрате студентом 3-5 часов в неделю). Преподавателем будет Джеффри Лик (Jeffrey Leek), профессор университета Джона Хопкинса (Johns Hopkins Univeristy), один из авторов коллективного блога Simply Statistics.

Этот курс представляет собой введение в прикладной анализ данных. Он начентся с изложения принципов организации, выполнения и представления результатов анализа данных. Затем будут рассмотрены наиболее широко используемые статистические методы, такие как линейная регрессия, метод главных компонент, кросс-валидация, и др. Вместо углубления в математические детали этих методов, лекции будут сосредоточены на практических аспектах их применения, интерпретации результатов, и диагностики потенциальных проблем. Все методы будут рассматриваться на примерах их реализации в системе статистических вычислений R.

Стать участником курса может любой желающий. Единственными требованиями являются хотя бы поверхностное знакомство с R и хороший уровень письменного английского языка. При успешном выполнении всех заданий студент получает сертификат об окончании курса, подписанный преподавателем.


04 января 2013

Классические методы статистики: критерий Кохрана-Мантеля-Хензеля для таблиц сопряженности размером 2 х 2 х K



В одном из предыдущих сообщений я описал, как в R можно рассчитать критерий хи-квадрат для таблиц сопряженности размером 2 х 2. Как правило, таблицу сопряженности 2 х 2 получают в ходе единичного эксперимента (или обсервационного исследования), направленного на изучение распределения того или иного бинарного признака в двух группах объектов (например, в экспериментальной и контрольной группах). Но что, если один и тот же эксперимент повторяют несколько раз? Например, в ходе клинических испытаний часто эффективность какого-либо нового препарата исследуют по одинаковой схеме в разных медицинских учреждениях. В результате получают набор из К таблиц сопряженности размером 2 х 2, где К - это количество участвовавших в исследовании медицинских центров. По разным причинам можно ожидать, что результаты эксперимента будут несколько варьировать от центра к центру. Соответственно, "медицинский центр" становится важной ковариатой, действие которой мы должны учесть при установлении эффективности испытываемого нового препарата. Одним из статистических методов, позволяющих это сделать, является рассмотренный ниже критерий Кохрана-Мантеля-Хензеля (англ. "Cochran-Mantel-Haenszel test" или просто "CMH test" - по фамилии авторов Cochran (1954) и Mantel and Haenszel (1959)). (Насколько мне известно, устоявшегося перевода названия этого критерия в русскоязычной литературе нет - кроме приведенного, встречаются, например, названия "критерий Кохрана-Мантеля-Гензеля" и "критерий Кохрана-Мантеля-Хенселя". Обсуждение того, как правильно перевести фалимию последнего автора, можно найти здесь).