22 октября 2013

Несколько книг по R в открытом доступе



В Сети в открытом доступе есть несколько очень полезных книг по R и по современным методам статистики (на англ. яз.):
  • Wickham H. Advanced R Programming (Продвинутое программирование на R)
    Работа Хэдли Уикхэма, автора таких известных пакетов для R, как, например, ggplot2 и plyr. Выход "бумажной" версии этой книги запланирован на декабрь 2013 г., однако по разрешению издательства (Chapman and Hall) ее электронная версия останется в открытом доступе. Эту книгу стоит прочитать каждому, кто планирует серьезно освоить программирование на R (наряду, конечно, с такой классикой, как "голубая книга", "белая книга" и вот эта книга).
  • Hasti T., Tibshirani R., Friedman J. (2011) The Elements of Statistical Learning (Элементы статистического обучения)
    Думаю, что имена этих авторов не нуждаются в представлении... Фундаментальная монография по методам машинного обучения, которую многократно допечатывали после выхода первого издания. Издательство Spinger любезно дало авторам согласие на публичное распространение электронной версии. Хотя эта книга не имеет непосредственного отношения к R, ее можно рассматривать как справочник по многим современным методам, реализованным в R-пакетах.
  • Hyndman R.J., Athanasopoulos G. (2013) Forecasting: Principles and Practice (Прогнозирование: принципы и практика)
    Я уже писал об этой отличной книге ранее. Теперь работа над ней полностью завершена и все главы доступны для чтения.
  • Jockers M.L. Text Analysis with R for Students of Literature (Анализ текстов при помощи R для изучающих литературу)
    Черновик этой книги можно свободно скачать с сайта автора - Мэтью Джокерса, профессора английского языка в Университете Небраски. Работа представляет собой очень доступное введение в анализ текстов при помощи R. Книга будет опубликована издательством Springer в рамках их новой серии "Количественные методы в гуманитарных и социальных науках". В настоящее время Мэтью собирает предложения читателей по улучшению текста - Вы можете сделать свой вклад!
  • Cox S.B. (2013) Applied Biostatistical Analysis with R (Прикладной биостатистический анализ с использованием R)
    Стефен Кокс имеет богатую историю преподавания статистики студентам-биологам, а также опыт работы в качестве аналитика-консультанта. В своей книге, опубликованной в рамках проекта Otexts, он излагает основы биостатистики. Хотя эта работа еще не завершена до конца, многие из запланированных глав уже доступны для чтения.
  • Lavine M. (2009) Introduction to Statistical Thinking (Введение в статистическое мышление)
    Доступно написанная книга о статистическом моделировании, в частности о методе максимального правдоподобия и его использовании для оценивания параметров моделей (подробнее см. здесь). Множество примеров с использованием R-кода. (Внимание: размер файла ~40Mб; скачивается очень медленно!)


19 октября 2013

Процедуры множественных проверок гипотез: критерий Тьюки



Применяя однофакторный дисперсионный анализ, мы можем проверить нулевую гипотезу о том, что все сравниваемые группы происходят из одной генеральной совокупности, и следовательно их средние значения не различаются, т.е. \(H_0: \mu_1 =  \mu_2 = \dots = \mu_m\). Если нулевую гипотезу не удается отвергнуть при заданном уровне значимости (например, \(\alpha = 0.05\)), в дальнейшем анализе, в принципе, нет необходимости. Но что, если нулевая гипотеза отвергается? В этом случае мы делаем заключение о том, что средние значения сравниваемых групп значительно различаются (другими словами, изучаемый фактор оказывает существенное влияние на интересующую нас переменную). Это единственный вывод, который можно сделать при помощи дисперсионного анализа как такового. Однако обычно нам интересно пойти дальше и выяснить, где именно лежат различия, т.е. какие именно группы отличаются друг от друга. Чтобы узнать это, необходимо выполнить попарные сравнения средних значений имеющихся групп. Как было отмечено ранее, критерий Стьюдента "в чистом виде" для таких сравнений неприменим в силу возникновения эффекта множественных сравнений. Теоретически, Р-значения, получаемые при помощи критерия Стьюдента можно было бы скорректировать при помощи поправки Бонферрони. Однако при наличии большого числа сравниваемых групп метод Бонферрони становится очень консервативным, часто не позволяя отвергнуть даже те гипотезы, которые со всей очевидностью должны быть отвергнуты. Для решения описанной проблемы (т.е. для выполнения большого числа попарных сравнений групповых средних без потери статистической мощности) было разработано несколько методов. Это сообщение посвящено одному из них - популярному критерию Тьюки, или критерию достоверно значимой разности Тьюки (англ. Tukey's honestly significant difference test, или просто Tukey's HSD test). Критерий назван так в честь предложившего его американского математика и статистика Джона Тьюки (John Tukey).




13 октября 2013

Процедуры множественных проверок гипотез: поправка Бонферрони и метод Холма



Предыдущее сообщение представляло собой небольшое введение в проблему множественных проверок статистических гипотез. Вкратце, проблема заключается в том, что при одновременной проверке большого числа гипотез на том же наборе данных вероятность сделать неверное заключение в отношении хотя бы одной из этих гипотез значительно превышает изначально принятый уровень значимости (обычно \(\alpha = 0.05\)). Для устранения этого эффекта существует большой арсенал методов, различающихся по своей мощности и применимости в разных ситуациях. В этом сообщении будет рассмотрен один из наиболее известных таких методов - поправка Бонферрони. Кроме того, будет описан метод Холма, который представляет собой модификацию подхода, предложенного Бонферрони.

03 октября 2013

О проблеме множественных проверок статистических гипотез



В практике статистического анализа часто возникает ситуация, когда на одном и том же наборе данных выполняется проверка большого числа гипотез. Например, интерес может представлять выполнение всех возможных попарных сравнений средних значений нескольких экспериментальных групп. В других случаях несколько экспериментальных групп могут сравниваться с одной контрольной группой. Особенно большие количества одновременно проверяемых гипотез можно встретить в некоторых областях биологии: например, при работе с данными, которые получают при помощи технологии микрочипов, проверяются гипотезы в отношении уровней экспресии нескольких тысяч генов (см., например, здесь). По определению, при проверке каждой статистической гипотезы закладывается возможность ошибки первого рода (т.е. отклонение верной нулевой гипотезы; см. например, здесь). Чем больше гипотез мы проверяем на одних и тех же данных, тем больше будет вероятность допустить как минимум одну такую ошибку. Этот явление называют эффектом множественных сравнений (англ. multiple comparisons или multiple testing). Рассмотрим проблему множественных сравнений подробнее.