26 января 2014

Книга "An Introduction to Statistical Learning with Applications in R" в открытом доступе



В августе прошлого года издательством Springer была опубликована книга ''An Introduction to Statistical Learning with Applications in R", аторами которой являются Гарет Джеймс (Gareth James, Университет Южной Калифорнии), Даниела Уиттон (Daniela Witton, Университет Вашингтона), Тревор Хасти (Trevor Hastie, Стэнфордский Университет) и Роберт Тибширани (Стэнфордский Университет). Два последних автора ранее опубликовали очень популярную книгу по методам машинного обучения "The Elements of Statistical Learning", которая, однако, требует от читателя серьезной математической подготовки. В новой книге ''An Introduction to Statistical Learning" описано большинство тех же методов, но на гораздо более доступном для понимания уровне. Кроме того, книга изобилует примерами реализации конкретных методов на языке R. С согласия издательства, новая книга доступна для свободного скачивания (PDF). Весьма рекомендую всем интересующимся современными методами статистики и машинного обучения!

Бонусная информация: на этой неделе Тревор Хасти и Роберт Тибширани начали преподавать бесплатный онлайн-курс по материалам книги. Еще не поздно стать слушателем этого курса, зарегистрировавшись на сайте Стэнфордского университета.



19 января 2014

Знакомьтесь - dplyr



В блоге проекта RStudio, проф. Хэдли Укхэм сообщил о выходе нового пакета для R - dplyr. Те, кто знаком с работой Хэдли, увидят сходство в названии этого нового пакета с plyr - одного из наиболее популярных в настоящее время R-расширений для эффективной манипуляции объектов с данными (разбиение объекта на части, выполнение определенных вычислений над этими частями, и объединение результатов в виде нового объекта). В отличие от plyr, dplyr предназначен для работы только с таблицами данных (англ. data frames), включая таблицы из баз данных MySQL, PostgreSQL, SQLite, и Google BigQuery. Кроме того, отличительными особенностями dplyr являются простота синтаксиса команд и, что особенно важно сегодня при обработке больших объемов данных, быстродействие. Примеры соответствующих команд, а также сравнивнение быстродействия plyr и ddplyr можно найти в упомянутом выше сообщении блога RStudio. Обратите внимание: dplyr доступен только для актуальной версии R (v 3.0.2), так что перед его установкой, возможно, Вам сначала придется обновить R.


08 января 2014

Методы множественных проверок гипотез, реализованные в пакете multcomp



Последние несколько сообщений были посвящены проблеме множественных проверок статистических гипотез. Для решения этой проблемы разработано большое число методов, различающихся по мощности и применимости в разных ситуациях (так, были рассмотрены методы Бонферрони и Холма, Тьюки, Беньямини-Хохберга и Беньямини-Йекутили). Разнообразие этих методов может создать ощущение неразберихи и привести в замешательство даже опытных исследователей. Тем не менее, между многими методами существует большое сходство. Более того, можно показать, что некоторые методы, известные и используемые под разными названиями и для разных целей, с математической точки зрения эквиваленты (например, тесты Тьюки и Даннета). Используя теорию общих линейных моделей, проф. Франк Брeтц и соавт. (Bretz et al. 2010) разработали общую методологическую схему, объединяющую большинство классических критериев для множественной проверки гипотез. Как это часто происходит в наши дни, соответствующие методологические подходы были реализованы в дополнительном пакете для R - multcomp (от "multiple comparisons" - "множественные сравнения"). Цель данного сообщения - дать описание основных возможностей этого пакета.  Следует подчеркнуть, что это описание будет иметь лишь поверхностный характер. Для полноты картины следует раздобыть указанную выше книгу (Bretz et al. 2010)  - интересующиеся читатели найдут в ней подробные математические выкладки и множество примеров R кода.