30 октября 2012

Новые версии R и RStudio



На этой неделе была опубликована новая версиия R - v2.15.2. С полным списком нововведений и исправленных багов можно ознакомиться здесь. Наряду с оптимизацией движка R, стоит отметить также следующие новинки:
  • В базовом пакете stats появился новый метод - Multistratum MANOVA
  • Стал доступным новый метод (Hyman's method) для монотонной интерполяции кубических сплайнов
  • Оптимизирована скорость работы и функциональные возможности некоторых часто используемых функций (например, array(), rep(), tabulate(), qqline(), hist())
  • Увеличен лимит оперативной памяти, доступной для R на 64-битных машинах (с 16 Gb до 32 Gb).
Помимо новости о выпуске новой версии R, стало также известно о публикации тестовой версии RStudio - v0.97. В частности, после периода тестирования в полноценной версии v0.97 появятся:
  • ряд опций, поддерживащих разработку новых пакетов для R (например, интеграция с Roxygen, devtools и Rcpp)
  • подсветка синтаксиса С/C++
  • режим эмуляции текстового редактора Vim
  • новые команды - Restart R (Перезапустить R) и Terminate R (Завершить работу R)

26 октября 2012

Оценка статистической мощности при сравнении долей



В этом сообщении я продолжу тему оценки мощности статистических критериев и покажу, как при помощи R можно выполнить анализ мощности при сравнении долей.

Источник: http://apgovernment2010.yolasite.com
Представим, что мы входим в команду кандитата в президенты страны X. Согласно результатам опросов, выполненных командой кандидата-соперника, выяснилось, что популярность нашего кандидата у городских жителей выше, чем у жителей села (28% против 20% среди 100 и 100 опрошенных респондентов соответственно). Безусловно, это важная информация, которая может помочь в планировании агитационных мероприятий (возможно, например, что следует направить больше ресурсов на агитацию среди сельских жителей). Однако, стоит ли доверять информации из лагеря соперника?

13 октября 2012

Оценка статистической мощности t-критерия Стьюдента



В этом сообщении я покажу, как можно рассчитать статистическую мощность t-критерия Стьюдента средствами R. Начнем с краткого рассмотрения сути проблемы.

Статистическая мощность (реже "чувствительность") (англ. statistical power) - это вероятность того, что тот или иной статистический критерий правильно отклонит неверную нулевую гипотезу. Иными словами - это способность критерия обнаружить различия там, где они действительно существуют. Обычно процесс проверки статистической гипотезы включает следующие шаги:
  • Формулировка собственно проверяемой нулевой гипотезы. Например, в случае двухвыборочного критерия Стьюдента она состоит в том, что обе выборки происходят из нормально распределенных генеральных совокупностей с одинаковыми средними значениями (подробнее см. здесь).
  • Выбор подходящего статистического критерия для проверки нулевой гипотезы. Вычисление значения этого критерия по имеющимся выборочным данным.
  • Определение критического значения критерия, исходя из желаемого уровня статистической значимости \(\alpha\) и свойств теоретического распределения этого критерия.
  • Проверка того, превышает ли рассчитанный по выборочным данным критерий критическое значение. Если такое превышение не наблюдается, делают вывод о том, что нулевая гипотеза верна.

06 октября 2012

Пакет sos: быстрый и эффективный поиск справочной информации по R



В силу разных причин, поиск технической информации по R (например, справки о том или ином пакете или функции) может быть проблематичным. Конечно, при удачной формулировке поискового запроса Google и другие поисковые системы в большинстве случаев помогут найти необходимую информацию - вопрос лишь в том, сколько уйдет времении на выбор наиболее релевантных ссылок среди результатов поиска и знакомство с ними. Эта проблема давно волнует R-сообщество, что привело к созданию нескольких специализированных инструментов для осуществления онлайн-поиска справочной информации по R (ссылки на пять основных таких "поисковиков" приведены на странице R Search сайта R-проекта).