30 марта 2012

Увидела свет новая версия R - v2.15.0



Профессор Питер Дальгаард (Piter Dalgaard), один из членов команды разработчиков R, объявил о выходе новой версии программы - v2.15.0. Как всегда, инсталляционные файлы R для всех основных операционных систем можно скачать с официального сайта проекта - CRAN. Там же, на сайте CRAN, можно ознакомится с изменениями, внесенными в новую версию R.


29 марта 2012

Классические методы статистики: F-критерий Фишера



В общем виде критерий Фишера F, или F-тест, используется для сравнения дисперсий двух генеральных нормально распределенных совокупностей, т.е проверятся следующая нулевая гипотеза:


Генеральные дисперсии оцениваются на основе выборок, и сам критерий непосредственно рассчитывается как отношение одной выборочной дисперсии к другой:

На практике в числитель приведенной формулы обычно помещают бóльшую дисперсию, а в знаменатель - меньшую.

26 марта 2012

Классические методы статистики: t-критерий Стьюдента



Критерий Стьюдента t относится к одному из наиболее давно разработанных и широко используемых методов статистики. Чаще всего он применяется для проверки нулевой гипотезы о равенстве средних значений двух совокупностей, хотя существует также и одновыборочная модификация этого метода. В данном сообщении я продемонстрирую, как статистические тесты, основанные на критерии Стьюдента, можно реализовать в R.

14 марта 2012

R + DAVID + R + REViGO = функциональная классификация генов



По роду деятельности мне в последнее время приходилось часто иметь дело с анализом данных, полученных при помощи технологии микрочипов (см., например, здесь). Эта технология позволяет одновременно измерить уровни экспресии тысяч генов и сравнить их в образцах из разных условий (например, у больных и здоровых людей, или в культурах клеток, обработанных и не обработанных каким-то лекарственным средством, и т.п.).

Входные данные такого типа обычно представляют собой огромную таблицу, строки которой соответствуют генам (несколько десятков тысяч), а столбцы - исследуемым образцам. На пересечениях строк и столбцов находятся числа, соответствующие уровням экспрессии генов. Типичная задача, которая обычно ставится перед аналитиком - выявить гены, уровни экспрессии которых различаются в экспериментальных группах. Уже несколько лет как de facto стандартом для выполнения подобного анализа является программное обеспечение, написанное на языке R. Речь, в частности, идет о большом количестве пакетов для R, созданных в рамках проекта Bioconductor. Отсюда первая буква R в названии этого сообщения - R используется для анализа изменения экспрессии генов. Примеры того, как имено это делается, я планирую привести в будущих сообщениях. Здесь же я хочу рассмотреть небольшие примеры того, что можно сделать со списками дифференциально экспрессированных генов уже после их обнаружения.

12 марта 2012

Обновлено руководство пользователя RStudio



Учитывая изменения в последней версии RStudio, я обновил руководство по использованию этой программы. PDF файл руководства можно скачать по этой ссылке.