25 ноября 2011

Выпущена новая версия IDE для R - Revolution R Enterprise 5.0



На днях компания Revolution Analytics выпустила очередную версию IDE (integrated development environment - интегрированная среда разработки) для R - Revolution R Enterprise 5.0, работающую как на 32-х, так и 64-битных системах Windows. Эта версия включает R 2.13.2 и обновленный пакет RevoScaleR, предназначенный для организации распределенных вычислений над "большими данными" на базе серверов Microsoft Windows HPC Server 2008.

24 ноября 2011

R функция для анализа публикаций из Google Scholar Citations



В середине ноября этого года компания Google предоставила авторам публикаций, индексированных в библиографической базе данных Google Scholar, возможность создавать свои персональные страницы со списком публикаций и индексами цитирования. Новый сервис получил название Google Scholar Citations

15 ноября 2011

Базовые графические возможности R: одномерные диаграммы рассеяния



Одномерные диаграммы рассеяния (1-D scatter plots) представляют собой один из вариантов графического представления распределений количественных переменных. Точки, соответствующие значениям исследуемой переменной, изображаются на таких графиках вдоль единственной числовой оси. При необходимости визуализировать свойства небольших выборок одномерные диаграммы рассеяния будут отличной альтернативой диаграммам размахов. В англоязычной литературе одномерные диаграммы рассеяния называют также strip charts или strip plots, что можно перевести как "ленточные диаграммы" (не путать с этим и этим). Это название происходит от характера расположения точек на графике - они как бы выстраиваются в "ленты" (см. ниже). Реже такие графики называют еще "точечными диаграммами Уилкинсона" (см. здесь, а также оригинальную статью Wilkinson L. (1999) Dot plots. The American Statistician 53(3): 276-281).

11 ноября 2011

Базовые графические возможности R: точечные диаграммы Кливленда



Точечные диаграммы Кливленда представляют собой графики, на которых точки-маркеры используются для отображения значений некоторой количественной переменной (или переменных), разбитых на группы в соответствии с уровнями некоторой номинальной переменной (или переменных). Этот инструмент графического анализа данных получил свое название в честь предложившего его проф. Уильяма Кливленда (William Cleveland). В своей работе, написанной в соавторстве с Робертом Макгиллом (Robert McGill), У. Кливленд экпериментально показал, что столбиковые диаграммы, используемые для изображения сгруппированных значений количественных переменных, визуально плохо воспринимаются людьми (Cleveland W. S.,  McGill R. (1984) Graphical perception: theory, experimentation, and application to the development of graphical methods. Journal of the American Statistical Association 79(387): 531-554). В качестве альтернативы и были предложены точечные диаграммы.

08 ноября 2011

Базовые графические возможности R: диаграммы размахов



Диаграммы размахов, или "ящики с усами" (англ. box-whisker plots), получили свое название за характерный вид: точку или линию, соответствующую медиане или средней арифметической, окружает прямоугольник ("ящик"), длина которого соответствует одному из показателей разброса или точности оценки генерального параметра. Дополнительно от этого прямоугольника отходят "усы", также соответствующие по длине одному из показателей разброса или точности. Графики этого типа очень популярны, поскольку позволяют дать очень полную статистическую характеристику анализируемой совокупности. Кроме того, диаграммы размаха можно использовать для визуальной экспресс-оценки разницы между двумя и более группами (например, между датами отбора проб, экспериментальными группами, участками пространства, и т.п.).

06 ноября 2011

Базовые графические возможности R: гистограммы



Гистограмма явлется важным инструментом статистики, позволяющим наглядно представить распределение значений анализируемой переменной. В системе R для построения гистограмм служит функция hist(). Ее основным аргументом выступает имя анализируемой переменной. В качестве примера создадим нармально распределенную совокупность X из 100 наблюдений со средним значением 15 и стандартным отклонением 5:

X <- rnorm(n = 100, mean = 15, sd  = 5)

Для создания переменной X использована функция rnorm() (от random - случайный, и norm - нормальный). Используя генератор случайных чисел, эта функция формирует нормально распределенные совокупности с заданными размером (n), средним значением (mean) и стандартным отклонением (sd).

03 ноября 2011

Выпущена новая версия R



На этой неделе была выпущена новая версия R - v2.14.0 (подробнее об инсталляции R см. здесь). Одним из основных новшеств этого релиза является пакет parallel, позволяющий организовывать параллельные вычисления. Объединяя несколько модифицированные функциональные возможности пакетов multicore и snow, пакет parallel теперь будет входить в состав базового комплекта R.

Другие новинки включают, например, улучшенное позиционирование текста и математических символов на графиках, тест Рао для оценки значимости обобщенных линейных моделей (Rao's score test for goodness-of-fit), возможность рисования кривых на основе любых функций при помощи функции plot.function(), улучшенный доступ к вспомогательной документации. Кроме того, новая версия R включает поддержку графического устройства Cairo (см. также примеры здесь). Для пользователей Windows это означает возможность создания графических объектов в формате SVG - лучшем формате для отображения R-графики в сети Интернет (см. файл помощи, доступный по команде ?svg).

Ожидается, что релиз следующей версии R произойдет не раньше октября 2012 г.

--------------------------------------------------------------------------------------------------------------
Blogun.ru - крупнейший организатор рекламных компаний в интернете
--------------------------------------------------------------------------------------------------------------