29 декабря 2011

Где найти данные для анализа в системе R?



Один из постоянных участников R-сообщества inside-R.org Джо Рикерт (Joe Rickert) опубликовал интересный список сайтов, на которых можно найти данные, пригодные для анализа в системе R. Составление этого списка было обусловлено, прежде всего, желанием облегчить поиск надежных и бесплатных данных для тестирования новых методов анализа (подробнее см. здесь). Очевидно, что такой список будет полезен и для других целей - например, при разработке новых алгоритмов анализа, в преподавании статистики, изучении трендов развития экономики, написании научных работ, и т.п. Ниже приведен несколько дополненный мною список из оригинальной статьи Джо. Значок (R) напротив того или иного источника указывает на возможность загрузки данных либо непосредственно в формате R, либо в формате, который может быть легко преобразован в таковой непосредственно из R консоли (см. примеры здесь). В остальных случаях данные относительно просто могут быть конвертированы в формат csv при помощи сторонних приложений и затем загружены в R (об импортировании csv-файлов в R см. здесь).

27 декабря 2011

Анализ данных клинических испытаний при помощи R



Спешу поделиться своими впечатлениями от онлайн-курса по анализу данных клинических испытаний при помощи R (Biostatistics with R: Clinical Trial Applications). Курс был организован американским институтом статистического образования "statistics.com". Компания statistics.com предлагает около 100 курсов по статистическому анализу, более 10 из которых посвящены использованию системы R.

08 декабря 2011

Библиотека русскоязычных материалов по R



В попытке организовать единую точку доступа к материалам по R, опубликованным на русском языке, я завел новый раздел у себя в блоге - "Библиотека". Под "материалами" понимаются файлы книг, методических пособий и журнальных публикаций, имеющиеся в сети Internet в открытом доступе. Буду признателен, если Вы сообщите мне о свободно доступных работах, которые отсутствуют в этой "библиотеке"

02 декабря 2011

Создание пользовательских карт Google при помощи R



Ранее я уже писал о пакете googleVis, в состав которого входит ряд функций, обеспечивающих взаимодействие R с интерфейсом программирования приложений Google Visualization API. Функции из этого пакета генерируют html код, который можно легко вставить на страницу веб-сайта. Среди прочих, имеется и функция для создания известных всем карт Google. В общем виде синтаксис этой функции выглядит следующим образом:
gvisMap(data, locationvar=" ", tipvar=" ", options = list(), chartid) ,
где
  • data - таблица данных (data.frame), которая должна содержать как минимум два столбца - c географическими координатами точек (locationvar) и с текстом всплывающих подсказок для каждой из этих точек.
  • locationvar - имя столбца, содержащего географические координаты точек. Координаты задаются в формате "широта:долгота" (см. пример ниже). Вместо географических координат можно также указывать [максимально полный] почтовый адрес, однако авторы пакета googleVis рекомендуют этот способ не применять.
  • tipvar - имя столбца, содержащего текст всплывающих подсказок для каждой точки.
  • options - список опций, определяющих внешний вид карты.
  • chartid - текстовая переменная, при помощи которой карте можно присвоить пользовательское имя. По умолчанию данная настройка отключена (в этом случае ID карты генерируется случайным образом автоматически).

25 ноября 2011

Выпущена новая версия IDE для R - Revolution R Enterprise 5.0



На днях компания Revolution Analytics выпустила очередную версию IDE (integrated development environment - интегрированная среда разработки) для R - Revolution R Enterprise 5.0, работающую как на 32-х, так и 64-битных системах Windows. Эта версия включает R 2.13.2 и обновленный пакет RevoScaleR, предназначенный для организации распределенных вычислений над "большими данными" на базе серверов Microsoft Windows HPC Server 2008.

24 ноября 2011

R функция для анализа публикаций из Google Scholar Citations



В середине ноября этого года компания Google предоставила авторам публикаций, индексированных в библиографической базе данных Google Scholar, возможность создавать свои персональные страницы со списком публикаций и индексами цитирования. Новый сервис получил название Google Scholar Citations

15 ноября 2011

Базовые графические возможности R: одномерные диаграммы рассеяния



Одномерные диаграммы рассеяния (1-D scatter plots) представляют собой один из вариантов графического представления распределений количественных переменных. Точки, соответствующие значениям исследуемой переменной, изображаются на таких графиках вдоль единственной числовой оси. При необходимости визуализировать свойства небольших выборок одномерные диаграммы рассеяния будут отличной альтернативой диаграммам размахов. В англоязычной литературе одномерные диаграммы рассеяния называют также strip charts или strip plots, что можно перевести как "ленточные диаграммы" (не путать с этим и этим). Это название происходит от характера расположения точек на графике - они как бы выстраиваются в "ленты" (см. ниже). Реже такие графики называют еще "точечными диаграммами Уилкинсона" (см. здесь, а также оригинальную статью Wilkinson L. (1999) Dot plots. The American Statistician 53(3): 276-281).

11 ноября 2011

Базовые графические возможности R: точечные диаграммы Кливленда



Точечные диаграммы Кливленда представляют собой графики, на которых точки-маркеры используются для отображения значений некоторой количественной переменной (или переменных), разбитых на группы в соответствии с уровнями некоторой номинальной переменной (или переменных). Этот инструмент графического анализа данных получил свое название в честь предложившего его проф. Уильяма Кливленда (William Cleveland). В своей работе, написанной в соавторстве с Робертом Макгиллом (Robert McGill), У. Кливленд экпериментально показал, что столбиковые диаграммы, используемые для изображения сгруппированных значений количественных переменных, визуально плохо воспринимаются людьми (Cleveland W. S.,  McGill R. (1984) Graphical perception: theory, experimentation, and application to the development of graphical methods. Journal of the American Statistical Association 79(387): 531-554). В качестве альтернативы и были предложены точечные диаграммы.

08 ноября 2011

Базовые графические возможности R: диаграммы размахов



Диаграммы размахов, или "ящики с усами" (англ. box-whisker plots), получили свое название за характерный вид: точку или линию, соответствующую медиане или средней арифметической, окружает прямоугольник ("ящик"), длина которого соответствует одному из показателей разброса или точности оценки генерального параметра. Дополнительно от этого прямоугольника отходят "усы", также соответствующие по длине одному из показателей разброса или точности. Графики этого типа очень популярны, поскольку позволяют дать очень полную статистическую характеристику анализируемой совокупности. Кроме того, диаграммы размаха можно использовать для визуальной экспресс-оценки разницы между двумя и более группами (например, между датами отбора проб, экспериментальными группами, участками пространства, и т.п.).

06 ноября 2011

Базовые графические возможности R: гистограммы



Гистограмма явлется важным инструментом статистики, позволяющим наглядно представить распределение значений анализируемой переменной. В системе R для построения гистограмм служит функция hist(). Ее основным аргументом выступает имя анализируемой переменной. В качестве примера создадим нармально распределенную совокупность X из 100 наблюдений со средним значением 15 и стандартным отклонением 5:

X <- rnorm(n = 100, mean = 15, sd  = 5)

Для создания переменной X использована функция rnorm() (от random - случайный, и norm - нормальный). Используя генератор случайных чисел, эта функция формирует нормально распределенные совокупности с заданными размером (n), средним значением (mean) и стандартным отклонением (sd).

03 ноября 2011

Выпущена новая версия R



На этой неделе была выпущена новая версия R - v2.14.0 (подробнее об инсталляции R см. здесь). Одним из основных новшеств этого релиза является пакет parallel, позволяющий организовывать параллельные вычисления. Объединяя несколько модифицированные функциональные возможности пакетов multicore и snow, пакет parallel теперь будет входить в состав базового комплекта R.

Другие новинки включают, например, улучшенное позиционирование текста и математических символов на графиках, тест Рао для оценки значимости обобщенных линейных моделей (Rao's score test for goodness-of-fit), возможность рисования кривых на основе любых функций при помощи функции plot.function(), улучшенный доступ к вспомогательной документации. Кроме того, новая версия R включает поддержку графического устройства Cairo (см. также примеры здесь). Для пользователей Windows это означает возможность создания графических объектов в формате SVG - лучшем формате для отображения R-графики в сети Интернет (см. файл помощи, доступный по команде ?svg).

Ожидается, что релиз следующей версии R произойдет не раньше октября 2012 г.

--------------------------------------------------------------------------------------------------------------
Blogun.ru - крупнейший организатор рекламных компаний в интернете
--------------------------------------------------------------------------------------------------------------

28 октября 2011

Базовые графические возможности R: настройка внешнего вида рамки графика



Для настройки внешнего вида рамки графика служит аргумент bty (от box - коробка, и type - тип) функции plot(). Этот аргумент принимает одно из следущих шести текстовых значений:
- "O"
- "L"
- "7"
- "C"
- "U"
- "["
Рамка будет принимать вид в соответствии с формой указанного символа (допускается использование также строчных букв o, l, c, и u). Ниже приведен пример использования всех перечисленных вариантов.



Обновленная версия RStudio



В официальном блоге RStudio объявлен выход новой версии этой программы - v0.94.110. Данное обновление обусловлено, прежде всего, выходом новой версии самой системы R (v2.14), намеченным на ближайший понедельник (31 октября 2011 г.). RStudio v0.94.100 содержит компоненты, обеспечивающие совместимость с "движком" R v2.14. Устранены также некоторые мелкие баги, не имеющие отношения к совместимости с новой версией R.

Разработчики RStudio сообщают о продолжении работы над версией v0.95, которая будет включать такие новшества, как система проектов, навигация по коду, а также интегрированая система управления версиями. Работа будет завершена в течение ближайших нескольких недель.

И последняя новость: издательство O'Reilly выпустило первую книгу о RStudio (автор - Джон Верцани (John Verzani)). Подробнее можно узнать на сайте издательства.

23 октября 2011

Базовые графические возможности R: настройка внешнего вида линий



Продолжая пример со скоростью выведения индометацина из организма человека, рассмотрим, как можно изменять внешний вид линий на графиках.

plot(indo.times, means, xlab = "Время", ylab = "Концентрация",
       main = "Скорость выведения индометацина", type = "l")

 



19 октября 2011

Базовые графические возможности R: настройка внешнего вида маркеров



Как было отмечено в предыдущем сообщении, функция plot() имеет большое число управляющих параметров, позволяющих настраивать внешний вид создаваемых с ее помощью графиков.  Продолжая пример со скоростью выведения индометацина из организма человека, рассмотрим, как можно изменять внешний вид маркеров, обозначающих отдельные наблюдения.



08 октября 2011

Базовые графические возможности R: функция plot()



Как сказано в известной книге Джона Чемберса и соавт. (Chambers J.M. et al. (1983) Graphical Methods for Data Analysis), "...нет статистического метода более мощного, чем хорошо подобранный график". Действительно, графическое представление данных играет очень важную роль в статистике. Например, графики являются неотъемлемой частью разведочного анализа данных, позволяют выявлять паттерны и тренды в сложных наборах данных, а также могут непосредственно быть результатом статистического анализа (см., например, деревья классификации).

05 октября 2011

Объекты и типы данных R: временные ряды



В R существует специальный класс объектов для работы с данными, представляющими собой временные ряды - ts (от time series - временной ряд). Для создания объектов этого класса служит одноименная функция - ts().

В качестве примера рассмотрим ежемесячные данные по рождаемости в г. Нью-Йорк, собранные в период с января 1946 г. по декабрь 1959 г. (пример заимстован из электронной книги A Little Book of R for Time Series). Эти данные можно загрузить с сайта проф. Роба Хиндмана (Rob J. Hyndman) следующим образом:
birth <- scan("http://robjhyndman.com/tsdldata/data/nybirths.dat")
Read 168 items

04 октября 2011

Вводный курс по биостатистическому анализу в системе R



По приглашению от Института береговых исследований и планирования Клайпедского Университета (Литва) на прошлой неделе мне довелось провести трехдневный вводный курс по биостатистическому анализу при помощи R ("Introduction to practical biostatistical analysis with R"). В занятиях приняли участие 14 магистрантов, аспирантов и сотрудников Университета. Всё было очень здорово организовано и прошло по плану.

21 сентября 2011

Объекты и типы данных R: даты и время



Общие представления

Анализ данных, содержащих даты и время, может сопровождаться приличной головной болью. Причин этому может быть несколько:
  • разные годы начинаются в разные дни недели;
  • високосные годы имеют дополнительный день в феврале;
  • американцы и европейцы по разному представляют даты (например, 8/9/2011 будет 9-м августа 2011 г. для первых и 8-м сентября 2011 г. для вторых);
  • в некоторые годы добавляется т.н. "секунда координации";
  • страны различаются по временным поясам и в ряде случаев применяют переход на "зимнее" и "летнее" время.

25 августа 2011

Новости c конференции UseR! 2011



В период с 16 по 18 августа состоялась седьмая ежегодная международная конференция UseR!. В этом году организатором конференции выступила Кафедра статистики Университета г. Уорвик, Великобритания. Проведение данного форума преследует три основные цели:
  • Обсуждение тенденций развития языка R, ставшего сегодня лингва-франка в области статистических вычислений и анализа данных;
  • Предоставление платформы, где происходит обмен идеями по использованию R для статистического анализа и визуализации данных;
  • Обзор новых возможностей быстро развивающегося R-проекта.

04 августа 2011

Создаем интерактивную веб-графику несколькими строками R-кода



В 2006 г. выступление профессора Ханса Рослинга на конференции "Технологии, Развелечения, Дизайн" (TED, Technology Entertainment Design) произвело своего рода революцию в способах интерактивной визуализации многомерных данных (см. также здесь). Речь идет об анимационных графиках, которые проф. Рослинг использовал в своей презентации для анализа социально-экономической ситуации в мире за последние 50 лет.

Пример графика такого типа приведен ниже. На нем отражена динамика продаж трех видов фруктов (Яблоки, Бананы, Апельсины) в двух регионах (Запад и Восток). Имеются обширные возможности для визуализации зависимостей между различными переменными. Например, мы можем выбрать переменную "Время" для отображения на оси абсцисс и "Затраты" на оси ординат, раскрасить "пузыри" на графике в соответствии с регионом (Color / Регион), прикрепить названия фруктов к каждому "пузырю" (меню Select), и посмотреть, что получается, нажав кнопку воспроизведения. Попробуйте разные сочетания, чтобы "прочувствовать" возможности этого инструмента.




Приведенный выше график был построен на основе таблицы данных Fruits, входящей в состав библиотеки googleVis. Подключаем эту таблицу к рабочей среде R и просматриваем ее содержимое:
data(Fruits)
Fruits




В оригинальной таблице все названия приведены на английском языке. Я заменил их на русскоязычные аналоги позднее непосредственно в html-коде графика.

Для создания графика была использована функция gvisMotionChart(). Она имеет четыре основных аргумента:
gvisMotionChart(data, idvar = "id", timevar="date", chartid),
где data - имя таблицы данных; idvar - имя номинальной переменной для которой строится график; chartid - аргумент, позволяющий присвоить графику уникальное имя (если оставить этот аргумент незадействованным, графику будет автоматически присвоено случайным образом подобранное имя). В нашем случае команда выглядела следующим образом:
M <- gvisMotionChart(Fruits, idvar = "Fruit", timevar = "Year")
Объект M является списком из трех списков (проверьте командой str(M)). Первые два элемента этого списка содержат информацию о типе графика (MotionChart) и его уникальное имя (chartid). Третий элемент списка наиболее интересен, поскольку он содержит html код графика. Этот третий элемент в свою очередь включает четыре других элемента: header ("шапка"), chart - непосредственно код графика, caption - подпись графика, и footer ("футер"). html-код графика можно легко извлечь командой
print(M, tag = "chart")
а затем скопировать и вставить на страницу вебсайта.

При помощи функций библиотеки googleVis можно создавать множество различных типов графиков, а также объединять их на одной странице. Для ознакомления с имеющимися возможностями выполните команду
demo(googleVis)
Рассмотренный в этом сообщении пример был заимствован из руководства пользователя googleVis.


Создано при помощи Pretty R на сайте inside-R.org

24 июля 2011

Импортирование данных в R



В предыдущих сообщениях было рассмотрено, как, работая непосредственно в системе R, можно создать небольшие по объему объекты для хранения данных (векторы, матрицы, списки, таблицы данных). Следует отметить, однако, что возможности системы R по вводу и редактированию данных умышленно ограничены ее создателями, которые предполагали, что для этого будут использоваться другие средства (например, программа Microsoft Excel). Поэтому подлежащие анализу объемные таблицы данных обычно подготавливаются при помощи сторонних приложений, и только потом загружаются в рабочую среду R из внешних файлов. Хотя предпочтение при этом отдается текстовым файлам, с сайта CRAN можно скачать специальную библиотеку foreign, функции которой позволяют импортировать таблицы, сохраненные во множестве других распространенных форматов (Excel, SPSS, SAS, STATA, Acces, Matlab, SQL, Oracle, и т.п.; см. также руководство R Data Import/Export).



23 июля 2011

Объекты и типы данных R: таблицы данных



Таблица данных (data frame) представляет собой объект R, по структуре напоминающий лист электронной таблицы Microsoft Excel. Каждый столбец таблицы является вектором, содержащим данные определенного типа. При этом действует правило, согласно которому все столбцы должны иметь одинаковую длину (собственно, с "точки зрения" R таблица данных является частным случаем списка, в котором все компоненты-векторы имеют одинаковый размер). Часто на практике некоторые значения в таблице отсутствуют, что может быть обусловлено множеством причин: на момент измерения прибор вышел из строя, по невнимательности персонала измерение не было занесено в протокол исследования, испытуемый отказался отвечать на определенный вопрос(ы) в анкете, была утеряна проба, и т.п. Ячейки с такими отсутствующими значениями (missing values) в таблицах данных R не могут быть просто пустыми – иначе столбцы таблицы окажутся разной длины. Для обозначения отсутствующих наблюдений в языке R имеется специальное значение – NA (not available – не доступно).


18 июля 2011

Объекты и типы данных R: факторы



В статистике данные очень часто группируют в соответствии с тем или иным признаком, например, полом, социальным положением, стадией болезни, местом отбора проб и т.п. В R существует специальный класс векторов - факторы (factors), которые предназначены для хранения кодов соответствующих уровней номинальных признаков. Часто уровни факторов кодируют в виде чисел. В таких случаях очень важно "проинструктировать" программу так, чтобы она "распознавала" уровни номинальной переменной от чисел как таковых.

13 июля 2011

Объекты и типы данных R: списки



В отличие от вектора или матрицы, которые могут содержать данные только одного типа, в список (list) можно включать сочетания любых типов данных. Это позволяет эффективно, т.е. в одном объекте, хранить разнородную информацию. В частности, результаты большинства статистических анализов в программе R хранятся в объектах-списках, которые содержат текстовые значения и числа.

10 июля 2011

Объекты и типы данных R: матрицы



Матрица (matrix) представляет собой двумерную совокупность числовых, логических или текстовых величин. В свою очередь массив (array) – это совокупность некоторых однотипных элементов, обладающая размерностью больше двух. 

В R матрицу можно легко создать при помощи одноименной функции matrix(). В состав основных аргументов этой функции входят преобразуемый в матрицу вектор, а также параметры, определяющие количество строк (nrow – от number of rows) и столбцов (ncol – от number of columns). Так, для создания матрицы my.mat из четырех строк и четырех столбцов, содержащей совокупность чисел от 1 до 16, необходимо выполнить следующую команду:

30 июня 2011

Объекты и типы данных R: векторы



Язык R принадлежит к семейству так называемых высокоуровневых объектно-ориентированных языков программирования. Для неспециалиста строгое определение понятия «объект» является достаточно абстрактным. Однако для простоты можно называть объектами все, что мы создаем в ходе работы с R. Их выделяют два основных типа: 
  1. Объекты, предназначенные для хранения данныхdata objects») – это векторы, матрицы и массивы, списки, факторы, таблицы данных; 
  2. Функцииfunction objects») – это поименованные программы, предназначенные для выполнения определенных действий над другими объектами.
В этом сообщении будут расмотрены векторы, способы их создания в R, а также основные операции над ними.

26 июня 2011

Руководство пользователя RStudio



RStudio - бесплатная интегрированная среда разработки (IDE) для R. Благодаря ряду своих особенностей этот активно развивающийся программный продукт (сегодня доступен в бета-версии) далает работу с R очень удобной. В разделе меню "Работа с RStudio" опубликовано краткое руководство пользователя (перевод документации с официального сайта проекта, с моими изменениями и дополнениями).


24 июня 2011

Справочник R-библиотек



На популярном в R-сообществе сайте Inside-R появился раздел, который представляет собой справочник по R-библиотекам. Названия библиотек упорядочены по алфавиту. Кликнув по названию библиотеки, пользователь получает сведения о ее назначении, последней имеющейся версии, а также ссылку на скачивание. Кроме того, появляется дополнительная возможность просмотра упорядоченных по алфавиту названий функций из выбранной библиотеки. Кликнув по названию фукнции, пользователь переходит к ее полному описанию.

Наряду с очевидными удобствами, справочник имеет один недостаток - в отличие о похожего справочника на главном сайте R-проекта (CRAN Task Views), отсутствует тематическая классификация библиотек. Это значит, что для использования справочника от Inside-R пользователь уже должен знать название интересующей его библиотеки.

Каталог блогов Blogdir.ru

22 июня 2011

Впечатления о семинаре по анализу социальных сетей



На этой неделе посчастливилось стать слушателем краткого курса по статистическому анализу социальных и других сетей. Трехдневный курс проходил на факультете математики и информатики Университета г. Хайдельберг. Лекционные и практические занятия проводил профессор Калифорнийского университета в Лос-Анжелесе (UCLA) Марк Хэндкок (Mark S. Handcock) - известный специалист в области статистического  анализа социальных сетей.

В ходе курса было рассмотрено много интересных вещей, например, теория графов, модели экпоненциального семейства для случайных графов, сэмплинг социальных сетей, а также анализ частично наблюдаемых сетей. Для меня это было первым "погружением" в анализ сетей, и хотя из теории понимать удавалось не все - не хватало математической подготовки - курс оказался отличным "введением" в проблему. Особенно понравились практические занятия - там теория вылилась в красивые графические представления сетей и модели с вполне конкретными коэффициентами и стандартными ошибками.

21 июня 2011

Учебное пособие по статистическому анализу в системе R



В очередной раз выполняя Google-поиск русскоязычных ресурсов по R, наткнулся на книгу, полная ссылка на которую выглядит так:

Статистический анализ данных в системе R. Учебное пособие / А.Г. Буховец, П.В. Москалев, В.П. Богатова, Т.Я. Бирючинская; Под ред. проф. Буховца А.Г. - Воронеж: ВГАУ, 2010. - 124 с. PDF

Хотя пособия по R появлялись и раньше (например, серия статей в журнале "Linux Format", материалы к лабораторным занятиям по машинному обучению c применением R, и др.), работа А. Г. Буховца и соавт. является, по-видимому, первой настоящей книгой на русском языке,  посвященной статистическому анализу при помощи этой системы. В описании книги говорится:

19 июня 2011

Шпаргалка R-функций



Завершил перевод "шпаргалки" часто используемых R-функций, опубликованной Томом Шортом (Tom Short) на сайте CRAN. Список этих функций и краткие пояснения к ним находятся на странице "Полезные функции". Со временем буду этот список пополнять и править.


08 мая 2011

Как изучать R?



На сайте R-сообщества Insider-R, сотрудник компании Revolution Analytics Джозеф Рикерт (Joseph Ricker) поделился своим видением того, как стоит изучать язык статистических вычислений R (подробнее см. здесь). Джозеф считает, что процесс изучения R можно разделить на следующие пять стадий:
  1. Поверхностное понимание культуры R-сообщества и программной среды, в которой функционирует и разрабатывается язык R. Знакомство с имеющимися вспомогательными ресурсами. Инсталляция R на компьютере пользователя и выполнение первых тестовых скриптов.
  2. Считывание данных из csv-файлов и уверенное использование R-функций для выполнения привычного пользователю статистического анализа.
  3. Использование базовых структур языка R для написания простых программ. Написание собственных функций. Ознакомление со структурами данных, с которыми может работать R. Ознакомление с более сложными возможностями языка. Работа с базами данных, веб-страницами и внешними источниками данных.
  4. Написание сложных программ на языке R. Самостоятельная разработка и глубокое понимание структуры объектов S3- и S4-класса.
  5. Разработка профессиональных программ на языке R. Самостоятельное создание дополнительных модулей-библиотек для R.

04 мая 2011

Вышла новая версия интегрированной среды разработки для R - Revolution R Enterprise



Компания Revolution Analytics выпустила новую версию своей IDE (intergrated develompent environment, интегрированная среда разработки) для R - Revolution R Enterprise 4.3. Данная версия включает обновленную версию самой системы R (2.12.2) в совокупности с рядом библиотек высокопроизводительных функций и дополнительными опциями для анализа больших объемов данных и разработки веб-приложений, а также графический пользовательский интерфейс для программирования на языке R и многое другое. Основные новшества перечислены ниже:
  • Новый предиктивный алгоритм для работы с "большими данными": кластеризация по методу K-средних
  • Импорт данных из файлов SPSS в высокопроизводительные файлы формата XDF
  • Эффективные методы сортировки данных, сохраненных в формате XDF
  • Улучшенная производительность при импортировании файлов форматов ASCII и SAS
  • Возможность расчета ковариационных и корреляционных матриц для "больших данных", сохраненных в формате XDF
  • Поддержка значений дат в файлах XDF формата
  • Улучшенная функциональность Revolution R Productivity Environment (RPE)
  • Обновление движка R до версии 2.12.2
  • Единый инсталлятор для 32- and 64-битных версий Windows
Зарегистрированные подписчки могут скачать обновление c сайта Revolution Analytics. Как и ранее, представители научных учреждений и университетов могут скачать программу бесплатно для использования в исследовательских и образовательных целях.

--
(По материалам сайта Revolution Analytics


25 апреля 2011

Издание Computerworld пишет о R



Недавно на сайте известного издания Computerworld была опубликована статья, в которой обсуждаются более 20 свободно распространяемых программных средств, предназначенных для анализа и визуализации данных. В списке программ, относящихся к категории "Статистический анализ", R занимает почетное первое место. Привожу ниже свой перевод той части статьи, которая посвящена R.

19 апреля 2011

О чем этот блог?



Начнем с того, что собой представляет R. Как сказано на сайте этого проекта, R - это язык программирования и одновременно полноценная программная среда для выполнения статистических вычислений и построения графических объектов. R является программным обеспечением с открытым исходным кодом и свободно распространяется по лицензии GNU.

По сути, R является бесплатной реализацией другого объектно-ориентированного языка программирования - S, который был разработан Джоном Чамберсом и коллегами в Bell Laboratories и распространяется на комерческой основе (подробнее об истории создания R можно почитать здесь). Между этими двумя языками существует ряд существенных различий, однако в большинстве случаев код, написанный на S, без изменений может быть успешно исполнен в среде R.