31 мая 2015

Интересное из мира R (18-31 мая 2015 г.)



  • Вышла новая полноценная версия интегрированной среды разработки RStudio (v0.99). C обзором многочисленных нововведений можно ознакомиться в приведенном ниже видео.

  • Согласно последнему опросу, проведенному на сайте KDnuggets, R является наиболее популярным инструментом среди специалистов в области анализа данных.

    Рисунок заимствован с сайта KDnuggets.com

  • Упомянутая выше популярность R среди специалистов по анализу данных объясняется, помимо прочих причин, и разнообразием реализованных в этой системе методов. Так, Боб Мюнхен (Bob Muenchen) у себя в блоге представил результаты небольшого исследования, согласно которому количество функций, написанных для R, сегодня в ~150 раз превышает количество функций для SAS.
  • На Хабрахабре была опубликована интересная статья о реализации в R алгоритма глубокого обучения word2vec.
  • На сайте Клуба трейдеров Smart-lab.ru была опубликована статья с примером построения в R модели ("наивный байесовский классификатор"), предсказывающей цену акций Apple.


23 мая 2015

Протокол разработки предсказательных моделей, предназначенных для решения бизнес-задач



В отличие от моделей, основное назначение которых заключается в установлении взаимоотношений между предикторами и некоторой переменной-откликом и, как следствие, наиболее распространенных в академической среде, предсказательные модели особенно популярны в мире бизнеса. Это не удивительно, поскольку возможность делать предсказания в отношении критических для бизнеса явлений и процессов дает конкурентное преимущество, а нередко лежит и в основе самого бизнеса (Google, Amazon, Netflix, и т.д.). Разработка предсказательной модели для решения бизнес-задач - очень сложная задача, поскольку требует экспертизы во многих областях - от глубокого понимания конкретного бизнес-домена, до баз данных, IT-инфраструктуры и, конечно же, методов статистики/машинного обучения. Есть очень мало людей, которые имеют все эти навыки, в связи с чем планирование и выполнение проекта по разработке и запуску предсказательной модели - это всегда командная работа. Любой успешный бизнес строится на хорошо структурированных и "обкатанных" на практике процессах и правилах. Существуют подобные правила и для проектов, связанных с разработкой предсказательных моделей. Это сообщение посвящено одному из наиболее широко применяемых таких протоколов - т.н. "межиндустриальному стандартному протоколу глубинного анализа данных" ("Cross-Industry Standard Protocol for Data Mining", CRISP-DM).




17 мая 2015

Интересное из мира R (4-17 мая 2015 г.)



  • Похоже, скоро мы увидим первый, и очень серьезный, результат слияния компании Revolution Analytics с Microsoft. Как стало известно из официального блога Microsoft, этим летом для публичного ознакомления будет выпущена предварительная версия SQL Server 2016. Одной из отличительных особенностей новой версии этого лидирующего продукта Microsoft станет полная его интеграция с R, а именно Revolution R Open. Аналитические задачи можно будет решать при помощи R прямо на стороне сервера, без предварительного извлечения данных через интерфейс ODBC и их переноса в среду R, что сэкономит время и место для хранения данных.
  • Число пакетов R постоянно растет и все сложнее становится найти пакеты, необходимые для решения конкретных задач. В связи с этим все чаще можно встретить списки рекомендуемых пакетов. Один из таких списков общего назначения был опубликован на портале Computerworld.
  • Вышла новая версия популярного пакета forecast (v6.0), особенностью которого является возможность автоматического выбора наиболее оптимальной модели для прогнозирования на основе временных рядов. Подробнее со списком изменений, реализованных в новой версии, можно ознакомиться в сообщении, опубликованном  автором пакета - проф. Робом Хиндманом.
  • В июне на базе платформы Stepic начнется трехнедельный курс по R на русском языке от Института биоинформатики (Санкт-Петербург).
  • Андрей Огурцов в своем блоге затронул тему нехватки литературы по применению R в области клинических исследований и привел список имеющихся на данных момент работ.

16 мая 2015

Создание предсказательных моделей: основные шаги



Как отмечалось в одном из предыдущих сообщений, статистические модели создаются либо с целью получения предсказаний, либо для понимания взаимоотношений между переменной-откликом и предикторами. Создание предсказательных моделей (англ. "predictive models", в некоторых областях также "forecasting models") включает ряд стандартных шагов, обзор которых приведен ниже. Этим сообщением я начинаю новую серию публикаций по методам машинного обучения ("machine learning"), или "статистического обучения" ("statistical learning"; James et al. 2013), и построению предсказательных моделей с их помощью.




03 мая 2015

Интересное из мира R (27 апреля - 3 мая 2015 г.)



  • В своем блоге "Язык R в финансах и экономике" Илья Езепов опубликовал перевод известной страницы Google's R Style, в которой приводятся советы по оформлению скриптов, написанных на R. Очень рекомендую!
  • Андрей Огурцов в своем блоге "Биостатистика и язык R"  привел подробный пример расчета оптимального объема выборок для проведения исследований по установлению терапевтической эквивалентности разных способов лечения.
  • На сайте soc-research.info Сергей Дембицкий привел пример функции, позволяющей выполнять взвешивание данных при работе с таблицами сопряженности.
  • На образовательном сайте Exponenta.ru появилось учебное пособие "Язык R". Автор этой работы - Наиль Мусин, доцент факультета информационных технологий Ун-та Российской академии образования.
  • Новое издание книги "Статистический анализ и визуализация данных с помощью R", в которой обобщаются материалы данного блога, будет опубликовано в "бумажном варианте" издательством ДМК Пресс (Москва). Рукопись уже передана в издательство. Следите за новостями.