29 марта 2015

Интересное из мира R (23-29 марта 2015 г.)



  • Во вторник на этой неделе состоялся вебинар "Reproducibility with Revolution R Open and the Checkpoint Package", организованный, как несложно догадаться, компанией Revolution Analytics. Обсуждался пакет checkpoint, который обеспечивает работоспособность любого кода R за счет создания локальных репозиториев всех пакетов, задействованных в том или ином проекте (подробнее см. здесь и здесь). Ниже представлена презентация с этого вебинара.


27 марта 2015

Диагностика линейных регрессионных моделей. Часть 3



Это сообщение является последним по теме диагностики линейных моделей (см. первые две части здесь и здесь). Обсуждение этой темы мы завершим рассмотрением наиболее распространенных количественных показателей, позволяющих обнаружить влиятельные наблюдения. Как следует из их названия, влиятельные наблюдения оказывают существенное воздействие на оценки коэффициентов регрессионной модели. Такие наблюдения обладают как минимум одним из рассмотренных ранее свойств, т.е. являются либо выбросами, либо имеют высокий потенциал воздействия, но чаще всего в определенной степени сочетают в себе оба этих свойства.


22 марта 2015

Интересное из мира R (16-22 марта 2015 г.)



  • Роберт Мюнхен (Robert Muenchen, автор таких книг, как "R for SAS and SPSS users" и "R for Stata users") опубликовал в своем блоге интересную статью с советами по поводу того, "как помочь вашей организации перейти на R".
  • Джулиан Хиллебранд (Julian Hillebrand) привел в своем блоге Think to Start подробный пример работы с LinkedIn API средствами R.
  • Боб Рудис (Bob Rudis) сообщил о созданном им пакете waffle, который позволяет создавать т.н. "вафельные" диаграммы (одна из альтернатив круговым диаграммам - см. пример ниже).

    Источник: http://rud.is

  • Дэвид Робинсон (David Robinson) привел примеры возможностей своего пакета broom, который позволяет преобразовывать результаты вычислений нескольких базовых функций R (lm(), nls(), kmeans() и др.) в опрятно оформленные таблицы. Такие таблицы далее легко использовать для последующих вычислений или построения графиков.
  • В блоге "Язык R в финансах и экономике" опубликован интересный пример реализации стратегии парного трейдинга.

15 марта 2015

Интересное из мира R (9-15 марта 2015 г.)



  • Гарет Гролмунд (Gareth Grolemund) из RStudio опубликовал очень полезную шпаргалку по созданию пакетов R, которую можно скачать по этой ссылке. Шпаргалки от RStudio по другим темам можно найти здесь.
  • При выполнении параллельных вычислений в R (например, при помощи пакета foreach) часто хочется иметь индикатор процесса, чтобы знать, сколько времени осталось до завершения задачи. В блоге Revolutions опубликована статья с примером того, как такой индикатор можно написать самостоятельно, если используемые пакеты не имеют готовых решений.
  • Новая версия популярной программы для визуализации данных и создания дэшбордов Tableau v9.0 будет способна напрямую считывать файлы данных в формате R.
  • В блоге "Язык R в финансах и экономике" опубликована интересная статья, описывающая применение метода случайного леса для предсказания цены акций.
  • Я начал работу по переводу книги "An Introduction to Statistical Learning with Applications in R" на русский язык. Книга будет опубликована издательством ДМК Пресс (см. также здесь и здесь) примерно в начале следующего года.

11 марта 2015

Книга Петера Флаха по машинному обучению переведена на русский язык



Издательство "ДМК Пресс", в котором ранее вышли книги А. Б. Шипунова и соавт. "Наглядная статистика. Используем R!" и Р. Кабакова "R в действии. Анализ и визуализация данных на языке R", продолжает радовать новинками - на прошлой неделе был опубликован перевод известной книги Петера Флаха по машинному обучению (Peter Flach, "Machine Learning. The Art and Science of Algorithms that Make Sense of Data").

Эта новая книга, которая на русском языке вышла под названием "Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных" стала первой из планируемой издательством серии работ по машинному обучению. Благодаря ясному изложению, хорошей организации и большому числу подробно рассматриваемых примеров, оригинал книги П. Флаха хорошо известен и популярен среди академических исследователей и практикующих аналитиков. В этой работе рассматривается широкий круг современных методов машинного обучения, предназначенных для решения задач регрессии, классификации, кластеризации и создания списков правил. Большое внимание уделяется роли входных признаков и способам их конструирования. Наконец, целая глава посвящена ансамблям моделей. Отлично оформленное переводное издание (в цвете, твердая обложка) ни в чем не уступает оригиналу. Особенно порадовал очень качественный перевод. 

Настоятельно рекомендую всем, кто интересуется машинным обучением и теорией соответствующих методов! Такие хорошие книги встречаются не часто.


08 марта 2015

Интересное из мира R (2-8 марта 2015 г.)



  • В этом году R Foundation снова была выбрана в качестве одной из организаций-менторов для проведения Google Summer of Code. В ходе этого ежегодного мероприятия студенты со всего мира получают стипендии от Google для работы над определенными open source-проектами. Заявки от студентов на участие в Школе-2015 принимаются с 16 по 27 марта.
  • Хэдли Уикхэм сообщил о выходе своего нового пакета haven, предназначенного для импорта в R данных, исходно хранящихся в форматах SAS, SPSS и Stata.
  • На Coursera начался новый курс по анализу данных "Data Analysis and Statistical Inference". Задания и примеры в ходе этого курса будут реализованы на R.
  • Натан Ютендейл (Nathan Uyttendaele) из Каталического университета Лувена (Бельгия) опубликовал на сайте arxiv.org интересное руководство по оптимизации R-кода при выполнении сложных вычислений с большими объемами данных.
  • В блоге "Язык R в финансах и экономике" опубликована полезная статья о переобучении моделей (в контексте классификационных деревьев).

07 марта 2015

Как говорить на языке "Data Science"



О Data Science, Big Data, Machine Learning и т.п. сегодня не говорит только ленивый, и на то есть масса объективных причин. Однако из-за всего этого "шума" в медиа и бизнес-среде часто многие понятия подменяются и появляется большое количество клише и "buzzwords". Ребята из DataCamp у себя в блоге опубликовали занятную статью "How to speak Data Science", где объяснили, что "в действительности" имеется в виду, когда люди говорят о Data Science. Привожу свой перевод перечисленных там терминов и фраз. Хорошего вам настроения в этот весенний день!



01 марта 2015

Интересное из мира R (23 февраля - 1 марта 2015 г.)



  • На этой неделе компания RStudio объявила о том, что бета-тестирование их (уже ставшего популярным) сервиса shinyapps.io завершено и запущено его коммерческое использование. Сервис предназначен для разворачивания аналитических веб-приложений, созданных на базе фреймворка Shiny. Цены варьируют от 0$/месяц (тариф "Free": хостинг 5 приложений, 25 часов активного использования) до 299$/месяц (тариф "Professional": хостинг неограниченного количества приложений, авторизация пользователей, 5000 часов активного использования, приоритетная поддержка, и др.).
  • Завершается работа над новой версией интегрированной среды разработки RStudio (v0.99), но уже сейчас пользователи могут скачать и протестировать пред-релизную версию v0.99.315. Редактор RStudio теперь будет включать много полезных и давно ожидаемых опций, среди которых особого упоминания заслуживают:
    • возможность сортировки и фильтрации полей, а также полнотекстовый поиск в просмотрщике данных;
    • значительно "поумневшее" автозавершение кода (в частности, при работе с использованием оператора последовательного выполнения команд %>% из пакета magrittr);
    • подсветка кода для целого ряда новых языков;
    • улучшенный функционал для работы в режиме эмуляции редактора Vim.
  • На сайте Udemy начинается новый курс по Data Science от Нины Зумель (Nina Zumel) и Джона Маунта (John Mount) - авторов недавно опубликованной книги "Practical Data Science with R".
  • Издательством Wiley опубликована книга "Data Mining Algorithms: Explained Using R". Очень обстоятельная работа (720 страниц!), в которой автор (Pawel Cichosz) "на пальцах" объясняет основные алгоритмы машинного обучения.
  • В блоге "Язык R в финансах и экономике" опубликована статья, где описывается пример применения алгоритма "решающие деревья" для предсказания цены акций.