08 октября 2017

Обзор интересных R-пакетов за сентябрь 2017 г. (и другие новости)



  • billboarder - R-интерфейс к billboard.js - JavaScript-библиотеке для интерактивной визуализации данных. См. примеры здесь и здесь.
  • blastula - хороший инструмент для формирования и отправки электронных писем с HTML-содержимым, которое будет правильно отображаться на любых устройствах. См. примеры здесь.
  • blogdown - пакет от RStudio, позволяющий использовать синтаксис R Markdown для подготовки статей для блогов. С полной документацией и примерами можно ознакомиться здесь.
  • cetcolor - набор хорошо воспринимаемых цветовых палитр, разработанных в соответствии с принципами, которые были описаны в работе Kovesi (2015).
  • esvis - набор функций для оценивания и визуализации "размера эффекта", вызванного тем или иным фактором (факторами) в экспериментальных и обсервационных исследованиях.
  • googledrive - набор утилит для работы с Google Drive из среды R.
  • Knoema - R-интерфейс к сервису Knoema, предоставляющему доступ к огромной коллекции публичных данных разной тематики (~2.5 миллиарда временных рядов из тысяч источников).
  • missRanger - реализация одного из эффективных алгоритмов заполнения пропущенных значений в наборах данных с разнотипными переменными.
  • skpr - инструмент для нахождения оптимального плана эксперимента. Имеется графический интерфейс, реализованный в виде Shiny-приложения.
  • spm - набор функций для моделирования пространственных данных с помощью как традиционных (random forests, GBM), так и гибридных методов машинного обучения.

Из других хороших новостей: в московском издательстве ДМК Пресс вышла книга "Машинное обучение с использованием библиотеки H2O" (ориг. назв. "Practical Machine Learning with H2O") в переводе, выполненным Андреем Огурцовым (автор блога "Биостатистика и язык R"). В аннотации к книге говорится следующее:

"Машинное обучение наконец-то достигло стадии зрелости. При помощи программного обеспечения H2O вы можете решать задачи машинного обучения и анализа данных с использованием простого в использовании и открытого (open source) фреймворка, который поддерживает большое количество операционный систем и языков программирования, а также масштабируется для обработки больших данных. Это практическое руководство научит вас использовать алгоритмы машинного обучения, реализованные в H2O, с упором на наиболее важные для продуктивной работы аспекты.

Если вы умеете программировать на R или Python, хотя бы немного знаете статистику и имеете опыт обработки данных, эта книга Даррена Кука познакомит вас с основами использования H2O и поможет вам поэкспериментировать с машинным обучением на наборах данных разного размера. Вы изучите несколько современных алгоритмов машинного обучения: глубокое обучение, «случайный лес», обучение на неразмеченных данных и ансамбли моделей.

Прочтя эту книгу, вы:

• узнаете, как импортировать данные в H2O, преобразовывать их и экспортировать их из H2O;
• изучите основные концепции машинного обучения, такие как перекрестная проверка и проверочные наборы данных;
• поработаете с тремя разными наборами данных, решая задачи регрессии, бинарной и многоклассовой классификации;
• используете H2O для анализа каждого набора данных при помощи четырех алгоритмов машинного обучения;
• поймете, как работает кластерный анализ и другие алгоритмы обучения на неразмеченных данных."

Следует добавить, что А. Огурцов выполнил не только отличный перевод книги, но и подготовил некоторые дополнительные и очень полезные материалы по H2O (в частности, по Deep Water), которые можно найти в соответствующем GitHub-репозитории.