Обзор интересных R-пакетов за сентябрь 2017 г. (и другие новости)

billboarder - R-интерфейс к billboard.js - JavaScript-библиотеке для интерактивной визуализации данных. См. примеры здесь и здесь.
blastula - хороший инструмент для формирования и отправки электронных писем с HTML-содержимым, которое будет правильно отображаться на любых устройствах. См. примеры здесь.
blogdown - пакет от RStudio, позволяющий использовать синтаксис R Markdown для подготовки статей для блогов. С полной документацией и примерами можно ознакомиться здесь.
cetcolor - набор хорошо воспринимаемых цветовых палитр, разработанных в соответствии с принципами, которые были описаны в работе Kovesi (2015).
esvis - набор функций для оценивания и визуализации "размера эффекта", вызванного тем или иным фактором (факторами) в экспериментальных и обсервационных исследованиях.
googledrive - набор утилит для работы с Google Drive из среды R.
Knoema - R-интерфейс к сервису Knoema, предоставляющему доступ к огромной коллекции публичных данных разной тематики (~2.5 миллиарда временных рядов из тысяч источников).
missRanger - реализация одного из эффективных алгоритмов заполнения пропущенных значений в наборах данных с разнотипными переменными.
skpr - инструмент для нахождения оптимального плана эксперимента. Имеется графический интерфейс, реализованный в виде Shiny-приложения.
spm - набор функций для моделирования пространственных данных с помощью как традиционных (random forests, GBM), так и гибридных методов машинного обучения.

Из других хороших новостей: в московском издательстве ДМК Пресс вышла книга "Машинное обучение с использованием библиотеки H2O" (ориг. назв. "Practical Machine Learning with H2O") в переводе, выполненным Андреем Огурцовым (автор блога "Биостатистика и язык R"). В аннотации к книге говорится следующее:

"Машинное обучение наконец-то достигло стадии зрелости. При помощи программного обеспечения H2O вы можете решать задачи машинного обучения и анализа данных с использованием простого в использовании и открытого (open source) фреймворка, который поддерживает большое количество операционный систем и языков программирования, а также масштабируется для обработки больших данных. Это практическое руководство научит вас использовать алгоритмы машинного обучения, реализованные в H2O, с упором на наиболее важные для продуктивной работы аспекты.

Если вы умеете программировать на R или Python, хотя бы немного знаете статистику и имеете опыт обработки данных, эта книга Даррена Кука познакомит вас с основами использования H2O и поможет вам поэкспериментировать с машинным обучением на наборах данных разного размера. Вы изучите несколько современных алгоритмов машинного обучения: глубокое обучение, «случайный лес», обучение на неразмеченных данных и ансамбли моделей.

Прочтя эту книгу, вы:

• узнаете, как импортировать данные в H2O, преобразовывать их и экспортировать их из H2O;

• изучите основные концепции машинного обучения, такие как перекрестная проверка и проверочные наборы данных;

• поработаете с тремя разными наборами данных, решая задачи регрессии, бинарной и многоклассовой классификации;

• используете H2O для анализа каждого набора данных при помощи четырех алгоритмов машинного обучения;

• поймете, как работает кластерный анализ и другие алгоритмы обучения на неразмеченных данных."

Следует добавить, что А. Огурцов выполнил не только отличный перевод книги, но и подготовил некоторые дополнительные и очень полезные материалы по H2O (в частности, по Deep Water), которые можно найти в соответствующем GitHub-репозитории.

1 Комментарии

Анонимный написал(а)…

Здравствуйте!

Установил R, но на графиках он не пишет русские названия, а какие-то символы. Запускаю R из гретл. Может ли так быть?
И еще вопрос. Как проводить множественные сравнения средних, например, по годам?
Критерий Тьюки вроде бы у меня не запускается, если факторный признак - число.

3 ноября 2017 г. в 04:46

1 Комментарии

Отправить комментарий

Форма для связи