29 декабря 2016

Пять наиболее важных событий в мире R по итогам 2016 г.



Автор: Сергей Мастицкий

Рисунок заимствован с сайта
https://www.r-consortium.org
Традиционно попытаюсь подвести итоги 2016 г., перечислив пять наиболее важных (на мой взгляд) событий и тенденций, имевших место в этом году в мире R. Если упустил что-то интересное, пожалуйста, сообщите об этом в комментариях.
  • IDE RStudio v1.0. В ноябре компания RStudio объявила о выходе новой версии (1.0) их одноименного IDE для R. Это был 10-й крупный релиз этого продукта, начиная с февраля 2011 г. В состав RStudio v1.0 вошло большое количество нововведений, среди которых стоит отметить следующие:
    • работа с R Notebooks - инструментом для интерактивного исполнения R-кода и одновременного документирования получаемых результатов;
    • интеграция с функционалом пакета sparkyr (см. ниже);
    • интеграция с функционалом пакета profvis, предназначенного для выполнения профилирования R-кода;
    • улучшенные средства импорта данных (на основе пакетов readr, readxl и haven); 
    • возможность создавать несложные веб-сайты и документы размером с книгу при помощи языка разметки R Markdown.
  • Создание пакета sparklyr. Apache Spark - это чрезвычайно популярный инструмент для выполнения вычислений над "большими данными". Разработанный компанией RStudio пакет sparklyr представляет собой R-интерфейс для работы с этим инструментом. Важными особенностями sparklyr (в отличие от, например, встроенного в Spark пакета sparkR) являются следующие:
    • возможность написания легко читаемого кода с использованием синтаксиса, принятого в пакете dplyr;
    • пользователи R могут работать с большинством алгоритмов машинного обучения, реализованных в Spark'овской библиотеке MLlib;
    • как было отмечено выше, sparklyr интегрирован в RStudio v1.0, что делает работу с ним еще удобнее.
  • Релиз платформы Steam. Компания h20.ai выпустила Steam (под лицензией AGPL) - платформу, которая позволяет "...от начала и до конца выстроить весь процесс создания и разворачивания "умных" приложений". Если говорить "немаркетинговым" языком, то эта платформа помогает наладить совместную работу аналитиков, разрабатывающих предсказательные модели на базе движка h2o (поддерживаются такие языки программирования, как R, Python и Java), и разработчиков приложений (последние "потребляют" предсказания моделей посредством запросов к соответствующим API, которые можно легко опубликовать с помощью Steam). Выстраивание подобной связи между аналитиками и разработчиками эффективным образом - большая головная боль многих компаний, которые пытаются внедрять предсказательные модели в свои бизнес-процессы. В этом смысле Steam - платформа с большим потенциалом, особенно если учесть, что в состав h2o входят одни из наиболее эффективных алгоритмов машинного обучения среди существующих. Подробнее о Steam можно узнать из официальной документации, а также из приведенного ниже видео.



С наступающим Новым Годом! Добра и мира вам и вашим близким!

18 декабря 2016

Методы и критерии верификации регрессионных моделей



Автор: Владимир Шитиков

В предыдущих сообщениях неоднократно поднимались важные проблемы, связанные с диагностикой регрессионных моделей: проверка статистических допущений, лежащих в основе используемого метода построения модели, оценка адекватности структуры систематической части модели, тестирование чувствительности модели к аномалиям в структуре исходных данных и др. (см. часть 1, часть 2, часть 3). В данном сообщения попробуем в сжатой форме дать сводку методов и критериев верификации регрессионных моделей и подвести некоторые итоги того, что было частично рассмотрено ранее.




10 декабря 2016

Обзор R-пакетов за ноябрь 2016 г.



Автор рисунка: Xiao Nan
По состоянию на 10 декабря 2016 г. на сайте CRAN было опубликовано около 12 тысяч пакетов для R. Такое разнообразие приложений, наряду с очень активным сообществом пользователей, является уникальным преимуществом R, по сравнению с другими языками и системами, предназначенными для анализа данных. В то же время становится все труднее находить пакеты, подходящие для решения тех или иных задач. Эта проблема особенно актуальна среди пользователей, недотостаточно владеющих английским языком. Чтобы как-то помочь таким пользователям, я буду периодически делать небольшие обзоры наиболее интересных пакетов, опубликованных или обновленных примерно за последний месяц (ниже представлен обзор для ноябрь - начало декабря 2016 г.). Безусловно, эти обзоры будут в значительной мере отражать мое собственное представление о том, что является интересным. Поэтому если я что-то упустил, сообщайте об этом в комментариях. 
  • anytime - мощный инструмент для работы с любыми форматами дат.
  • Несколько утилит от Томаса Липера (Thomas Leeper) для работы с Amazon Web Services:
  • bayesplot - набор функций для визуализации апостериорных распределений параметров моделей и диагностики качества моделей, построенных с использованием принципов байесовской статистики. В частности, содержит функции, которые позволяют работать с моделями Stan.
  • bookdown - набор утилит для подготовки книг и технической документации с помощью R Markdown.
  • diverse - предназначен для вычисления целого ряда мер энтропии, используемых в социальных и других науках. Может оказаться особенно полезным для создания новых предикторов по имеющимся переменным при разработке предсказательных моделей.
  • fastcluster - эффективная (с точки зрения скорости вычислений) реализация иерархического кластерного анализа. Пакет одновременно содержит соответствующие функции как для R, так и для Python (см. руководство пользователя).
  • Radviz (от англ. radial coordinate visualisation) - позволяет выполнять проецирование многомерных данных на двухмерную плоскость, что, в частности, будет полезным при визуализации результатов кластерного анализа (см. руководство пользователя).
  • rex - набор функций для работы с регулярными выражениями. Стандартные возможности R для работы с регулярными выражениями трудно назвать "дружественными" для пользователя. Пакет rex решает эту проблему очень удачно (см. пример).
  • tsoutliers - функции для обнаружения выбросов при работе с временными рядами (по методу Chen & Liu, 1993).
  • Strategy - пакет для разработки и оценки эффективности торговых стратегий. Имеется возможность использовать как готовые стратегии, так и добавлять свои собственные.
Сергей Мастицкий


04 декабря 2016

Новые книги по R на русском языке



Осенью этого года в московском издательстве "ДМК Пресс" вышли две новые книги по R на русском языке. Краткое описание этих книг приводится ниже.


Визуализация данных играет важную роль на всех этапах статистического анализа – от первичного ознакомления со свойствами данных до диагностики качества построенных моделей и представления полученных результатов. Из всего разнообразия статистических программ выделяется R - интенсивно развивающаяся и свободно распространяемая система статистических вычислений, в которой реализовано множество классических и современных методов анализа данных. Программные реализации алгоритмов, входящих в базовую версию R, проверены на практике не одним поколением пользователей и ученых. Кроме того, пользователи R постоянно разрабатывают многочисленные дополнения (т.н. «пакеты») для этой системы. Настоящая книга посвящена ggplot2 - одному из таких пакетов, который значительно расширяет и без того богатые базовые графические возможности R. В 2015 г. ggplot2 был установлен более миллиона раз. Такая популярность этого пакета обусловлена несколькими причинами, среди которых можно отметить эстетическую привлекательность и пригодное для публикации качество получаемых с его помощью графиков, возможность создавать пользовательские типы диаграмм, а также большой набор опций для тонкой настройки внешнего вида графиков. В этой книге описаны основы работы с ggplot2 и приведены многочисленные примеры кода, которые читатели легко могут модифицировать для собственных нужд. Книга окажется полезной для всех пользователей R, желающих освоить новый мощный инструмент анализа данных.



Всё, что регистрирует человек и созданные им машины, может считаться данными. Фиксируя новое и переводя архивы в цифровую форму, мы с каждым днём производим всё больше данных. Часть из них находится в специальных хранилищах, готовые к использованию. Но гораздо чаще случается так, что данные разбросаны по всемирной сети на многочисленных страницах онлайновых магазинов, заметках в со­циальных сетях, логах серверов и т. п. Прежде чем начать работать с такими данными, их необходимо собрать и сохранить в пригодном для анализа виде. Решению этих вопросов и посвящена данная книга. Основной материал книги разделён на две части. В первой части дано краткое введение в R - описание среды разра­ботки, языка и основных пакетов-расширений. Вторая часть посвящена непосредственно сбору данных: работе с открытыми данными, извлечению данных из веб-страниц и из соци­альных сетей. Также рассмотрены необходимые технические вопро­сы: протокол HTTP, функции импорта данных различных форматов и регулярные выражения. Завершается рассказ созданием карт на основе собранных данных. Издание предназначено специалистам по анализу данных, а также программистам, интересующихся сбором данных в Интернете.

Распространение информации об этих книгах приветствуется!

Сергей Мастицкий


19 ноября 2016

Перезагрузка



В июне этого года я объявил о прекращении ведения блога "R: Анализ и визуализация данных" в связи с хронической нехваткой у меня свободного времени. Оказалось, однако, что многие читатели хотели бы продолжения этого проекта. Сегодня я рад сообщить о его "возвращении к жизни", хотя и в несколько измененном виде. У сайта появился новый редактор - доктор биологических наук, профессор Андрей Викторович Коросов, который любезно согласился взять на себя основной труд по подготовке новых публикаций. Я также буду участвовать в написании новых материалов, однако не так активно, как в прошлом. Вместе с Андреем Викторовичем мы постараемся привлечь и других авторов, желающих поделиться своим опытом работы с R. Если бы вы хотели бы стать одним из таких авторов, то свяжитесь с нами, пожалуйста,  по адресу электронной почты, приведенному в разделе "О проекте".

Сергей Мастицкий

15 июня 2016

Проект "R: Анализ и визуализация данных" - подводя итоги



Динамика количества просмотров страниц сайта (за месяц)
в период с апреля 2011 г. по июнь 2016 г.
Пять лет назад я начал вести этот блог с целью "...сделать посильный вклад в продвижение R среди русскоязычных пользователей". За это время было опубликовано >190 статей, и количество посетителей сайта постоянно росло (см. рисунок). Кроме того, в рамках этого же проекта был выполнен перевод официального руководства по работе с RStudio, опубликована книга, обобщающая и значительно дополняющая представленные здесь материалы, а также выполнен перевод одной из наиболее значимых работ по методам статистического обучения и R. Хочется думать, что указанная выше цель была, хотя бы отчасти, достигнута.

Как известно, все имеет свое начало и свой конец. Мои личные обстоятельства в последнее время складываются таким образом, что, к сожалению, я больше не могу уделять должного внимания этому блогу и всему, что с ним связано (что неизбежно сказывается на качестве). В связи с этим я вынужден сообщить, что блог "R: Анализ и визуализация данных" прекращает свое существование и больше не будет обновляться, хотя сам сайт и все его содержимое по-прежнему будут доступны для всех желающих. Кроме того, по-прежнему будет существовать страница этого проекта в Facebook, где я буду время от времени "появляться". Многое из задуманного не получилось довести до конца (см., например, здесь и здесь), но надеюсь, друзья, что вы отнесетесь к этому с пониманием. Ваша поддержка всегда для меня много значила, и я безмерно за нее благодарен.

Успехов вам в дальнейшем освоении R!

12 июня 2016

Интересное из мира R (23 мая - 12 июня 2016 г.)



  • Согласно последним данным, собранным Бобом Мюнхеном (Bob Muenchen), в прошлом году язык R превзошел SAS по частоте использования в научных публикациях и занял второе место после SPSS Statistics. Подробнее о том, как Боб собирает эти данные уже в течение 4 лет, а также о получаемых результатах можно узнать здесь.
  • На прошедшем в начале июня в Сан-Франциско саммите по Spark'у компания IBM официально объявила о том, что она присоединилась к R Consortium в качестве "платинового спонсора". Это стало еще одним сигналом растущей значимости R в корпоративном мире. Ожидается, что участие IBM придаст дальнейший толчок проектам, над которыми работает R Консорциум.
  • На сайте издательства Manning Publications можно бесплатно (после регистрации) скачать электронную книгу "Exploring Data Science", в которую входят пять глав по таким темам, как разведочный анализ данных, глубокое обучение и нейронные сети, анализ текстов, а также моделирование зависимостей с помощью методов байесовской статистики.
  • Тал Галили (Tal Galili) сообщил о релизе своего нового пакета - heatmaply, позволяющего создавать интерактивные "тепловые карты" (heatmaps; см. пример ниже). Руководство по использованию этого пакета можно найти здесь.



  • В декабре 2015 г. компания Microsoft объявила о релизе своего сервиса по распознаванию эмоций на фотографиях людей (бесплатно можно анализировать до 30000 изображений в месяц). В статье Дэниела Боллера (Daniel Boller) на сайте thinktostart.com можно ознакомиться с примерами использования этого сервиса из среды R через соответствующий API.


22 мая 2016

Интересное из мира R (25 апреля - 22 мая 2016 г.)



  • Работа с GitHub из командной строки может оттолкнуть многих потенциальных пользователей этого замечательного инструмента. Но отчаиваться не стоит - для Git/GitHub существует несколько графических оболочек. Об одной из них, а также об основах работы с GitHub в RStudio, детально можно узнать в серии уроков "GitHub for Data Scientists without the terminal", подготовленных Сахиром Бхатнагаром (Sahir Bhatnagar).
  • Через несколько недель выйдет новая версия Apache Spark - v2.0 - чрезвычайно популярной платформы для работы с большими данными, которая, как обещают разработчики, теперь будет обеспечивать еще большую скорость вычислений. Уже сейчас для ознакомления доступна предварительная версия этого нового релиза. Напомню, что со Spark'ом можно работать непосредственно из среды R при помощи пакета SparkR.
  • Компания RStudio объявила о разработанном ими новом R-пакете - flexdashboard, который позволяет создавать очень эффектные "панели индикаторов", используя простой Markdown-синтаксис.
  • Вышла новая версия OpenCPU - v1.6. OpenCPU - это хорошо отлаженная и популярная система, позволяющая выполнять функции R посредством API-запросов по HTTP-протоколу. Подробнее о OpenCPU можно узнать из приведенного ниже видео.



  • Стоило Google выпустить API для своего (прекрасно работающего!) сервиса распознавания изображений, как спустя несколько месяцев вышел пакет для работы с этим сервисом из среды R - RoogleVision. С примерами использования этого пакета можно ознакомиться в блоге его создателя - Флориана Тешнера (Florian Teschner).

19 мая 2016

Опечатки и технические ошибки в первом издании книги "Введение в статистическое обучение с примерами на языке R"



Друзья, вот уже который день я пребываю в глубокой печали и посыпаю голову пеплом, а именно с тех пор, как стали приходить письма от читателей первого издания книги "Введение в статистическое обучение..." с сообщениями об обнаруженных ими опечатках и технических ошибках. Несмотря на все усилия с моей стороны и помощь нескольких человек с вычиткой рукописи, ошибки, к огромному сожалению, имеют место. Увы, единственное, что я могу сделать сейчас - это извиниться за такое качество работы и привести список обнаруженных проблем. С этим списком можно ознакомиться на GitHub-странице проекта. Если вы нашли что-то, что еще не перечислено в этом списке, пожалуйста, свяжитесь со мной по электронной почте, указанной в книге в разделе "От переводчика". Заранее спасибо!

15 мая 2016

Деревья решений. Часть I: Введение



Алгоритмы обучения с учителем, основанные на использовании деревьев решений (англ. "decision trees"; в русскоязычных источниках используются также термины "деревья принятия решений", "деревья классификации и регрессии" (от "regression and classification trees, CART"), "решающие деревья" и др.) чрезвычайно популярны. Эта популярность обусловлена несколькими причинами:


30 апреля 2016

Книга "Введение в статистическое обучение с примерами на языке R" вышла из печати



Спешу поделиться новостью о том, что книга "Введение в статистическое обучение с примерами на языке R", над переводом которой я работал на протяжении последнего года, вышла из печати. Я сделал все, что было в моих силах, чтобы максимально точно передать текст оригинала. Что из этого вышло - судить вам. О любых замечаниях и пожеланиях сообщайте, пожалуйста, по адресу rtutorialsbook[собака]gmail.com - это позволит внести соответствующие правки при публикации последующих изданий.

P.S.: Примеры кода и наборы данных для выполнения лабораторных работ из книги можно взять здесь.

24 апреля 2016

Интересное из мира R (14 марта - 24 апреля 2016 г.)



  • Компания Microsoft официально объявила о выходе SQL Server 2016. Как известно, одна из особенностей этого нового продукта заключается в его тесной интеграции c R. Eсли быть точнее, то речь идет о Microsoft R Server - модифицированной версии R, разработку которой до недавнего времени выполняла компания Revolution Analytics (приобретена Microsoft в начале прошлого года). Подробности об этой интересной связке R c SQL Server можно узнать из приведенного ниже видео, снятого в ходе презентации продукта. Отмечу также, что Microsoft R Server уже доступен в Azure Marketplace.



  • Тех из вас, кто много работает с текстовыми данными, может заинтересовать новый пакет hunspell, позволяющий выполнять проверку на наличие ошибок в написании слов. По сути, этот пакет является R-интерфейсом к известному движку Hunspell, на основе которого работает проверка орфографии в LibreOffice, OpenOffice, Mozilla Firefox, Google Chrome, Mac OS X, InDesign и др. программном обеспечении.
  • Если вы работаете на компьютере под управлением Windows и сталкиваетесь с необходимостью автоматического запуска R-скриптов, обратите внимание на новый пакет taskscheduleR. Более того, для этого пакета уже написан соответствующий add-in для RStudio, облегчающий работу благодаря наличию удобного графического интерфейса.
  • fidlr - это еще один дополнительный модуль для RStudio, на который стоит обратить внимание. Он предназначен для облегчения процесса загрузки в R финансовых данных от Google, Yahoo и др. сервисов.
  • Вышла новая версия rmarkdown (v0.9.5) - пакета, предназначенного для создания динамических и статических документов средствами R. В частности, среди нововведений в HTML формате таких документов следует отметить появление нескольких дополнительных шаблонов, возможность создавать "плавающие" модули с оглавлением документа, сворачивать и разворачивать блоки кода, а также представлять содержимое документа на разных закладках.

26 марта 2016

Опрос: в каком виде печатать книгу "Введение в статистическое обучение (с примерами на языке R)"?



Друзья, в продолжение предыдущего сообщения я хотел бы посоветоваться с вами по поводу того, в каком виде следует печатать книгу "Введение в статистическое обучение (с примерами на R)". Сейчас с "ДМК Пресс" обсуждаются два варианта - либо черное-белое, либо цветное издание. 

В оригинале многое завязано на цвет, и, конечно, хотелось бы эту особенность сохранить также в переводном издании. Однако стоимость цветной книги, естественно, будет выше. (Здесь следует еще отметить, что цветная печать будет выполнена при помощи струйного принтера на обычной офсетной (офисной) 80-граммовой бумаге - о глянце и лоске оригинала речь, к сожалению, не идет.). Поэтому хотелось бы знать ваше мнение - мнение потенциальных покупателей и читателей этой книги. Я был бы благодарен, если бы вы проголосовали за приемлемый для вас вариант, используя приведенную ниже форму.

P.S.: Заметьте, что если вы уже выполнили предварительный заказ, и если окончательный выбор будет сделан в пользу цветного издания, то вы получите свою цветную книгу по действующей в настоящий момент сниженной стоимости (т.е. 959 руб. вместо 1500 руб.)

16 марта 2016

Открыт предварительный заказ на книгу "Введение в статистическое обучение (с примерами на языке R)"



Друзья, перевод книги "An Introduction to Statistical Learning, with Applications in R", над которым я работал в течение последнего года, завершен. Полученный результат - "Введение в статистическое обучение (с примерами на языке R)" - выйдет из печати примерно через 1.5 месяца, но уже сейчас на сайте издательства ДМК Пресс можно сделать предварительный заказ на эту книгу.

Книга представляет собой доступно изложенное введение в статистическое обучение – незаменимый набор инструментов, позволяющих извлечь полезную информацию из больших и сложных наборов данных, которые начали возникать в последние 20 лет в таких областях, как биология, экономика, маркетинг, физика и др. В этой книге описаны одни из наиболее важных методов моделирования и прогнозирования, а также примеры их практического применения. Рассмотренные темы включают линейную регрессию, классификацию, создание повторных выборок, регуляризацию, деревья решений, машины опорных векторов, кластеризацию и др. Описание этих методов сопровождается многочисленными иллюстрациями и практическими примерами. Поскольку цель этого учебника заключается в продвижении методов статистического обучения среди практикующих академических исследователей и промышленных аналитиков, каждая глава включает примеры практической реализации соответствующих методов с помощью R – чрезвычайно популярной среды статистических вычислений с открытым кодом.

Издание рассчитано на неспециалистов, которые хотели бы применять современные методы статистического обучения для анализа своих данных. Предполагается, что читатели ранее прослушали лишь курс по линейной регрессии и не обладают знаниями матричной алгебры.


13 марта 2016

Интересное из мира R (29 февраля - 13 марта 2016 г.)



  • 10 марта состоялся релиз новой версии R - v3.2.4 (кодовое название "Very Secure Dishes"), которая завершает серию "3.2.x". Для безболезненного обновления текущей версии R, установленной на Вашем компьютере, можно воспользоваться пакетом installr. Подробеные примеры работы с этим пакетом можно найти здесь.
  • 27-30 июня на кампусе Стэнфордского университета пройдет очередная конференция UseR! Организаторы проводят конкурс стипендий для покрытия расходов, связанных с участием в конференции.
  • Хэдли Уикхэм объявил о выходе новой версии пакета ggplot2 - v2.1.0.
  • Проекты, имеющие отношение к языку R, в этом году снова войдут в программу Google Summer of Code. Заявку на свой проект могут подать студенты со всего мира. Принятые проекты получат финансирование в размере 5000$. С примерами проектов, реализованных в предыдущие годы, можно ознакомиться здесь.
  • 7 марта Американская Статистическая Ассоциация (ASA) опубликовала статью, которая, безусловно, войдет в историю статистики (см. также здесь). После примерно 150 лет повсеместного употребления р-значений для проверки статистических гипотез, ASA сделала следующее утверждение: "Well-reasoned statistical arguments contain much more than the value of a single number and whether that number exceeds an arbitrary threshold. The ASA statement is intended to steer research into a ‘post p<0.05 era." Иными словами,  ASA утверждает, что хорошо обоснованная аргументация включает в себя намного больше, чем значение вероятности, превышающее некоторое произвольно выборанное пороговое значение. Это заявление ставит своей целью начать новую эру в исследовательской работе, где клише 'p<0.05' утратит свои позиции.
    Публикация статьи вызвала волну реакций со стороны как защитников, так и противников р-значений. Ссылки на соответствующие публикации, а также список пакетов для R, которые помогают решить распространенные проблемы с использованием и интерпретацией p-значений, можно найти в этой статье проф. И. Беньямини.

28 февраля 2016

Интересное из мира R (15-28 февраля 2016 г.)



  • Компания Mango Solutions объявила о проведении очередной, 3-й конференции "Эффективные применения языка R" (EARL). Конференция будет проходить в Лондоне 13-15 сентября 2016 г. Уже сейчас можно пройти регистрацию и приобрести пропуск со скидкой. На YouTube можно посмотреть некоторые доклады, сделанные участниками конференции в прошлом году.
  • Дерек Нортон (Derek Norton) из Microsoft недавно провел вебинар, посвященный использованию функционала R в SQL Server 2016 посредством Microsoft R Server. Здесь можно посмотреть видео с этого вебинара.
  • Если вы пишете приложения на основе Shiny и запускаете их с AWS, то вам стоит почитать статью Кристофа Глура (Christoph Glur) о создании формы авторизации для таких приложений.
  • Если вам нужно построить нелинейную регрессионную модель вроде модели Михаэлиса-Ментен и вы хотите узнать, как это сделать в R, то начните с этой вводной статьи на сайте DataScience+.
  • 4 марта на платформе Stepic начнется новый курс "Основы программирования на R". В ходе курса будут рассмотрены основные этапы статистического анализа, считывание данных, предобработка данных, применение основных статистических методов и визуализация результатов.

20 февраля 2016

Как послать электронное письмо из R



Представьте, что мы выполняем ресурсоемкие вычисления в R, которые длятся несколько часов (например, обучение той или иной модели на большом объеме данных и одновременное оценивание качества ее предсказаний путем перекрестной проверки). Сидеть перед монитором и ждать, когда эти вычисления завершатся - не очень хороший способ провести время с пользой. Вместо этого можно "попросить" R послать нам по электронной почте автоматическое уведомление о завершении вычислений. Есть как минимум четыре пакета для R, которые позволяют организовать автоматические уведомления посредством электронной почты - sendmailR, mailRgmailR и gmailr, несколько различающихся по своему функционалу и легкости процесса настройки отправки сообщений. В качестве примера рассмотрим, как работает mailR - один наиболее "продвинутых" пакетов.




14 февраля 2016

Интересное из мира R (1 - 14 февраля 2016 г.)



  • Полку книг по R на русском языке прибыло! Владимир Кириллович Шитиков, мой соавтор по работе "Статистический анализ и визуализация данных с помощью R", опубликовал книгу "Экотоксикология и статистическое моделирование эффекта с использованием R". Как сообщается на сайте Владимира Кирилловича, в этой книге "...представлено описание статистических методов, как широко используемых, так и не нашедших пока должного применения при обработке данных экотоксикологического мониторинга. В центре внимания - построение и последующий анализ различных зависимостей "доза-время-эффект" для отклика, представленного в альтернативной, категориальной и метрической шкалах наблюдений. Сюда вошли пробит- и логит-анализ, модели выживания, методы построения различных нелинейных зависимостей, модели сглаживания и т.д. Подробно представлена методика работы с пакетом drс статистической среды R. Отдельная глава посвящена сравнительной оценке чувствительности видов к токсикантам и оценке экологического риска для биоценоза. Методы статистического анализа неизменно иллюстрированы примерами биологического характера. Представлены тексты несложных скриптов в кодах R, дающие возможность читателям легко воспроизвести самим технику выполнения расчетов... Книга может быть использована в качестве учебного пособия по статистическим методам для студентов и аспирантов высших учебных заведений медицинского и биологического профиля."
  • 9 февраля вышла новая версия RStudio. Одна из интересных новых опций - это возможность создавать пользовательские расширения (add-ins) для RStudio, которые могут делать практически все, что может делать R. Для создания такого расширения необходимо будет написать R-пакет с соответствующими функциями и зарегистрировать его в качестве расширения. Если вы не знакомы с процессом создания пакетов для R, то рекомендую прочесть статью Хилари Паркер (Hilary Parker) "Writing an R package from scratch", а также книгу Хэдли Уикхэма (Hadley Wickham) "R Packages". Еще одно полезное нововведение - возможность отделять закладки редактора кода от RStudio и выносить их в самостоятельные окна, что будет очень удобным, например, при работе с несколькими мониторами.
  • Опубликован пакет WHO, позволяющий выполнять запросы к базам данных Всемирной Организации Здравоохранения из среды R. Здесь и здесь можно ознакомиться с примерами работы с этим пакетом.
  • Компания Win-Vector опубликовала на Youtube бесплатный курс по A/B-тестированию, основанному на принципах байесовской статики.
  • The R Foundation, наконец-то, поделились с общественностью новыми логотипами R (изображения в высоком разрешении в форматах PNG и SVG), которые согласуются с принципами "плоского дизайна".

31 января 2016

Интересное из мира R (1-31 января 2016 г.)



  • Тал Галили (Tal Galili), автор известного агрегатора r-bloggers.com, опубликовал список 100 статей, которые были наиболее популярны среди читателей его сайта в 2015 г.
  • По всему миру действуют многочисленные "группы пользователей R" ("R User Groups") - неформальные сообщества приверженцев этого языка программирования, которые периодически организовывают встречи для обмена опытом и завязывания личных знакомств. На этих встречах часто можно увидеть очень полезные примеры кода для решения самых разнообразных задач. Как выяснилось, многие сообщества имеют соответствующие GitHub-страницы с подобными примерами кода. Джозеф Рикерт (Joseph Rickert) сделал небольшой обзор таких GitHub-страниц.
  • На CRAN'е опубликован новый пакет - rsvg, позволяющий создавать высококачественные изображения в формате SVG, а также конвертировать эти изображения во многие другие распространенные графические форматы без потери качества. Примеры использования этого пакета можно найти в блоге проекта OpenCPU.
  • В блоге компании Win-Vector опубликована полезная статья с подробными примерами по организации параллельных вычислений при помощи R на нескольких машинах (средствами пакета parallel).
  • Компания RStudio объявила о релизе новой версии пакета Shiny (v0.13.0). Эта версия содержит целый ряд нововведений, включая "Shiny-модули", "Shiny-гаджеты", HTML-шаблоны, новые JavaScript-события и др.
P.S.: Недавно я наткнулся на очень интересную статью Дэвида Донохо (David Donoho) "50 Years of Data Science", в которой он пытается проанализировать суть популярного сегодня термина/явления "Data Science" и продемонстрировать связь этой "новой" дисциплины с классической статистикой и машинным обучением. Рекомендую!