29 января 2015

Почему стоит изучать R, если вы решили заняться "наукой о данных"



В коллективном блоге Sharp Sight Labs недавна была опубликована интересная статья, где обобщаются аргументы в пользу выбора R в качестве основного языка/инструмента для тех, кто решил заняться "наукой о данных" (data science). Споры о выборе "правильного" языка программирования не утихают (в основном обмен любезностями идет между представителями двух "лагерей" - R и Python). Мне упомянутая статья понравилась своим здравым подходом к проблеме - автор советует сначала сосредоточиться на чем-то одном (R, конечно...), а потом, по мере необходимости, осваивать другие инструменты. Привожу (вольный) перевод этой статьи для тех, кто пока не очень дружит с английским. Обратите внимание на то, что устоявшегося перевода популярного сегодня термина "data science" на русский язык пока, насколько мне известно, нет. Поэтому я использую дословный, хотя и несколько "угловатый", перевод - "наука о данных".
- - - -


25 января 2015

Интересное из мира R (19-25 января 2015 г.)



  • Новость #1 на этой неделе: Microsoft покупает Revolution Analytics (см. официальные объявления в блогах обеих компаний здесь и здесь). Основанная в 2007 г., компания Revolution Analytics специализируется на создании коммерческих решений для анализа больших данных с использованием R (см., например, Revolution R Enterprise, Revolution R PlusRevolution R Cloud), а также поддерживает развитие самого проекта R разработкой и распространением бесплатных продуктов с открытым кодом (RHadoop, ParallelR, Revolution R Open и др.). Предполагается, что слияние Revolution Analytics с Microsoft придаст новый толчок процессу внедрения R в бизнес-аналитику и позволит плотнее интегрировать R в уже разрабатываемые Microsoft соответствующие платформы (в частности, Microsoft Azure Machine Learning). Реакции на эту новость среди пользователей R оказались смешанными - от восторженных до очень настороженных (см. комментарии к объявлению на сайте Revolution Analytics). Как бы там ни было - это первый случай, когда "монстр" вроде Microsoft покупает более мелкую компанию, чей бизнес полностью строился вокруг R. Что из этого получится - скоро увидим.



18 января 2015

Интересное из мира R (12-18 января 2015 г.)



  • Компания RStudio выпустила новую версию RStudo Server Pro - коммерческого продукта, который позволяет организовать доступ к RStudio через веб-браузер c любого компьютера, подключенного к сети Интернет (для сравнения, имеется также и бесплатный вариант - RStudio Server). Из всех новых опций RStudio Server Pro стоит отметить (i) возможность контроля над распределением нагрузки на сервер, (ii) разбиение пользователей на группы в соответствии доступными им вычислительными ресурсами, а также (iii) улучшенные процедуры безопасности для авторизации пользователей и передачи данных.
  • На базе платформы EdX начнется новый цикл из 8 бесплатных курсов по анализу геномных данных от Гарвардского Университета (Data Analysis in Genomics). Первый из этих курсов - Statistics and R for the Life Scientists - стартует 19 января и продлится 5 недель.


14 января 2015

Диагностика линейных регрессионных моделей. Часть 2



Продолжая начатую ранее тему диагностики линейных регрессионных моделей, рассмотрим некоторые распространенные методы выявления необычных наблюдений.

Говоря о необычных наблюдениях в контексте регрессионного анализа, можно выделить следующие три ситуации:
  • Наблюдение представлено необычным сочетанием значений предикторов (англ. leverage point).
  • Наблюдение не согласуется с рассматриваемой моделью, т.е. является выбросом (англ. outlier).
  • Наблюдение оказывает существенное влияние на оценки параметров модели (англ. influential point или influential observation). Другими словами, удаление такого влиятельного наблюдения из выборки приведет к значительному изменению предсказываемых моделью значений. Влиятельные наблюдения обладают как минимум одним из двух указанных выше свойств (т.е. являются либо "leverage point", либо "outlier"), но чаще всего сочетают их.
Необычные наблюдения могут оказывать существенное влияние на качество модели (как с точки зрения статистической значимости ее параметров, так и с точки зрения ее предсказательной силы), в связи с чем выявление таких наблюдений является важной частью диагностики регрессионных моделей.



10 января 2015

Интересное из мира R (5-11 января 2015 г.)



  • Тал Галили (Tal Galili), создатель известного агрегатора R-bloggers, представил список статей, которые оказались наиболее популярными среди посетителей его сайта в 2014 г. Список дает некоторое представление о том, чем интересуются пользователи R, и с какими проблемами сталкиваются.
  • Компания RStudio объявила об обновлении своего сервиса shinyapps.io до бета-версии. Этот сервис предназначен для публикации веб-приложений, созданных на базе фреймворка Shiny, и, несмотря на свой тестовый режим, уже сейчас насчитывает тысячи пользователей.