19 июля 2015

Подготовка данных для создания предсказательных моделей: трансформация предикторов



Это сообщение продолжает начатую ранее тему подготовки данных для создания предсказательных моделей и посвящено трансформации предикторов. Необходимость преобразование исходных значений предикторов может быть вызвана разными причинами. Например, некоторые статистические методы требуют, чтобы все предикторы измерялись в одинаковых единицах. В других случаях качество модели может в значительной мере зависеть от наличия выбросов. Ниже будут описаны некоторые наиболее распространенные способы трансформации количественных предикторов, с примерами их реализации средствами пакета caret.




12 июля 2015

Интересное из мира R (29 июня - 12 июля 2015 г.)



Из всего произошедшего в мире R за последние две недели хотелось бы отдельно остановиться на одной, но очень большой новости - 30 июня The Linux Foundation объявили о создании R Consortium (Консорциум R). Это объявление было также продублировано на сайтах нескольких компаний, которые вошли в Консорциум (в частности, MicrosoftRStudio, Revolution Analytics, Mango Solutions, Oracle и др.). Помимо перечисленных компаний, членами организации стали также TIBCO Software Inc., Alteryx, Google, HP и Ketchum Trading.

Новый Консорциум является некоммерческой организацией, которая ставит своей целью поддержку деятельности R Foundation и обеспечение финансирования для развития и продвижения R. Конкретные проекты, которые предполагается реализовать в ближайшем будущем включают улучшение инфраструктуры R Forge, финансирование ежегодной конференции "userR!" (последняя конференция, кстати, прошла на прошлой неделе и собрала более 660 участников со всего мира) и общую поддержку совместной работы пользователей и разработчиков R (в частности, создание инфраструктуры, позволяющей централизованно выполнять тестирование кода R и тем самым способствовать повышению качества программного обеспечения, написанного на этом языке).

Как и следовало ожидать, новость о создании Консорциума была освящена на нескольких крупных tech-порталах, таких как Venturebeat, Datanami, Computerworld, CIO, Infoworld, CloudTimes. Среди пользователей R можно было встретить как положительные, так и весьма скептичные мнения по поводу создания Консорциума (в частности, имеют место опасения в связи с растущей коммерциализацией R).


05 июля 2015

Подготовка данных для создания предсказательных моделей: обнаружение и удаление "ненужных" предикторов



Стадия подготовки исходных данных играет очень важную роль в процессе создании эффективных предсказательных моделей. Следующие сообщения будут посвящены основным процедурам, используемым на этой стадии. Начнем с обнаружения и удаления "ненужных" предикторов (признаков).