29 августа 2013

Классические методы статистики: дисперсионный анализ по Краскелу-Уоллису



Как было отмечено ранее, важными условиями применимости классического однофакторного дисперсионного анализа являются нормальность распределения зависимой переменной и однородность (гомоскедастичность) дисперсий во всех сравниваемых группах. В случаях, когда наблюдается существенное нарушение этих условий и ситуацию не получается исправить путем трансформации исходных значений анализируемой переменной (см. Box & Cox 1964), решением может стать применение дисперсионного анализа по Краскелу-Уоллису (англ. Kruskal-Wallis ANOVA by ranks или Kruskal-Wallis rank sum test; см. также оригинальную статью c описанием метода: Kruskal & Wallis 1952). В русскоязычной литературе для этого метода используются также названия "критерий Крускала-Уоллиса", "Н-критерий Крускала-Уоллиса" и даже иногда "критерий Крускала-Валлиса". В этом сообщении я покажу, как тест Краскела-Уоллиса выполняется в программе R.


28 августа 2013

R - наиболее популярный язык среди аналитиков



Уже третий год подряд сайт KDnuggets (известный англоязычный ресурс, посвященный обнаружению знаний в базах данных) проводит опрос своих посетителей на предмет того, какое программное обеспечение (языки программирования) они используют в своих аналитических проектах чаще всего. В этом году в опросе приняли участие более 700 человек. Выяснилось, что, как и ранее, лидирующее место занимает R (61% респондентов), после которого идут Phyton (39%) и SQL (37%) (см. также табл. ниже).

04 августа 2013

Книга Нейтана Яу 'Искусство визуализации в бизнесе. Как представить сложную информацию простыми образами'



Книг по R на русском языке становится все больше, что не может не радовать. Совсем недавно издательством "Манн, Иванов и Фербер" была опубликована работа Нейтана Яу (Nathan Yau) "Искусство визуализации в бизнесе. Как представить сложную информацию простыми образами" (оригинальное название книги "Visualize This: The FlowingData Guide to Design, Visualization, and Statistics"). Нейтан является автором FlowingData - одного из наиболее популярных англоязычных блогов, посвященных визуализации данных. В своей новой книге Нейтан делится приемами создания инфографики, которая позволяет раскрыть порой неочевидные свойства анализируемых данных и рассказать на их основе интересную историю. Следует оговориться, что R - не единственный инструмент для обработки и визуализации данных, обсуждаемый в книге. Наряду с описанием выполнения определенных задач при помощи R, приводится много примеров кода Python, а также рассматриваются Javascript (JSON), XML, Adobe Illustrator, др.