13 апреля 2012

Статистика - это не математика



Недавно в одном из блогов, которые я постоянно читаю - Simply Statistics - встретил небольшое сообщение, в котором автор рассуждает о том, почему люди ассоциируют статистику с математикой. Мне эти рассуждения показались интересными, и более того - близкими моим собственным представлениям по данному вопросу. Привожу мой перевод этого сообщения.

"Статистика, подобно многим другим дисциплинам (физика, инженерия, химия, информатика), находится в зависимости от математики. Однако, так же, как и все эти другие дициплины, статистика не является математикой; математика - лишь инструмент, используемый для решения статистических проблем. И все же, в отличие от других дисциплин, статистику отождествляют с математикой в новостных заголовках. Каждый раз, когда люди используют статистический анализ для решения интересной проблемы, мы видим в этих заголовках что-то вроде "Математику можно использовать для решения замечательной проблемы Х" или "Математические основы явления Y". Вот несколько реальных примеров.

11 апреля 2012

Data Mining при помощи R: пример анализа twitter-сообщений



Сервис Twitter сегодня приобретает все большую популярность. В связи со своим небольшим размером, twitter-сообщения, как правило, обладают повышенной содержательностью, что делает их привлекательными с точки зрения контент-анализа и выявления трендов (например, для предсказания вспышек гриппа, предсказания биржевых событий, анализа настроений в социальных группах, скорости распространения информации, и т.д.). Разработчики сервиса предоставляют открытый интерфейс программирования приложений (API), позволяющий достаточно легко извлекать тексты сообщений требуемой тематики из базы данных Twitter'а для их последующего анализа. Конечно, эта возможность не была пропущена пользователями R. В Сети можно найти немало очень интересных образцов применения R для извлечения и анализа twitter-текстов (например, анализ удовлетворенности пассажиров сервисом разных авиакомпаний). Ниже я приведу пример twitter-анализа и попутно расскажу о нескольких используемых для этого R-пакетах.

07 апреля 2012

Базовые графические возможности R: категоризованные графики



Функция coplot(), входящая в базовую "комплектацию" R, предназначена для построения т.н. "conditioning plots". Это название можно перевести на русский язык как "категоризованные графики". Суть здесь сводится к тому, что анализируемые данные разбиваются на отдельные категории (например, в соответствии с уровнями какого-то фактора), для каждой из которых строится свой график (= панель) определенного типа. Все эти графики затем объединяются на одном рисунке, что существенно облегчает выявление статистических закономерностей и структур в данных (подробности можно найти в книге Cleveland (1993) Visualizing Data. AT&T Bell Laboratories).