26 апреля 2013

О связи между "утечкой мозгов" и объемом пассажирских перевозок



В любом хорошем учебнике по статистике можно узнать, что наличие тесной корреляции между двумя  переменными не обязательно указывает на причинно-следственную связь между ними. Другими словами, наличие корреляции между Х и Y совсем необязательно означает, что именно изменения в Х являются причиной сопутствующих изменений в Y. Ведь вполне возможно существование некой неизвестной нам (латентной) переменной Z, которая оказывает влияние и на Х, и на Y, являясь истинной причиной ковариации между ними.  И тем не менее, достаточно часто, в том числе в научных публикациях, можно встретить безосновательную интерпретацию корреляции именно как причинно-следственной связи.

22 апреля 2013

Новая книга по основам прогнозирования (с использованием R)



Проф. Роб Хиндман (Rob J Hyndman, Университет Монаша, Австралия), автор известного пакета forecast для R (полное описание см. здесь), сообщил в своем блоге об окончании работы над книгой под названием "Forecasting: principles and practice" (Прогнозирование: принципы и практика). Написанная в соавторстве с проф. Джорджем Атанасопулосом (George Athanaspoulos, Университет Монаша, Австралия), книга находится в открытом доступе на сайте основанной проф. Хиндманом издательской компании OTexts. Книга содержит описание основных методов, используемых для прогнозирования в экономических исследованиях, энергетике, и др. областях. Книга написана простым языком и содержит многочисленные примеры, которые сопровождаются полностью воспроизводимым R-кодом. Это делает книгу не только отличным введением в область статистического прогнозирования, но и очень полезным руководством для практикующих аналитиков, работающих с R. Вот ее оглавление (в сокращенном виде):

1. Приступая к работе (Getting started)
2. Набор инструментов прогнозиста (The forecaster's toolbox)
3. Субъективные прогнозы (Judgmental forecasts)
4. Простая регрессия (Simple regression)
5. Множественная регрессия (Multiple regression)
6. Декомпозиция временных рядов (Time series decomposition)
7. Экспоненциальное сглаживание (Exponential smoothing)
8. ARIMA-модели (ARIMA models)
9. Продвинутые методы прогнозирования (Advanced forecasting method)

Рекомендую!

20 апреля 2013

Двухфакторный дисперсионный анализ



Как следует из названия, задача рассмотренного нами ранее однофакторного дисперсионного анализа заключается в выяснении влияния какого-то одного фактора на интересующую нас количественную переменную. Однако очень редко тот или иной процесс определяется только одним фактором. Напротив - обычно  наблюдается одновременное влияние многих факторов. Задача исследователя - выявить, какие факторы оказывают существенное влияние на изучаемое явление, а какие - можно исключить из рассмотрения. Как будет показано ниже, двухфакторный дисперсионный анализ (англ. two-way analysis of variance, или two-way ANOVA) позволяет установить одновременное влияние двух факторов, а также взаимодействие между этими факторами. При наличии более двух факторов говорят о многофакторном дисперсионном анализе (англ. multifactor ANOVA; не путать с MANOVA - multivariate ANOVA!).

07 апреля 2013

Большое событие - вышла 3-я версия R



3 апреля 2013 г. была опубликована новая версия R - v3.0.0. Завершение цикла версий 2.х не означает каких-либо глобальных изменений в языке R - просто разработчики решили таким образом зафиксировать текущее состояние ядра языка. Тем не менее, новая версия, конечно, включает и некоторые существенные изменения, из которых наиболее важным называют реализацию возможности работы с "длинными векторами" (т.е. векторами длиной > 2^31). Эта новая опция весьма актуальна для анализа "больших данных", с которыми исследователи сталкиваются в таких областях, как биоинформатика, метеорология, анализ данных, генерируемых мобильными устройствами, анализ социальных сетей, анализ биржевых данных, и т.п. В соответствии с этим нововведением, на 64-битных машинах больше не будет ограничений на размер оперативной памяти, используемой R. С полным перечнем обновлений, представленных в R 3.0.0, можно ознакомиться здесь.

Важный момент: если вы решите обновить R путем инсталляции поверх более старой версии системы, все дополнительные пакеты также придется переуставить заново. Это можно сделать при  помощи команды update.packages(checkBuilt = TRUE, ask = F)