30 июня 2012

Протокол разведочного анализа данных: выявление коллинеарности



Когда цель анализа заключается в нахождении переменных (предикторов), определяющих значения зависимой переменной, важным этапом разведочного анализа данных является обнаружение коллинеарности (Zuur et al. 2010). Под коллинеарностью (англ. collinearity) понимают наличие линейной зависимости между двумя предикторами. В задачах с несколькими предикторами (например, при выполнении множественного регрессионного анализа) говорят также о мультиколлинеарности (англ. multicollinearity), т.е. наличии линейной зависимости между несколькими переменными. Наличие мультиколлинеарности приводит к неустойчивости оценок параметров статистической модели, что выражается, в частности, в повышенной дисперсии этих оценок. Как результат, исследователь может столкнуться с "парадоксальной" ситуацией, когда, например, все коэффициенты множественной регрессионной модели статистически незначимы, тогда как сама модель оказывается значимой (т.е. проверяемая при помощи F-теста гипотеза о равенстве всех коэффициентов нулю отвергается).

22 июня 2012

Протокол разведочного анализа данных: выявление избыточного количества нулевых значений



Важным этапом разведочного анализа данных является обнаружение "избыточного" количества нулевых значений (Zuur et al. 2010). Данные, включающие большое количество нулей, весьма обычны, например, в экологических исследованиях, когда исследователь оценивает численность популяции того или иного вида. Особи одной популяции редко респределены в пространстве равномерно - чаще они образуют скопления в силу, например, неоднородности распределения необходимых им факторов среды или для повышения выживаемости. Обследуя территорию, на которой обитает популяций с таким типом пространственного распределения, исследователь в большинстве случаев не встретит ни одной особи изучаемого вида, реже ему попадутся единичные особи, и лишь иногда - большие скопления особей.

14 июня 2012

Протокол разведочного анализа данных: проверка на нормальность распределения



Подчиняются ли анализируемые количественные переменные закону нормального распределения вероятностей? Очень многие статистические методы предполагают положительный ответ на этот вопрос (Zuur et al. 2010), и поэтому проверка исследуемых переменных на нормальность распределения является важной составной частью разведочного анализа данных.

Проверяя условие нормальности распределения данных, необходимо, однако, хорошо представлять себе, в каких случаях его выполнение является критическим для применения конкретного статистического метода. Так, например, метод главных компонент (Principle Components Analysis, PCA) не требует, чтобы данные были распределены нормально (Joliffe 2002). Линейная регрессия (Linear Regression) хотя и предполагает нормальность распределения зависимой переменной, является достаточно робастным методом при незначительных отклонениях от этого условия (Fitzmaurice et al. 2004). В то же время для успешного применения дискриминантного анализа (Discriminant Analysis) нормальность распределениях признаков в каждой группе классифицируемых объектов - условие обязательное (Huberty 1994).

02 июня 2012

Протокол разведочного анализа данных: проверка однородности групповых дисперсий



В этом сообщении я продолжаю начатое ранее описание протокола разведочного анализа данных. Авторы оригинальной статьи, в которой изложен этот протокол (Zuur et al. 2010), рекомендуют на втором этапе разведочного анализа проверить условие однородности дисперсии (англ. вариант термина - "homogeneity of variance").

Однородность групповых дисперсий является важным условием применимости дисперсионного анализа (ANOVA) и других линейных моделей регрессионного типа, а также ряда методов многомерной статистики (например, дискриминантного анализа). На Рисунке 1 приведены категоризованные диаграммы размахов для значений интенсивности потребления пищи канадским веретенником - птицы из семейства бекасовых (Zuur et al. 2010). Если бы стояла задача применить параметрический дисперсионный анализ для установления эффектов пола и периода наблюдений на интенсивность потребления пищи веретенником (а также взаимодействия между этими двумя факторами), то должны были бы выполняться следующие условия: