20 июля 2012

Протокол разведочного анализа данных: выявление взаимосвязи между значениями анализируемой переменной



Одним из важнейших условий применимости большинства статистических методов является отсутствие взаимосвязи между значениями анализируемой переменной (Zuur et al. 2010). В то же время ситуации, когда это условие не выполняется, встречаются очень часто. Так, при проведении социологических опросов велика вероятность, что ответы жителей одного города будут схожи, но в среднем окажутся отличными от ответов жителей другого города. В ходе экологических исследований может выясниться значительное сходство особей по какому-либо праметру внутри одной популяции, но существенные различия по этому параметру между популяциями того же вида. Примеров такого рода существует очень много, и поэтому выявлению корреляции между значениями исследуемых переменных следует уделять должное внимание на стадии разведочного анализа данных. Игнорирование зависимости между значениями той или иной переменной может значительно повысить вероятность ошибки первого рода (например, при выполнении регрессионного анализа эта ошибка может возрастать до 400% - см. Ostrom 1990).

13 июля 2012

Протокол разведочного анализа данных: выявление взаимодействий между предикторами



В первом сообщении, посвященном разведочному анализу данных, я приводил пример точечной диаграммы Кливленда, построенной по данным о длине крыла воробьев (пример заимствован из статьи Zuur et al. 2010). Эти данные (доступны для скачивания здесь) включают также информацию о весе и половой принадлежности птиц, а также сведения о времени проведения измерений (месяцы, с мая по сентябрь). Один из возможных вопросов, который исследователь мог бы задать в отношении этих данных, звучит так: различаются ли сила и направление связи между длиной крыла и весом воробьев в зависимости от их пола и времени проведения измерений? Иными словами, имеется ли взаимодействие между предикторами длины крыла - весом, полом и временем года?

08 июля 2012

Протокол разведочного анализа данных: выявление характера связи между переменными



Один из важных этапов разведочного анализа данных заключается в выявлении характера связи между анализируемыми переменными (Zuur et al. 2010). Обнаруженные на этом этапе закономерности будут определять, например, выбор статистической модели для описания данных, необходимость преобразования нелинейно связанных переменных, и т.д.

Характер связи между переменными проще всего выявить, используя соответствующие ситуации графические средства. Так, при анализе нескольких количественных переменных очень удобным инструментом являются матричные диаграммы рассеяния (англ. scatterplot matrices), или парные диаграммы рассеяния (англ. pair plots). В качестве примера рассмотрим данные из таблицы mtcars (эти данные уже были использованы в одном из предыдущих сообщений). Для простоты будем работать только с первыми семью количественными параметрами, описывающими разные модели автомобилей.