06 мая 2018

Обзор интересных R-пакетов за апрель 2018 г.






28 апреля 2018

Интервальное оценивание параметров распределения



Автор: Владимир Шитиков

Два подхода к оценке доверительных интервалов 

Одна из главных задач статистической обработки заключается в оценке по выборочным данным таких параметров наблюдаемой случайной величины, как центр положения \(m\), интенсивность разброса \(s\) или форма кривой плотности распределения эмпирических частот. Для этого часто используется параметрический подход, который предполагает приближенную аппроксимацию эмпирического распределения наиболее подходящим теоретическим распределением (нормальным, логнормальным, биномиальным, гипергеометрическим или иным).



01 апреля 2018

Эмпирические функции распределения и их сравнение



Автор: Владимир Шитиков

Введение

Пусть изучаемая случайная величина \(\boldsymbol{X}\) распределена по неизвестному закону. Тогда по репрезентативной выборке \(X\) объемом \(n\) можно построить две эмпирические функции распределения:  функцию плотности вероятности PDF (Probability Density Function) и кумулятивную функцию распределения CDF (Cumulative Distribution Function). Если методы построения PDF широко распространены и легко реализуются в R в форме ядерной функции сглаживания density(), то построение и анализ кумулятивных кривых распределения имеет ряд характерных особенностей, обсуждаемых ниже.



03 марта 2018

Работа с пакетом MuMIn. Часть 2: Объединение моделей для получения коллективного решения



Автор: Владимир Шитиков

Методы обобщения моделей и прогнозов

По аналогии с коллективными методами принятия решений, столь эффективно используемыми в человеческом обществе, принято считать, что суммарная эффективность любой мультимодельной системы распознавания или прогнозирования теоретически будет в среднем выше отдельных ее членов. Поэтому в последние несколько десятилетий активно разрабатывались возможные подходы к тому, как построить на одних и тех же исходных данных некоторый "коллектив" (ensemble) частных одно- или разнотипных моделей и выполнить их обобщение (averaging) с целью получить более обоснованное комбинированное решение (forecast combinations, или multimodel inference).




14 января 2018

Работа с пакетом MuMIn. Часть 1: Селекция моделей



Автор: Владимир Шитиков

Введение

Современные исследования приобретают все более и более обобщающий и стратегический характер, а глубокая стратегия никогда не ограничивается рассмотрением какой-то одной идеи, гипотезы или модели. Принцип "множественности моделей", сформулированный еще в 1890 г. Т. Чемберленом, предполагает формирование набора альтернативных научных гипотез \(H_1, H_2, \dots, H_r\), для каждой из которых подбирается адекватная математическая модель. В итоге вместо того, чтобы находить по Фишеру соотношение вероятностей основной и нулевой гипотез \(H_0 | H_1\), оценивается относительная сила обоснованности (strength of evidence) каждой из рассматриваемых гипотетических моделей \(g_1, g_2, \dots, g_r\). Эта новая парадигма оформилась в современную методологию "Model selection and Multimodel inference" (Burnham, Anderson, 2002), которая базируется на основных принципах теории информации Кульбака-Лейблера (Kullback-Leibler, 1951) и включает ранжирование моделей с последующим формированием статистического вывода на основе этих нескольких моделей. 

Пакет MuMIn (от "Multi-Model Inference"), разработанный К. Бартоном, содержит набор функций, которые, используя информационные критерии, реализуют ранжирование и отбор статистических моделей различного типа и их последующее обобщение (model averaging) с целью получения коллективного решения. Ансамбль \(G_r\) моделей, включаемых в анализ, может формироваться либо автоматически (например, как все возможные комбинации подмножеств предикторов заданной "глобальной" модели), либо задается исследователем в виде набора конкретных моделей (т.е. математически выраженных гипотез, нуждающихся в проверке). Для всех анализируемых моделей выполняется подгонка их коэффициентов по эмпирическим наборам данных и рассчитываются основные статистики и информационные критерии \(IC\) качества аппроксимации. Полный список из \(r\) моделей сортируют по уменьшению адекватности на основе заданного \(IC\) и устанавливают порог, согласно которому некоторое количество "оптимальных" моделей далее будет использовано для формирования окончательного коллективного решения. Такие коллективные решения могут быть получены с использованием как традиционных взвешенных средних, так и других специальных алгоритмов (метод Бейтса-Гренджера, бутстреп, метод "складного ножа", адаптивная регрессия и др.). 

В этой статье мы рассмотрим первую часть описанной процедуры, т.е. построение ранжированного списка моделей на основе информационных критериев с использованием пакета MuMIn.