24 июля 2011

Импортирование данных в R



В предыдущих сообщениях было рассмотрено, как, работая непосредственно в системе R, можно создать небольшие по объему объекты для хранения данных (векторы, матрицы, списки, таблицы данных). Следует отметить, однако, что возможности системы R по вводу и редактированию данных умышленно ограничены ее создателями, которые предполагали, что для этого будут использоваться другие средства (например, программа Microsoft Excel). Поэтому подлежащие анализу объемные таблицы данных обычно подготавливаются при помощи сторонних приложений, и только потом загружаются в рабочую среду R из внешних файлов. Хотя предпочтение при этом отдается текстовым файлам, с сайта CRAN можно скачать специальную библиотеку foreign, функции которой позволяют импортировать таблицы, сохраненные во множестве других распространенных форматов (Excel, SPSS, SAS, STATA, Acces, Matlab, SQL, Oracle, и т.п.; см. также руководство R Data Import/Export).



23 июля 2011

Объекты и типы данных R: таблицы данных



Таблица данных (data frame) представляет собой объект R, по структуре напоминающий лист электронной таблицы Microsoft Excel. Каждый столбец таблицы является вектором, содержащим данные определенного типа. При этом действует правило, согласно которому все столбцы должны иметь одинаковую длину (собственно, с "точки зрения" R таблица данных является частным случаем списка, в котором все компоненты-векторы имеют одинаковый размер). Часто на практике некоторые значения в таблице отсутствуют, что может быть обусловлено множеством причин: на момент измерения прибор вышел из строя, по невнимательности персонала измерение не было занесено в протокол исследования, испытуемый отказался отвечать на определенный вопрос(ы) в анкете, была утеряна проба, и т.п. Ячейки с такими отсутствующими значениями (missing values) в таблицах данных R не могут быть просто пустыми – иначе столбцы таблицы окажутся разной длины. Для обозначения отсутствующих наблюдений в языке R имеется специальное значение – NA (not available – не доступно).


18 июля 2011

Объекты и типы данных R: факторы



В статистике данные очень часто группируют в соответствии с тем или иным признаком, например, полом, социальным положением, стадией болезни, местом отбора проб и т.п. В R существует специальный класс векторов - факторы (factors), которые предназначены для хранения кодов соответствующих уровней номинальных признаков. Часто уровни факторов кодируют в виде чисел. В таких случаях очень важно "проинструктировать" программу так, чтобы она "распознавала" уровни номинальной переменной от чисел как таковых.

13 июля 2011

Объекты и типы данных R: списки



В отличие от вектора или матрицы, которые могут содержать данные только одного типа, в список (list) можно включать сочетания любых типов данных. Это позволяет эффективно, т.е. в одном объекте, хранить разнородную информацию. В частности, результаты большинства статистических анализов в программе R хранятся в объектах-списках, которые содержат текстовые значения и числа.

10 июля 2011

Объекты и типы данных R: матрицы



Матрица (matrix) представляет собой двумерную совокупность числовых, логических или текстовых величин. В свою очередь массив (array) – это совокупность некоторых однотипных элементов, обладающая размерностью больше двух. 

В R матрицу можно легко создать при помощи одноименной функции matrix(). В состав основных аргументов этой функции входят преобразуемый в матрицу вектор, а также параметры, определяющие количество строк (nrow – от number of rows) и столбцов (ncol – от number of columns). Так, для создания матрицы my.mat из четырех строк и четырех столбцов, содержащей совокупность чисел от 1 до 16, необходимо выполнить следующую команду: