Агрегирование данных (команда AGGREGATE)
Агрегирование данных (команда AGGREGATE)
Нередко на основе собранных данных необходимо получить статистические сведения об укрупненных объектах. Для этого на базе исходной матрицы создается и обрабатывается статистическим пакетом новая матрица данных.
Пример. На Рисунок 2.3 приведены данные анкетного обследовании рабочих нескольких заводов. Объекты - информация о рабочих. В данных содержится в виде переменной номер завода и номер цеха, в котором трудится респондент. На основе собранных данных вычисляется новый массив информации, в котором объектами являются цеха, признаками - статистические сведения по цехам, например, доля мужчин в цехе (в %), средний возраст и т.д. Соотношение двух массивов информации приведено на Рисунок 2.3.
Новую матрицу агрегированных данных, организованную по тому же принципу "объект-признак", что и исходная матрица, можно получить с помощью команды AGGREGATE.
AGGREGATE /OUTFILE = 'ZECH.SPS'/BREAK ZAVOD ZECH
/PERCM = PLT(POL,2) /SRWOZR=MEAN(WOZR).
Основной способ употребления команды: подкомандой /OUTFILE указывается имя выходного файла; подкомандой /BREAK назначаются переменные "разрыва" файла данных, которыми определяются агрегируемые группы объектов. Далее записываются разделенные слэша ми "/" имена новых переменных и функции (статистики) которыми агрегируются исходные переменные, например:
Z9 "средний возраст"= MEAN(V9)/PM=PLT(V8,2).
Перед именем функции агрегирования знак равенства "=" ОБЯЗАТЕЛЕН. В списке допускается указание нескольких переменных для одной функции, в списках переменных можно использовать ключевое слово TO ( Z9 Z14= MEAN(V9 V14)/d1 to d6 = pgt(d1 to d6,0)). Число переменных в аргументе функции должно совпадать с числом новых переменных.
Анализ связи между неколичественными переменными. CROSSTABS - таблицы сопряженности
3.2 Анализ связи между неколичественными переменными. CROSSTABS - таблицы сопряженности
CROSSTABS получает таблицы сопряженности многомерных распределений и связей двух и более переменных. Рекомендуется использовать CROSSTABS для переменных с небольшим числом значений (обычно для неколичественных переменных), так как каждая комбинация значений соответствует новой клетке в таблице.
CROSSTABS /TABLES= v1 v2 BY v10 BY pol.
Таблицы сопряженности для пары переменных X и Y содержат частоты Nij, с которыми встретилось сочетание i-го значения X и j-го значения Y. Кроме того, в таблице обязательно присутствуют маргинальные частоты Ni.- равные сумме чисел Nij по строке; N.j - сумме по столбцу (частоты i-го значения X и j-го значения Y, подсчитанные независимо) и N - общее число объектов.
Таблица, заполненная одними частотами Nij, обычно не имеет смысла, так как не проясняет должным образом взаимосвязи между переменными. Для исследования взаимосвязи необходимы статистики взаимосвязи переменных и статистики связи значений.
Основные подкоманды CROSSTABS:
/TABLES - задание таблиц;
/CELLS - статистики клеток таблицы;
/STATISTICS - статистики взаимосвязи переменных.
/METHOD - метод проверки значимости связи переменных.
/BARCHART - столбиковая диаграмма.
Анкетные данные
1.1. Анкетные данные
В большинстве социологических исследований анализируется анкетная информация. Условно эти данные можно представить в виде матрицы, строкам которой соответствуют объекты (анкеты), а столбцам - признаки (отдельные вопросы и подвопросы анкеты). Синонимом слова "признак" является слово "переменная", в дальнейшем мы будем употреблять эти термины равноправно.
В современных статистических пакетах такую информацию принято представлять в виде таблицы. Обычно обрабатывается один файл данных, визуально это напоминает таблицу Excel (один лист).
При кодировании информации удобно пользоваться определенными правилами заполнения матрицы в соответствии со структурой обрабатываемой анкеты.
CELLS
CELLS
Параметр CELLS задает вывод некоторых статистик (см. ключевые слова параметра CELLS) для клеток таблицы сопряженности. "CELLS" переводится как "клетка". Если этот параметр не указан, то в клетках таблицы выводятся только абсолютные частоты.
CROSSTABS V1 BY V4 /CELLS = COUNT ROW COLUMN.
Параметры подкоманды /CELLS
COUNT - абсолютное число объектов (Nij);
ROW - проценты по строке;
COLUMN - проценты по столбцу;
TOTAL - проценты по отношению ко всей выборке;
EXPECTED - частоты (Eij=Ni.*N.j/N), ожидаемые в случае независимости переменных (N – общая сумма частот в таблице);
RESID - изменение частоты по сравнению с ожидаемым (Nij-Eij);
SRESID - стандартизованное изменение частоты по сравнению с ожидаемым (Nij-Eij)/
(корень из слагаемого статистики Хи-квадрат, вычисляемой для проверки гипотезы независимости);ASRESID - стандартизованное к нормальному распределению N(0,1) изменение частоты Zij=(Nij-Eij)/?ij;
ALL - вывод для клетки всех статистик;
CELLS статистики смещения частот
CELLS статистики смещения частот
Реализованные в параметре CELLS статистики позволяют провести более сложный анализ связи переменных. Например, в таблице 3.4 можно увидеть, что среди считающих, что иностранная помощь не нужна, 12% готовы отдать острова Японии, а среди считающих, что помощь нужна - их 37%. В то же время, в целом по совокупности 15% готовы передать острова. Существенны ли отличия от долей в целом по совокупности на 3% и 22%? Может ли в следующем обследовании связь оказаться противоположной? Основой для исследования смещения выборки от истинного распределения служат значения, ожидаемые в случае независимости выборки. Подпараметр EXPECTED параметра CELLS позволяет вывести в клетках абсолютные значения частот (Nij), ожидаемых в случае независимости соответствующих клетке значений переменных. Отклонение (Nij-Eij) наблюдаемой частоты от ожидаемой - более удобная величина для анализа: она достаточно наглядна, но неясно, насколько она статистически значима.
Более полезна статистика Zij=(Nij-Eij)/?ij - стандартизованное смещение частоты; Zij выдается в клетке при указании подпараметра ASRESID (Adjusted residuals). Иными словами, Zij представляет собой отклонение наблюдаемой частоты от ожидаемой, измеренное в числе стандартных отклонений. При этом стандартное отклонение вычисляется исходя из предположения, что Nij это случайная величина, имеющая гипергеометрическое распределение:
Если переменные независимы, то, при больших N, случайная величина Zij имеет нормальное распределение с параметрами (0,1). Для нее практически невероятно отклонение, большее трех стандартных отклонений, т.к. вероятность такого значения составляет менее 0.0027 (правило "трех сигм"). Поэтому, если мы получаем значение Zij, превышающее 3, то можем считать, что i-ое значение и j-ое значения X и Y связаны. На практике нередко, когда анализируетсся единственная клетка таблицы, выставляются более слабые требования. Существенными считаются односторонние отклонения, которые превышают 1,65?ij - вероятность их получения составляет 5%.
Таким образом, начиная с отклонения 1,65?ij и большего, можно уже высказывать гипотезу о существовании связи между значениями (см. таблицу нормального распределения в любом статистическоим справочнике). Эмпирическим критерием, когда распределение Zij близким к нормальному, следует считать является соотношение для дисперсии
Следует заметить, что в действительности мы имеем дело с множеством статистик значимости и, при переборе их, велика вероятность случайно получить их значения, превышающие указанные пороги. Если бы клетки были независимы, при критическом значении статистики Zij, равном 1.96 (5% уровень значимости) мы в среднем в условиях независимости данных находили бы 5 "значимых" из 100 клеток таблицы, а хотя бы одну статистику, Zij>1.96 мы можем получить с вероятностью (1-0.95100)=0.! Поэтому сложившаяся практика руководствоваться отклонением 1.65?ij оберегает нас только от грубейших ошибок.
Частные корреляции.
Частные корреляции.
Пусть имеются переменные X, Y, Z. Что, если взаимосвязь между переменными X и Y обусловлена некоторой другой переменной Z. Mожет быть она проявляется при условии этой переменной?
Для исследования этого вопроса применяется коэффициент частной корреляции. Вообще говоря, коэффициент корреляции X и Y должен зависеть от значений Z, однако известно, что в многомерной нормальной совокупности такой зависмости нет. Поэтому статистическая теория здесь разработана именно для такого случая. На практике весьма сложно доказать многомерную нормальность и часто эту технику используют для анализа данных, не имеющих слишком большие перекосы.
Не вдаваясь в подробности вычисления, коэффициент ранговой корреляции можно представить как коэффициент корреляции регрессионных остатков e x и e y уравнений
X=ax+bx*Z+e x
Y=ay+by*Z+e y
Таким образом, снимается часть зависимости, обусловленная третьей переменной, проявляется "чистая" взаимосвязь X и Y. Уравнению регрессии мы посвятим в дальнейшем специальный раздел. Здесь мы прведем пример задания частной корреляции.
Время, затраченное на покупки, и время на мытье посуды, оказывается, связаны положительно - чем больше человек тратит его на покупки, тем больше на посуду (таблица 4.16, RLMS, 7 волна). Может быть, это определяется тем, что человек вообще занимается домашней работой? Для проверки этого возьмем в качестве управляющей переменной время на уборку квартиры … и получим таблицу 4.17. Оказалось, что эта связь между временными затратами на покупку продуктов и мытье посуды имеет самостоятельный смысл, так как частная корреляция по-прежнему значима, хотя уменьшилась с 0.320 до 0.256.
Compare Means - простые параметрические методы сравнения средних.
4.3. Compare Means - простые параметрические методы сравнения средних.
Параметрические методы при формулировании нулевых гипотез о равенстве средних предполагают нормальность распределения анализируемых переменных или остатков в моделях дисперсионного анализа, сравнения групп и т.д. Это условие при анализе анкетной информации выполняется весьма редко. Вероятно, наиболее удобны для такого анализа переменные, полученные усреднением множества независимых случайных величин: по центральной предельной теореме такие переменные должны иметь близкое к нормальному распределение.
На практике нередко для больших совокупностей эти методы все-же используются и для другого рода распределений, если распределение "не слишком сильно" отклоняется от нормального. "Не слишком сильно" - неопределенное понятие, обычно это определяется визуально при рассмотрении гистограммы распределения.
Взгляните, например, на распределение населения по душевому доходу - Рисунок 4.1. Распределение имеет длинный хвост в направлении больших доходов, нормальная кривая недостаточно хорошо огибает гистограмму. Если использовать вместо этой переменной логарифм доходов:
compute lnv14=ln(v14).
получаем более приемлемое распределение (см.Рисунок 4.2).
Основные формулы и идеи параметрических методов анализа средних и дисперсий рассматриваются в курсе математической статистики; и здесь, по ходу изложения материала, мы коротко напомним отдельные моменты этой теории.
DESCRIPTIVES - описательные статистики
DESCRIPTIVES - описательные статистики
Если команда Frequencies получает описательные статистики "попутно", то DESCRIPTIVES специально для этого предназначена.
DESCRIPTIVES VAR = V9 V14/ SAVE /STATISTICS=MEAN MIN MAX.
Синтаксис: указывается список переменных, список необходимых статистик, подкоманда сохранения в данных стандартизованных переменных (/save).
Список выдаваемых статистик здесь значительно меньше, чем в командем Frequencies: MEAN MIN SKEWNESS STDDEV SEMEAN MAX KURTOSIS VARIANCE SUM RANGE.
Стандартизованные переменные. Иногда возникает необходимость рассматривать нормированную переменную:
, где S - cтандартное отклонение .Например: мы имеем данные по заработной плате за два последних года. На основании этих данных необходимо определить, в каком социальном слое находятся респонденты. Это затруднительно сделать, поскольку существенно изменился масштаб цен. Для сравнения преобразуем к стандартному виду данные по каждому году, что позволит нам проводить сравнительный анализ для определенных социальных слоев. Такой подход не учитывает всех факторов, но это реальный шаг в исследовании.
Стандартизованные переменные можно получить, указав в скобках за переменной имя новой, стандартизованной, переменной:
DESCRIPTIVES VAR V14(Z14) V9(Z9).
Или используя подкоманду SAVE. В этом случае имена новых переменных образуются следующим образом: к имени переменной добавляется слева Z.
Например,
DESCRIPTIVES VAR= V9 V14/SAVE.
Новым переменным пакет присвоит имена ZV9 и ZV14.
Напомним, что более разнообразные нормирования переменных можно получить командой RANK.
С помощью этой команды можно ранжировать значения переменной, перекодировать переменную с целью получения нормального распределения, получать процентили и др.
Душевой доход любителей сладкого и жилье. Одновременное сравнение средних по строкам таблицы.
Душевой доход любителей сладкого и жилье. Одновременное сравнение средних по строкам таблицы.
Насколько отличаются доходы потребителей сладкого внутри групп по-разному обеспеченных жильем - имеющих квартиру, свой дом, часть квартиры и др.?
Для выяснения этого изучим средние логарифмы доходов (вспомним, что для получения устойчивых результатов в таких исследованиях лучше использовать логарифм дохода).
Из таблицы 3.15. видно, что обладатели отдельных квартир - самые богатые, отдельного дома - чуть победнее (скорее всего это обитатели городских окраин), а те, кто имеет часть дома или квартиры - самые бедные. У них разные условия существования и полезно изучить эти группы по отдельности. Это значит, что смещение средних в клетках таблицы нужно рассмотреть не по отношению к общему среднему (5.6), а по отношению к итогам по строкам (например, существенно ли выделяются по доходам среди обитателей домов (средний логарифм дохода равен 5.5) любители мороженого (средний логарифм дохода равен 5.9)).
Двухвыборочный критерий знаков (Sign)
5.4.1. Двухвыборочный критерий знаков (Sign)
Для исследования связи пары измерений Х и Y рассматриваются знаки разностей di=Yi-Xi. В случае независимости измерений и отсутствии повторов значений di (связей) число знаков "+" (положительных di) должно подчиняться биномиальному распределению с параметром p=0.5. Именно эта гипотеза и проверяется с помощью статистики критерия - стандартизованной частоты положительных разностей.
В качестве примера по данным RLMS проверим, какой характер имели изменения веса (кг) мужчин старше 30 лет в 1994-95 гг.
COMPUTE filter_$=(a_age < 30 & ah5_1 = 1).
FILTER BY filter_$.
NPAR TEST / SIGN= am1 WITH bm1 (PAIRED).
Двухвыборочный t-тест для связанных выборок (Paired sample T-TEST)
двухвыборочный t-тест для связанных выборок (Paired sample T-TEST)
Если на одних и тех же объектах дважды измеряется некоторое свойство, то проверка значимости различия средних по измеренным переменным - для этого теста. Пример задания команды:
T-TEST PAIRS= x WITH y (PAIRED) /CRITERIA=CIN(.95).
Переменные X и Y могут быть характеристиками мужа и жены при исследовании семей; по данным RLMS - измерениями, связанными с потреблением напитков в 1996 и 1998 году и т.п. Поэтому данная процедура полезна для анализа панельных данных.
Почему же здесь нельзя воспользоваться таким же анализом, как и для двух несвязанных выборок, считая, что имеются две выборки одинакового объема?
Проверка значимости различия матожиданий X и Y эквивалентна проверке гипотезы о равенстве нулю математического ожидания разности X-Y. Дисперсия разности X-Y равна D(X-Y)=D(X)+D(Y)-2cov(X,Y). Отсюда точность оценки матожидани Х-Y связана с ковариацией X и Y.
Поэтому наряду с соответствующей статистикой в выдачу по этому тесту входит и коэффициент корреляции этих переменных и наблюдаемая значимость.
Для примера взгляните на выдачу, в которой сравниваются вес 1995 и 1996 г. женщин от 30 до 40 лет (в 1995), таблицы 4.5-7, данные RLMS.
Двухвыборочный t-тест (independent sample T-TEST)
двухвыборочный t-тест (independent sample T-TEST)
Вариант команды для выполнения процедуры T-TEST для сравнения средних в двух выборках имеет следующий вид:
T-TEST/GROUPS V4(1,3)/VARIABLES = V9 lnV14m.
Подкоманда GROUPS указывает переменную группирования; в скобках задаются два значения этой переменной, определяющие группы. Например, приведенная команда будет выполняться только для групп объектов, у которых V4 принимает указанные значения 1 и 3. VARIABLES задает сравниваемые (зависимые) переменные для выделенных групп объектов. Объекты можно также разбить на две группы, указав в параметре GROUPS одно значение:
T-TEST /GRO v9(30)/VAR V9 lnV14m.
В этом случае вся совокупность будет разделена на те объекты, на которых указанная переменная не больше заданного значения (v9? 30), и те, у которых она больше (v9>30).
Процедурой T-TEST проверяется гипотеза равенства средних, при этом предполагается нормальность распределения генеральной совокупности. Процедура подсчитывает средние для пары групп, стандартные ошибки, статистики и их значимость. При сравнении двух выборок нас интересует, насколько случайный характер носит различие средних - отличаются ли они значимо?
В зависимости от предположения о равенстве дисперсий испльзуются разные варианты t-статистик.
Если не предполагается равенство дисперсий в группах, то для сравнения средних принято использовать статистику
, которая в условиях гипотезы равенства матожиданий и нормальности X имеет распределение Стьюдента, число степеней которого оценивается на основе оценок дисперсий.Если заранее известно о равенстве дисперсий в группах, то предпочтительнее статистика
.При определении ее величины предварительно вычисляется объединенная дисперсия
.Из теории известно, что при условии равенства дисперсий вычисляемая величина Sp есть несмещенная оценка дисперсии, и статистика t также имеет распределение Стьюдента.
Для проверки равенства дисперсий используется статистики Ливиня, имеющая распределение Фишера.
Двусторонней наблюдаемой значимостью, вычисляемой процедурой T-TEST, является вероятность случайно получить различия средних, такие, что ¦t-теоретическое¦>¦t-выборочного¦. Если значимость близка к 0, делаем вывод о неслучайном характере различий.
Результат выдается в двух таблицах. В первой размещены средние и характеристики разброса в группах, во второй - результаты их сравнения.
Двухвыборочный тест Колмогорова-Смирнова
5.2.1. Двухвыборочный тест Колмогорова-Смирнова
Двухвыборочный тест Колмогорова-Смирнова предназначен для проверки гипотезы о совпадении распределений в паре выборок:
NPAR TESTS K-S=V14 BY V4(1,3).
В команде за ключевым словом K-S следует тестируемая переменная (в нашем примере - V14), за ней после слова BY указываются сравниваемые группы - переменная, определяющая эти группы, и соответствующие этим группам значения: V4(1,3).
Статистика критерия - абсолютная величина разности эмпирических функций распределения в указанных выборках:
, где N1 и N2 - объемы выборок.В листинге выдается статистика критерия Z=ks двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики.
Пример: сравнение распределений доходов групп готовых отдать острова или их часть и придерживающихся твердой позиции:
recode v4(1,2=1)(3=2) into W4.
Var lab W4 "отношение к передаче островов".
Val lab 1 "Отдать" 2 "нет".
npar test k-s=v14 by w4(1,2).
Двухвыборочный тест Манна-Уитни (Mann-Witney)-
5.3.1. Двухвыборочный тест Манна-Уитни (Mann-Witney)-
Критерий предназначен для сравнения распределений переменных в двух группах на основе сравнения рангов.
NPAR TESTS M-W = V14 BY Tp(1,4).
Задание теста аналогично заданию критерия Колмогорова-Смирнова (вместо ключевого слова K-S используется слово M-W).
Статистикой критерия, является сумма рангов объектов в меньшей группе, хотя существует пара эквивалентных формул, обозначаемых U и W. Можно также считать, что критерием является средний ранг в указанной группе. Если он значительно отклоняется от ожидаемой величины (N+1)/2 (или средние ранги в группах существенно различны) - обнаруживается отличие распределений.
Если гипотеза о совпадении распределений не отвергается, то это означает близость средних рангов в группах, не гарантируется совпадение распределений не гарантируется.
Авторам теста удалось показать асимптотическую нормальность статистики в условиях выборки групп из одной совокупности, на основе чего отыскивается наблюдаемая значимость критерия - вероятность случайно отклониться от среднего (ожидаемого) значения ранга больше, чем отклонилось выборочное значение статистики.
В выдаче распечатывается значения статистик U и W, а также двусторонняя значимость критерия.
Пример. Используя ранговый критерий, требуется сравнить по возрасту группу считающих, что острова нужно отдать по юридическим причинам, и группу имеющих иное мнение.
count d2 = v6s1 to v6s8 (2).
if (d2>0) wd2=1.
If (v4=1 or v4=2) wd2 = 2.
npar test m-w=v9 by wd2(1,3).
По величине двусторонней значимости можем сделать вывод, что тест Манна-Уитни в указанных группах не обнаружил существенных различий между распределениями по возрасту (таблицы 5.10-11).
Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
Ранжируются абсолютные величины разностей di=Yi-Xi. Затем рассматривается сумма рангов положительных и сумма рангов отрицательных разностей. Если связь между X и Y отсутствует и распределение одинаково, то эти две суммы должны быть примерно равны. Статистика критерия - стандартизованная разность этих сумм.
По сути, это проверка, не произошло ли между измерениями событие, существенно изменившее иерархию объектов?
Обратимся к предыдущему примеру, но проверим, будет ли преобладать отрицательный ранг изменения веса мужчин старше 30 лет?
NPAR TEST /WILCOXON=am1 WITH bm1 (PAIRED).
Факторный анализ
7.1. Факторный анализ
Идея метода состоит в сжатии матрицы признаков в матрицу с меньшим числом переменных, сохраняющую почти ту же самую информацию, что и исходная матрица. В основе моделей факторного анализа лежит гипотеза, что наблюдаемые переменные являются косвенными проявлениями небольшого числа скрытых (латентных) факторов. Хотя такую идею можно приписать многим методам анализа данных, обычно под моделью факторного анализа понимают представление исходных переменных в виде линейной комбинации факторов.
Факторы F построены так, чтобы наилучшим способом (с минимальной погрешностью) представить Х. В этой модели "скрытые" переменные Fk называются общими факторами, а переменные Ui специфическими факторами ("специфический" -это лишь один из переводов применяемого в англоязычной литературе слова Unique, в отечественной литературе в качестве определения Ui встречаются также слова "характерный", "уникальный"). Значения aik называются факторными нагрузками.
Обычно (хотя и не всегда) предполагается, что Xi стандартизованы (
=1, Xi=0), а факторы F1,F2,…,Fm независимы и не связаны со специфическими факторами Ui (хотя существуют модели, выполненные в других предположениях). Предполагается также, что факторы Fi стандартизованы.В этих условиях факторные нагрузки aik совпадают с коэффициентами корреляции между общими факторами и переменными Xi. Дисперсия Xi раскладывается на сумму квадратов факторных нагрузок и дисперсию специфического фактора:
, гдеВеличина
называется общностью, - специфичностью. Другими словами, общность представляет собой часть дисперсии переменных, объясненную факторами, специфичность - часть не объясненной факторами дисперсии.В соответствии с постановкой задачи, необходимо искать такие факторы, при которых суммарная общность максимальна, а специфичность - минимальна.
FREQUENCIES BARCHART, PIECHART и HISTOGRAM - диаграммы распределения
FREQUENCIES BARCHART, PIECHART и HISTOGRAM - диаграммы распределения
Столбиковая и круговая диаграммы полезны для неколичественных переменных. Гистограмма необходима для графического представления количественных данных. Для ее построения SPSS подбирает интервалы группирования значений переменной и представляет графически частоты или доли числа объектов, попавших в соответствующие интервалы. К сожалению, принцип определения числа интервалов в документации SPSS не описан. В синтаксисе можно задавать интервал значений, для которых выдается гистограмма, см. Рисунок 3.2, на котором представлен график, полученный командой:
FREQUENCIES VARIABLES = V9/ HISTOGRAM min(30), max(50).
FREQUENCIES NTILES, percentiles - процентили
FREQUENCIES NTILES, percentiles - процентили
Подкоманда NTILES задает печать n-тилей - значений переменной, делящих распределение на заданное число групп с равным числом объектов. Следующая команда выдает квинтили по доходу:
FREQUENCIES /VARIABLES=V14 /NTILES=5.
Подкоманда PERCENTILES печатает процентили (процентиль - это квантиль, рассчитанная по доле, указанной в процентах). Процентили являются значениями переменной, отделяющими указанную в процентах долю совокупности объектов. Процентили удобно использовать, если нам нужно разбить значения переменной на интервалы, которые содержали бы определенного размера группы объектов (анкет). Пример: найдем значения дохода, отделяющие 10% выборки, 50% (медиану) и 90%.
FREQUENCIES /VARIABLES= V14 /PERCENTILES 10 50 90.
FREQUENCIES - получение распределений
FREQUENCIES - получение распределений
Эта процедура предназначена для получения одномерных распределений переменных.
Процедура FREQUENCIES позволяет получить самые основные статистические характеристики случайной переменной: перечень значений, принимаемых переменной, и частотное распределение (в числовом виде и в виде процентов), т.е. сколько раз переменная принимала каждое из этих значений. Частотное распределение в зависимости от желания пользователя представляется в виде таблицы и(или) графика(по умолчанию выдается таблица). В процедуре FREQUENCIES также предусмотрен расчет описательных статистик. Пример задания команды:
FREQUENCIES VAR V2 V3S1 TO V3S4 / HISTOGRAM /STATISTICS = MEANS.
Синтаксис: указываются через пробел переменные для табулирования. Допустимы числовые и строковые переменные. Параметры процедуры необязательны и задаются ключевыми словами; ключевые слова разделяются косыми чертами "/". В параметрах могут быть подпараметры.
FREQUENCIES STATISTICS - описанельные статистики
FREQUENCIES STATISTICS - описанельные статистики
Подкоманда позволяет получить одномерные описательные статистики.
FREQUENCIES V1 V2 V4 /STATISTICS DEFAULT.
Ключевые слова:
MEAN - среднее;
SEMEAN - стандартная ошибка среднего;
MEDIAN - медиана(процентиль с 50%)
MODE - мода(наиболее частое значение)
STDDEV - стандартное отклонение;
VARIANCE - дисперсия;
KURTOSIS - эксцесс (пикообразность);
SEKURT - стандартная ошибка эксцесса
SKEWNESS - коэффициент асимметрии (скошенность);
SESKEW - стандартная ошибка коэффициента асимметрии;
RANGE - разброс = (MAX - MIN);
MINIMUM - минимум;
MAXIMUM - максимум;
SUM - сумма всех значений переменной;
ALL - все статистики.
DEFAULTS - по умолчанию МEAN, STDDEV, MIN, MAX.
Для расчета параметра SEMEAN (стандартной ошибки среднего для выборки x1, x2,…, xn) вычисляются следующие статистики:
MEAN
VARIANCE:
- оценка дисперсии;SEMEAN
- оценка стандартной ошибки среднего.Стандартную ошибку можно использовать для оценки доверительного интервала среднего. Напомним, что доверительным интервалом параметра называется интервал со случайными границами, накрывающий значение параметра с заданной (доверительной) вероятностью. В частности, приближенными оценками границ 95% двустороннего доверительного интервала являются значения
(истинное значение среднего с вероятностью 0.95 находится в этих пределах).Если распределение нормально, то в пределах
должно находиться примерно 68% наблюдений совокупности.Скошенность определяется расчетом третьего момента по следующей формуле:
SKEWNESS:
- коэффициент асимметрии.Если полученная величина < 0, то распределение растянуто влево, если > 0, то вправо.
Пикообразность определяется значением четвертого момента:
KURTOSIS:
- эксцесс.
Функции агрегирования
В приведенном ниже списке функций VARS означает список переменных или переменную.
N (VARS) - число объектов, для которых VARS определены;
N - без указания переменных - число объектов в агрегируемой группе;
MIN (VARS) - минимум;
MAX (VARS) - максимум;
SD (VARS) - стандартное отклонение;
PGT (VARS,значение) - процент объектов, у которых переменная имеет значение большее, чем указанное в команде;
PLT (VARS, значение) - процент объектов, у которых переменная имеет значение меньшее, чем указанное в команде;
PIN(VARS, значение1, значение2)- доля объектов, которые находятся в интервале [значение1, значение2];
POUT(VARS, значение1, значение2)- доля объектов, которые находятся вне интервала [значение1, значение2];
FGT (VARS, значение)
FLT (VARS, значение) FIN (VARS, значение1,значение2) FOUT (VARS, значение1,значение2) |
| | | | |
Это доли, но не в процентах; |
FIRST (VARS) - первое значение переменной;
LAST(VARS) - последнее значение переменной.
ЗАДАЧА. Получить на базе исходного агрегированный файл данных по городам (переменная G в файле OCT.SPS). Файл должен содержать переменные:
NG - число опрошенных в городе;
W1 - доля рассчитывающих на свои силы;
W2 - доля отрицательно относящихся к свободным зонам;
W3D1 TO W3D6 - доли по подсказкам на вопрос 3 о причинах не подписания договора;
W4 - доля считающих, что острова нужно отдать;
W8 - доля женщин; W9 - средний возраст;
W10 - доля лиц с высшим образованием;
WR - регион.
Все переменные, кроме W3D1 TO W3D6, могут быть непосредственно получены с использованием функций агрегирования; для формирования переменных W3D1 TO W3D6 придется специально подготовиться, пользуясь командой COUNT.
get file "D:oct.sav".
count d1 = v3s1 to v3s8(1)/ d2 = v3s1 to v3s8(2) / d3 = v3s1 to v3s8(3)
/d4 = v3s1 to v3s8(4) / d5 = v3s1 to v3s8(5) / d6 = v3s1 to v3s8(6).
Aggregate/out="D: aggr.sps"/break g/NG "число опрошенных в городе"=N/
W1 'рассч на св силы'=pin(v1,1,1)/
w2 '% отриц.относящ'=pin(v2,3,4)/w3d1 to w3d6=pgt(d1 to d6,0)/
w4 'мнен: острова отдать'=pin(v4,1,1)/
w8 'доля мужчин'=pin(v8,2,2)/
w9 'средний возраст'=mean(v9)/
w10 'доля с высшим образованием'=pin(v10,1,1)/
wr = first(r).
В новом файле будут созданы переменные W1 W2 W3D1 W3D2 W3D3 W3D4 W3D5 W3D6 W4 W8 W9 W10 WR. Так как после выполнения агрегирования остается активным исходный файл, чтобы начать работу с вновь созданным файлом необходимо вызвать его командой GET.
По данным нового файла можно, например, командой MEANS вычислить средние по регионам:
MEAN W3D1 TO W3D6 BY R.,
рассчитать корреляции долей по городам:
CORR W1 W2 WITH W3D1 TO W3D6/OPTIONS 5.
и т.д. Напомним, что объектами агрегированного файла данных являются города, и нужно серьезно подумать над интерпретацией получаемых статистик. В частности, среднее значение переменной W9 будет не средним возрастом, а средним средних возрастов по городам.
Функции для неопределенных значений
Функции для неопределенных значений
VALUE - функция игнорирования назначения пользовательского неопределенного значения;
MISSING - логическая функция для обнаружения пользовательского или системного отсутствующего значения; ее значения - истина (единица), если значение аргумента не определено, ложь (нуль) - в противном случае;
SYSMIS - то же, но только для системных неопределенных значений;
NMISS - число неопределенных значений в списке аргументов;
NVALID - число определенных значений в списке аргументов
Непараметрические тесты. Команда Nonparametric tests.
Глава 5. Непараметрические тесты. Команда Nonparametric tests.
Непараметрические тесты предназначены преимущественно для проверки статистических гипотез методами, не связанными с видом распределения совокупности. В частности, применение этих методов не требует предположения о нормальности распределения, которое необходимо для правомерного использования одномерного дисперсионного анализа, процедуры T-TEST, при определении значимости корреляций и т.д. К средствам непараметрического анализа относятся в числе прочих методов тест хи-квадрат, служащий для проверки взаимосвязи между номинальными переменными и коэффициенты ранговой корреляции, которым мы уже уделили некоторое внимание.
Непараметрические тесты не ограничиваются таким исследованием связи пар переменных; они включают множество других методов, реализованных командой синтаксиса NPAR TESTS. В меню SPSS непараметрические тесты реализует команда Nonparametric tests c множеством подкоманд.
Процедура NPAR TESTS включает большую группу критериев для проверки:
соответствия распределения выборочной совокупности заданному распределению; случайного характера выборки объектов; совпадения распределений в различных группах совпадения распределений в связанных выборках (например, результатов повторных измерений).Во всех критериях допускаются асимптотические, точные оценки значимости (EXACT) и оценки их методом Монте-Карло.
Процедуры получения описательных статистик и таблиц сопряженности
Глава 3. Процедуры получения описательных статистик и таблиц сопряженности
Процедуры статистического анализа и описания распределений снабжены обычно таким множеством подкоманд, задающих разнообразные режимы работы и параметры, что текст подсказки по соответствующим командам напоминает новогодние елки, обвешанные игрушками. Поэтому команды для выполнения этих процедур удобнее формировать в диалоговых окнах, которые позволяют успешно их формировать практическт без знания синтаксиса команд. Ниже приведены образцы применения команд преимущественно с указанием лишь основных параметров. Как мы уже отметили, потребность в пакетном режиме использования статистических процедур возникает, когда приходится многократно повторять расчет, корректируя лишь параметры.
Для первичного анализа данных обычно достаточно процедур реализучемых следующими командами:
FREQUNCIES - получение распределений;
DESCRIPTIVES - одномерные описательные статистики;
EXPLORE (EXAMINE) - одномерные описательные статистики в группах объектов;
CROSSTABS - таблицы сопряженности;
MEANS - средние;
MULTIPLE RESPONSE, GENERAL TABLE - таблицы для неальтернативных признаков.
Эти команды используются преимущестевенно для описания данных. FREQUNCIES, DESCRIPTIVES, EXPLORE (EXAMINE), CROSSTABS, находятся в разделе меню DESCRIPTIVE STATISTICS. MEANS находится в разделе COMPARE MEANS, MULTIPLE RESPONSE и GENERAL TABLE - в Custom Tables.
Характерно, что команда меню EXPLORE в синтаксисе имеет имя EXAMINE.
Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
Глава 2. Статистический пакет для социологических исследований. Общее описпние и поодготовка данных
Имена переменных и метки, коды неопределенных значений
1.3. Имена переменных и метки, коды неопределенных значений
Каждый столбец данных должен быть поименован, при этом имеются короткие имена для удобства задания команд и длинные имена, удобные для выдачи результатов расчетов. В приведенной анкете можем обозначить признаки следующим образом:
v1, v2, v3s1, v3s2, v3s3, v4d1, v4d2, v4d3, v4d4, v4d5
или: sex, age, problem1,…,problem3, compl1,… compl5.
Меткой переменной может быть и непосредственная формулировка вопроса и переработанный текст вопроса , например, "Назовите, пожалуйста, ваш пол" или "Пол".
Метки значений - это текстовая расшифровка кодов значений переменных (для пола: 1 - "мужской", 2 "женский").
Коды неопределенных значений. Нередко необходимо исключить из анализа коды переменных, соответствующих неопределенным значениям. Эти коды должны быть заданы заранее.
Ниже мы увидим, каким образом указанная информация о метках и неопределенных значениях заносится в данные.
Интерпретация факторов.
Интерпретация факторов.
Как же можно понять, что скрыто в найденных факторах? Основной информацией, которую использует исследователь, являются факторные нагрузки. Для интерпретации необходимо приписать фактору термин. Этот термин появляется на основе анализа корреляций фактора с исходными переменными. Например, при анализе успеваемости школьников фактор имеет высокую положительную корреляцию с оценкой по алгебре, геометрии и большую отрицательную корреляцию с оценками по рисованию - он характеризует точное мышление.
Не всегда такая интерпретация возможна. Для повышения интерпретируемости факторов добиваются большей контрастности матрицы факторных нагрузок. Метод такого улучшения результата называется методом ВРАЩЕНИЯ ФАКТOРОВ. Его суть состоит в следующем. Если мы будем вращать координатные оси, образуемые факторами, мы не потеряем в точности представления данных через новые оси, и не беда, что при этом факторы не будут упорядочены по величине объясненной ими дисперсии, зато у нас появляется возможность получить более контрастные факторные нагрузки. Вращение состоит в получении новых факторов - в виде специального вида линейной комбинации имеющихся факторов:
Чтобы не вводить новые обозначения, факторы и факторные нагрузки, полученные вращением, будем обозначать теми же символами, что и до вращения. Для достижения цели интерпретируемости существует достаточно много методов, которые состоят в оптимизации подходящей функции от факторных нагрузок. Мы рассмотрим реализуемый пакетом метод VARIMAX. Этот метод состоит в максимизации "дисперсии" квадратов факторных нагрузок для переменных:
Чем сильнее разойдутся квадраты факторных нагрузок к концам отрезка [0,1], тем больше будет значение целевой функции вращения, тем четче интерпретация факторов.
Исследование структуры данных
7. Исследование структуры данных
Конечно, собирая данные, исследователь руководствуется определенными гипотезами, информация относятся к избранным предмету и теме исследования, но нередко она представляет собой сырой материал, в котором нужно изучить структуру показателей, характеризующих объекты, а также выявить однородные группы объектов. Полезно представить эту информацию в геометрическом пространстве, лаконично отразить ее особенности в классификации объектов и переменных. Такая работа создает предпосылки к созданию типологий объектов и формулированию "социального пространства", в котором обозначены расстояния между объектами наблюдения, позволяет наглядно представить свойства объектов.
Измерение силы связи между номинальными переменными
Измерение силы связи между номинальными переменными
В условиях, когда связь значима и величина значимости (Significance) близка к нулю, появляется необходимость оценить силу этой связи и выявить наиболее связанные переменные. Непосредственное использование коэффициента Xи-квадрат неудобно - он зависит от числа объектов, из-за чего одинаковые по пропорциям распределений таблицы на выборках разного объема будут оценены по-разному.
Коэффициент Пирсона PHI=
- лишен этого недостатка, но дипазн его изменения зависит от размерности таблиц: .Более устойчив к размерности выборки коэффициент контингенции:
, 0CC<1;еще лучше в этом отношении коэффициент Крамера
, где к=min[r,c], .Все эти коэффициенты можно использовать для оценки силы связи и, сравнивая их по величине, делать вывод о более тесной или менее тесной связи. Эти коэффициенты не носят точного характера - поэтому их использование - дело вкуса каждого исследователя.
Заметим, что коэффициенты анализа связи переменных "хи-квадрат" (CHISQ), "фи" (PHI) и обычный коэффициент корреляции изобретены Пирсоном.
Качество подгонки логистической регрессии
Качество подгонки логистической регрессии
Далее в выдаче появляется описательная информация о качестве подгонки модели:
-2 Log Likelihood 3289.971
Goodness of Fit 2830.214
Cox & Snell - R^2 .072
Nagelkerke - R^2 .102
которые означают:
-2 Log Likelihood - удвоенный логарифм функция правдоподобия со знаком минус; Goodness of Fit - характеристика отличия наблюдаемых частот от ожидаемых; Cox & Snell - R^2 и Nagelkerke - R^2 - псевдо коэффициенты детерминации, полученные на основе отношения функций правдоподобия моделей лишь с константой и со всеми коэффициентами.
Эти коэффициенты стоит использовать при сравнении очень похожих моделей на аналогичных данных, что практически нереально, поэтому мы не будем на них останавливаться.
Как выяснить надежность результата?
Как выяснить надежность результата?
В соответствии с общепринятым использованием 5%-го уровня значимости, мы можем заявить, что величина стандартизованного смещения Z, превышающая 1.96, свидетельствует о существенности связи (вероятность в условиях независимости получить большее смещение равна 5%, см. выделенные клетки со значимыми смещениями в табл.2). Однако это утверждение о значимости верно только для отдельно взятой клетки таблицы, как мы ранее показали, вероятность того, что в этой таблице из 100 независимых клеток имеется хотя бы одна "значимая" статистика, равна . Это - результат множественных сравнений статистик.
Чтобы снизить вероятность принятия случайных отклонений за закономерные, нужно использовать более жесткий критерий, хотя, конечно, и обычное применение Z-статистик позволяет избежать очевидных глупостей.
К сожалению, таблицу с Z-статистиками, подобную таблице 2, обычными средствами статистических пакетов получить сложно - в них нет средств анализа значимости по неальтернативным вопросам.
Классическая линейная модель регрессионного анализа
6.1. Классическая линейная модель регрессионного анализа
Линейная модель связывает значения зависимой переменной Y со значениями независимых показателей Xk (факторов) формулой:
Y=B0+B1X1+…+BpXp+e
где e - случайная ошибка. Здесь Xk означает не "икс в степени k", а переменная X с индексом k.
Традиционные названия "зависимая" для Y и "независимые" для Xk отражают не столько статистический смысл зависимости, сколько их содержательную интерпретацию.
Величина e называется ошибкой регрессии. Первые математические результаты, связанные с регрессионным анализом, сделаны в предположении, что регрессионная ошибка распределена нормально с параметрами N(0,?2), ошибка для различных объектов считаются независимыми. Кроме того, в данной модели мы рассматриваем переменные X как неслучайные значения, Такое, на практике, получается, когда идет активный эксперимент, в котором задают значения X (например, назначили зарплату работнику), а затем измеряют Y (оценили, какой стала производительность труда). За это иногда зависимую переменную называют откликом. Теория регрессионных уравнений со случайными независимыми переменными сложнее, но известно, что, при большом числе наблюдений, использование метода разработанного для неслучайных X корректно.
Для получения оценок
коэффициентов регрессии минимизируется сумма квадратов ошибок регрессии:Решение задачи сводится к решению системы линейных уравнений относительно
.На основании оценок регрессионных коэффициентов рассчитываются значения Y:
О качестве полученного уравнения регрессии можно судить, исследовав
- оценки случайных ошибок уравнения. Оценка дисперсии случайной ошибки получается по формуле .Величина S называется стандартной ошибкой регрессии. Чем меньше величина S, тем лучше уравнение регрессии описывает независимую переменную Y.
Так как мы ищем оценки
, используя случайные данные, то они, в свою очередь, будут представлять случайные величины. В связи с этим возникают вопросы:Существует ли регрессионная зависимость? Может быть, все коэффициенты регрессии в генеральной совокупности равны нулю, оцененные их значения ненулевые только благодаря случайным отклонениям данных? Существенно ли влияние на зависимую отдельных независимых переменных?
В пакете вычисляются статистики, позволяющие решить эти задачи.
Коэффициенты детерминации и множественной корреляции
Коэффициенты детерминации и множественной корреляции
При сравнении качества регрессии, оцененной по различным зависимым переменным, полезно исследовать доли объясненной и необъясненной дисперсии. Отношение SSreg/SSt представляет собой оценку доли необъясненной дисперсии. Доля дисперсии зависимой переменной
, объясненной уравнением регрессии, называется коэффициентом детерминации. В двумерном случае коэффициент детерминации совпадает с квадратом коэффициента корреляции.Корень из коэффициента детерминации называется КОЭФФИЦИЕНТОМ МНОЖЕСТВЕННОЙ КОРРЕЛЯЦИИ (он является коэффициентом корреляции между y и
). Оценкой коэффициента детерминации () является . Соответственно, величина R является оценкой коэффициента множественной корреляции. Следует иметь в виду, что является смещенной оценкой. Корректированная оценка коэффициента детерминации получается по формуле:В этой формуле используются несмещенные оценки дисперсий регрессионного остатка и зависимой переменной.
Коэффициенты регрессии
Коэффициенты регрессии
Основная информация содержится в таблице коэффициентов регрессии (рисунок 6.4). Прежде всего, следует обратить внимание на значимость коэффициентов. Наблюдаемая значимость вычисляется на основе статистики Вальда. Эта статистика связана с методом максимального правдоподобия и может быть использована при оценках разнообразных параметров.
Универсальность статистики Вальда позволяет оценить значимость не только отдельных переменных, но и в целом значимость категориальных переменных, несмотря на то, что они дезагрегированы на индексные переменные. Статистика Вальда имеет распределение хи-квадрат. Число степеней свободы, равно единице, если проверяется гипотеза о равенстве нулю коэффициента при обычной или индексной переменной и, для категориальной переменной, равно числу значений без единицы (числу соответствующих индексных переменных). Квадратный корень из статистики Вальда приближенно равен отношению величины коэффициента к его стандартной ошибке - так же выражается t-статистика в обычной линейной модели регрессии.
В нашей таблице коэффициентов почти все переменные значимы на уровне значимости 5%. Закрыв глаза на возможное взаимодействие между независимыми переменными (коллинеарность), можно считать, что вероятность употребления алкоголя повышена при высокой зарплате, а также, у руководителей различного ранга. Из-за незначимости статистики Вальда нет, правда, полной уверенности относительно повышенной вероятности для начальников, имеющих более 10 подчиненных. Курение и принадлежность к мужскому полу также повышают эту вероятность, однако, взаимодействие "мужчина-зарплата" имеет обратное действие.
В этой же таблице присутствует аналог коэффициента корреляции (R), также построенный на основе статистики Вальда. Для обычных и индексных переменных положительные значения коэффициента свидетельствуют о положительной связи переменной с вероятностью события, отрицательные - об отрицательной связи.
Кроме того, мы выдали таблицу экспонент коэффициентов eB и их доверительные границы (см. рисунок 6.5). Эта таблица выдана подкомандой /PRINT=CI(95) в команде задания логистической регрессии.
Согласно модели и полученным значениям коэффициентов, при фиксированных прочих переменных, принадлежность к мужскому полу увеличивает отношение шансов "пития" и "не пития" в 2.4 раза (точнее в 1.84-3.15 раза), курения - в 1.9 раза (1.54 - 2.35), а прибавка к зарплате 100 рублей - на 4.4% (2.8%-6%), правда такая прибавка мужчине одновременно уменьшает это отношение на 3.8% (5.7%-1.9%). Быть мелким начальником - значит увеличить отношение шансов в 1.43 (1.06 - 1.9) раза, чем в среднем, а средним начальником - в 1.7 (1.07-2.67) раза.
Коэффициенты связи между ранговыми переменными
Коэффициенты связи между ранговыми переменными
Коэффициенты BTAU (Кендалла) и CTAU (Стюарта) служат для оценки взаимосвязи ранговых переменных.
Напомним, что ранговыми переменными называются переменные, в которых можно установить порядок между значениями, например, ответы на вопрос, требующий ответа "плохо", "средне" или "хорошо"% количественные переменные, такие, как возраст, доход, также можно использовать в качестве ранговых.
Рассмотрим пары всех объектов (строк матрицы данных). Для пары объектов (i,j) рассматривается, одинаково ли упорядочиваются объекты и по переменной X и по переменной Y. (если Xi<Xj и Yi<Yj или Xi>Xj и Yi>Yj - упорядочения одинаковы, если Xi<Xj и Yi>Yj или Xi<Xj и Yi>Yj - упорядочения не одинаковы). Число одинаковых упорядочений для всех пар объектов по X, Y обозначим Р; число разных - Q. Кендалл предложил рассматривать величину BTAU=(P-Q)/T, где T - нормирующий знаменатель, такой, чтобы величина BTAU изменялась от -1 до 1. (BTAU=-1 - полная отрицательная связь X и Y, BTAU=1 - полная положительная связь). Коэффициент CTAU несколько отличается нормирующим знаменателем. С точки зрения использования отличие их в том, что BTAU предпочтительнее использовать для квадратных таблиц сопряженности, то есть, когда r=c.
С помощью этих коэффициентов можно проверить гипотезу независимости переменных "степень противостояния СССР и Японии" и "степень альтруизма" против гипотезы их зависимости: одинаковой или противоположной упорядоченности, предварительно построив эти переменные на основе данных по нашей учебной анкете.
Пример: рассчитаем коэффициенты BTAU и CTAU для наших переменных v1 "Точка зрения на иностранную помощь" и V4 "Возможность удовлетворить территориальные требований Японии". Следует заметить, что код значения "не знаю" этих переменных максимален - 4 (см. анкету в приложении). Это нарушает порядок градаций и неясно, каким образом повлияет на результаты. Скорее всего, эта градация занимает какое-то промежуточное место, но неясно, между какими градациями. Поэтому самым простым выходом будет пожертвовать данными и провести расчеты, объявив этот код кодом неопределенности:
missing values v1 v4(4).
CROSSTABS /TABLES=v4 BY v1
/STATISTIC=CHISQ BTAU CTAU CMH(1)
/CELLS= COUNT ROW COL.
Количественные шкалы:
ИНТЕРВАЛЬНАЯ шкала предполагает, что можно определить не только порядок значений, но и расстояние между значениями. Эта шкала, однако, такова, что не имеет смысла рассматривать, во сколько раз одно значение больше другого. Пример: шкала измерения температуры по Цельсию.
ШКАЛА ОТНОШЕНИЙ в дополнение к свойствам интервальной шкалы позволяет измерять пропорции значений. Например, мы можем смело заявить, что зарплата в 1000$ вдвое выше зарплаты в 500$.
Техника анализа переменных, измеренных в количественных шкалах (интервальной и шкале отношений) обычно одинакова. В соответствии с типом шкалы измерения переменные относят к номинальным, ординальным (ранговым) и количественным типам переменных.
К особому типу относят переменные, имеющие два ответа - "да" и "нет" (например, "Имеете ли Вы телевизор?"). Эти переменные называют дихотомическими. Их удобно кодировать цифрами 1 ("да") и 0 ("нет"). Эти переменные представляют простейший вид номинальных переменных, они выражают количество (0 или 1) и поэтому часто используются в количественном анализе.
Такая классификация переменных несколько упрощает действительность. Например, переменная "время суток" при исследовании бюджета времени имеет "кольцевую" структуру, поскольку 0 часов эквивалентно 24 часам.
Еще пример: ответ на вопрос о доходах от личного подсобного хозяйства может представлять определенную сумму, быть ответом "не имею подсобного хозяйства" или ответом "не знаю" - здесь значения только частично являются количественными и упорядоченными. При кодировании значений таких значений используются специального вида коды, которые в принципе не могут встретиться в данных, например в RLMS "затрудняюсь ответить", "отказ от ответа" и "нет ответа" в вопросе о весе респондента кодируются кодами 997, 998 и 999 соответственно. Не забудьте использовать специальные команды SPSS (см. ниже команду Missing values), чтобы объявить эти числовые значения кодами неопределенности, чтобы по ошибке не получить средний вес респотдента в больше 300 килограммов!
Команда COUNT
Команда СOUNT подсчитывает число появлений указанных в ней кодов в заданном списке переменных и размещает результат в новую переменную или заменяет содержимое существующей.
Пусть нам необходимо вычислить число разумных вариантов решения проблемы островов (неальтернативный вопрос 7 анкеты о Курильских островах), а затем подсчитать число ответов на все неальтернативные вопросы анкеты.
COUNT nofvari= v7s1 to v7s7 (1 thru 11)/
nofans = v3s1 to v3s8 (1 thru 8) v5s1 to v6s8 (1 thru 8).
Еще пример, по результатам сессии (объекты - студенты, переменные - результаты экзаменов по информатике (I), математике (M), микроэкономике (E), и социологии (S)) необходимо создать переменную M45, в которой будет число пятерок и четверок, встречающихся в перечисленных переменных.
COUNT M45 = I M E S (4,5).
В команде указывается имя переменной, куда будет заноситься результат подсчета, затем, после обязательного знака "=", приводится список переменных, для которых нужно вести подсчет, и далее в круглых скобках приводится список значений переменных, число которых следует пересчитать. Значения строковых переменных должны быть заключены в апострофы. Ключевое слово SYSMIS используется для подсчета системных отсутствующих значений; MISSING позволяет подсчитать все отсутствующие значения - и пользовательские и системные. Команда допускает также ключевые слова LOWEST, HIGHEST и THRU.
Команда Explore исследование распределений и сравнение групп объектов
Команда Explore исследование распределений и сравнение групп объектов
Команда меню Explore в синтаксисе имеет имя Examine. Она является удобным инструментом исследования распределения данных в подвыборках объектов. Мы не будем подробно описывать эту процедуру, она хорошо описана в Руководстве по применению [].
Команда отличается развитыми графическими возможностями - гистограммы, диаграммы типа "ствол с листьями", ящичковые диаграммы, графики сравнения эмпирического распределения с нормальным. В число статистик включены статистики для проверки нормальности распределения, однородности дисперсий в группах. Весьма удобна для описательного анализа ящичковая диаграмма
Рассмотрим, например, диаграмму распределения по возрасту в группах по семейному положению, полученную в выдаче командой:
EXAMINE VARIABLES=V9 BY v11
/PLOT BOXPLOT HISTOGRAM NPPLOT SPREADLEVEL(1)
/COMPARE GROUP /STATISTICS DESCRIPTIVES
/CINTERVAL 95 /MISSING LISTWISE /NOTOTAL.
Нижние и верхние границы "ящичков" показывают 25% и 75% процентили распределений, черта посередине - медиана, "усы" показывают максимальные и минимальные значения в группах, если они не отстоят от верхнего (нижнего) края ящичка более, чем на 1.5 его длины, иначе они показывают эту границу, а вышедшие за эти пределы значения - отмечаются отдельными точками или кружками (Рисунок 3.3).
На диаграмме ясно видно, как отличаются группы по медианному возрасту, виден перекос распределения возраста для не состоявших в браке.
Команда MEANS - сравнение характеристик числовой переменной по группам.
Команда MEANS - сравнение характеристик числовой переменной по группам.
Процедура вычисляет одномерные статистики в группах - все описательные статистики, которые вычислялись командами Descriptives и Frequencies, а также гармоническое среднее, среднее геометрическое, проценты сумм значений переменных в группах и др. - всего 20 характеристик. Поэтому имя команды Means (Средние) сохранилось лишь исторически, пришло из ранних версий SPSS, где действительно ее назначением было сравнение средних. В диалоговом окне для назначения статистик используется кнопка "Options". Проводится также одномерный дисперсионный анализ.
MEANS TABLES=v14 BY v11 BY v8 /CELLS MEAN STDDEV MEDIAN COUNT /STATISTICS ANOVA.
В команде указывается список зависимых переменных, BY и список переменных, определяющих группы. Каждое дополнительное слово BY порождает следующий нижний уровень группирования, в диалоговом режиме слову BY соответствует кнопка NEXT.
Команда построения линейной модели регрессии
Команда построения линейной модели регрессии
В меню - это команда Linear Regression. В диалоговом окне команды:
Назначаются независимые и зависимая переменные, Назначается метод отбора переменных. STEPWISE - пошаговое включение/удаление переменных. FORWARD - пошаговое включение переменных. BACKWARD - пошаговое исключение переменных. При пошаговом алгоритме назначаются значимости включения и исключения переменных (OPTIONS). ENTER - принудительное включение. Имеется возможность отбора данных, на которых будет оценена модель (Selection). Для остальных данных могут быть оценены прогнозные значения функции регрессии, его стандартные отклонения и др. Назначения вывода статистик (Statistics) - доверительные коэффициенты коэффициентов регресии, их ковариационная матрица, статистики Дарбина-Уотсона и пр. Задаются графики рассеяния остатков, их гистограммы (Plots) Назначаются сохранение переменных(Save), порождаемых регрессией. Если используется пошаговая регрессия, назначаются пороговые значимости для включения (PIN) и исключения (POUT) переменных (Options). Если обнаружена гетероскедастичность, назначается и весовая переменная.
Команда RANK
Команда RANK
Анализируя доходы населения, мы можем работать непосредственно с доходами, вычисляя средние, корреляции и др., можем изучать иерархию семей или индивидуумов по этой переменной. Для этого нужно перейти к порядковым номерам объектов, упорядоченным по доходам. Такие порядковые номера называются рангами. Иерархию семей можно изучать, определив для каждой семьи долю (процент) семей, которые беднее ее. Наконец при этом анализе, можно разбить семьи по уровню доходов на равные 5 частей (квентили) или на 10 частей (децили). Ранги, процентили, n-тили суть преобразованные в соответствии с ранжированием объектов переменные.
Команда RANK весьма полезна, когда нужно перейти от исходных значений любых количественных переменных к рангам объектов, процентилям, децилям и квентилям и др., а может быть перекодировать переменную в соответствии с нормальным распределением.
Пусть нам необходимо получить переменные "ранг по доходам", "процентили по доходам" и "квинтильные группы по доходам".("Курильские" данные) Команда RANK создаст нам нужные переменные:
RANK VARIABLES=v14 (A) /RANK into rangv14/NTILES (5)into v14_5 /PERCENT percv14/PRINT=YES /TIES=MEAN .
VARIABLE LABELS rangv14 "ранг по доходам"/
v14_5 "квинтильные группы по доходам"/
percv14 "процентили по доходам".
Подробнее см. в "Руководстве пользователя SPSS6.1"
Команда RECODE
Назначение команды: перекодирование существующей переменной. Формат команды:
RECODE V9 (0 THRU 25 = 1) (26 THRU 45 = 2) (ELSE =3).
или
RECODE V9 (0 THRU 25 = 1) (26 THRU 45 = 2) (ELSE =3) INTO W9.
Указывается переменная или список переменных со спецификациями в круглых скобках. Перекодируемые переменные в списке разделяются слэшами (/). По этой команде значения перечисленных переменных в указанных пределах будут заменены числами, следующими за знаком равенства.
Ключевое слово INTO указывает, в какую переменную (список переменных) переслать результат перекодирования, при этом соответствие между исходным списком переменных и переменными результата устанавливаются естественным образом.
Список переменных можно задать через ключевое слово TO, но всегда следует указывать переменные в том порядке, в каком они вводились либо вычислялись в программе.
Ключевые слова для задания входных значений команды RECODE:
LOWEST или LO - наименьшее значение переменной;
THRU или THR - значения переменной из указанного диапазона;
HIGHEST или HI - наибольшее значение переменной;
MISSING - отсутствующее значение, определяемое пользователем;
SYSMIS - отсутствующее значение, определяемое системой;
ELSE -все не специфицированные значения (не включаемые в SYSMIS).
Результат перекодирования - обычно код или системный код неопределенности SYSMIS, если вместе с ключевым словом ELSE употребляется слово COPY, то результатом становятся значения не включенные в списки перекодирования. Слово COPY имеет смысл употреблять, когда результат перекодирования записывается в другую переменную:
Recode educat (1=2)(2=1)(else=copy) into educat1.
Без (else=copy) в переменную educat1 будут внесены лишь перекодированные значения.
Заметим, что если переменная назначения за ключевым словом INTO ранее существовала, то она не изменит своих значений, если команда Recode не заносит в нее никаких кодов.
Среди списка значений для переменной, имеющей неопределенные значения, могут стоять слова MISSING и SYSMIS.
RECODE K9 ТO K12 (0 THRU 25 = 1)(MISSING = 10)(SYSMIS = 5).
Команда RECODE позволяет также интервалировать, группировать значения.
RECODE V11 V13 ( 8, 9, 2, 4, 7 = 1) (else=2).
Рисунок 2.2. Перекодирование данных
Что происходит при этом с матрицей данных? Как видно из приведенной выше схемы, происходит замена значений в соответствии с приведенными в команде списками значений.
Рассмотрим примеры перекодирования кодов неопределенности. При ответах на вопросы анкеты "Курильские острова" (приложение 1) кто-то не ответил на первый вопрос, кто-то сказал "Затрудняюсь". Объединим этих респондентов. Это можно осуществить командой
RECODE V1 (SYSMIS = 4).
и, таким образом, перекодировать системный код неопределенности в код 4. Можно провести обратную операцию:
RECODE V1 (4 = SYSMIS).
Этой командой код 4 перекодируется в системный код неопределенности. При обработке данных по этому признаку объекты, для которых значение V1 было когда-то равно 4, будут исключены из статистической обработки.
Тот же эффект можно получить, воспользовавшись командой
MISSING VALUES V1(4).
При этом таблица данных не изменится; но во внутренней для SPSS информации сохранятся сведения о том, что указанный в данной команде код является пользовательским кодом неопределенности для V1.
В SPSS запрещено писать MISSING справа от знака равенства, т.е. команда
RECODE V1(4=MISSING). недопустима!
Имеется еще вариант выполнения команды RECODE с созданием новой переменной. Для этого используется уключевое слово INTO:
RECODE V11 ( 8, 9, 2, 4, 7 = 1) (else=2) INTO W11.
При таком использовании команды в большинстве случаев необходимо перечислять все коды исходной переменной, поскольку не указанные значения переходят в системные неопределенные.
Команда SPLIT FILE
Нередко возникает необходимость получить однотипные таблицы для различных групп наблюдений, а, возможно и сравнить их. С этой целью предусмотрена команда SPLIT FILE. Ее удобно запускать из меню редактора данных. Команда SPLIT FILE требует предварительной сортировки данных по переменным разбиения. В ней указываются переменные разбиения выборки, а также цель расщепления - получение независимых выдач для различных групп объектов (ключевое слово SEPARATE), или сравнение данных по группам (LAYERED). В последнем случае для большинства статистических программ выдачи по группам объединяются в единую таблицу.
Например, расщепление наших учебных данных выборки по полу с целью сравнения групп можно сделать программой.
SORT CASES BY v8 .
SPLIT FILE LAYERED BY v8 .
Descriptives Variables= v9 v14.
Команда Descriptives получает описательные статистики переменных. В таблице 2.2 благодаря команде SPLIT результаты работы команды Descriptives на разных группах по полу объединены в одну таблицу.
Команды COMPUTE и IF
Команда COMPUTE вычисляет новую переменную или заменяет существующую.
Пусть, например, для приведенной в приложении 1 анкеты требуется рассчитать, сколько лет респондент проживал за Уралом (см. анкету в приложении 1).
СOMPUTE Y=V15+V16+V17.
В матрице данных создается новая переменная Y.
В команде указывается имя создаваемой переменной, за которым после обязательного знака "=" следует арифметическое выражение. Создаваемая переменная может быть функцией от других переменных.
После выполнения команды в матрицу данных в активный файл будет дописан столбец с новым именем. Если какой-либо член арифметического выражения не определен, то результатом будет системный код отсутствующего значения (SYSMIS). Например, если в команде COMPUTE Y=X-5/Z. значение переменной X не определено в соответствии с командой MISSING VALUES или имеет системный код неопределенности или, если Z=0, переменной Y присваивается системный код неопределенности SYSMIS.
Команда IF при выполнении указанного в команде условия создает новые переменные или заменяет существующие переменные арифметическими выражениями
IF (R>D OR (R>=E AND B>0))STATUS=1.
IF (STATE = 'IL') COST=COST +0.07*COST.
В ней указывается логическое выражение, за которым следует арифметическое присвоение. Логическое выражение должно быть заключено в круглые скобки. Логическое выражение в команде IF может быть ложно не только в результате выводов с позиций формальной математической логики, но в случае, если в выражении встретилось неопределенное значение. Для оператора присваивания в случае неопределенных значений переменных действуют те же правила, что и в команде COMPUTE.
В качестве логического выражения может быть и обычная числовая переменная или числовая константа. Считается, что она принимает значение "истина", если она равна 1, в противном случае ее значение - "ложь".
Область действия IF - один оператор присваивания, приведенный в тексте команды.
Пусть, например, требуется вычислить переменную D, характеризующую отклонение веса (W) от нормального (для мужчин (код значения переменной P "пол" равен 1) нормальный вес должен быть равен величине роста минус 100, для женщин (p=2) - величине роста минус 105).
IF (P = 1) d = W - (R-100).
IF (P = 2) d = W - (R-105).
В результате выполнения этих команд появляется переменная D, которая вычисляется в зависимости от значений переменной P.
В диалоговом окне содержится подробный список функций и операторов. Чтобы читатель имел представление о возможностях команд IF и COMPUTE, ниже мы представим их основные типы.
Команды Вызова Get и сохранения данных save.
команды Вызова Get и сохранения данных save.
Хотя для вызова файла данных удобнее непосредственно использовать меню, команда полезна при многократном использовании данных, или использовании части данных. Примеры:
GET FILE='D:\mydir\city' /KEEP=x1 to x10, x15.
GET FILE='D:\mydir\city' /DROP=Z1, z5, z10.
Ключевое слово KEEP в первом примере говорит о том, что будут использованы лишь переменные с x1 до x10 и x15
Ключевое слово подкоманды DROP во втором примере исключает из анализа Z1, z5, z10.
Сохранение данных производится командой SAVE
SAVE FILE='D:\mydir\city' /KEEP=x1 to x10, x15 /compressed.
Подкоманда /compressed необходима для сжатия информации. Подкоманды KEEP и DROP применяются для сохранения и отбрасывания части переменных.
Корреляции (CORRELATIONS)
4.4. Корреляции (CORRELATIONS)
Раздел CORRELATIONS содержит команды для получения парных (Bivariate…) и частных (Partial…) корреляций.
Критерий Фридмана (Friedman)
5.4.3. Критерий Фридмана (Friedman)
Имеется k переменных. На каждом объекте независимо производится их ранжировка (по строке матрицы данных), затем вычисляется средний ранг по каждой переменной (по столбцу). Если все измерения независимы и равноценны (одинаково распределены) то все эти средние должны быть приближенно равны (k+1)/2 - среднему рангу в строке. Статистикой критерия является нормированная сумма квадратов отклонений средних рангов по переменным от общего среднего (k+1)/2, которая имеет теоретическое распределение хи-квадрат.
Как ни странно, тест Фридмана, запущенный командой
NPAR TESTS /FRIEDMAN = am1 bm1 cm1.
не показал значимых различий в измерениях веса по трем годам (см. предыдущие два примера), так как наблюдаемая значимость статистики хи-квадрат равна 0.755.
Критические значения Z-статистики при множественных сравнениях.
Критические значения Z-статистики при множественных сравнениях.
Для выяснения значимости вычисляется критическое значение максимальной по модулю Z-статистики таблицы (max|Zij|) и значимыми считаем Zij, превышающие это значение. Как обычно, критическое значение выбирается так, чтобы вероятность случайно его превзойти была равна заданному значению (обычно - 5%).
Логистическая регрессия
6.2. Логистическая регрессия
Предсказания событий, исследования связи событий с теми или иными факторами с нетерпением ждут от социологов. Будем считать, что событие в данных фиксируется дихотомической переменной (0 не произошло событие, 1 - произошло). Для построения модели предсказания можно было бы построить, к примеру, линейное регрессионное уравнение с зависимой дихотомической переменной Y, но оно будет не адекватно поставленной задаче, так как в классическом уравнении регрессии предполагается, что Y - непрерывная переменная. С этой целью рассматривается логистическая регрессия. Ее целью является построение модели прогноза вероятности события {Y=1} в зависимости от независимых переменных X1,…,Xp. Иначе эта связь может быть выражена в виде зависимости P{Y=1|X}=f(X)
Логистическая регрессия выражает эту связь в виде формулы
, где Z=B0+B1X1+…+BpXp (1).Название "логистическая регрессия" происходит от названия логистического распределения, имеющего функцию распределения
. Таким образом, модель, представленная этим видом регрессии, по сути, является функцией распределения этого закона, в которой в качестве аргумента используется линейная комбинация независимых переменных.
Метод главных компанент
метод главных компанент
Один из наиболее распространенных методов поиска факторов, метод главных компонент, состоит в последовательном поиске факторов. Вначале ищется первый фактор, который объясняет наибольшую часть дисперсии, затем независимый от него второй фактор, объясняющий наибольшую часть оставшейся дисперсии, и т.д. Описание всей математики построения факторов слишком сложно, поэтому для пояснения сути мы прибегнем к зрительным образам (рисунок 7.2).
Геометрически это выглядит следующим образом. Для построения первого фактора берется прямая, проходящая через центр координат и облако рассеяния данных. Объектам можно сопоставить расстояния их проекций на эту прямую до центра координат, причем для одной из половин прямой (по отношению к нулевой точке) можно взять эти расстояния с отрицательным знаком. Такое построение представляют собой новую переменную, которую мы просто назовем осью. При построении фактора отыскивается такая ось, чтобы ее дисперсия была максимальна. Это означает, что этой осью объясняется максимум дисперсии переменных. Найденная ось после нормировки используется в качестве первого фактора. Если облако данных вытянуто в виде эллипсоида (имеет форму "огурца"), фактор совпадет с направлением, в котором вытянуты объекты, и по нему (по проекциям) с наибольшей точностью можно предсказать значения исходных переменных.
Для поиска второго фактора ищется ось, перпендикулярная первому фактору, также объясняющая наибольшую часть дисперсии, не объясненной первой осью. После нормировки эта ось становится вторым фактором. Если данные представляют собой плоский элипсоид ("блин") в трехмерном пространстве, два первых фактора позволяют в точности описать эти данные.
Максимально возможное число главных компонент равно количеству переменных. Сколько главных компонент необходимо построить для оптимального представления рассматриваемых исходных факторов?
Обозначим l k объясненную главной компонентой Fk часть суммарной дисперсии совокупности исходных факторов. По умолчанию, в пакете предусмотрено продолжать строить факторы, пока l к>1. Напомним, что переменные стандартизованы, и поэтому нет смысла строить очередной фактор, если он объясняет часть дисперсии, меньшую, чем приходящуюся непосредственно на одну переменную. При этом следует учесть, что l 1>l 2>l 3,….
К сведению читателя заметим, что значения l k являются также собственными значениями корреляционной матрицы Xi, поэтому в выдаче они будут помечены текстом "EIGEN VALUE", что в переводе означает "собственные значения".
Заметим, что техника построения главных компонент расходится с теоретическими предположениями о факторах: имеется m+n независимых факторов, полученных методом главных компонент в n-мерном пространстве, что невозможно.