TABLES задание таблиц
/TABLES задание таблиц
Параметр TABLES может быть опущен:
CROSSTABS v1 TO v5 BY v10.
Строки таблицы сопряженности соответствуют значениям переменной, указанной в тексте команды перед ключевым словом "BY"; столбцы матрицы соответствуют значениям переменной, расположенной после "BY".
Пример - совместное распределение по региону (R), точке зрения на иностранную помощь (v1) и полу (V8):
CROSSTABS TABLES R BY v1 BY v8/cells = COUNT ROW.
В результате выполнения этой команды рассчитывается таблица 3.3. Перед ключевым словом BY указываются переменные, по которым вычисляется двухвходовая таблица (переменная, значения которой идентифицируют строки), после ключевого слова BY указываются переменные, идентифицирующие столбцы. За следующими BY идут переменные условий, определяющие подвыборки, на которых рассчитываются таблицы. Хотя в современной версии пакета эти таблицы объединяются в одну таблицу, их статистический анализ производится по-отдельности. Ключевым словом BY могут разделяться и списки переменных. В этом случае процедурой получаются таблицы по всем парам таблиц из первого и второго списка. Например,
CROSSTABS V8 V11 V12 BY V4 V1.
Эта команда выведет таблицу сопряженности: V8 c V4, V8 c V1, V11 c V4, V11 c V1 и т.д., то есть сочетания по всем переменным, перечисленным в команде. Всего будет выдано на печать 6 таблиц. Если более двух списков переменных разделены ключевыми словами "BY", то переменные, стоящие за вторым, третьим и т.д. "BY", задают условия получения таблиц. Таблицы формируются на подвыборках, соответствующих сочетаниям значений этих переменных.
Cравнение распределения доходов в двух группах на основе критерия Колмогорова-Смирнова,.
Таблица 5.7. Cравнение распределения доходов в двух группах на основе критерия Колмогорова-Смирнова,.
V14 Душевой доход в семье | ||
Most Extreme Differences |
Absolute |
0.05 |
Positive |
0.05 | |
Negative |
-0.028 | |
Kolmogorov-Smirnov Z |
0.455 | |
Asymp. Sig. (2-tailed) |
0.986 |
В приведенном примере (таблица 5.7) наблюдаемый уровень значимости велик (0.986). Поэтому, приходим к заключению, что на нашей учебной выборке критерием Колмогорова-Смирнова не удалось обнаружить различие распределений по душевому доходу в группах считающих, что нужно отдать острова или их часть, и противников такого решения. Это не означает достоверно, что распределения совпадают, возможны тонкие различия распределений, которые критерий не улавливает из-за малого объема данных.
Дисперсия, объясненная факторным анализом
Таблица 7.1. Дисперсия, объясненная факторным анализом
Initial Eigenvalues |
Extraction Sums of Squared Loadings |
|||||
Component |
Total |
% of Variance |
Cumulative% |
Total |
% of Variance |
Cumulative % |
1 |
2.402 |
40.038 |
40.038 |
2.402 |
40.038 |
40.038 |
2 |
1.393 |
23.210 |
63.249 |
1.393 |
23.210 |
63.249 |
3 |
.853 |
14.220 |
77.468 |
|||
4 |
.719 |
11.977 |
89.445 |
|||
5 |
.345 |
5.752 |
95.197 |
|||
6 |
.288 |
4.803 |
100.000 |
Extraction Method: Principal Component Analysis.
Дисперсионный анализ уравнения
Таблица 6.2. Дисперсионный анализ уравнения
Sum of Squares |
df |
Mean Square |
F |
Sig. | |
Regression |
8.484 |
2 |
4.242 |
15.232 |
.000 |
Residual |
181.298 |
651 |
.278 |
||
Total |
189.782 |
653 |
a Predictors: (Constant), V9_2, V9 Возраст
b Dependent Variable: LNV14M логарифм промедианного дохода
Хи-квадрат тесты, оценка значимости методом Монте-Карло.
Таблица 3.8. Хи-квадрат тесты, оценка значимости методом Монте-Карло.
Value |
Df |
Asymp. Sig. (2-sided) |
Monte Carlo Sig. (2-sided) | ||||
Sig. |
99% Confidence Interval | ||||||
Lower Bound |
Upper Bound | ||||||
Pearson Chi-Square |
21.6 |
9 |
0.010 |
0.0155 |
0.012 |
0.019 | |
Likelihood Ratio |
18.9 |
9 |
0.026 |
0.0327 |
0.028 |
0.037 | |
Fisher's Exact Test |
19.1 |
0.0103 |
0.008 |
0.013 | |||
Linear-by-Linear Association |
0.3 |
1 |
0.611 |
0.6492 |
0.637 |
0.661 | |
N of Valid Cases |
276 |
a 9 cells (56.3%) have expected count less than 5. The minimum expected count is .47.
Интервалы для мужчин и женщин
Таблица 2.1. Интервалы для мужчин и женщин
Интервалы возраста |
1 |
2 |
3 |
4 |
5 |
Мужчины |
до 18 |
до 33 |
до 45 |
До 60 |
>60 лет |
Женщины |
до 18 |
до 33 |
до 45 |
До 55 |
>55 лет |
DO IF (v8=1).
Recode v9 (lo thru 18=1)(18 thru 33=2)(33 thru 45=3)(45 thru 60=4)(60 thru hi=5) into w9.
Else if (v8=2).
Recode v9 (lo thru 18=1)(18 thru 33=2)(33 thru 45=3)(45 thru 55=4)(55 thru hi=5) into w9.
END IF.
Здесь для мужчин в переменной w9 получаются одни интервалы значений, для женщин - другие. Если бы не было неопределенных значений v8, можно было бы вместо "Else if (v8=2)." использовать просто "Else".
Заметим, что команды RECODE и COUNT непосредственно не могут выполняться на подвыборках объектов, но с командами DO IF и END IF их выполнение возможно. Именно это используется при задании таких условных команд из диалоговых окон.
Напомним, что команды, запущенные без команды Execute, накапливаются в памяти, но не выполняются (Transformations pending в статусной строке). Поэтому, из-за ошибки между DO IF и END IF, в память попадает только DO IF. После исправления ошибки и запуска программы оказывается больше запущенных команд DO IF, чем END IF, и сообщение об ошибке повторяется. Это следствие того, что команды IF, COMPUTE, COUNT, RECODE преобразуют данные не сразу, а после запуска команды EXECUTE.
Для того, чтобы справиться с этой ситуацией, следует запустить отдельно команду
CLEAR TRANSFORMATIONS.
Эта команда очистит память от невыполненных команд.
Коэффициент корреляции времени приготовления пищи и закупки продуктов
Таблица 4.16. Коэффициент корреляции времени приготовления пищи и закупки продуктов
CO17A время на приготовления пищи | ||
CO15A время на покупку продуктов |
Pearson Correlation |
0.3193 |
Sig. (2-tailed) |
0.0000 | |
N |
3549 |
Таблица 4.17. Коэффициент корреляции времени приготовления пищи и закупки продуктов
Controlling for.. CO19A (время на уборку квартиры ) | CO17A время на приготовления пищи | |
CO15A время на покупку продуктов | Pearson Correlation | 0. 2558 |
Sig. (2-tailed) | 0.0000 | |
N | 3546 |
Коэффициенты для ранговых переменных
Таблица 3.7. Коэффициенты для ранговых переменных
Value |
Asymp. Std. Error |
Approx. T |
Approx. Sig. | |
Kendall's tau-b |
-0.158 |
0.043 |
-3.571 |
0.000 |
Kendall's tau-c |
-0.094 |
0.026 |
-3.571 |
0.000 |
N of Valid Cases 606
Можно с уверенностью утверждать, что преобладает обратная связь между рангами: чем меньше желание отдать острова, тем больше преобладает мнение, что помощь необходима.
Коэффициенты корреляции Спирмена (Spearman's rho)
Таблица 4.15. Коэффициенты корреляции Спирмена (Spearman's rho)
V9 Возраст |
V14 Ср.мес. душевой доход в семье | ||
V10 Образование |
Correlation Coefficient |
-.021 |
-.086 |
Sig. (2-tailed) |
.574 |
.026 | |
N |
692 |
671 |
Коэффициенты регрессии.
Таблица 6.3. Коэффициенты регрессии.
Unstandardized Coefficients |
Standardized Coefficients |
T |
Sig. | ||
B |
Std. Error |
Beta | |||
(Constant) |
-1.0569 |
0.1888 |
-5.5992 |
0.0000 | |
V9 Возраст |
0.0505 |
0.0093 |
1.1406 |
5.4267 |
0.0000 |
V9_2 |
-0.0006 |
0.0001 |
-1.0829 |
-5.1521 |
0.0000 |
Регрессионные коэффициенты представлены в таблице 6.3. В соответствии с ними, уравнение регрессии имеет вид
Лог.промед.дохода = -1.0569+0.0505*возраст-0.0006*возраст2
Стандартная ошибка коэффициентов регрессии значительно меньше величин самих коэффициентов, их отношения - t статистики, по абсолютной величине больше 5. Наблюдаемая значимость статистик (Sig) равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Стоит обратить внимание на редкую ситуацию - коэффициенты бета по абсолютной величине больше единицы. Это произошло, по-видимому, из-за того, что корреляция между возрастом и его квадратом весьма велика.
Рисунок 6.1 показывает линию регрессии и доверительные границы для M(y) - матожидания y и для индивидуальных значений y. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной - прогнозом, с переменными - доверительными границами:
GRAPH /SCATTERPLOT(OVERLAY)=v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR).
Границы для M(y) значительно уже, чем для y, так как последние должны охватывать больше 95% точек графика.
На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной - возраста. Некоторое сужение рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения.
Коэффициенты регрессии с индексными переменными.
Таблица 6.4. Коэффициенты регрессии с индексными переменными.
B |
Std. Error |
Beta |
T |
Sig. | |
(Constant) |
-1.1721 |
0.1937 |
-6.0500 |
0.0000 | |
V9 Возраст |
0.0635 |
0.0105 |
1.4298 |
6.0299 |
0.0000 |
V9_2 |
-0.0007 |
0.0001 |
-1.3243 |
-5.7351 |
0.0000 |
T1 Женат |
-0.2030 |
0.0766 |
-0.1540 |
-2.6488 |
0.0083 |
T2 Вдовец |
-0.2471 |
0.1352 |
-0.0850 |
-1.8279 |
0.0680 |
T3 Разведен |
-0.1494 |
0.1134 |
-0.0661 |
-1.3176 |
0.1881 |
Кроме того, модель с тремя "параллельными" параболами, вероятно, не полностью адекватна, каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. О том, как их конструировать - следующий раздел.
Критерий Манна-Уитни. Суммы рангов.
Таблица 5.10. Критерий Манна-Уитни. Суммы рангов.
WD2 |
N |
Mean Rank |
Sum of Ranks | |
V9 Возраст |
1 |
117 |
116.7 |
13650.5 |
2 |
103 |
103.5 |
10659.5 | |
Total |
220 |
Критерий Манна-Уитни. Значимость критерия.
Таблица 5.11. Критерий Манна-Уитни. Значимость критерия.
V9 Возраст | |
Mann-Whitney U |
5303.5 |
Wilcoxon W |
10659.5 |
Z |
-1.533 |
Asymp. Sig. (2-tailed) |
0.125 |
Матрица факторных нагрузок
Таблица 7.2. Матрица факторных нагрузок
Component | ||
1 |
2 | |
W3D4 разные политические симпатии |
.769 |
.327 |
W3D1 нет необходимости, отношения нормальны |
-.723 |
.260 |
W3D3 незаинтересованность Японии |
.674 |
.578 |
W3D2 недоверие к друг другу |
-.569 |
-.315 |
W3D5 нежелание Японии признать границы |
.527 |
-.647 |
W3D6 нежелание СССР рассматривать вопрос |
-.481 |
.605 |
Матрица факторных нагрузок после вращения факторов
Таблица 7.3. Матрица факторных нагрузок после вращения факторов
Component | ||
1 | 2 | |
W3D3 незаинтересованность Японии | 0.887 | 0.049 |
W3D4 разные политические симпатии | 0.810 | -0.208 |
W3D2 недоверие к друг другу | -0.643 | 0.095 |
W3D5 нежелание Японии признать границы | 0.025 | -0.834 |
W3D6 нежелание СССР рассматривать вопрос | -0.014 | 0.773 |
W3D1 нет необходимости, отношения нормальны | -0.416 | 0.646 |
Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.
Факторные нагрузки этой матрицы свидетельствуют, что фактор 2 существенно связан с W3D6 - долей считающих, что договор не подписан, так как СССР не желает рассматривать вопрос об островах, и отрицательно - с долей считающих, что все беды из-за непризнания границ Японией (W3D5); имеется относитеельно небольшая положительная его связь с W3D1 - "нет необходимости, отношения нормальны". Можно условно назвать этот фактор "фактором несоветской ориентации".
Первыйй фактор связан с переменными W3D3 - "нет заинтересованности Японии", W3D4 "разные политические симпатии", и несколько слабее, отрицательно, с W3D2 - "недоверие к друг другу". Условно его можно назвать фактором "судьбы". Конечно, в серьезных исследованиях можно было бы проверить факторы с самых различных сторон, нам же пока достаточно пояснить принцип интерпретации, который состоит в формулировке содержания фактора, ухватывающего суть явления.
Сохраненные в виде переменных подкомандой SAVE факторы могут быть использованы для исследования данных, конструирования типологий и т.д. В частности, с помощью команды GRAPH мы получили поле рассеяния наших объектов - городов в просранстве двух переменных-факторов. По этому графику, например, можно заключить, что жители Александровска-Сахалинского проявили в Курильском опросе наибольшую "несоветскую" ориентацию; они менее всего склонны считать, что договора нет потому, что "так сложилось" из-за "недоверия" между странами и из-за разных политических симпатий.
Метод медиан. Разделение на две подвыборки.
Таблица 5.8. Метод медиан. Разделение на две подвыборки.
TP тип поселения |
|||||
Растущие |
Стабильные |
крупные |
гигант | ||
V14 Ср.мес. душевой доход в семье |
> Median |
84 |
104 |
62 |
12 |
<= Median |
90 |
126 |
139 |
56 |
Метод медиан. Значимость критерия.
Таблица 5.9. Метод медиан. Значимость критерия.
V14 Ср.мес. душевой доход в семье | |
N |
673 |
Median |
200 |
Chi-Square |
28.698 |
Df |
3 |
Asymp. Sig. |
0 |
Анализируя величину наблюдаемой значимости, видим, что между точкой зрения на иностранную помощь и возрастом имеется существенная связь, т.е. обнаружено значимое различие распределения доходов в группах.
Наблюдаемые и ожидаемые частоты
Общие характеристики уравнения
Таблица 6.1. Общие характеристики уравнения
R |
R Square |
Adjusted R Square |
Std. Error of the Estimate |
.211 |
.045 |
.042 |
.5277 |
a Predictors: (Constant), V9_2, V9 Возраст
b Dependent Variable: LNV14M логарифм промедианного дохода
Результаты дисперсионного анализа уравнения регрессии показывает, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена.
Одновыборочный T-тест
Таблица 4.2. Одновыборочный T-тест. Средний промедианный доход в группе с относительно низким образованием отличается от нуля при уровне значимости 5%.
T |
Df |
Sig. (2-tailed) |
Mean Difference |
95% Confidence Interval of the Difference | ||
Lower |
Upper | |||||
LNV14 |
-2.0316 |
162 |
0.0438 |
-0.0956 |
-0.1886 |
-0.0027 |
Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.
Таблица 4.1. Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.
T |
Df |
Sig. (2-tailed) |
Mean Difference |
95% Confidence Interval of the Difference | ||
Lower |
Upper | |||||
LNV14M |
-0.831 |
672 |
0.406 |
-0.017 |
-0.058 |
0.023 |
В нашем примере m 0=0 (TESTVAL=0), отклонение среднего равно -0.017, наблюдаемая значимость - 0.406 (почти в 40% случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95% доверительный интервал покрывает ожидаемое значение.
Пример. Есть предположение, что малообразованное население имеет средний логарифм доходов, существенно меньший среднего по совокупности объектов. В нашей анкете образование закодировано следующим образом:
1 Высшее;
2 незак/высш;
3 среднее спец;
4 ПТУ,ФЗУ;
5 10-11кл;
6 7-9 кл.;
7 4-6 кл.;
8 менее 4-х классов;
9 нет образования.
Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.
compute f= (v10>3).
*формирование переменной фильтра.
filter f.
T-TEST /TESTVAL=0 / VARIABLES=lnv14 /CRITERIA=CIN (.95) .
filter off.
Oneway, группы неразличимых средних
Таблица 4.13. Oneway, группы неразличимых средних
W10 образование |
1 |
2 | ||
Tukey HSD |
2.00 н/высш |
37 |
-0.248 |
|
5.00 ниже среднего |
33 |
-0.107 |
-0.107 | |
4.00 среднее |
130 |
-0.093 |
-0.093 | |
3.00 ср спец |
220 |
0.009 | ||
1.00 Высшее |
251 |
0.048 | ||
Sig. |
0.429 |
0.436 | ||
Scheffe |
2.00 н/высш |
37 |
-0.248 |
|
5.00 ниже среднего |
33 |
-0.107 |
-0.107 | |
4.00 среднее |
130 |
-0.093 |
-0.093 | |
3.00 ср спец |
220 |
0.009 |
0.009 | |
1.00 Высшее |
251 |
0.048 | ||
Sig. |
0.093 |
0.579 |
Критерий Тьюки основан на одновременных доверительных интервалах разности матожиданий в группах. Этот критерий из трех рассматриваемых, пожалуй, наиболее разумен. Предположение об одновременном равенстве разностей всех групповых матожиданий - слишком сильное предположение, в критерии Тьюки такого не предполагается.
Oneway, множественные попарные сравнения
Таблица 4.14. Oneway, множественные попарные сравнения
Mean Difference (I-J) |
Std. Error |
Sig. |
95% Confidence Interval | ||||
(I) W10 образование |
(J) W10 образование |
Lower Bound |
Upper Bound | ||||
Tukey HSD |
1.00 Высшее |
2.00 н/высш |
0.296* |
0.093 |
0.013 |
0.041 |
0.551 |
3.00 ср спец |
0.039 |
0.049 |
0.934 |
-0.095 |
0.172 | ||
4.00 среднее |
0.140 |
0.057 |
0.102 |
-0.016 |
0.297 | ||
5.00 ниже среднего |
0.154 |
0.098 |
0.516 |
-0.113 |
0.422 | ||
2.00 н/высш |
1.00 Высшее |
-0.296* |
0.093 |
0.013 |
-0.551 |
-0.041 | |
3.00 ср спец |
-0.257 |
0.094 |
0.050 |
-0.514 |
0.000 | ||
4.00 среднее |
-0.155 |
0.099 |
0.515 |
-0.425 |
0.114 | ||
5.00 ниже среднего |
-0.142 |
0.127 |
0.799 |
-0.488 |
0.205 | ||
3.00 ср спец |
1.00 Высшее |
-0.039 |
0.049 |
0.934 |
-0.172 |
0.095 | |
2.00 н/высш |
0.257 |
0.094 |
0.050 |
0.000 |
0.514 | ||
4.00 среднее |
0.102 |
0.059 |
0.412 |
-0.058 |
0.262 | ||
5.00 ниже среднего |
0.116 |
0.099 |
0.769 |
-0.154 |
0.386 | ||
4.00 среднее |
1.00 Высшее |
-0.140 |
0.057 |
0.102 |
-0.297 |
0.016 | |
2.00 н/высш |
0.155 |
0.099 |
0.515 |
-0.114 |
0.425 | ||
3.00 ср спец |
-0.102 |
0.059 |
0.412 |
-0.262 |
0.058 | ||
5.00 ниже среднего |
0.014 |
0.103 |
1.000 |
-0.268 |
0.296 | ||
5.00 ниже среднего |
1.00 Высшее |
-0.154 |
0.098 |
0.516 |
-0.422 |
0.113 | |
2.00 н/высш |
0.142 |
0.127 |
0.799 |
-0.205 |
0.488 | ||
3.00 ср спец |
-0.116 |
0.099 |
0.769 |
-0.386 |
0.154 | ||
4.00 среднее |
-0.014 |
0.103 |
1.000 |
-0.296 |
0.268 |
В качестве примера рассмотрим различие среднего промедианного логарифма доходов в группах по образованию, группы которого несколько укрупнены:
recode v10 (4 5 =4) (6 7 8=5) (else=copy) into w10.
var lab w10 "образование".
value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. спец" 4 "среднее" 5 "ниже среднего".
ONEWAY lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).
На основании полученной выдачи видим, что:
доверительные интервалы для высшего и неполного высшего образования не пересекаются (см. табл.4.10); дисперсии в группах различаются не существенно (см. тест Ливиня, табл.4.11); в целом наблюдается связь душевого дохода с образованием (гипотеза о равенстве средних - отвергается, см. таблицу 4.12); выделились следующие две группы по образованию с неразличимыми средними: 2 н/высшее, 5 ниже среднего, 4 среднее и 5 ниже среднего, 4 среднее, 3 среднее спец, 1 высшее (табл.4.13); попарные множественные сравнения показали, что единственная пара отличающихся по средним групп - это группы с неполным высшим и респондентов с высшим образованием (наблюдаемая значимость - 0.013, таблица 4.14).
Oneway, обычный дисперсионный анализ
Таблица 4.12. Oneway, обычный дисперсионный анализ
Sum of Squares |
df |
Mean Square |
F |
Sig. | |
Between Groups |
4.187 |
4 |
1.047 |
3.724 |
0.005 |
Within Groups |
187.202 |
666 |
0.281 |
||
Total |
191.389 |
670 |
Oneway, проверка однородности дисперсий
Таблица 4.11. Oneway, проверка однородности дисперсий
Levene Statistic |
df1 |
df2 |
Sig. |
2.282 |
4 |
666 |
0.059 |
Oneway, сравнение среднего промедианного логарифма доходов.
Таблица 4.10. Oneway, сравнение среднего промедианного логарифма доходов.
N |
Mean |
Std. Deviation |
Std. Error |
95% Confidence Interval for Mean |
Minimum |
Maximum | ||
Lower Bound |
Upper Bound | |||||||
1.00 Высшее |
251 |
0.048 |
0.511 |
0.032 |
-0.016 |
0.111 |
-1.050 |
2.015 |
2.00 н/высш |
37 |
-0.248 |
0.606 |
0.100 |
-0.450 |
-0.046 |
-1.386 |
1.099 |
3.00 ср спец |
220 |
0.009 |
0.479 |
0.032 |
-0.055 |
0.073 |
-1.386 |
1.740 |
4.00 среднее |
130 |
-0.093 |
0.619 |
0.054 |
-0.200 |
0.015 |
-2.254 |
1.504 |
5.00 ниже сред. |
33 |
-0.107 |
0.530 |
0.092 |
-0.295 |
0.081 |
-0.916 |
1.099 |
Total |
671 |
-0.016 |
0.534 |
0.021 |
-0.057 |
0.024 |
-2.254 |
2.015 |
Описательные статистики, полученные при расщеплении данных для сравнения групп
Таблица 2.2. Описательные статистики, полученные при расщеплении данных для сравнения групп
V8 Пол |
N |
Minimum |
Maximum |
Mean |
Std. Deviation | |
1 муж. |
V9 Возраст |
354 |
16.0 |
76.0 |
39.6 |
13.0 |
V14 Ср.мес. душевой доход |
341 |
21.0 |
1254.0 |
237.9 |
168.2 | |
Valid N (listwise) |
335 |
|||||
2 жен. |
V9 Возраст |
344 |
16.0 |
74.0 |
39.5 |
12.2 |
V14 Ср.мес. душевой доход |
324 |
50.0 |
1500.0 |
219.8 |
132.8 | |
Valid N (listwise) |
317 |
При получении результатов для отдельных групп программой
SORT CASES BY v8 .
SPLIT FILE SEPARATE BY v8 .
Descriptives Variables= v9 v14.
будут получены две отдельные таблицы.
Таблица показывает, что преобладает
Таблица 5.16 показывает, что преобладает уменьшение веса, что подтверждается наблюдаемой значимостью статистики критерия, равной 0.00053 (таблица 5.17).
Таблица показывает, что уравнение
Таблица 5.1 показывает, что уравнение объясняет всего 4.5% дисперсии зависимой переменной (коэффициент детерминации R2=.045), скорректированная величина коэффициента равна 0.042, а коэффициент множественной корреляции равен 0.211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно понять, рассматривая таблицу 6.2.
Покупка алкоголя и табачных
Таблица 3.10. Покупка алкоголя и табачных изделий и наличие крупной собственности (фрагмент таблицы сопряженности, частоты и % по строкам)
Z-статистики в таблице 3.11 показывают значимость связей некоторых ответов. Однако множественные сравнения не позволяют полностью доверять этим результатам.
Таблица получена в результате
Таблица 3.4 получена в результате преобразования данных и применения процедуры CROSSTABS с параметром CELLS:
recode v4 (1,2=1)(3=2)(4=3) into W4.
var lab W4 "Возможность удовлетворить территориториальные требования Японии".
Val lab W4 1 "отдать" 2 "не надо" "не знаю".
CROSSTABS /TABLES = v1 BY W4 /CELLS= COUNT ROW col.
Верхний процент в клетке соответствует отношению абсолютного числа объектов, попавших в эту клетку, к итоговой сумме по строке. Нижний процент соответствует отношению значения клетки к итоговой сумме по столбцу. По величине процентов, приведенных в клетках, можно сравнивать группы респондентов по распределению как по "вертикальной" переменной, так и по "горизонтальной".
В частности, анализируя первую строку матрицы (она соответствует ответам тех респондентов, которые считают, что иностранная помощь не нужна), видим, что основная часть - 81.7% этой группы респондентов против передачи островов Японии. При этом их доля среди тех, кто против передачи островов, составляет всего 27.2%; а основная часть (62.0%) противников передачи островов допускает возможность получения ограниченной иностранной помощи. В последнем столбце таблицы расположены итоги по каждой строке, которые совпадают с распределением по переменной V1. Так как до выполнения команды CROSSTABS, были объявлены неопределенные значения v1 и v4, таблица рассчитывалась без их учета, поэтому объем выборки, учтенный в таблице, составил 712 анкет из 721 имеющихся. Аналогичные данные приведены в строке TOTAL для столбцов.
Проценты в Crosstabs позволяют изучать взаимосвязь переменных, а не только структуру таблицы. В частности, сравнивая строки, можно сделать заключение, что более склонны отдать острова те, кто считает, что нужна помощь восточным регионам (37%), чем те, кто считает, что помощи не нужно. Можно взять в качестве точки отсчета распределение в целом по совокупности (15% всего готовы отдать все или часть островов в среднем по массиву).
Таблица , полученная по совокупности
Таблица 3.10, полученная по совокупности городских семей (подвыборка из RLMS 2604 семей), показывает такую связь. В таблице строки соответствуют ответам по одному, столбцы - ответам по другому вопросу, отличие от обычной таблицы частот только в том, что группы объектов (семей), соответствующие разным ответам, могут пересекаться.
Явно видно, что в семьях, владеющих крупной собственностью, употребляют больше алкоголя и табака (может быть, сказывается наличие в них большего числа мужчин?). Однако, насколько надежен этот вывод? Особенно для группы владельцев грузового автомобиля - уж слишком мала эта группа для надежных выводов.
Проверка лог-нормальности распределения доходов
Таблица 5.6. Проверка лог-нормальности распределения доходов
LNV14 | ||
N |
673 | |
Normal Parameters |
Mean |
5.2812 |
Std. Deviation |
0.5344 | |
Most Extreme Differences |
Absolute |
0.098 |
Positive |
0.098 | |
Negative |
-0.055 | |
Kolmogorov-Smirnov Z |
2.54 | |
Asymp. Sig. (2-tailed) |
0 |
Значение критерия несколько уменьшилось, но существенность различия сохранилось (таблица 5.6).
Иногда бывает необходимо проверить законы распределения не предусмотренные в NPAR TESTS. В этом случае вспомните, что распределение непрерывной случайной величины h =Fx (x ), где F - функция распределения x , равномерно на отрезке (0,1). Таким образом, воспользовавшись статистическими функциями преобразования данных SPSS, из тестируемой переменной можно всегда получить переменную, имеющую теоретически равномерное распределение и проверив, действительно ли ее распределение равномерно, принять или отвергнуть гипотезу о виде распределения Fx (x).
Проверка нормальности распределения доходов с использованием критерия Колмогорова-Смирнова.
Таблица 5.5. Проверка нормальности распределения доходов с использованием критерия Колмогорова-Смирнова.
V14 Душевой доход в семье | ||
N |
673 | |
Normal Parameters |
Mean |
229.11 |
Std. Deviation |
151.34 | |
Most Extreme Differences |
Absolute |
0.187 |
Positive |
0.187 | |
Negative |
-0.149 | |
Kolmogorov-Smirnov Z |
4.85 | |
Asymp. Sig. (2-tailed) |
0 |
В таблице результатов выдается двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики, фиксирующей отличие распределения от заданного.
Например, проверим нормальности распределения доходов командой:
NPAR TESTS K-S(NORMAL) = V14.
Поскольку двусторонняя значимость в таблице 5.5 (2-tailed P) равна нулю, то можем сделать вывод, что полученная разность фиксирует существенное отличие распределения по доходам от нормального. Во многих исследованиях используется вместо дохода используется его логарифм, распределение которого считается близким к нормальному. Проверим нормальность логарифма доходов:
compute lnv14=ln(v14).
npar test k-s(normal)=w14.
Распределение переменной
Таблица 3.3. Распределение переменной "Точка зрения на иностранную помощь" в разрезе региона и пола респондентов.
V1 точка зр. на иностр. Помощь | ||||||||
V8 Пол |
Не нужна |
огранич. |
Нужна |
не знаю |
Total | |||
Муж. |
R регион |
Дальн В |
Count |
25 |
91 |
22 |
7 |
145 |
% |
17.2 |
62.8 |
15.2 |
4.8 |
100 | |||
Вост сиб |
Count |
25 |
56 |
13 |
1 |
95 | ||
% |
26.3 |
58.9 |
13.7 |
1.1 |
100 | |||
Зап Сиб |
Count |
38 |
65 |
13 |
3 |
119 | ||
% |
31.9 |
54.6 |
10.9 |
2.5 |
100 | |||
Total |
Count |
88 |
212 |
48 |
11 |
359 | ||
% |
24.5 |
59.1 |
13.4 |
3.1 |
100 | |||
жен. |
R регион |
Дальн В |
Count |
26 |
87 |
9 |
6 |
128 |
% |
20.3 |
68.0 |
7.0 |
4.7 |
100 | |||
Вост сиб |
Count |
23 |
54 |
6 |
7 |
90 | ||
% |
25.6 |
60.0 |
6.7 |
7.8 |
100 | |||
Зап Сиб |
Count |
40 |
75 |
9 |
7 |
131 | ||
% |
30.5 |
57.3 |
6.9 |
5.3 |
100 | |||
Total |
Count |
89 |
216 |
24 |
20 |
349 | ||
% |
25.5 |
61.9 |
6.9 |
5.7 |
100 |
Употребление "BY" в команде CROSSTABS возможно до 10 раз, но и этого достаточно, чтобы занять все ресурсы компьютера.
Если мы хотим получить в одной команде CROSSTABS несколько независимых таблиц, то следует отделять списки переменных символом "/":.
CROSSTABS V8 V11 BY V4 V1/ V12 BY V1/cells row.
Распределение по переменной V- точка зрения на иностранную помощь
Таблица 3.1. Распределение по переменной V1 - точка зрения на иностранную помощь
Frequency |
Percent |
Valid Percent |
Cumulative Percent | ||
Valid |
1 не нужна |
177 |
24.5 |
24.7 |
24.7 |
2 огранич. |
433 |
60.1 |
60.5 |
85.2 | |
3 нужна |
73 |
10.1 |
10.2 |
95.4 | |
4 не знаю |
33 |
4.6 |
4.6 |
100 | |
Total |
716 |
99.3 |
100 |
||
Missing |
0 |
5 |
0.7 |
||
Total |
721 |
100 |
В таблице 3.1 и на Рисунок 3.1 дан пример полученного процедурой FREQUENCIES частотного распределения респондентов анкеты "Курильские острова" и его столбиковой диаграммы по результатам их ответов на вопрос о точке зрения на иностранную помощь:
MISSING VALUES V1(0).
FREQUENCIES V1 /BARCHART .
В колонке "Percent" проценты даны относительно всего объема выборки с учетом неопределенных кодов. В колонке "Valid Percent" приведены проценты в выборке без неопределенных кодов. В колонке "Cum Percent" - суммарный процент с нарастающим итогом. Суммарный процент не учитывает неопределенные коды, т.е. дается для выборки без объектов с неопределенными значениями. В данном примере была предусмотрена обработка неопределенных пользовательских значений, заданных нулевым кодом (5 респондентов из 721 не ответили на первый вопрос и были закодированы при наборе данных "0"). Наиболее распространенным (433 ответа) было мнение, что островам нужна ограниченная иностранная помощь. Кроме того, на данном примере можно наблюдать, насколько важно в практической работе использовать VAR LAB и VAL LAB - команды присвоения признакам текстовых имен.
В процедуре FREQUENCIES полезно использовать следующие необязательные параметры:
/BARCHART - столбиковая диаграмма
/PIECHART - круговая диаграмма
/HISTOGRAM - гистограмма
/NTILES - n-тили (квартили, квинтили, децили и др.)
/PERCENTILES - процентили
/STATISTICS
Результаты однофакторного дисперсионного анализа
Таблица 4.9. Результаты однофакторного дисперсионного анализа
Sum of Squares |
df |
Mean Square |
F |
Sig. | ||
LNV14M Логарифм душевого дохода * V11 Cостояние в браке |
Between Groups |
0.40 |
3 |
0.13 |
0.465 |
0.707 |
Within Groups |
188.51 |
650 |
0.29 |
|||
Total |
188.92 |
653 |
Таблица содержит сведения об информативности
Таблица 7.1 содержит сведения об информативности полученных главных компонент. Первый фактор объясняет часть общей дисперсии, равную 2.402 (40.04%), фактор 2 - 1.393 (23.21%), третий - .853 (14.22%) и т.д. Первые два фактора объясняют 63.25% дисперсии, первые три - 77.47%. Поскольку уже третья компонента объясяет менее 1 дисперсии, рассматривается всего 2 фактора - какой смысл рассмативать факторы, объясняющие меньше дисперсии, чем переменная из исходых данных?
Матрица факторных нагрузок факторов - главных компонент представлена в таблице 7.2. Мы не будем анализировать эту матрицу, а ниже подробнее проанализируем факторные нагрузки после вращения (таблица 7.3).
Среднемессячный душевой доход в семье
Таблица 4.8. Среднемессячный душевой доход в семье
V11 Cостояние в браке |
V8 Пол |
Mean |
Std. Deviation |
Median |
N |
1 женат |
1 муж. |
228.4 |
152.9 |
200 |
271 |
2 жен. |
225.7 |
140.8 |
200 |
242 | |
Total |
227.1 |
147.2 |
200 |
513 | |
2 вдовец |
1 муж. |
276.0 |
111.0 |
270 |
5 |
2 жен. |
192.8 |
112.7 |
155 |
20 | |
Total |
209.4 |
115.1 |
168 |
25 | |
3 разведен |
1 муж. |
331.9 |
230.0 |
295 |
16 |
2 жен. |
195.9 |
86.1 |
180 |
25 | |
Total |
249.0 |
169.7 |
200 |
41 | |
4 не был |
1 муж. |
263.3 |
223.0 |
200 |
41 |
2 жен. |
212.2 |
118.6 |
200 |
34 | |
Total |
240.2 |
183.9 |
200 |
75 | |
Total |
1 муж. |
238.4 |
167.8 |
200 |
333 |
2 жен. |
219.9 |
133.4 |
200 |
321 | |
Total |
229.3 |
152.0 |
200 |
654 |
Анализ результатов позволяет сделать следующие выводы. Самый высокий среднемесячный доход (332 руб.) имеют разведенные мужчины, при этом он значительно превосходит среднемесячный доход, полученный всеми разведенными (249 руб.) и всеми мужчинами (238 руб.). На втором месте по доходам находится вдовцы (276 руб.), но их всего 5 человек, поэтому цифра ненадежна. Среди женщин наиболее высокие среднемесячные доходы (226 руб.) у состоящих в браке, что почти равно доходам женатых мужчин. Это естественно - ведь это же душевой доход в семье.
Мы можем сколько угодно описывать эту таблицу, но описание не будет доказательством какой-либо истины, пока оно не подтверждено статистическим выводом. Такая таблица может быть источником гипотез о взаимосвязи, которые в дальнейшем следует проверить.
Одномерноый дисперсионный анализ здесь проводится только по переменным первого уровня задания групп.
Напомним, что суть этого анализа состоит в вычислениии межгруппового квадратичныого разброса зависимой переменной SSв (Between groups) и внутригруппового разброса, обозначается SSw (Within groups). Величина SSв характеризует, насколько сильно отклонились от общего среднего средние между группами, а SSw - отклонения от центров групп. Статистика
в условиях гипотезы равенства средних и дисперсий распределения при нормальном распределении X в группах имеет распределение Фишера. F представляет собой в определенном смысле расстояние наблюдаемой от таблицы, в которой нет никаких зависимостей - средние в группах совпадают.юЕН ВПМШЫЕ F, ФЕН УХЭЕУФЧЕООЕЕ ЪБЧЙУЙНПУФШ, ПДОБЛП УБНБ РП УЕВЕ ЧЕМЙЮЙОБ F ОЙ П ЮЕН ОЕ ЗПЧПТЙФ. пФЧЕФ ОБ ЧПРТПУ ДБЕФ, ЛБЛ ПВЩЮОП, ЧЕМЙЮЙОБ ОБВМАДБЕНПК ЪОБЮЙНПУФЙ F - ЛТЙФЕТЙС: SIGNIFICANCE - ЧЕТПСФОПУФШ УМХЮБКОП РПМХЮЙФШ ЪОБЮЕОЙЕ F, ВПМШЫЕЕ ЧЩВПТПЮОПЗП SIG=P{F>FЧЩВ}.
еЭЕ ТБЪ ПВТБФЙН ЧОЙНБОЙЕ ОБ ФП, ЮФП Ч ФБЛПН БОБМЙЪЕ ЙУРПМШЪХЕФУС РТЕДРПМПЦЕОЙЕ П ОПТНБМШОПУФЙ ТБУРТЕДЕМЕОЙС ЪБЧЙУЙНПК РЕТЕНЕООПК. оЕ УМЕДХЕФ РТПЧПДЙФШ ОЕРПУТЕДУФЧЕООП ДЙУРЕТУЙПООЩК БОБМЙЪ РЕТЕНЕООЩИ У УХЭЕУФЧЕООП ПФМЙЮБАЭЙНУС ПФ ОПТНБМШОПЗП ТБУРТЕДЕМЕОЙЕН. оБРТЙНЕТ, РЕТЕНЕООХА "ДХЫЕЧПК ДПИПД"
ч ФБВМЙГЕ4.9. РТЙЧЕДЕОБ ЧЩДБЮБ ПДОПНЕТОПЗП ДЙУРЕТУЙПООПЗП БОБМЙЪБ РПУМЕ ЧЩРПМОЕОЙС ЛПНБОДЩ
MEANS TABLES=lnv14m BY v11 BY v8 /STATISTICS ANOVA .
оБВМАДБЕНЩК ХТПЧЕОШ ЪОБЮЙНПУФЙ 0.707 УЧЙДЕФЕМШУФЧХЕ П ФПН, ЮФП ОБ ОБЫЙИ ДБООЩИ ХЛБЪБООЩН НЕФПДПН УЧСЪШ ОЕ ПВОБТХЦЙЧБЕФУС.
средних. Молочные продукты
Таблица средних. Молочные продукты и жилплощадь.
Душевой доход любителей сладкого и жилье. Одновременное сравнение средних по строкам таблицы.
Средний логарифм доходов
Таблица 3.15. Средний логарифм доходов в группах по жилищным условиям и по покупкам сладкого (среднее, стд.отклонение, численность в группах).
Средний возраст в группах
Таблица 3.9. Средний возраст в группах по ответам на вопрос 3 "Что мешает заключить договор" для мужчин и женщин.
Возраст |
|||||||
Пол |
Total |
||||||
1 муж. |
2 жен. |
Mean |
Valid N | ||||
Mean |
Valid N |
Mean |
Valid N |
||||
$V3 |
1 нет необх |
38.0 |
38 |
40.5 |
22 |
38.9 |
60 |
2 недоверие |
45.4 |
41 |
44.0 |
45 |
44.7 |
86 | |
3 незаинт Яп |
37.4 |
32 |
36.5 |
56 |
36.8 |
88 | |
4 разн полит |
39.8 |
41 |
36.5 |
30 |
38.4 |
71 | |
5 непризн гр |
39.8 |
163 |
40.8 |
151 |
40.2 |
314 | |
6 нежел СССР |
38.2 |
82 |
39.3 |
61 |
38.7 |
143 | |
7 другое |
38.6 |
5 |
44.3 |
3 |
40.8 |
8 | |
8 не знаю |
35.0 |
24 |
36.5 |
53 |
36.0 |
77 | |
Total |
39.4 |
426 |
39.5 |
421 |
39.4 |
847 |
Следует обратить внимание, что в General tables итоговые строки и столбцы таблицы формируются по сумме ответов. Поэтому итоговые средние подсчитываются некорректно.
Пример. Синтаксис задания расчета среднего возраста в группах по ответам на вопрос 3 "Что мешает заключить договор" для мужчин и женщин имеет следующий вид:
* General Tables.
TABLES /OBSERVATION= v9 /MRGROUP $v3 v3s1 to v3s8
/GBASE=CASES /FTOTAL= $t000001 "Total" $t000003 "Total"
/TABLE=$v3 + $t000001 BY v8 > (STATISTICS) + $t000003 BY v9
/STATISTICS mean(v9(COMMA7.1)) validn(v9(COMMA5.0)).
Результат представлен таблицей 3.9. Самая "старая" группа - те, кто считает, что мешает взаимное недоверие, как для респондентов мужского пола, так и для женского. К сожалению, насколько это отличие статистически значимо, выяснить по полученной таблице невозможно.
Обратите внимание, что общая сумма здесь - 847 ответов, на 135 больше, чем объектов в выборке. Это произошло из-за того, что один респондент может дать несколько ответов.
Команда Multiple Response Tables, по сути, несколько облегченный вариант Gentral Tables.