Электронный учебник справочник по SPSS

         

TABLES задание таблиц



/TABLES задание таблиц

Параметр TABLES может быть опущен:

CROSSTABS v1 TO v5 BY v10.

Строки таблицы сопряженности соответствуют значениям переменной, указанной в тексте команды перед ключевым словом "BY"; столбцы матрицы соответствуют значениям переменной, расположенной после "BY".

Пример - совместное распределение по региону (R), точке зрения на иностранную помощь (v1) и полу (V8):

CROSSTABS TABLES R BY v1 BY v8/cells = COUNT ROW.

В результате выполнения этой команды рассчитывается таблица 3.3. Перед ключевым словом BY указываются переменные, по которым вычисляется двухвходовая таблица (переменная, значения которой идентифицируют строки), после ключевого слова BY указываются переменные, идентифицирующие столбцы. За следующими BY идут переменные условий, определяющие подвыборки, на которых рассчитываются таблицы. Хотя в современной версии пакета эти таблицы объединяются в одну таблицу, их статистический анализ производится по-отдельности. Ключевым словом BY могут разделяться и списки переменных. В этом случае процедурой получаются таблицы по всем парам таблиц из первого и второго списка. Например,

CROSSTABS V8 V11 V12 BY V4 V1.

Эта команда выведет таблицу сопряженности: V8 c V4, V8 c V1, V11 c V4, V11 c V1 и т.д., то есть сочетания по всем переменным, перечисленным в команде. Всего будет выдано на печать 6 таблиц. Если более двух списков переменных разделены ключевыми словами "BY", то переменные, стоящие за вторым, третьим и т.д. "BY", задают условия получения таблиц. Таблицы формируются на подвыборках, соответствующих сочетаниям значений этих переменных.



Cравнение распределения доходов в двух группах на основе критерия Колмогорова-Смирнова,.



Таблица 5.7. Cравнение распределения доходов в двух группах на основе критерия Колмогорова-Смирнова,.

V14 Душевой доход в семье

Most Extreme Differences

Absolute

0.05

Positive

0.05

Negative

-0.028

Kolmogorov-Smirnov Z

0.455

Asymp. Sig. (2-tailed)

0.986

В приведенном примере (таблица 5.7) наблюдаемый уровень значимости велик (0.986). Поэтому, приходим к заключению, что на нашей учебной выборке критерием Колмогорова-Смирнова не удалось обнаружить различие распределений по душевому доходу в группах считающих, что нужно отдать острова или их часть, и противников такого решения. Это не означает достоверно, что распределения совпадают, возможны тонкие различия распределений, которые критерий не улавливает из-за малого объема данных.



Дисперсия, объясненная факторным анализом



Таблица 7.1. Дисперсия, объясненная факторным анализом

Initial Eigenvalues

Extraction Sums of Squared Loadings

Component

Total

% of Variance

Cumulative%

Total

% of Variance

Cumulative %

1

2.402

40.038

40.038

2.402

40.038

40.038

2

1.393

23.210

63.249

1.393

23.210

63.249

3

.853

14.220

77.468

4

.719

11.977

89.445

5

.345

5.752

95.197

6

.288

4.803

100.000

Extraction Method: Principal Component Analysis.



Дисперсионный анализ уравнения



Таблица 6.2. Дисперсионный анализ уравнения

Sum of Squares

df

Mean Square

F

Sig.

Regression

8.484

2

4.242

15.232

.000

Residual

181.298

651

.278

Total

189.782

653

a Predictors: (Constant), V9_2, V9 Возраст

b Dependent Variable: LNV14M логарифм промедианного дохода



Хи-квадрат тесты, оценка значимости методом Монте-Карло.



Таблица 3.8. Хи-квадрат тесты, оценка значимости методом Монте-Карло.

Value

Df

Asymp. Sig. (2-sided)

Monte Carlo Sig. (2-sided)

Sig.

99% Confidence Interval

Lower Bound

Upper Bound

Pearson Chi-Square

21.6

9

0.010

0.0155

0.012

0.019

Likelihood Ratio

18.9

9

0.026

0.0327

0.028

0.037

Fisher's Exact Test

19.1

0.0103

0.008

0.013

Linear-by-Linear Association

0.3

1

0.611

0.6492

0.637

0.661

N of Valid Cases

276

a 9 cells (56.3%) have expected count less than 5. The minimum expected count is .47.



Интервалы для мужчин и женщин



Таблица 2.1. Интервалы для мужчин и женщин

Интервалы возраста

1

2

3

4

5

Мужчины

до 18

до 33

до 45

До 60

>60 лет

Женщины

до 18

до 33

до 45

До 55

>55 лет

DO IF (v8=1).

Recode v9 (lo thru 18=1)(18 thru 33=2)(33 thru 45=3)(45 thru 60=4)(60 thru hi=5) into w9.

Else if (v8=2).

Recode v9 (lo thru 18=1)(18 thru 33=2)(33 thru 45=3)(45 thru 55=4)(55 thru hi=5) into w9.

END IF.

Здесь для мужчин в переменной w9 получаются одни интервалы значений, для женщин - другие. Если бы не было неопределенных значений v8, можно было бы вместо "Else if (v8=2)." использовать просто "Else".

Заметим, что команды RECODE и COUNT непосредственно не могут выполняться на подвыборках объектов, но с командами DO IF и END IF их выполнение возможно. Именно это используется при задании таких условных команд из диалоговых окон.

Напомним, что команды, запущенные без команды Execute, накапливаются в памяти, но не выполняются (Transformations pending в статусной строке). Поэтому, из-за ошибки между DO IF и END IF, в память попадает только DO IF. После исправления ошибки и запуска программы оказывается больше запущенных команд DO IF, чем END IF, и сообщение об ошибке повторяется. Это следствие того, что команды IF, COMPUTE, COUNT, RECODE преобразуют данные не сразу, а после запуска команды EXECUTE.

Для того, чтобы справиться с этой ситуацией, следует запустить отдельно команду

CLEAR TRANSFORMATIONS.

Эта команда очистит память от невыполненных команд.



Коэффициент корреляции времени приготовления пищи и закупки продуктов



Таблица 4.16. Коэффициент корреляции времени приготовления пищи и закупки продуктов

CO17A время на приготовления пищи

CO15A время на покупку продуктов

Pearson Correlation

0.3193

Sig. (2-tailed)

0.0000

N

3549



Таблица 4.17. Коэффициент корреляции времени приготовления пищи и закупки продуктов

Controlling for.. CO19A (время на уборку квартиры ) CO17A время на приготовления пищи
CO15A время на покупку продуктов Pearson Correlation 0. 2558
Sig. (2-tailed) 0.0000
N 3546
 

Коэффициенты для ранговых переменных



Таблица 3.7. Коэффициенты для ранговых переменных

Value

Asymp. Std. Error

Approx. T

Approx. Sig.

Kendall's tau-b

-0.158

0.043

-3.571

0.000

Kendall's tau-c

-0.094

0.026

-3.571

0.000

N of Valid Cases 606

Можно с уверенностью утверждать, что преобладает обратная связь между рангами: чем меньше желание отдать острова, тем больше преобладает мнение, что помощь необходима.



Коэффициенты корреляции Спирмена (Spearman's rho)



Таблица 4.15. Коэффициенты корреляции Спирмена (Spearman's rho)

V9 Возраст

V14 Ср.мес. душевой доход в семье

V10 Образование

Correlation Coefficient

-.021

-.086

Sig. (2-tailed)

.574

.026

N

692

671



Коэффициенты регрессии.



Таблица 6.3. Коэффициенты регрессии.

Unstandardized Coefficients

Standardized Coefficients

T

Sig.

B

Std. Error

Beta

(Constant)

-1.0569

0.1888

-5.5992

0.0000

V9 Возраст

0.0505

0.0093

1.1406

5.4267

0.0000

V9_2

-0.0006

0.0001

-1.0829

-5.1521

0.0000

Регрессионные коэффициенты представлены в таблице 6.3. В соответствии с ними, уравнение регрессии имеет вид

Лог.промед.дохода = -1.0569+0.0505*возраст-0.0006*возраст2

Стандартная ошибка коэффициентов регрессии значительно меньше величин самих коэффициентов, их отношения - t статистики, по абсолютной величине больше 5. Наблюдаемая значимость статистик (Sig) равна нулю, поэтому гипотеза о равенстве коэффициентов нулю отвергается для каждого коэффициента. Стоит обратить внимание на редкую ситуацию - коэффициенты бета по абсолютной величине больше единицы. Это произошло, по-видимому, из-за того, что корреляция между возрастом и его квадратом весьма велика.

Рисунок 6.1 показывает линию регрессии и доверительные границы для M(y) - матожидания y и для индивидуальных значений y. Он получается с помощью наложения полей рассеяния возраста с зависимой переменной, с переменной - прогнозом, с переменными - доверительными границами:

GRAPH /SCATTERPLOT(OVERLAY)=v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1 lici_1 uici_1 lnv14m(PAIR).

Границы для M(y) значительно уже, чем для y, так как последние должны охватывать больше 95% точек графика.

На графике не прослеживается явной зависимости дисперсии остатка от значений независимой переменной - возраста. Некоторое сужение рассеяния данных для старших возрастов произошло, вероятно, за счет общего уменьшения плотности двумерного распределения.



Коэффициенты регрессии с индексными переменными.



Таблица 6.4. Коэффициенты регрессии с индексными переменными.

B

Std. Error

Beta

T

Sig.

(Constant)

-1.1721

0.1937

-6.0500

0.0000

V9 Возраст

0.0635

0.0105

1.4298

6.0299

0.0000

V9_2

-0.0007

0.0001

-1.3243

-5.7351

0.0000

T1 Женат

-0.2030

0.0766

-0.1540

-2.6488

0.0083

T2 Вдовец

-0.2471

0.1352

-0.0850

-1.8279

0.0680

T3 Разведен

-0.1494

0.1134

-0.0661

-1.3176

0.1881

Кроме того, модель с тремя "параллельными" параболами, вероятно, не полностью адекватна, каждая группа может иметь свою конфигурацию линии регрессии. Для учета этого в уравнении стоит использовать переменные взаимодействия. О том, как их конструировать - следующий раздел.



Критерий Манна-Уитни. Суммы рангов.



Таблица 5.10. Критерий Манна-Уитни. Суммы рангов.

WD2

N

Mean Rank

Sum of Ranks

V9 Возраст

1

117

116.7

13650.5

2

103

103.5

10659.5

Total

220



Критерий Манна-Уитни. Значимость критерия.



Таблица 5.11. Критерий Манна-Уитни. Значимость критерия.

V9 Возраст

Mann-Whitney U

5303.5

Wilcoxon W

10659.5

Z

-1.533

Asymp. Sig. (2-tailed)

0.125



Матрица факторных нагрузок



Таблица 7.2. Матрица факторных нагрузок

 

Component

1

2

W3D4 разные политические симпатии

.769

.327

W3D1 нет необходимости, отношения нормальны

-.723

.260

W3D3 незаинтересованность Японии

.674

.578

W3D2 недоверие к друг другу

-.569

-.315

W3D5 нежелание Японии признать границы

.527

-.647

W3D6 нежелание СССР рассматривать вопрос

-.481

.605



Матрица факторных нагрузок после вращения факторов



Таблица 7.3. Матрица факторных нагрузок после вращения факторов

  Component
1 2
W3D3 незаинтересованность Японии 0.887 0.049
W3D4 разные политические симпатии 0.810 -0.208
W3D2 недоверие к друг другу -0.643 0.095
W3D5 нежелание Японии признать границы 0.025 -0.834
W3D6 нежелание СССР рассматривать вопрос -0.014 0.773
W3D1 нет необходимости, отношения нормальны -0.416 0.646

Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization.

Факторные нагрузки этой матрицы свидетельствуют, что фактор 2 существенно связан с W3D6 - долей считающих, что договор не подписан, так как СССР не желает рассматривать вопрос об островах, и отрицательно - с долей считающих, что все беды из-за непризнания границ Японией (W3D5); имеется относитеельно небольшая положительная его связь с W3D1 - "нет необходимости, отношения нормальны". Можно условно назвать этот фактор "фактором несоветской ориентации".

Первыйй фактор связан с переменными W3D3 - "нет заинтересованности Японии", W3D4 "разные политические симпатии", и несколько слабее, отрицательно, с W3D2 - "недоверие к друг другу". Условно его можно назвать фактором "судьбы". Конечно, в серьезных исследованиях можно было бы проверить факторы с самых различных сторон, нам же пока достаточно пояснить принцип интерпретации, который состоит в формулировке содержания фактора, ухватывающего суть явления.

Сохраненные в виде переменных подкомандой SAVE факторы могут быть использованы для исследования данных, конструирования типологий и т.д. В частности, с помощью команды GRAPH мы получили поле рассеяния наших объектов - городов в просранстве двух переменных-факторов. По этому графику, например, можно заключить, что жители Александровска-Сахалинского проявили в Курильском опросе наибольшую "несоветскую" ориентацию; они менее всего склонны считать, что договора нет потому, что "так сложилось" из-за "недоверия" между странами и из-за разных политических симпатий.  

Метод медиан. Разделение на две подвыборки.



Таблица 5.8. Метод медиан. Разделение на две подвыборки.

TP тип поселения

Растущие

Стабильные

крупные

гигант

V14 Ср.мес. душевой доход в семье

> Median

84

104

62

12

<= Median

90

126

139

56



Метод медиан. Значимость критерия.



Таблица 5.9. Метод медиан. Значимость критерия.

V14 Ср.мес. душевой доход в семье

N

673

Median

200

Chi-Square

28.698

Df

3

Asymp. Sig.

0

Анализируя величину наблюдаемой значимости, видим, что между точкой зрения на иностранную помощь и возрастом имеется существенная связь, т.е. обнаружено значимое различие распределения доходов в группах.



Наблюдаемые и ожидаемые частоты


Observed N Expected N Residual 1 175 210 -35 2 225 210 15 3 300 280 20 Total 700



Общие характеристики уравнения



Таблица 6.1. Общие характеристики уравнения

R

R Square

Adjusted R Square

Std. Error of the Estimate

.211

.045

.042

.5277

a Predictors: (Constant), V9_2, V9 Возраст

b Dependent Variable: LNV14M логарифм промедианного дохода

Результаты дисперсионного анализа уравнения регрессии показывает, что гипотеза равенства всех коэффициентов регрессии нулю должна быть отклонена.



Одновыборочный T-тест



Таблица 4.2. Одновыборочный T-тест. Средний промедианный доход в группе с относительно низким образованием отличается от нуля при уровне значимости 5%.

T

Df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower

Upper

LNV14

-2.0316

162

0.0438

-0.0956

-0.1886

-0.0027



Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.



Таблица 4.1. Одновыборочный t-тест. Средний промедианный доход незначимо отличается от нуля.

T

Df

Sig. (2-tailed)

Mean Difference

95% Confidence Interval of the Difference

Lower

Upper

LNV14M

-0.831

672

0.406

-0.017

-0.058

0.023

В нашем примере m 0=0 (TESTVAL=0), отклонение среднего равно -0.017, наблюдаемая значимость - 0.406 (почти в 40% случаев большее отклонение от ожидаемого значения может быть получено случайно), поэтому гипотеза о равенстве нулю матожидания логарифма промедианного дохода не отклоняется. Об этом же говорит и тот факт, что 95% доверительный интервал покрывает ожидаемое значение.

Пример. Есть предположение, что малообразованное население имеет средний логарифм доходов, существенно меньший среднего по совокупности объектов. В нашей анкете образование закодировано следующим образом:

1 Высшее;

2 незак/высш;

3 среднее спец;

4 ПТУ,ФЗУ;

5 10-11кл;

6 7-9 кл.;

7 4-6 кл.;

8 менее 4-х классов;

9 нет образования.

Проверим предположение, воспользовавшись временной выборкой данных о респондентах, имеющих образование не выше среднего.

compute f= (v10>3).

*формирование переменной фильтра.

filter f.

T-TEST /TESTVAL=0 / VARIABLES=lnv14 /CRITERIA=CIN (.95) .

filter off.



Oneway, группы неразличимых средних



Таблица 4.13. Oneway, группы неразличимых средних

W10 образование

1

2

Tukey HSD

2.00 н/высш

37

-0.248

5.00 ниже среднего

33

-0.107

-0.107

4.00 среднее

130

-0.093

-0.093

3.00 ср спец

220

0.009

1.00 Высшее

251

0.048

Sig.

0.429

0.436

Scheffe

2.00 н/высш

37

-0.248

5.00 ниже среднего

33

-0.107

-0.107

4.00 среднее

130

-0.093

-0.093

3.00 ср спец

220

0.009

0.009

1.00 Высшее

251

0.048

Sig.

0.093

0.579

Критерий Тьюки основан на одновременных доверительных интервалах разности матожиданий в группах. Этот критерий из трех рассматриваемых, пожалуй, наиболее разумен. Предположение об одновременном равенстве разностей всех групповых матожиданий - слишком сильное предположение, в критерии Тьюки такого не предполагается.



Oneway, множественные попарные сравнения



Таблица 4.14. Oneway, множественные попарные сравнения

Mean Difference (I-J)

Std. Error

Sig.

95% Confidence Interval

(I) W10 образование

(J) W10 образование

Lower Bound

Upper Bound

Tukey HSD

1.00 Высшее

2.00 н/высш

0.296*

0.093

0.013

0.041

0.551

3.00 ср спец

0.039

0.049

0.934

-0.095

0.172

4.00 среднее

0.140

0.057

0.102

-0.016

0.297

5.00 ниже среднего

0.154

0.098

0.516

-0.113

0.422

2.00 н/высш

1.00 Высшее

-0.296*

0.093

0.013

-0.551

-0.041

3.00 ср спец

-0.257

0.094

0.050

-0.514

0.000

4.00 среднее

-0.155

0.099

0.515

-0.425

0.114

5.00 ниже среднего

-0.142

0.127

0.799

-0.488

0.205

3.00 ср спец

1.00 Высшее

-0.039

0.049

0.934

-0.172

0.095

2.00 н/высш

0.257

0.094

0.050

0.000

0.514

4.00 среднее

0.102

0.059

0.412

-0.058

0.262

5.00 ниже среднего

0.116

0.099

0.769

-0.154

0.386

4.00 среднее

1.00 Высшее

-0.140

0.057

0.102

-0.297

0.016

2.00 н/высш

0.155

0.099

0.515

-0.114

0.425

3.00 ср спец

-0.102

0.059

0.412

-0.262

0.058

5.00 ниже среднего

0.014

0.103

1.000

-0.268

0.296

5.00 ниже среднего

1.00 Высшее

-0.154

0.098

0.516

-0.422

0.113

2.00 н/высш

0.142

0.127

0.799

-0.205

0.488

3.00 ср спец

-0.116

0.099

0.769

-0.386

0.154

4.00 среднее

-0.014

0.103

1.000

-0.296

0.268

В качестве примера рассмотрим различие среднего промедианного логарифма доходов в группах по образованию, группы которого несколько укрупнены:

recode v10 (4 5 =4) (6 7 8=5) (else=copy) into w10.

var lab w10 "образование".

value lab w10 1 "Высшее" 2 "н/высш" 3 "ср. спец" 4 "среднее" 5 "ниже среднего".

ONEWAY lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY SCHEFFE BONFERRONI ALPHA(.05).


На основании полученной выдачи видим, что:
доверительные интервалы для высшего и неполного высшего образования не пересекаются (см. табл.4.10); дисперсии в группах различаются не существенно (см. тест Ливиня, табл.4.11); в целом наблюдается связь душевого дохода с образованием (гипотеза о равенстве средних - отвергается, см. таблицу 4.12); выделились следующие две группы по образованию с неразличимыми средними: 2 н/высшее, 5 ниже среднего, 4 среднее и 5 ниже среднего, 4 среднее, 3 среднее спец, 1 высшее (табл.4.13); попарные множественные сравнения показали, что единственная пара отличающихся по средним групп - это группы с неполным высшим и респондентов с высшим образованием (наблюдаемая значимость - 0.013, таблица 4.14).

Oneway, обычный дисперсионный анализ



Таблица 4.12. Oneway, обычный дисперсионный анализ

Sum of Squares

df

Mean Square

F

Sig.

Between Groups

4.187

4

1.047

3.724

0.005

Within Groups

187.202

666

0.281

Total

191.389

670



Oneway, проверка однородности дисперсий



Таблица 4.11. Oneway, проверка однородности дисперсий

Levene Statistic

df1

df2

Sig.

2.282

4

666

0.059



Oneway, сравнение среднего промедианного логарифма доходов.



Таблица 4.10. Oneway, сравнение среднего промедианного логарифма доходов.

N

Mean

Std. Deviation

Std. Error

95% Confidence Interval for Mean

Minimum

Maximum

Lower Bound

Upper Bound

1.00 Высшее

251

0.048

0.511

0.032

-0.016

0.111

-1.050

2.015

2.00 н/высш

37

-0.248

0.606

0.100

-0.450

-0.046

-1.386

1.099

3.00 ср спец

220

0.009

0.479

0.032

-0.055

0.073

-1.386

1.740

4.00 среднее

130

-0.093

0.619

0.054

-0.200

0.015

-2.254

1.504

5.00 ниже сред.

33

-0.107

0.530

0.092

-0.295

0.081

-0.916

1.099

Total

671

-0.016

0.534

0.021

-0.057

0.024

-2.254

2.015



Описательные статистики, полученные при расщеплении данных для сравнения групп



Таблица 2.2. Описательные статистики, полученные при расщеплении данных для сравнения групп

V8 Пол

N

Minimum

Maximum

Mean

Std. Deviation

1 муж.

V9 Возраст

354

16.0

76.0

39.6

13.0

V14 Ср.мес. душевой доход

341

21.0

1254.0

237.9

168.2

Valid N (listwise)

335

2 жен.

V9 Возраст

344

16.0

74.0

39.5

12.2

V14 Ср.мес. душевой доход

324

50.0

1500.0

219.8

132.8

Valid N (listwise)

317

При получении результатов для отдельных групп программой

SORT CASES BY v8 .

SPLIT FILE SEPARATE BY v8 .

Descriptives Variables= v9 v14.

будут получены две отдельные таблицы.



Таблица показывает, что преобладает



Таблица 5.16 показывает, что преобладает уменьшение веса, что подтверждается наблюдаемой значимостью статистики критерия, равной 0.00053 (таблица 5.17).



Таблица показывает, что уравнение



Таблица 5.1 показывает, что уравнение объясняет всего 4.5% дисперсии зависимой переменной (коэффициент детерминации R2=.045), скорректированная величина коэффициента равна 0.042, а коэффициент множественной корреляции равен 0.211. Много это или мало, трудно сказать, поскольку у нас нет подобных результатов на других данных, но то, что здесь есть взаимосвязь, можно понять, рассматривая таблицу 6.2.



Покупка алкоголя и табачных



Таблица 3.10. Покупка алкоголя и табачных изделий и наличие крупной собственности (фрагмент таблицы сопряженности, частоты и % по строкам)

Z-статистики в таблице 3.11 показывают значимость связей некоторых ответов. Однако множественные сравнения не позволяют полностью доверять этим результатам.



Таблица получена в результате



Таблица 3.4 получена в результате преобразования данных и применения процедуры CROSSTABS с параметром CELLS:

recode v4 (1,2=1)(3=2)(4=3) into W4.

var lab W4 "Возможность удовлетворить территориториальные требования Японии".

Val lab W4 1 "отдать" 2 "не надо" "не знаю".

CROSSTABS /TABLES = v1 BY W4 /CELLS= COUNT ROW col.

Верхний процент в клетке соответствует отношению абсолютного числа объектов, попавших в эту клетку, к итоговой сумме по строке. Нижний процент соответствует отношению значения клетки к итоговой сумме по столбцу. По величине процентов, приведенных в клетках, можно сравнивать группы респондентов по распределению как по "вертикальной" переменной, так и по "горизонтальной".

В частности, анализируя первую строку матрицы (она соответствует ответам тех респондентов, которые считают, что иностранная помощь не нужна), видим, что основная часть - 81.7% этой группы респондентов против передачи островов Японии. При этом их доля среди тех, кто против передачи островов, составляет всего 27.2%; а основная часть (62.0%) противников передачи островов допускает возможность получения ограниченной иностранной помощи. В последнем столбце таблицы расположены итоги по каждой строке, которые совпадают с распределением по переменной V1. Так как до выполнения команды CROSSTABS, были объявлены неопределенные значения v1 и v4, таблица рассчитывалась без их учета, поэтому объем выборки, учтенный в таблице, составил 712 анкет из 721 имеющихся. Аналогичные данные приведены в строке TOTAL для столбцов.

Проценты в Crosstabs позволяют изучать взаимосвязь переменных, а не только структуру таблицы. В частности, сравнивая строки, можно сделать заключение, что более склонны отдать острова те, кто считает, что нужна помощь восточным регионам (37%), чем те, кто считает, что помощи не нужно. Можно взять в качестве точки отсчета распределение в целом по совокупности (15% всего готовы отдать все или часть островов в среднем по массиву).



Таблица , полученная по совокупности



Таблица 3.10, полученная по совокупности городских семей (подвыборка из RLMS 2604 семей), показывает такую связь. В таблице строки соответствуют ответам по одному, столбцы - ответам по другому вопросу, отличие от обычной таблицы частот только в том, что группы объектов (семей), соответствующие разным ответам, могут пересекаться.

Явно видно, что в семьях, владеющих крупной собственностью, употребляют больше алкоголя и табака (может быть, сказывается наличие в них большего числа мужчин?). Однако, насколько надежен этот вывод? Особенно для группы владельцев грузового автомобиля - уж слишком мала эта группа для надежных выводов.



Проверка лог-нормальности распределения доходов



Таблица 5.6. Проверка лог-нормальности распределения доходов

LNV14

N

673

Normal Parameters

Mean

5.2812

Std. Deviation

0.5344

Most Extreme Differences

Absolute

0.098

Positive

0.098

Negative

-0.055

Kolmogorov-Smirnov Z

2.54

Asymp. Sig. (2-tailed)

0

Значение критерия несколько уменьшилось, но существенность различия сохранилось (таблица 5.6).

Иногда бывает необходимо проверить законы распределения не предусмотренные в NPAR TESTS. В этом случае вспомните, что распределение непрерывной случайной величины h =Fx (x ), где F - функция распределения x , равномерно на отрезке (0,1). Таким образом, воспользовавшись статистическими функциями преобразования данных SPSS, из тестируемой переменной можно всегда получить переменную, имеющую теоретически равномерное распределение и проверив, действительно ли ее распределение равномерно, принять или отвергнуть гипотезу о виде распределения Fx (x).



Проверка нормальности распределения доходов с использованием критерия Колмогорова-Смирнова.



Таблица 5.5. Проверка нормальности распределения доходов с использованием критерия Колмогорова-Смирнова.

V14 Душевой доход в семье

N

673

Normal Parameters

Mean

229.11

Std. Deviation

151.34

Most Extreme Differences

Absolute

0.187

Positive

0.187

Negative

-0.149

Kolmogorov-Smirnov Z

4.85

Asymp. Sig. (2-tailed)

0

В таблице результатов выдается двусторонняя значимость - вероятность случайно в условиях гипотезы превзойти выборочное значение статистики, фиксирующей отличие распределения от заданного.

Например, проверим нормальности распределения доходов командой:

NPAR TESTS K-S(NORMAL) = V14.

Поскольку двусторонняя значимость в таблице 5.5 (2-tailed P) равна нулю, то можем сделать вывод, что полученная разность фиксирует существенное отличие распределения по доходам от нормального. Во многих исследованиях используется вместо дохода используется его логарифм, распределение которого считается близким к нормальному. Проверим нормальность логарифма доходов:

compute lnv14=ln(v14).

npar test k-s(normal)=w14.



Распределение переменной



Таблица 3.3. Распределение переменной "Точка зрения на иностранную помощь" в разрезе региона и пола респондентов.

V1 точка зр. на иностр. Помощь

V8 Пол

Не нужна

огранич.

Нужна

не знаю

Total

Муж.

R регион

Дальн В

Count

25

91

22

7

145

%

17.2

62.8

15.2

4.8

100

Вост сиб

Count

25

56

13

1

95

%

26.3

58.9

13.7

1.1

100

Зап Сиб

Count

38

65

13

3

119

%

31.9

54.6

10.9

2.5

100

Total

Count

88

212

48

11

359

%

24.5

59.1

13.4

3.1

100

жен.

R регион

Дальн В

Count

26

87

9

6

128

%

20.3

68.0

7.0

4.7

100

Вост сиб

Count

23

54

6

7

90

%

25.6

60.0

6.7

7.8

100

Зап Сиб

Count

40

75

9

7

131

%

30.5

57.3

6.9

5.3

100

Total

Count

89

216

24

20

349

%

25.5

61.9

6.9

5.7

100

Употребление "BY" в команде CROSSTABS возможно до 10 раз, но и этого достаточно, чтобы занять все ресурсы компьютера.

Если мы хотим получить в одной команде CROSSTABS несколько независимых таблиц, то следует отделять списки переменных символом "/":.

CROSSTABS V8 V11 BY V4 V1/ V12 BY V1/cells row.



Распределение по переменной V- точка зрения на иностранную помощь



Таблица 3.1. Распределение по переменной V1 - точка зрения на иностранную помощь

Frequency

Percent

Valid Percent

Cumulative Percent

Valid

1 не нужна

177

24.5

24.7

24.7

2 огранич.

433

60.1

60.5

85.2

3 нужна

73

10.1

10.2

95.4

4 не знаю

33

4.6

4.6

100

Total

716

99.3

100

Missing

0

5

0.7

Total

721

100

В таблице 3.1 и на Рисунок 3.1 дан пример полученного процедурой FREQUENCIES частотного распределения респондентов анкеты "Курильские острова" и его столбиковой диаграммы по результатам их ответов на вопрос о точке зрения на иностранную помощь:

MISSING VALUES V1(0).

FREQUENCIES V1 /BARCHART .

В колонке "Percent" проценты даны относительно всего объема выборки с учетом неопределенных кодов. В колонке "Valid Percent" приведены проценты в выборке без неопределенных кодов. В колонке "Cum Percent" - суммарный процент с нарастающим итогом. Суммарный процент не учитывает неопределенные коды, т.е. дается для выборки без объектов с неопределенными значениями. В данном примере была предусмотрена обработка неопределенных пользовательских значений, заданных нулевым кодом (5 респондентов из 721 не ответили на первый вопрос и были закодированы при наборе данных "0"). Наиболее распространенным (433 ответа) было мнение, что островам нужна ограниченная иностранная помощь. Кроме того, на данном примере можно наблюдать, насколько важно в практической работе использовать VAR LAB и VAL LAB - команды присвоения признакам текстовых имен.

В процедуре FREQUENCIES полезно использовать следующие необязательные параметры:

/BARCHART - столбиковая диаграмма

/PIECHART - круговая диаграмма

/HISTOGRAM - гистограмма

/NTILES - n-тили (квартили, квинтили, децили и др.)

/PERCENTILES - процентили

/STATISTICS



Результаты однофакторного дисперсионного анализа



Таблица 4.9. Результаты однофакторного дисперсионного анализа

Sum of Squares

df

Mean Square

F

Sig.

LNV14M Логарифм душевого дохода * V11 Cостояние в браке

Between Groups

0.40

3

0.13

0.465

0.707

Within Groups

188.51

650

0.29

Total

188.92

653



Таблица содержит сведения об информативности



Таблица 7.1 содержит сведения об информативности полученных главных компонент. Первый фактор объясняет часть общей дисперсии, равную 2.402 (40.04%), фактор 2 - 1.393 (23.21%), третий - .853 (14.22%) и т.д. Первые два фактора объясняют 63.25% дисперсии, первые три - 77.47%. Поскольку уже третья компонента объясяет менее 1 дисперсии, рассматривается всего 2 фактора - какой смысл рассмативать факторы, объясняющие меньше дисперсии, чем переменная из исходых данных?

Матрица факторных нагрузок факторов - главных компонент представлена в таблице 7.2. Мы не будем анализировать эту матрицу, а ниже подробнее проанализируем факторные нагрузки после вращения (таблица 7.3).



Среднемессячный душевой доход в семье



Таблица 4.8. Среднемессячный душевой доход в семье

V11 Cостояние в браке

V8 Пол

Mean

Std. Deviation

Median

N

1 женат

1 муж.

228.4

152.9

200

271

2 жен.

225.7

140.8

200

242

Total

227.1

147.2

200

513

2 вдовец

1 муж.

276.0

111.0

270

5

2 жен.

192.8

112.7

155

20

Total

209.4

115.1

168

25

3 разведен

1 муж.

331.9

230.0

295

16

2 жен.

195.9

86.1

180

25

Total

249.0

169.7

200

41

4 не был

1 муж.

263.3

223.0

200

41

2 жен.

212.2

118.6

200

34

Total

240.2

183.9

200

75

Total

1 муж.

238.4

167.8

200

333

2 жен.

219.9

133.4

200

321

Total

229.3

152.0

200

654

Анализ результатов позволяет сделать следующие выводы. Самый высокий среднемесячный доход (332 руб.) имеют разведенные мужчины, при этом он значительно превосходит среднемесячный доход, полученный всеми разведенными (249 руб.) и всеми мужчинами (238 руб.). На втором месте по доходам находится вдовцы (276 руб.), но их всего 5 человек, поэтому цифра ненадежна. Среди женщин наиболее высокие среднемесячные доходы (226 руб.) у состоящих в браке, что почти равно доходам женатых мужчин. Это естественно - ведь это же душевой доход в семье.

Мы можем сколько угодно описывать эту таблицу, но описание не будет доказательством какой-либо истины, пока оно не подтверждено статистическим выводом. Такая таблица может быть источником гипотез о взаимосвязи, которые в дальнейшем следует проверить.

Одномерноый дисперсионный анализ здесь проводится только по переменным первого уровня задания групп.

Напомним, что суть этого анализа состоит в вычислениии межгруппового квадратичныого разброса зависимой переменной SSв (Between groups) и внутригруппового разброса, обозначается SSw (Within groups). Величина SSв характеризует, насколько сильно отклонились от общего среднего средние между группами, а SSw - отклонения от центров групп. Статистика

в условиях гипотезы равенства средних и дисперсий распределения при нормальном распределении X в группах имеет распределение Фишера. F представляет собой в определенном смысле расстояние наблюдаемой от таблицы, в которой нет никаких зависимостей - средние в группах совпадают.
юЕН ВПМШЫЕ F, ФЕН УХЭЕУФЧЕООЕЕ ЪБЧЙУЙНПУФШ, ПДОБЛП УБНБ РП УЕВЕ ЧЕМЙЮЙОБ F ОЙ П ЮЕН ОЕ ЗПЧПТЙФ. пФЧЕФ ОБ ЧПРТПУ ДБЕФ, ЛБЛ ПВЩЮОП, ЧЕМЙЮЙОБ ОБВМАДБЕНПК ЪОБЮЙНПУФЙ F - ЛТЙФЕТЙС: SIGNIFICANCE - ЧЕТПСФОПУФШ УМХЮБКОП РПМХЮЙФШ ЪОБЮЕОЙЕ F, ВПМШЫЕЕ ЧЩВПТПЮОПЗП SIG=P{F>FЧЩВ}.
еЭЕ ТБЪ ПВТБФЙН ЧОЙНБОЙЕ ОБ ФП, ЮФП Ч ФБЛПН БОБМЙЪЕ ЙУРПМШЪХЕФУС РТЕДРПМПЦЕОЙЕ П ОПТНБМШОПУФЙ ТБУРТЕДЕМЕОЙС ЪБЧЙУЙНПК РЕТЕНЕООПК. оЕ УМЕДХЕФ РТПЧПДЙФШ ОЕРПУТЕДУФЧЕООП ДЙУРЕТУЙПООЩК БОБМЙЪ РЕТЕНЕООЩИ У УХЭЕУФЧЕООП ПФМЙЮБАЭЙНУС ПФ ОПТНБМШОПЗП ТБУРТЕДЕМЕОЙЕН. оБРТЙНЕТ, РЕТЕНЕООХА "ДХЫЕЧПК ДПИПД"
ч ФБВМЙГЕ4.9. РТЙЧЕДЕОБ ЧЩДБЮБ ПДОПНЕТОПЗП ДЙУРЕТУЙПООПЗП БОБМЙЪБ РПУМЕ ЧЩРПМОЕОЙС ЛПНБОДЩ
MEANS TABLES=lnv14m BY v11 BY v8 /STATISTICS ANOVA .
оБВМАДБЕНЩК ХТПЧЕОШ ЪОБЮЙНПУФЙ 0.707 УЧЙДЕФЕМШУФЧХЕ П ФПН, ЮФП ОБ ОБЫЙИ ДБООЩИ ХЛБЪБООЩН НЕФПДПН УЧСЪШ ОЕ ПВОБТХЦЙЧБЕФУС.

средних. Молочные продукты



Таблица средних. Молочные продукты и жилплощадь.
Душевой доход любителей сладкого и жилье. Одновременное сравнение средних по строкам таблицы.



Средний логарифм доходов



Таблица 3.15. Средний логарифм доходов в группах по жилищным условиям и по покупкам сладкого (среднее, стд.отклонение, численность в группах).



Средний возраст в группах



Таблица 3.9. Средний возраст в группах по ответам на вопрос 3 "Что мешает заключить договор" для мужчин и женщин.

Возраст

Пол

Total

1 муж.

2 жен.

Mean

Valid N

Mean

Valid N

Mean

Valid N

$V3

1 нет необх

38.0

38

40.5

22

38.9

60

2 недоверие

45.4

41

44.0

45

44.7

86

3 незаинт Яп

37.4

32

36.5

56

36.8

88

4 разн полит

39.8

41

36.5

30

38.4

71

5 непризн гр

39.8

163

40.8

151

40.2

314

6 нежел СССР

38.2

82

39.3

61

38.7

143

7 другое

38.6

5

44.3

3

40.8

8

8 не знаю

35.0

24

36.5

53

36.0

77

Total

39.4

426

39.5

421

39.4

847

Следует обратить внимание, что в General tables итоговые строки и столбцы таблицы формируются по сумме ответов. Поэтому итоговые средние подсчитываются некорректно.

Пример. Синтаксис задания расчета среднего возраста в группах по ответам на вопрос 3 "Что мешает заключить договор" для мужчин и женщин имеет следующий вид:

* General Tables.

TABLES /OBSERVATION= v9 /MRGROUP $v3 v3s1 to v3s8

/GBASE=CASES /FTOTAL= $t000001 "Total" $t000003 "Total"

/TABLE=$v3 + $t000001 BY v8 > (STATISTICS) + $t000003 BY v9

/STATISTICS mean(v9(COMMA7.1)) validn(v9(COMMA5.0)).

Результат представлен таблицей 3.9. Самая "старая" группа - те, кто считает, что мешает взаимное недоверие, как для респондентов мужского пола, так и для женского. К сожалению, насколько это отличие статистически значимо, выяснить по полученной таблице невозможно.

Обратите внимание, что общая сумма здесь - 847 ответов, на 135 больше, чем объектов в выборке. Это произошло из-за того, что один респондент может дать несколько ответов.

Команда Multiple Response Tables, по сути, несколько облегченный вариант Gentral Tables.