Задачи статистики в пакете SPSS


         

Создание таблиц сопряженности



11.1 Создание таблиц сопряженности

Загрузите файл studium.sav.

Для создания таблиц сопряженности и вычисления меры связанности на их основе, выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности) Откроется диалоговое окно Crosstabs (см. рис. 11.1).

Список исходных переменных содержит переменные открытого файла данных. Здесь можно выбрать переменные для строк и столбцов таблицы сопряженности. Для каждого сочетания двух переменных будет создана таблица сопряженности. Например, если в списке строк (Rows) находится три переменных, а в списке столбцов (Columns) — две, то мы получим 3*2 = 6 таблиц сопряженности. Сначала мы построим таблицу сопряженности из переменных sex (пол) и psyche (психическое состояние). Поступите следующим образом:

Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.

Графическое представление таблиц сопряженности



11.2 Графическое представление таблиц сопряженности

Чтобы сделать более наглядными данные, содержащиеся в таблицах сопряженности, их можно представить визуально. Для этого поступите следующим образом:

Выберите в меню команды Graphs (Графики) Ваr... (Столбчатые) Откроется диалоговое окно Bar Charts (Столбчатые диаграммы).

Выберите пункт Clustered (Группированные), оставьте предлагаемую по умолчанию опцию Summaries for groups of cases (Сводка категорий переменной) и щелкните на кнопке Define (Определить). Откроется диалоговое окно Define Clustered Bar: Summaries for groups of cases (Определить столбчатую диаграмму: Сводка категорий переменной).

Выберите пункт % of cases (% наблюдений).

Перенесите переменную psyche в поле Category Axis (Ось категорий), а переменную sex — в поле Define Clusters by (Определить группы по).

Щелкните на кнопке Titles... (Заголовки). Откроется диалоговое окно Titles (см. рис. 11.6).

В поле Line 1 (Строка 1) введите заголовок "Психическое состояние в зависимости от пола", в поле Subtitle — подзаголовок "Изучение психического состояния и социального положения студентов", а в поле Footnote, Line 1 (Нижний колонтитул, строка 1) — текст "Опрос студентов WS 93/94". Подтвердите ввод кнопкой Continue.

Щелкните на кнопке Options... (Параметры). Откроется диалоговое окно Options.

Тест хи-квадрат (X2)



11.3.1 Тест хи-квадрат (X2)

При проведении теста хи-квадрат проверяется взаимная независимость двух переменных таблицы сопряженности и благодаря этому косвенно выясняется зависимость обоих переменных. Две переменные считаются взаимно независимыми, если наблюдаемые частоты (f0) в ячейках совпадают с ожидаемыми частотами (fe).

Для того, чтобы провести тест хи-квадрат с помощью SPSS, выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

Кнопкой Reset (Сброс) удалите возможные настройки.

Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.

Щелкните на кнопке Cells... (Ячейки). В диалоговом окне установите, кроме предлагаемого по умолчанию флажка Observed, еще флажки Expected и Standardized. Подтвердите выбор кнопкой Continue.

Щелкните на кнопке Statistics... (Статистика).

Откроется описанное выше диалоговое окно Crosstabs: Statistics.

Установите флажок Chi-square (Хи-квадрат). Щелкните на кнопке Continue, а в главном диалоговом окне — на ОК.

Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Таблица сопряженности

Психическое состояние

Total

Крайне неустой-чивое

Неустой-чивое

Устой-чивое

Очень устойчивое

Пол

женский

Count

16

18

9

1

44

Expected Count

7,9

16,6

17,0

2,5

44,0

Std. Residual

2,9

,3

-1,9

-.9

Мужской

Count

3

22

32

5

62

Expected Count

11,1

23,4

24,0

3,5

62,0

Std. Residual

-2,4

-,3

1,6

,8

Total

Count

19

40

41

6

106

Expected Count

19,0

40,0

41,0

6,0

106,0

Кроме того, в окне просмотра будут показаны результаты теста хи-квадрат:

Chi-Square Tests (Тесты хи-квадрат)

Value (Значение)

df

Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя))

Pearson Chi-Square (Хи-квадрат по Пирсону)

22,455 (а)

3

,000

Likelihood Ratio (Отношение правдоподобия)

23,688

3

,000

Linear-by-Linear Association (Зависимость линейный-линейный)

20,391

1

,000

N of Valid Cases (Кол-во допустимых случаев)

106

а. 2 cells (25,0%) have expected count less than 5. The minimum expected count is 2,49 (2 ячейки (25%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 2,49.)

Для вычисления критерия хи-квадрат применяются три различных подхода: формула Пирсона, поправка на правдоподобие и тест Мантеля-Хэнзеля. Если таблица сопряженности имеет четыре поля и ожидаемая вероятность менее 5, дополнительно выполняется точный тест Фишера.

Критерий хи-квадрат по Пирсону

Обычно для вычисления критерия хи-квадрат используется формула Пирсона:

Здесь вычисляется сумма квадратов стандартизованных остатков по всем полям таблицы сопряженности. Поэтому поля с более высоким стандартизованным остатком вносят более весомый вклад в численное значение критерия хи-квадрат и, следовательно, — в значимый результат. Согласно правилу, приведенному в разделе 8.7.2, стандартизованный остаток 2 или более указывает на значимое расхождение между наблюдаемой и ожидаемой частотами.

В рассматриваемом нами примере формула Пирсона дает максимально значимую величину критерия хи-квадрат (р<0,001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин — понижено.

Корректность проведения теста хи-квадрат определяется двумя условиями: во-первых, ожидаемые частоты < 5 должны встречаться не более чем в 20 % полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

Однако в рассматриваемом примере это условие выполняется не полностью. Как указывает примечание после таблицы теста хи-квадрат, 25 % полей имеют ожидаемую частоту менее 5. Однако, так как допустимый предел4в 20 % превышен лишь ненамного и эти поля, вследствие своего очень малого стандартизованного остатка, вносят весьма незначительную долю в величину критерия хи-квадрат, это нарушение можно считать несущественным.

Критерий хи-квадрат с поправкой на правдоподобие

Альтернативой формуле Пирсона для вычисления критерия хи-квадрат является поправка на правдоподобие:

При большом объеме выборки формула Пирсона и подправленная формула дают очень близкие результаты. В нашем примере критерий хи-квадрат с поправкой на правдоподобие составляет 23,688.

Тест Мантеля-Хэнзеля

Дополнительно в таблице сопряженности под обозначением linear-by-linear ("линейный-по-линейному") выводится значение теста Мантеля-Хэнзеля (20,391). Эта форма критерия хи-квадрат с поправкой Мантеля-Хэнзеля — еще одна мера линейной зависимости между строками и столбцами таблицы сопряженности. Она определяется как произведение коэффициента корреляции Пирсона на количество наблюдений, уменьшенное на единицу:

Полученный таким образом критерий имеет одну степень свободы. Метод Мантеля-Хэнзеля используется всегда, когда в диалоговом окне Crosstabs: Statistics установлен флажок Chi-square. Однако для данных, относящихся к с номинальной шкале, этот критерий неприменим.





Коэффициенты корреляции



11.3.2 Коэффициенты корреляции

До сих пор мы выясняли лишь сам факт существования статистической зависимости между двумя признаками. Далее мы попробуем выяснить, какие заключения можно сделать о силе или слабости этой зависимости, а также о ее виде и направленности. Критерии количественной оценки зависимости между переменными называются коэффициентами корреляции или мерами связанности. Две переменные коррелируют между собой положительно, если между ними существует прямое, однонаправленное соотношение. При однонаправленном соотношении малые значения одной переменной соответствуют малым значениям другой переменной, большие значения — большим. Две переменные коррелируют между собой отрицательно, если между ними существует обратное, разнонаправленное соотношение. При разнонаправленном соотношении малые значения одной переменной соответствуют большим значениям другой переменной и наоборот. Значения коэффициентов корреляции всегда лежат в диапазоне от -1 до +1.

В качестве коэффициента корреляции между переменными, принадлежащими порядковой шкале применяется коэффициент Спирмена, а для переменных, принадлежащих к интервальной шкале — коэффициент корреляции Пирсона (момент произведений). При этом следует учесть, что каждую дихотомическую переменную, то есть переменную, принадлежащую к номинальной шкале и имеющую две категории, можно рассматривать как порядковую.

Для начала мы проверим существует ли корреляция между переменными sex и psyche из файла studium.sav. При этом мы учтем, что дихотомическую переменную sex можно считать порядковой. Выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

Перенесите переменную sex в список строк, а переменную psyche — в список столбцов.

Щелкните на кнопке Statistics... (Статистика). В диалоге Crosstabs: Statistics установите флажок Correlations (Корреляции). Подтвердите выбор кнопкой Continue.

В диалоге Crosstabs откажитесь от вывода таблиц, установив флажок Supress tables (Подавлять таблицы). Щелкните на кнопке ОК.

Будут вычислены коэффициенты корреляции Спирмена и Пирсона, а также проведена проверка их значимости:

Symmetric Measures (Симметричные меры)

Value (Значение)

Asympt. Std. Error (а) Асимпто-тическая стандарт-ная ошибка)

Approx. Т (b) (Приблиз. Т)

Approx. Sig. (Приблизи- тельная значи-мость)

Interval by Interval (Интерваль- ный-интерваль- ныи)

Pearson's R (R Пирсона)

,441

,081

5,006

,000 (с)

Ordinal by Ordinal (Порядковый-порядковый)

Spearman Correlation (Корреляци я по Спирмену)

.439

,083

4,987

,000 (с)

N of Valid Cases (Кол-во допустимых случаев)

106

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

Так как здесь нет переменных с интервальной шкалой, мы рассмотрим коэффициент корреляции Спирмена. Он составляет 0,439 и является максимально значимым (р<0,001).

Для словесного описания величин коэффициента корреляции применяется следующая таблица:

Значение коэффициента корреляции r

Интерпретация

0 < г <= 0,2

0,2 < г <= 0,5

0,5 < г <= 0,7

0,7 < г <= 0,9

0,9 < г <= 1

Очень слабая корреляция

Слабая корреляция

Средняя корреляция

Сильная корреляция

Очень сильная корреляция

Исходя из вышеприведенной таблицы, можно сделать следующие заключения: Между переменными sex и psyche существует слабая корреляция (заключение о силе зависимости), переменные коррелируют положительно (заключение о направлении зависимости).

В переменной psyche меньшие значения соответствуют отрицательному психическому состоянию, а большие — положительному. В переменной sex, в свою очередь, значение "1" соответствует женскому полу, а "2" — мужскому.

Следовательно, однонаправленность соотношения можно интерпретировать следующим образом: студентки оценивают свое психическое состояние более негативно, чем '.х коллеги-мужчины или, что вероятнее всего, в большей степени склонны согласиться на такую оценку при проведении анкетирования. Строя подобные интерпретации, нужно учитывать, что корреляция между двумя признаками не обязательно равнозначна их Функциональной или причинной зависимости. Подробнее об этом см. в разделе 15.3.

Теперь проверим корреляцию между переменными alter и semester. Применим методику, описанную выше. Мы получим следующие коэффициенты:

Symmetric Measures

Value

Asympt. Std. Error (a)

Approx. Т (b)

Approx. Sig.

Interval by Interval

Pearson's R

,807

,041

13,930

,000 (c)

Ordinal by Ordinal

Spearman Correlation

,743

,060

11,310

,000 (c)

N of Valid Cases

106

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

э. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

Так как переменные alter и semester являются метрическими, мы рассмотрим коэффициент Пирсона (момент произведений). Он составляет 0,807. Между переменными alter и semester существует сильная корреляция. Переменные коррелируют положительно. Следовательно, старшие по возрасту студенты учатся на старших курсах, что, собственно, не является неожиданным выводом.

Проверим на корреляцию переменные sozial (оценку социального положения) и psyche. Мы получим следующие коэффициенты:

Symmetric Measures

Value

Asympt. Std. Error (a)

Approx. Т (b)

Approx. Sig.

Interval by Interval

Pearson's R

-,688

,057

-9,703

,000 (c)

Ordinal by Ordinal

Spearman Correlation

-,703

,059

-10,123

,000 (c)

N of Valid Cases

107

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on normal approximation (На основе нормальной аппроксимации).

В этом случае мы рассмотрим коэффициент корреляции Спирмена; он составляет -0,703. Между переменными sozial и psyche существует средняя или сильная корреляция (граничное значение 0,7). Переменные коррелируют отрицательно, то есть чем больше значения первой переменной, тем меньше значения второй и наоборот. Так как малые значения переменной sozial характеризуют позитивное состояние (1 = очень хорошее, 2 = хорошее), а большие значения psyche — отрицательное состояние (1 = крайне неустойчивое, 2 = неустойчивое), следовательно, психологические затруднения во многом обусловлены социальными проблемами.





Меры связанности для переменных с номинальной шкалой



11.3.3 Меры связанности для переменных с номинальной шкалой

Коэффициент корреляции нельзя применять в качестве характеристики зависимости между переменными, если эти переменные принадлежат к номинальной шкале и имеют более двух категорий, потому что между их кодировками невозможно установить порядкового отношения и, следовательно, они не могут быть расположены в определенном, рационально объяснимом порядке.

Наилучшим средством для анализа таких зависимостей считается представленный в разделе 11.3.1 тест хи-квадрат, после которого при необходимости можно провести анализ наблюдаемых и ожидаемых частот, а также нормированных остатков. Этот анализ был описан в разделе 8.7.2.

Тем не менее и в этом случае также производились попытки разработать критерии количественной оценки степени связанности двух переменных, поставленных во взаимное соответствие. Эти критерии показывают степень взаимной зависимости или независимости двух переменных, принадлежащих к с номинальной шкале, причем значение 0 соответствует полной независимости переменных, а 1 — их максимальной зависимости. Меры связанности не могут иметь отрицательных значений, так как при отсутствии порядкового отношения нельзя дать ответа на вопрос о направлении зависимости.

В опросе членов городской организации одной из политических партий среди прочего выяснялось их занятие и определялось, выполняет ли респондент какую-либо партийную функцию. Выдержка из ответов респондентов-мужчин содержится в файле partei.sav.

Загрузите файл partei.sav и создайте таблицу сопряженности с переменной funk в строках и переменной beruf в столбцах.

Задайте вывод ожидаемых частот, стандартизованных остатков, процентов по столбцам и критерия хи-квадрат.

Занятие * Партийная работа Crosstabulation (Таблица сопряженности)

Занятие

Total

Наемный работник

Государст- венный служащий

Предпри-ниматель

Партийная работа

да

Count

13

16

7

36

Expected Count

12,4

10,1

13,5

36,0

% от Занятие

59,1%

88,9%

29,2%

56,3%

Std. Residual

,2

1,8

-1,8

нет

Count

9

2

17

28

Expected Count

9,6

7,9

10,5

28,0

% от Занятие

40,9%

11,1%

70.8%

43,8%

Std. Residual

-,2

-2,1

2,0

Total

Count

22

18

24

64

Expected Count

22,0

18,0

24,0

64,0

% от Занятие

100,0%

100,0%

100,0%

100,0%

Chi-Square Tests

Value

df

Asymp. Sig. (2-sided)

Pearson Chi-Square (Критерий хи-квадрат по Пирсону)

15,01 7 (a)

2

,001

Likelihood Ratio (Отношение правдоподобия)

16,421

2

,000

Li near-by-Li near Association (Зависимость линейный-линейный)

4,420

1

,036

N of Valid Cases

64

а. и cells (,0%) have expected count less than 5. The minimum expected count is 11,50. (0 ячеек (,0%) имеют ожидаемую частоту менее 5. Минимальная ожидаемая частота 7,88.)

Результат получился максимально значимым: участие в партийной работе весьма характерно для государственных служащих, а для предпринимателей — совсем не характерно, тогда как наемные работники находятся посредине. Теперь зададим (кнопкой Statistics...) вывод всех мер связанности для переменных, принадлежащих к номинальной шкале (флажки в группе Nominal).

Directional Measures (Направленные меры)

Value

Asympt. Std. Error (a)

Approx. Т (b)

Approx.

sig.

Nominal by Nominal (Номиналь- ный-номина- льный)

Lambda (Лямбда)

Symmetric (Симметри- ческая)

,279

,104

2,554

,011

Партийная работа Dependent (B зависимости от Партийная работа)

,357

,140

,211

,035

Занятие Dependent (В зависимости от Занятие)

,225

,106

1,930

,054

Goodman and Kruskal tau (Tay Гудмена-Крускала)

Партийная работа Dependent

,235

,093

,001 (c)

Занятие Dependent

,116

,051

,001 (c)

Uncertainty Coefficient (Коэффициент неопреде- ленности)

Симметричный

,144

,063

2,269

,000 (d)

Партийная работа Dependent

,187

,082

2,269

,000 (d)

Занятие Dependent

,118

,052

2,269

,000 (d)

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

с. Based on chi-square approximation (На основе аппроксимации по распределению хи-квадрат).

d. Likelihood ratio chi-square probability (Степень правдоподобия при распределении вероятности по закону хи-квадрат).

Symmetric Measures (Симметричные меры)

Value

Approx. Sig.

Nominal by Nominal (Номинальный-номинальный)

Phi (Фи)

,484

,001

Cramer's V (V Крамера)

,484

,001

Contingency Coefficient (Коэффициент сопряженности признаков)

,436

,001

N of Valid Cases

64

a. Not assuming the null hypothesis (Нулевая гипотеза не принимается).

b. Using the asymptotic standard error assuming the null hypothesis (Используется асимптотическая стандартная ошибка с принятием нулевой гипотезы).

Коэффициент сопряженности признаков (Пирсона)

Его величина всегда находится в пределах от 0 до 1 и вычисляется (как и значения критериев Фишера (<р) и Крамера (V)) с использованием значения критерия хи-квадрат:

Здесь N — общая сумма частот в таблице сопряженности. Так как N всегда больше нуля, коэффициент сопряженности признаков никогда не достигает единицы. Максимальное значение зависит от количества строк и столбцов таблицы сопряженности и в таблице размером 3*2 составляет (как в данном примере) 0,762. По этой причине коэффициенты сопряженности признаков для двух таблиц с разным количеством полей несопоставимы.

Критерий Фишера (<р)

Этот коэффициент можно использовать только для таблиц 2*2, так как в других случаях он может превысить значение 1:

Критерий Крамера (V)

Этот критерий представляет собой модификацию критерия Фишера и для любых таблиц сопряженности он дает значение в пределах от 0 до 1, включая 1:

Здесь k — наименьшее из количеств строк и столбцов.

Три названных критерия основаны на использовании критерия хи-квадрат. Они различными способами нормируют его значение по отношению к размеру выборки. Так, если формуле для V Крамера положить k = 2, то значения (р и V Крамера совпадут. Определение значимости основано на значении критерия хи-квадрат.

При оценке полученных значений мер связанности, находящихся в нашем примере в промежутке между 0,4 и 0,5, следует учесть, что значение 1 достигается очень редко или вообще никогда. Другие меры связанности (Я, т Гудмена-Крускала и коэффициент неопределенности) определяются на основе так называемой концепции пропорционального сокращения ошибки. При определении этих критериев одна переменная рассматривается как зависимая; по этой причине данные критерии называются "направленными мерами".

Лямбда

В данном примере вопрос о партийной работе можно рассматривать как зависимую переменную, определяемую родом занятий. Если для какого-то отдельно взятого человека надо сделать предположение о том, выполняет ли он партийную работу или нет, то, естественно, делается наиболее вероятное предположение, соответствующее наиболее часто даваемому ответу — в данном случае, предположение о том, что опрашиваемый занимается партийной работой. Такой ответ дают 56,3% респондентов; однако в 43,7% наблюдений наше предположение будет неверным.

Вероятность предположения можно повысить, если учитывать другую переменную — род занятий. Для наемных работников, как и для государственных служащих, можно достаточно уверенно прогнозировать участие в партийной работе, причем этот прогноз окажется неверным для 9 наемных работников и для 2 государственных служащих. В то же время для предпринимателей можно с большими основаниями предположить, что они не занимаются партийной работой, и ошибиться в 7 наблюдениях. Таким образом, для общего числа 64 опрашиваемых мы получаем 9 + 2 + 7=18 наблюдений, или 28,1 %, в которых прогноз будет неверен. Легко видеть, что первоначальная вероятность ошибки 43,7% значительно сократилась.

На основе этих двух вероятностей можно вычислить относительное сокращение ошибки, которое и называется лямбда:

Лямбда=(Ошибка при первом прогнозе — Ошибка при втором прогнозе)/Ошибка при первом

В нашем примере:

Лямбда =( 43,7% - 28.1%)/43,7% = ,357

Если ошибка при втором прогнозе сокращается до 0, лямбда будет равна 1. Если ошибки при первом и при втором прогнозе одинаковы, лямбда = 0. В этом случае вторая переменная никак не помогает в уточнении предсказания значения первой (зависимой переменной); то есть выбранные две переменные совершенно не зависят друг от друга.

Так как ваш быстрый, но совершенно не умеющий соображать компьютер не знает, какую переменную следует считать зависимой, SPSS вычисляет оба значения Я, поочередно рассматривая каждую из переменных как зависимую. В случае, если выясняется, что ни одну из выбранных переменных нельзя объявить зависимой, выводится среднее двух этих значений с обозначением "лямбда -симметричная".

Тау (т) Гудмена-Крускала

Это вариант меры связанности , который SPSS всегда вычисляет совместно с ней. При определении этой меры количество правильных предсказаний определяется по-иному: наблюдаемые частоты взвешиваются с учетом своих процентов и складываются. Для первого прогноза это дает:

36 * 56,3% + 28 * 43,8% =32,53

Согласно этому выражению, из 64 респондентов неверное предположение сделано для 31,47, что составляет 49,17%.

С учетом второй переменной количество верных предположений (второй прогноз) составляет:

13 * 59,1 % + 16 * 88,9 % + 7 * 29,2 % + 9 * 40,9 % + 2 * 11,1 % + 17 * 70,8 % = 39,89

Итак, при втором прогнозе сделано 24,11 неверных прогнозов из 64, что составляет 37,67%. Тогда сокращение ошибки равно

(49.17 %-37.67%)/49,17 %=0,235

Это значение выводится под названием "тау Гудмена-Крускала". И в этом случае SPSS выдает второе значение т, рассматривая вторую переменную, как зависимую.

Коэффициент неопределенности

Это еще один вариант критерия лямбда, при определении которого имеется в виду не ошибочное предсказание, а "неопределенность", то есть степень неточности предсказаний. Эта неопределенность вычисляется по достаточно сложным формулам, которые мы опускаем. Коэффициент неопределенности также принимает значения в диапазоне от 0 до 1. Значение 1 говорит о том, что одну переменную можно точно предсказать по значениям другой.





Меры связанности для переменных с порядковой шкалой



11.3.4 Меры связанности для переменных с порядковой шкалой

Все эти критерии основаны на количестве нарушений порядка (так называемых инверсий, обозначаемых через 1). Количество инверсий можно определить, если расположить в порядке возрастания значения одной из двух переменной между которыми необходимо установить степень взаимосвязи, а рядом с ними записать соответствующие значения другой переменной. Число нарушений порядка расположения второй переменной и есть количество инверсий. Это количество вместе с количеством соблюдений порядка (проверсий, обозначаемых через Р) используется в различных формулах для определения меры связанности, которые дают значения этого параметра в диапазоне от -1 до +1.

Гамма (ÿ)

Гамма вычисляется по простой формуле:

Если инверсий не наблюдается (I = 0), то мы имеем у =1 (полную зависимость). Если же не встречается проверсий, а только инверсии (Р = 0), то говорят о максимально разнонаправленной зависимости (у = -1). Если Р= I, зависимости вообще не существует (y=0).

d Сомера

Существуют две асимметричных и симметричная меры связанности d Сомера. Для их вычисления используется формула для ус корректирующим членом Т, который учитывает количество связей зависимых переменных (одинаковых значений, встречающихся в измерениях):

Для сопряженной асимметричной меры связанности d Сомера используется корректирующий член Г, соответствующий количеству связей независимой переменной. В знаменателе симметричной rf-статистики Сомера стоит среднее значение двух асимметричных коэффициентов.

Тау-б (Tb Кендалла)

Этот коэффициент одновременно учитывает связи как зависимых, так и независимых переменных:

tb может приобретать значения -1 и +1 только для квадратных таблиц сопряженности.

Тау-ц (tc) Кендалла

Этот критерий может достигать значений -1 и +1 в любых таблицах:

Здесь N — общая сумма частот; m — наименьшее из количеств строк и столбцов.





Другие меры связанности



11.3.5 Другие меры связанности

SPSS позволяет вычислить другие специальные меры связанности, обзор которых приводится ниже.

Эта

Этот коэффициент применяется, если зависимая переменная принадлежит к интервальной шкале, а независимая — к порядковой или шкале наименований, эта2 представляет собой долю общей дисперсии, которую можно объяснить влиянием независимой переменной.

Коэффициент каппа (к)

Коэффициент каппа Козна (к) можно вычислить только для квадратных таблиц сопряженности, в которых применяются одинаковые числовые кодировки для переменных строк и столбцов. Типичный случай применения этого критерия — оценка людей или объектов двумя экспертами. В таком случае к указывает на степень согласия между экспертами.

Мера риска

С помощью этой опции в SPSS реализован расчет трех различных коэффициентов, которые могут быть определены для таблицы сопряженности, состоящей из 2 строк и 2 столбцов, созданной на основании строго определенных правил, которые будут сформулированы в конце данного параграфа. При расчете меры риска анализируется так называемая переменная риска, которая имеет две категории и указывает, произошло ли определенное событие или нет. Анализ переменной риска проводится в зависимости от причинной (независимой) переменной, которая должна также быть дихотомической.

Это положение можно пояснить на типичном примере. Исследование депрессии на базе 294 респондентов дало следующую частотную таблицу:

Депрессия

Да

Нет

Женщины

а = 40

Ь = 143

Мужчины с = 10 d = 101

Обе переменные, входящие в таблицу, — являются дихотомическими. Депрессия, имеющая две категории (да-нет), является переменной риска, а пол с двумя категориями (женщины-мужчины) — независимой (причинной) переменной.

Исследование, проводимое в такой форме, называется групповым или когортным. При когортном исследовании определенная группа наблюдений, в которых анализируемое событие еще не произошло, изучается на протяжении известного промежутка времени. Определяется, в каких наблюдениях данное событие произошло, а в каких — нет, и различается ли риск наступления события между разными категориями независимой переменной. При групповых исследованиях группа наблюдений, в которых событие уже произошло, сравнивается с контрольной группой.

Два из трех коэффициентов риска, определяемых в SPSS, обычно относятся к когортным исследованиям, а третий — к групповым. При когортном исследовании для обеих категорий независимой переменной (в данном случае пола) определяется инцидентность. У респондентов-женщин инцидентность наступления депрессии равна:

40/(40 + 143)=0,219

У респондентов-мужчин инцидентность равна

10/(10 + 101)=0,09

Отношение инцидентностей составляет

0,219/0,090 = 2,426

и называется относительным риском или мерой относительного риска. Риск попасть в депрессию у женщин в 2,426 раза выше, чем у мужчин. Так как компьютер не знает, какое из двух кодовых значений переменной риска соответствует наличию депрессии, относительный риск вычисляется для обоих значений.

При групповом исследовании применяется несколько отличный вариант коэффициента, называемый также "отношением шансов" (отношением перекрестных произведений). "Шансы" попасть в депрессию у женщин составляют 40/143, а у мужчин — 10/101. Следовательно, отношение шансов равно

(40 * 101)/(143 * 10)= 2,825

Если обозначить четыре частоты в таблице буквами а, Ь, с и d (см. выше), то формулы, которые SPSS использует для вычисления мер риска, можно записать так:

Проведем анализ приведенного примера в SPSS.

Загрузите файл depr.sav.

Этот файл содержит переменную риска depr с кодовыми значениями 1 = да и 2 = нет и независимую (причинную) переменную sex с кодовыми значениями 1 = женщины и 2 = мужчины. Еще одна переменная, n, содержит частоты наблюдений.

Выберите в меню команды Data (Данные) Weight Cases... (Взвесить наблюдения) и задайте n как переменную взвешивания.

В диалоговом окне Crosstabs определите переменную sex как переменную строк и depr — как переменную столбцов, а во вспомогательном диалоге Statistics установите флажок Risk (Риск).

В окне просмотра будут показаны следующие результаты.

Пол * Депрессия Таблица сопряженности

Депрессия

Total

да

нет
Пол

Женщины 40

143

183

Мужчины 10 50

101

111

Total

244

294

Risk Estimate (Оценка риска)

Value

95% Confidence Interval (95% доверительный интервал)

Lower (Нижняя граница)

Upper (Верхняя граница)
Odds Ratio for (Отношение шансов для) Пол (Женщины / Мужчины)

2,825 1,350

5,911

For cohort (Для когорты) Депрессия = да

2,426 1,265

4,655

For cohort (Для когорты) Депрессия = нет

,859 ,780

,946

N of Valid Cases

294

Здесь последовательно показаны отношение шансов (RO) и оба коэффициента относительного риска (R1 и R2). Кроме того, для каждой величины определен 95 % доверительный интервал.

Чтобы правильно вычислить отношение шансов и относительный риск, надо учитывать следующие правила построения таблиц сопряженности:

Определяйте причинную (независимую) переменную как переменную строк, а переменную риска — как переменную столбцов.

В первой ячейке каждой строки таблицы должна находиться группа с наибольшим риском.

В первой ячейке каждого столбца таблицы должно стоять кодовое значение совершения события.

Тест хи-квадрат по Мак-Немару

Тест хи-квадрат по Мак-Немару применяется при наличии двух независимых дихотомических переменных; он рассматривается в разделе 14.2.

Статистика Кохрана и Мантеля-Хзнзеля

Эта статистика включает метод вычисления отношения шансов в таблицах сопряженности 2x2. Расчет этой статистики задается флажком Risk. При вычислениях используется переменная слоев (ковариация) и определяется, значительно ли отличаются категории этой переменной по своему отношению шансов от 1 (или другой величины). Это можно пояснить на примере.

Загрузите файл angst.sav.

В этом файле в трех переменных хранятся сведения о 1737 людях: их пол (1 = женский, 2 = мужской), наличие тревожной депрессии (1 = да, 2 = нет) и избыточного веса (1 = нет, 2 = да). Для людей с избыточным весом и с недостатком веса составим раздельные таблицы сопряженности пола и наличия тревожной депрессии, а затем вычислим отношение шансов.

Выберите в меню команды Data (Данные) Split File... (Разделить файл)

Выберите опцию Organize output by groups (Разделить вывод на группы) и задайте gewicht как группирующую переменную.

Выберите команды меню Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

Перенесите переменную sex в список переменных строк, а переменную angst — в список переменных столбцов.

Кнопкой Cells... (Ячейки) задайте вывод процентов по строкам (Percentages — Row), а кнопкой Statistics... (Статистика) — вывод риска (Risk):

Основная часть результатов приводится ниже.

Пол * Тревожная депрессия Crosstabulation (a)

Тревожная депрессия

Total

Да нет
Пол

женский

Count

154 592

746

% от Пол

20,6% 79,4%

100,0%

мужской

Count

79 715

794

% от Пол

9,9% 90,1%

100,0%

Total

Count

233 1307

1540

% от Пол

15,1% 84,9%

100,0%

Избыточный вес = нет

Risk Estimate (a)

95% Confidence Interval

Value

Lower Upper
Odds Ratio for Пол (женский / мужской)

2,354

1,758 3,154

For cohort Тревожная депрессия = да

2,075

1,612 2,670

For cohort Тревожная депрессия = нет

,881

,844 ,920

N of Valid Cases

1540

а. Избыточный вес = нет

Пол * Тревожная депрессия Crosstabulation (a)

Тревожная депрессия

Total

Да нет
Пол

женский

Count

22

62

84

% от Пол

26,2%

73,8%

100,0%

мужской

Count

9

104

113

% от Пол

8,0%

92,0%

100,0%

Total

Count

31

166

197

% от Пол

15,7%

84,3%

100,0%

Избыточный вес; = да

Risk Estimate (a)

Value 95% Confidence Interval

Lower

Upper
Odds Ratio for Пол (женский / мужской)

4,100 1,776

9,468

For cohort Тревожная депрессия = да

3,288 1,597

6,771

For cohort Тревожная депрессия = нет

,802 ,698

,921

N of Valid Cases

197

а. Избыточный вес = да

В обоих случаях тревожная депрессия у женщин наступает значительно чаще. Отношение шансов для людей с недостатком веса составляет 2,354, а для людей с избыточным весом — 4,100.

Теперь вычислим статистику Кохрана и Мантеля-Хэнзеля.

Чтобы отменить разделение на группы, после вызова команд меню Data (Данные) Split File... (Разделить файл) выберите опцию Analyze all cases, do not create groups (Анализировать все наблюдения, не создавать группы).

В диалоговом окне Crosstabs задайте gewicht как переменную слоев, во вспомогательном диалоге Statistics снимите флажок Risk и установите флажок Cochran and Mantel-Haenszel statistics (Статистика Кохрана и Мантеля-Гензеля).

В поле Test common odds ratio equals (Общее отношение шансов) оставьте значение 1, установленное по умолчанию.

Из полученных результатов ниже приводится только статистика Кохрана и Мантеля-Гензеля.

Test of Homogenity of the Odds Ratio (Тест на гомогенность отношения шансов) Statistics

Statistics

Chi-Squared (Хи-квадрат)

df

Asymp. Sig. (2-sided)

Conditional (Условная независимость)

Cochran (Кохран)

44,665

1

,000

Mantel-Haenszel (Мантель-Гензель)

43,724

1

,000

Homogeneity (Гомогенность)

Breslow-Day (Бреслоу-Дэй)

1,522

1

,217

Tarone (Тарой)

1,522

1

,217

Under the conditional independence assumption, Cochran's statistic is asymptotically distributed as a 1 df chi-squared distribution, only if the number of strata is fixed, while the Mantel-Haenszel statistic is always asymptotically distributed as a 1 df chi-squared distribution. Note that the continuity correction is removed from the Mantel-Haenszel statistic when the sum of the differences between the observed and the expected is 0. (При гипотезе условной независимости статистика Кохрана дает распределение, асимптотически приближающееся к распределению хи-квадрат с 1-ой степенью свободы, только при фиксированном количестве слоев, в то время как статистика Мантеля-Хэнзеля при той же гипотезе всегда дает такое распределение. Обратите внимание, что в статистике Мантеля-Хэнзеля опускается коррекция на непрерывность, если сумма разностей наблюдаемых и ожидаемых величин равна 0.)

Mantel-Haenszel Common Odds Ratio Estimate (Оценка общего отношения шансов Мантеля-Гензеля)

Estimate (Оценка)

2,503

ln(Estimate)

,918

Std. Error of (Стандартная ошибка) In(Estimate)

,141

Asymp. Sig. (2-sided) (Асимптотическая значимость (двусторонняя)

,000

Asymp. 95% Confidence Interval (Асимптотический 95 % доверительный интервал)

Common Odds Ratio (Общее отношение шансов)

Lower Bound (Нижняя граница)

1,901

Upper Bound (Верхняя граница)

3,297

ln(Common Odds Ratio)

Lower Bound (Нижняя граница)

,642

Upper Bound (Верхняя граница)

1,193

The Mantel-Haenszel common odds ratio estimate is asymptotically normally distributed under the common odds ratio of 1,000 assumption. So is the natural log of the estimate. (Оценка общего отношения шансов Мантеля-Хэнзеля при условии, что общее отношение шансов равно 1,000, имеет асимптотически нормальное распределение. То же распределение сохраняется и для натурального логарифма оценки.)

Результаты тестов Кохрана и Мантеля-Хэнзеля очень близки; в обоих случаях для весовых групп наблюдается максимально значимое отличие отношения шансов от 1 (р<0,001). Тесты как Бреслоу-Дэя, так и Тарона позволяют сохранить допущение о гомогенности отношения шансов для весовых групп (р = 0,217).

Оценка объединенного отношения шансов дает те значения, которые будут получены при вычислении риска, если не разделять данные по переменной слоев.





Статистические критерии для таблиц сопряженности



11.3 Статистические критерии для таблиц сопряженности

Чтобы получить статистические критерии для таблиц сопряженности, щелкните на кнопке Statistics... (Статистика) в диалоговом окне Crosstabs. Откроется диалоговое окно Crosstabs: Statistics (Таблицы сопряженности: Статистика) (см. рис. 11.9).

Флажки в этом диалоговом окне позволяют выбрать один или несколько критериев.

Тест хи-квадрат (X2)

Корреляции

Меры связанности для переменных, относящихся к номинальной шкале

Меры связанности для переменных, относящихся к порядковой шкале

Меры связанности для переменных, относящихся к интервальной шкале

Коэффициент каппа (к)

Диалоговое окно Crosstabs: Cell Display



Диалоговое окно Crosstabs: Cell Display


Установите флажок Expected.

Щелкните на кнопке Continue, а затем на ОК. Вы получите следующую таблицу сопряженности.

Пол * Психическое состояние Crosstabulation (Таблица сопряженности)

Психическое состояние

Крайне неустой-чивое

Неусто- йчивое

Устой-чивое

Очень устой-чивое

Total

Пол

женский

Count

16

18

9

1

44

Expected Count (Ожида- емое число)

7,9

16,6

17,0

2,5

44,0

мужской

Count

3

22

32

5

62

Expected Count

11,1

23,4

24,0

3,5

62,0

"Total

Count

19

40

41

6

106

Expected Count

19,0

40,0

41,0

6,0

106,0

Теперь под наблюдаемыми частотами (Count) появились ожидаемые значения Expected Count). Эти данные мы можем интерпретировать так:

Для значений переменной "психическое состояние" "крайне неустойчивое" и "неустойчивое" абсолютная частота у опрашиваемых женщин выше, чем ожидаемая (16 и 7,9; j и 16,6), тогда как при значениях "устойчивое" и "очень устойчивое" она ниже (9 и ".0; 1 и 2,5).

У опрашиваемых мужчин мы находим противоположную тенденцию. Для значений ' крайне неустойчивое" и "неустойчивое" абсолютная частота ниже, чем ожидаемая (3 и ' 1.1; 22 и 23,4), тогда как для значений "устойчивое" и "очень устойчивое" она выше :2 и 24,0; 5и 3,5). Эти результаты мы можем объединить в следующую таблицу:

крайне неустойчивое; неустойчивое

очень устойчивое; устойчивое

Женщины абс. частота > ожидаемой частоты абс. частота < ожидаемой частоты

Мужщины

абс. частота < ожидаемой частоты

абс. частота > ожидаемой частоты

Таким образом, наше первоначальное впечатление, что женщины считают свое психическое состояние менее устойчивым, чем мужчины, подтверждается. Еще одну возможность выявления существования зависимости между переменными дает вычисление остатков. Эти остатки являются показателем того, насколько сильно наблюдаемые и ожидаемые частоты отклоняются друг от друга. Чтобы получить остатки частот, выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

В списке переменных строк у нас должна стоять переменная sex, а в списке переменных столбцов — переменная psyche.

Щелкните на кнопке Cells... Флажки Observed и Expected следует оставить помеченными.

В группе Residuals (Остатки) можно выбрать один или более следующих вариантов отображения:

Unstandardized (Ненормированные): Отображаются ненормированные остатки, то есть разность наблюдаемых (f) и ожидаемых (f) частот.

Standardized (Нормированные): Отображаются нормированные остатки. Для этого ненормированные остатки делятся на квадратный корень из ожидаемой частоты:



Диалоговое окно Crosstabs: Statistics



Диалоговое окно Crosstabs: Statistics


Мера риска

Тест Мак-Немара

Статистики Кохрана и Мантеля-Хэнзеля

Эти критерии рассматриваются в двух последующих разделах, причем из-за того, что критерий хи-квадрат имеет большое значение в статистических вычислениях, ему посвящен отдельный раздел.





Диалоговое окно Crosstabs: Table Format



Диалоговое окно Crosstabs: Table Format


Применение переменных групп и слоев

Созданные выше таблицы сопряженности можно разделить по специальностям. Вполне может быть, что переменная fach (Специальность) оказывает влияние на зависимость между sex и psyche. Чтобы выявить возможные различия, следует создать отдельные таблицы, в нашем случае — по одной таблице для каждой специальности. Такие таблицы могут выявить интересные различия между отдельными специальностями. В рассматриваемом примере переменная fach играет роль переменной слоев. Анализ производится по группам, то есть для каждой группы — в нашем случае для каждой специальности — составляется отдельная таблица сопряженности.

Чтобы задать переменную слоев, поступите так:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблица сопряженности)

В списке строк у нас должна стоять переменная sex, а в списке столбцов — переменная psyche.

Перенесите переменную fach в список переменных слоев. В диалоговом окне это третий сверху список; он еще пуст. Диалоговое окно Crosstabs приобретет вид, показанный на рис. 11.4.

Диалоговое окно Crosstabs (Таблицы cопряженности)



Диалоговое окно Crosstabs (Таблицы cопряженности)


Щелкните на ОК, и будет создана таблица сопряженности в стандартном формате. В окне просмотра будут показаны следующие таблицы:

Case Processing Summary (Обработанные наблюдения)

Cases (Случаи)

Valid (Допусти-мые)

Missing (Отсутству-ющие)

Total (Всего)

N

Percent

N

Percent

N

Percent

Пол* Психическое состояние

106

98,1%

2

1,9%

108

100,0%

Пол * Психическое состояние Crosstabulation (Таблица сопряженности)

Count (Число)

Психическое состояние

Total

Крайне неустой- чивое

Неустой-чивое

Устой-чивое Очень устойчивое

Пол

Женский

16

18

9

1

44

Мужской

3

22

32

5

62

Total

19

40

41

6

106

Первая таблица содержит информацию о числе самих наблюдений; два наблюдения содержат пропущенные значения по крайней мере в одной из двух участвующих переменных. Вторая таблица — это собственно таблица сопряженности. Переменная 'Психическое состояние" (psyche) является столбцовой переменной, так как каждое ее значение (крайне неустойчивое, устойчивое, ...) отображается в отдельном столбце. Переменная "Пол" (sex) — это переменная строк, так как каждое ее значение (женский, мужской) отображается в отдельной строке таблицы. Значение в каждой ячейке таблицы — количество наблюдений (частота). Так, например, здесь видно, что 16 респонденток оценивают свое психическое состояние как "крайне неустойчивое", а 5 респондентов-мужчин — как "очень устойчивое". Если для таблицы сопряженности приняты параметры по умолчанию, в каждой ячейке отображается только абсолютная частота. Метки переменных и значений в таблице соответствуют определениям переменных в файле данных SPSS. Числа в последней строке и в последнем столбце (Всего) показывают суммы значений соответственно по строкам и столбцам. В данном примере суммы по строкам указывают, что 44 (16+18+9+1) опрошенных — лица женского пола, а 62 — мужского. Суммы по столбцам показывают, что

19 опрошенных (16 + 3) оценивают свое психическое состояние как "крайне неустойчивое", 40 как неустойчивое, 41 как устойчивое и 6 как очень устойчивое. При анализе принимались в расчет 106 допустимых наблюдений. Полученные результаты мы можем интерпретировать следующим образом:

Из 106 опрошенных, которые учитывались при анализе, — 44 женщины и 62 мужчины.

16 женщин оценивают свою психику как "крайне неустойчивую", тогда как для мужчин это количество составляет только 3.

Лишь одна женщина считает свое психическое состояние "очень устойчивым", а мужчин с таким состоянием пятеро.

Даже первое впечатление, которое возникает при анализе таблицы сопряженности, свидетельствует о том, что зависимость между переменными Пол и Психическое состояние существует. Женщины считают свое психическое состояние более неустойчивым, чем мужчины. Исследуем эту зависимость чуть более детально; для этого нам понадобится точно ответить на следующие вопросы:

Существует ли зависимость вообще?

Что можно сказать об интенсивности этой зависимости?

Что можно сказать о направлении и характере этой зависимости?

Более тщательно исследовать существование зависимости позволяет вычисление значений ожидаемых частот. Чтобы определить эти значения, выполните следующие действия:

Выберите в меню команды Analyze (Анализ) Descriptive Statistics (Дескриптивные статистики) Crosstabs... (Таблицы сопряженности)

В списке строк у нас должна стоять переменная sex, а в списке столбцов — переменная psyche.

Щелкните на кнопке Cells... (Ячейки). Откроется диалоговое окно Crosstabs: Cell Display (Таблицы сопряженности: Отображение ячеек).

По умолчанию в ячейках таблицы сопряженности отображаются только наблюдаемые значения частот. В группе Counts (Частоты) можно выбрать один или более следующих вариантов отображения:

Observed (наблюдаемые): Будут отображаться наблюдаемые частоты. Это настройка по умолчанию.

Expected (Ожидаемые): Если установить этот флажок, будут отображаться ожидаемые частоты. Они вычисляются как произведение сумм соответствующей строки и столбца, деленное на общую сумму частот.

Диалоговое окно Define Clustered Bar: Summaries for groups of cases



Диалоговое окно Define Clustered Bar: Summaries for groups of cases




Диалоговое окно Options



Диалоговое окно Options


Снимите в нем флажок Display groups defined by missing values (Отображать группы, образование пропущенными значениями).

Щелкните на кнопке Continue, а затем на ОК. В окне просмотра появится график.

Дважды щелкните на этом графике — откроется редактор диаграмм, в котором его можно править.

Выберите в меню команды Format (Формат) Bar Label Style... (Стиль меток столбцов) Откроется диалоговое окно Bar Label Style.

Выберите пункт Framed (В рамках), щелкните на кнопке Apply all (Применить для всех) и затем на Close (Закрыть).

Щелкните на одном из столбцов, отображающем психическое состояние женщин, или в легенде на поле "женский". Столбцы, отображающие психическое состояние женщин, будут выделены. Это можно определить по маленьким черным квадратикам на углах столбцов.

Выберите в меню команды Format (Формат) Color... (Цвет)

Откроется диалоговое окно Colors (Цвета). Здесь можно изменить стандартный цвет столбцов, а также цвет их контура.

Щелкните на сером поле, а затем на кнопках Apply (Применить) и Close (Закрыть).

Таким же способом измените цвет столбцов для мужчин на черный.

В заключение вызовите команды меню Chart (Диаграмма) Outer Frame (Внешняя рамка)

Получится графическое представление таблицы сопряженности, показанное на рис. 11.8.

Можно не вызывать меню Graph, а просто установить в диалоге Crosstabs флажок Display clustered bar charts (Показывать столбчатые кластеризованные диаграммы). Тогда на диаграмме будут показаны две группы столбцов для двух переменных строк. Чтобы придать диаграмме такой вид, как на рис. 11.8, надо поменять переменные строк и столбцов местами.





Диалоговое окно Titles



Диалоговое окно Titles




Таблицы сопряженности


Глава 11. Таблицы сопряженности

Таблицы сопряженности 11.1 Создание таблиц сопряженности 11.2 Графическое представление таблиц сопряженности 11.3 Статистические критерии для таблиц сопряженности 11.3.1 Тест хи-квадрат 11.3.2 Коэффициенты корреляции 11.3.3 Меры связанности для переменных с номинальной шкалой 11.3.4 Меры связанности для переменных с порядковой шкалой 11.3.5 Другие меры связанности



Графическое представление: столбчатая диаграмма



Графическое представление: столбчатая диаграмма




Таблицы сопряженности



Таблицы сопряженности

До сих пор мы рассматривали только отдельные переменные. Мы проводили частотный анализ, а также описывали отдельные переменные статистическими характеристиками, такими как минимум, максимум и среднее значение. Методы анализа такого рода называются одномерными. В текущей главе мы перейдем к двумерному анализу и займемся выяснением вопроса, существует ли взаимосвязь между двумя или более переменными.

В SPSS имеется большое количество разнообразных процедур, при помощи которых можно произвести анализ связи между двумя переменными. Связь между неметрическими переменными, то есть переменными, относящимися к номинальной шкалу или к порядковой шкале с не очень большим количеством категорий, лучше всего представить в форме таблиц сопряженности. Для этой цели в SPSS реализован тест %2, при котором проверяется, есть ли значимое различие между наблюдаемыми и ожидаемыми частотами. Кроме того, существует возможность расчета различных мер связанности. Восстановление зависимостей между метрическими переменными, то есть имеющими интервальную шкалу или шкалу отношений, рассматривается в главе 15.





Заполненное диалоговое окно Crosstabs



Заполненное диалоговое окно Crosstabs


Можно выбрать другие уровни переменных слоев. Для каждой категории каждой из переменной слоев будет создана отдельная таблица сопряженности. Чтобы добавить новый слой, щелкните на кнопке Next (Следующий). Каждый последующий уровень делит таблицу сопряженности на меньшие подгруппы. Переходить от одного слоя к другому можно при помощи кнопок Next и Previous (Предыдущий).

Щелкните на ОК. Вы получите таблицы сопряженности переменных sex и psyche отдельно для каждой специальности. Предоставляем вам самостоятельно интерпретировать их содержание.