Пример из области медицины

18.1 Пример из области медицины

Обратимся ещё раз к примеру, который уже приводился при рассмотрении логистической регрессии. В этом примере приводятся выборочные данные о пациентах с нарушениями работы легких. Эти данные хранятся в файле lunge.sav. Приведем ещё раз переменные, которые в данном случае будут применяться при дискриминантом анализе:

Имя переменной	Значение
out	Исход (0 = скончался, 1 = выжил)
alter	Возраст
bzeit	Время проведения искусственного дыхания в часах
kob	Концентрация кислорода в смеси для искусственного дыхания
адд	Интенсивность искусственного дыхания
geschl	Пол (1 = мужской, 2 = женский)
gr	Рост

Переменная out делит пациентов на две группы; при помощи остальных переменных предстоит прогнозировать принадлежность к одной из групп.

Откройте файл lunge.sav.

Выберите в меню Analyze (Анализ) Classify (Классифицировать) Discriminant... (Дискриминантный анализ)

Откроется диалоговое окно Discriminant Analysis (Дискриминантный анализ).

Пример из области социологии

18.2 Пример из области социологии

В своём исследовании "Культурный прорыв. Изменение ценностей в западном мире" (см. дополнительную литературу) Рональд Инглехарт (Ronald Inglehart) приводит тезис, что в более зрелых возрастных группах значимо большее количество человек высказались в пользу материальных ценностей (см. гл. 8.4.2). Среди младших поколений, согласно Инглехарту, растёт доля постматериалистов. Склонность опрошенных к постматериалистическим ценностям зависит от их образования и профессиональной квалификации. Чем выше образование и профессиональная квалификация, тем выше склонность к постматериалистическим ценностям. Значение имеет также и социально-экономический статус отца; согласно мнению Инглехарта, чем он выше, тем значительней доля постматериалистов. При помощи дискриминантного анализа мы проверим эту теорему смены ценностей, сформулированную американским политологом.

Откройте в редакторе данных файл postmat.sav.

Переменные, которые вы сможете найти в этом файле, приводятся в нижеследующей таблице.

Имя переменной	Значение
ingMnd	Индекс Инглехарта
	Ценности:
	1 Постматериалисты
	2 Постматериалисты смешанного типа
	3 Материалисты смешанного типа
	4 Материалисты
	5 Не могу дать ответ
	6 Нет данных
statpaps	Социально-экономический статус отца (индекс)
	Значения:
	1 Низкий
	5 Высокий
	8 Формируется в данный момент (отсутствующее значение)
	9 Безработный, в заключении, умер, пенсионер и т.д. (отсутствующее
	значение)
schule	Уровень образования опрашиваемых
	Значения:
	1 Без образования
	2 Начальная школа
	3 Незаконченное среднее
	4 Среднее
alter	Возраст опрашиваемых
	Значения:
	1 18 до 29 лет
	2 30 до 44 лет
	3 45 до 59 лет
	4 60 до 74 лет
	5 75 до 88 лет
	6 89 и старше
	9 Не указан (отсутствующее значение)
ausbild	Профессиональное образование опрашиваемых Значения: 0 Образование отсутствует (отсутствующее значение) 1 Краткосрочное образование 2 Ученик 3 Мастер/техник 4 Высшее образование

Прежде чем преступить к дискриминантному анализу, преобразуем сначала переменную ingl_ind к дихотомическому типу. Значения признаков: 1 ("Постматериалисты") и 2 ("Постматериалисты смешанного типа") должны бить включены в новое значение признака 1 ("Постматериалистические типы") переменной ingMnd, а значения признаков: 3 ("Материалисты смешанного типа") и 4 ("Материалисты") в новое значение признака 2-"Материалистические типы".

Для этого в редакторе синтаксиса введите следующие команды:

RECODE ingl_ind (1,2 = 1) (3,4 = 2)

INTO ingl_dic. VARIABLE LABELS

ingl_dic = "Inglehart-Index, dichotom".

VALUE LABELS

ingl_dic 1 "Postmat. Typen"

2 "Materialist.Typen".

EXECUTE.

Вы можете также загрузить в редактор синтаксиса и файл ingledic.sps, в котором находятся эти команды.

Пометьте команды и запустите программу щелчком на кнопке Run Current (Выполнить текущие команды).

В редакторе данных появится новая переменная ingl_dic. Теперь проведите дискриминантный анализ.

Выберите в меню опции Analyze (Анализ) Classify (Классифицировать) Discriminant... (Дискриминантный анализ)

Переменную ingl_dic поместите в поле групповых переменных.

Щёлкните на выключателе Define Range... (Определить область) и в качестве минимального значения введите 1, а в качестве максимального значения 2.

Переменные statpaps, schule, alter и ausbild поместите в список Independents (Независимые переменные). Оставьте метод ввода переменных Enter independents together (Независимые переменные вводить одновременно), установленный по умолчанию.

Диалоговое окно Discriminant Analysis (Дискриминантный анализ) должно теперь выглядеть так, как показано на рисунке 18.4.

Пример из области биологии

18.3 Пример из области биологии

Дискриминантный анализ очень часто применяется для обработки данных из области биологии. В следующем типичном примере для некоторого количества индивидуумов принадлежность к группе уже известна, на основании чего и строится дискриминантная функция. Далее она используется для того, чтобы оценить принадлежность к определенной группе тех индивидуумов, для которых она ещё не известна.

В файле vogel.sav хранятся данные о половой принадлежности, длине крыла, длине клюва, размере головы, длине лап и весе 245 птиц определённого вида. Причём пол смогли определить только для 51 особи. Кодировка пола соответствует 1 = мужской и 2 = женский; отсутствие данных кодируется 9.

Если для перечисленных параметров Вы рассчитаете средние значения для самцов и самок, то для самок получите более высокие показатели. Исходя из этого, при помощи дискриминантного анализа можно попытаться определить пол тех особей, для которых этого нельзя было сделать ранее.

Откройте файл vogel.sav.

В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной geschl (Пол) присвойте статус групповой переменной с пределами от 1 до 2, а переменным fluegel (Длина крыла), schnl (Длина клюва), kopfl (Размер головы), fuss (Длина лап) и gew (Вес) — статус независимых переменных. Выберите пошаговый метод.

В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) активируйте Casewise results (Результаты для отдельных наблюдений) с ограничением в 40 наблюдений и Summary table (Сводная таблица).

Через выключатель Save... (Сохранить) при помощи активирования опций Predicted group membership (Прогнозируемая принадлежности к группе) и Probabilities of group membership (Вероятности принадлежности к группе) затребуйте генерирование соответствующих переменных.

Из всех результатов, приводимых в окне просмотра, в книге рассматриваются только статистики для каждого наблюдения. По классификационной таблице видно, что для 51 наблюдения с заранее известным полом 44 раза, т.е. в 86,3 % наблюдений, пол был спрогнозирован верно (см. следующую таблицу).

Если мы рассмотрим наблюдение 8, то здесь пол известен — женский и в результате прогноза получается женский пол, а вот для наблюдения 30 пол известен как мужской, но прогнозируется как женский. Наблюдения с нераспознанным полом приводятся в таблице как "ungrouped" (не группированные).

Для наблюдения 1, для которого пол оказался неизвестным, он прогнозируется как женский. Значение вероятности прогнозирования, 0,990, указывается в колонке "P(G=g | D=d)" под заголовком "Highest Group" (Старшая группа). Менее достоверным является прогноз пола для наблюдения 10, здесь вероятность прогнозирования составляет только 0,721.

Casewise Statistics

(Статистики для наблюдений)
	Case Number (Номер случая)	Actual Group (Факти-ческая группа)	Highest Group (Старшая группа)	Second Highest Group (Вторая по старшинству группа)	Discri-minant Scores (Значе-ния диск-рими- нантной фун-кции)
Predicted Group (Прог-нози- руемая группа)	P(D>d \| e=g)	P(G=9 I D=d)	Squared Ma-hala-nobis Distance to Cent-raid (Квадрат рас-стояния Маха-ланобиса до цент-роида)	Group (Груп-па)	P(G=g \|D=d)	Squared Ма-halanobis Distance to Centraid (Квадрат рас-стояния Маха-ланобиса до центро-ида)	Fun-ction 1 (Фун-кция 1 )
P	df
Original (Пер- вона- чаль -но)	1	ungrouped (не груп-пирова-нный)	2	,222	1	,990	1,489	1	,010	10,679	2,304
2	ungrouped (не груп-пирова-нный)	2	,063	1	,997	3,453	1	,003	15,254	2,942
3	ungrouped (не груп-пирова-нный)	2	,064	1	,997	3,433	1	,003	15,213	2,937
4	ungrouped (не груп-пирова-нный)	2	,245	1	,989	1,353	1	,011	10,307	2,247
5	ungrouped (не груп-пирова-нный)	2	,126	1	,995	2,338	1	,005	12,792	2,613
6	ungrouped (не груп-пирова-нный)	2	,319	1	,984	,995	1	,016	9,271	2,081
7	ungrouped (не груп-пирова-нный)	2	,485	1	,971	,489	1	,029	7,543	1,783
8	2	2	,102	1	,996	2,673	1	,004	13,561	2,719
9	ungrouped (не груп-пирова-нный)	2	,387	1	,980	,748	1	,020	8,482	1,949
10	ungrouped (не группирова-нный)	2	,576	1	,721	,313	1	,279	2,213	,524
11	ungrouped (не груп-пирова-нный)	2	,651	1	,954	,205	1	,046	6,248	1,536
12	ungrouped (не груп-пирова-нный)	2	,140	1	,994	2,177	1	,006	12,411	2,559
13	ungrouped (не груп-пирова-нный)	2	,435	1	,976	,609	1	,024	7,995	1,864
14	ungrouped (не группиро-ванный)	2	,471	1	,973	,519	1	,027	7,662	1,804
15	ungrouped (не группиро-ванный)	2	,764	1	,938	,090	1	,062	5,510	1,384
16	ungrouped (не группиро-ванный)	2	,481	1	,972	,497	1	,028	7,576	1,789
17	ungrouped (не груп-пирова-нный)	2	,172	1	,993	1,868	1	,007	11,658	2,451
18	2	2	,399	1	,979	,712	1	,021	8,359	1,928
19	ungrouped (не груп-пирова-нный)	2	,705	1	,946	,143	1	,054	5,884	1,462
20	2	2	,969	1	,898	,002	1	,102	4,355	1,123
21	2	2	,249	1	,989	1,328	1	,011	10,238	_ 2,236
22	ungrouped (не груп-пиров-анный)	2	,121	1	,995	2,407	1	,005	12,953	2,636
23	2	2	,071	1	,997	3,263	1	,003	14,853	2,890
24	ungrouped (не груп-пирова-нный)	2	,367	1	,981	,815	1	,019	8,704	1,987
25	ungrouped (не груп-пиров-анный)	2	,880	1	,857	,023	1	,143	3,598	,933
26	ungrouped (не груп-пирова-нный)	2	,537	1	,966	,382	1	,034	7,103	1,702
27	ungrouped (не группиро-ванный)	1	,640	1	,955	,218	2	,045	6,323	-1,431
28	2	2	,744	1	,806	,107	1	,194	2,960	,757
29	ungrouped (не груп-пирова-нный)	2	,969	1	,883	,001	1	,117	4,035	1,045
30	1	2"	,625	1	,749	,239	1	,251	2,428	,595
	31	ungrouped (не груп-пирова-нный)	2	,646	1	,760	,211	1	,240	2,521	,624
32	2	2	,173	1	,993	1,860	1	,007	11,636	2,448
33	1	2"	,504	1	,970	,447	1	,030	7,378	1,753
34	ungrouped (не груп-пирова-нный)	2	,544	1	,966	,368	1	,034	7,046	1,691
35	ungrouped (не груп-пирова-нный)	2	,618	1	,958	,248	1	,042	6,480	1,582
36	ungrouped (не груп-пирова-нный)	2	,727	1	,943	,122	1	,057	5,744	1,433
37	2	2	,458	1	,974	,551	1	,026	7,781	1,826
38	2	2	,362	1	,981	,829	1	,019	8,750	1,995
39	2	2	,814	1	,929	,055	1	,071	5,211	1,319
40	ungrouped (не груп-пирова-нный)	2	,812	1	,930	,057	1	,070	5,222	1,322

** Misclassified case (** - Неверно классифицированный случай)

Для того, чтобы хотя бы частично сократить количество ошибочных значений для переменной пола, при анализе вы можете применять прогнозируемую групповую принадлежность только в тех случаях, для которых вероятность прогнозирования принимает некоторое минимально допустимое значение, к примеру, 0,9.

IF (dis_1 = 1 and disl_1 >= 0,9)

geschl=1

. IF (dis_1 = 2 and dis2_1 >= 0,9)

geschl=2.

EXECUTE.

Таким образом, в используемом примере можно присвоить половой показатель ещё 90-а птицам. Если вы снизите минимально допустимое значение вероятности прогнозирования, то это число станет ещё больше.

К файлу были добавлены три новые переменные:

dis_1: Прогнозируемая группа

disl_1: Вероятность принадлежности к группе 1

dis2_1: Вероятность принадлежности к группе 2.

Пример из области биологии (три группы)

18.4 Пример из области биологии (три группы)

В предыдущих примерах дискриминантный анализ всегда проводился при наличии лишь двух групп. В этой главе рассматривается пример, в котором групповая переменная имеет больше двух категорий, а именно три.

В файле kaefer.sav содержатся данные о длине и ширине грудной клетки трёх видов жуков (обозначенных как А, В и С). Если вы проведёте однофакторный дисперсионный анализ с последующими дополнительными тестами (Post-hoc-Tests), то увидите, что три разновидности жуков очень значимо различаются между собой как по длине, так и по ширине, поэтому вполне можно предположить, что этих жуков можно классифицировать между упомянутыми видами на основании их длины и ширины посредством дискриминантного анализа.

Откройте файл kaefer.sav.

Вы увидите, что 17 жуков из 30 не отнесены ни к иной из групп; поэтому классификация жуков по группам должна быть произведена при помощи дискриминантного анализа.

В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменной kaefer (Жук) присвойте статус групповой переменной с пределами от 1 до 3, а переменным laenge (Длина) и breite (Ширина) статус независимых переменных. Оставьте активной установку по умолчанию Enter independents together (Независимые переменные вводить одновременно).

В диалоговом окне Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) в разделе Descriptives (Дискриптивние статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA) и в разделе Function Coefficients (Коэффициенты функции) опцию Unstandardized (He стандартизированные).

В диалоговом окне Discriminant Analysis: Classify (Дискриминантный анализ: Классифицировать) сделайте запрос на Case-wise results (Результаты для отдельных наблюдений) и Summary table (Сводную таблицу) и в разделе Plots (Графики) активируйте опцию Territorial map (Территориальная карта). Эта опция служит для построения классификационной диаграммы, так называемой территориальной карты (Territorial map). Построение этой диаграммы типично для случая с более чем двумя группами.

В заключение, в диалоговом окне Discriminant Analysis: Save (Дискриминантный анализ: Сохранить), активируйте все опции, находящиеся там, с целью создания соответствующих переменных в исходном файле.

Из всей гаммы приводимых результатов расчёта мы рассмотрим только самые важные. Из групповых статистик можно узнать, что в семейство А входят самые большие, а в семейство В самые маленькие жуки.

Group Statistics

(Статистики для групп)
KAEFEP (Жук)	Mean (Сред-нее значе-ние)	Std. Deviation (Станда-ртное отклоне-ние)	Valid N (listwise) (Действительные значения (по списку))
Unweighted (Не взвеше-нное)	Weighted (Взвеше-нное)
1 (Семейство А)	LAENGE (Длина)	1 ,6226	5.968Е-02	42	42,000
BREITE (Ширина)	1 ,2607	4J54E-02	42	42,000
2 Семейство В)	LAENGE (Длина)	1 ,3089	7.634Е-02	45	45,000
BREITE (Ширина)	1,0122	4.415Е-02	45	45,000
3 Семейство С)	LAENGE (Длина)	1,4788	6.029Е-02	26	26,000
BREITE (Ширина)	1,1192	5.114Е-02	26	26,000
Total	LAENGE (Длина)	1,4646	,1535	113	113,000
BREITE (Ширина)	1,1292	,1191	113	113,000

Статистика Лямбда Уилкса (>i) свидетельствует о том, что жуки очень значимо делятся на группы как по длине, так и по ширине.

Tests of Equality of Group Means (Тест на равенство средних значений групп)

	Wilks' Lambda (Лямбда Уилкса)	F	df1	df2	Sig. (Значимость)
LAENGE (Длина)	,187	239,154	2	110	,000
BREITE (Ширина)	,153	303,326	2	110	,000

Если насчитывается более двух классификационных групп, то можно образовать больше одной дискриминантной функции; при трёх группах, как в приведенном примере, их будет две. Следующая таблица свидетельствует о том, что обе дискриминантные функции дают значимые результаты для разделения между группами и, следовательно, могут быть использованы соответствующим образом. Однако, первая функция дает вероятность прогноза 98,7 %, а вторая только 1,3 %.

Eigenvalues (Собственные значения)

Function (Функция)	Eigenvalue (Собствен-ные значение)	% of Variance (% диспер-сии)	Cumulative % (Совокуп-ный %)	Canonical Correlation (Канони-ческая корре-ляция)
1	6,040а	98,7	98,7	,296
2	,078а	1,3	100,0	,269

a. First 2 canonical discriminant functions were used in the analysis (В этом анализе используются первые 2 канонические дискриминантные функции).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) (Тест функции (й))	Wilks1 Lambda (Лямбда Уилкса)	Chi-square (Хи-квадрат)	df	Sig. (Значимость)
1 through 2 (1 до 2)	,132	221,900	4	,000
2	,928	8,202	1	,004

Затребованные нестандартизированные коэффициенты функций приводятся в следующей таблице.

Canonical Discriminant Function Coefficients

(Канонические коэффициенты дискриминантных функций)
	Function (Функция)
1	2
LAENGE (Длина)	5,831	18,769
BREITE (Ширина)	14,891	-23,659
(Constant) (Константа)	-25,355	-,773

Unstandardized coefficients (Нестандартизированные коэффициенты)

Мы здесь опускаем вывод статистик для каждого отдельного случая. В результате расчетов Вы получаете соответствующие номера групп и вероятность прогнозирования под заголовком P(G = g|D = d). Прогнозирование осуществлено и для 17 неклассифицированных случаев.

На территориальной карте показано разделение на области, которые означают принадлежность к группе. При этом в пределах границ соответствующей области вероятность отнесения к данной группе выше, чем для других групп. На границах областей вероятности для граничащих групп одинаковы.

Значения обеих дискриминантных функций, на основе которых построена эта территориальная карта, Вы можете увидеть в редакторе данных под именами двух вновь созданных переменных: dis1_1 и dis2_1.

В заключение приводится обзор результатов классификации. По ним Вы можете заметить, что прогноз для групп А и В практически полностью был сделан верно и корректно классифицированы, в общей сложности, 91,2 % всех случаев.

Classification Results a

(Результаты Классификации)
	FUND (Семе-йство)	Predicted Group Membership	Total (Сум-ма)
1 (Семей-ство А)	2 (Семей-ство В)	3 (Семей-ство С)
Original (Перво-нача-льно)	Count (Коли-чество)	1 (Семейство А)	41	0	1	42
2 (Семейство В)	0	43	2	45
3 (Семейство С)	4	3	19	26
Ungrouped cases (He груп-пирован-ные случаи)	7	6	4	17
%	1 (Семейство А)	97,6	,0	2,4	100,0
2 (Семейство В)	,0	95,6	4,4	100,0
3 (Семейство С)	15,4	11,5	73,1	100,0
Ungrouped cases (He груп-пирован-ные случаи)	41,2	35,3	23,5	100,0

а. 91,2% of original grouped cases correctly classified (91,2 % первоначально сгруппированных случаев были классифицированы корректно).

Задачи статистики в пакете SPSS

Символы, используемые втерриториальной карте
Символ	Группа	Метка
1 2 3	1 2 3	Семейство А Семейство В Семейство С
Маркировка	Центроиды групп

Наряду с уже упоминавшимися значениями обеих дискриминантных функции в редакторе данных были созданы: переменная dis_1, содержащая значение прогнозируемой группы и переменные disl_2, dis2_2 и dis3_2, которые содержат прогнозируемые вероятности отнесения к одной из трёх групп. Группа, которой соответствует наибольшая вероятность прогнозирования и есть прогнозируемая группа.

Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)

Диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация)

Задачи статистики в пакете SPSS

Сделайте здесь запрос на Summary table (Сводную таблицу).

Щёлкните на выключателе Save... (Сохранить). Откроется диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить) (см. рис. 18.7).

Диалоговое окно Discriminant Analysis (Дискриминантный анализ).

Диалоговое окно Discriminant Analysis (Дискриминантный анализ).

Задачи статистики в пакете SPSS

Поместите переменную out в поле, предназначенное для групповых переменных.

После щелчка по выключателю Define Range... (Определить промежуток) введите минимальное и максимальное значения этой переменной: 0 и 1.

Переменным agg, alter, bzeit, gcschl, gr и kob присвойте статус независимых переменных. Для начала оставим установленный по умолчанию метод: Enter independents together (Одновременный учет всех независимых переменных), при котором в анализе одновременно будут участвовать все независимые переменные.

После щелчка по выключателю Statistics... (Статистики) активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты ANOVA), Unstandardized Function Coefficients (Нестандартизированные коэффициенты функции) и Within-groop Correlation Matrice (Корреляционная матрица внутри группы).

Через выключатель Classify (Классифицировать) сделайте дополнительно запрос на вывод диаграмм по отдельным группам (Separate-groups Plots), результатов для отдельных наблюдений (Casewise results) и сводной таблицы (Summary table). При выводе результатов для отдельных наблюдений ограничимся первыми двадцатью, поместив этот предел в соответствующую позицию диалогового окна.

Довольно полезный график для объединенных групп, который был реализован в ранних версиях SPSS, и сейчас можно активировать в диалоговом окне, однако вместо графика в окне отображения результатов будет появляться предупреждение о том, что такая гистограмма в анализах более не доступна.

При помощи выключателя Save... (Сохранить) активируйте сохранение значения дискриминантной функции в дополнительной переменной (Discriminant Scores).

Начните расчёт нажатием ОК.

После вводного обзора действительных и пропущенных значений приводятся средние значения, стандартные отклонения, количество наблюдений для каждой группы в отдельности и суммарные показатели для обеих групп.

Переменная geschl является при этом дихотомической переменной, принадлежащей к номинальной шкале с кодировками: 1 (мужской пол) и 2 (женский пол). Средние значения пола для обоих групп по исходу Легения, кажущиеся на первый взгляд бесполезными, равны 1,63492 и 1,45588; если бы вместо этого переменные были закодированы при помощи 0 и 1, то оба средних значения равнялись бы 0,63492 и 0,45588 соответственно. Для таких дихотомических переменных, кодированных при помощи 0 и 1, среднее значение указывает на долю наблюдений с кодировкой 1. Это означает, что для группы "скончался" доля женщин в процентном отношении составляет 63,492, а для группы "выжил" 45,588.

Group Statistics (Статистики для групп)
Outcome (Исход)	Mean (Среднее значение)	Std. Deviation (Стандартное отклонение)	Valid N (listwise) (Действительные значения (по списку))
Unwe-ighted (Не взвешено)	Weig-hted (Взве-шено)
gesto-rben (Скон-чался)	Aggressivitaet der Beatmung (Интенси-вность искус-ственного дыхания)	15,90013	10,90013	63	63,000
ALTER (Возраст)	31,92063	13,82529	63	63,000
Beatmungszeit in Std. (Время проведения искус-ственного дыхания в часах)	15,36508	10,50085	63	63,000
Geschlecht (Пол)	1,63492	,48532	63	63,000
Koerper-groesse (Рост)	165,1429	15,55931	63	63,000
Sauerstoff-Konzentration (Концент-рация кислорода в смеси для искус-ственного дыхания)	,85952	,14807	63	63,000
ueberlebt (Выжил)	Aggressivitaet der Beatmung (Интенси-вность искус-ственного дыхания)	11,69699	8,16057	68	68,000
ALTER (Возраст)	27,97059	10,86411	68	68,000
Beatmungszeit in Std. (Время проведения искус-ственного дыхания в часах)	10,79412	5,10065	68	68,000
Geschlecht (TlonJ	1,45588	,50175	68	68,000
Koerpe-rgroesse (Рост)	172,0588	11,01137	68	68,000
Sauerstoff-Konzentration (Концентрация кислорода в смеси для искус-ственного дыхания)	,80338	,15493	68	68,000
Total	Aggressivitaet der Beatmung (Интенси-вность искус-ственного дыхания)	13,51843	9,72600	131	131,000
ALTER (Воз_раст)	29,87023	12,48654	131	131,000
Beatmungszeit in Std. (Время проведения искус-ственного дыхания в часах)	12,99237	8,44120	131	131,000
Geschlecht (Пол)	1,54198	,50015	131	131,000
Koerpe-rgroesse (Рост)	168,7328	13,78339	131	131,000
Sauerstoff-Konzentration (Конце-нтрация кислорода в смеси для искус-ственного дыхания)	,83038	,15369	131	131,000

Затем проводится тест, насколько значимо различаются между собой переменные в обеих группах; наряду с тестовой величиной, в качестве которой служит Лямбда Уилкса ("Wilks-Lambda"), применяется также и простой дисперсионный анализ. Для всех переменных (кроме возраста, для которого однако также просматривается сильная тенденция к значимости) получается значимое различие между обеими группами:

Tests of Equality of Group Means (Тест равенства групповых средних значений)

	Wilks Lambda (Лямбда Уилкса)	F	df1	df2	Sig. (Значи-мость)
Aggressivitaet der Beatmung (Интенсивность искусственного дыхания)	,962	5,116	1	129	,025
ALTER (Возраст)	,975	3,331	1	129	,070
Beatmungszeit in Std. (Время проведения искусственного дыхания в часах)	,926	10,273	1	129	,002
Geschlecht (Пол)	,968	4,297	1	129	,040
Koerpergroesse (Рост)	,937	8,722	1	129	,004
Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания)	,966	4,481	1	129	,036

Далее следует корреляционная матрица между всеми переменными, в которой приводятся коэффициенты, осредненные для обеих групп:

Pooled Within-Groims Matrices (Объединённые внутригрупповые матрицы)

	Aggres-sivitaet der Beat-mung (Интен-сивность искус-ственного дыхания)	ALTER (Воз-раст)	Beatmun-gszeit in Std. (Время прове-дения искус-ственного дыхания в часах)	Gesc-hlecht (Пол)	Koerper-groesse (Рост)	Saue-rstoff- Konzen-tration (Концен-трация кисл-орода в смеси для искус-ственного дыхания)
Corre-lation (Корре-пяция)	Aggres-sivitaet der Beatmung (Интен-сивность искус-ственного дыхания)	1,000	-,072	-,058	,141	-,042	,285
ALTER (Возраст)	-,072	1,000	,093	-,040	,277	-.119
Beatmu-ngszeit in Std. (Время прове-дения искус-ственного дыхания в часах)	-,058	,093	1,000	,069	-,126	-,089
Geschlecht (Пол)	.141	-0,40	,069	1,000	-,481	-,066
Koerpe-rgroesse (Рост)	-,042	,277	-,126	-,481	1,000	,000
Sauer-stoff-Konze-ntration (Конце-нтрация кисло-рода в смеси для искус-ственного дыхания)	,285	-,119	-,089	-,066	,000	1,000

Следующими шагами являются расчёт и анализ коэффициентов дискриминантной функции. Значения этой функции должны как можно отчётливей разделять обе группы. Мерой удачности этого разделения служит корреляционный коэффициент между рассчитанными значениями дискриминантной функции и показателем принадлежности к группе:

Eigenvalues (Собственные значения)

Function (Функция)	Eigenvalue (Собственное значение)	% of Variance (% дисперсии)	Cumulative % (Сово-купный %)	Canonical Correlation (Канони-ческая корреляция)
1	,256"	100,0	100,0	,452

a. First 1 canonical discriminant functions were used in the analysis (В этом анализе используются первые 1 канонические дискриминантные функции).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) (Тест функции (и))	Wilks' Lambda (Лямбда Уилкса)	Chi-square (Хи-квадрат)	df	Sig. (Значимость)
1	,796	28,733	6	,000

Судя по значению коэффициента, равному 0,452, корреляция абсолютно не удовлетворительная. При помощи Лямбда Уилкса производится тест на то, значимо ли в обеих группах отличаются друг от друга средние значения дискриминантной функции; в приводимом примере, значение р < 0,001, указывает на очень значимое различие.

Значение, выводимое под именем "Eigenvalue" (Собственное значение), соответствует отношению суммы квадратов между группами к сумме квадратов внутри групп. Эти две суммы Вы сможете получить, если проведете дисперсионный анализ значений дискриминантной функции (переменная dis1_1) по фактору out (см. гл. 13.3). Большие собственные значения (в данном случае такого, к сожалению, не наблюдается) указывают на "хорошие" (удачно подобранные) дискриминантные функции.

Следующая таблица дает представление о том, как сильно отдельные переменные, применяемые в дискриминантной функции, коррелируют со стандартизированными значениями этой дискриминантной функции. При этом корреляционные коэффициенты были рассчитаны в обеих группах по отдельности и затем усреднены:

Standardized Canonical Discriminant Function Coefficients

(Стандартизиро-ванные канонические коэффициенты дискриминантной функции)
	Function (Функция)
1
Aggressivitaet der Beatmung (Интенсивность искусственного дыхания)	,316
ALTER (Возраст)	,494
Beatmungszeit in Std. (Время проведения искусственного дыхания в часах\|	,491
Geschlecht (Пол)	,066
Koerpergroesse (Рост)	-,544
Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания)	,385

Structure Matrix

(Структурная матрица)
	Function (Функция)
1
Beatmungszeit in Std. (Время проведения искусственного дыхания в часах)	,558
Koerpergroesse (Рост)	-,514
Aggressivitaet der Beatmung (Интенсивность искусственного дыхания)	,393
Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания)	,368
Geschlecht (Пол)	,361
ALTER (Возраст)	,318

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions (Объединённые корреляции внутри групп между диск-риминантными переменными и стандартизированными каноническими дискриминант-ными функциями).

Variables ordered by absolute size of correlation within function (Переменные расположены в соответствии с абсолютными корреляционными величинами внутри функции).

И в заключение, приводятся сами коэффициенты дискриминантной функции:

Canonical Discriminant Function Coefficients

(Канонические коэффициенты дискриминантной функции)
	Function (Функция)
1
Aggressivitaet der Beatmung (Интенсивность искусственного дыхания)	,033
ALTER (Возраст)	,040
Beatmungszeit in Std. (Время проведения искусственного дыхания в часах)	,060
Geschlecht (Пол)	,133
Koerpergroesse (Рост)	-,041
Sauerstoff-Konzentration (Концентрация кислорода в смеси для искусственного дыхания)	2,539
(Constant)	2,121

Unstandardized coefficients (Нестандартизированные коэффициенты)

Здесь речь идёт о нестандартизированных коэффициентах — это множители при заданных значениях переменных, входящих в дискриминантную функцию. Стандартизированные коэффициенты, которые приводились ранее, основаны на стандартизированных значениях переменных, получаемых с помощью z-преобразования.

Далее приводятся средние значения дискриминантной функции в обеих группах:

Functions at Group Centroids

(Функции групповых центроидов)
Outcome (Исход)	Function (функция)
1
gestorben (Скончался)	,522
ueberlebt (Выжил)	-,483

Unstandardized canonical discriminant functions evaluated at group means (Heстандартизированные канонические дискриминантные функции, которые оцениваются по групповым средним значениям).

Далее следует таблица, в которой построчно для каждого наблюдения приводится информация о значении дискриминантной функции и определяется принадлежность к одной из двух групп. Мы здесь ограничились первыми двадцатью наблюдениями.

Группа, к которой фактически принадлежит наблюдение, отображается в колонке с именем "Actual Group" (Фактическая группа). В следующих трёх колонках содержится информация о прогнозе принадлежности к группе, сделанном на основании значения дискриминантной функции. Сначала приводится прогнозируемая принадлежность к группе; если она не соответствует фактической принадлежности, то в колонке "Predicted Group" (Прогнозируемая группа) отображаются две звёздочки (**).

Casewise Statistics

(Статистики для наблюдений)
	Case Number (Поряд-ковый номер случая)	Actual Group (Факти-ческая груп-па)	Highest Group (Старшая группа)	Second Highest Group (Вторая по старшинству группа)	Discri-minant Scores (Значе-ния дискри-ми- нант-ности)
Predic-ted Group (Прогно-зируе-мая груп-па)	P(D>d G=g)	P(G=g \| D=d)	Squared Maha-lanobis Distance to Centroid (Квадрат рас-стояния Махапа-нобиса до центро-ида)	Group (Груп-па)	P(G=g \|D=d)	Squared Maha-lanobis Distance to Centroid (Квадрат рас-стояния Маха-ланобиса до центро-ида)	Function 1 (Фун-кция 1)
р	df	1
Origi-nal (Перво-нача-льно)	1	0	1"	,727	1	,702	,122	0	,298	1,834	-.833
2	1	0"	,116	1	,889	2,464	1	,111	6,631	2,092
3	0	1"	,842	1	,576	,040	0	,424	,650	-,284
4	1	1	,310	1	,821	1,032	0	,179	4,085	-1,499
5	1	1	,495	1	,767	,465	0	,233	2,846	-1,165
6	1	1	,453	1	,779	,563	0	,221	3,081	-1,234
7	0	1"	,635	1	,728	,225	0	,272	2,189	-,958
8	1	1	,549	1	,752	,359	0	,248	2,575	-1,083
9	1	1	,880	1	,587	,023	0	,413	,729	-,332
10	0	1"	,952	1	,609	,004	0	,391	,893	-,423
11	0	0	,026	1	,940	4,980	1	,060	10,477	2,753
12	1	0"	,618	1	,501	,249	1	,499	,256	,023
13	0	0	,930	1	,603	,008	1	,397	,841	,434
14	1	1	,817	1	,676	,053	0	,324	1,528	-,714
15	1	1	,958	1	,611	,003	0	,389	,908	-,431
16	0	1"	,685	1	,524	,165	0	,476	,359	-,077
17	1	1	,388	1	,798	,745	0	,202	3,492	-1,347
18	0	1"	,763	1	,550	,091	0	,450	,496	-,182
19	1	1	,748	1	,696	,103	0	,304	1,760	-,805
20	0	0	,308	1	,822	1,037	1	,178	4,095	1,540

** Мisciassiriea case (Неправильно классифицированное наблюдение;

Далее выводятся две вероятности. Вторая из этих двух вероятностей, обозначенная P(G=g|D=d), является мерой принадлежности к одной из двух групп. Это вероятность того, что некоторой наблюдение принадлежит к прогнозированной группе, которая рассчитывается на основе подстановки в дискриминантную функцию значений набора переменных, соответствующих данному наблюдению. Вероятность того, что данный наблюдение принадлежит к другой группе получается вычитанием меры принадлежности из 1. Она приводится в колонке с названием "Second Highest Group" (Вторая по старшинству группа). Если мы рассмотрим первый наблюдение, то здесь вероятность того, что данный пациент выживет, рассчитанная на основании значении исходных переменных, равна 0,702 (в действительности он скончался).

Первую из двух рассмотренных вероятностей, получившую название Р (D>d|G=g), называют ещё и условной вероятностью. Это вероятность того, что пациент, принадлежащий к прогнозируемой группе, действительно имеет значения параметров, соответствующие дискриминантной функции или некоторые другие крайние значения.

В другой колонке приводится квадрат расстояния Махаланобиса до центроида (среднего значения группы значений дискриминантной функции). В правой колонке таблицы приводится соответствующее значение дискриминантной функции. Распределение значения дискриминантной функции отдельно по группам изображается на двух отдельных гистограммах.

Можно заметить, что значения дискриминантной функции для первой группы (скончался) смещены вправо, а значения второй группы (выжил) — влево, что однако свидетельствует об очень сильном смешении.

В завершении приводится классификационная таблица с указанием достигнутой точности прогнозирования. Значение этой точности равно 68,7 %, что является неудовлетворительным:

Диалоговое окно Discriminant Analysis (Дискриминантный анализ).

Диалоговое окно Discriminant Analysis (Дискриминантный анализ).

Задачи статистики в пакете SPSS

Щёлкните по выключателю Statistics... (Статистики)

Откроется диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики) (см. рис. 18.5).

Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)

Диалоговое окно Discriminant Analysis: Save (Дискриминантный анализ: Сохранить)

Задачи статистики в пакете SPSS

Видно, что в 10 версии появилась возможность сохранения информации о модели в так называемом, XML-файле (см. примечания к рис. 16.3).

Активируйте вывод Predicted group membership (Прогнозируемой принадлежности к группе), Discriminant scores (Значений дисриминантной функции) и Probabilities of group membership (Вероятностей принадлежности к группе).

Подтвердите нажатием Continue (Далее) и затем ОК.

В окне просмотра появится сначала обзор действительных и пропущенных значений:

Analysis Case Processing Summary (Анализ обработанных наблюдений)

Unweighted Cases (He взвешенные случаи)		N	Percent (Процент)
Valid (Действительные)		2200	71,9
Excluded (Исключенные)	Missing or out-of-range group codes (Отсутствующие или находящиеся за пределами допустимой области кодировки принадлежности к группе)	19	,6
At least one missing discriminating variable (По меньшей мере одна отсутствующая дискриминационная переменная)	816	26,7
Both missing or out-of-range group codes and at least one missing discriminating variable (Обе кодировки принадлежности к группе отсутствуют или находятся за пределами допустимой области, или по меньшей мере одна отсутствующая дискриминационная переменная)	23	,8
Total (Общее количество исключённых)	858	28,1
Total (Общее количество случаев)		3058	100,0

В общей сложности 858 наблюдений из 3058, находящихся в файле postmat.sav, были исключены из анализа из-за отсутствия значения переменной ingl_dic или отсутствия значений одной из дискриминационных переменных. Таким образом анализ проводился для 2200 наблюдений. Далее приводятся средние значения, стандартные отклонения и количество наблюдений для всех переменных из обеих групп и для каждой группы в отдельности.

По средним значениям уже заметно, что для постматериалистических типов характерны: более высокий социально-экономический статус отца (2,8148 по сравнению с 2,3904), более высокое образование (2,9853 по сравнению с 2,5248) и принадлежность к младшей возрастной группе (2,1842 по сравнению с 2,8151).

Group Statistics

(Статистики для групп)
INGL_DIC (Индекс Ингпехарта, дихото-мический)		Mean (сред-нее значе-ние)	Std. Deviation (Станда-ртное отклоне-ние)	Valid N (listwise) (Действительные значения (по списку))
Unwei-ghted (Не взвеше-нные)	Weigh-ted (Взвеше-нные)
1,00 (Пост-материа-листический тип)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	2,8148	1,1718	1091	1091,000
Schulabschluss (Образование)	2,9853	,8194	1091	1091,000
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошен-ного(ой), разбит на категории)	2,1842	1,0887	1091	1091,000
Berufsaus-bildung (Профес-сиональное образо-вание)	2,1888	1,1562	1091	1091,000
2,00 (Материа-листический тип)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	2,3904	1,0407	1109	1109,000
Scnulabschluss (Образование)	2,5248	,7627	1109	1109,000
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст ,опрошен-ного(ой), разбит на категории)	2,8151	1,2111	1109	1109,000
Berufsa-usbildung (Профес-сиональное образование)	1,8792	1,0249	1109	1109,000
Total (Сумма)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	2,6009	1,1275	2200	2200,000
Schulabschluss (Образование)	2,7532	,8240	2200	2200,000
ALTER, BEFRAGTE<R>, KATEGORI-SIERT (Возраст, опрошен-ного(ой), разбит на категории)	2,5023	1,1942	2200	2200,000
Berufsa-usbildung (Профес-сиональное образование)	2,0327	1,1027	2200	2200,000

Затем проводится тест на значимость различия между переменными, относящимися к обеим группам, то есть выясняется присутствуют ли в них разделяющие (дискриминирующие) особенности, позволяющие судить об отношении к одной из двух групп (постматериалисты — материалисты).

Tests of Equality of Group Means (Тест равенства групповых средних значений)

	Wilks1 Lambda (Лямбда Уилкса)	F	df1	df2	Sig. (Значимость)
SES-lndex des Vaters (социально-экономический статус отца)	,965	80,746	1	2198	,000
Schulabschluss (Образование)	,922	186,281	1	2198	,000
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ых), разбит на категории)	,930	164,951	1	2198	,000
Berufsausbildung (Профессиональное образование)	,980	44,222	1	2198	,000

Как следует из колонки значимости, по всем переменным наблюдается значительное различие между группами (р < 0,001).

Далее приводится корреляционная матрица между всеми переменными, причём коэффициенты были рассчитаны для обеих групп:

Pooled Within-Groups Matrices (Объединённые матрицы внутри групп)

	SES-lndex des Vaters (социально- экономи-ческий статус отца)	Schulab-schluss (Образо-вание)	ALTER, BEFRAG -TE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ой), разбит на категории)	Berufsau-sbildung (Профес- сиона-льное образо-вание)
Corre-lation (Корре-ляция)	SES-lndex des Vaters (социально-экономи-ческий статус отца)	1,000	,327	-,033	,137
Schula-bschluss (Образо-вание)	,327	1,000	-,275	,377
ALTER, BEFRA-GTE<R>, KATEGO-RISIERT (Возраст, опрошен-ного(ых), разбит на категории)	-,033	-,275	1,000	,018
Berufsa-usbildung (Профес-сиональное образо-вание)	,137	,377	,018	1,000

Прежде всего, здесь очень заметна корреляция между переменными schule и statpas и между переменными ausbild и schule. Чем выше социально-экономический статус отца, тем выше школьное образование опрашиваемого; чем выше его школьное образование, тем выше и профессиональное образование.

Далее следует анализ коэффициентов дискриминантной функции. Корреляционный коэффициент между рассчитанными значениями дискриминантной функции и реальной принадлежностью к группе, равный 0,353, является неудовлетворительным:

Eigenvalues (Собственные значения)

Function (Функция)	Eigenvalue (Собствен-ное значение)	% of Variance (% диспе-рсии)	Cumulative % (Сово-купный %)	Canonical Correlation (Канони-ческая корре-ляция)
1	,142а	100,0	100,0	,353

a. First 1 canonical discriminant functions were used in the analysis (Первые 1 канонические дискриминантные функции будут применяться в анализе).

Wilks' Lambda (Лямбда Уилкса)

Test of Function(s) Wilks' Lambda (Тест функции (и)) (Лямбда Уилкса)	Chi-square (Хи-квадрат)	df	Sig. (Значимость)
1 ,875	292,431	4	,000

Тест, проведенный с помощью критерия "Лямбда Уилкса" (k), на предмет, значимо ли различаются между собой средние значения дискриминантной функции в обеих группах, показал очень значимый результат (значение р < 0,001).

Затем приводятся стандартизированные коэффициенты дискриминантной функции и их корреляция с используемыми переменными:

Standardized Canonical Discriminant Function Coefficients

(Стандартизиро-ванные канонические коэффициенты дискриминантной функции)
	Function (Функция)
1
SES-lndex des Vaters (социально-экономический статус отца)	,321
Schulabschluss (Образование)	,434
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)	-,599
Berufsausbildung (Профессиональное образование)	,179

Structure Matrix

(Структурная матрица)
	Function (Функция)
1
Schulabschluss (Образование)	,771
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)	-,726
SES-lndex des Vaters (социально-экономический статус отца)	,508
Berufsausbildung (Профессиональное образование)	,376

Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions (Объединённые корреляции внутри групп между дискриминантными переменными и стандартизированными каноническими дискриминант-ными функциями)

Variables ordered by absolute size of correlation within function (Переменные расположены соответственно величине их абсолютных корреляционных показателей).

После этого приводятся нестандартизированные коэффициенты дискриминантной функции и средние значения дискриминантной функции в обеих группах:

Canonical Discriminant Function Coefficients

(Канонические коэффициенты дискриминантной функции)
	Function (Функция)
1
SES-lndex des Vaters (социально-экономический статус отца)	,290
Schulabschluss (Образование)	,549
ALTER, BEFRAGTE<R>, KATEGORISIERT (Возраст, опрошенного(ой), разбит на категории)	-,520
Berufsausbildung (Профессиональное образование)	,164
(Constant) (Постоянно)	-1,297

Unstandardized coefficients (нестандартизированные коеффициенты)

Functions at Group Centroids (Функции для групповых центроидов)

INGL DIC	Function (Функция)
1
1 ,00 (Постматериалистический тип)	,380
2,00 (Материалистический тип)	-.374

Unstandardized canonical discriminant functions evaluated at group means (Нестандартизированные канонические дискриминантные функции, оценка которых происходит относительно средних значений групп).

В данном случае мы отказались от вывода очень длинной таблицы, в которой для каждого наблюдения построчно, приводится информация о значении дискриминантной функции и принадлежности к одной из двух групп.

В заключении приводится классификационная таблица с указанием точности попадания прогнозов:

Classification Resultsа

(Классификационные результаты)
	INGL_DIC (Индекс Инглехарта, дихото-мический)	Predicted Group Membership (Прогнозируемая принадлежность к группе)	Total (Сум-ма)
1,00 (Постматери-алисти-ческий тип)	2,00 (Материа-листи-ческий тип)
Original (Перво-начально)	Count (Коли-чество)	1 ,00 (Пост-материа-листи-ческий тип)	710	381	1091
2,00 (Материа-листический тип)	410	699	1109
Ungrouped cases (He сгруп-пирован-ные наблю-дения)	7	12	19
%	1 ,00 (Постматериа-листический тип)	65,1	34,9	100,0
2,00 (Материа-листи-ческий тип)	37,0	63,0	100,0
Ungrouped cases (He сгруп-пирован-ные наблю-дения)	36,8	63,2	100,0

а. 64,0% of original grouped cases correctly classified (64 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).

Правая колонка таблицы ("Total" (Сумма)) указывает на общее количество наблюдений, которые фактически относятся к соответствующим группам. К группе постматериалистических типов относится 1091 наблюдение, а к группе материалистических типов 1109. Обе колонки, объединенные общим наименованием ("Predicted Group Membership" (Прогнозируемая принадлежность к группе)), указывают на фактическое количество наблюдений, относящихся к каждой из групп. Первая колонка указывает на количество наблюдений, которые были отнесены к первой группе. Из 1091 постматериалистическйх наблюдений корректно определены были 710, это соответствует 65,1 % всех наблюдений. 381 наблюдение было по ошибке отнесено ко 2 группе, что соответствует 34,9 % всех наблюдений. Из 1109 материалистических наблюдений по ошибке к группе 1 были отнесены 410, что соответствует 37,0 %. 699 наблюдений были корректно отнесены к группе 2, что составило 63 %. Строка "Ungrouped cases" (Несгруппированные наблюдения) содержит наблюдения, которые не соответствуют ни одной из групп. Хотя эти наблюдения и не учитываются при расчёте дискриминантной функции, значение функции для них всё равно вычисляется. Из 19 наблюдений, для которых отсутствуют данные о принадлежности к какой-либо группе, 7 были отнесены к постматериалистическим типам, а 12 к материалистическим. В строке под таблицей приводится итоговый результат. 64 % наблюдений были классифицированы корректно. Так как даже при чисто случайном отнесении некоторого наблюдения к одной из двух имеющихся групп, корректность классификации данного наблюдения составила бы 50 %, то 64 %-ную точность прогноза следует рассматривать как довольно умеренный результат. Такой неудовлетворительный результат можно попытаться объяснить тем, что в обе группы входили смешанные типы, которые тяжелее классифицировать, нежели чистые типы. Проверим это предположение путём повторного проведения расчёта, но уже с учётом только чистых типов.

Выберите в меню Data (Данные) Select Cases... (Выбрать наблюдения)

Щёлкните на опции If condition is satisfied (Если выполняется условие) и затем на выключателе If... (Если).

В редакторе условий введите следующее условие:

ing1_ind = 1 OR ing1_ind = 4

Подтвердите нажатием Continue (Далее) и затем ОК.

В диалоговом окне Discriminant Analysis (Дискриминантный анализ) переменную ingl_ind (не ingl_dic!) поместите в поле для групповых переменных. В качестве границ области изменения задать значения 1 и 4.

В список независимых переменных поместите переменные statpaps, schule, alter и ausbild.

Дополнительные установки под выключателями Statistics... (Статистики), Classify... (Классифицировать) и Save... (Сохранить) произведите так, как было описано ранее.

Вы получите следующую классификационную таблицу:

Classification Results

(Результаты классификации)
	INGLEHART-INDEX (Индекс Инглехарта, дихото-мический)	Predicted Group Membership (Прогнозируемая принадлежность к группе	Total (Сумма)
POSTMATE-RIALISTEN (Постмате-риалисты)	MATERI-ALISTEN (Матери-алисты)
Original (Перво-начально)	Count (Коли-чество)	POSTMATE-RIALISTEN (Постмате-риалисты)	409	109	518
MATERI-ALISTEN (Матери-алисты)	133	297	430
%	POSTMATE-RIALISTEN (Постмате-риалисты)	79,0	21,0	100,0
MATERI-ALISTEN (Матери-алисты)	30,9	69,1	100,0

а. 74,5% of original grouped cases correctly classified (74,5 % наблюдений, первоначально разнесённых по группам, были классифицированы корректно).

К группе постматериалистов относится 518 наблюдений. 409 наблюдений (79 %) были спрогнозированы корректно, а 109 (21,0 %) по ошибке отнесены к группе 4 ("чистые материалисты"). В группе чистых материалистов насчитывается 403 наблюдения. 297 наблюдений (69,1 %) были определены корректно, а 133 (30,9 %) по ошибке были отнесены к группе 1 ("чистые постматериалисты"). Конечным результатом является корректная идентификация наблюдений, равная 74,5 %. Этот показатель значительно выше предыдущего и может быть расценен как приемлемый.

Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)

Диалоговое окно Discriminant Analysis: Statistics (Дискриминантный анализ: Статистики)

Задачи статистики в пакете SPSS

Активируйте опции: Means (Средние значения), Univariate ANOVAs (Одномерные тесты AN OVA), Unstandardized Func-tion Coefficients (He стандартизированные коэффициенты функции) и Within-groops Correlation Matrice (Корреляционная матрица внутри группы).

Подтвердите нажатием Continue (Далее).

Щёлкните на выключателе Classify... (Классифицировать). Откроется диалоговое окно Discriminant Analysis: Classification (Дискриминантный анализ: Классификация) (см. рис. 18.6).

Дискриминантный анализ

С помощью дискриминантного анализа на основании некоторых признаков (независимых переменных) индивидуум может быть причислен к одной из двух (или к одной из нескольких) заданных заранее групп.

Такая постановка задачи, в особенности в случае двух заранее заданных групп, очень сильно напоминает постановку задачи для метода логистической регрессии (см. гл. 16.4). Ядром дискриминантного анализа является построение так называемой дискриминантной функции

d = b1х1+b2х2+... + bnхn+а ,

где x1 и хn — значения переменных, соответствующих рассматриваемым случаям, константы b1-bn и a — коэффициенты, которые и предстоит оценить с помощью дискриминантного анализа. Целью является определение таких коэффициентов, чтобы по значениям дискриминантной функции можно было с максимальной четкостью провести разделение по группам.

Дискриминантный анализ

Глава 18. Дискриминантный анализ

Дискриминантный анализ 18.1 Пример из области медицины 18.2 Пример из области социологии 18.3 Пример из области биологии 18.4 Пример из области биологии (три группы)

Распределение значений дискриминантной функции для группы «скончался»

Распределение значений дискриминантной функции для группы «скончался»

Задачи статистики в пакете SPSS

Распределение значений дискриминантной функции для группы «выжил»

Распределение значений дискриминантной функции для группы «выжил»

Задачи статистики в пакете SPSS

Classification Results 3

(Классификационные результаты)
	Outcome (Исход)	Predicted Group Membership (Предсказанная принадлежность к одной из групп)	Total (Сум-ма)
gestorben (Сконча-лся)	ueberlebt (Выжил)
Original Перво-начально)	Count (Колич-ество)	gestorben (сконча-лся	38	25	63
ueberlebt (Выжил)	16	52	68
%	gestorben (сконча-лся	60,3	39,7	100,0
ueberlebt (Выжил)	23,5	76,5	100,0

а. 68,7% of original grouped cases correctly classified (68,7 % первоначально сгруппированных наблюдений были классифицированы корректно).

При применении метода логарифмической регрессии (см. гл. 16.4) результат получился немного лучше (доля корректного прогноза 70,99 %).

Для случая, когда пациенту мужского пола, 25 лет, ростом 184 см искусственное дыхание делали на протяжении 5 часов, при концентрации кислорода равной 0,7 и интенсивности соответствующей значению 10, получается следующее значение дискриминантной функции

d = 2,121 + 0,033*10 + 0,04*25 + 0,06*5 + 0,133*1-0,041*184 + 2,539*0,7 = -1,883

Опираясь на распределение значений дискриминантной функции, этого пациента можно отнести к группе выживших.

При выполнении дискриминантного анализа, как и для других многомерных процедур, можно применять и пошаговый образ действий, который как раз и рекомендуется при наличии большого количества независимых переменных. Этот метод похож на многомерный регрессионный анализ, однако переменные при проведении дискриминантного анализа выбираются по другим критериям.

Рассчитаем ещё раз наш пример, но уже с применением пошагового метода.

В исходном диалоговом окне дискриминантного анализа активируйте опцию Use stepwse method (Использовать пошаговый метод).

Щёлкните на кнопке Method... (Метод)

Откроется диалоговое окно Discriminant Analysis: Step-wise Method (Дискриминантаый анализ: Пошаговый метод).

Выберите метод, при помощи которого будет отобрана та переменная, которая увеличивает расстояние Махаланобиса (Mahalanobis) между двумя группами. Эта дистанционная мера базируется на евклидовых расстояниях между нормализованными значениями выборок с учётом корреляции соответствующих переменных.

Чтобы искусственно не раздувать объём выводимых результатов, в этот раз через кнопку Classify... (Классифицировать), активируйте опцию Summary table (Сводная таблица).

В рассматриваемом случае мы отказываемся от графического представления результатов. В анализ по очереди будут включены переменные: bzeit, gr, alter и kob; это те же самые переменные, которые использовались при применении метода логистической регрессии. По заключительной классификационной таблице можно сделать вывод о том, что в результате отбрасывания неподходящих переменных доля попаданий слегка выросла. Значение надежности прогноза составило 70,2 %.

Для проведения дискриминантного анализа Вы можете использовать и пример с двумя диагностическими тестами для обнаружения карциномы мочевого пузыря, рассмотренный в главе 16.4. Здесь можно получить более чёткое разделение двух групп (здоров — болен). Точность прогнозирования здесь составляет 82,2 %.

Главная сайта