Value lab w10 1 «Высшее» 2 «н/высш» 3 «ср. Спец» 4 «среднее» 5 «ниже среднего».
ONEWAY
lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY
SCHEFFE BONFERRONI ALPHA(.05).
На основании полученной выдачи видим,
что:
-
доверительные интервалы для высшего
и неполного высшего образования не
пересекаются (см. табл.4.10); -
дисперсии в группах различаются не
существенно (см. тест Ливиня, табл.4.11); -
в целом наблюдается связь душевого
дохода с образованием (гипотеза о
равенстве средних — отвергается, см.
таблицу 4.12); -
выделились следующие две группы по
образованию с неразличимыми средними:
2 н/высшее, 5 ниже среднего, 4 среднее и
5 ниже среднего, 4 среднее, 3 среднее
спец, 1 высшее (табл.4.13); -
попарные множественные сравнения
показали, что единственная пара
отличающихся по средним групп — это
группы с неполным высшим и респондентов
с высшим образованием (наблюдаемая
значимость — 0.013, таблица 4.14).
https://www.youtube.com/watch?v=upload
Следует заметить, что мы не показали
здесь часть таблицы попарных сравнений
с результатами для метода Бонферрони
и Шеффе; результаты аналогичны, но для
указанной пары групп значимость различия
по Шеффе — 0.041, по Бонферрони — 0.016. Это
показывает большую чуствительность
теста Тьюки.
Глава 1. Информация, обрабатываемая статистическим пакетом 120
Статистические
методы позволяют решать множество
разнообразных задач, обеспечивая
исследователя точными количественными
характеристиками различных свойств
совокупностей объектов, которые отражают
скрытые, неявные свойства и связи,
которые невозможно обнаружить
«невооруженным глазом».
Статистические
методы помогают обрабатывать очень
большие массивы данных, что чрезвычайно
полезно в современном мире, перенасыщенном
информацией. Статистический метод –
это поиск практически полезных и
нетривиальных сведений в большом объеме
информации.
1.
Получение усредненных данных. Это
взгляд на совокупность характеристик
отдельных объектов в целом через призму
какого-то конкретного свойства. Сюда
относится анализ одномерных распределений,
подсчет для разных уровней измерения
(Сколько раз в среднем в месяц студенты
смотрят общественно-политические
телепрограммы?).
2.
Оценка связей между переменными. Наличие
статистической связи между переменными
возможно, если изменение значений одной
переменной приводит к изменению
распределения другой. Для порядковых
и интервальных переменных понятие связи
более определенно: связанные переменные
обладают общностью вариаций. Возрастание
значений одной переменной будет
соответствовать возрастанию или
уменьшению значений другой переменной.
Наличие связи позволяет делать
предположения относительно зависимой
переменной на основании информации о
независимой.
Статистические
методы позволяют ответить на вопрос об
интенсивности (плотности, тесноте)
связи между переменными. Численная
оценка интенсивности будет называться
коэффициентом связи; для разного типа
переменных вычисляются разного рода
коэффициенты, их общее количество в
статистике достаточно велико.
3.
Классификация. Ряд статистических
техник дает возможность соотнести
исследуемые объекты с несколькими
заранее определенными классами. Например,
можно выделить класс граждан, участвующих
в выборах, и класс, не участвующих в них
(абсентеистов).
4.
Кластеризация. Это разбиение объектов
на группы по критерию их близости в
определенном пространстве признаков.
Например, нас интересуют 3 признака,
характеризующие идеологию политических
партий: степень поддержки действующего
политического руководства страны,
видение социальной роли государства,
восприятие западных демократий в
качестве оптимальной модели политического
устройства России. С помощью определенных
статистических процедур можно выяснить,
какие партии будут близки друг к другу
в пространстве всех этих признаков
одновременно.
5.
Редукция данных. Редукция – сокращение,
сжатие. Эта задача важна в ситуации,
когда объекты измерены большим числом
переменных и исследователь ищет способ
сгруппировать их по какому-то смысловому
признаку. Например, при изучении образов
политических лидеров используется
большое число признаков описания
(дескрипторов): интеллектуальные
качества, энергичность, опыт, волевые
качества и т. д. Чтобы сделать описание
более компактным можно объединить
отдельные признаки в группы, основываясь
на выявлении скрытых связей между ними.
Существуют
статистические методы, которые
приспособлены к решению какой-то одной
из указанных задач, а также
многофункциональные, «многозадачные»
техники.
1.1. Анкетные данные 120
Пример 1.1. 120
1.2. Типы переменных 121
Типы кодирования переменных. 121
Тип шкалы измерения переменных. 121
Неколичественные шкалы 121
https://www.youtube.com/watch?v=ytadvertiseru
Количественные шкалы: 121
Неальтернативные признаки 122
1.3. Имена переменных и метки, коды
неопределенных значений 123
2.1. Структура пакета 124
2.2. Схема организации данных, окна
SPSS 124
2.3. Управление работой пакета 125
Основные команды меню SPSS: 125
Статусная строка 126
Ввод данных с экрана 126
2.4. Режим диалога и командный режим 126
Командный режим работы с пакетом 127
Основные правила написания команд на
языке пакета 127
Порядок выполнения команд 128
команды Вызова Get и сохранения данных
save. 128
основные Команды описания данных 128
основные команды преобразования
данных 130
Команды COMPUTE и IF 130
Основные функции и операторы команд
COMPUTE и IF: 131
Работа с неопределенными значениями 132
Функции для неопределенных значений 133
Работа с пользовательскими неопределенными
значениями 133
Работа с функциями Missing и Sysmis. 133
Команда RECODE 133
Команда COUNT 135
Условное выполнение команд. 135
Команда RANK 136
Отбор подмножеств наблюдений 136
Команда SPLIT FILE 137
Взвешивание выборки WEIGHT 138
Пример 2.1 139
2.5. Операции с файлами 140
Агрегирование данных (команда
AGGREGATE) 140
Функции агрегирования 141
Объединение файлов (merge files) 142
В SPSS предусмотрена проверка теста
Барлетта о сферичности распределения
данных. В предположении многомерной
нормальности распределения здесь
проверяется, не диагональна ли матрица
корреляций. Если гипотеза не отвергается
(наблюдаемый уровень значимости велик,
скажем больше 5%) — нет смысла в факторном
анализе, поскольку направления главных
осей случайны.
Парные корреляции
CORRELATIONS
/VARIABLES=v9 lnv14m /PRINT=TWOTAIL NOSIG.
https://www.youtube.com/watch?v=https:tv.youtube.com
для обычного коэффициента корреляции
и
NONPAR
CORR /VARIABLES=v10 v9 v14 /PRINT=SPEARMAN.
NONPAR CORR /VARIABLES=v10 WITH v9 v14
/PRINT=KENDALL.
для ранговых корреляций
Подкоманда /VARIABLESв этих командах
указывает список переменных или два
списка переменных, разделенных словомWITH. Если указывается один список
переменных, то рассчитываются коэффициенты
корреляции каждой переменной с каждой
переменной (квадратная таблица). Если
указываются два списка, разделенные
служебным словомWITH, то рассчитываются
коэффициенты корреляции всех переменных,
расположенных слева отWITH, с
переменными, расположенными справа
(прямоугольная таблица). Ключевое словоWITHможно использовать только в окне
синтаксиса.
Коэффициент корреляции может принимать
значения от -1 до 1. При этом значимый
отрицательный коэффициент корреляции
позволяет принять гипотезу о наличии
линейной отрицательной связи. Метод,
используемый для проверки гипотезы,
предполагает, также, двумерную нормальность
распределения (X,Y). На практике
это соответствует тому, что увеличению
значения одной переменной в большинстве
случаев соответствует уменьшение
значения коррелируещей с ней переменной.
Насколько полученное значение коэффициента
корреляции не случайно, определяется
по величине значимости (Sig.
(2-tailed)) — вероятности получить большее,
чем выборочное значение коэффициента
корреляции. Для оценки значимости
коэффициента Пирсона используется
критерийt=r*(N-2)/(1-r2)0.5,
который в условиях нормальности и
независимости переменных имеет
распределение Стьюдента. Таким образом,
наряду с формулировкой нулевой гипотезы
здесь формулируется предположение о
двумерной нормальности — довольно
жесткое условие.
Для оценки значимости коэффициентов
Спирмена и Кендалла используется
нормальная аппроксимация этих
коэфициентов. По-сути коэффициент
ранговой корреляции является коэффициентом
корреляции между переменными,
преобразованными в ранги (или процентили),
поэтому для исследования значимости с
помощью этих коэффициентов не требуется
делать предположения о распределении
данных.
Таблица
4.15. Коэффициенты корреляции Спирмена
(Spearman’s
rho)
V9 Возраст |
V14 Ср.мес. душевой |
||
V10 Образование |
Correlation |
-.021 |
-.086 |
Sig. |
.574 |
.026 |
|
N |
692 |
671 |
5.2.1. Двухвыборочный тест Колмогорова-Смирнова
NPAR
TESTS K-S=V14 BY V4(1,3).
В
команде за ключевым словом K-S
следует тестируемая переменная (в нашем
примере — V14), за ней после слова BY
указываются сравниваемые группы —
переменная, определяющая эти группы, и
соответствующие этим группам значения:
V4(1,3).
,
где N1
и N2
— объемы выборок.
В
листинге выдается статистика критерия
Z=ks
двусторонняя значимость — вероятность
случайно в условиях гипотезы превзойти
выборочное значение статистики.
recode
v4(1,2=1)(3=2) into W4.
Отношение шансов и логит
Отношение вероятности того, что событие
произойдет к вероятности того, что оно
не произойдет P/(1-P)называется
отношением шансов.
С этим отношением связано еще одно
представление логистической регрессии,
получаемое за счет непосредственного
задания зависимой переменной в виде
Z=Ln(P/(1-P)), гдеP=P{Y=1|X1,…,Xp}.ПеременнаяZ называетсялогитом.По
сути дела, логистическая регрессия
определяется уравнением регрессииZ=B0 B1X1 … BpXp.
В связи с этим отношение шансов может
быть записано в следующем виде
P/(1-P)=.
Отсюда получается, что, если модель
верна, при независимых X1,…,XpизменениеXkна единицу
вызывает изменение отношения шансов
враз.
Val lab 1 «Отдать» 2 «нет».
npar
test k-s=v14 by w4(1,2).
Таблица
5.7. Cравнение распределения доходов в
двух группах на основе критерия
Колмогорова-Смирнова,.
V14 |
||
Most |
Absolute |
0.05 |
Positive |
0.05 |
|
Negative |
-0.028 |
|
Kolmogorov-Smirnov |
0.455 |
|
Asymp. Sig. |
0.986 |
В
приведенном примере (таблица 5.7)
наблюдаемый уровень значимости велик
(0.986). Поэтому, приходим к заключению,
что на нашей учебной выборке критерием
Колмогорова-Смирнова не удалось
обнаружить различие распределений по
душевому доходу в группах считающих,
что нужно отдать острова или их часть,
и противников такого решения. Это не
означает достоверно, что распределения
совпадают, возможны тонкие различия
распределений, которые критерий не
улавливает из-за малого объема данных.
5.2.2. Тест медиан
Этот
тест позволяет сравнивать распределения
исследуемой переменной сразу в нескольких
группах. Тест весьма груб, но прост.
NPAR
TESTS MEDIAN = V14 BY V1(1,3).
Внешне
задание теста похоже на задания критерия
Колмогорова-Смирнова.
Задание
сравниваемых групп.
После слова BY
за именем переменной в скобках указывается
интервал значений. В приведенном примере
сравниваются распределения в трех
группах. Тестом можно сравнить также и
пару групп, если в скобках вначале
указать большее значение, затем меньшее
(при задании V4(3,1) сравниваются только
1-я и 3-я группы).
Суть
проверки гипотезы состоит в следующем.
Значения исследуемой переменной (в
нашем примере — V14)
делятся на две группы: больше медианы
и меньше или равно медиане. Такое
разделение можно считать заданием
новой, дихотомической переменной.
Вычисляется таблица сопряженности
полученной дихотомической переменной
и переменной, задающей группы.
Замечание.
Для получения дихотомии можно, также,
навязать точку «разрыва» переменной,
не совпадающую с медианой, указав в
скобках за словом MEDIAN
соответствующее значение.
Пример.
Курильское обследование проходило в
21 городе Западной Сибири. Экспертным
путем все города разделены на 4 типа: 1
растущие, 2 стабильные, 3 крупные, 4
гиганты. Типу города в наших данных
соответствует переменная TP.
npar
test med=v14 by TP(1,4).
Таблица
5.8. Метод медиан. Разделение на две
подвыборки.
TP |
|||||
Растущие |
Стабильные |
крупные |
гигант |
||
V14 |
{amp}gt; Median |
84 |
104 |
62 |
12 |
{amp}lt;= Median |
90 |
126 |
139 |
56 |
Таблица
5.9. Метод
медиан. Значимость критерия.
V14 |
|
N |
673 |
Median |
200 |
Chi-Square |
28.698 |
Df |
3 |
Asymp. Sig. |
0 |
Анализируя
величину наблюдаемой значимости, видим,
что между точкой зрения на иностранную
помощь и возрастом имеется существенная
связь, т.е. обнаружено значимое различие
распределения доходов в группах.
5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)
Для
исследования связи пары измерений Х
и Y
рассматриваются знаки разностей
di=Yi-Xi.
В случае независимости измерений и
отсутствии повторов значений di
(связей) число знаков » » (положительных
di)
должно подчиняться биномиальному
распределению с параметром p=0.5.
Именно эта гипотеза и проверяется с
помощью статистики критерия —
стандартизованной частоты положительных
разностей.
В
качестве примера по данным RLMS проверим,
какой характер имели изменения веса
(кг) мужчин старше 30 лет в 1994-95 гг.
COMPUTE
filter_$=(a_age {amp}lt; 30 {amp}amp; ah5_1 = 1).
FILTER
BY filter_$.
NPAR
TEST / SIGN= am1 WITH bm1 (PAIRED).
Таблица
5.14. Тест знаков для парных наблюдений.
Частоты
Frequencies |
||
N |
||
BM1 |
Negative |
877 |
Positive |
722 |
|
Ties |
350 |
|
Total |
1949 |
Судя
по таблице 5.14, мужчины чаще худели, чем
толстели, причем этот факт подтверждается
отрицательным значением статистики
критерия, наблюдаемая значимость которой
равна 0.000118 (таблица 5.15.).
Таблица
5.15. Тест знаков для парных наблюдений.
Значимость критерия.
Test Statistics |
|
BM1 |
|
Z |
-3.8512 |
Asymp. Sig. |
0.000118 |
Ранжируются
абсолютные величины разностей di=Yi-Xi.
Затем рассматривается сумма рангов
положительных и сумма рангов отрицательных
разностей. Если связь между X
и Y
отсутствует и распределение одинаково,
то эти две суммы должны быть примерно
равны. Статистика критерия — стандартизованная
разность этих сумм.
По
сути, это проверка, не произошло ли между
измерениями событие, существенно
изменившее иерархию объектов?
https://www.youtube.com/watch?v=ytpolicyandsafetyru
Обратимся
к предыдущему примеру, но проверим,
будет ли преобладать отрицательный
ранг изменения веса мужчин старше 30
лет?
NPAR
TEST /WILCOXON=am1 WITH bm1 (PAIRED).
Таблица
5.16 показывает, что преобладает уменьшение
веса, что подтверждается наблюдаемой
значимостью статистики критерия, равной
0.00053
(таблица 5.17).
Таблица
5.16. Знаково-ранговый тест Вилкоксона.
Средние ранги.
BM1 |
N |
Mean Rank |
Sum of Ranks |
|
Negative Ranks |
877 |
802.2 |
703500 |
|
Positive Ranks |
722 |
797.4 |
575700 |
|
Ties |
350 |
|||
Total |
1949 |
Таблица
5.17. Знаково-ранговый
тест Вилкоксона. Средние ранги.
BM1 |
|
Z |
-3.46504 |
Asymp. Sig. |
0.00053 |
Глава 4. Сравнение средних, корреляции 144
4.3. Compare Means — простые параметрические
методы сравнения средних. 144
Одновыборочный тест (One sample T-test). 145
двухвыборочный t-тест (independent sample
T-TEST) 146
двухвыборочный t-тест для связанных
выборок (Paired sample T-TEST) 147
Команда MEANS — сравнение характеристик
числовой переменной по группам. 147
Одномерный дисперсионный анализ
(ONEWAY) 149
МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ 149
4.4. Корреляции (CORRELATIONS) 151
Парные корреляции 151
https://www.youtube.com/watch?v=ytdevru
Частные корреляции. 152
Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154
5.1. Одновыборочные тесты 154
5.1.1. Тест Хи-квадрат 154
5.1.2. Тест, основанный на биномиальном
распределении 156
5.1.3. Тест Колмогорова-Смирнова 157
5.2. Тесты сравнения нескольких выборок 158
5.2.1. Двухвыборочный тест
Колмогорова-Смирнова 158
5.2.2. Тест медиан 159
5.3. Тесты для ранговых переменных 160
5.3.1. Двухвыборочный тест Манна-Уитни
(Mann-Witney)- 161
5.3.2. Одномерный дисперсионный анализ
Краскэла-Уоллиса (Kruskal-Wallis) 161
5.4. Тесты для связанных выборок (related
samples) 162
5.4.1. Двухвыборочный критерий знаков
(Sign) 162
5.4.2. Двухвыборочный знаково-ранговый
критерий Вилкоксона (Wilcoxon) 163
5.4.3. Критерий Фридмана (Friedman) 163
6. Регрессионный анализ 166
6.1. Классическая линейная модель
регрессионного анализа 166
Существует ли линейная регрессионная
зависимость? 167
Коэффициенты детерминации и множественной
корреляции 167
Оценка влияния независимой переменной 167
Стандартизация переменных. Бета
коэффициенты 168
Надежность и значимость коэффициента
регрессии 168
Значимость включения переменной в
регрессию 168
Пошаговая процедура построения
модели 169
Переменные, порождаемые регрессионным
уравнением 169
Взвешенная регрессия 169
Команда построения линейной модели
регрессии 170
Пример построения модели 170
Можно ли в регрессии использовать
неколичественные переменные? 172
Взаимодействие переменных 173
6.2. Логистическая регрессия 173
Отношение шансов и логит 174
Решение уравнения с использованием
логита. 174
Неколичественные данные 174
Взаимодействие переменных 175
Пример логистической регрессии и
статистики 175
Качество подгонки логистической
регрессии 176
Вероятность правильного предсказания 176
Коэффициенты регрессии 178
О статистике Вальда 179
Сохранение переменных 179
https://www.youtube.com/watch?v=ytcreatorsru
7. Исследование структуры данных 180
7.1. Факторный анализ 180
метод главных компанент 180
Интерпретация факторов. 181
Оценка факторов 182
Статистические гипотезы в факторном
анализе 182
Задание факторного анализа 182
7.2. Кластерный анализ 184
Иерархический кластерный анализ 185
Быстрый кластерный анализ 190
7.3. Многомерное шкалирование 192
Многомерное шкалирование 193
Качество подгонки модели 193
Вызов процедуры многомерного
шкалирования 193
Исходная матрица расстояний 193
Пример построения шкал 194
Литература 196
https://www.youtube.com/watch?v=ytaboutru
Приложение 1. Анкета опроса общественного
мнения 197
Приложение 2. Переменные файла обследования
общественного мнения 200
В меню — это команда Linear Regression. В диалоговом
окне команды:
-
Назначаются независимые и зависимая
переменные, -
Назначается метод отбора переменных.
STEPWISE — пошаговое включение/удаление
переменных. FORWARD — пошаговое включение
переменных. BACKWARD — пошаговое исключение
переменных. При пошаговом алгоритме
назначаются значимости включения и
исключения переменных (OPTIONS). ENTER —
принудительное включение. -
Имеется возможность отбора данных, на
которых будет оценена модель (Selection).
Для остальных данных могут быть оценены
прогнозные значения функции регрессии,
его стандартные отклонения и др. -
Назначения вывода статистик (Statistics) —
доверительные коэффициенты коэффициентов
регресии, их ковариационная матрица,
статистики Дарбина-Уотсона и пр. -
Задаются графики рассеяния остатков,
их гистограммы (Plots) -
Назначаются сохранение переменных(Save),
порождаемых регрессией. -
Если используется пошаговая регрессия,
назначаются пороговые значимости для
включения (PIN) и исключения (POUT) переменных
(Options). -
Если обнаружена гетероскедастичность,
назначается и весовая переменная.
Переменные, порождаемые регрессионным уравнением
Y=B0 B1X1 … BpXp
где - случайная
ошибка. ЗдесьXkозначает
не «икс в степениk», а переменнаяXс индексомk.
Традиционные названия «зависимая»
для Yи «независимые» дляXkотражают не столько статистический
смысл зависимости, сколько их содержательную
интерпретацию.
Величина называется ошибкой регрессии. Первые
математические результаты, связанные
с регрессионным анализом, сделаны в
предположении, что регрессионная ошибка
распределена нормально с параметрамиN(0,σ2), ошибка для
различных объектов считаются независимыми.
Кроме того, в данной модели мы рассматриваем
переменныеXкак неслучайные значения,
Такое, на практике, получается, когда
идет активный эксперимент, в котором
задают значенияX(например, назначили
зарплату работнику), а затем измеряют
Y(оценили, какой стала производительность
труда).
Решение задачи сводится к решению
системы линейных уравнений относительно
.
О качестве полученного уравнения
регрессии можно судить, исследовав
— оценки случайных ошибок уравнения.
Оценка дисперсии случайной ошибки
получается по формуле
Величина Sназывается стандартной
ошибкой регрессии. Чем меньше величинаS, тем лучше уравнение регрессии
описывает независимую переменнуюY.
Так как мы ищем оценки
,
используя случайные данные, то они, в
свою очередь, будут представлять
случайные величины. В связи с этим
возникают вопросы:
-
Существует ли регрессионная зависимость?
Может быть, все коэффициенты регрессии
в генеральной совокупности равны нулю,
оцененные их значения ненулевые только
благодаря случайным отклонениям данных? -
Существенно ли влияние на зависимую
отдельных независимых переменных?
В пакете вычисляются статистики,
позволяющие решить эти задачи.
В этом разложении обычно обозначают
— общую сумму квадратов отклонений;
— сумму квадратов регрессионных
отклонений;
— разброс по линии регрессии.
Статистика
в условиях гипотезы равенства нулю
регрессионных коэффициентов имеет
распределение Фишера и, естественно,
по этой статистике проверяют, являются
ли коэффициентыB1,…,Bpодновременно нулевыми. Если наблюдаемая
значимость статистики Фишера мала
(например,sig F=0.003), то это означает,
что данные распределены вдоль линии
регрессии; если велика (например, SignF=0.5), то, следовательно, данные не
связаны такой линейной связью.
Основным критерием отбора аргументов
должно быть качественное представление
о факторах, влияющих на зависимую
переменную, которую мы пытаемся
смоделировать. В SPSS очень хорошо
реализован процесс построения
регрессионной модели: на машину переложена
значительная доля трудностей в решении
этой задачи. Возможно построение
последовательное построение модели
добавлением и удалением блоков переменных.
Но мы рассмотрим только работу с
отдельными переменными.
По умолчанию программа включает все
заданные переменные (метод ENTER).
Метод включения и исключения переменных
(STEPWISE) состоит в следующем.
Из множества факторов, рассматриваемых
исследователем как возможные аргументы
регрессионного уравнения, отбирается
один xk, который более всего
связан корреляционной зависимостью сy. Для этого рассчитываются частные
коэффициенты корреляции остальных
переменных сyприxk,
включенном в регрессию, и выбирается
следующая переменная с наибольшим
частным коэффициентом корреляции.
Это
равносильно следующему: вычислить
регрессионный остаток переменнойy;
вычислить регрессионный остаток
независимых переменных по регрессионным
уравнениям их как зависимых переменных
от выбранной переменной (т.е. устранить
из всех переменных влияние выбранной
переменной); найти наибольший коэффициент
корреляции остатков и включить
соответствующую переменнуюxв
уравнение регрессии. Далее проводится
та же процедура при двух выбранных
переменных, при трех и т.д.
Процедура повторяется до тех пор, пока
в уравнение не будут включены все
аргументы выделенные исследователем,
удовлетворяющие критериям значимости
включения.
Замечание: во избежание зацикливания
процесса включения/исключения значимость
включения устанавливается меньше
значимости исключения.
Сохранение переменных, порождаемых
регрессией, производится подкомандой
SAVE.
Благодаря полученным оценкам коэффициентов
уравнения регрессии могут быть оценены
прогнозные значения зависимой переменной
,
причем они могут быть вычислены и там,
где значенияyопределены, и там где
они не определены. Прогнозные значения
являются оценками средних, ожидаемых
по модели значенийY, зависящих отX.
Поскольку коэффициенты регрессии —
случайные величины, линия регрессии
также случайна. Поэтому прогнозные
значения случайны и имеют некоторое
стандартное отклонение
,
зависящее отX. Благодаря этому можно
получить и доверительные границы для
прогнозных значений регрессии (средних
значенийy).
Кроме того, с учетом дисперсии остатка
могут быть вычислены доверительные
границы значений Y(не средних, а
индивидуальных!).
Для каждого объекта может быть вычислен
остаток ei=.
Остаток полезен для изучения адеквантности
модели данным. Это означает, что должны
быть выполнены требования о независимости
остатков для отдельных наблюдений,
дисперсия не должна зависеть отX.
Для изучения отклонений от модели удобно
использовать стандартизованный остаток
— деленный на стандартную ошибку
регрессии.
Случайность оценки прогнозных значений
Yвносит дополнительную дисперсию
в регрессионный остаток, из-за этого
дисперсия остатка зависит от значений
независимых переменных ().
Стьюдентеризованный остаток — это
остаток деленный на оценку дисперсии
остатка:.
Таким образом, мы можем получить: оценку
(прогнозную) значений зависимой переменной
Unstandardized predicted value), ее стандартное
отклонение (S.E. of mean predictions), доверительные
интервалы для среднего Y(X)и дляY(X)(Prediction intervals — Mean, Individual).
Это далеко не полный перечень переменных,
порождаемых SPSS.
https://www.youtube.com/watch?v=https:accounts.google.comServiceLogin
Обычно демонстрацию модели начинают с
простейшего примера, и такие примеры
Вы можете найти в Руководстве по
применению SPSS. Мы пойдем немного дальше
и покажем, как получить полиномиальную
регрессию.
Курильский опрос касался населения
трудоспособного возраста. Как показали
расчеты, в среднем меньшие доходы имеют
молодые люди и люди старшего возраста.
Поэтому, прогнозировать доход лучше
квадратичной кривой, а не простой
линейной зависимостью. В рамках линейной
модели это можно сделать, введя переменную
— квадрат возраста. Приведенное ниже
задание SPSS предназначено для прогноза
логарифма промедианного дохода (ранее
сформированного).
Compute v9_2=v9**2.
*квадрат
возраста.
REGRESSION
/DEPENDENT lnv14m /METHOD=ENTER v9 v9_2
/SAVE
PRED MCIN ICIN.
*регрессия с сохранением предсказанных
значений и доверительных интервалов
средних и индивидуальных прогнозных
значений.
Таблица 5.1 показывает, что уравнение
объясняет всего 4.5% дисперсии зависимой
переменной (коэффициент детерминации
R2=.045),
скорректированная величина
коэффициента равна 0.042, а коэффициент
множественной корреляции равен 0.211.
Много это или мало, трудно сказать,
поскольку у нас нет подобных результатов
на других данных, но то, что здесь есть
взаимосвязь, можно понять, рассматривая
таблицу 6.2.
Таблица
6.1. Общие характеристики уравнения
R |
R |
Adjusted |
Std. |
.211 |
.045 |
.042 |
.5277 |
https://www.youtube.com/watch?v=ytcopyrightru
a Predictors:
(Constant), V9_2, V9 Возраст
b Dependent
Variable: LNV14M логарифм
промедианного
дохода
Результаты дисперсионного анализа
уравнения регрессии показывает, что
гипотеза равенства всех коэффициентов
регрессии нулю должна быть отклонена.
Таблица
6.2. Дисперсионный анализ уравнения
Sum |
df |
Mean |
F |
Sig. |
|
Regression |
8.484 |
2 |
4.242 |
15.232 |
.000 |
Residual |
181.298 |
651 |
.278 |
||
Total |
189.782 |
653 |
Таблица
6.3. Коэффициенты регрессии.
Unstandardized |
Standardized |
T |
Sig. |
||
B |
Std. |
Beta |
|||
(Constant) |
-1.0569 |
0.1888 |
-5.5992 |
0.0000 |
|
V9 |
0.0505 |
0.0093 |
1.1406 |
5.4267 |
0.0000 |
V9_2 |
-0.0006 |
0.0001 |
-1.0829 |
-5.1521 |
0.0000 |
Регрессионные коэффициенты представлены
в таблице 6.3. В соответствии с ними,
уравнение регрессии имеет вид
Лог.промед.дохода =
-1.0569 0.0505*возраст-0.0006*возраст2
Стандартная
ошибка коэффициентов регрессии
значительно меньше величин самих
коэффициентов, их отношения -tстатистики, по абсолютной величине
больше 5. Наблюдаемая значимость статистик
(Sig) равна нулю, поэтому гипотеза о
равенстве коэффициентов нулю отвергается
для каждого коэффициента. Стоит обратить
внимание на редкую ситуацию — коэффициенты
бета по абсолютной величине больше
единицы. Это произошло, по-видимому,
из-за того, что корреляция между возрастом
и его квадратом весьма велика.
GRAPH
/SCATTERPLOT(OVERLAY)=v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1
lici_1 uici_1 lnv14m(PAIR).
Границы для M(y)значительно уже, чем
для y, так как последние должны охватывать
больше 95% точек графика.
На графике не прослеживается явной
зависимости дисперсии остатка от
значений независимой переменной —
возраста. Некоторое сужение рассеяния
данных для старших возрастов произошло,
вероятно, за счет общего уменьшения
плотности двумерного распределения.
Команда построения линейной модели регрессии
Если переменные Xнезависимы между
собой, то величина коэффициентаbiинтерпретируется как приростy, еслиXiувеличить на единицу.
Можно ли по абсолютной величине
коэффициента судить о роли соответствующего
ему фактора в формировании зависимой
переменной? То есть, если b1{amp}gt;b2,
будет лиX1важнееX2?
Абсолютные значения коэффициентов не
позволяют сделать такой вывод. Однако
при небольшой взаимосвязи между
переменными X, если
стандартизовать переменные и рассчитать
уравнение регрессии для стандартизованных
переменных, то оценки коэффициентов
регрессии позволят по их абсолютной
величине судить о том, какой аргумент
в большей степени влияет на функцию.
Стандартизация переменных, т.е. замена
переменных xkнаиyна,
приводит к уравнению
где k -порядковый номер независимой
переменной.
Коэффициенты в последнем уравнении
получены при одинаковых масштабах
изменения всех переменных и сравнимы.
Более того, если «независимые»
переменные независимы между собой, betaкоэффициенты суть коэффициенты корреляции
междуxkиy. Таким
образом, в последнем случае коэффициентыbetaнепосредственно характеризуют
связьxиy.
В случае взаимосвязи между аргументами
в правой части уравнения могут происходить
странные вещи. Несмотря на связь
переменных xkиy,beta
— коэффициент может оказаться равным
нулю; мало того, его величина может
оказаться больше единицы!
Взаимосвязь аргументов в правой части
регрессионного уравнения называется
мультиколлинеарностью. При наличии
мультиколлинеарности переменных по
коэффициентам регрессии нельзя судить
о влиянии этих переменных на функцию.
Для изучения «механизма» действия
мультиколлинеарности на регрессионные
коэффициенты рассмотрим выражение для
дисперсии отдельного регрессионного
коэффициента
Здесь
обозначен коэффициент детерминации,
получаемый при построении уравнения
регрессии, в котором в качестве зависимой
переменной взята переменнаяxk.
Из выражения видно, что величина
коэффициента тем неустойчивее, чем
сильнее переменнаяxkсвязана с остальными переменными (чем
ближе к единице коэффициент детерминации).
Величина 1-,
характеризующая устойчивость
регрессионного коэффициента, называется
надежностью. В англоязычной литературе
она обозначается словомTOLERANCE.
Дисперсия коэффициента позволяет
получить статистику для проверки его
значимости
Эта статистика имеет распределение
Стьюдента. В выдаче пакета печатается
наблюдаемая ее двусторонняя значимость
— вероятность случайно при нулевом
регрессионном коэффициенте Bkполучить значение статистики, большее
по абсолютной величине, чем выборочное.
Предсказания событий, исследования
связи событий с теми или иными факторами
с нетерпением ждут от социологов. Будем
считать, что событие в данных фиксируется
дихотомической переменной (0 не произошло
событие, 1 — произошло). Для построения
модели предсказания можно было бы
построить, к примеру, линейное регрессионное
уравнение с зависимой дихотомической
переменной Y, но оно будет не адекватно
поставленной задаче, так как в классическом
уравнении регрессии предполагается,
чтоY- непрерывная переменная.
Логистическая регрессия выражает эту
связь в виде формулы
,
где Z=B0 B1X1 … BpXp(1).
Название «логистическая регрессия»
происходит от названия логистического
распределения, имеющего функцию
распределения
. Таким образом, модель, представленная
этим видом регрессии, по сути, является
функцией распределения этого закона,
в которой в качестве аргумента используется
линейная комбинация независимых
переменных.
В процедуре логистической регрессии в
SPSS предусмотрены средства для
автоматического включения в уравнение
переменных взаимодействий. В диалоговом
окне в списке исходных переменных для
этого следует выделить имена переменных,
взаимодействия которых предполагается
рассмотреть, затем переправить выделенные
имена в окно независимых переменных
кнопкой c текстом {amp}gt;a*b{amp}gt;.
Процедура логистической регрессии в
SPSS в диалоговом режиме вызывается из
меню командой StatisticsRegressionBinary logistic….
В качестве примера по данным RLMS изучим,
как связано употребление спиртных
напитков с зарплатой, полом, статусом
(ранг руководителя), курит ли он.
Для этого подготовим данные: выберем в
обследовании RLMS население старше 18 лет,
сконструируем индикаторы курения
(smoke) и пития (alcohol) (в обследовании
задавался вопрос «Употребляли ли Вы
в течении 30 дней алкогольные напитки»)
COMPUTE
filter_$=(vozr{amp}gt;18).
compute
smoke=(dm71=1).
val lab smoke 1 «курит»
0 «не курит».
compute
alcohol=(dm80=1).
val lab alcohol 1 «пьет»
0 «не пьет».
Укрупним переменную dj10 -(зарплата на
основном рабочем месте). В данном случае
группы по значениям этой переменной в
основном достаточно наполнены, но мы с
методической целью покажем один из
способов укрупнения. Для этого вначале
получаем переменную wage, которая содержит
номера децилей по зарплате, затем среднюю
зарплату по этим децилям (см. таблицу
6.5).
missing
values dj6.0 (9997,9998,9999) dj10(99997,99998,99999).
RANK
VARIABLES=dj10 (A) /NTILES (10) into wage /PRINT=YES /TIES=MEAN .
MEANS
TABLES=dj10 BY wage /CELLS MEAN.
Таблица
6.5. Средняя зарплата по децилям.
WAGE |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
DJ10 |
101 |
211 |
307 |
416 |
542 |
703 |
853 |
1108 |
1565 |
3464 |
Полученные средние используем для
формирования переменной, соответствующей
укрупненной зарплате (для удобства,
чтобы коэффициенты регрессии не были
слишком малы, в качестве единицы ее
измерения возьмем сто рублей).
recode
wage (1=1.01) (2=2.11) (3=3.07) (4=4.16) (5=5.42) (6=7.03) (7=8.53)
(8=11.08) (9=15.65) (10 =34.64).
recode
dj6.0 (sysmis=4)(1 thru 5=1)(6 thru 10=2) (10 thru hi=3) into manag.
var lab
manag «статус»
wage «зaработок».
val lab manag 4 «не
начальник» 1 «шеф» 2 «начальничек»
3 «начальник».
exec.
Далее формируем переменную manag — »
статус» из переменной dj6.0 — количество
подчиненных.
Запускаем команду построения регрессии
LOGISTIC REGRESSION, в которой использованы
переменные wage — зарплата, manag статус, dh5
— пол (1 мужчины, 2 женщины) smoke — курение
(1 курит, 0 не курит), dh5* wage — «взаимодействие»
пола с зарплатой (для женщин значение
— 0, для мужчин — совпадает с зарплатой).
LOGISTIC
REGRESSION VAR=alcohol /METHOD=ENTER wage manag dh5 smoke dh5*wage
/CONTRAST (dh5)=Indicator /CONTRAST (manag)=Indicator /CONTRAST
(smoke)=Indicator /PRINT=CI(95) /CRITERIA PIN(.05) POUT(.10)
ITERATE(20) CUT(.69) .
Original
Internal
Value
Value
.00 0
1.00 1
Следует обратить внимание, что зависимая
переменная здесь должна быть дихотомической,
и ее максимальный код считается кодом
события, вероятность которого
прогнозируется. Например, если Вы
закодировали переменную ALCOHOL 1-употреблял,
2-не употреблял, то будет прогнозироваться
вероятность не употребления алкоголя.
Далее идут сведения о кодировании
индексных переменных для категориальных
переменных; из-за их естественности мы
их здесь не приводим.
INT_1
DH5(1) by WAGE
Основная
информация содержится в таблице
коэффициентов регрессии (рисунок 6.4).
Преждевсего, следует обратить
внимание на значимость коэффициентов.
Наблюдаемая значимость вычисляется на
основе статистики Вальда. Эта статистика
связана с методом максимального
правдоподобия и может быть использована
при оценках разнообразных параметров.
Универсальность статистики Вальда
позволяет оценить значимость не только
отдельных переменных, но и в целом
значимость категориальных переменных,
несмотря на то, что они дезагрегированы
на индексные переменные. Статистика
Вальда имеет распределение хи-квадрат.
Число степеней свободы, равно единице,
если проверяется гипотеза о равенстве
нулю коэффициента при обычной или
индексной переменной и, для категориальной
переменной, равно числу значений без
единицы (числу соответствующих индексных
переменных).
Внашей таблице коэффициентов почти все
переменные значимы на уровне значимости
5%. Закрыв глаза на возможное взаимодействие
между независимыми переменными
(коллинеарность), можно считать, что
вероятность употребления алкоголя
повышена при высокой зарплате, а также,
у руководителей различного ранга. Из-за
незначимости статистики Вальда нет,
правда, полной уверенности относительно
повышенной вероятности для начальников,
имеющих более 10 подчиненных. Курение и
принадлежность к мужскому полу также
повышают эту вероятность, однако,
взаимодействие «мужчина-зарплата»
имеет обратное действие.
В этой же таблице присутствует аналог
коэффициента корреляции (R), также
построенный на основе статистики Вальда.
Для обычных и индексных переменных
положительные значения коэффициента
свидетельствуют о положительной связи
переменной с вероятностью события,
отрицательные — об отрицательной связи.
https://www.youtube.com/watch?v=ytpressru
Кроме того, мы выдали таблицу экспонент
коэффициентов eB
и их доверительные границы
(см. рисунок 6.5). Эта таблица выдана
подкомандой /PRINT=CI(95) в команде задания
логистической регрессии.
Согласно модели и полученным значениям
коэффициентов, при фиксированных прочих
переменных, принадлежность к мужскому
полу увеличивает отношение шансов
«пития» и «не пития» в 2.4 раза
(точнее в 1.84-3.15 раза), курения — в 1.9 раза
(1.54 — 2.35), а прибавка к зарплате 100 рублей
— на 4.4% (2.8%-6%), правда такая прибавка
мужчине одновременно уменьшает это
отношение на 3.8% (5.7%-1.9%). Быть мелким
начальником — значит увеличить отношение
шансов в 1.43 (1.06 — 1.9) раза, чем в среднем,
а средним начальником — в 1.7 (1.07-2.67) раза.