Простатит

Одномерный дисперсионный анализ (oneway)

Value lab w10 1 «Высшее» 2 «н/высш» 3 «ср. Спец» 4 «среднее» 5 «ниже среднего».

ONEWAY
lnv14m BY w10 /STATISTICS DESCRIPTIVES HOMOGENEITY /POSTHOC = BTUKEY
SCHEFFE BONFERRONI ALPHA(.05).

На основании полученной выдачи видим,
что:

  • доверительные интервалы для высшего
    и неполного высшего образования не
    пересекаются (см. табл.4.10);

  • дисперсии в группах различаются не
    существенно (см. тест Ливиня, табл.4.11);

  • в целом наблюдается связь душевого
    дохода с образованием (гипотеза о
    равенстве средних — отвергается, см.
    таблицу 4.12);

  • выделились следующие две группы по
    образованию с неразличимыми средними:
    2 н/высшее, 5 ниже среднего, 4 среднее и
    5 ниже среднего, 4 среднее, 3 среднее
    спец, 1 высшее (табл.4.13);

  • попарные множественные сравнения
    показали, что единственная пара
    отличающихся по средним групп — это
    группы с неполным высшим и респондентов
    с высшим образованием (наблюдаемая
    значимость — 0.013, таблица 4.14).

https://www.youtube.com/watch?v=upload

Следует заметить, что мы не показали
здесь часть таблицы попарных сравнений
с результатами для метода Бонферрони
и Шеффе; результаты аналогичны, но для
указанной пары групп значимость различия
по Шеффе — 0.041, по Бонферрони — 0.016. Это
показывает большую чуствительность
теста Тьюки.

Глава 1. Информация, обрабатываемая статистическим пакетом 120

Статистические
методы позволяют решать множество
разнообразных задач, обеспечивая
исследователя точными количественными
характеристиками различных свойств
совокупностей объектов, которые отражают
скрытые, неявные свойства и связи,
которые невозможно обнаружить
«невооруженным глазом».

Статистические
методы помогают обрабатывать очень
большие массивы данных, что чрезвычайно
полезно в современном мире, перенасыщенном
информацией. Статистический метод –
это поиск практически полезных и
нетривиальных сведений в большом объеме
информации.

1.
Получение усредненных данных. Это
взгляд на совокупность характеристик
отдельных объектов в целом через призму
какого-то конкретного свойства. Сюда
относится анализ одномерных распределений,
подсчет для разных уровней измерения
(Сколько раз в среднем в месяц студенты
смотрят общественно-политические
телепрограммы?).

2.
Оценка связей между переменными. Наличие
статистической связи между переменными
возможно, если изменение значений одной
переменной приводит к изменению
распределения другой. Для порядковых
и интервальных переменных понятие связи
более определенно: связанные переменные
обладают общностью вариаций. Возрастание
значений одной переменной будет
соответствовать возрастанию или
уменьшению значений другой переменной.
Наличие связи позволяет делать
предположения относительно зависимой
переменной на основании информации о
независимой.

Статистические
методы позволяют ответить на вопрос об
интенсивности (плотности, тесноте)
связи между переменными. Численная
оценка интенсивности будет называться
коэффициентом связи; для разного типа
переменных вычисляются разного рода
коэффициенты, их общее количество в
статистике достаточно велико.

3.
Классификация. Ряд статистических
техник дает возможность соотнести
исследуемые объекты с несколькими
заранее определенными классами. Например,
можно выделить класс граждан, участвующих
в выборах, и класс, не участвующих в них
(абсентеистов).

4.
Кластеризация. Это разбиение объектов
на группы по критерию их близости в
определенном пространстве признаков.
Например, нас интересуют 3 признака,
характеризующие идеологию политических
партий: степень поддержки действующего
политического руководства страны,
видение социальной роли государства,
восприятие западных демократий в
качестве оптимальной модели политического
устройства России. С помощью определенных
статистических процедур можно выяснить,
какие партии будут близки друг к другу
в пространстве всех этих признаков
одновременно.

5.
Редукция данных. Редукция – сокращение,
сжатие. Эта задача важна в ситуации,
когда объекты измерены большим числом
переменных и исследователь ищет способ
сгруппировать их по какому-то смысловому
признаку. Например, при изучении образов
политических лидеров используется
большое число признаков описания
(дескрипторов): интеллектуальные
качества, энергичность, опыт, волевые
качества и т. д. Чтобы сделать описание
более компактным можно объединить
отдельные признаки в группы, основываясь
на выявлении скрытых связей между ними.

Существуют
статистические методы, которые
приспособлены к решению какой-то одной
из указанных задач, а также
многофункциональные, «многозадачные»
техники.

1.1. Анкетные данные 120

Пример 1.1. 120

1.2. Типы переменных 121

Типы кодирования переменных. 121

Тип шкалы измерения переменных. 121

Неколичественные шкалы 121

https://www.youtube.com/watch?v=ytadvertiseru

Количественные шкалы: 121

Неальтернативные признаки 122

1.3. Имена переменных и метки, коды
неопределенных значений 123

2.1. Структура пакета 124

2.2. Схема организации данных, окна
SPSS 124

2.3. Управление работой пакета 125

Одномерный дисперсионный анализ (oneway)

Основные команды меню SPSS: 125

Статусная строка 126

Ввод данных с экрана 126

2.4. Режим диалога и командный режим 126

Командный режим работы с пакетом 127

Основные правила написания команд на
языке пакета 127

Порядок выполнения команд 128

команды Вызова Get и сохранения данных
save. 128

основные Команды описания данных 128

основные команды преобразования
данных 130

Команды COMPUTE и IF 130

Основные функции и операторы команд
COMPUTE и IF: 131

Работа с неопределенными значениями 132

Функции для неопределенных значений 133

Работа с пользовательскими неопределенными
значениями 133

Работа с функциями Missing и Sysmis. 133

Команда RECODE 133

Команда COUNT 135

Условное выполнение команд. 135

Команда RANK 136

Отбор подмножеств наблюдений 136

Команда SPLIT FILE 137

Взвешивание выборки WEIGHT 138

Пример 2.1 139

2.5. Операции с файлами 140

Агрегирование данных (команда
AGGREGATE) 140

Функции агрегирования 141

Объединение файлов (merge files) 142

В SPSS предусмотрена проверка теста
Барлетта о сферичности распределения
данных. В предположении многомерной
нормальности распределения здесь
проверяется, не диагональна ли матрица
корреляций. Если гипотеза не отвергается
(наблюдаемый уровень значимости велик,
скажем больше 5%) — нет смысла в факторном
анализе, поскольку направления главных
осей случайны.

Парные корреляции

Одномерный дисперсионный анализ (oneway)

CORRELATIONS
/VARIABLES=v9 lnv14m /PRINT=TWOTAIL NOSIG.

https://www.youtube.com/watch?v=https:tv.youtube.com

для обычного коэффициента корреляции
и

NONPAR
CORR /VARIABLES=v10 v9 v14 /PRINT=SPEARMAN.

NONPAR CORR /VARIABLES=v10 WITH v9 v14
/PRINT=KENDALL.

для ранговых корреляций

Подкоманда /VARIABLESв этих командах
указывает список переменных или два
списка переменных, разделенных словомWITH. Если указывается один список
переменных, то рассчитываются коэффициенты
корреляции каждой переменной с каждой
переменной (квадратная таблица). Если
указываются два списка, разделенные
служебным словомWITH, то рассчитываются
коэффициенты корреляции всех переменных,
расположенных слева отWITH, с
переменными, расположенными справа
(прямоугольная таблица). Ключевое словоWITHможно использовать только в окне
синтаксиса.

Коэффициент корреляции может принимать
значения от -1 до 1. При этом значимый
отрицательный коэффициент корреляции
позволяет принять гипотезу о наличии
линейной отрицательной связи. Метод,
используемый для проверки гипотезы,
предполагает, также, двумерную нормальность
распределения (X,Y). На практике
это соответствует тому, что увеличению
значения одной переменной в большинстве
случаев соответствует уменьшение
значения коррелируещей с ней переменной.

Насколько полученное значение коэффициента
корреляции не случайно, определяется
по величине значимости (Sig.
(2-tailed)) — вероятности получить большее,
чем выборочное значение коэффициента
корреляции. Для оценки значимости
коэффициента Пирсона используется
критерийt=r*(N-2)/(1-r2)0.5,
который в условиях нормальности и
независимости переменных имеет
распределение Стьюдента. Таким образом,
наряду с формулировкой нулевой гипотезы
здесь формулируется предположение о
двумерной нормальности — довольно
жесткое условие.

Для оценки значимости коэффициентов
Спирмена и Кендалла используется
нормальная аппроксимация этих
коэфициентов. По-сути коэффициент
ранговой корреляции является коэффициентом
корреляции между переменными,
преобразованными в ранги (или процентили),
поэтому для исследования значимости с
помощью этих коэффициентов не требуется
делать предположения о распределении
данных.

Одномерный дисперсионный анализ (oneway)

Таблица
4.15. Коэффициенты корреляции Спирмена
(Spearman’s
rho)

V9 Возраст

V14 Ср.мес. душевой
доход в семье

V10 Образование

Correlation
Coefficient

-.021

-.086

Sig.
(2-tailed)

.574

.026

N

692

671

5.2.1. Двухвыборочный тест Колмогорова-Смирнова

NPAR
TESTS K-S=V14 BY V4(1,3).

В
команде за ключевым словом K-S
следует тестируемая переменная (в нашем
примере — V14), за ней после слова BY
указываются сравниваемые группы —
переменная, определяющая эти группы, и
соответствующие этим группам значения:
V4(1,3).

,
где N1
и N2
— объемы выборок.

В
листинге выдается статистика критерия
Z=ks
двусторонняя значимость — вероятность
случайно в условиях гипотезы превзойти
выборочное значение статистики.

recode
v4(1,2=1)(3=2) into W4.

Отношение шансов и логит

Отношение вероятности того, что событие
произойдет к вероятности того, что оно
не произойдет P/(1-P)называется
отношением шансов.

С этим отношением связано еще одно
представление логистической регрессии,
получаемое за счет непосредственного
задания зависимой переменной в виде
Z=Ln(P/(1-P)), гдеP=P{Y=1|X1,…,Xp}.ПеременнаяZ называетсялогитом.По
сути дела, логистическая регрессия
определяется уравнением регрессииZ=B0 B1X1 … BpXp.

В связи с этим отношение шансов может
быть записано в следующем виде

Одномерный дисперсионный анализ (oneway)

P/(1-P)=.

Отсюда получается, что, если модель
верна, при независимых X1,…,XpизменениеXkна единицу
вызывает изменение отношения шансов
враз.

Val lab 1 «Отдать» 2 «нет».

npar
test k-s=v14 by w4(1,2).

Таблица
5.7. Cравнение распределения доходов в
двух группах на основе критерия
Колмогорова-Смирнова,.

V14
Душевой доход в семье

Most
Extreme Differences

Absolute

0.05

Positive

0.05

Negative

-0.028

Kolmogorov-Smirnov
Z

0.455

Asymp. Sig.
(2-tailed)

0.986

В
приведенном примере (таблица 5.7)
наблюдаемый уровень значимости велик
(0.986). Поэтому, приходим к заключению,
что на нашей учебной выборке критерием
Колмогорова-Смирнова не удалось
обнаружить различие распределений по
душевому доходу в группах считающих,
что нужно отдать острова или их часть,
и противников такого решения. Это не
означает достоверно, что распределения
совпадают, возможны тонкие различия
распределений, которые критерий не
улавливает из-за малого объема данных.

5.2.2. Тест медиан

Этот
тест позволяет сравнивать распределения
исследуемой переменной сразу в нескольких
группах. Тест весьма груб, но прост.

NPAR
TESTS MEDIAN = V14 BY V1(1,3).

Внешне
задание теста похоже на задания критерия
Колмогорова-Смирнова.

Задание
сравниваемых групп.
После слова BY
за именем переменной в скобках указывается
интервал значений. В приведенном примере
сравниваются распределения в трех
группах. Тестом можно сравнить также и
пару групп, если в скобках вначале
указать большее значение, затем меньшее
(при задании V4(3,1) сравниваются только
1-я и 3-я группы).

Суть
проверки гипотезы состоит в следующем.
Значения исследуемой переменной (в
нашем примере — V14)
делятся на две группы: больше медианы
и меньше или равно медиане. Такое
разделение можно считать заданием
новой, дихотомической переменной.
Вычисляется таблица сопряженности
полученной дихотомической переменной
и переменной, задающей группы.

Замечание.
Для получения дихотомии можно, также,
навязать точку «разрыва» переменной,
не совпадающую с медианой, указав в
скобках за словом MEDIAN
соответствующее значение.

Одномерный дисперсионный анализ (oneway)

Пример.
Курильское обследование проходило в
21 городе Западной Сибири. Экспертным
путем все города разделены на 4 типа: 1
растущие, 2 стабильные, 3 крупные, 4
гиганты. Типу города в наших данных
соответствует переменная TP.

npar
test med=v14 by TP(1,4).

Таблица
5.8. Метод медиан. Разделение на две
подвыборки.

TP
тип поселения

Растущие

Стабильные

крупные

гигант

V14
Ср.мес. душевой доход в семье

{amp}gt; Median

84

104

62

12

{amp}lt;= Median

90

126

139

56

Таблица
5.9. Метод
медиан. Значимость критерия.

V14
Ср.мес. душевой доход в семье

N

673

Median

200

Chi-Square

28.698

Df

3

Asymp. Sig.

0

Анализируя
величину наблюдаемой значимости, видим,
что между точкой зрения на иностранную
помощь и возрастом имеется существенная
связь, т.е. обнаружено значимое различие
распределения доходов в группах.

5.4.2. Двухвыборочный знаково-ранговый критерий Вилкоксона (Wilcoxon)

Для
исследования связи пары измерений Х
и Y
рассматриваются знаки разностей
di=Yi-Xi.
В случае независимости измерений и
отсутствии повторов значений di
(связей) число знаков » » (положительных
di)
должно подчиняться биномиальному
распределению с параметром p=0.5.
Именно эта гипотеза и проверяется с
помощью статистики критерия —
стандартизованной частоты положительных
разностей.

В
качестве примера по данным RLMS проверим,
какой характер имели изменения веса
(кг) мужчин старше 30 лет в 1994-95 гг.

Одномерный дисперсионный анализ (oneway)

COMPUTE
filter_$=(a_age {amp}lt; 30 {amp}amp; ah5_1 = 1).

FILTER
BY filter_$.

NPAR
TEST / SIGN= am1 WITH bm1 (PAIRED).

Таблица
5.14. Тест знаков для парных наблюдений.
Частоты

Frequencies

N

BM1
вес
в
1995г.
— AM1 вес
в
1994г.

Negative
Differences

877

Positive
Differences

722

Ties

350

Total

1949

Судя
по таблице 5.14, мужчины чаще худели, чем
толстели, причем этот факт подтверждается
отрицательным значением статистики
критерия, наблюдаемая значимость которой
равна 0.000118 (таблица 5.15.).

Таблица
5.15. Тест знаков для парных наблюдений.
Значимость критерия.

Test Statistics

BM1
вес
в
1995г.
— AM1 вес
в
1994г.

Z

-3.8512

Asymp. Sig.
(2-tailed)

0.000118

Ранжируются
абсолютные величины разностей di=Yi-Xi.
Затем рассматривается сумма рангов
положительных и сумма рангов отрицательных
разностей. Если связь между X
и Y
отсутствует и распределение одинаково,
то эти две суммы должны быть примерно
равны. Статистика критерия — стандартизованная
разность этих сумм.

Одномерный дисперсионный анализ (oneway)

По
сути, это проверка, не произошло ли между
измерениями событие, существенно
изменившее иерархию объектов?

https://www.youtube.com/watch?v=ytpolicyandsafetyru

Обратимся
к предыдущему примеру, но проверим,
будет ли преобладать отрицательный
ранг изменения веса мужчин старше 30
лет?

NPAR
TEST /WILCOXON=am1 WITH bm1 (PAIRED).

Таблица
5.16 показывает, что преобладает уменьшение
веса, что подтверждается наблюдаемой
значимостью статистики критерия, равной
0.00053
(таблица 5.17).

Таблица
5.16. Знаково-ранговый тест Вилкоксона.
Средние ранги.

BM1
вес в 1995г. — AM1 вес в 1994г.

N

Mean Rank

Sum of Ranks

Negative Ranks

877

802.2

703500

Positive Ranks

722

797.4

575700

Ties

350

Total

1949

Таблица
5.17. Знаково-ранговый
тест Вилкоксона. Средние ранги.

BM1
вес в 1995г. — AM1 вес в 1994г.

Z

-3.46504

Asymp. Sig.
(2-tailed)

0.00053

Глава 4. Сравнение средних, корреляции 144

4.3. Compare Means — простые параметрические
методы сравнения средних. 144

Одновыборочный тест (One sample T-test). 145

двухвыборочный t-тест (independent sample
T-TEST) 146

двухвыборочный t-тест для связанных
выборок (Paired sample T-TEST) 147

Команда MEANS — сравнение характеристик
числовой переменной по группам. 147

Одномерный дисперсионный анализ
(ONEWAY) 149

МНОЖЕСТВЕННЫЕ СРАВНЕНИЯ 149

4.4. Корреляции (CORRELATIONS) 151

Парные корреляции 151

https://www.youtube.com/watch?v=ytdevru

Частные корреляции. 152

Глава 5. Непараметрические тесты. Команда Nonparametric tests. 154

5.1. Одновыборочные тесты 154

Одномерный дисперсионный анализ (oneway)

5.1.1. Тест Хи-квадрат 154

5.1.2. Тест, основанный на биномиальном
распределении 156

5.1.3. Тест Колмогорова-Смирнова 157

5.2. Тесты сравнения нескольких выборок 158

5.2.1. Двухвыборочный тест
Колмогорова-Смирнова 158

5.2.2. Тест медиан 159

5.3. Тесты для ранговых переменных 160

5.3.1. Двухвыборочный тест Манна-Уитни
(Mann-Witney)- 161

5.3.2. Одномерный дисперсионный анализ
Краскэла-Уоллиса (Kruskal-Wallis) 161

5.4. Тесты для связанных выборок (related
samples) 162

5.4.1. Двухвыборочный критерий знаков
(Sign) 162

5.4.2. Двухвыборочный знаково-ранговый
критерий Вилкоксона (Wilcoxon) 163

5.4.3. Критерий Фридмана (Friedman) 163

6. Регрессионный анализ 166

Одномерный дисперсионный анализ (oneway)

6.1. Классическая линейная модель
регрессионного анализа 166

Существует ли линейная регрессионная
зависимость? 167

Коэффициенты детерминации и множественной
корреляции 167

Оценка влияния независимой переменной 167

Стандартизация переменных. Бета
коэффициенты 168

Надежность и значимость коэффициента
регрессии 168

Значимость включения переменной в
регрессию 168

Одномерный дисперсионный анализ (oneway)

Пошаговая процедура построения
модели 169

Переменные, порождаемые регрессионным
уравнением 169

Взвешенная регрессия 169

Команда построения линейной модели
регрессии 170

Пример построения модели 170

Можно ли в регрессии использовать
неколичественные переменные? 172

Взаимодействие переменных 173

6.2. Логистическая регрессия 173

Отношение шансов и логит 174

Решение уравнения с использованием
логита. 174

Неколичественные данные 174

Взаимодействие переменных 175

Пример логистической регрессии и
статистики 175

Качество подгонки логистической
регрессии 176

Вероятность правильного предсказания 176

Коэффициенты регрессии 178

Одномерный дисперсионный анализ (oneway)

О статистике Вальда 179

Сохранение переменных 179

https://www.youtube.com/watch?v=ytcreatorsru

7. Исследование структуры данных 180

7.1. Факторный анализ 180

метод главных компанент 180

Одномерный дисперсионный анализ (oneway)

Интерпретация факторов. 181

Оценка факторов 182

Статистические гипотезы в факторном
анализе 182

Задание факторного анализа 182

7.2. Кластерный анализ 184

Иерархический кластерный анализ 185

Быстрый кластерный анализ 190

7.3. Многомерное шкалирование 192

Многомерное шкалирование 193

Одномерный дисперсионный анализ (oneway)

Качество подгонки модели 193

Вызов процедуры многомерного
шкалирования 193

Исходная матрица расстояний 193

Пример построения шкал 194

Литература 196

https://www.youtube.com/watch?v=ytaboutru

Приложение 1. Анкета опроса общественного
мнения 197

Приложение 2. Переменные файла обследования
общественного мнения 200

В меню — это команда Linear Regression. В диалоговом
окне команды:

  • Назначаются независимые и зависимая
    переменные,

  • Назначается метод отбора переменных.
    STEPWISE — пошаговое включение/удаление
    переменных. FORWARD — пошаговое включение
    переменных. BACKWARD — пошаговое исключение
    переменных. При пошаговом алгоритме
    назначаются значимости включения и
    исключения переменных (OPTIONS). ENTER —
    принудительное включение.

  • Имеется возможность отбора данных, на
    которых будет оценена модель (Selection).
    Для остальных данных могут быть оценены
    прогнозные значения функции регрессии,
    его стандартные отклонения и др.

  • Назначения вывода статистик (Statistics) —
    доверительные коэффициенты коэффициентов
    регресии, их ковариационная матрица,
    статистики Дарбина-Уотсона и пр.

  • Задаются графики рассеяния остатков,
    их гистограммы (Plots)

  • Назначаются сохранение переменных(Save),
    порождаемых регрессией.

  • Если используется пошаговая регрессия,
    назначаются пороговые значимости для
    включения (PIN) и исключения (POUT) переменных
    (Options).

  • Если обнаружена гетероскедастичность,
    назначается и весовая переменная.

Переменные, порождаемые регрессионным уравнением

Y=B0 B1X1 … BpXp 

где - случайная
ошибка. ЗдесьXkозначает
не «икс в степениk», а переменнаяXс индексомk.

Традиционные названия «зависимая»
для Yи «независимые» дляXkотражают не столько статистический
смысл зависимости, сколько их содержательную
интерпретацию.

Величина называется ошибкой регрессии. Первые
математические результаты, связанные
с регрессионным анализом, сделаны в
предположении, что регрессионная ошибка
распределена нормально с параметрамиN(0,σ2), ошибка для
различных объектов считаются независимыми.
Кроме того, в данной модели мы рассматриваем
переменныеXкак неслучайные значения,
Такое, на практике, получается, когда
идет активный эксперимент, в котором
задают значенияX(например, назначили
зарплату работнику), а затем измеряют
Y(оценили, какой стала производительность
труда).

Решение задачи сводится к решению
системы линейных уравнений относительно
.

О качестве полученного уравнения
регрессии можно судить, исследовав
— оценки случайных ошибок уравнения.
Оценка дисперсии случайной ошибки
получается по формуле

Величина Sназывается стандартной
ошибкой регрессии. Чем меньше величинаS, тем лучше уравнение регрессии
описывает независимую переменнуюY.

Так как мы ищем оценки
,
используя случайные данные, то они, в
свою очередь, будут представлять
случайные величины. В связи с этим
возникают вопросы:

  1. Существует ли регрессионная зависимость?
    Может быть, все коэффициенты регрессии
    в генеральной совокупности равны нулю,
    оцененные их значения ненулевые только
    благодаря случайным отклонениям данных?

  2. Существенно ли влияние на зависимую
    отдельных независимых переменных?

В пакете вычисляются статистики,
позволяющие решить эти задачи.

В этом разложении обычно обозначают

— общую сумму квадратов отклонений;

— сумму квадратов регрессионных
отклонений;

— разброс по линии регрессии.

Статистика
в условиях гипотезы равенства нулю
регрессионных коэффициентов имеет
распределение Фишера и, естественно,
по этой статистике проверяют, являются
ли коэффициентыB1,…,Bpодновременно нулевыми. Если наблюдаемая
значимость статистики Фишера мала
(например,sig F=0.003), то это означает,
что данные распределены вдоль линии
регрессии; если велика (например, SignF=0.5), то, следовательно, данные не
связаны такой линейной связью.

Основным критерием отбора аргументов
должно быть качественное представление
о факторах, влияющих на зависимую
переменную, которую мы пытаемся
смоделировать. В SPSS очень хорошо
реализован процесс построения
регрессионной модели: на машину переложена
значительная доля трудностей в решении
этой задачи. Возможно построение
последовательное построение модели
добавлением и удалением блоков переменных.
Но мы рассмотрим только работу с
отдельными переменными.

По умолчанию программа включает все
заданные переменные (метод ENTER).

Метод включения и исключения переменных
(STEPWISE) состоит в следующем.

Из множества факторов, рассматриваемых
исследователем как возможные аргументы
регрессионного уравнения, отбирается
один xk, который более всего
связан корреляционной зависимостью сy. Для этого рассчитываются частные
коэффициенты корреляции остальных
переменных сyприxk,
включенном в регрессию, и выбирается
следующая переменная с наибольшим
частным коэффициентом корреляции.

Это
равносильно следующему: вычислить
регрессионный остаток переменнойy;
вычислить регрессионный остаток
независимых переменных по регрессионным
уравнениям их как зависимых переменных
от выбранной переменной (т.е. устранить
из всех переменных влияние выбранной
переменной); найти наибольший коэффициент
корреляции остатков и включить
соответствующую переменнуюxв
уравнение регрессии. Далее проводится
та же процедура при двух выбранных
переменных, при трех и т.д.

Процедура повторяется до тех пор, пока
в уравнение не будут включены все
аргументы выделенные исследователем,
удовлетворяющие критериям значимости
включения.

Замечание: во избежание зацикливания
процесса включения/исключения значимость
включения устанавливается меньше
значимости исключения.

Сохранение переменных, порождаемых
регрессией, производится подкомандой
SAVE.

Благодаря полученным оценкам коэффициентов
уравнения регрессии могут быть оценены
прогнозные значения зависимой переменной
,
причем они могут быть вычислены и там,
где значенияyопределены, и там где
они не определены. Прогнозные значения
являются оценками средних, ожидаемых
по модели значенийY, зависящих отX.

Поскольку коэффициенты регрессии —
случайные величины, линия регрессии
также случайна. Поэтому прогнозные
значения случайны и имеют некоторое
стандартное отклонение
,
зависящее отX. Благодаря этому можно
получить и доверительные границы для
прогнозных значений регрессии (средних
значенийy).

Кроме того, с учетом дисперсии остатка
могут быть вычислены доверительные
границы значений Y(не средних, а
индивидуальных!).

Для каждого объекта может быть вычислен
остаток ei=.
Остаток полезен для изучения адеквантности
модели данным. Это означает, что должны
быть выполнены требования о независимости
остатков для отдельных наблюдений,
дисперсия не должна зависеть отX.

Для изучения отклонений от модели удобно
использовать стандартизованный остаток
— деленный на стандартную ошибку
регрессии.

Случайность оценки прогнозных значений
Yвносит дополнительную дисперсию
в регрессионный остаток, из-за этого
дисперсия остатка зависит от значений
независимых переменных ().
Стьюдентеризованный остаток — это
остаток деленный на оценку дисперсии
остатка:.

Одномерный дисперсионный анализ (oneway)

Таким образом, мы можем получить: оценку
(прогнозную) значений зависимой переменной
Unstandardized predicted value), ее стандартное
отклонение (S.E. of mean predictions), доверительные
интервалы для среднего Y(X)и дляY(X)(Prediction intervals — Mean, Individual).

Это далеко не полный перечень переменных,
порождаемых SPSS.

https://www.youtube.com/watch?v=https:accounts.google.comServiceLogin

Обычно демонстрацию модели начинают с
простейшего примера, и такие примеры
Вы можете найти в Руководстве по
применению SPSS. Мы пойдем немного дальше
и покажем, как получить полиномиальную
регрессию.

Курильский опрос касался населения
трудоспособного возраста. Как показали
расчеты, в среднем меньшие доходы имеют
молодые люди и люди старшего возраста.
Поэтому, прогнозировать доход лучше
квадратичной кривой, а не простой
линейной зависимостью. В рамках линейной
модели это можно сделать, введя переменную
— квадрат возраста. Приведенное ниже
задание SPSS предназначено для прогноза
логарифма промедианного дохода (ранее
сформированного).

Compute v9_2=v9**2.

*квадрат
возраста.

REGRESSION
/DEPENDENT lnv14m /METHOD=ENTER v9 v9_2

/SAVE
PRED MCIN ICIN.

*регрессия с сохранением предсказанных
значений и доверительных интервалов
средних и индивидуальных прогнозных
значений.

Таблица 5.1 показывает, что уравнение
объясняет всего 4.5% дисперсии зависимой
переменной (коэффициент детерминации
R2=.045),
скорректированная величина
коэффициента равна 0.042, а коэффициент
множественной корреляции равен 0.211.
Много это или мало, трудно сказать,
поскольку у нас нет подобных результатов
на других данных, но то, что здесь есть
взаимосвязь, можно понять, рассматривая
таблицу 6.2.

Таблица
6.1. Общие характеристики уравнения

R

R
Square

Adjusted
R Square

Std.
Error of the Estimate

.211

.045

.042

.5277

https://www.youtube.com/watch?v=ytcopyrightru

a Predictors:
(Constant), V9_2, V9 Возраст

b Dependent
Variable: LNV14M логарифм
промедианного
дохода

Результаты дисперсионного анализа
уравнения регрессии показывает, что
гипотеза равенства всех коэффициентов
регрессии нулю должна быть отклонена.

Таблица
6.2. Дисперсионный анализ уравнения

Sum
of Squares

df

Mean
Square

F

Sig.

Regression

8.484

2

4.242

15.232

.000

Residual

181.298

651

.278

Total

189.782

653

Таблица
6.3. Коэффициенты регрессии.

Unstandardized
Coefficients

Standardized
Coefficients

T

Sig.

B

Std.
Error

Beta

(Constant)

-1.0569

0.1888

-5.5992

0.0000

V9
Возраст

0.0505

0.0093

1.1406

5.4267

0.0000

V9_2

-0.0006

0.0001

-1.0829

-5.1521

0.0000

Регрессионные коэффициенты представлены
в таблице 6.3. В соответствии с ними,
уравнение регрессии имеет вид

Лог.промед.дохода =
-1.0569 0.0505*возраст-0.0006*возраст2

Стандартная
ошибка коэффициентов регрессии
значительно меньше величин самих
коэффициентов, их отношения -tстатистики, по абсолютной величине
больше 5. Наблюдаемая значимость статистик
(Sig) равна нулю, поэтому гипотеза о
равенстве коэффициентов нулю отвергается
для каждого коэффициента. Стоит обратить
внимание на редкую ситуацию — коэффициенты
бета по абсолютной величине больше
единицы. Это произошло, по-видимому,
из-за того, что корреляция между возрастом
и его квадратом весьма велика.

GRAPH
/SCATTERPLOT(OVERLAY)=v9 v9 v9 v9 v9 v9 WITH pre_1 lmci_1 umci_1
lici_1 uici_1 lnv14m(PAIR).

Границы для M(y)значительно уже, чем
для y, так как последние должны охватывать
больше 95% точек графика.

Одномерный дисперсионный анализ (oneway)

На графике не прослеживается явной
зависимости дисперсии остатка от
значений независимой переменной —
возраста. Некоторое сужение рассеяния
данных для старших возрастов произошло,
вероятно, за счет общего уменьшения
плотности двумерного распределения.

Команда построения линейной модели регрессии

Если переменные Xнезависимы между
собой, то величина коэффициентаbiинтерпретируется как приростy, еслиXiувеличить на единицу.

Можно ли по абсолютной величине
коэффициента судить о роли соответствующего
ему фактора в формировании зависимой
переменной? То есть, если b1{amp}gt;b2,
будет лиX1важнееX2?

Абсолютные значения коэффициентов не
позволяют сделать такой вывод. Однако
при небольшой взаимосвязи между
переменными X, если
стандартизовать переменные и рассчитать
уравнение регрессии для стандартизованных
переменных, то оценки коэффициентов
регрессии позволят по их абсолютной
величине судить о том, какой аргумент
в большей степени влияет на функцию.

Стандартизация переменных, т.е. замена
переменных xkнаиyна,
приводит к уравнению

где k -порядковый номер независимой
переменной.

Коэффициенты в последнем уравнении
получены при одинаковых масштабах
изменения всех переменных и сравнимы.
Более того, если «независимые»
переменные независимы между собой, betaкоэффициенты суть коэффициенты корреляции
междуxkиy. Таким
образом, в последнем случае коэффициентыbetaнепосредственно характеризуют
связьxиy.

В случае взаимосвязи между аргументами
в правой части уравнения могут происходить
странные вещи. Несмотря на связь
переменных xkиy,beta
— коэффициент может оказаться равным
нулю; мало того, его величина может
оказаться больше единицы!

Взаимосвязь аргументов в правой части
регрессионного уравнения называется
мультиколлинеарностью. При наличии
мультиколлинеарности переменных по
коэффициентам регрессии нельзя судить
о влиянии этих переменных на функцию.

Одномерный дисперсионный анализ (oneway)

Для изучения «механизма» действия
мультиколлинеарности на регрессионные
коэффициенты рассмотрим выражение для
дисперсии отдельного регрессионного
коэффициента

Здесь
обозначен коэффициент детерминации,
получаемый при построении уравнения
регрессии, в котором в качестве зависимой
переменной взята переменнаяxk.
Из выражения видно, что величина
коэффициента тем неустойчивее, чем
сильнее переменнаяxkсвязана с остальными переменными (чем
ближе к единице коэффициент детерминации).

Величина 1-,
характеризующая устойчивость
регрессионного коэффициента, называется
надежностью. В англоязычной литературе
она обозначается словомTOLERANCE.

Дисперсия коэффициента позволяет
получить статистику для проверки его
значимости

Эта статистика имеет распределение
Стьюдента. В выдаче пакета печатается
наблюдаемая ее двусторонняя значимость
— вероятность случайно при нулевом
регрессионном коэффициенте Bkполучить значение статистики, большее
по абсолютной величине, чем выборочное.

Одномерный дисперсионный анализ (oneway)

Предсказания событий, исследования
связи событий с теми или иными факторами
с нетерпением ждут от социологов. Будем
считать, что событие в данных фиксируется
дихотомической переменной (0 не произошло
событие, 1 — произошло). Для построения
модели предсказания можно было бы
построить, к примеру, линейное регрессионное
уравнение с зависимой дихотомической
переменной Y, но оно будет не адекватно
поставленной задаче, так как в классическом
уравнении регрессии предполагается,
чтоY- непрерывная переменная.

Логистическая регрессия выражает эту
связь в виде формулы

,
где Z=B0 B1X1 … BpXp(1).

Название «логистическая регрессия»
происходит от названия логистического
распределения, имеющего функцию
распределения
. Таким образом, модель, представленная
этим видом регрессии, по сути, является
функцией распределения этого закона,
в которой в качестве аргумента используется
линейная комбинация независимых
переменных.

В процедуре логистической регрессии в
SPSS предусмотрены средства для
автоматического включения в уравнение
переменных взаимодействий. В диалоговом
окне в списке исходных переменных для
этого следует выделить имена переменных,
взаимодействия которых предполагается
рассмотреть, затем переправить выделенные
имена в окно независимых переменных
кнопкой c текстом {amp}gt;a*b{amp}gt;.

Процедура логистической регрессии в
SPSS в диалоговом режиме вызывается из
меню командой StatisticsRegressionBinary logistic….

В качестве примера по данным RLMS изучим,
как связано употребление спиртных
напитков с зарплатой, полом, статусом
(ранг руководителя), курит ли он.

Для этого подготовим данные: выберем в
обследовании RLMS население старше 18 лет,
сконструируем индикаторы курения
(smoke) и пития (alcohol) (в обследовании
задавался вопрос «Употребляли ли Вы
в течении 30 дней алкогольные напитки»)

Одномерный дисперсионный анализ (oneway)

COMPUTE
filter_$=(vozr{amp}gt;18).

compute
smoke=(dm71=1).

val lab smoke 1 «курит»
0 «не курит».

compute
alcohol=(dm80=1).

val lab alcohol 1 «пьет»
0 «не пьет».

Укрупним переменную dj10 -(зарплата на
основном рабочем месте). В данном случае
группы по значениям этой переменной в
основном достаточно наполнены, но мы с
методической целью покажем один из
способов укрупнения. Для этого вначале
получаем переменную wage, которая содержит
номера децилей по зарплате, затем среднюю
зарплату по этим децилям (см. таблицу
6.5).

missing
values dj6.0 (9997,9998,9999) dj10(99997,99998,99999).

RANK
VARIABLES=dj10 (A) /NTILES (10) into wage /PRINT=YES /TIES=MEAN .

MEANS
TABLES=dj10 BY wage /CELLS MEAN.

Таблица
6.5. Средняя зарплата по децилям.

WAGE
децили зарплаты

1

2

3

4

5

6

7

8

9

10

DJ10
зарплата за 30 дней

101

211

307

416

542

703

853

1108

1565

3464

Полученные средние используем для
формирования переменной, соответствующей
укрупненной зарплате (для удобства,
чтобы коэффициенты регрессии не были
слишком малы, в качестве единицы ее
измерения возьмем сто рублей).

recode
wage (1=1.01) (2=2.11) (3=3.07) (4=4.16) (5=5.42) (6=7.03) (7=8.53)
(8=11.08) (9=15.65) (10 =34.64).

recode
dj6.0 (sysmis=4)(1 thru 5=1)(6 thru 10=2) (10 thru hi=3) into manag.

var lab
manag «статус»
wage «зaработок».

val lab manag 4 «не
начальник» 1 «шеф» 2 «начальничек»
3 «начальник».

exec.

Одномерный дисперсионный анализ (oneway)

Далее формируем переменную manag — »
статус» из переменной dj6.0 — количество
подчиненных.

Запускаем команду построения регрессии
LOGISTIC REGRESSION, в которой использованы
переменные wage — зарплата, manag статус, dh5
— пол (1 мужчины, 2 женщины) smoke — курение
(1 курит, 0 не курит), dh5* wage — «взаимодействие»
пола с зарплатой (для женщин значение
— 0, для мужчин — совпадает с зарплатой).

LOGISTIC
REGRESSION VAR=alcohol /METHOD=ENTER wage manag dh5 smoke dh5*wage
/CONTRAST (dh5)=Indicator /CONTRAST (manag)=Indicator /CONTRAST
(smoke)=Indicator /PRINT=CI(95) /CRITERIA PIN(.05) POUT(.10)
ITERATE(20) CUT(.69) .

Original
Internal

Value
Value

.00 0

1.00 1

Следует обратить внимание, что зависимая
переменная здесь должна быть дихотомической,
и ее максимальный код считается кодом
события, вероятность которого
прогнозируется. Например, если Вы
закодировали переменную ALCOHOL 1-употреблял,
2-не употреблял, то будет прогнозироваться
вероятность не употребления алкоголя.

Далее идут сведения о кодировании
индексных переменных для категориальных
переменных; из-за их естественности мы
их здесь не приводим.

INT_1
DH5(1) by WAGE

Основная
информация содержится в таблице
коэффициентов регрессии (рисунок 6.4).
Преждевсего, следует обратить
внимание на значимость коэффициентов.
Наблюдаемая значимость вычисляется на
основе статистики Вальда. Эта статистика
связана с методом максимального
правдоподобия и может быть использована
при оценках разнообразных параметров.

Универсальность статистики Вальда
позволяет оценить значимость не только
отдельных переменных, но и в целом
значимость категориальных переменных,
несмотря на то, что они дезагрегированы
на индексные переменные. Статистика
Вальда имеет распределение хи-квадрат.
Число степеней свободы, равно единице,
если проверяется гипотеза о равенстве
нулю коэффициента при обычной или
индексной переменной и, для категориальной
переменной, равно числу значений без
единицы (числу соответствующих индексных
переменных).

Внашей таблице коэффициентов почти все
переменные значимы на уровне значимости
5%. Закрыв глаза на возможное взаимодействие
между независимыми переменными
(коллинеарность), можно считать, что
вероятность употребления алкоголя
повышена при высокой зарплате, а также,
у руководителей различного ранга. Из-за
незначимости статистики Вальда нет,
правда, полной уверенности относительно
повышенной вероятности для начальников,
имеющих более 10 подчиненных. Курение и
принадлежность к мужскому полу также
повышают эту вероятность, однако,
взаимодействие «мужчина-зарплата»
имеет обратное действие.

В этой же таблице присутствует аналог
коэффициента корреляции (R), также
построенный на основе статистики Вальда.
Для обычных и индексных переменных
положительные значения коэффициента
свидетельствуют о положительной связи
переменной с вероятностью события,
отрицательные — об отрицательной связи.

https://www.youtube.com/watch?v=ytpressru

Кроме того, мы выдали таблицу экспонент
коэффициентов eB
и их доверительные границы
(см. рисунок 6.5). Эта таблица выдана
подкомандой /PRINT=CI(95) в команде задания
логистической регрессии.

Согласно модели и полученным значениям
коэффициентов, при фиксированных прочих
переменных, принадлежность к мужскому
полу увеличивает отношение шансов
«пития» и «не пития» в 2.4 раза
(точнее в 1.84-3.15 раза), курения — в 1.9 раза
(1.54 — 2.35), а прибавка к зарплате 100 рублей
— на 4.4% (2.8%-6%), правда такая прибавка
мужчине одновременно уменьшает это
отношение на 3.8% (5.7%-1.9%). Быть мелким
начальником — значит увеличить отношение
шансов в 1.43 (1.06 — 1.9) раза, чем в среднем,
а средним начальником — в 1.7 (1.07-2.67) раза.

Adblock
detector