Мультиколлинеарность и micronumerosity
Мультиколлинеарность и micronumerosity
I. Побуждение
Рассмотрите следующие два допущения классической модели линейной регрессии:
(i.) В каждой независимой переменной в уравнении регрессии модели должна быть некоторая вариация , и никакая независимая переменная (ые) в уравнении регрессии не может быть совершенной линейной комбинацией любой другой независимой переменной (ых) в уравнении регрессии.
(ii.) Модель регрессии должна иметь положительное число степеней свободы, то есть число наблюдений (N), использованных в регрессии, должено быть больше, чем число параметров (K), которые должны оцениваться: N> K.
Нарушение допущения (i) ведет к мультиколлинеарности; нарушение допущения (ii.) ведет к micronumerosity.
II. Мультиколлинеарность
A. Определения
1. Примерная мультиколлинеарность = одна независимая переменная в уравнении регрессии (или некоторая группа независимых переменных в уравнении регрессии) является очень приблизительно точной линейной комбинация некоторой другой независимой переменной в уравнении регрессии (или группы независимых переменных в уравнении регрессии).
Наиболее общий в данных рядов
2. Точная мультиколлинеарность = одна независимая переменная в уравнении регрессии (или некоторая группа независимых переменных в уравнении регрессии) являетя точнй линейной комбинацией некоторой другой независимой переменной в уравнении регрессии (или группы независимых переменных в уравнении регрессии).
Не практический в "реальных" мировых данных
B. Причины мультиколлинеарности
1. Точная мультиколлинеарность
a. Использование той же самой переменной дважды в регрессии (или использование двух переменных, которые измеряют одну и ту же вещь в регрессии).
( Количество раз посещения врача) = f (состояние здоровья, страхование, расстояние к rood)
не существует
b. Использование обоих независимых переменных в уравнении регрессии, которые не имеют ни вариации, ни отрезка, отсекаемого на координатной оси в модели регрессии.
Теоретический пример:
и для всего I.
(Не может определить отдельно от )
Пусть отрезок, отсекаемый на координатной оси , тогда:
Определитель = 0
— инверсия не существует
Используемый пример: пример "Цены на дома" ,
i=1,2,3, ..., 8;
Yi = цена i-ого дома ($ 1,000);
X1i = константа = 1;
X2i = количество спален в i-том доме. Набор данных
В.К. = Ванная комната
Тогда это:
Эта матрица единственная, обычные наименьшие квадраты не существует.
2. Примерная мультиколлинеарность: Использование двух (или более) независимых переменных в уравнении регрессии, которые очень тесно связаны.
Национальный доход высоко коллинеарен с YDP.
3. Пути обнаружения мультиколлинеарности
1. "Классические" знаки мультиколлинеарности представляют собой комбинацию: относительно высоко возведенного в квадрат значения R, существенного общего F статистического параметра и незначащей t-статистики (с возможно неправильными знаками).
"Высокое" R2 Модель проделывает хорошую работу по объяснению F
Значительное F — “ — “ — “ — “ — “ — “ —
Настаивайте, если t Stats — по отдельности независимые переменные в уравнении регрессии не проделывают хорошей работы, объясняющей Y.
2. Оцененные коэффициенты регрессии и их стандартные ошибки чувствителены к модельной спецификации.
Таблица
Гипотетические данные на Y,
X2 и X3
Y |
X2 |
X3 |
1 |
2 |
4 |
2 |
0 |
2 |
3 |
4 |
12 |
4 |
6 |
0 |
5 |
8 |
16 |
отсюда.
R2 = 0.8101 r23 = 0.5523
cov Определитель (df) = 2
значительно отличающийся, чем здесь.
Таблица
Гипотетические данные на Y,
X2 и X3
Y |
X2 |
X3 |
1 |
2 |
4 |
2 |
0 |
2 |
3 |
4 |
0 |
4 |
6 |
12 |
5 |
8 |
16 |
(Меняем порядок)
R2 = 0.8143 r23 = 0.8285
cov Определитель(df ) = 2
3. Частичные коэффициенты корреляции (между независимыми переменными в уравнении регрессии) относительно близки к +1 или -1.
Коэффициенты корреляции человека
rx,y = корреляция между X и Y
Просто регрессия: r2 = r2x,y
rxp, xq = корреляция между xp = xa
Где p,q = 1,2,3, . . . ,k
Корреляционная матрица:
Практический пример: регрессия начала строительства
log(HousDtart)log(Pop)log(GNP)log(Unempl)
log(Int. Коэффициент)
pop (X2) и ВНП (X3) являются высоко коррелироваными
Int. Коэффициент (X5) и ВНП (X3) являются высоко коррелироваными
R2 = .60 rX2,X5 = .71
Похожие материалы |
Нахождение стоимости основных и оборотных средств
Анализ Высшего учебного заведения методом SWOT
Оценка эффективности инвестиций - находим NPV, IRR, окупаемость