Решения задач – Множественная регрессия
Задача по статистике с решением – Множественная регрессия. Корреляционный анализ.
Имеются следующие показатели по десяти предприятиям некоторой отрасли (на 31.12.2013):
Номер предпри- ятия |
Стоимость промышленно- производственных основных фондов, тыс. руб. |
Валовая продукция в оптовых ценах предприятия, тыс. руб. |
Среднесписочная численность промышленно– производственного персонала, чел. |
Среднесписочная численность рабочих, чел. |
1 |
4999 |
5349 |
420 |
331 |
2 |
6929 |
6882 |
553 |
486 |
3 |
6902 |
7046 |
570 |
498 |
4 |
10097 |
7248 |
883 |
789 |
5 |
8097 |
5256 |
433 |
359 |
6 |
11116 |
14090 |
839 |
724 |
7 |
4880 |
3525 |
933 |
821 |
8 |
7355 |
5431 |
526 |
428 |
9 |
10066 |
7680 |
676 |
607 |
10 |
7884 |
8226 |
684 |
619 |
Приняв стоимость основных промышленно – производственных основных фондов за результативный признак, а остальные показатели – за факторные признаки, необходимо:
а) исключив один из факторных признаков, перейти к двухфакторной регрессии;
б) вычислить множественный коэффициент корреляции и сделать выводы о форме и силе корреляционной зависимости;
в) с помощью F – критерия Фишера с вероятностью 0,95 оценить статистическую значимость эмпирических данных;
г) вычислить значение общего индекса детерминации;
д) двумя способами получить уравнение линейной модели множественной регрессии;
е) по величине средней ошибки аппроксимации оценить точность линейной модели;
ж) подсчитать дельта – коэффициенты;
з) найти значения коэффициентов эластичности;
и) исключить из модели один из факторных признаков и перейти к модели с парной регрессией.
Решение задачи на множественную регрессию и корреляционный анализ. Вначале, запишем эмпирические данные (объем выборки n=10) в виде таблицы:
|
Y |
|
|
|
1 |
4999 |
5349 |
420 |
331 |
2 |
6929 |
6882 |
553 |
486 |
3 |
6902 |
7046 |
570 |
498 |
4 |
10097 |
7248 |
883 |
789 |
5 |
8097 |
5256 |
433 |
359 |
6 |
11116 |
14090 |
839 |
724 |
7 |
4880 |
3525 |
933 |
821 |
8 |
7355 |
5431 |
526 |
428 |
9 |
10066 |
7680 |
676 |
607 |
10 |
7884 |
8226 |
684 |
619 |
Все необходимые расчеты осуществлены в таблицах 2-3.
Таблица 2
|
у |
|
|
|
|
|
|
|
1 |
4999 |
24990001 |
5349 |
28611801 |
26739651 |
420 |
176400 |
2099580 |
2 |
6929 |
48011041 |
6882 |
47361924 |
47685378 |
553 |
305809 |
3831737 |
3 |
6902 |
47637604 |
7046 |
49646116 |
48631492 |
570 |
324900 |
3934140 |
4 |
10097 |
101949409 |
7248 |
52533504 |
73183056 |
883 |
779689 |
8915651 |
5 |
8097 |
65561409 |
5256 |
27625536 |
42557832 |
433 |
187489 |
3506001 |
6 |
11116 |
123565456 |
14090 |
198528100 |
156624440 |
839 |
703921 |
9326324 |
7 |
4880 |
23814400 |
3525 |
12425625 |
17202000 |
933 |
870489 |
4553040 |
8 |
7355 |
54096025 |
5431 |
29495761 |
39945005 |
526 |
276676 |
3868730 |
9 |
10066 |
101324356 |
7680 |
58982400 |
77306880 |
676 |
456976 |
6804616 |
10 |
7884 |
62157456 |
8226 |
67667076 |
64853784 |
684 |
467856 |
5392656 |
|
78325 |
653107157 |
70733 |
572877843 |
594729518 |
6517 |
4550205 |
52232475 |
Таблица 3
|
|
|
|
|
|
|
1 |
331 |
109561 |
1654669 |
2246580 |
1770519 |
139020 |
2 |
486 |
236196 |
3367494 |
3805746 |
3344652 |
268758 |
3 |
498 |
248004 |
3437196 |
4016220 |
3508908 |
283860 |
4 |
789 |
622521 |
7966533 |
6399984 |
5718672 |
696687 |
5 |
359 |
128881 |
2906823 |
2275848 |
1886904 |
155447 |
6 |
724 |
524176 |
8047984 |
11821510 |
10201160 |
607436 |
7 |
821 |
674041 |
4006480 |
3288825 |
2894025 |
765993 |
8 |
428 |
183184 |
3147940 |
2856706 |
2324468 |
225128 |
9 |
607 |
368449 |
6110062 |
5191680 |
4661760 |
410332 |
10 |
619 |
383161 |
4880196 |
5626584 |
5091894 |
423396 |
|
5662 |
3478174 |
45525377 |
47529683 |
41402962 |
3976057 |
Рассчитаем средние значения, дисперсии (по формуле разностей) и среднеквадратические отклонения каждого из признаков.
Y: , ,
, .
: : ,
,
:
, ,
: , .
Теперь найдем средние значения произведений признаков:
;
;
;
;
;
;
Вычисляем межфакторные и парные коэффициенты линейной корреляции:
,
;
,
;
,
;
,
;
,
;
,
.
Займемся отбором факторных признаков в модель.
Сначала с вероятностью 0,95 оценим статистическую значимость каждого из имеющихся факторных признаков. Согласно таблице 3 приложения критическое значение критерия Стьюдента для уровня значимости
α = 1 - 0,95 = 0,05 и числа степеней свободы ν =10 – 2 = 8 равно
.
Вычислим наблюдаемые значения:
:
: ;
: .
Видим, что только для признака выполняется правило проверки гипотезы. Следовательно, он однозначно включается в модель.
Между признаками и нарушается принцип отсутствия автокорреляции, , связь между ними тесная. Поэтому, один из этих признаков подлежит исключению. Поскольку >, то признак исключается из рассмотрения, а признак - остается.
Множественный коэффициент корреляции равен:
Найденное значение указывает на высокую степень тесноты и линейности корреляционной зависимости.
С вероятностью 0,95 выдвинем гипотезу о статистической значимости эмпирических данных. Поскольку n = 10, k =2, то α=1- 0,95 = 0,05 , . Согласно таблице 4
.
Наблюдаемое значение равно:
.
Правило проверки гипотезы выполнено. Поэтому с вероятностью 0,95 гипотеза о статистической значимости эмпирических данных принимается, корреляционная модель может быть построена.
Общий индекс детерминации равен
.
Следовательно, факторные признаки, отобранные в модель, влияют на
результативный в пределах 59,43%. Это не очень сильное влияние. Согласно закону Парето степень влияния должна быть не меньше 80%.
Линейная модель, описывающая корреляционную зависимость, имеет следующий общий вид:
.
Используя данные таблиц, получаем систему нормальных уравнений:
;
Решая систему, получаем:
, , .
Итак, искомое уравнение регрессии имеет вид:
.
Найдем параметры уравнения регрессии упрощенным способом:
,
.
Найдем среднюю ошибку аппроксимации. Для этого, подставив значения факторных признаков, соответствующих данному значению y в модель, получаем теоретические значения y* . Вычисления производим в таблице:
у |
|
|
|
|
4999 |
5349 |
331 |
6672,0838 |
0,3347 |
6929 |
6882 |
486 |
7708,8693 |
0,1126 |
6902 |
7046 |
498 |
7824,4743 |
0,1337 |
10097 |
7248 |
789 |
8461,0588 |
0,1620 |
8097 |
5256 |
359 |
6644,8366 |
0,1793 |
11116 |
14090 |
724 |
12009,5096 |
0,0804 |
4880 |
3525 |
821 |
6574,3001 |
0,3472 |
7355 |
5431 |
428 |
6894,8649 |
0,0626 |
10066 |
7680 |
607 |
8339,5446 |
0,1715 |
7884 |
8226 |
619 |
8642,1934 |
0,0962 |
|
- |
- |
- |
1,6801 |
Итак, значение средней ошибки аппроксимации равно
,
что говорит о низкой точности модели.
Определим значения дельта – коэффициентов. Имеем:
или 91,54%,
или 8,46%.
Сумма дельта – коэффициентов равна 1, следовательно, есть все основания полагать, что вычисления произведены верно. Итак, признак влияет на признак Y в пределах 91,54%, а степень влияния признака равна 8,46%.
Найдем величины средних коэффициентов эластичности:
или 47,82%,
или 12,23%.
Таким образом, изменение признака на 1% влечет за собой изменение признака Y на 47,82%, а вследствие изменения признака , изменение признака Y составит 12,23%
Перейдем к модели с парной регрессией. Поскольку одновременно минимум дельта – коэффициента и среднего коэффициента эластичности соответствует признаку ,
,
,
то он исключается из модели. Итак, общий вид уравнения парной регрессии следующий:
.
Так как , то связь признается линейной и тесной. Уравнение прямой линии регрессии найдем упрощенным способом (смотрите пример): ;
;
;
.
Похожие материалы |
Нахождение стоимости основных и оборотных средств
Анализ Высшего учебного заведения методом SWOT
Оценка эффективности инвестиций - находим NPV, IRR, окупаемость