Goodstudents.ru

 

 

 

 

 

Задачи по статистике с решениями и выводами Решения задач – Множественная регрессия
Решения задач – Множественная регрессия

Решения задач – Множественная регрессия

Задача по статистике с решением – Множественная регрессия. Корреляционный анализ.

Имеются следующие показатели по десяти предприятиям некоторой отрасли (на 31.12.2013):

Номер предпри-

ятия

Стоимость промышленно-

производственных основных фондов,

тыс. руб.

Валовая продукция в оптовых ценах предприятия, тыс. руб.

Среднесписочная численность промышленно– производственного персонала, чел.

Среднесписочная численность рабочих, чел.

1

4999

5349

420

331

2

6929

6882

553

486

3

6902

7046

570

498

4

10097

7248

883

789

5

8097

5256

433

359

6

11116

14090

839

724

7

4880

3525

933

821

8

7355

5431

526

428

9

10066

7680

676

607

10

7884

8226

684

619

Приняв стоимость основных промышленно – производственных основных фондов за результативный признак, а остальные показатели – за факторные признаки, необходимо:

а) исключив один из факторных признаков, перейти к двухфакторной регрессии;

б) вычислить множественный коэффициент корреляции и сделать выводы о форме и силе корреляционной зависимости;

в) с помощью F – критерия Фишера с вероятностью 0,95 оценить статистическую значимость эмпирических данных;

г) вычислить значение общего индекса детерминации;

д) двумя способами получить уравнение линейной модели множественной регрессии;

е) по величине средней ошибки аппроксимации оценить точность линейной модели;

ж) подсчитать дельта – коэффициенты;

з) найти значения коэффициентов эластичности;

и) исключить из модели один из факторных признаков и перейти к модели с парной регрессией.

Решение задачи на множественную регрессию и корреляционный анализ. Вначале, запишем эмпирические данные (объем выборки n=10) в виде таблицы:

Y

1

4999

5349

420

331

2

6929

6882

553

486

3

6902

7046

570

498

4

10097

7248

883

789

5

8097

5256

433

359

6

11116

14090

839

724

7

4880

3525

933

821

8

7355

5431

526

428

9

10066

7680

676

607

10

7884

8226

684

619

Все необходимые расчеты осуществлены в таблицах 2-3.

Таблица 2

у

1

4999

24990001

5349

28611801

26739651

420

176400

2099580

2

6929

48011041

6882

47361924

47685378

553

305809

3831737

3

6902

47637604

7046

49646116

48631492

570

324900

3934140

4

10097

101949409

7248

52533504

73183056

883

779689

8915651

5

8097

65561409

5256

27625536

42557832

433

187489

3506001

6

11116

123565456

14090

198528100

156624440

839

703921

9326324

7

4880

23814400

3525

12425625

17202000

933

870489

4553040

8

7355

54096025

5431

29495761

39945005

526

276676

3868730

9

10066

101324356

7680

58982400

77306880

676

456976

6804616

10

7884

62157456

8226

67667076

64853784

684

467856

5392656

78325

653107157

70733

572877843

594729518

6517

4550205

52232475

 

Таблица 3

1

331

109561

1654669

2246580

1770519

139020

2

486

236196

3367494

3805746

3344652

268758

3

498

248004

3437196

4016220

3508908

283860

4

789

622521

7966533

6399984

5718672

696687

5

359

128881

2906823

2275848

1886904

155447

6

724

524176

8047984

11821510

10201160

607436

7

821

674041

4006480

3288825

2894025

765993

8

428

183184

3147940

2856706

2324468

225128

9

607

368449

6110062

5191680

4661760

410332

10

619

383161

4880196

5626584

5091894

423396

5662

3478174

45525377

47529683

41402962

3976057

 

Рассчитаем средние значения, дисперсии (по формуле разностей) и среднеквадратические отклонения каждого из признаков.

Y: , ,

, .

: ,

,

:

, ,

, .

 

Теперь найдем средние значения произведений признаков:

;

;

;

;

;


;

 

Вычисляем межфакторные и парные коэффициенты линейной корреляции:

,

;

,

;

,

;

,

;

,

;

,

.

 

Займемся отбором факторных признаков в модель.

Сначала с вероятностью 0,95 оценим статистическую значимость каждого из имеющихся факторных признаков. Согласно таблице 3 приложения критическое значение критерия Стьюдента для уровня значимости

α = 1 - 0,95 = 0,05 и числа степеней свободы ν =10 – 2 = 8 равно

.

 

Вычислим наблюдаемые значения:

: ;

: .

 

Видим, что только для признака выполняется правило проверки гипотезы. Следовательно, он однозначно включается в модель.

Между признаками и нарушается принцип отсутствия автокорреляции, , связь между ними тесная. Поэтому, один из этих признаков подлежит исключению. Поскольку >, то признак исключается из рассмотрения, а признак - остается.

Множественный коэффициент корреляции равен:


 

 

Найденное значение указывает на высокую степень тесноты и линейности корреляционной зависимости.

С вероятностью 0,95 выдвинем гипотезу о статистической значимости эмпирических данных. Поскольку n = 10, k =2, то α=1- 0,95 = 0,05 , . Согласно таблице 4

.

 

Наблюдаемое значение равно:

.

 

 

 

Правило проверки гипотезы выполнено. Поэтому с вероятностью 0,95 гипотеза о статистической значимости эмпирических данных принимается, корреляционная модель может быть построена.

Общий индекс детерминации равен

.

Следовательно, факторные признаки, отобранные в модель, влияют на

результативный в пределах 59,43%. Это не очень сильное влияние. Согласно закону Парето степень влияния должна быть не меньше 80%.


Линейная модель, описывающая корреляционную зависимость, имеет следующий общий вид:

.

Используя данные таблиц, получаем систему нормальных уравнений:

;

 

 

 

 

 

Решая систему, получаем:

, , .

Итак, искомое уравнение регрессии имеет вид:

.

 

Найдем параметры уравнения регрессии упрощенным способом:

,

.

 

Найдем среднюю ошибку аппроксимации. Для этого, подставив значения факторных признаков, соответствующих данному значению y в модель, получаем теоретические значения y* . Вычисления производим в таблице:

 

у



4999

5349

331

6672,0838

0,3347

6929

6882

486

7708,8693

0,1126

6902

7046

498

7824,4743

0,1337

10097

7248

789

8461,0588

0,1620

8097

5256

359

6644,8366

0,1793

11116

14090

724

12009,5096

0,0804

4880

3525

821

6574,3001

0,3472

7355

5431

428

6894,8649

0,0626

10066

7680

607

8339,5446

0,1715

7884

8226

619

8642,1934

0,0962

-

-

-

1,6801

 

Итак, значение средней ошибки аппроксимации равно

,

что говорит о низкой точности модели.

Определим значения дельта – коэффициентов. Имеем:

или 91,54%,

или 8,46%.

 

Сумма дельта – коэффициентов равна 1, следовательно, есть все основания полагать, что вычисления произведены верно. Итак, признак влияет на признак Y в пределах 91,54%, а степень влияния признака равна 8,46%.


Найдем величины средних коэффициентов эластичности:

или 47,82%,

или 12,23%.

 

Таким образом, изменение признака на 1% влечет за собой изменение признака Y на 47,82%, а вследствие изменения признака , изменение признака Y составит 12,23%

Перейдем к модели с парной регрессией. Поскольку одновременно минимум дельта – коэффициента и среднего коэффициента эластичности соответствует признаку ,

,

,

 

то он исключается из модели. Итак, общий вид уравнения парной регрессии следующий:

.

Так как , то связь признается линейной и тесной. Уравнение прямой линии регрессии найдем упрощенным способом (смотрите пример): ;

;

;

.




 






Goodstudents Goodstudents



Все права на материалы сайта принадлежат авторам. Копирование (полное или частичное) любых материалов сайта возможно только при указании ссылки на источник (администратор сайта).