Goodstudents.ru

 

 

 

 

 

Лекции по статистике Корреляционный анализ в статистике
Корреляционный анализ в статистике

Корреляционный анализ в статистике

Рассмотрим теоретические материалы по корреляционно-регрессионному анализу. Примеры задач по корреляционно-регрессионному анализу мы рассматривали здесь.

1. Эмпирические данные принято записывать в виде корреляционной таблицы (если группировочный признак представлен в виде интервала, то необходимо найти его середину):

 

Х

\

Y




 

В ней: x – значение признака X,   - его частота, y – значение признака Y, - его частота, n – объем выборки, а - частота пары (х;у) (если среди эмпирических данных пара отсутствует, то в соответствующей клетке корреляционной таблицы не ставим никакой цифры).

 

 

Изобразив на координатной плоскости эмпирические данные в виде точек с координатами , получаем корреляционное поле данных или коррелограмму.

2. Эмпирической линией регрессии у на х называется ломаная с вершинами в точках с координатами

.

Аналогично определяется эмпирическая линия регрессии у на х – ломаная с вершинами в точках с координатами

.

При этом и - групповые средние, которые определяются для каждого значения x признака X в первом случае и для каждого значения y признака Y во втором. Их расчетные формулы таковы:

, .

 

3. Коэффициент линейной корреляции r позволяет определить форму корреляционной зависимости. Он подсчитывается по формуле:

.

 

Средние квадратические отклонения группировочных признаков определяются как арифметические квадратные корни из дисперсий. Дисперсии рассчитываются по определению или по формуле разностей (см. задачу 4), а также методом моментов (см. задачу 5). Величина μ может быть найдена двумя способами: по определению

,

,

а средние арифметические и находятся по определению или методом моментов

.

 

В зависимости от r имеем следующую интерпретацию связи

 

Значение r

Интерпретация связи

Линейная функциональная

Линейная обратная

Нелинейная

Нелинейная

Линейная прямая

Отсутствует

 

4. Степень тесноты корреляционной связи устанавливается с помощью корреляционного отношения η, равного

,

 

При этом и - соответственно межгрупповое и общее средние квадратические отклонения, равные

,    ,

.


Характер связи определяется так:

 

Значение η

Характер связи

Отсутствует

Практически отсутствует

Слабая

Умеренная

Сильная

Функциональная

 

Для проверки правильности произведенных вычислений удобно использовать свойство корреляционного отношения:

.

5. Проверить гипотезу о статистической значимости эмпирических данных, а следовательно о принципиальной возможности построения уравнения регрессионной модели можно с помощью t - критерия Стьюдента.

Правило проверки гипотезы. Если наблюдаемое значение критерия больше критического,

,

То это с вероятностью γ (уровнем значимости α = 1- γ) говорит о значимости коэффициента линейной корреляции, а следовательно о статистической значимости эмпирических данных. При этом

,

 

а критическое значение определяется по таблице (см. таблицу 3 Приложения):

, α = 1- γ, ν = n – 2.

 

6. Нахождение параметров уравнений линий регрессии у на х и х на у производится путем решения соответствующих систем нормальных уравнений. Для линейного случая существует еще один, упрощенный способ. Вид уравнений линейной, параболической и показательной регрессий и способы расчета их параметров помещены в таблицу 10.

7. Точность построенной регрессионной модели определяется с помощью средней ошибки аппроксимации равной

,

 

при этом y и y* - соответственно эмпирическое и теоретическое (рассчитанное по модели) значение признака Y, соответствующее данному значению x признака X.

8. Степень влияния факторного признака X на результативный признак Y определяется с помощью индекса детерминации

.

 

9. Величины средней ошибки аппроксимации и индекса детерминации позволяют определить наиболее точную регрессионную модель. Ей считается та, у которой одновременно средняя ошибка аппроксимации стремится к минимуму, а индекс детерминации – к максимуму,

, .

10. Прогноз значения у происходит путем подстановки данного значения х в уравнение регрессии у на х. Аналогично, для прогноза значения х по заданному значению у, необходимо использовать уравнение регрессии х на у.

Прогноз значения y

 

у на х

Линейная

 

 

 


 

 


 

,

 


Параболическая

 

 

 

 

 

 

 

 

 

 


 

 


Показательная

 

 

 

Прогноз значения X

 

х на у

Линейная


 


,   


Параболическая

 


 

Показательная


 




 






Goodstudents Goodstudents



Все права на материалы сайта принадлежат авторам. Копирование (полное или частичное) любых материалов сайта возможно только при указании ссылки на источник (администратор сайта).