Корреляционный анализ в статистике
Рассмотрим теоретические материалы по корреляционно-регрессионному анализу. Примеры задач по корреляционно-регрессионному анализу мы рассматривали здесь.
1. Эмпирические данные принято записывать в виде корреляционной таблицы (если группировочный признак представлен в виде интервала, то необходимо найти его середину):
Х \ Y |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
В ней: x – значение признака X, - его частота, y – значение признака Y, - его частота, n – объем выборки, а - частота пары (х;у) (если среди эмпирических данных пара отсутствует, то в соответствующей клетке корреляционной таблицы не ставим никакой цифры).
Изобразив на координатной плоскости эмпирические данные в виде точек с координатами , получаем корреляционное поле данных или коррелограмму.
2. Эмпирической линией регрессии у на х называется ломаная с вершинами в точках с координатами
.
Аналогично определяется эмпирическая линия регрессии у на х – ломаная с вершинами в точках с координатами
.
При этом и - групповые средние, которые определяются для каждого значения x признака X в первом случае и для каждого значения y признака Y во втором. Их расчетные формулы таковы:
, .
3. Коэффициент линейной корреляции r позволяет определить форму корреляционной зависимости. Он подсчитывается по формуле:
.
Средние квадратические отклонения группировочных признаков определяются как арифметические квадратные корни из дисперсий. Дисперсии рассчитываются по определению или по формуле разностей (см. задачу 4), а также методом моментов (см. задачу 5). Величина μ может быть найдена двумя способами: по определению
,
,
а средние арифметические и находятся по определению или методом моментов
.
В зависимости от r имеем следующую интерпретацию связи
Значение r |
Интерпретация связи |
|
Линейная функциональная |
|
Линейная обратная |
|
Нелинейная |
|
Нелинейная |
|
Линейная прямая |
|
Отсутствует |
4. Степень тесноты корреляционной связи устанавливается с помощью корреляционного отношения η, равного
,
При этом и - соответственно межгрупповое и общее средние квадратические отклонения, равные
, ,
.
Характер связи определяется так:
Значение η |
Характер связи |
|
Отсутствует |
|
Практически отсутствует |
|
Слабая |
|
Умеренная |
|
Сильная |
|
Функциональная |
Для проверки правильности произведенных вычислений удобно использовать свойство корреляционного отношения:
.
5. Проверить гипотезу о статистической значимости эмпирических данных, а следовательно о принципиальной возможности построения уравнения регрессионной модели можно с помощью t - критерия Стьюдента.
Правило проверки гипотезы. Если наблюдаемое значение критерия больше критического,
,
То это с вероятностью γ (уровнем значимости α = 1- γ) говорит о значимости коэффициента линейной корреляции, а следовательно о статистической значимости эмпирических данных. При этом
,
а критическое значение определяется по таблице (см. таблицу 3 Приложения):
, α = 1- γ, ν = n – 2.
6. Нахождение параметров уравнений линий регрессии у на х и х на у производится путем решения соответствующих систем нормальных уравнений. Для линейного случая существует еще один, упрощенный способ. Вид уравнений линейной, параболической и показательной регрессий и способы расчета их параметров помещены в таблицу 10.
7. Точность построенной регрессионной модели определяется с помощью средней ошибки аппроксимации равной
,
при этом y и y* - соответственно эмпирическое и теоретическое (рассчитанное по модели) значение признака Y, соответствующее данному значению x признака X.
8. Степень влияния факторного признака X на результативный признак Y определяется с помощью индекса детерминации
.
9. Величины средней ошибки аппроксимации и индекса детерминации позволяют определить наиболее точную регрессионную модель. Ей считается та, у которой одновременно средняя ошибка аппроксимации стремится к минимуму, а индекс детерминации – к максимуму,
, .
10. Прогноз значения у происходит путем подстановки данного значения х в уравнение регрессии у на х. Аналогично, для прогноза значения х по заданному значению у, необходимо использовать уравнение регрессии х на у.
Прогноз значения y
|
у на х |
Линейная
|
|
|
|
,
|
|
Параболическая
|
|
|
|
Показательная |
|
|
Прогноз значения X
|
х на у |
Линейная |
|
|
|
, |
|
Параболическая |
|
|
|
Показательная |
|
|
Похожие материалы |
Нахождение стоимости основных и оборотных средств
Анализ Высшего учебного заведения методом SWOT
Оценка эффективности инвестиций - находим NPV, IRR, окупаемость