Введение в теорию регрессии
Регрессионный анализ (Regression analysis) — это статистический метод, направленный на выявление и математическое выражение связи случайных величин X и Y, между которыми существует корреляционная зависимость.
Корреляционной называется статистическая зависимость, при которой каждому значению одной величины соответствует определенное среднее значение другой величины. Такой вид статистической зависимости встречается в эмпирических исследованиях наиболее часто.
Основное понятие регрессионного анализа — это понятие регрессии.
Регрессия (regression) — это функция, позволяющая по значению одной переменной величины определить средние значения другой величины, связанной с первой корреляционно.
Функция регрессии отражает тенденцию изменения одной величины под действием другой и строится таким образом, чтобы эмпирические точки корреляционного поля лежали как можно ближе к ней (рис. 8.1).
Рис. 8.1. Корреляционное поле и функция регрессии
Изначально термин «регрессия» был введен во второй половине XIX в. Ф. Гальтоном в ходе изучения наследственности. Феномен заключался в том, что рост потомков высоких предков в среднем стремится вниз к нормальному среднему значению («регрессирует к среднему»), и точно так же стремится к средним значениям рост детей низких родителей.
Регрессионный анализ выступает логичным продолжением корреляционного анализа. Их совместное применение носит название «корреляционно-регрессионный анализ». Особенности каждого вида анализа приведены в табл. 8.1.
Таблица 8.1. Отличия корреляционного и регрессионного анализа
Отличия | Корреляционный анализ | Регрессионный анализ |
Сущность | Измерение тесноты и направления связи переменных | Моделирование связи переменных, определение функции регрессии Y и X |
Переменные | Равнозначны, не делятся на зависимые и независимые | Неравнозначны, делятся на зависимые (Y) и независимые (X) |
Основной показатель | Коэффициент корреляции Пирсона | Коэффициент детерминации |
В математической форме корреляционную зависимость представляют в виде некоторого уравнения, называемого уравнением регрессии (регрессионной моделью).
Если рассматривают зависимость переменной Y только от одной независимой (факторной) переменной X, то регрессию называют парной. Если же факторов, от которых зависит Y, несколько, то говорят о множественной регрессии.
По форме связи регрессия может быть линйеной или нелинейной.
Линейная регрессия (Linear regression) — модель зависимости переменной X от одной или нескольких других переменных (факторов, регрессоров, независимых переменных) с линейной функцией зависимости. Нелинейная регрессия (Non-linear regression) использует различные нелинейные функции для описания зависимости переменных.
Уравнение регрессии может быть использовано для прогноза значений зависимой переменной Y. Для этого заданное значение независимой переменной X подставляют в уравнение. Полученный прогноз называется точечным, и вероятность его реализации практически равна нулю. Поэтому рассчитывается средняя ошибка и оценивается ДИ прогнозных значений, который имеет достаточно большую надежность.