Введение в теорию корреляции
Корреляция (correlation) — это статистическая связь двух и более показателей.
Термин возник в трудах палеонтолога и анатома Ж. Кювье на стыке XVIII–XIX в. Под корреляцией он понимал соотношение частей организма животного между собой, взаимосвязи морфологического и функционального характера. В то время корреляция выступала как один из принципов сравнительной анатомии и не имела никакой четкой метрики.
Дальнейшее развитие теория корреляции получила в трудах ученых английской биометрической школы (вторая половина XIX в.) — Ф. Гальтона, К. Пирсона и др. Именно тогда, развивая теорию наследственности, биометрики стали использовать корреляцию как статистический инструмент.
В настоящий момент термин «корреляция» может рассматриваться в нескольких видах (рис. 7.1).
Рис. 7.1. Основные виды корреляционного анализа в статистике
Корреляционные связи классифицируются по количеству признаков и по форме.
По количеству признаков корреляция может быть:
- парной (между двумя признаками);
- множественной (между несколькими признаками).
Форма корреляционной связи может быть:
- линейной, описываемой линейной функцией — уравнением прямой;
- нелинейной (криволинейной), описываемой теми или иными нелинейными функциями (параболической, степеннóй и т.д.).
Графически корреляционная связь изображается на двумерной диаграмме рассеяния (рис. 7.2).
Рис. 7.2. Формы корреляционной связи (а — линейная; б — нелинейная)
Парная линейная корреляция по направлению может быть положительной («прямой») и отрицательной («обратной»). При положительной корреляции при возрастании одного признака в среднем увеличивается другой, в случае же отрицательной корреляции при возрастании одного признака другой в среднем уменьшается. Данная классификация отражена на рис. 7.3.
Рис. 7.3. Направления корреляционной связи (а — положительная; б — отрицательная)
В ходе интерпретации результатов корреляционного анализа необходимо понимать, что корреляция не гарантирует причинно-следственной связи между анализируемыми показателями. Даже если соответствующие индикаторы показывают высокую корреляцию, нельзя априори утверждать, что имеет место причинная связь между какими-либо переменными: источником этой корреляции может оказаться совершенно отличная от них переменная, которая осталась в стороне от гипотезы исследования. Корреляционная связь подразумевает наличие связи, но необязательно означает, что изменение значений одной переменной приведет к изменению значений другой.
Корреляция является важным инструментом статистического анализа, однако, чтобы делать выводы о причинно-следственной связи между переменными, необходимы дополнительные исследования.