Корреляционная зависимость

Введем обозначения: будем обозначать через X независимую переменную, а через Y - зависимую переменную.

Определение 32. Зависимость величины Y от X называется функциональной, если каждому значению величины X соответствует единственное значение величины Y. 

Когда какая-то переменная величина принимает вполне определенные значения, то она называется детерминированной. Важно, что если X - детерминированная переменная, то и зависящая от нее Y тоже является детерминированной. В тех случаях, когда X является случайной величиной, Y также случайная величина,
и такая зависимость называется стохастической. Вместо функциональной зависимости в окружающем мире более часто имеет место стохастическая зависимость.

Определение 33. Стохастическая, или вероятностная, зависимость появляется когда каждому фиксированному значению независимой переменной X соответствует не одно, а множество значений переменной Y , причем сказать заранее, какое именно значение примет величина Y, нельзя.

Более частое появление такой зависимости объясняется действием на результирующую переменную Y не только контролируемого или контролируемых факторов (в данном случае таким контролируемым фактором является переменная X ), а и многочисленных неконтролируемых случайных факторов. В этой ситуации переменная Y является случайной величиной. Переменная же X может быть как детерминированной, так и случайной величиной.

Определение 34. Стохастическая зависимость называется корреляционной связью если при изменении одной из величин изменяется среднее значение другой.

Другими словами корреляционная связь имеет место, если обнаруживается согласованное изменении признаков двух величин. X и Y, например, признаком может быть математическое ожидание.

Приведем пример такой зависимости: пусть Y – урожай зерна, X – количество удобрений. С одинаковых по площади участков при равном количестве внесенных удобрений снимают разный урожай. Таким образом, нельзя сказать, что Y является функцией от X. Это объясняется влиянием случайных факторов: осадки, температура и т.п. Но опыт показывает, что средний урожай является функцией от количества удобрений, Y связан с X корреляционной зависимостью: изменяя количество вносимых удобрений, изменяем и средний урожай, т.е. математическое ожидание величины Y изменяется при изменении значения X. Такое математическое ожидание называется условным, обозначается M(Y|X=x) и читается: математическое ожидание случайной величины Y при условии, что X=x. 
Аналогично можно ввести понятие условного математического ожидания для случайной величины X , имеющей корреляционную зависимость отY. 

g(x)=M(Y|X=x) и f(y)=M(X|Y=y) называют функциями регрессии, а линию на плоскости, соответствующую этим уравнениям называют линией регрессии, соответственно Y на X, или X на Y. Эта линия показывает, как в среднем зависит Y от X, или X от Y. 

Корреляционные связи различаются по форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи. При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака – низкие значения другого. При отрицательной корреляции соотношения обратные.

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной связи, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого, но находится ли причина изменений в одном из признаков или она оказывается за пределами исследуемой пары признаков, нам неизвестно. Наличие корреляции двух переменных отнюдь не означает, что между ними существует причинная связь. Несмотря на то, что сосуществование (корреляцию) событий можно использовать для выявления причинных связей наряду с другими методологическими подходами, монопольное применение корреляции к анализу причинности может вводить в заблуждение.

Коэффициент корреляции.

Для характеристики корреляционной зависимости между случайными величинами вводят понятие коэффициента корреляции.
Известно, что если X и Y являются независимыми случайными величинами, то
M(XY)=M(X)M(Y). 

Если же X и Y зависимые, то M(XY)M(X)M(Y). .

Определение 35. Коэффициентом корреляции называют меру зависимости X и Y. 

Это безразмерная величина для которой принято обозначение r, определяемая соотношением r=M(XY)M(X)M(Y)σ(X)σ(Y). 
Коэффициент корреляции r может варьировать в пределах от +1 до –1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной – минус 1. На графике этому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных. В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю.
Ассоциативная связь

Ассоциативная связь

Случайные величины X и Y называются некоррелированными, если r=0, и коррелированными, если r=1. 

Классификация степени корреляционных связей:
1) сильная, или тесная при коэффициенте корреляции r>0.70; 
2) средняя при 0.50<r<0.69; 
3) умеренная при 0.30<r<0.49; 
4) слабая при 0.20<r<0.29; 
5) очень слабая при r<0.19. 

Пример 41. Независимые случайные величины X и Y некоррелированные, т.к. (числитель равен нулю).

Пример 42. Пусть между X и Y линейная зависимость, т.е. Y=aX+b. 
Подставляя вместо Y его выражение через X и пользуясь свойствами математического ожидания, получим r=1. 

Свойства коэффициента корреляции
1r1. При этом, если |r|=1, то между X и Y имеется функциональная, а именно линейная зависимость;
r характеризует относительную величину отклонения M(XY) от M(X)M(Y), и т.к. отклонение имеет место только для зависимых величин, то r характеризует тесноту зависимости.


Линейная корреляция.

Определение 36. Корреляционная зависимость между случайными величинами X и Y называется линейной корреляцией, если обе функции регрессии f(y) и g(x) являются линейными.

В этом случае линии регрессии - прямые и называются прямыми регрессии. В психологических исследованиях чаще всего применяется коэффициент линейной корреляции r – Пирсона и методы ранговой корреляции Спирмена и Кендала.

Коэффициент корреляции Пирсона

Метод Пирсона является параметрическим и поэтому не лишен недостатков, свойственных параметрическим методам (необходимо, чтобы данные были измерены в интервальных шкалах или распределение не отличалось от нормального). Существует несколько вариантов формул для расчетов коэффициента корреляции, у разных авторов она выглядит по-разному. В общем виде формула для подсчета такова

rxy=n(xix¯)(yiy¯)n(xix¯)2n(yiy¯)2. 

где xi - значения принимаемые переменной X ,
где yi - значения принимаемые переменной Y ,
x¯ и y¯ - средние по X и Y соответственно.

Формула не очень удобная, поэтому для расчетов используют ее аналоги. Их получают из исходной формулы простыми преобразованиями

Ассоциативная связь

Если перейти к стандартизованным выборкам, то формула для коэффициента корреляции приобретает наиболее простой вид. Для этого каждый показатель xi преобразуем по формуле xi=xix¯Sx. 
Аналогично преобразуем каждое из yi. Если теперь подсчитать оценки среднего и средне-квадратического отклонения для стандартизованных переменных, то в силу алгебраических тождеств окажется x¯=y¯=0,Sx=Sy=1. 
Если существовала связь между исходными переменными, то она будет иметь место и для стандартизованных переменных. Опустим в наших переменных штрихи и будем считать, что xi и yi стандартизованы.

Теперь формула для коэффициента корреляции принимает наиболее простой вид
.rxy=1n(x1y1+...+xnyn). 

Порядок расчета коэффициента корреляции Пирсона приведен в приложении

Порядок расчета коэффициента корреляции Пирсона

Коэффициент корреляции Спирмена

Если предположение о нормальности случайных величин X и Y, в результате испытания которых были получены парные выборки x1,x2,...,xn и y1,y2,...,yn не соответствует действительности, то для проверки гипотез о связи необходимо применять непараметрические методы. Наиболее часто употребляемый – коэффициент корреляции Спирмена. Для его расчета запишем наблюдения x1,...,xn в порядке возрастания, то есть составим из них вариационный ряд. А затем поставим в соответствие измерению xi его номер Ri(x) (ранг) в этом ряду .
Если число xi встречается в вариационном ряду два или более раз, то его рангом называется среднее арифметическое значение порядковых номеров членов вариационного ряда, которые совпадают с xi. 

Очевидно, что при таком определении Ri(x) сумма всех рангов должна удовлетворять условию 1+2+...+n=n(n+1)2. 

Следующим шагом определяем ранги Ri(y) для наблюдений y1,...,yn. 

Важное замечание. При вычислении рангов выборочного ряда X (или Y ) их элементы (измерения) выборки были переставлены в порядке возрастания. После составления ряда из рангов для каждой из измеряемых переменных необходимо привести в соответствие столбцы окончательной таблицы по номерам испытуемых: в строке для каждого испытуемого должны стоять ранги, соответствующие каждому из его измерений X и Y.

Для подсчета ранговой корреляции мы получили два ряда значений, которые были проранжированы. Такими рядами значений могут быть, например, два признака, измеренные в одной и той же группе испытуемых. Если два признака связаны положительно, то испытуемые, имеющие низкие ранги по одному из них, будут иметь низкие ранги и по другому, а испытуемые, имеющие высокие ранги по одному из признаков, будут иметь по другому признаку также высокие ранги. Для подсчета необходимо определить разности Ri(x)Ri(y) между рангами, полученными данным испытуемым по обоим признакам. Затем эти показатели определенным образом преобразуются и вычитаются из единицы. Чем меньше разности между рангами, тем больше будет коэффициент корреляции, тем ближе он будет к +1.
Если корреляция отсутствует, то все ранги будут перемешаны и между ними не будет никакого соответствия. Формула составлена так, что в этом случае коэффициент корреляции окажется близким к 0.
В случае отрицательной корреляции низким рангам испытуемых по одному признаку будут соответствовать высокие ранги по другому признаку, и наоборот. Чем больше несовпадение между рангами испытуемых по двум переменным, тем ближе коэффициент корреляции к -1.
Введем вычисляемую по n парам (xi,yi) статистику, которую называют коэффициентом ранговой корреляции Спирмена

rs=16Sn3n, где S=i(Ri(x)Ri(y))2. 

Можно показать, что при любых значения пар Ri(x),Ri(y) число rs принимает значения 1rs1. 

Порядок расчета коэффициента корреляции Спирмена приведен в приложении

Порядок расчета коэффициента корреляции Спирмена