Корреляционный анализ таблица. Проверка адекватности уравнения регрессии

Основные понятия корреляционного анализа

Выделяют несколько видов связи между переменными:

Корреляционная зависимость предполагает взаимную согласован­ность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае гово­рят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают.

Функциональное воздействие предполагает, что изменения не­зависимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные свя­зи фиксируют влияние независимой переменной на зависимую); на­пример, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий поли­тический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает.

Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность челове­ка о политике напрямую связана с интересом к ней; чем больше чело­век политикой интересуется, тем больше в ней разбирается.

Связь может быть нелинейной и немонотонной.

Каким бы в итоге ни оказался тип связи между переменными, не­обходимо убедиться в ее наличии в принципе. Корреляционный ана­лиз применяется для выяснения взаимодействия и тенденций измене­ния характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корре­ляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно кбрреляционный анализ используется для проверки ги­потезы о статистической зависимости двух или нескольких перемен­ных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ. Корреляционный анализ осуществляется с помощью сравнения и со­поставления рядов распределения, построенных на основании группи­ровок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответ­ствует определенное значение У (или комплекс значений К-ряда рас­пределения). Корреляционный анализ выясняет функциональную за­висимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне опреде- тенпое значение другой. Однако корреляционный анализ не предпо­лагает выявления каузальных связей, поэтому при интерпретации ре- 1ультатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы.

Различают парную и множественную корреляции. Парная корреля­ция характеризует тип, форму и плотность связи между двумя призна­ками, множественная - между несколькими.

Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, дей­ствующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Ко­эффициенты (в статистике их общее количество исчисляется десят­ками) показывают степень взаимосвязи явлений (плотность корреля­ционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность ). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная » (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная » связь. Помимо оценки плотности и направленности связи необходимо учитывать на­дежность (достоверность ) связи.

Корреляционный анализ последовательно решает три практиче­ские задачи:

    определение корреляционного поля и составление корреляци­онной (в данном случае это комбинированная) таблицы;

    вычисление выборочных корреляционных отношений или ко­эффициентов корреляции;

    проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, явля­ется ли данная связь между ними причинно-следственной или сопут­ствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представле­ний о структуре, динамике изучаемых социальных объектов, корре­ляций между изучаемыми признаками, использовать иные способы статистического анализа (регрессионный, факторный, дискриминант­ный, путевой и т.д.). Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).

Для установления корреляционной связи между двумя призна­ками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием ста­тистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Корреляционному анализу предшествует стадия расчета стати­стики х 2 - Но на основании полученного значения статистики х 2 мы ни­чего не можем сказать о плотности связи анализируемых переменных. Цля решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Традиционным для выполнения корреляционного анализа являет­ся обращение к коэффициенту корреляции Пирсона (Pearson) Р (в ли­тературе он обозначается и через г).

Если при описании политического объекта определяется лишь на­личие или отсутствие признака или если изучается связь между аль­тернативными признаками, то корреляционные таблицы (таблицы сопряженного признака) - 4-клеточные. В этом случае применяются коэффициент Юла(О) и коэффициент контингенции (ф). Они основаны на принципе совместного появления событий (значений признаков у объекта исследования) и пригодны для анализа любых признаков (ме­трических, порядковых и даже номинальных).

В случае если номинальные шкалы имеют большее число значений, чем два, то для определения зависимости между признаками пользуют­ся коэффициентами сопряженности Пирсона (Р ), Чупрова (7) и Кра­мера (К). При этом определенное значение имеет размерность таблицы с на к, в которой отображены значения двух признаков. Коэффициенты Чупрова и Крамера считаются более «строгими», чем коэффициент со­пряженности Пирсона. Но поскольку вычисления в них строятся с уче­том статистики х 2 , то все связанные с ней ограничения распространя­ются и на эти коэффициенты.

Множественный коэффициент корреляции (IV), который иногда называют коэффициентом конкордации, применяется для оценки со­гласованности двух или нескольких рядов ранжированных значений переменных.

Вариантов расчета коэффи­циентов корреляции между признаками в статистическом пакете SPSS два.

Применение статистических методов при обработке материалов психологических исследований дает большую возможность извлечь из экспериментальных данных полезную информацию. Одним из самых распространенных методов статистики является корреляционный анализ.

Термин «корреляция» впервые применил французский палеонтолог Ж. Кювье, который вывел «закон корреляции частей и органов животных» (этот закон позволяет восстанавливать по найденным частям тела облик всего животного). В статистику указанный термин ввел английский биолог и статистик Ф. Гальтон (не просто «связь» – relation , а «как бы связь» – corelation ).

Корреляционный анализ – это проверка гипотез о связях между переменными с использованием коэффициентов корреляции, двумерной описательной статистики, количественной меры взаимосвязи (совместной изменчивости) двух переменных. Таким образом, это совокупность методов обнаружения корреляционной зависимости между случайными величинами или признаками.

Корреляционный анализ для двух случайных величин заключает в себе:

  • построение корреляционного поля и составление корреляционной таблицы;
  • вычисление выборочных коэффициентов корреляции и корреляционных отношений;
  • проверку статистической гипотезы значимости связи.

Основное назначение корреляционного анализа – выявление связи между двумя или более изучаемыми переменными, которая рассматривается как совместное согласованное изменение двух исследуемых характеристик. Данная изменчивость обладает тремя основными характериcтиками: формой, направлением и силой.

По форме корреляционная связь может быть линейной или нелинейной. Более удобной для выявления и интерпретации корреляционной связи является линейная форма. Для линейной корреляционной связи можно выделить два основных направления: положительное («прямая связь») и отрицательное («обратная связь»).

Сила связи напрямую указывает, насколько ярко проявляется совместная изменчивость изучаемых переменных. В психологии функциональная взаимосвязь явлений эмпирически может быть выявлена только как вероятностная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания – график, оси которого соответствуют значениям двух переменных, а каждый испытуемый представляет собой точку.

В качестве числовой характеристики вероятностной связи используют коэффициенты корреляции, значения которых изменяются в диапазоне от –1 до +1. После проведения расчетов исследователь, как правило, отбирает только наиболее сильные корреляции, которые в дальнейшем интерпретируются (табл. 1).

Критерием для отбора «достаточно сильных» корреляций может быть как абсолютное значение самого коэффициента корреляции (от 0,7 до 1), так и относительная величина этого коэффициента, определяемая по уровню статистической значимости (от 0,01 до 0,1), зависящему от размера выборки. В малых выборках для дальнейшей интерпретации корректнее отбирать сильные корреляции на основании уровня статистической значимости. Для исследований, которые проведены на больших выборках, лучше использовать абсолютные значения коэффициентов корреляции.

Таким образом, задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

В настоящее время разработано множество различных коэффициентов корреляции. Наиболее применяемыми являются r -Пирсона, r -Спирмена и τ -Кендалла. Современные компьютерные статистические программы в меню «Корреляции» предлагают именно эти три коэффициента, а для решения других исследовательских задач предлагаются методы сравнения групп.

Выбор метода вычисления коэффициента корреляции зависит от типа шкалы, к которой относятся переменные (табл. 2).

Для переменных с интервальной и с номинальной шкалой используется коэффициент корреляции Пирсона (корреляция моментов произведений). Если, по меньшей мере, одна из двух переменных имеет порядковую шкалу или не является нормально распределенной, используется ранговая корреляция по Спирмену или

t-Кендалла. Если же одна из двух переменных является дихотомической, можно использовать точечную двухрядную корреляцию (в статистической компьютерной программе SPSS эта возможность отсутствует, вместо нее может быть применен расчет ранговой корреляции). В том случае если обе переменные являются дихотомическими, используется четырехполевая корреляция (данный вид корреляции рассчитываются SPSS на основании определения мер расстояния и мер сходства). Расчет коэффициента корреляции между двумя недихотомическими переменными возможен только тогда, кода связь между ними линейна (однонаправлена). Если связь, к примеру, U -образная (неоднозначная), коэффициент корреляции не пригоден для использования в качестве меры силы связи: его значение стремится к нулю.

Таким образом, условия применения коэффициентов корреляции будут следующими:

  • переменные, измеренные в количественной (ранговой, метрической) шкале на одной и той же выборке объектов;
  • связь между переменными является монотонной.

Основная статистическая гипотеза, которая проверяется корреляционным анализом, является ненаправленной и содержит утверждение о равенстве корреляции нулю в генеральной совокупности H 0: r xy = 0. При ее отклонении принимается альтернативная гипотеза H 1: r xy ≠ 0 о наличии положительной или отрицательной корреляции – в зависимости от знака вычисленного коэффициента корреляции.

На основании принятия или отклонения гипотез делаются содержательные выводы. Если по результатам статистической проверки H 0: r xy = 0 не отклоняется на уровне a, то содержательный вывод будет следующим: связь между X и Y не обнаружена. Если же при H 0 r xy = 0 отклоняется на уровне a, значит, обнаружена положительная (отрицательная) связь между X и Y . Однако к интерпретации выявленных корреляционных связей следует подходить осторожно. С научной точки зрения, простое установление связи между двумя переменными не означает существования причинно-следственных отношений. Более того, наличие корреляции не устанавливает отношения последовательности между причиной и следствием. Оно просто указывает, что две переменные взаимосвязаны между собой в большей степени, чем это можно ожидать при случайном совпадении. Тем не менее, при соблюдении осторожности применение корреляционных методов при исследовании причинно-следственных отношений вполне оправдано. Следует избегать категоричных фраз типа «переменная X является причиной увеличения показателя Y ». Подобные утверждения следует формулировать как предположения, которые должны быть строго обоснованы теоретически.

Подробное описание математической процедуры для каждого коэффициента корреляции дано в учебниках по математической статистике ; ; ; и др. Мы же ограничимся описанием возможности применения этих коэффициентов в зависимости от типа шкалы измерения.

Корреляция метрических переменных

Для изучения взаимосвязи двух метрических переменных, измеренных на одной и той же выборке, применяется коэффициент корреляции r -Пирсона . Сам коэффициент характеризует наличие только линейной связи между признаками, обозначаемыми, как правило, символами X и Y . Коэффициент линейной корреляции является параметрическим методом и его корректное применение возможно только в том случае, если результаты измерений представлены в шкале интервалов, а само распределение значений в анализируемых переменных отличается от нормального в незначительной степени. Существует множество ситуаций, в которых его применение целесообразно. Например: установление связи между интеллектом школьника и его успеваемостью; между настроением и успешностью выхода из проблемной ситуации; между уровнем дохода и темпераментом и т. п.

Коэффициент Пирсона находит широкое применение в психологии и педагогике. Например, в работах И. Я. Каплуновича и П. Д. Рабиновича, М. П. Нуждиной для подтверждения выдвинутых гипотез был использован расчет коэффициента линейной корреляции Пирсона.

При обработке данных «вручную» необходимо вычислить коэффициент корреляции, а затем определить p -уровень значимости (в целях упрощения проверки данных пользуются таблицами критических значений r xy , которые составлены с помощью этого критерия). Величина коэффициента линейной корреляции Пирсона не может превышать +1 и быть меньше чем –1. Эти два числа +1 и –1 являются границами для коэффициента корреляции. Когда при расчете получается величина, большая +1 или меньшая –1, это свидетельствует, что произошла ошибка в вычислениях.

При вычислениях на компьютере статистическая программа (SPSS, Statistica) сопровождает вычисленный коэффициент корреляции более точным значением p -уровня.

Для статистического решения о принятии или отклонении H 0 обычно устанавливают α = 0,05, а для большого объема наблюдений (100 и более) α = 0,01. Если p ≤ α, H 0 отклоняется и делается содержательный вывод, что обнаружена статистически достоверная (значимая) связь между изучаемыми переменными (положительная или отрицательная – в зависимости от знака корреляции). Когда p > α, H 0 не отклоняется, содержательный вывод ограничен констатацией, что связь (статистически достоверная) не обнаружена.

Если связь не обнаружена, но есть основания полагать, что связь на самом деле есть, следует проверить возможные причины недостоверности связи.

Нелинейность связи – для этого проанализировать график двумерного рассеивания. Если связь нелинейная, но монотонная, перейти к ранговым корреляциям. Если связь не монотонная, то делить выборку на части, в которых связь монотонная, и вычислить корреляции отдельно для каждой части выборки, или делить выборку на контрастные группы и далее сравнивать их по уровню выраженности признака.

Наличие выбросов и выраженная асимметрия распределения одного или обоих признаков. Для этого необходимо посмотреть гистограммы распределения частот обоих признаков. При наличии выбросов или асимметрии исключить выбросы или перейти к ранговым корреляциям.

Неоднородность выборки (проанализировать график двумерного рассеивания). Попытаться разделить выборку на части, в которых связь может иметь разные направления.

Если же связь статистически достоверна, то прежде чем делать содержательный вывод, необходимо исключить возможность ложной корреляции:

  • связь обусловлена выбросами . При наличии выбросов перейти к ранговым корреляциям или исключить выбросы;
  • связь обусловлена влиянием третьей переменной . Если есть подобное явление, необходимо вычислить корреляцию не только для всей выборки, но и для каждой группы в отдельности. Если «третья» переменная метрическая – вычислить частную корреляцию.

Коэффициент частной корреляции r xy -z вычисляется в том случае, если необходимо проверить предположение, что связь между двумя переменными X и Y не зависит от влияния третьей переменной Z . Очень часто две переменные коррелируют друг с другом только за счет того, что обе они согласованно меняются под влиянием третьей переменной. Иными словами, на самом деле связь между соответствующими свойствами отсутствует, но проявляется в статистической взаимосвязи под влиянием общей причины. Например, общей причиной изменчивости двух переменных может являться возраст при изучении взаимосвязи различных психологических особенностей в разновозрастной группе. При интерпретации частной корреляции с позиции причинности следует быть осторожным, так как если Z коррелирует и с X и с Y , а частная корреляция r xy -z близка к нулю, из этого не обязательно следует, что именно Z является общей причиной для X и Y .

Корреляция ранговых переменных

Если к количественным данным неприемлем коэффициент корреляции r -Пирсона , то для проверки гипотезы о связи двух переменных после предварительного ранжирования могут быть применены корреляции r -Спирмена или τ -Кендалла . Например, в исследовании психофизических особенностей музыкально одаренных подростков И. А. Лавочкина был использован критерий Спирмена.

Для корректного вычисления обоих коэффициентов (Спирмена и Кендалла) результаты измерений должны быть представлены в шкале рангов или интервалов. Принципиальных отличий между этими критериями не существует, но принято считать, что коэффициент Кендалла является более «содержательным», так как он более полно и детально анализирует связи между переменными, перебирая все возможные соответствия между парами значений. Коэффициент Спирмена более точно учитывает именно количественную степень связи между переменными.

Коэффициент ранговой корреляции Спирмена является непараметрическим аналогом классического коэффициента корреляции Пирсона, но при его расчете учитываются не связанные с распределением показатели сравниваемых переменных (среднее арифметическое и дисперсия), а ранги. Например, необходимо определить связь между ранговыми оценками качеств личности, входящими в представление человека о своем «Я реальном» и «Я идеальном».

Коэффициент Спирмена широко используется в психологических исследованиях. Например, в работе Ю. В. Бушова и Н. Н. Несмеловой : для изучения зависимости точности оценки и воспроизведения длительности звуковых сигналов от индивидуальных особенностей человека был использован именно он.

Так как этот коэффициент – аналог r -Пирсона, то и применение его для проверки гипотез аналогично применению коэффициента r -Пирсона. То есть проверяемая статистическая гипотеза, порядок принятия статистического решения и формулировка содержательного вывода – те же. В компьютерных программах (SPSS, Statistica) уровни значимости для одинаковых коэффициентов r -Пирсона и r -Спирмена всегда совпадают.

Преимущество коэффициента r -Спирмена по сравнению с коэффициентом r -Пирсона – в большей чувствительности к связи. Мы используем его в следующих случаях:

  • наличие существенного отклонения распределения хотя бы одной переменной от нормального вида (асимметрия, выбросы);
  • появление криволинейной (монотонной) связи.

Ограничением для применения коэффициента r -Спирмена являются:

  • по каждой переменной не менее 5 наблюдений;
  • коэффициент при большом количестве одинаковых рангов по одной или обеим переменным дает огрубленное значение.

Коэффициент ранговой корреляции τ -Кендалла является самостоятельным оригинальным методом, опирающимся на вычисление соотношения пар значений двух выборок, имеющих одинаковые или отличающиеся тенденции (возрастание или убывание значений). Этот коэффициент называют еще коэффициентом конкордации . Таким образом, основной идеей данного метода является то, что о направлении связи можно судить, попарно сравнивая между собой испытуемых: если у пары испытуемых изменение по X совпадает по направлению с изменением по Y , это свидетельствует о положительной связи, если не совпадает – об отрицательной связи, например, при исследовании личностных качеств, имеющих определяющее значение для семейного благополучия. В этом методе одна переменная представляется в виде монотонной последовательности (например, данные мужа) в порядке возрастания величин; другой переменной (например, данные жены) присваиваются соответствующие ранговые места. Количество инверсий (нарушений монотонности по сравнению с первым рядом) используется в формуле для корреляционных коэффициентов.

При подсчете τ- Кендалла «вручную» данные сначала упорядочиваются по переменной X . Затем для каждого испытуемого подсчитывается, сколько раз его ранг по Y оказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадения». Сумма всех значений столбца «Совпадение» и есть P – общее число совпадений, подставляется в формулу для вычисления коэффициента Кендалла, который более прост в вычислительном отношении, но при возрастании выборки, в отличие от r -Спирмена, объем вычислений возрастает не пропорционально, а в геометрической прогрессии. Так, например, при N = 12 необходимо перебрать 66 пар испытуемых, а при N = 489 – уже 1128 пар, т. е. объем вычислений возрастает более чем в 17 раз. При вычислениях на компьютере в статистической программе (SPSS, Statistica) коэффициент Кендалла обсчитывается аналогично коэффициентам r -Спирмена и r -Пирсона. Вычисленный коэффициент корреляции τ -Кендалла характеризуется более точным значением p -уровня.

Применение коэффициента Кендалла является предпочтительным, если в исходных данных имеются выбросы.

Особенностью ранговых коэффициентов корреляции является то, что максимальным по модулю ранговым корреляциям (+1, –1) не обязательно соответствуют строгие прямо или обратно пропорциональные связи между исходными переменными X и Y : достаточна лишь монотонная функциональная связь между ними. Ранговые корреляции достигают своего максимального по модулю значения, если большему значению одной переменной всегда соответствует большее значение другой переменной (+1), или большему значению одной переменной всегда соответствует меньшее значение другой переменной и наоборот (–1).

Проверяемая статистическая гипотеза, порядок принятия статистического решения и формулировка содержательного вывода те же, что и для случая r -Спирмена или r -Пирсона.

Если статистически достоверная связь не обнаружена, но есть основания полагать, что связь на самом деле есть, следует сначала перейти от коэффициента

r -Спирмена к коэффициенту τ -Кендалла (или наоборот), а затем проверить возможные причины недостоверности связи:

  • нелинейность связи : для этого посмотреть график двумерного рассеивания. Если связь не монотонная, то делить выборку на части, в которых связь монотонная, или делить выборку на контрастные группы и далее сравнивать их по уровню выраженности признака;
  • неоднородность выборки : посмотреть график двумерного рассеивания, попытаться разделить выборку на части, в которых связь может иметь разные направления.

Если же связь статистически достоверна, то прежде чем делать содержательный вывод, необходимо исключить возможность ложной корреляции (по аналогии с метрическими коэффициентами корреляции).

Корреляция дихотомических переменных

При сравнении двух переменных, измеренных в дихотомической шкале, мерой корреляционной связи служит так называемый коэффициент j, который представляет собой коэффициент корреляции для дихотомических данных.

Величина коэффициента φ лежит в интервале между +1 и –1. Он может быть как положительным, так и отрицательным, характеризуя направление связи двух дихотомически измеренных признаков. Однако интерпретация φ может выдвигать специфические проблемы. Дихотомические данные, входящие в схему вычисления коэффициента φ, не похожи на двумерную нормальную поверхность, следовательно, неправильно считать, что интерпретируемые значения r xy =0,60 и φ = 0,60 одинаковы. Коэффициент φ можно вычислить методом кодирования, а также используя так называемую четырехпольную таблицу или таблицу сопряженности.

Для применения коэффициента корреляции φ необходимо соблюдать следующие условия:

  • сравниваемые признаки должны быть измерены в дихотомической шкале;
  • X и Y должно быть одинаковым.

Данный вид корреляции рассчитывают в компьютерной программе SPSS на основании определения мер расстояния и мер сходства. Некоторые статистические процедуры, такие как факторный анализ, кластерный анализ, многомерное масштабирование, построены на применении этих мер, а иногда сами представляют добавочные возможности для вычисления мер подобия.

В тех случаях когда одна переменная измеряется в дихотомической шкале (переменная X ), а другая в шкале интервалов или отношений (переменная Y ), используется бисериальный коэффициент корреляции , например, при проверке гипотез о влиянии пола ребенка на показатель роста и веса. Этот коэффициент изменяется в диапазоне от –1 до +1, но его знак для интерпретации результатов не имеет значения. Для его применения необходимо соблюдать следующие условия:

  • сравниваемые признаки должны быть измерены в разных шкалах: одна X – в дихотомической шкале; другая Y – в шкале интервалов или отношений;
  • переменная Y имеет нормальный закон распределения;
  • число варьирующих признаков в сравниваемых переменных X и Y должно быть одинаковым.

Если же переменная X измерена в дихотомической шкале, а переменная Y в ранговой шкале (переменная Y ), можно использовать рангово-бисериальный коэффициент корреляции , который тесно связан с τ-Кендалла и использует в своем определении понятия совпадения и инверсии. Интерпретация результатов та же.

Проведение корреляционного анализа с помощью компьютерных программ SPSS и Statistica – простая и удобная операция. Для этого после вызова диалогового окна Bivariate Correlations (Analyze>Correlate> Bivariate…) необходимо переместить исследуемые переменные в поле Variables и выбрать метод, с помощью которого будет выявляться корреляционная связь между переменными. В файле вывода результатов для каждого рассчитываемого критерия содержится квадратная таблица (Correlations). В каждой ячейке таблицы приведены: само значение коэффициента корреляции (Correlation Coefficient), статистическая значимость рассчитанного коэффициента Sig, количество испытуемых.

В шапке и боковой графе полученной корреляционной таблицы содержатся названия переменных. Диагональ (левый верхний – правый нижний угол) таблицы состоит из единиц, так как корреляция любой переменной с самой собой является максимальной. Таблица симметрична относительно этой диагонали. Если в программе установлен флажок «Отмечать значимые корреляции», то в итоговой корреляционной таблице будут отмечены статистически значимые коэффициенты: на уровне 0,05 и меньше – одной звездочкой (*), а на уровне 0,01 – двумя звездочками (**).

Итак, подведем итоги: основное назначение корреляционного анализа – это выявление связи между переменными. Мерой связи являются коэффициенты корреляции, выбор которых напрямую зависит от типа шкалы, в которой измерены переменные, числа варьирующих признаков в сравниваемых переменных и распределения переменных. Наличие корреляции двух переменных еще не означает, что между ними существует причинная связь. Хотя корреляция прямо не указывает на причинную связь, она может быть ключом к разгадке причин. На ее основе можно сформировать гипотезы. В некоторых случаях отсутствие корреляции имеет более глубокое воздействие на гипотезу о причинной связи. Нулевая корреляция двух переменных может свидетельствовать, что никакого влияния одной переменной на другую не существует.

Дата публикации: 03.09.2017 13:01

Термин «корреляция» активно используется в гуманитарных науках, медицине; часто мелькает в СМИ. Ключевую роль корреляции играют в психологии. В частности, расчет корреляций выступает важным этапом реализации эмпирического исследования при написании ВКР по психологии.

Материалы по корреляциям в сети слишком научны. Неспециалисту трудно разобраться в формулах. В то же время понимание смысла корреляций необходимо маркетологу, социологу, медику, психологу - всем, кто проводит исследования на людях.

В этой статье мы простым языком объясним суть корреляционной связи, виды корреляций, способы расчета, особенности использования корреляции в психологических исследованиях, а также при написании дипломных работ по психологии.

Содержание

Что такое корреляция

Корреляция - это связь. Но не любая. В чем же ее особенность? Рассмотрим на примере.

Представьте, что вы едете на автомобиле. Вы нажимаете педаль газа - машина едет быстрее. Вы сбавляете газ - авто замедляет ход. Даже не знакомый с устройством автомобиля человек скажет: «Между педалью газа и скоростью машины есть прямая связь: чем сильнее нажата педаль, тем скорость выше».

Это зависимость функциональная - скорость выступает прямой функцией педали газа. Специалист объяснит, что педаль управляет подачей топлива в цилиндры, где происходит сжигание смеси, что ведет к повышению мощности на вал и т.д. Это связь жесткая, детерминированная, не допускающая исключений (при условии, что машина исправна).

Теперь представьте, что вы директор фирмы, сотрудники которой продают товары. Вы решаете повысить продажи за счет повышения окладов работников. Вы повышаете зарплату на 10%, и продажи в среднем по фирме растут. Через время повышаете еще на 10%, и опять рост. Затем еще на 5%, и опять есть эффект. Напрашивается вывод - между продажами фирмы и окладом сотрудников есть прямая зависимость - чем выше оклады, тем выше продажи организации. Такая же это связь, как между педалью газа и скоростью авто? В чем ключевое отличие?

Правильно, между окладом и продажами заисимость не жесткая. Это значит, что у кого-то из сотрудников продажи могли даже снизиться, невзирая на рост оклада. У кого-то остаться неизменными. Но в среднем по фирме продажи выросли, и мы говорим - связь продаж и оклада сотрудников есть, и она корреляционная.

В основе функциональной связи (педаль газа - скорость) лежит физический закон. В основе корреляционной связи (продажи - оклад) находится простая согласованность изменения двух показателей. Никакого закона (в физическом понимании этого слова) за корреляцией нет. Есть лишь вероятностная (стохастическая) закономерность.

Численное выражение корреляционной зависимости

Итак, корреляционная связь отражает зависимость между явлениями. Если эти явления можно измерить, то она получает численное выражение.

Например, изучается роль чтения в жизни людей. Исследователи взяли группу из 40 человек и измерили у каждого испытуемого два показателя: 1) сколько времени он читает в неделю; 2) в какой мере он считает себя благополучным (по шкале от 1 до 10). Ученые занесли эти данные в два столбика и с помощью статистической программы рассчитали корреляцию между чтением и благополучием. Предположим, они получили следующий результат -0,76. Но что значит это число? Как его проинтерпретировать? Давайте разбираться.

Полученное число называется коэффициентом корреляции. Для его правильной интерпретации важно учитывать следующее:

  1. Знак «+» или «-» отражает направление зависимости.
  2. Величина коэффициента отражает силу зависимости.

Прямая и обратная

Знак плюс перед коэффициентом указывает на то, что связь между явлениями или показателями прямая. То есть, чем больше один показатель, тем больше и другой. Выше оклад - выше продажи. Такая корреляция называется прямой, или положительной.

Если коэффициент имеет знак минус, значит, корреляция обратная, или отрицательная. В этом случае чем выше один показатель, тем ниже другой. В примере с чтением и благополучием мы получили -0,76, и это значит, что, чем больше люди читают, тем ниже уровень их благополучия.

Сильная и слабая

Корреляционная связь в численном выражении - это число в диапазоне от -1 до +1. Обозначается буквой «r». Чем выше число (без учета знака), тем корреляционная связь сильнее.

Чем ниже численное значение коэффициента, тем взаимосвязь между явлениями и показателями меньше.

Максимально возможная сила зависимости - это 1 или -1. Как это понять и представить?

Рассмотрим пример. Взяли 10 студентов и измерили у них уровень интеллекта (IQ) и успеваемость за семестр. Расположили эти данные в виде двух столбцов.

Испытуемый

IQ

Успеваемость (баллы)

Посмотрите внимательно на данные в таблице. От 1 до 10 испытуемого растет уровень IQ. Но также растет и уровень успеваемости. Из любых двух студентов успеваемость будет выше у того, у кого выше IQ. И никаких исключений из этого правила не будет.

Перед нами пример полного, 100%-но согласованного изменения двух показателей в группе. И это пример максимально возможной положительной взаимосвязи. То есть, корреляционная зависимость между интеллектом и успеваемостью равна 1.

Рассмотрим другой пример. У этих же 10-ти студентов с помощью опроса оценили, в какой мере они ощущают себя успешными в общении с противоположным полом (по шкале от 1 до 10).

Испытуемый

IQ

Успех в общении с противоположным полом (баллы)

Смотрим внимательно на данные в таблице. От 1 до 10 испытуемого растет уровень IQ. При этом в последнем столбце последовательно снижается уровень успешности общения с противоположным полом. Из любых двух студентов успех общения с противоположным полом будет выше у того, у кого IQ ниже. И никаких исключений из этого правила не будет.

Это пример полной согласованности изменения двух показателей в группе - максимально возможная отрицательная взаимосвязь. Корреляционная связь между IQ и успешностью общения с противоположным полом равна -1.

А как понять смысл корреляции равной нулю (0)? Это значит, связи между показателями нет. Еще раз вернемся к нашим студентам и рассмотрим еще один измеренный у них показатель - длину прыжка с места.

Испытуемый

IQ

Длина прыжка с места (м)

Не наблюдается никакой согласованности между изменением IQ от человека к человеку и длинной прыжка. Это и свидетельствует об отсутствии корреляции. Коэффициент корреляции IQ и длины прыжка с места у студентов равен 0.

Мы рассмотрели крайние случаи. В реальных измерениях коэффициенты редко бывают равны точно 1 или 0. При этом принята следующая шкала:

  • если коэффициент больше 0,70 - связь между показателями сильная;
  • от 0,30 до 0,70 - связь умеренная,
  • меньше 0,30 - связь слабая.

Если оценить по этой шкале полученную нами выше корреляцию между чтением и благополучием, то окажется, что эта зависимость сильная и отрицательная -0,76. То есть, наблюдается сильная отрицательная связь между начитанностью и благополучием. Что еще раз подтверждает библейскую мудрость о соотношении мудрости и печали.

Приведенная градация дает очень приблизительные оценки и в таком виде редко используются в исследованиях.

Чаще используются градации коэффициентов по уровням значимости. В этом случае реально полученный коэффициент может быть значимым или не значимым. Определить это можно, сравнив его значение с критическим значением коэффициента корреляции, взятым из специальной таблицы. Причем эти критические значения зависят от численности выборки (чем больше объем, тем ниже критическое значение).

Корреляционный анализ в психологии

Корреляционный метод выступает одним из основных в психологических исследованиях. И это не случайно, ведь психология стремится быть точной наукой. Получается ли?

В чем особенность законов в точных науках. Например, закон тяготения в физике действует без исключений: чем больше масса тела, тем сильнее оно притягивает другие тела. Этот физический закон отражает связь массы тела и силы притяжения.

В психологии иная ситуация. Например, психологи публикуют данные о связи теплых отношений в детстве с родителями и уровня креативности во взрослом возрасте. Означает ли это, что любой из испытуемых с очень теплыми отношениями с родителями в детстве будет иметь очень высокие творческие способности? Ответ однозначный - нет. Здесь нет закона, подобного физическому. Нет механизма влияния детского опыта на креативность взрослых. Это наши фантазии! Есть согласованность данных (отношения - креативность), но за ними нет закона. А есть лишь корреляционная связь. Психологи часто называют выявляемые взаимосвязи психологическими закономерностями, подчеркивая их вероятностный характер - не жесткость.

Пример исследования на студентах из предыдущего раздела хорошо иллюстрирует использование корреляций в психологии:

  1. Анализ взаимосвязи между психологическими показателями. В нашем примере IQ и успешность общения с противоположным полом - это психологические параметры. Выявление корреляции между ними расширяет представления о психической организации человека, о взаимосвязях между различными сторонами его личности - в данном случае между интеллектом и сферой общения.
  2. Анализ взаимосвязей IQ с успеваемостью и прыжками - пример связи психологического параметра с непсихологическими. Полученные результаты раскрывают особенности влияния интеллекта на учебную и спортивную деятельность.

Вот как могли выглядеть краткие выводы по результатам придуманного исследования на студентах:

  1. Выявлена значимая положительная зависимость интеллекта студентов и их успеваемости.
  2. Существует отрицательная значимая взаимосвязь IQ с успешностью общения с противоположным полом.
  3. Не выявлено связи IQ студентов с умением прыгать с места.

Таким образом, уровень интеллекта студентов выступает позитивным фактором их академической успеваемости, в то же время негативно сказываясь на отношениях с противоположным полом и не оказывая значимого влияния на спортивные успехи, в частности, способность к прыгать с места.

Как видим, интеллект помогает студентам учиться, но мешает строить отношения с противоположным полом. При этом не влияет на их спортивные успехи.

Неоднозначное влияние интеллекта на личность и деятельность студентов отражает сложность этого феномена в структуре личностных особенностей и важность продолжения исследований в этом направлении. В частности, представляется важным провести анализ взаимосвязей интеллекта с психологическими особенностями и деятельностью студентов с учетом их пола.

Коэффициенты Пирсона и Спирмена

Рассмотрим два метода расчета.

Коэффициент Пирсона - это особый метод расчета взаимосвязи показателей между выраженностью численных значений в одной группе. Очень упрощенно он сводится к следующему:

  1. Берутся значения двух параметров в группе испытуемых (например, агрессии и перфекционизма).
  2. Находятся средние значения каждого параметра в группе.
  3. Находятся разности параметров каждого испытуемого и среднего значения.
  4. Эти разности подставляются в специальную форму для расчета коэффициента Пирсона.

Коэффициент ранговой корреляции Спирмена рассчитывается похожим образом:

  1. Берутся значения двух индикаторов в группе испытуемых.
  2. Находятся ранги каждого фактора в группе, то есть место в списке по возрастанию.
  3. Находятся разности рангов, возводятся в квадрат и суммируются.
  4. Далее разности рангов подставляются в специальную форму для вычисления коэффициента Спирмена.

В случае Пирсона расчет шел с использованием среднего значения. Следовательно, случайные выбросы данных (существенное отличие от среднего), например, из-за ошибки обработки или недостоверных ответов могут существенно исказить результат.

В случае Спирмена абсолютные значения данных не играют роли, так как учитывается только их взаимное расположение по отношению друг к другу (ранги). То есть, выбросы данных или другие неточности не окажут серьезного влияния на конечный результат.

Если результаты тестирования корректны, то различия коэффициентов Пирсона и Спирмена незначительны, при этом коэффициент Пирсона показывает более точное значение взаимосвязи данных.

Как рассчитать коэффициент корреляции

Коэффициенты Пирсона и Спирмена можно рассчитать вручную. Это может понадобиться при углубленном изучении статистических методов.

Однако в большинстве случаев при решении прикладных задач, в том числе и в психологии, можно проводить расчеты с помощью специальных программ.

Расчет с помощью электронных таблиц Microsoft Excel

Вернемся опять к примеру со студентами и рассмотрим данные об уровне их интеллекта и длине прыжка с места. Занесем эти данные (два столбца) в таблицу Excel.

Переместив курсор в пустую ячейку, нажмем опцию «Вставить функцию» и выберем «КОРРЕЛ» из раздела «Статистические».

Формат этой функции предполагает выделение двух массивов данных: КОРРЕЛ (массив 1; массив»). Выделяем соответственно столбик с IQ и длиной прыжков.

В таблицах Excel реализована формула расчета только коэффициента Пирсона.

Расчет с помощью программы STATISTICA

Заносим данные по интеллекту и длине прыжка в поле исходных данных. Далее выбираем опцию «Непараметрические критерии», «Спирмена». Выделяем параметры для расчета и получаем следующий результат.


Как видно, расчет дал результат 0,024, что отличается от результата по Пирсону - 0,038, полученной выше с помощью Excel. Однако различия незначительны.

Использование корреляционного анализа в дипломных работах по психологии (пример)

Большинство тем выпускных квалификационных работ по психологии (дипломов, курсовых, магистерских) предполагают проведение корреляционного исследования (остальные связаны с выявлением различий психологических показателей в разных группах).

Сам термин «корреляция» в названиях тем звучит редко - он скрывается за следующими формулировками:

  • «Взаимосвязь субъективного ощущения одиночества и самоактуализации у женщин зрелого возраста»;
  • «Особенности влияния жизнестойкости менеджеров на успешность их взаимодействия с клиентами в конфликтных ситуациях»;
  • «Личностные факторы стрессоустойчивости сотрудников МЧС».

Таким образом, слова «взаимосвязь», «влияние» и «факторы» - верные признаки того, что методом анализа данных в эмпирическом исследовании должен быть корреляционный анализ.

Рассмотрим кратко этапы его проведения при написании дипломной работы по психологии на тему: «Взаимосвязь личностной тревожности и агрессивности у подростков».

1. Для расчета необходимы сырые данные, в качестве которых обычно выступают результаты тестирования испытуемых. Они заносятся в сводную таблицу и помещаются в приложение. Эта таблица устроена следующим образом:

  • каждая строка содержит данные на одного испытуемого;
  • каждый столбец содержит показатели по одной шкале для всех испытуемых.

№ испытуемого

Личностная тревожность

Агрессивность

2. Необходимо решить, какой из двух типов коэффициентов - Пирсона или Спирмена - будет использоваться. Напоминаем, что Пирсон дает более точный результат, но он чувствителен к выбросам в данных Коэффициенты Спирмена могут использоваться с любыми данными (кроме номинативной шкалы), поэтому именно они чаще всего используют в дипломах по психологии.

3. Заносим таблицу сырых данных в статистическую программу.

4. Рассчитываем значение.



5. На следующем этапе важно определить, значима ли взаимосвязь. Статистическая программа подсветила результаты красным, что означает, что корреляция статистически значимы при уровне значимости 0,05 (указано выше).

Однако полезно знать, как определить значимость вручную. Для этого понадобится таблица критических значений Спирмена.

Таблица критических значений коэффициентов Спирмена

Уровень статистической значимости

Число испытуемых

р=0,05

р=0,01

р=0,001

0,88

0,96

0,99

0,81

0,92

0,97

0,75

0,88

0,95

0,71

0,83

0,93

0,67

0,63

0,77

0,87

0,74

0,85

0,58

0,71

0,82

0,55

0,68

0,53

0,66

0,78

0,51

0,64

0,76

Нас интересует уровень значимости 0,05 и объем нашей выборки 10 человек. На пересечении этих данных находим значение критического Спирмена: Rкр=0,63.

Правило такое: если полученное эмпирическое значение Спирмена больше либо равно критическому, то он статистически значим. В нашем случае: Rэмп (0,66) > Rкр (0,63), следовательно, взаимосвязь между агрессивностью и тревожностью в группе подростков статистически значима.

5. В текст дипломной нужно вставлять данные в таблице формата word, а не таблицу из статистической программы. Под таблицей описываем полученный результат и интерпретируем его.

Таблица 1

Коэффициенты Спирмена агрессивности и тревожности в группе подростков

Агрессивность

Личностная тревожность

0,665*

* - статистически достоверна (р 0,05)

Анализ данных, приведенных в таблице 1, показывает, что существует статистически значимая положительная связьмежду агрессивностью и тревожностью подростков. Это означает, что чем выше личностная тревожность подростков, тем выше уровень их агрессивности. Такой результат дает основание предположить, что агрессия для подростков выступает одним из способов купирования тревожности. Испытывая неуверенность в себе, тревогу в связи с угрозами самооценке, особенно чувствительной в подростковом возрасте, подросток часто использует агрессивное поведение, таким непродуктивным способом снижая тревогу.

6. Можно ли при интерпретации связей говорить о влиянии? Можно ли сказать, что тревожность влияет на агрессивность? Строго говоря, нет. Выше мы показали, что корреляционная связь между явлениями носит вероятностный характер и отражает лишь согласованность изменений признаков в группе. При этом мы не можем сказать, что эта согласованность вызвана тем, что одно из явлений является причиной другого, влияет на него. То есть, наличие корреляции между психологическими параметрами не дает оснований говорить о существовании между ними причинно-следственной связи. Однако практика показывает, что термин «влияние» часто используется при анализе результатов корреляционного анализа.

Корреляционный анализ является одним из наиболее широко используемых статистических методов, в частности и в рамках политической науки. При своей относительной простоте он может быть весьма полезен как для тестирования имеющихся гипотез, так и в поисковом исследовании, когда предположения о связях и взаимоза­висимостях только формируются.

Умение работать с данной статистической техникой важно и в силу того, что она используется как со­ставная часть более сложных, комплексных методов, в том числе факторного анализа, некоторых версий кластер-анализа и др.

Целью корреляционного анализа является измерение стати­стической взаимозависимости между двумя или более переменными. В слу­чае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух - множественным.

Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» - они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.

Понятие «корреляционный анализ» фактически объединяет несколь­ко методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них - метод Пирсона (Pearson) . Его применение ограничено следующими условиями:

Переменные должны быть измерены, как минимум, на интер­вальном уровне;

Связь между переменными должна носить линейный характер, т.е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватно­го отображения;

Коэффициент Пирсона вычисляется по следующей формуле: ,

где Xj и у/ - значения двух переменных, х и у - их средние значения, sx и sy - их стан­дартные отклонения; п - количество пар значений.

Анализируемые переменные должны быть распределены нор­мально (или, во всяком случае, приближаться к нормальному распределению).

Корреляционный анализ фиксирует две характеристики статисти­ческой взаимосвязи между переменными:

Направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);

Интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной пе­ременной на основании значений другой.

Чтобы более наглядно представить себе особенности корреляцион­ного анализа, обратимся к примеру из сферы исследования электоральных процессов. Предположим, мы проводим сравнительный ана­лиз электората двух политических партий либеральной ориентации - Союза правых сил и «Яблока». Наша задача - понять, существует ли общность электората СПС и «Яблока» в территориальном разрезе и насколько она значима. Для этого мы можем, например, взять данные электоральной статистики, характеризующие уровень поддержки этих партий, в разрезе данных избирательных комиссий субъектов Федера­ции. Проще говоря, мы смотрим на проценты, полученные СПС и «Яблоком» по регионам России. Ниже приводятся данные по выборам депутатов Государственной думы 1999 г. (количество регионов 88, по­скольку выборы в Чеченской Республике не проводились).

bgcolor=white>7.24
Случай Переменные (%)
«Яблоко» СПС
Республика Адыгея 4,63 3,92
Республика Алтай 3,38 5,40
Республика Башкортостан 3,95 6,04
Республика Бурятия 3,14 8,36
Республика Дагестан 0,39 1,22
Республика Ингушетия 2,89 0,38
Кабардино-Балкарская Республика 1,38 1,30
Республика Калмыкия 3,07 3,80
Карачаево-Черкесская Республика 4,17 2,94
Республика Карелия 9,66 10,25
Республика Коми 8,91 9,95
Республика Марий Эл 4,68
И т.д. (всего 88 случаев)

Таким образом, у нас есть две переменные - «поддержка СПС в 1999 г.» и «поддержка "Яблока" в 1999 г.», простейшим образом операционализированные через процент голосов, поданных за эти партии, от числа избирателей, принявших участие в голосовании на федеральных парламентских выборах 1999 г. В качестве случаев выступают соответствующие данные, обобщенные на уровне реги­онов РФ.

Далее, в нашем распоряжении есть методический прием, кото­рый является одним из основных в статистике, - геометрическое представление. Геометрическим представлением называют представ­ление случая как точки в условном пространстве, формируемом «осями» - переменными. В нашем примере мы можем представить каждый регион как точку в двухмерном пространстве голосований за правые партии. Ось Сформирует признак «поддержка СПС», ось Г- «поддержка "Яблока"» (или наоборот; для корреляционного анализа это неважно в силу неразличения зависимых и независимых переменных). «Координатами» региона будут: по оси X- значение переменной «поддержка СПС» (процент, набранный в регионе дан­ной партией); по оси Г- значение переменной «поддержка "Ябло­ка"». Так, Республика Адыгея будет иметь координаты (3,92; 4,63), Республика Алтай - (3,38; 5,4) и т.д. Осуществив геометрическое представление всех случаев, мы получаем диаграмму рассеяния, или корреляционное поле.

Даже сугубо визуальный анализ диаграммы рассеяния наводит на мысль, что совокупность точек можно расположить вдоль некоторой условной прямой, называемой линией регрессии. Математически линия регрессии строится методом наименьших квадратов (высчитывается такое положение линии, при котором сумма квад­ратов расстояний от наблюдаемых точек до прямой является минимальной).

Интенсивность связи будет зависеть от того, насколько тесно точки (случаи) расположены вдоль линии регрессии. В коэффициен­те корреляции (обозначается г), который и является числовым ре­зультатом корреляционного анализа, плотность колеблется от 0 до 1. При этом чем ближе значение коэффициента к 1, тем плотнее связь; чем ближе значение к 0, тем связь слабее. Так, при г= 1 связь приобретает характер функциональной - все точки «ложатся» на одну прямую. При г = 0, фиксирующем полное отсутствие связи, построение линии регрессии становится невозможным. В нашем примере г = 0,62, что свидетельствует о наличии значимой статис­тической связи (подробнее об интерпретации коэффициента кор­реляции см. ниже).

Тип связи определяется наклоном линии регрессии. В коэффици­енте корреляции существует всего два значения типа связи: обратная (знак «-») и прямая (отсутствие знака, так как знак « + » традиционно не записывается). В нашем примере связь прямая. Соответственно, итоговый результат анализа 0,62.

Сегодня коэффициент корреляции Пирсона можно легко подсчи­тать с помощью всех компьютерных пакетов программ статистическо­го анализа (SPSS, Statistica, NCSS и др.) и даже в широко распростра­ненной программе Excel (надстройка «анализ данных»). Настоятельно рекомендуем пользоваться профессиональными пакетами, так как они позволяют визуально оценить корреляционное поле.

Почему важна визуальная оценка геометрического представления данных? Во-первых, мы должны убедиться, что связь линейна по форме, а здесь самый простой и эффективный метод - именно зри­тельная оценка. Напомним, что в случае ярко выраженной нелинейности связи вычисление коэффициента корреляции окажется беспо­лезным. Во-вторых, визуальная оценка позволяет найти в данных выбросы, т.е. нетипичные, резко выделяющиеся случаи.

Вернемся к нашему примеру с двумя партиями. Внимательно глядя на диаграмму рассеяния, мы замечаем по меньшей мере один нетипичный случай, лежащий явно в стороне от «общей магистра­ли», тенденции связи переменных. Это точка, представляющая дан­ные по Самарской области. Хотя и в меньшей степени, но тоже нетипично положение Томской, Нижегородской областей и Санкт- Петербурга.

Можно скорректировать данные анализа, удалив сильно отклоня­ющиеся наблюдения, т.е. произведя «чистку выбросов». В силу специ­фики вычисления линии регрессии, связанной с подсчетом суммы квадратов расстояний, даже единичный выброс может существенно исказить общую картину.

Удалив только один из 88 случаев - Самарскую область, - мы по­лучим значение коэффициента корреляции, отличное от полученно­го ранее: 0,73 по сравнению с 0,62. Плотность связи усилилась более чем на 0,1 - это весьма и весьма существенно. Избавившись отточек, соответствующих Санкт-Петербургу, Томской и Нижегородской об­ластям, получим еще более высокую плотность: 0,77.

Впрочем, чисткой выбросов не следует увлекаться: сокращая ко­личество случаев, мы понижаем общий уровень статистического доверия к полученным результатам. К сожалению, общепринятых кри­териев определения выбросов не существует, и здесь многое зависит от добросовестности исследователя. Лучший способ - содержательно понять, с чем связано наличие «выброса». Так, в нашем примере не­типичное положение Самарской области в признаковом простран­стве связано с тем, что в 1999 г. одним из активных лидеров правых был глава региона К. Титов. Соответственно, высокий результат СПС в регионе был обусловлен не только поддержкой партии как таковой, но и поддержкой губернатора.

Возвратимся к нашему исследованию. Мы выяснили, что голосо­вание за СПС и «Яблоко» довольно плотно коррелирует между собой на массиве данных, взятых в территориальном разрезе. Логично предположить, что в основе этой связи лежит некий фактор или комплекс факторов, который мы пока непосредственно не учитывали. Исследуя данные электоральной статистики разного уровня, нетрудно заметить, что обе партии демонстрируют лучшие результаты в городах и худшие - в сельских районах. Мы можем выдвинуть гипотезу, что од­ним из факторов, опосредующих связь между переменными, является уровень урбанизации территорий. Этот признак проще всего операционализировать через переменную «доля сельского населения» или «доля городского населения». Такая статистика существует по каждо­му субъекту Федерации.

Теперь в наших исходных данных появляется третья переменная - пусть это будет «доля сельского населения».

Чисто технически мы можем вычислять каждый парный коэффици­ент корреляции отдельно, но удобнее сразу получить матрицу интер­корреляций (матрицу парных корреляций). Матрица обладает диаго­нальной симметрией. В нашем случае она будет выглядеть следующим образом:

Мы получили статистически значимые коэффициенты корреля­ции, подтверждающие выдвинутую нами гипотезу. Так, доля городского населения оказалась отрицательно связанной как с поддержкой СПС (г= -0,61), так и с поддержкой «Яблока» (г= -0,55). Мож­но заметить, что переменная «поддержка СПС» более чувствительна к фактору урбанизации по сравнению с переменной «поддержка "Яблока"».

Следует отметить, что после чистки выбросов (см. диаграммы рассеяния) связь была бы еще плотнее. Так, после удаления двух выбросов (Самарская области и Усть-Ордынский Бурятский АО) плотности коэффициента для СПС увеличивается до -0,65.

В этом примере мы уже начинаем мыслить в категориях влияния одной переменной на другую. Строго говоря, и это отмечено выше, корреляционный анализ не различает зависимых и независимых пе­ременных, фиксируя лишь их взаимную статистическую связь. В то же время содержательно мы понимаем, что именно принадлежность избирателей к городскому или сельскому населению влияет на их электоральный выбор, а никак не наоборот.

Интерпретация интенсивности связи

Мы подошли к проблеме интерпретации интенсивности связи на ос­нове значения коэффициента корреляции Пирсона.

Определенного жесткого правила здесь не существует; скорее речь идет о совокупном опыте, накопленном в процессе статистических исследований. Тра­диционной можно считать следующую схему интерпретации данного коэффициента:

Необходимо отметить, что подобный вариант интерпретации плотности коэффициента корреляции применим в науках, в гораз­до большей степени опирающихся на количественные данные, не­жели наука политическая (например, в экономике). В эмпиричес­ких исследованиях политики довольно редко можно обнаружить г > 0,7; коэффициент же со значением 0,9 - случай просто уникаль­ный. Это связано прежде всего с особенностями мотивации поли­тического поведения - сложной, многофакторной, нередко ирра­циональной. Ясно, что такое сложное явление, как голосование за определенную политическую партию, не может целиком подчи­няться одному или даже двум факторам. Поэтому применительно к политическим исследованиям предлагаем несколько смягченную схему интерпретации:

0,4 > г> 0,3 - слабая корреляция;

0,6 > г> 0,4 - средняя корреляция;

Г> 0,7 - сильная корреляция.

Существует еще одна полезная процедура, позволяющая оце­нить значимость коэффициента корреляции в процессе вычисле­ния коэффициента детерминации, который представляет собой г, возведенный в квадрат (г 2). Смысл процедуры состоит в том, что при возведении в квадрат низкие коэффициенты потеряют «в весе»

гораздо сильнее, чем высокие. Так, 0,9 2 = 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2 = 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показы­вать долю случаев, которые объясняет определяющая переменная.

В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки вы­бросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2 = 0,42. Несколько упрощая реальное положение дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по ре­гионам России в 1999 г.


1991 1993 1995 19961 1999 2000 2003 2004
1991 1
1993 0,83 1
1995 0,52 0,66 1
1996 0,43 0,47 0,76 і
1999 0,14 0,26 0,61 0,56 1
2000 0,13 0,15 0,34 0,47 0,74 1
2003 0,04 0,13 0,36 0,38 0,81 0,75 1
2004 0,04 0,10 0,11 0,21 0,55 0,66 0,73 1

Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: г= 0,83; 1995-1996: г= 0,76; 1999 - 2000: г = 0,74; 2003 - 2004: г= 0,73). На максимальной времен­ной дистанции - между президентскими и парламентскими выбора­ми 1991 - 1993 и 2003 - 2004 гг. - связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени проис­ходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парла­ментских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определен­ная преемственность обнаруживается на протяжении восьми лет, в те­чение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свиде­тельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электораль­ной культуры территорий.

Другие коэффициенты корреляции

Как было отмечено, коэффициент корреляции Пирсона является наиболее распространенным критерием связи интервальных и нормально распределенных переменных. Но что делать, если мы имеем переменные, существенно отклоняющиеся от нормального распределения? Или переменные не интервальные, но при этом являются метрическими (порядковые переменные с большим чис­лом категорий)?

гораздо сильнее, чем высокие. Так, 0,9 2= 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2= 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показы­вать долю случаев, которые объясняет определяющая переменная.

В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки вы­бросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2= 0,42. Несколько упрощая реальное положе­ние дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по ре­гионам России в 1999 г.

Использование корреляционного анализа для выявления динамики связи переменных во времени

Корреляционный анализ можно использовать не только для обна­ружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной ха­рактеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных ре­гионов России.

Устойчивость пропорционального распределения явки по субъ­ектам Федерации достаточно просто проверяется методом корреля­ционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991 - 2004 гг. довольно четко демонстрирует существующую тенденцию. Статис­тическая связь наиболее сильна внутри одного электорального цик­ла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.

В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).

Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).

Понятие о корреляционном анализе

Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.

Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.

Понятие о ложности корреляции

При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.

В этом случае говорят о ложной корреляции.

Задачи корреляционного анализа

Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.

Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:

  • выявление факторов, оказывающих наибольшее влияние на результативный признак;
  • выявление неизученных ранее причин связей;
  • построение корреляционной модели с ее параметрическим анализом;
  • исследование значимости параметров связи и их интервальная оценка.

Связь корреляционного анализа с регрессионным

Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод

Условия использования метода

Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.

Правила отбора факторов корреляционного анализа

При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.

Отображение результатов

Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.

При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.

Трехмерное представление диаграммы разброса (рассеивания)

Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.

Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.

Оценка тесноты связи

Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.

Пример применения метода корреляционного анализа

В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.

Исходные данные для корреляционного анализа

Профессиональная группа

смертность

Фермеры, лесники и рыбаки

Шахтеры и работники карьеров

Производители газа, кокса и химических веществ

Изготовители стекла и керамики

Работники печей, кузнечных, литейных и прокатных станов

Работники электротехники и электроники

Инженерные и смежные профессии

Деревообрабатывающие производства

Кожевенники

Текстильные рабочие

Изготовители рабочей одежды

Работники пищевой, питьевой и табачной промышленности

Производители бумаги и печати

Производители других продуктов

Строители

Художники и декораторы

Водители стационарных двигателей, кранов и т. д.

Рабочие, не включенные в другие места

Работники транспорта и связи

Складские рабочие, кладовщики, упаковщики и работники разливочных машин

Канцелярские работники

Продавцы

Работники службы спорта и отдыха

Администраторы и менеджеры

Профессионалы, технические работники и художники

Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).

Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.

С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.

Использование ПО при проведении корреляционного анализа

Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:

1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.

Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.

Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».

После указания исходных данных получаем график.

2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).

3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.

В заключение

Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.

После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.