Что изучает корреляционный анализ. Корреляция метрических переменных. Использование ПО при проведении корреляционного анализа
– это один из самых распространенных методов изучения отношений между численными величинами. Его основная цель состоит в нахождении зависимости между двумя параметрами и ее степени с последующим выведением уравнения. Например, у нас есть студенты, которые сдали экзамен по математике и английскому языку. Мы можем использовать корреляцию для того, чтобы определить, влияет ли успешность сдачи одного теста на результаты по другому предмету. Что касается регрессионного анализа, то он помогает предсказать оценки по математике, исходя из баллов, набранных на экзамене по английскому языку, и наоборот.
Что такое корреляционная диаграмма?
Любой анализ начинается со сбора информации. Чем ее больше, тем точнее полученный в конечном итоге результат. В вышеприведенном примере у нас есть две дисциплины, по которым школьникам нужно сдать экзамен. Показатель успешности на них – это оценка. Корреляционно-регрессионный анализ показывает, влияет ли результат по одному предмету на баллы, набранные на втором экзамене. Для того чтобы ответить на этот вопрос, необходимо проанализировать оценки всех учеников на параллели. Но для начала нужно определиться с зависимой переменной. В данном случае это не так важно. Допустим, экзамен по математике проходил раньше. Баллы по нему – это независимая переменная (откладываются по оси абсцисс). Английский язык стоит в расписании позже. Поэтому оценки по нему – это зависимая переменная (откладываются по оси ординат). Чем больше полученный таким образом график похож на прямую линию, тем сильнее линейная корреляция между двумя избранными величинами. Это означает, что отличники в математике с большой долей вероятности получат пятерки на экзамене по английскому.
Допущения и упрощения
Метод корреляционно-регрессионного анализа предполагает нахождение причинно-следственной связи. Однако на первом этапе нужно понимать, что изменения обеих величин могут быть обусловлены какой-нибудь третьей, пока не учтенной исследователем. Также между переменными могут быть нелинейные отношения, поэтому получение коэффициента, равного нулю, это еще не конец эксперимента.
Линейная корреляция Пирсона
Данный коэффициент может использоваться при соблюдении двух условий. Первое – все значения переменных являются рациональными числами, второе – ожидается, что величины изменяются пропорционально. Данный коэффициент всегда находится в пределах между -1 и 1. Если он больше нуля, то имеет место быть прямо пропорциональная зависимость, меньше – обратно, равен – данные величины никак не влияют одна на другую. Умение вычислить данный показатель – это основы корреляционно-регрессионного анализа. Впервые данный коэффициент был разработан Карлом Пирсоном на основе идеи Френсиса Гальтона.
Свойства и предостережения
Коэффициент корреляции Пирсона является мощным инструментом, но его также нужно использовать с осторожностью. Существуют следующие предостережения в его применении:
- Коэффициент Пирсона показывает наличие или отсутствие линейной зависимости. Корреляционно-регрессионный анализ на этом не заканчивается, может оказаться, что переменные все-таки связаны между собой.
- Нужно быть осторожным в интерпретировании значения коэффициента. Можно найти корреляцию между размером ноги и уровнем IQ. Но это не означает, что один показатель определяет другой.
- Коэффициент Пирсона не говорит ничего о причинно-следственной связи между показателями.
Коэффициент ранговой корреляции Спирмана
Если изменение величины одного показателя приводит к увеличению или уменьшению значения другого, то это означает, что они являются связанными. Корреляционно-регрессионный анализ, пример которого будет приведен ниже, как раз и связан с такими параметрами. Ранговый коэффициент позволяет упростить расчеты.
Корреляционно-регрессионный анализ: пример
Предположим, происходит оценка эффективности деятельности десяти предприятий. У нас есть двое судей, которые выставляют им баллы. Корреляционно-регрессионный анализ предприятия в этом случае не может быть проведен на основе линейного коэффициента Пирсона. Нас не интересует взаимосвязь между оценками судей. Важны ранги предприятий по оценке судей.
Данный тип анализа имеет следующие преимущества:
- Непараметрическая форма отношений между исследуемыми величинами.
- Простота использования, поскольку ранги могут приписываться как в порядке возрастания значений, так и убывания.
Единственное требование данного типа анализа – это необходимость конвертации исходных данных.
Проблемы применения
В основе корреляционно-регрессионного анализа лежат следующие предположения:
- Наблюдения считаются независимыми (пятикратное выпадение «орла» никак не влияет на результат следующего подбрасывания монетки).
- В корреляционном анализе обе переменные рассматриваются как случайные. В регрессионном – только одна (зависимая).
- При проверке гипотезы должно соблюдаться нормальное распределение. Изменение зависимой переменной должно быть одинаковым для каждой величины на оси абсцисс.
- Корреляционная диаграмма – это только первая проверка гипотезы о взаимоотношениях между двумя рядами параметров, а не конечный результат анализа.
Зависимость и причинно-следственная связь
Предположим, мы вычислили коэффициент корреляции объема экспорта и ВВП. Он оказался равным единице по модулю. Провели ли мы корреляционно-регрессионный анализ до конца? Конечно же нет. Полученный результат вовсе не означает, что ВВП можно выразить через экспорт. Мы еще не доказали причинно-следственную связь между показателями. Корреляционно-регрессионный анализ – прогнозирование значений одной переменной на основе другой. Однако нужно понимать, что зачастую на параметр влияет множество факторов. Экспорт обуславливает ВВП, но не только он. Есть и другие факторы. Здесь имеет место быть и корреляция, и причинно-следственная связь, хотя и с поправкой на другие составляющие валового внутреннего продукта.
Гораздо опаснее другая ситуация. В Великобритании был проведен опрос, который показал, что дети, родители которых курили, чаще являются правонарушителями. Такой вывод сделан на основе сильной корреляции между показателя. Однако правилен ли он? Во-первых, зависимость могла быть обратной. Родители могли начать курить из-за стресса от того, что их дети постоянно попадают в переделки и нарушают закон. Во-вторых, оба параметра могут быть обусловлены третьим. Такие семьи принадлежат к низким социальным классам, для которых характерны обе проблемы. Поэтому на основе корреляции нельзя сделать вывод о наличии причинно-следственной связи.
Зачем использовать регрессионный анализ?
Корреляционная зависимость предполагает нахождение отношений между величинами. Причинно-следственная связь в этом случае остается за кадром. Задачи корреляционного и регрессионного анализа совпадают только в плане подтверждения наличия зависимости между значениями двух величин. Однако первоначально исследователь не обращает внимания на возможность причинно-следственной связи. В регрессионном анализе всегда есть две переменные, одна и которых является зависимой. Он проходит в несколько этапов:
- Выбор правильной модели с помощью метода наименьших квадратов.
- Выведение уравнения, описывающего влияние изменения независимой переменной на другую.
Например, если мы изучаем влияние возраста на рост человека, то регрессионный анализ может помочь предсказать изменения с течением лет.
Линейная и множественная регрессия
Предположим, что X и Y – это две связанные переменные. Регрессионный анализ позволяет предсказать величину одной из них на основе значений другой. Например, зрелость и возраст – это зависимые признаки. Зависимость между ними отражается с помощью линейной регрессии. Фактически можно выразить X через Y или наоборот. Но зачастую только одна из линий регрессии оказывается правильной. Успех анализа во многом зависит от правильности определения независимой переменной. Например, у нас есть два показателя: урожайность и объем выпавших осадков. Из житейского опыта становится ясно, что первое зависит от второго, а не наоборот.
Множественная регрессия позволяет рассчитать неизвестную величину на основе значений трех и более переменных. Например, урожайность риса на акр земли зависит от качества зерна, плодородности почвы, удобрений, температуры, количества осадков. Все эти параметры влияют на совокупный результат. Для упрощения модели используются следующие допущения:
- Зависимость между независимой и влияющими на нее характеристиками является линейной.
- Мультиколлинеарность исключена. Это означает, что зависимые переменные не связаны между собой.
- Гомоскедастичность и нормальность рядов чисел.
Применение корреляционно-регрессионного анализа
Существует три основных случая использования данного метода:
- Тестирование казуальных отношений между величинами. В этом случае исследователь определяет значения переменной и выясняет, влияют ли они на изменение зависимой переменной. Например, можно дать людям разные дозы алкоголя и измерить их артериальное давление. В этом случае исследователь точно знает, что первое является причиной второго, а не наоборот. Корреляционно-регрессионный анализ позволяет обнаружить прямо-пропорциональную линейную зависимость между данными двумя переменными и вывести формулу, ее описывающую. При этом сравниваться могут величины, выраженные в совершенно различных единицах измерения.
- Нахождение зависимости между двумя переменными без распространения на них причинно-следственной связи. В этом случае нет разницы, какую величину исследователь назовет зависимой. При этом в реальности может оказаться, что на их обе влияет третья переменная, поэтому они и изменяются пропорционально.
- Расчет значений одной величины на основе другой. Он осуществляется на основе уравнения, в которое подставляются известные числа.
Таким образом корреляционный анализ предполагает нахождение связи (не причинно-следственной) между переменными, а регрессионный – ее объяснение, зачастую с помощью математической функции.
В научных исследованиях часто возникает необходимость в нахождении связи между результативными и факторными переменными (урожайностью какой-либо культуры и количеством осадков, ростом и весом человека в однородных группах по полу и возрасту, частотой пульса и температурой тела и т.д.).
Вторые представляют собой признаки, способствующие изменению таковых, связанных с ними (первыми).
Понятие о корреляционном анализе
Существует множество Исходя из вышеизложенного, можно сказать, что корреляционный анализ — это метод, применяющийся с целью проверки гипотезы о статистической значимости двух и более переменных, если исследователь их может измерять, но не изменять.
Есть и другие определения рассматриваемого понятия. Корреляционный анализ — это метод обработки заключающийся в изучении коэффициентов корреляции между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков, для установления между ними статистических взаимосвязей. Корреляционный анализ — это метод по изучению статистической зависимости между случайными величинами с необязательным наличием строгого функционального характера, при которой динамика одной случайной величины приводит к динамике математического ожидания другой.
Понятие о ложности корреляции
При проведении корреляционного анализа необходимо учитывать, что его можно провести по отношению к любой совокупности признаков, зачастую абсурдных по отношению друг к другу. Порой они не имеют никакой причинной связи друг с другом.
В этом случае говорят о ложной корреляции.
Задачи корреляционного анализа
Исходя из приведенных выше определений, можно сформулировать следующие задачи описываемого метода: получить информацию об одной из искомых переменных с помощью другой; определить тесноту связи между исследуемыми переменными.
Корреляционный анализ предполагает определение зависимости между изучаемыми признаками, в связи с чем задачи корреляционного анализа можно дополнить следующими:
- выявление факторов, оказывающих наибольшее влияние на результативный признак;
- выявление неизученных ранее причин связей;
- построение корреляционной модели с ее параметрическим анализом;
- исследование значимости параметров связи и их интервальная оценка.
Связь корреляционного анализа с регрессионным
Метод корреляционного анализа часто не ограничивается нахождением тесноты связи между исследуемыми величинами. Иногда он дополняется составлением уравнений регрессии, которые получают с помощью одноименного анализа, и представляющих собой описание корреляционной зависимости между результирующим и факторным (факторными) признаком (признаками). Этот метод в совокупности с рассматриваемым анализом составляет метод
Условия использования метода
Результативные факторы зависят от одного до нескольких факторов. Метод корреляционного анализа может применяться в том случае, если имеется большое количество наблюдений о величине результативных и факторных показателей (факторов), при этом исследуемые факторы должны быть количественными и отражаться в конкретных источниках. Первое может определяться нормальным законом — в этом случае результатом корреляционного анализа выступают коэффициенты корреляции Пирсона, либо, в случае, если признаки не подчиняются этому закону, используется коэффициент ранговой корреляции Спирмена.
Правила отбора факторов корреляционного анализа
При применении данного метода необходимо определиться с факторами, оказывающими влияние на результативные показатели. Их отбирают с учетом того, что между показателями должны присутствовать причинно-следственные связи. В случае создания многофакторной корреляционной модели отбирают те из них, которые оказывают существенное влияние на результирующий показатель, при этом взаимозависимые факторы с коэффициентом парной корреляции более 0,85 в корреляционную модель предпочтительно не включать, как и такие, у которых связь с результативным параметром носит непрямолинейный или функциональный характер.
Отображение результатов
Результаты корреляционного анализа могут быть представлены в текстовом и графическом видах. В первом случае они представляются как коэффициент корреляции, во втором — в виде диаграммы разброса.
При отсутствии корреляции между параметрами точки на диаграмме расположены хаотично, средняя степень связи характеризуется большей степенью упорядоченности и характеризуется более-менее равномерной удаленностью нанесенных отметок от медианы. Сильная связь стремится к прямой и при r=1 точечный график представляет собой ровную линию. Обратная корреляция отличается направленностью графика из левого верхнего в нижний правый, прямая — из нижнего левого в верхний правый угол.
Трехмерное представление диаграммы разброса (рассеивания)
Помимо традиционного 2D-представления диаграммы разброса в настоящее время используется 3D-отображение графического представления корреляционного анализа.
Также используется матрица диаграммы рассеивания, которая отображает все парные графики на одном рисунке в матричном формате. Для n переменных матрица содержит n строк и n столбцов. Диаграмма, расположенная на пересечении i-ой строки и j-ого столбца, представляет собой график переменных Xi по сравнению с Xj. Таким образом, каждая строка и столбец являются одним измерением, отдельная ячейка отображает диаграмму рассеивания двух измерений.
Оценка тесноты связи
Теснота корреляционной связи определяется по коэффициенту корреляции (r): сильная — r = ±0,7 до ±1, средняя — r = ±0,3 до ±0,699, слабая — r = 0 до ±0,299. Данная классификация не является строгой. На рисунке показана несколько иная схема.
Пример применения метода корреляционного анализа
В Великобритании было предпринято любопытное исследование. Оно посвящено связи курения с раком легких, и проводилось путем корреляционного анализа. Это наблюдение представлено ниже.
Профессиональная группа | смертность |
|
Фермеры, лесники и рыбаки | ||
Шахтеры и работники карьеров | ||
Производители газа, кокса и химических веществ | ||
Изготовители стекла и керамики | ||
Работники печей, кузнечных, литейных и прокатных станов | ||
Работники электротехники и электроники | ||
Инженерные и смежные профессии | ||
Деревообрабатывающие производства | ||
Кожевенники | ||
Текстильные рабочие | ||
Изготовители рабочей одежды | ||
Работники пищевой, питьевой и табачной промышленности | ||
Производители бумаги и печати | ||
Производители других продуктов | ||
Строители | ||
Художники и декораторы | ||
Водители стационарных двигателей, кранов и т. д. | ||
Рабочие, не включенные в другие места | ||
Работники транспорта и связи | ||
Складские рабочие, кладовщики, упаковщики и работники разливочных машин | ||
Канцелярские работники | ||
Продавцы | ||
Работники службы спорта и отдыха | ||
Администраторы и менеджеры | ||
Профессионалы, технические работники и художники |
Начинаем корреляционный анализ. Решение лучше начинать для наглядности с графического метода, для чего построим диаграмму рассеивания (разброса).
Она демонстрирует прямую связь. Однако на основании только графического метода сделать однозначный вывод сложно. Поэтому продолжим выполнять корреляционный анализ. Пример расчета коэффициента корреляции представлен ниже.
С помощью программных средств (на примере MS Excel будет описано далее) определяем коэффициент корреляции, который составляет 0,716, что означает сильную связь между исследуемыми параметрами. Определим статистическую достоверность полученного значения по соответствующей таблице, для чего нам нужно вычесть из 25 пар значений 2, в результате чего получим 23 и по этой строке в таблице найдем r критическое для p=0,01 (поскольку это медицинские данные, здесь используется более строгая зависимость, в остальных случаях достаточно p=0,05), которое составляет 0,51 для данного корреляционного анализа. Пример продемонстрировал, что r расчетное больше r критического, значение коэффициента корреляции считается статистически достоверным.
Использование ПО при проведении корреляционного анализа
Описываемый вид статистической обработки данных может осуществляться с помощью программного обеспечения, в частности, MS Excel. Корреляционный предполагает вычисление следующих парамет-ров с использованием функций:
1. Коэффициент корреляции определяется с помощью функции КОРРЕЛ (массив1; массив2). Массив1,2 — ячейка интервала значений результативных и факторных переменных.
Линейный коэффициент корреляции также называется коэффициентом корреляции Пирсона, в связи с чем, начиная с Excel 2007, можно использовать функцию с теми же массивами.
Графическое отображение корреляционного анализа в Excel производится с помощью панели «Диаграммы» с выбором «Точечная диаграмма».
После указания исходных данных получаем график.
2. Оценка значимости коэффициента парной корреляции с использованием t-критерия Стьюдента. Рассчитанное значение t-критерия сравнивается с табличной (критической) величиной данного показателя из соответствующей таблицы значений рассматриваемого параметра с учетом заданного уровня значимости и числа степеней свободы. Эта оценка осуществляется с использованием функции СТЬЮДРАСПОБР (вероятность; степени_свободы).
3. Матрица коэффициентов парной корреляции. Анализ осуществляется с помощью средства «Анализ данных», в котором выбирается «Корреляция». Статистическую оценку коэффициентов парной корреляции осуществляют при сравнении его абсолютной величины с табличным (критическим) значением. При превышении расчетного коэффициента парной корреляции над таковым критическим можно говорить, с учетом заданной степени вероятности, что нулевая гипотеза о значимости линейной связи не отвергается.
В заключение
Использование в научных исследованиях метода корреляционного анализа позволяет определить связь между различными факторами и результативными показателями. При этом необходимо учитывать, что высокий коэффициент корреляции можно получить и из абсурдной пары или множества данных, в связи с чем данный вид анализа нужно осуществлять на достаточно большом массиве данных.
После получения расчетного значения r его желательно сравнить с r критическим для подтверждения статистической достоверности определенной величины. Корреляционный анализ может осуществляться вручную с использованием формул, либо с помощью программных средств, в частности MS Excel. Здесь же можно построить диаграмму разброса (рассеивания) с целью наглядного представления о связи между изучаемыми факторами корреляционного анализа и результативным признаком.
Математические методы анализа и прогнозирования
Корреляционный анализ
Введение
2. Регрессионный анализ
3. Факторный анализ
4. Кластерный анализ
5. Анализ динамики и прогнозирования социально-правовых процессов
Заключение
Между социально-экономическими явлениями и процессами возможны два вида зависимости: функциональная и стохастическая. При или иных параметров, характеризующих различные явления. Примеры такого рода зависимостей в социальной среде практически не встречаются.
При стохастической (вероятностной) зависимости конкретному значению зависимой переменной соответствует набор значений объясняющей переменной. Это связано, прежде всего, с тем, что на зависимую переменную оказывает влияние ряд неучтенных факторов. Кроме того, сказываются ошибки измерения переменных: вследствие случайного разброса значений их значения могут быть указаны лишь с определенной вероятностью.
В социально-экономической сфере приходится сталкиваться со многими явлениями, имеющими вероятностную природу. Так, число совершенных и раскрытых преступлений за фиксированный отрезок времени, число дорожно-транспортных происшествий в каком-либо регионе за определенное время - все это случайные величины.
Для изучения стохастических взаимосвязей существуют специальные методы, в частности корреляционный анализ ("корреляция" соотношение, связь между имеющимися явлениями и процессами).
Корреляционный анализ - это использование в определенной последовательности совокупности статистических методов обработки информации, позволяющее исследовать взаимосвязи между различными признаками.
Задачей корреляционного анализа как метода математической статистики является установление формы и направления связи, а также измерение тесноты этой связи между изучаемыми случайными признаками.
В статистике величина линейной зависимости между двумя признаками измеряется посредством простого (выборочного) коэффициента корреляции . Величина линейной зависимости одной переменной от нескольких других измеряется коэффициентом множественной ми после устранение части линейной зависимости, обусловленной связью этих переменных с другими переменными.
По форме корреляционные связи могут быть линейными (прямолинейными) и нелинейными (криволинейными), а по направлению
Прямая связь свидетельствует о том, что с увеличением (уменьшением) значений одного признака увеличиваются (уменьшаются) значения другого признака. При обратной связи увеличение (уменьшение) значений одного признака ведет к уменьшению (увеличению) значений другого признака.
Главная задача корреляционного анализа - измерение тесноты связи - решается путем вычисления различных коэффициентов корреляции и проверки их значимости.
Коэффициент корреляции может принимать значения при прямой связи от 0 до +1, а при обратной от -1 до 0. При коэффициентах, близких к 0, считается, что статистическая линейная связь между признаками отсутствует; при абсолютных значениях коэффициентов, меньших 0,3, - связь слабая; при значениях 0,3...0,5 связь умеренная; при 0,5...0,7 - связь значительная; при 0,7...0,9 - связь сильная; если значения коэффициентов больше 0,9, то связь считается очень сильной; если коэффициенты равны +1 или -1, то говорится о функциональной связи (что практически не встречается в статистических исследованиях).
Однако такая упрощенная оценка силы связи не всегда корректна, так как степень уверенности в наличии статистической связи зависит от объема исследуемой совокупности. Чем меньше объем совокупности, тем большим должно быть значение коэффициента корреляции для принятия гипотезы о существовании зависимости между признаками. С целью количественного измерения степени уверенности в существовании линейной статистической связи между признаками введены понятия уровня значимости и пороговых (критических) значений коэффициента корреляции.
Проверка значимости полученного коэффициента корреляции состоит в сравнении расчетного значения с критическим. При данном числе измерений и задаваемом уровне значимости находится критическое значение, которое сравнивается с расчетным. Если расчетное больше критического, то связь значима, если меньше, то связь или отсутствует (а такое значение коэффициента корреляции объясняется случайными отклонениями), или выборка мала для ее выявления.
Для определения существования и величины линейной зависимости между двумя переменными X и Y необходимо осуществить две процедуры. Первая заключается в графическом отображении точек [{Xi,Yi},i=1,n] на плоскость . Полученный график называется допустимости предположения о линейной зависимости между переменными. Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого используется выборочный коэффициент корреляции:
где n - количество измерений, Xi,Yi - i-е значения, X,Y - средние значения, sx, sy - среднеквадратические отклонения переменных X и Y соответственно.
В теории статистического анализа корреляционная связь определяется как линейная зависимость в условиях нормальности распределения анализируемых переменных. Поэтому для корректного применения корреляционных методов необходимо обосновать близость распределения переменных к нормальному и формы связи к линейной. В противном случае необходимо применять более сложные приемы анализа или другие коэффициенты связи.
Достаточно простой в вычислительном отношении способ проверки нормальности эмпирического распределения состоит в оценке следующего отношения:
,
где C - среднее абсолютное отклонение, s - среднеквадратическое отклонение.
Если указанное неравенство выполняется, то можно говорить о нормальности эмпирических распределений и корректности применения коэффициента корреляции как меры линейной статистической связи между переменными.
В общем случае на уровень преступности влияет множество факторных признаков. К ним относятся социально-экономические, географические и климатические, демографические и др., а также признаки, характеризующие силы и средства, степень организованности органа внутренних дел.
Однако даже при наличии сильной статистически значимой связи между двумя переменными нельзя быть полностью уверенным в их причинно-следственной обусловленности, так как могут существовать другие причины (факторы), определяющие их совместную статистическую взаимосвязь. Статистические выводы должны быть всегда обоснованы надежной теоретической концепцией.
В то же время отсутствие статистически значимой связи не говорит об отсутствии причинно-следственных отношений, а заставляет искать другие пути и средства ее выявления, если содержательная концепция и практический опыт указывают на ее возможное существование.
Понятие взаимосвязи довольно распространено в психологических исследованиях. С ним приходится оперировать психологу тогда, когда появляется необходимость сопоставить измерения двух или нескольких показателей признаков или явлений, чтобы сделать какие-либо выводы.
Характер взаимосвязи между изучаемыми явлениями может быть однозначным, т.е. таким, когда определенному значению одною признака соответствует четкое и определенное значение другого. Так, например, в субтесте на поиск закономерностей тестов психических функций количество набранных «сырых» баллов определяется по формуле:
Xi = Sтз - Sоз / Sтз + Sпз * Sbс,
где Xi - значение варианты, Sтз - количество априорно заданных закономерностей (соответствий) в субтесте, Sоз - количество ошибочно указанных соответствий испытуемым, Sоз - количество не указанных (пропущенных) соответствий испытуемым, Sbс - количество всех просмотренных испытуемыми слов в тесте.
Такая взаимосвязь получила название функциональной: здесь один показатель является функцией другого, который представляет собой аргумент по отношению к первому.
Однако однозначная четкая взаимосвязь встречается не всегда. Чаще приходится сталкиваться с таким положением, при котором одному значению признака могут соответствовать несколько значений другого. Эти значения варьируют в пределах более или менее очерченных границ. Такой вид взаимосвязи получил название корреляционной или соотносительной.
Применяется несколько видов выражения корреляционной взаимосвязи. Так, для выражения взаимосвязи между признаками, имеющими количественный характер варьирования своих значений, используют меры центральной тенденции: табулирование с последующим вычислением коэффициента парной корреляции, коэффициент множественной и частной корреляции, коэффициент множественной детерминации, корреляционное отношение.
Если необходимо изучить взаимосвязь между признаками, варьирование которых носит качественный характер (результаты проективных методов исследования личности, исследования по методу Семантического дифференциала, исследования с использованием Открытых шкал и т.д.), то используют коэффициент качественной альтернативной корреляции (тетрахорический показатель), критерий Пирсона x2, показатели сопряженности (контингенции) Пирсона и Чупрова.
Для определения качественно-количественной корреляции, т.е. такой корреляции, когда один признак имеет качественное варьирование, а другой - количественное.применяются специальные методы.
Коэффициент корреляции (термин впервые введен Ф. Гальто-ном в 1888 г.) - показатель силы связи между двумя сопоставляемыми вариантами выборки (выборок). По какой бы формуле не вычислялся коэффициент корреляции, его величина колеблется в пределах от -1 до +1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. Обычно это прямая линия, проходящая через точки пересечения значений каждой пары данных.
Если значения вариант не выстраиваются на прямой, а образуют «облако», то коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления «облака» приближается к нулю. Если коэффициент корреляции равен 0, обе варианты полностью независимы друг от друга.
Всякое вычисленное (эмпирическое) значение коэффициента корреляции должно быть проверено на достоверность (статистическую значимость) по соответствующим таблицам критических значений коэффициента корреляции. Если эмпирическое значение меньше или равно табличному для 5-процентного уровня (Р = 0,05), корреляция не является значимой. Если вычисленное значение коэффициента корреляции больше табличного для Р = 0,01, корреляция статистически значима (достоверна).
В случае, когда величина коэффициента заключена между 0,05 > Р > 0.01, на практике говорят о значимости корреляции для Р = 0,05.
Коэффициент корреляции Браве-Пирсона (г) - это предложенный в 1896 г. параметрический показатель, для вычисления которого сравнивают средние арифметические и средние квадратические значения вариант. Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,
где E Xi Xi1 - сумма произведений значений попарно сопоотавимых вариантов, n-колличество сравниваемых пар, NXap, X1ap - средние арифметические вариант Xi, Xi; соответственно, Qx, Qx, -средние квадратические отклонения распределений х и х.
Коэффициент корреляции рангов Спирмена Rs (коэффициент ранговой корреляции, коэффициент Спирмена) является простейшей формой коэффициента корреляции и измеряет связь между рангами (местами) данной варианты по разным признакам, не учитывая ее собственного значения. Здесь исследуется скорее качественная связь, чем количественная.
Обычно этот непараметрический критерий используется в случаях, когда нужно сделать выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения крайне асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент корреляции Браве-Пирсона (в этих случаях бывает необходимо превратить количественные данные в порядковые). Если коэффициент Rs близок к +1, то это означает, что два ряда ранжированной по тем или иным признакам выборки практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.
Как и вычисление коэффициента корреляции Браве-Пирсона, вычисления коэффициента Rs удобнее представлять в табличной форме.
Регрессия обобщает понятие функциональной взаимосвязи на случай стохастического (вероятностного) характера зависимости между значениями вариант. Целью решения категории регрессионных задач является оценка значения непрерывной выходной вариативности по значениям входных вариант.
Корреляционный анализ является одним из наиболее широко используемых статистических методов, в частности и в рамках политической науки. При своей относительной простоте он может быть весьма полезен как для тестирования имеющихся гипотез, так и в поисковом исследовании, когда предположения о связях и взаимозависимостях только формируются.
Умение работать с данной статистической техникой важно и в силу того, что она используется как составная часть более сложных, комплексных методов, в том числе факторного анализа, некоторых версий кластер-анализа и др.
Целью корреляционного анализа является измерение статистической взаимозависимости между двумя или более переменными. В случае, если исследуется связь двух переменных, корреляционный анализ будет парным; если число переменных более двух - множественным.
Следует подчеркнуть, что переменные в корреляционном анализе как бы «равноправны» - они не делятся на зависимые и независимые (объясняемые и объясняющие). Мы рассматриваем именно взаимозависимость (взаимосвязь) переменных, а не влияние одной из них на другую.
Понятие «корреляционный анализ» фактически объединяет несколько методов анализа статистической связи. В фокусе нашего внимания будет находиться наиболее распространенный из них - метод Пирсона (Pearson) . Его применение ограничено следующими условиями:
Переменные должны быть измерены, как минимум, на интервальном уровне;
Связь между переменными должна носить линейный характер, т.е. фиксироваться прямой линией. При наличии нелинейной связи корреляционный анализ Пирсона, скорее всего, не даст ее адекватного отображения;
Коэффициент Пирсона вычисляется по следующей формуле: ,
где Xj и у/ - значения двух переменных, х и у - их средние значения, sx и sy - их стандартные отклонения; п - количество пар значений.
Анализируемые переменные должны быть распределены нормально (или, во всяком случае, приближаться к нормальному распределению).
Корреляционный анализ фиксирует две характеристики статистической взаимосвязи между переменными:
Направленность связи. Как уже говорилось, по направленности связь бывает прямая (положительная) и обратная (отрицательная);
Интенсивность (плотность, теснота) связи. Эта характеристика определяет наши возможности по предсказанию значений одной переменной на основании значений другой.
Чтобы более наглядно представить себе особенности корреляционного анализа, обратимся к примеру из сферы исследования электоральных процессов. Предположим, мы проводим сравнительный анализ электората двух политических партий либеральной ориентации - Союза правых сил и «Яблока». Наша задача - понять, существует ли общность электората СПС и «Яблока» в территориальном разрезе и насколько она значима. Для этого мы можем, например, взять данные электоральной статистики, характеризующие уровень поддержки этих партий, в разрезе данных избирательных комиссий субъектов Федерации. Проще говоря, мы смотрим на проценты, полученные СПС и «Яблоком» по регионам России. Ниже приводятся данные по выборам депутатов Государственной думы 1999 г. (количество регионов 88, поскольку выборы в Чеченской Республике не проводились).
Случай | Переменные (%) | |
«Яблоко» | СПС | |
Республика Адыгея | 4,63 | 3,92 |
Республика Алтай | 3,38 | 5,40 |
Республика Башкортостан | 3,95 | 6,04 |
Республика Бурятия | 3,14 | 8,36 |
Республика Дагестан | 0,39 | 1,22 |
Республика Ингушетия | 2,89 | 0,38 |
Кабардино-Балкарская Республика | 1,38 | 1,30 |
Республика Калмыкия | 3,07 | 3,80 |
Карачаево-Черкесская Республика | 4,17 | 2,94 |
Республика Карелия | 9,66 | 10,25 |
Республика Коми | 8,91 | 9,95 |
Республика Марий Эл | 4,68 | bgcolor=white>7.24|
И т.д. (всего 88 случаев) |
Таким образом, у нас есть две переменные - «поддержка СПС в 1999 г.» и «поддержка "Яблока" в 1999 г.», простейшим образом операционализированные через процент голосов, поданных за эти партии, от числа избирателей, принявших участие в голосовании на федеральных парламентских выборах 1999 г. В качестве случаев выступают соответствующие данные, обобщенные на уровне регионов РФ.
Далее, в нашем распоряжении есть методический прием, который является одним из основных в статистике, - геометрическое представление. Геометрическим представлением называют представление случая как точки в условном пространстве, формируемом «осями» - переменными. В нашем примере мы можем представить каждый регион как точку в двухмерном пространстве голосований за правые партии. Ось Сформирует признак «поддержка СПС», ось Г- «поддержка "Яблока"» (или наоборот; для корреляционного анализа это неважно в силу неразличения зависимых и независимых переменных). «Координатами» региона будут: по оси X- значение переменной «поддержка СПС» (процент, набранный в регионе данной партией); по оси Г- значение переменной «поддержка "Яблока"». Так, Республика Адыгея будет иметь координаты (3,92; 4,63), Республика Алтай - (3,38; 5,4) и т.д. Осуществив геометрическое представление всех случаев, мы получаем диаграмму рассеяния, или корреляционное поле.
Даже сугубо визуальный анализ диаграммы рассеяния наводит на мысль, что совокупность точек можно расположить вдоль некоторой условной прямой, называемой линией регрессии. Математически линия регрессии строится методом наименьших квадратов (высчитывается такое положение линии, при котором сумма квадратов расстояний от наблюдаемых точек до прямой является минимальной).
Интенсивность связи будет зависеть от того, насколько тесно точки (случаи) расположены вдоль линии регрессии. В коэффициенте корреляции (обозначается г), который и является числовым результатом корреляционного анализа, плотность колеблется от 0 до 1. При этом чем ближе значение коэффициента к 1, тем плотнее связь; чем ближе значение к 0, тем связь слабее. Так, при г= 1 связь приобретает характер функциональной - все точки «ложатся» на одну прямую. При г = 0, фиксирующем полное отсутствие связи, построение линии регрессии становится невозможным. В нашем примере г = 0,62, что свидетельствует о наличии значимой статистической связи (подробнее об интерпретации коэффициента корреляции см. ниже).
Тип связи определяется наклоном линии регрессии. В коэффициенте корреляции существует всего два значения типа связи: обратная (знак «-») и прямая (отсутствие знака, так как знак « + » традиционно не записывается). В нашем примере связь прямая. Соответственно, итоговый результат анализа 0,62.
Сегодня коэффициент корреляции Пирсона можно легко подсчитать с помощью всех компьютерных пакетов программ статистического анализа (SPSS, Statistica, NCSS и др.) и даже в широко распространенной программе Excel (надстройка «анализ данных»). Настоятельно рекомендуем пользоваться профессиональными пакетами, так как они позволяют визуально оценить корреляционное поле.
Почему важна визуальная оценка геометрического представления данных? Во-первых, мы должны убедиться, что связь линейна по форме, а здесь самый простой и эффективный метод - именно зрительная оценка. Напомним, что в случае ярко выраженной нелинейности связи вычисление коэффициента корреляции окажется бесполезным. Во-вторых, визуальная оценка позволяет найти в данных выбросы, т.е. нетипичные, резко выделяющиеся случаи.
Вернемся к нашему примеру с двумя партиями. Внимательно глядя на диаграмму рассеяния, мы замечаем по меньшей мере один нетипичный случай, лежащий явно в стороне от «общей магистрали», тенденции связи переменных. Это точка, представляющая данные по Самарской области. Хотя и в меньшей степени, но тоже нетипично положение Томской, Нижегородской областей и Санкт- Петербурга.
Можно скорректировать данные анализа, удалив сильно отклоняющиеся наблюдения, т.е. произведя «чистку выбросов». В силу специфики вычисления линии регрессии, связанной с подсчетом суммы квадратов расстояний, даже единичный выброс может существенно исказить общую картину.
Удалив только один из 88 случаев - Самарскую область, - мы получим значение коэффициента корреляции, отличное от полученного ранее: 0,73 по сравнению с 0,62. Плотность связи усилилась более чем на 0,1 - это весьма и весьма существенно. Избавившись отточек, соответствующих Санкт-Петербургу, Томской и Нижегородской областям, получим еще более высокую плотность: 0,77.
Впрочем, чисткой выбросов не следует увлекаться: сокращая количество случаев, мы понижаем общий уровень статистического доверия к полученным результатам. К сожалению, общепринятых критериев определения выбросов не существует, и здесь многое зависит от добросовестности исследователя. Лучший способ - содержательно понять, с чем связано наличие «выброса». Так, в нашем примере нетипичное положение Самарской области в признаковом пространстве связано с тем, что в 1999 г. одним из активных лидеров правых был глава региона К. Титов. Соответственно, высокий результат СПС в регионе был обусловлен не только поддержкой партии как таковой, но и поддержкой губернатора.
Возвратимся к нашему исследованию. Мы выяснили, что голосование за СПС и «Яблоко» довольно плотно коррелирует между собой на массиве данных, взятых в территориальном разрезе. Логично предположить, что в основе этой связи лежит некий фактор или комплекс факторов, который мы пока непосредственно не учитывали. Исследуя данные электоральной статистики разного уровня, нетрудно заметить, что обе партии демонстрируют лучшие результаты в городах и худшие - в сельских районах. Мы можем выдвинуть гипотезу, что одним из факторов, опосредующих связь между переменными, является уровень урбанизации территорий. Этот признак проще всего операционализировать через переменную «доля сельского населения» или «доля городского населения». Такая статистика существует по каждому субъекту Федерации.
Теперь в наших исходных данных появляется третья переменная - пусть это будет «доля сельского населения».
Чисто технически мы можем вычислять каждый парный коэффициент корреляции отдельно, но удобнее сразу получить матрицу интеркорреляций (матрицу парных корреляций). Матрица обладает диагональной симметрией. В нашем случае она будет выглядеть следующим образом:
Мы получили статистически значимые коэффициенты корреляции, подтверждающие выдвинутую нами гипотезу. Так, доля городского населения оказалась отрицательно связанной как с поддержкой СПС (г= -0,61), так и с поддержкой «Яблока» (г= -0,55). Можно заметить, что переменная «поддержка СПС» более чувствительна к фактору урбанизации по сравнению с переменной «поддержка "Яблока"».
Следует отметить, что после чистки выбросов (см. диаграммы рассеяния) связь была бы еще плотнее. Так, после удаления двух выбросов (Самарская области и Усть-Ордынский Бурятский АО) плотности коэффициента для СПС увеличивается до -0,65.
В этом примере мы уже начинаем мыслить в категориях влияния одной переменной на другую. Строго говоря, и это отмечено выше, корреляционный анализ не различает зависимых и независимых переменных, фиксируя лишь их взаимную статистическую связь. В то же время содержательно мы понимаем, что именно принадлежность избирателей к городскому или сельскому населению влияет на их электоральный выбор, а никак не наоборот.
Интерпретация интенсивности связи
Мы подошли к проблеме интерпретации интенсивности связи на основе значения коэффициента корреляции Пирсона.
Определенного жесткого правила здесь не существует; скорее речь идет о совокупном опыте, накопленном в процессе статистических исследований. Традиционной можно считать следующую схему интерпретации данного коэффициента:
Необходимо отметить, что подобный вариант интерпретации плотности коэффициента корреляции применим в науках, в гораздо большей степени опирающихся на количественные данные, нежели наука политическая (например, в экономике). В эмпирических исследованиях политики довольно редко можно обнаружить г > 0,7; коэффициент же со значением 0,9 - случай просто уникальный. Это связано прежде всего с особенностями мотивации политического поведения - сложной, многофакторной, нередко иррациональной. Ясно, что такое сложное явление, как голосование за определенную политическую партию, не может целиком подчиняться одному или даже двум факторам. Поэтому применительно к политическим исследованиям предлагаем несколько смягченную схему интерпретации:
0,4 > г> 0,3 - слабая корреляция;
0,6 > г> 0,4 - средняя корреляция;
Г> 0,7 - сильная корреляция.
Существует еще одна полезная процедура, позволяющая оценить значимость коэффициента корреляции в процессе вычисления коэффициента детерминации, который представляет собой г, возведенный в квадрат (г 2). Смысл процедуры состоит в том, что при возведении в квадрат низкие коэффициенты потеряют «в весе»
гораздо сильнее, чем высокие. Так, 0,9 2 = 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2 = 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показывать долю случаев, которые объясняет определяющая переменная.
В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки выбросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2 = 0,42. Несколько упрощая реальное положение дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по регионам России в 1999 г.
1991 | 1993 | 1995 | 19961 | 1999 | 2000 | 2003 | 2004 | |
1991 | 1 | |||||||
1993 | 0,83 | 1 | ||||||
1995 | 0,52 | 0,66 | 1 | |||||
1996 | 0,43 | 0,47 | 0,76 | і | ||||
1999 | 0,14 | 0,26 | 0,61 | 0,56 | 1 | |||
2000 | 0,13 | 0,15 | 0,34 | 0,47 | 0,74 | 1 | ||
2003 | 0,04 | 0,13 | 0,36 | 0,38 | 0,81 | 0,75 | 1 | |
2004 | 0,04 | 0,10 | 0,11 | 0,21 | 0,55 | 0,66 | 0,73 | 1 |
Отметим, что внутри каждого электорального цикла плотность корреляции превышает 0,7 (1991-1993: г= 0,83; 1995-1996: г= 0,76; 1999 - 2000: г = 0,74; 2003 - 2004: г= 0,73). На максимальной временной дистанции - между президентскими и парламентскими выборами 1991 - 1993 и 2003 - 2004 гг. - связи нет никакой, коэффициенты не превышают 0,1. В то же время затухание связи во времени происходит медленно. Так, обращает на себя внимание наличие связи, хоть и неплотной, между уровнем электоральной активности на парламентских выборах 1995 и 2003 гг. (г= 0,36). Тот факт, что определенная преемственность обнаруживается на протяжении восьми лет, в течение которых происходит серьезнейшее «переформатирование» политического режима и системы федеративных отношений, свидетельствует о высокой устойчивости распределения уровня явки по российским регионам. Таким образом, мы имеем основания считать уровень активности/абсентеизма одной из составляющих электоральной культуры территорий.
Другие коэффициенты корреляции
Как было отмечено, коэффициент корреляции Пирсона является наиболее распространенным критерием связи интервальных и нормально распределенных переменных. Но что делать, если мы имеем переменные, существенно отклоняющиеся от нормального распределения? Или переменные не интервальные, но при этом являются метрическими (порядковые переменные с большим числом категорий)?
гораздо сильнее, чем высокие. Так, 0,9 2= 0,81 (значение снижается всего на 0,09); 0,5 2= 0,25 (здесь мы теряем уже половину значения); 0,3 2= 0,09 (более чем трехкратная «потеря веса»). Когда речь идет о переменных, которые мы можем содержательно интерпретировать как «определяющие» и «определяемые», значение г2 будет показывать долю случаев, которые объясняет определяющая переменная.
В нашем примере коэффициент корреляции между переменными «поддержка СПС» и «доля сельского населения» после чистки выбросов составил -0,65. Коэффициент детерминации составляет соответственно -0,65 2= 0,42. Несколько упрощая реальное положение дел, мы можем утверждать, что фактор урбанизации объясняет примерно 40% вариации переменной «голосование за СПС» по регионам России в 1999 г.
Использование корреляционного анализа для выявления динамики связи переменных во времени
Корреляционный анализ можно использовать не только для обнаружения связи между переменными, но и для оценки изменения этой связи во времени. Так, при изучении проблемы электоральной активности в регионах России необходимо было убедиться в том, что уровень активности избирателей является некой стабильной характеристикой электоральной культуры российских территорий. Имеются в виду, разумеется, не абсолютные показатели, которые существенно колеблются от выборов к выборам. Речь идет об устойчивости различий в уровне активности избирателей различных регионов России.
Устойчивость пропорционального распределения явки по субъектам Федерации достаточно просто проверяется методом корреляционного анализа. Приводимая ниже матрица парных корреляций электоральной активности на федеральных выборах 1991 - 2004 гг. довольно четко демонстрирует существующую тенденцию. Статистическая связь наиболее сильна внутри одного электорального цикла (1991-1993; 1995-1996; 1999-2000; 2003-2004), между двумя близкими по времени циклами она несколько слабеет, а по мере удаления электоральных циклов стремится к затуханию.