Корреляция между двумя переменными позволяет нам получить представление о степени ассоциации или ковариации, которая существует между этими двумя переменными. Да, коэффициенты корреляции являются своего рода числовым представлением взаимосвязи между двумя переменными. (1). Но каков коэффициент корреляции Пирсона?
Браве уже сделал приближение к тому, что мы знаем сегодня как коэффициент корреляции Пирсона в 1846 году.. Однако Карл Пирсон был первым, кто в 1896 году описал стандартный метод его расчета и показал, что он является наилучшим из возможных.
Пирсон также предложил несколько комментариев по поводу расширения идеи Гальтона. Именно последний применил его к антропометрическим данным. Пирсон назвал этот метод методом «моментов продукта». (или функция Гальтона для коэффициента корреляции r).
Коэффициент корреляции человека связан с соответствием очень распространенных моделей в статистике., например, регрессионный анализ, использующий его квадратный коэффициент детерминации в качестве индикатора согласия.
Таким образом, сам Пирсон (1896 г.) говорил о необходимости проанализированные (коррелированные, проанализированные) переменные соответствовали определенным предположениям, как обычно.
С другой стороны, в Spearman (1904) он отмечал:
«Самым фундаментальным требованием является возможность измерить наблюдаемое нами соответствие с помощью простого числового символа. Нет причин довольствоваться расплывчатыми обобщениями, такими как «большие», «средние», «маленькие» или, с другой стороны, сложными таблицами и компиляциями. Похоже, что первым, кто увидел возможность этого огромного прогресса, был Гальтон ».
— Копейщик, 1904 г.-
Коэффициент корреляции Спирмена и его функция
Коэффициент корреляции Спирмена равен непараметрическая ранговая статистика (без ассоциированного распределения вероятностей). Он был предложен как мера силы связи между двумя переменными. Это мера монотонной ассоциации, которая используется, когда распределение данных делает коэффициент корреляции Пирсона вводящим в заблуждение.
Коэффициент Спирмена не является мерой линейной зависимости между двумя переменными, как утверждают некоторые «статистики». Оценивает степень, в которой произвольная монотонная функция может описывать взаимосвязь между двумя переменными.
В отличие от коэффициента корреляции Пирсона, он не предполагает, что связь между переменными является линейной. Также не требуется, чтобы переменные измерялись с помощью интервальных шкал; также может использоваться для переменных, измеряемых на порядковом уровне.
В принципе, Коэффициент Спирмена — это просто частный случай коэффициента Пирсона.. В нем данные преобразуются в диапазоны до расчета коэффициента.
Предположения, лежащие в основе коэффициента корреляции
Предположения, поддерживающие коэффициент корреляции Пирсона, следующие (2):
- В совместное распределение переменных (X, Y) должно быть двумерным нормальным.
- Практически, Чтобы подтвердить это предположение, необходимо заметить, что каждая переменная распределяется нормальным образом.. Если только одна из переменных отклоняется от нормы, совместное распределение также не является нормальным.
- Должен быть линейная связь между переменными (X, Y).
- Для каждого значения X существует субпопуляция нормально распределенных значений Y.
- Субпопуляции со значением Y имеют постоянную дисперсию.
- Средние значения субполяций Y расположены на одной прямой.
- Субпопуляции X имеют постоянную дисперсию.
- В Средние значения субпопуляций X лежат на одной прямой.
- Для каждого значения Y существует субполяция значений X, которые нормально распределены.
Заключение
Таким образом, анализируя коэффициенты Пирсона и Спирмена, можно было ожидать, что значение одного будет подразумевать значение другого. С другой стороны, обратная импликация не всегда кажется логически верной. Да, важность корреляции Спирмена может привести к важности или не важности коэффициента корреляции Пирсона. Это происходит даже для больших наборов данных (1).
С другой стороны, лучше не использовать коэффициент ранговой корреляции Спирмена в качестве меры согласия, как тот, который нам может понадобиться для калибровки инструмента. С другой стороны, это очень полезная мера, когда у нас много экстремальных значений (нарушается предположение о нормальности).