Иногда в исследованиях нас интересует, существует ли линейная связь между двумя случайными величинами.. Вот почему мы используем линейный регрессионный анализ.
Коэффициент, позволяющий получить эти данные, представляет собой коэффициент линейной корреляции Пирсона r, значение которого находится в диапазоне от -1 до +1 (1). В случаях, когда коэффициент линейной регрессии близок к +1 или -1, имеет смысл рассматривать уравнение линии, которая «наилучшим образом соответствует» облаку точек, как приемлемое моделирование связи между двумя переменными.
В основном, эта линия позволяет нам оценить значения Y, которые мы получили бы для разных значений X. Эти концепции будут представлены в так называемой диаграмме разброса. С другой стороны, наиболее распространенной процедурой определения линии наилучшего соответствия является метод наименьших квадратов.
Пример использования линейного регрессионного анализа
Допустим, нам нужно провести исследование для компании. Она хочет знать взаимосвязь между продажами компании и ее рекламными расходами. Что мы можем сделать? Линейный регрессионный анализ позволяет нам узнать, в какой степени расходы на рекламу объясняют переменную продаж. Да, эта последняя переменная будет зависимой переменной модели, в то время как объясняющей или независимой переменной будут расходы на рекламу.
Использование этой модели позволит нам увидеть, какое влияние оказывают рекламные расходы на оборот или продажи компании (1). Чтобы выяснить это, у нас есть уравнение линия линейной регрессии. Чтобы количественно оценить взаимосвязь между обеими переменными и приблизиться к величине влияния рекламных расходов на продажи компании, мы можем оценить модель следующим образом: обыкновенный метод наименьших квадратов (M.C.O.) где сумма квадратов остатков минимизирована.
Этот остаток представляет собой разницу между наблюдаемым значением и оценочным значением.. Но зачем нам эта информация? Итак, цель состоит в том, чтобы минимизировать сумму квадратов остатков. Однако мы должны иметь в виду, что при представлении этого анализа не все точки будут лежать в пределах линии регрессии (на самом деле, они редко бывают). Если бы все были так, а также если бы количество наблюдений было достаточно большим, не было бы ошибки оценки. В этом случае не будет разницы между наблюдаемым значением и значением прогноза (1).
Стандартная ошибка оценки
Таким образом, в реальных случаях, абсолютной адаптации модели к реальности не происходит. Вот почему существует мера, которая описывает, насколько точным является предсказание Y как функции X. Или, наоборот, насколько неточной может быть оценка. Эта мера называется стандартной ошибкой оценки.. Используется в линейном регрессионном анализе для измерения дисперсии вокруг линии регрессии.
Допущения модели линейной регрессии
Если наши наблюдения представляют собой случайную выборку из совокупности, то мы заинтересованы в том, чтобы сделать выводы об этом. Чтобы эти выводы были «статистически обоснованными», должны быть выполнены следующие условия:
- В популяции связь между переменными X и Y должна быть приблизительно линейной.
- Остатки распределяются по нормальной кривой среднего 0.
- Кроме того, остатки не зависят друг от друга.
- Остатки имеют постоянную дисперсию.
Да, эта модель линейной регрессии довольно «надежна». Это означает, что не обязательно, чтобы предыдущие условия выполнялись в точности (в частности, последние три).
Вывод в регрессионной модели
После того, как мы рассчитали линию регрессии и степень согласия, которого мы достигли с помощью модели линейной регрессии, следующим шагом будет выполнение проверки гипотезы, в которой нулевая гипотеза будет соответствовать отсутствию связи и отклонению нулевой гипотезы при наличии значимой связи.
Для этого мы должны проверить, отличается ли корреляция между обеими переменными от нуля или же модель регрессии действительна в смысле проверки того, является ли анализ нашей эндогенной переменной (Y) достоверным благодаря влиянию объясняющей переменной (X ).
В итоге, линейный регрессионный анализ применяется к бесчисленным аспектам реальной жизни. Он используется как в социальной, так и в научной областях и является ключом к пониманию некоторых взаимосвязей между переменными в статистике.