Регрессионный анализ.

Доказано - для экономистов работа с числами очень важный навык. Игоровой тренажер "Продолжи ряд" создан специально для работы с числами в уме. В начале обучения только 2 из 10 проходят тест без ошибок.

Пройти тест

Регрессионный анализ заключается в прогнозировании одной переменной на основании другой. Линейный регрессионный анализ прогнозирует значение одной переменной на основании другой с помощью прямой линии. Наклон этой линии, выражается в единицах измерения у на одну единицу х и характеризует крутизну подъема или спуска (если b отрицательное) линии. Сдвиг, a, равен значению, которое принимает у при х, равном 0.

Линия наименьших квадратов характеризуется наименьшей из всех возможных линий суммой возведенных в квадрат ошибок прогнозирования по вертикали и используется как лучшая линия прогнозирования, основанная на данных. Наклон этой линии, b, называют также коэффициентом регрессии у по х, а сдвиг а (отрезок отсекаемый на оси у) называют также постоянным членом регрессии.

                                                                              (9.7)

                                                                  (9.8)

Прогнозируемое значение для у при заданном значении х определяется путем подстановки этого значения х в уравнение для линии наименьших квадратов. Каждая из точек данных характеризуется остатком ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка.

Существуют две меры соответствия линии наименьших квадратов имеющимся данным. Стандартная ошибка оценки, которую обозначают , приблизительно указывает величину ошибок прогнозирования (остатков) для имеющихся данных в тех же единицах, в которых измерена и переменная у. Соответствующие формулы приведены ниже.

Для вычисления:

                                                                 (9.9)

Для интерпретации:

                                                   (9.10)

Значение , часто называемое коэффициентом детерминации, говорит о том, какой процент вариации у объясняется поведением х.

Доверительные интервалы и проверка гипотез для коэффициента регрессии связаны с определенными предположениями относительно анализируемой совокупности данных, которые должны гарантировать, что она состоит из независимых наблюдений, характеризующихся линейной взаимосвязью с равной вариацией и приблизительно нормально распределенной случайностью. Во-первых, эти данные должны представлять собой произвольную выборку из интересующей нас генеральной совокупности. Во-вторых, линейная модель указывает, что наблюдаемое значение у определяется взаимосвязью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют параметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки:

                                                              (9.11)

где        – взаимосвязь в генеральной совокупности;

 – случайность, которая имеет нормальное распределение со средним значением, равным 0, и постоянным стандартным отклонением .

Статистические выводы (использование доверительных интервалов и проверки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из
t-таблицы для п – 2 степеней свободы.

Стандартная ошибка коэффициента наклона, , указывает приблизительную величину отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе данных выборки), от наклона в генеральной совокупности, β, вызванного случайным характером выборки.

                                                                  (9.12)

Стандартная ошибка сдвига, , указывает приблизительно, насколько далеко оценка сдвига а отстоит от истинного сдвига α в генеральной совокупности.

                                                   (9.13)

Доверительный интервал для наклона в генеральной совокупности, β:

.                                                             (9.14)

Доверительный интервал для сдвига в генеральной совокупности, α:

.                                                             (9.15)

Один из способов проверки, является ли обнаруженная взаимосвязь между х и у реальной или это просто случайное совпадение, заключается в сравнении β с заданным значением β0 = 0. О значимой связи можно говорить в том случае, если 0 не попадает в доверительный интервал, базирующийся на b и Sb, или если абсолютное значение t = b/Sb превосходит соответствующее t-значение в t-таблице. Эта проверка эквивалентна проверке значимости коэффициента корреляции и означает, по сути, то же самое, что и F-тест для случая, когда уравнение содержит только одну переменную х. Разумеется, любой из коэффициентов (a или b) можно сравнить с любым подходящим заданным значением, воспользовавшись одно- или двусторонней проверкой (в зависимости от конкретных обстоятельств) и с использованием тех же методов проверки, что были рассмотрены для среднего генеральной совокупности.

Для прогнозирования среднего значения нового наблюдения у при условии, что х = х0, неопределенность прогноза оценивают с помощью стандартной ошибки ,  которая также имеет п – 2 степеней свободы. Это позволяет построить доверительные интервалы и проверить гипотезы для нового наблюдения:

                                        (9.16)

Доверительный интервал для прогнозируемого (среднего) значения у при заданном значении х0 имеет следующий вид:

от  до .                    (9.17)