Оценка параметров линейной регрессии. Регрессия в Excel: уравнение, примеры

Экономические явления, как правило, определяются большим числом одновременно и совокупно действующих факторов. В связи с этим часто возникает задача исследования зависимости переменной у от нескольких объясняющих переменных (х 1, х 2 ,…, х k) которая может быть решена с помощью множественного корреляционно-регрессионного анализа.

При исследовании зависимости методами множественной регрессии задача формируется так же, как и при использовании парной регрессии, т.е. требуется определить аналитическое выражение формы связи между результативным признаком у и факторными признаками х, х 2 , ..., х k , найти функцию , где k – число факторных признаков

Множественная регрессия широко используется в решении проблем спроса, доходности акций, при изучении функции издержек производства, в макроэкономических расчетах и целом ряде других вопросов эконометрики. В настоящее время множественная регрессия – один из наиболее распространенных методов в эконометрике. Основная цель множественной регрессии – построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Из-за особенностей метода наименьших квадратов во множественной регрессии, как и в парной, применяются только линейные уравнения и уравнения, приводимые к линейному виду путем преобразования переменных. Чаще всего используется линейное уравнение, которое можно записать следующим образом:

a 0 , a 1, …, a k – параметры модели (коэффициенты регрессии);

ε j – случайная величина (величина остатка).

Коэффициент регрессии а j показывает, на какую величину в среднем изменится результативный признак у, если переменную х j увеличить на единицу измерения при фиксированном (постоянном) значении других факторов, входящих в уравнение регрессии. Параметры при x называются коэффициентами «чистой» регрессии .

Пример.

Предположим, что зависимость расходов на продукты питания по совокупности семей характеризуется следующим уравнением:

y – расходы семьи за месяц на продукты питания, тыс. руб.;

x 1 – месячный доход на одного члена семьи, тыс. руб.;

x 2 – размер семьи, человек.

Анализ данного уравнения позволяет сделать выводы – с ростом дохода на одного члена семьи на 1 тыс. руб. расходы на питание возрастут в среднем на 350 руб. при том же среднем размере семьи. Иными словами, 35% дополнительных семейных расходов тратится на питание. Увеличение размера семьи при тех же ее доходах предполагает дополнительный рост расходов на питание на 730 руб. Первый параметр не подлежит экономической интерпретации.

Оценивание достоверности каждого из параметров модели осуществляется при помощи t-критерия Стьюдента. Для любого из параметров модели а j значение t-критерия рассчитывается по формуле , где


S ε – стандартное (среднее квадратическое) отклонение уравнения регрессии)

определяется по формуле

Коэффициент регрессии а j считается достаточно надежным, если расчетное значение t- критерия с (n - k - 1 ) степенями свободы превышает табличное, т.е. t расч > t а jn - k -1 . Если надеж­ность коэффициента регрессии не подтверждается, то следует; вывод о несущественности в модели факторного j признака и необходимости его устранения из модели или замены на другой факторный признак.

Важную роль при оценке влияния факторов играют коэффициенты регрессионной модели. Однако непосредственно с их помощью нельзя сопоставлять факторные признаки по степени их влияния на зависимую переменную из-за различия единиц измерения и разной степени колеблемости. Для устранения таких различий применяются частные коэффициенты эластичности Э j и бета-коэффициенты β j .

Формула для расчета коэффициента эластичности

где

a j – коэффициент регрессии фактора j ,

Среднее значение результативного признака

Среднее значение признака j

Коэффициент эластичности показывает, на сколько процентов изменяется зависимая переменная у при изменении фактора j на 1 %.

Формула определения бета - коэффициента.

, где

S xj – среднее квадратическое отклонение фактора j ;

S y - среднее квадратическое отклонение фактора y.

β - коэффициент показывает, на какую часть величины среднего квадратического отклонения S y из­менится зависимая переменная у с изменением со­ответствующей независимой переменной х j на величину своего среднего квадратического отклонения при фиксированном значении остальных неза­висимых переменных.

Долю влияния определенного фактора в суммарном влиянии всех факторов можно оценить по величине дельта-коэффициентов Δ j .

Указанные коэффициенты позволяют проранжировать факторы по степени влияния факторов на зависимую переменную.

Формула определения дельта - коэффициента.

r yj – коэффициент парной корреляции между фактором j и зависимой переменной;

R 2 – множественный коэффициент детерминации.

Коэффициент множественной детерминации используют для оценки качества множественных регрессионных моделей.

Формула определения коэффициента множественной детерминации.

Коэффициент детерминации показывает долю вариации результативного признака, находящегося под воздействием факторных признаков, т.е. опре­деляет, какая доля вариации признака у учтена в модели и обусловлена влиянием на него факторов, включенных в модель. Чем ближе R 2 к единице, тем выше качество модели

При добавлении независимых переменных значение R 2 уве­личивается, поэтому коэффициент R 2 должен быть скорректи­рован с учетом числа независимых переменных по формуле

Для проверки значимости модели регрессии используется F-критерий Фишера. Он определяется по формуле

Если расчетное значение критерия с γ 1 , = k и γ 2 = (n - k- 1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

В качестве меры точностимодели применяют стандартную ошибку, которая представляет собой отношение суммы квадратов уровней остаточной компоненты к величине (n - k -1):

Классический подход к оцениванию параметров линейной модели основан на методе наименьших квадратов (МНК) . Система нормальных уравнений имеет вид:

Решение системы может быть осуществлено по одному из известных способов: Метод Гаусса, метод Крамера и т.д.

Пример15.

По четырем предприятиям региона (таблица 41) изучается зависимость выработки продукции на одного работника y (тыс. руб.) от ввода в действие новых основных фондов (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих (%). Требуется написать уравнение множественной регрессии.

Таблица 41 – Зависимость выработки продукции на одного работника

По территориям региона приводятся данные за 200Х г.

Номер региона Среднедушевой прожиточный минимум в день одного трудоспособного, руб., х Среднедневная заработная плата, руб., у
1 78 133
2 82 148
3 87 134
4 79 154
5 89 162
6 106 195
7 67 139
8 88 158
9 73 152
10 87 162
11 76 159
12 115 173

Задание:

1. Постройте поле корреляции и сформулируйте гипотезу о форме связи.

2. Рассчитайте параметры уравнения линейной регрессии

4. Дайте с помощью среднего (общего) коэффициента эластичности сравнительную оценку силы связи фактора с результатом.

7. Рассчитайте прогнозное значение результата, если прогнозное значение фактора увеличится на 10% от его среднего уровня. Определите доверительный интервал прогноза для уровня значимости .

Решение:

Решим данную задачу с помощью Excel.

1. Сопоставив имеющиеся данные х и у, например, ранжировав их в порядке возрастания фактора х, можно наблюдать наличие прямой зависимости между признаками, когда увеличение среднедушевого прожиточного минимума увеличивает среднедневную заработную плату. Исходя из этого, можно сделать предположение, что связь между признаками прямая и её можно описать уравнением прямой. Этот же вывод подтверждается и на основе графического анализа.

Чтобы построить поле корреляции можно воспользоваться ППП Excel. Введите исходные данные в последовательности: сначала х, затем у.

Выделите область ячеек, содержащую данные.

Затем выберете: Вставка / Точечная диаграмма / Точечная с маркерами как показано на рисунке 1.

Рисунок 1 Построение поля корреляции

Анализ поля корреляции показывает наличие близкой к прямолинейной зависимости, так как точки расположены практически по прямой линии.

2. Для расчёта параметров уравнения линейной регрессии
воспользуемся встроенной статистической функцией ЛИНЕЙН .

Для этого:

1) Откройте существующий файл, содержащий анализируемые данные;
2) Выделите область пустых ячеек 5×2 (5 строк, 2 столбца) для вывода результатов регрессионной статистики.
3) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .
4) В окне Категория выберете Статистические , в окне функция - ЛИНЕЙН . Щёлкните по кнопке ОК как показано на Рисунке 2;

Рисунок 2 Диалоговое окно «Мастер функций»

5) Заполните аргументы функции:

Известные значения у

Известные значения х

Константа - логическое значение, которое указывает на наличие или на отсутствие свободного члена в уравнении; если Константа = 1, то свободный член рассчитывается обычным образом, если Константа = 0, то свободный член равен 0;

Статистика - логическое значение, которое указывает, выводить дополнительную информацию по регрессионному анализу или нет. Если Статистика = 1, то дополнительная информация выводится, если Статистика = 0, то выводятся только оценки параметров уравнения.

Щёлкните по кнопке ОК ;

Рисунок 3 Диалоговое окно аргументов функции ЛИНЕЙН

6) В левой верхней ячейке выделенной области появится первый элемент итоговой таблицы. Чтобы раскрыть всю таблицу, нажмите на клавишу , а затем на комбинацию клавиш ++ .

Дополнительная регрессионная статистика будет выводиться в порядке, указанном в следующей схеме:

Значение коэффициента b Значение коэффициента a
Стандартная ошибка b Стандартная ошибка a
Стандартная ошибка y
F-статистика
Регрессионная сумма квадратов

Рисунок 4 Результат вычисления функции ЛИНЕЙН

Получили уровнение регрессии:

Делаем вывод: С увеличением среднедушевого прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0,92 руб.

Означает, что 52% вариации заработной платы (у) объясняется вариацией фактора х - среднедушевого прожиточного минимума, а 48% - действием других факторов, не включённых в модель.

По вычисленному коэффициенту детерминации можно рассчитать коэффициент корреляции: .

Связь оценивается как тесная.

4. С помощью среднего (общего) коэффициента эластичности определим силу влияния фактора на результат.

Для уравнения прямой средний (общий) коэффициент эластичности определим по формуле:

Средние значения найдём, выделив область ячеек со значениями х, и выберем Формулы / Автосумма / Среднее , и то же самое произведём со значениями у.

Рисунок 5 Расчёт средних значений функции и аргумент

Таким образом, при изменении среднедушевого прожиточного минимума на 1% от своего среднего значения среднедневная заработная плата изменится в среднем на 0,51%.

С помощью инструмента анализа данных Регрессия можно получить:
- результаты регрессионной статистики,
- результаты дисперсионного анализа,
- результаты доверительных интервалов,
- остатки и графики подбора линии регрессии,
- остатки и нормальную вероятность.

Порядок действий следующий:

1) проверьте доступ к Пакету анализа . В главном меню последовательно выберите: Файл/Параметры/Надстройки .

2) В раскрывающемся списке Управление выберите пункт Надстройки Excel и нажмите кнопку Перейти.

3) В окне Надстройки установите флажок Пакет анализа , а затем нажмите кнопку ОК .

Если Пакет анализа отсутствует в списке поля Доступные надстройки , нажмите кнопку Обзор , чтобы выполнить поиск.

Если выводится сообщение о том, что пакет анализа не установлен на компьютере, нажмите кнопку Да , чтобы установить его.

4) В главном меню последовательно выберите: Данные / Анализ данных / Инструменты анализа / Регрессия , а затем нажмите кнопку ОК .

5) Заполните диалоговое окно ввода данных и параметров вывода:

Входной интервал Y - диапазон, содержащий данные результативного признака;

Входной интервал X - диапазон, содержащий данные факторного признака;

Метки - флажок, который указывает, содержит ли первая строка названия столбцов или нет;

Константа - ноль - флажок, указывающий на наличие или отсутствие свободного члена в уравнении;

Выходной интервал - достаточно указать левую верхнюю ячейку будущего диапазона;

6) Новый рабочий лист - можно задать произвольное имя нового листа.

Затем нажмите кнопку ОК .

Рисунок 6 Диалоговое окно ввода параметров инструмента Регрессия

Результаты регрессионного анализа для данных задачи представлены на рисунке 7.

Рисунок 7 Результат применения инструмента регрессия

5. Оценим с помощью средней ошибки аппроксимации качество уравнений. Воспользуемся результатами регрессионного анализа представленного на Рисунке 8.

Рисунок 8 Результат применения инструмента регрессия «Вывод остатка»

Составим новую таблицу как показано на рисунке 9. В графе С рассчитаем относительную ошибку аппроксимации по формуле:

Рисунок 9 Расчёт средней ошибки аппроксимации

Средняя ошибка аппроксимации рассчитывается по формуле:

Качество построенной модели оценивается как хорошее, так как не превышает 8 - 10%.

6. Из таблицы с регрессионной статистикой (Рисунок 4) выпишем фактическое значение F-критерия Фишера:

Поскольку при 5%-ном уровне значимости, то можно сделать вывод о значимости уравнения регрессии (связь доказана).

8. Оценку статистической значимости параметров регрессии проведём с помощью t-статистики Стьюдента и путём расчёта доверительного интервала каждого из показателей.

Выдвигаем гипотезу Н 0 о статистически незначимом отличии показателей от нуля:

.

для числа степеней свободы

На рисунке 7 имеются фактические значения t-статистики:

t-критерий для коэффициента корреляции можно рассчитать двумя способами:

I способ:

где - случайная ошибка коэффициента корреляции.

Данные для расчёта возьмём из таблицы на Рисунке 7.

II способ:

Фактические значения t-статистики превосходят табличные значения:

Поэтому гипотеза Н 0 отклоняется, то есть параметры регрессии и коэффициент корреляции не случайно отличаются от нуля, а статистически значимы.

Доверительный интервал для параметра a определяется как

Для параметра a 95%-ные границы как показано на рисунке 7 составили:

Доверительный интервал для коэффициента регрессии определяется как

Для коэффициента регрессии b 95%-ные границы как показано на рисунке 7 составили:

Анализ верхней и нижней границ доверительных интервалов приводит к выводу о том, что с вероятностью параметры a и b, находясь в указанных границах, не принимают нулевых значений, т.е. не являются статистически незначимыми и существенно отличны от нуля.

7. Полученные оценки уравнения регрессии позволяют использовать его для прогноза. Если прогнозное значение прожиточного минимума составит:

Тогда прогнозное значение прожиточного минимума составит:

Ошибку прогноза рассчитаем по формуле:

где

Дисперсию посчитаем также с помощью ППП Excel. Для этого:

1) Активизируйте Мастер функций : в главном меню выберете Формулы / Вставить функцию .

3) Заполните диапазон, содержащий числовые данные факторного признака. Нажмите ОК .

Рисунок 10 Расчёт дисперсии

Получили значение дисперсии

Для подсчёта остаточной дисперсии на одну степень свободы воспользуемся результатами дисперсионного анализа как показано на Рисунке 7.

Доверительные интервалы прогноза индивидуальных значений у при с вероятностью 0,95 определяются выражением:

Интервал достаточно широк, прежде всего, за счёт малого объёма наблюдений. В целом выполненный прогноз среднемесячной заработной платы оказался надёжным.

Условие задачи взято из: Практикум по эконометрике: Учеб. пособие / И.И. Елисеева, С.В. Курышева, Н.М. Гордеенко и др.; Под ред. И.И. Елисеевой. - М.: Финансы и статистика, 2003. - 192 с.: ил.

Корреляционный анализ .

Уравнение парной регрессии .

Использование графического метода .

Этот метод применяют для наглядного изображения формы связи между изучаемыми экономическими показателями. Для этого в прямоугольной системе координат строят график, по оси ординат откладывают индивидуальные значения результативного признака Y, а по оси абсцисс - индивидуальные значения факторного признака X.

Совокупность точек результативного и факторного признаков называется полем корреляции .

На основании поля корреляции можно выдвинуть гипотезу (для генеральной совокупности) о том, что связь между всеми возможными значениями X и Y носит линейный характер.

Линейное уравнение регрессии имеет вид y = bx + a + ε

Здесь ε - случайная ошибка (отклонение, возмущение).

Причины существования случайной ошибки:

1. Невключение в регрессионную модель значимых объясняющих переменных;

2. Агрегирование переменных. Например, функция суммарного потребления – это попытка общего выражения совокупности решений отдельных индивидов о расходах. Это лишь аппроксимация отдельных соотношений, которые имеют разные параметры.

3. Неправильное описание структуры модели;

4. Неправильная функциональная спецификация;

5. Ошибки измерения.

Так как отклонения ε i для каждого конкретного наблюдения i – случайны и их значения в выборке неизвестны, то:

1) по наблюдениям x i и y i можно получить только оценки параметров α и β

2) Оценками параметров α и β регрессионной модели являются соответственно величины а и b, которые носят случайный характер, т.к. соответствуют случайной выборке;

Тогда оценочное уравнение регрессии (построенное по выборочным данным) будет иметь вид y = bx + a + ε, где e i – наблюдаемые значения (оценки) ошибок ε i , а и b соответственно оценки параметров α и β регрессионной модели, которые следует найти.

Для оценки параметров α и β - используют МНК (метод наименьших квадратов). Метод наименьших квадратов дает наилучшие (состоятельные, эффективные и несмещенные) оценки параметров уравнения регрессии.

Но только в том случае, если выполняются определенные предпосылки относительно случайного члена (ε) и независимой переменной (x).

Формально критерий МНК можно записать так:

S = ∑(y i - y * i) 2 → min

Система нормальных уравнений.

a n + b∑x = ∑y

a∑x + b∑x 2 = ∑y x

Для наших данных система уравнений имеет вид

15a + 186.4 b = 17.01

186.4 a + 2360.9 b = 208.25

Из первого уравнения выражаем а и подставим во второе уравнение:

Получаем эмпирические коэффициенты регрессии: b = -0.07024, a = 2.0069

Уравнение регрессии (эмпирическое уравнение регрессии):

y = -0.07024 x + 2.0069

Эмпирические коэффициенты регрессии a и b являются лишь оценками теоретических коэффициентов β i , а само уравнение отражает лишь общую тенденцию в поведении рассматриваемых переменных.

Для расчета параметров регрессии построим расчетную таблицу (табл. 1)

1. Параметры уравнения регрессии.

Выборочные средние.

Выборочные дисперсии:

Среднеквадратическое отклонение

1.1. Коэффициент корреляции

Ковариация .

Рассчитываем показатель тесноты связи. Таким показателем является выборочный линейный коэффициент корреляции, который рассчитывается по формуле:

Линейный коэффициент корреляции принимает значения от –1 до +1.

Связи между признаками могут быть слабыми и сильными (тесными). Их критерии оцениваются по шкале Чеддока:

0.1 < r xy < 0.3: слабая;

0.3 < r xy < 0.5: умеренная;

0.5 < r xy < 0.7: заметная;

0.7 < r xy < 0.9: высокая;

0.9 < r xy < 1: весьма высокая;

В нашем примере связь между признаком Y фактором X высокая и обратная.

Кроме того, коэффициент линейной парной корреляции может быть определен через коэффициент регрессии b:

1.2. Уравнение регрессии (оценка уравнения регрессии).

Линейное уравнение регрессии имеет вид y = -0.0702 x + 2.01

Коэффициентам уравнения линейной регрессии можно придать экономический смысл.

Коэффициент регрессии b = -0.0702 показывает среднее изменение результативного показателя (в единицах измерения у) с повышением или понижением величины фактора х на единицу его измерения. В данном примере с увеличением на 1 единицу y понижается в среднем на -0.0702.

Коэффициент a = 2.01 формально показывает прогнозируемый уровень у, но только в том случае, если х=0 находится близко с выборочными значениями.

Но если х=0 находится далеко от выборочных значений х, то буквальная интерпретация может привести к неверным результатам, и даже если линия регрессии довольно точно описывает значения наблюдаемой выборки, нет гарантий, что также будет при экстраполяции влево или вправо.

Подставив в уравнение регрессии соответствующие значения х, можно определить выровненные (предсказанные) значения результативного показателя y(x) для каждого наблюдения.

Связь между у и х определяет знак коэффициента регрессии b (если > 0 – прямая связь, иначе - обратная). В нашем примере связь обратная.

1.3. Коэффициент эластичности .

Коэффициенты регрессии (в примере b) нежелательно использовать для непосредственной оценки влияния факторов на результативный признак в том случае, если существует различие единиц измерения результативного показателя у и факторного признака х.

Для этих целей вычисляются коэффициенты эластичности и бета - коэффициенты.

Средний коэффициент эластичности E показывает, на сколько процентов в среднем по совокупности изменится результат у от своей средней величины при изменении фактора x на 1% от своего среднего значения.

Коэффициент эластичности находится по формуле:

Коэффициент эластичности меньше 1. Следовательно, при изменении Х на 1%, Y изменится менее чем на 1%. Другими словами - влияние Х на Y не существенно.

Бета – коэффициент

Бета – коэффициент показывает, на какую часть величины своего среднего квадратичного отклонения изменится в среднем значение результативного признака при изменении факторного признака на величину его среднеквадратического отклонения при фиксированном на постоянном уровне значении остальных независимых переменных:

Т.е. увеличение x на величину среднеквадратического отклонения S x приведет к уменьшению среднего значения Y на 0.82 среднеквадратичного отклонения S y .

1.4. Ошибка аппроксимации .

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

Поскольку ошибка меньше 7%, то данное уравнение можно использовать в качестве регрессии.

Проверить значимость параметров уравнения регрессии можно, используя t-статистику .

Задание:
По группе предприятий, выпускающих один и тот же вид продукции, рассматриваются функции издержек:
y = α + βx;
y = α x β ;
y = α β x ;
y = α + β / x;
где y – затраты на производство, тыс. д. е.
x – выпуск продукции, тыс. ед.

Требуется:
1. Построить уравнения парной регрессии y от x:

  • линейное;
  • степенное;
  • показательное;
  • равносторонней гиперболы.
2. Рассчитать линейный коэффициент парной корреляции и коэффициент детерминации . Сделать выводы.
3. Оценить статистическую значимость уравнения регрессии в целом.
4. Оценить статистическую значимость параметров регрессии и корреляции.
5. Выполнить прогноз затрат на производство при прогнозном выпуске продукции, составляющем 195 % от среднего уровня.
6. Оценить точность прогноза, рассчитать ошибку прогноза и его доверительный интервал.
7. Оценить модель через среднюю ошибку аппроксимации.

Решение :

1. Уравнение имеет вид y = α + βx
1. Параметры уравнения регрессии.
Средние значения

Дисперсия

Среднеквадратическое отклонение

Коэффициент корреляции

Связь между признаком Y фактором X сильная и прямая
Уравнение регрессии

Коэффициент детерминации
R 2 = 0.94 2 = 0.89, т.е. в 88.9774 % случаев изменения х приводят к изменению y. Другими словами - точность подбора уравнения регрессии - высокая

x y x 2 y 2 x ∙ y y(x) (y-y cp) 2 (y-y(x)) 2 (x-x p) 2
78 133 6084 17689 10374 142.16 115.98 83.83 1
82 148 6724 21904 12136 148.61 17.9 0.37 9
87 134 7569 17956 11658 156.68 95.44 514.26 64
79 154 6241 23716 12166 143.77 104.67 104.67 0
89 162 7921 26244 14418 159.9 332.36 4.39 100
106 195 11236 38025 20670 187.33 2624.59 58.76 729
67 139 4489 19321 9313 124.41 22.75 212.95 144
88 158 7744 24964 13904 158.29 202.51 0.08 81
73 152 5329 23104 11096 134.09 67.75 320.84 36
87 162 7569 26244 14094 156.68 332.36 28.33 64
76 159 5776 25281 12084 138.93 231.98 402.86 9
115 173 13225 29929 19895 201.86 854.44 832.66 1296
0 0 0 16.3 20669.59 265.73 6241
1027 1869 89907 294377 161808 1869 25672.31 2829.74 8774

Примечание: значения y(x) находятся из полученного уравнения регрессии:
y(1) = 4.01*1 + 99.18 = 103.19
y(2) = 4.01*2 + 99.18 = 107.2
... ... ...

2. Оценка параметров уравнения регрессии
Значимость коэффициента корреляции

По таблице Стьюдента находим Tтабл
T табл (n-m-1;α/2) = (11;0.05/2) = 1.796
Поскольку Tнабл > Tтабл, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициента корреляции статистически - значим.

Анализ точности определения оценок коэффициентов регрессии





S a = 0.1712
Доверительные интервалы для зависимой переменной

Рассчитаем границы интервала, в котором будет сосредоточено 95% возможных значений Y при неограниченно большом числе наблюдений и X = 1
(-20.41;56.24)
Проверка гипотез относительно коэффициентов линейного уравнения регрессии
1) t-статистика


Статистическая значимость коэффициента регрессии a подтверждается

Статистическая значимость коэффициента регрессии b не подтверждается
Доверительный интервал для коэффициентов уравнения регрессии
Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:
(a - t S a ; a + t S a)
(1.306;1.921)
(b - t b S b ; b + t b S b)
(-9.2733;41.876)
где t = 1.796
2) F-статистики


Fkp = 4.84
Поскольку F > Fkp, то коэффициент детерминации статистически значим

ГЛАВА 3. МОДЕЛЬ МНОЖЕСТВЕННОЙ

ЛИНЕЙНОЙ РЕГРЕССИИ

Основные понятия и уравнения множественной регрессии

На любой экономический показатель чаще всего оказывает влияние не один, а несколько совокупно действующих факторов. Например, объем реализации (Y ) для предприятий оптовой торговли может определяться уровнем цен (Х 1), числом видов товаров (Х 2), размером торговой площади (Х 3) и товарных запасов (Х 4). В целом объем спроса на какой-либо товар определяется не только его ценой (Х 1), но и ценой на конкурирующие товары (Х 2), располагаемым доходом потребителей (Х 3), а также некоторыми другими факторами. Показатель инновационной активности современных предприятий зависит от затрат на исследования и разработки (Х 1), на приобретение новых технологий (Х 2), на приобретение программных продуктов и средств (Х 3) и обучение и переподготовку кадров . В этих случаях возникает необходимость рассмотрения моделей множественной (многофакторной, многомерной) регрессии .

Модель множественной линейной регрессии является естественным обобщением парной (однофакторной) линейной регрессионной модели. В общем случае ее теоретическое уравнение имеет вид:

где Х 1 , Х 2 ,…, Х m – набор независимых переменных (факторов-аргументов); b 0 , b 1 , …, b m – набор (m + 1) параметров модели, подлежащих определению; ε – случайное отклонение (ошибка); Y – зависимая (объясняемая) переменная.

Для индивидуального i -го наблюдения (i = 1, 2, …, n ) имеем:

. (3.3)

Здесь b j называется j -м теоретическим коэффициентом регрессии (частичным коэффициентом регрессии).

Аналогично случаю парной регрессии, истинные значения параметров (коэффициентов) b j по выборочным данным получить невозможно. Поэтому для определения статистической взаимосвязи переменных Y и Х 1 , Х 2 , …, Х m оценивается эмпирическое уравнение множественной регрессионной модели

в котором , – оценки соответствующих теоретических коэффициентов регрессии; е – оценка случайного отклонения ε.

Оцененное уравнение (3.4) в первую очередь должно описывать общий тренд (направление, тенденцию) изменения зависимой переменной Y . При этом необходимо иметь возможность рассчитать отклонения от этого тренда.

Для решения задачи определения оценок параметров множественной линейной регрессии по выборке объема n необходимо выполнение неравенства n ³ m + 1 (m – число регрессоров). В данном случае число v = n - m - 1 будет называться числом степеней свободы. Отсюда для парной регрессии имеем v = n - 2. Нетрудно заметить, что если число степеней свободы невелико, то и статистическая надежность оцениваемой формулы невысока. На практике принято считать, что достаточная надежность обеспечивается в том случае, когда число наблюдений по крайней мере в три раза превосходит число оцениваемых параметров k = m + 1. Обычно, статистическая значимость парной модели наблюдается при n ≥ 7.

Самым распространенным методом оценки параметров уравнения множественной линейной регрессионной модели является метод наименьших квадратов (МНК) . Напомним (см. раздел 2.4.1), что надежность оценок и статистических выводов, полученных с использованием МНК, обеспечивается при выполнении предпосылок Гаусса-Маркова. В случае множественной линейной регрессии к предпосылкам 1–4 необходимо добавить еще одну (пятую) – отсутствие мультиколлинеарности , что означает отсутствие линейной зависимости между объясняющими переменными в функциональной или статистической форме. Более подробно мультиколлинеарность объясняющих переменных будет рассмотрена в разделе (3.4). Модель, удовлетворяющая предпосылкам МНК, называется классической нормальной моделью множественной регрессии .

На практике часто бывает необходимо оценить силу влияния на зависимую переменную различных объясняющих (факторных) переменных. В этом случае используют стандартизованные коэффициенты регрессии и средние коэффициенты эластичности .

Стандартизированный коэффициент регрессии определяется по формуле:

(3.5)

где S (x j ) и S (y ) – выборочные средние квадратичные отклонения (стандарты) соответствующей объясняющей и зависимой переменных.

Средний коэффициент эластичности

(3.6)

показывает, на сколько процентов (от средней) изменится в среднем зависимая переменная Y при увеличении только j -й объясняющей переменной на 1 %.

Для модели с двумя объясняющими (факторными) переменными , после нахождения оценок , уравнение определяет плоскость в трехмерном пространстве. В общем случае m независимых переменных геометрической интерпретацией модели является гиперплоскость в гиперпространстве.

Оценка параметров регрессионной модели

Для нахождения оценок параметров b j множественной линейной регрессионной модели (коэффициентов эмпирического уравнения регрессии) используется метод наименьших квадратов (МНК). Суть МНК заключается в минимизации суммы квадратов отклонений наблюдаемых выборочных значений y i зависимой переменной Y от их модельных оценок . Отклонение е i , соответствующее уравнению регрессии в i -м наблюдении (i = 1, 2, …, n ), рассчитывается по формуле:

Тогда для нахождения коэффициентов по МНК минимизируется следующая функция m + 1 переменных:

. (3.8)

Необходимым условием минимума функции G является равенство нулю всех ее частных производных по Частные производные квадратичной функции (3.8) являются линейными функциями относительно параметров:

. (3.9)

Приравнивая (3.9) к нулю, получаем систему m + 1 линейных нормальных уравнений с m + 1 неизвестными для определения параметров модели:

(3.10)

где j = 1, 2, …, m – определяет набор регрессоров.

Следует заметить, что включение в модель новых объясняющих переменных усложняет расчет коэффициентов множественной линейной регрессии путем решения системы (3.10) по сравнению с парной моделью. Система из трех уравнений, соответствующая модели с двумя объясняющими переменными , может быть легко решена методом определителей. Однако в общем виде решение системы (3.10) и анализ множественной регрессионной модели наиболее целесообразно проводить в векторно-матричной форме .

Тогда, вводя матричные обозначения, запишем:

, , .

Здесь Y n -мерный вектор-столбец наблюдений зависимой переменной; Х – матрица размерности n · (m + 1) значений объясняющих переменных x ij , в которой единица соответствует переменной при свободном члене ; – вектор-столбец размерности m + 1 оценок параметров модели (коэффициентов уравнения регрессии); е – вектор-столбец размерности n отклонений выборочных (реальных) значений y i зависимой переменной, от значений оценок , получаемых по уравнению регрессии.

В матричной форме модель (3.1) примет вид:

Y = XB + e. (3.11)

Оценкой этой модели по выборочным данным является уравнение (эмпирическая модель)

Предпосылки МНК (см. раздел 2.4.1.) в матричной форме можно записать следующим образом:

1. M (e) = 0; 2. D (e) = σ 2 I ; 3. Матрица ковариаций V (e) = M (e · e T ) = σ 2 E,

где e = – вектор-столбец случайных отклонений (ошибок);

I = – (n · 1) вектор;

E = E n × n = – единичная матрица;

– матрица ковариаций или ковариационная матрица вектора случайных отклонений, которая является многомерным аналогом дисперсии одной переменной и в которой, если предпосылка о некоррелированности отклонений e i и e j выполняется, все элементы, не лежащие на главной диагонали, равны нулю, а элементы главной диагонали равны одной и той же дисперсии D (e i ) = σ 2 ; 4. e – нормально распределенный случайный вектор, т. е. e ~ N (0, σ 2 Е); 5. r (X ) = m + 1 > n – детерминированная матрица объясняющих переменных (регрессоров) имеет ранг r , равный числу определяемых параметров модели m + 1, кроме того, число имеющихся наблюдений каждой из объясняющих переменных и зависимой переменной превосходит ранг матрицы Х .

Выполнение пятой предпосылки означает линейную независимость объясняющих переменных (линейную независимость столбцов матрицы Х ), т. е. отсутствие функциональной мультиколлинеарности.

Наша задача заключается в нахождении вектора оценок по МНК, который, при выполнении предпосылок 1–5, обладает наименьшим рассеянием относительно параметра B .

Воспользовавшись известными соотношениями матричной алгебры и правилами дифференцирования по векторному аргументу, получим необходимое условие минимума функции G (равенство нулю вектор-столбца частных производных )