Контрольная работа - Линейная модель множественной регрессии - файл n1.docx

Контрольная работа - Линейная модель множественной регрессии
скачать (1542.6 kb.)
Доступные файлы (3):
n1.docx1844kb.14.03.2011 00:20скачать
n2.xlsxскачать
n3.doc30kb.09.05.2011 13:02скачать

n1.docx



ВАРИАНТ 2.

Задача 1.

По данным, представленным в таблице 1, изучается зависимость объёма валового национального продукта Y (млрд. долл.) от следующих переменных: Х1 – потребление, млрд. долл., Х2 – инвестиции, млрд. долл.
Таблица 1.




1

2

3

4

5

6

7

8

9

10

Y

8

9,5

11

12

13

14

15

16,5

17

18

Х1

1,65

1,8

2,0

2,1

2,2

2,4

2,65

2,85

3,2

3,55

Х2

14

16

18

20

23

23,5

25

26,5

28,5

30,5


Задание:

  1. Для заданного набора данных постройте линейную модель множественной регрессии. Оцените точность и адекватность построенного уравнения регрессии.

  2. Дайте экономическую интерпретацию параметров модели.

  3. Для полученной модели проверьте выполнение условия гомоскедастичности остатков, применив тест Голдфельда-Квандта.

  4. Проверьте полученную модель на наличие автокорреляции остатков с помощью теста Дарбина-Уотсона.

  5. Проверьте, адекватно ли предположение об однородности исходных данных в регрессионном смысле. Можно ли объединить две выборки (по первым 5 и остальным 5 наблюдениям) в одну и рассматривать единую модель регрессии Y по X?


РЕШЕНИЕ.

  1. Построим линейную модель множественной регрессии с помощью Microsoft Office Excel.


Регрессионный анализ предназначен для исследования зависимости исследуемой переменной Y от различных факторов и отображение их взаимосвязи в форме регрессионной модели.

В зависимости от количества включенных в модель факторов Х модели делятся на:

Линейная модель множественной регрессии имеет вид:

=b0+ b 1*x1+ b 2*x2+…+ b n*xn

Для построения линейной модели множественной регрессии на листе Microsoft Office Excel (2007) создадим табличку с нашими данными (Рис. 1) и построим регрессию. Для этого на закладке Данные выберем строку Анализ данных и в качестве инструмента данных – Регрессия - ок. В открывшемся окне Регрессии зададим Входной интервал Yи Х (рис.2,3).


Рис. 1. Исходная таблица данных.

Рис. 2. Окно Анализ данных


Рис.3. Окно Регрессия.


Получим результаты регрессионного анализа на новом листе Регрессия (Рис.4)


Рис.4. Лист Регрессия.

По данным регрессионной статистики мы получили следующие данные:

Множественный R – это ?R2 , где R2 – коэффициент детерминации.

R-квадрат – это R2. В нашем примере значение R2=0,9883 свидетельствует о том, что изменения зависимой переменной Y(объём валового национального продукта (ВНП)) в основном (на 98,83%) можно объяснить изменениями включенных в модель объясняющих переменных - Х1, Х2 (потребление и инвестиции). И лишь на 1,17% (100-98,83) объём ВНП зависит от других неучтённых факторов. Такое значение свидетельствует об адекватности модели.

Нормированный R-квадрат – поправленный (скорректированный по числу степеней свободы) коэффициент детерминации.

Стандартная ошибка регрессии S=?S2, где S2=?(еi2/(n-m)) – необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии); n- число наблюдений (в нашем случае 10), m- число объясняющих переменных (в нашем примере равно 2).

Наблюдения – число наблюдений n (10).

Рассмотрим таблицу с результатами дисперсионного анализа:

df – число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант (m+1).

SS- сумма квадратов (регрессионная RSS, остаточная ESS и общая TSS соответственно).

MS – сумма квадратов на одну степень свободы. MS=SS/df.

F – расчетное значение F-критерия Фишера. Если нет табличного значения, то для проверки значимости уравнения регрессии в целом можно посмотреть Значимость F. На уровне значимости ?=0,05 уравнение регрессии признается значимым в целом, если Значимость F<0,05, и незначимым, если Значимость F?0,05.

Для нашего примера имеем следующие значения:

Таблица 2

 

df

SS

MS

F

Значимость F

Регрессия

m=2

RSS=

97,74

RSS/df=

48,87

(RSS/ESS)*

((n-m-1)/m) =

295,50

1,73534E-07

Остаток

n-m-1=7

ESS=

1,15

ESS/df=0,165

 

 

Итого

n-1=9

TSS=

98,9

 

 

 

В нашем случае расчетное значение F-критерия Фишера составляет 295,50. Значимость F=1,74E-07, что меньше 0,05. Таким образом, полученное уравнение в целом значимо.

В последней таблице приведены значения параметров (коэффициентов) модели, их стандартные ошибки и расчетные значения t-критериев Стьюдента для оценки значимости отдельных параметров модели.

Таблица 3




Коэффи-циенты

Стандарт-ная ошибка

t-статистика

Р-значение

Нижние 95%

Верхние 95%

Y

b0=-0,26

mb0=0,58

tb0=-0,44

0,67

-1,62? b0? 1,11

X1

b1=0,47

mb1=0,88

tb1=0,53

0,61

-1,62? b1? 2,56

X2

b2=0,56

mb2=0,10

tb2=5,53

0,0008

0,32? b2? 0,79


Анализ данной таблицы позволяет сделать вывод о том, что на уровне значимости ?=0,05 значимым оказывается лишь коэффициент при факторе X2, так как лишь для него Р-значение меньше 0,05. Таким образом, фактор Х1 не существенен и его включение в модель не целесообразно.

Поскольку коэффициент регрессии в экономических исследованиях имеют четкую экономическую интерпретацию, то границы доверительного интервала для коэффициента регрессии не должны содержать противоречивых результатов, как например, -1,62? b1? 2,56. Такого рода запись указывает, что истинное значение коэффициента регрессии одновременно содержит положительные и отрицательные величины и даже ноль, чего не может быть. Это также подтверждает вывод о статистической незначимости коэффициентов регрессии при факторе Х1.

Таким образом, целесообразно исключить несущественный фактор Х1. Но мы оставим этот фактор, так как у нас всего 2 переменных и в случае его исключения, модель не будет многофакторной. Поэтому мы будем иметь ввиду, что фактор Х1 малозначим и построим уравнение зависимости Y (объёма валового национального продукта ) от значимой объясняющей переменной X2 (инвестиции) и незначимой Х1 (потребление) .
Оценим точность и адекватность полученной модели.

Согласно проведенной регрессионной статистики мы видим следующие результаты:

1.Коэффициент множественной корреляции (множественный R) равен 0,994. Следовательно, связь между факторами весьма тесная (по шкале Чудока)

2. Значение R2=0,9883 свидетельствует о том, что вариация зависимой переменной Y (объём валового национального продукта) в основном (на 98,78%) можно объяснить вариацией включенных в модель объясняющих переменных Х2 (инвестиции) и Х1. Это свидетельствует об адекватности модели.

3. По результатам дисперсионного анализа мы получили расчетное значение F-критерия Фишера, которое составляет 295,50. Рассчитаем с помощью Excel табличное значение Фишера (результат см. рис. 7). Для этого в ячейке Е14 (см. рис 4) обратимся к мастеру функций f(x) и выберем категорию: Статистические функции - функцию FРАСПОБР, как показано на рис. 5.



Рис. 5. Мастер функции.
Затем зададим нужные аргументы: Вероятность ?=0,05. Степень свободы 1 – количество факторов Х. Степень свободы 2- это число степеней свободы: n-m-1=10-2-1=7, где n – число наблюдений (в нашем случае 10), m- число объясняющих переменных (в нашем примере равно 2) (см. рис. 6).



Рис. 6. Аргументы функции (расчет табличного значения Фишера в Microsoft Office Excel).


Рис. 7. Результат расчета табличного значения Фишера с помощью редактора Microsoft Office Excel.
Сравнивая расчетное значение F-критерия Фишера 295,50 с табличным 4,74 мы видим, что 295,50> 4,74. Следовательно, в целом, уравнение регрессии значимо.

Значимость F=1,735*10-7, что меньше 0,05. Это так же говорит о значимости уравнения.

Далее оценим значимость отдельных параметров построенной модели.

Границы доверительного интервала для коэффициентов регрессии не содержат противоречивых результатов:

С надежностью 0,95 (с вероятностью 95%) коэффициент b1 лежит в интервале 0,55? b1? 0,66 .

Сравним полученное значение t-статистики с табличным, которое рассчитаем с помощью мастера функций (рис.8, 9)



Рис. 8 Мастер функций.


Рис. 9. Аргументы функции.

Результат расчета представлен на рис. 10 в ячейке D20.



Рис. 10. Результаты регрессии с рассчитанными табличными значениями F и t-статистики.
Сравнивая расчетные значения t-статистики с табличным 2,36 мы ещё раз убеждаемся, что значение переменной Х1 не значимое, так как 0,53< 2,36. А значение переменной Х2 является значимым, так как оно больше порогового 5,52>2,36.
Таким образом, модель балансовой прибыли предприятия торговли запишется в следующем виде:

=-0,26+0,47*Х1+0,57*X2.

Теперь построим в Excel заново нашу регрессию с выведением остатков:



Рис.11. Регрессия с остатками.

Получим:



Рис. 12. Регрессия с рассчитанными остатками.
Найдём долю ошибки в Y(по модулю):

Ошибка аппроксимации (выравнивания) А=||*100%.

Разделим ошибку аппроксимации на число наблюдений и получим среднюю ошибку аппроксимации:

= ?||*100%.

Для нахождения А с помощью редактора Microsoft Office Excel воспользуемся математическими функциями:



Рис.13. Мастер функций.

Зададим аргументы функций (рис. 14.)



Рис. 14. Аргументы функции.
Найдём среднюю ошибку аппроксимации (рис. 15)



Рис. 15. Расчет ошибки аппроксимации и средней ошибки аппроксимации.
Мы получили среднюю ошибку аппроксимации равную =2,027. Это говорит о том, что исследуемая модель является точной (так как <10).


  1. Рассмотрим экономическую интерпретацию параметров модели.

=-0,26+0,47*Х1+0,57*X2.

Коэффициент b1=0,47 означает, что при увеличении потребления на 1 млрд. долл. объём валового национального продукта возрастёт на 0,47 млрд. долл.

Коэффициент b2=0,57 означает, что увеличение инвестиций на 1 млрд. долл. приведёт к увеличению объёма валового национального продукта на 0,57 млрд. долл.


  1. Проверим выполнение условия гомоскедастичности остатков, применив тест Голдфельда-Квандта.

Разобьём модель на 3 части (см. рис. 16). Найдём регрессию 1-ой и 3-ей части (результат на рис.17).



Рис. 16. Модель разбили на 3 части.


Рис.17 Регрессия для 1 и 3 частей модели.

Определим значимость модели по формуле:


F=

? ei2 (1)

? ei2 (2)

На рисунке 17 видно, что для нахождения F необходимо разделить результат ячейки С11 на результат ячейки С29. Получим:


F=

0,018


=0,429

0,042


Для того, чтобы узнать табличное значение , воспользуемся встроенной в EXCEL функцией FРАСПОБР с параметрами ?=0,05. В данном случае К12=n| -m=4-2=2 (см. рис. 18)



Рис.18. Аргументы функции.


Рис. 19 Расчет табличного F.

Статистика Fрасч.=0,429 меньше табличного значения Фишера F=FРАСПОБР(0,05;2;2)=19. Следовательно, в данной моделе отсутствует гетероскедастичность остатков.

  1. Проверим полученную модель на наличие автокорреляции остатков с помощью теста Дарбина-Уотсона.

Если прослеживается влияние результатов предыдущих наблюдений на результаты последующих, случайные величины (ошибки) ɛi в регрессионной модели не оказываются независимыми. Такие модели называются моделями с наличием автокорреляции.

Как правило, если автокорреляция присутствует, то наибольшее влияние на последующее наблюдение оказывает результат предыдущего наблюдения. Наличие автокорреляции между соседними уровнями ряда можно определить с помощью теста Дарбина-Уотсона. Расчетное значение определяется по следующей формуле:


dw=

? (ɛii-1) 2

? ɛi 2

Определим его с помощью редактора EXCEL. Результаты расчета представлены на рис. 20.



Рис. 20. Расчет автокорреляции.

Таким образом, мы нашли расчетное значение dw=1,84. Найдём табличное значение статистики Дарбина-Уотсона для m=2 и n=10. Согласно таблицы получим d1= 0,7 и d2=1,64.

Значение статистики Дарбина-Уотсона распределено в интервале от 0 до 4. Соответственно, идеальное значение статистики равно 2 (автокорреляция отсутствует). Если расчетное значение:

01, то присутствует положительная автокорреляция.

4-d1
d22, то автокорреляция отсутствует.

d12 и 4-d21, то вопрос о наличии или отсутствии автокорреляции остается открытым (расчетное значение попадает в зону неопределённости).

Для нахождения автокорреляции разобьём числовую прямую, как показано на рис. 21.



Рис. 21. Области автокорреляции для d1= 0,7 и d2=1,64.

Наше расчетное значение dw=1,84 попадает в область, где автокорреляции нет.


  1. Проверим, адекватно ли предположение об однородности исходных данных в регрессионном смысле. Можно ли объединить две выборки (по первым 5 и остальным 5 наблюдениям) в одну и рассматривать единую модель регрессии Y по X?


Для проверки предположения об однородности исходных данных в регрессионном смысле применим тест Чоу.

В соответствии со схемой теста построим уравнение регрессии по первым n1=5 наблюдениям и остальным n2=5 наблюдениям. Результаты представлены на рис. 22.

Результаты регрессионного и дисперсионного анализа модели, построенной по всем n=n1 + n2=10 наблюдениям, представлены на рис.4.



Рис. 22. Уравнение регрессии по первым n1=5 наблюдениям и остальным n2=5 наблюдениям.
Рассчитаем статистику F по формуле:



Fрасч.=

(ESS-ESS1-ESS2)/(2+1)


=

(1,158-0,023-0,070)/3


=15,43

(ESS1+ESS2)/(10-2*2-2)

(0,023+0,070)/4


Находим табличное значение Fтабл.=FРАСПОБР (0,05;3;4) с помощью редактора EXCEL. Получаем Fтабл.=6,59.

Так как Fрасч.>Fтабл. (15,43>6,59), то можно сделать вывод, что использовать единую модель по всем наблюдениям нельзя, то есть объединить две выборки (по первым 5 и остальным 5 наблюдениям) в одну и рассматривать единую модель регрессии Y по X не целесообразно.
11.03.2011 г. Ермакова О.И.


ЛИТЕРАТУРА.

  1. Елисеева И.И. Эконометрика, Москва, Финансы и статистика, 2007 г., 576 стр.

  2. Елисеева И.И. Практикум по Эконометрике, Москва, Финансы и статистика, 2002 г., 192 стр.

  3. Доугерти К. Введение в эконометрику, Москва, ИНФРА-М, 2009 г., 465 стр.


Учебный материал
© nashaucheba.ru
При копировании укажите ссылку.
обратиться к администрации