Задание для выполнения практической работы по дисциплине эконометрика
корреляция регрессия гетероскедастичность
Работа включает в себя анализ реальных экономических данных при помощи изученных эконометрических моделей.
Работа должны быть выполнена в соответствии со следующими этапами:
1) Рассчитайте корреляцию между, экономическими показателями (не менее 5) из статистических данных по выборке не менее 30 наблюдений (из Интернета, печатных источников или Вашего предприятия). Интерпретируйте полученные данные.
2) Постройте линейную и не линейную (на свой выбор) множественную регрессию. Определите теоретическое уравнение множественной регрессии. Оцените адекватность построенной модели. Определите значимость переменных, найдите среднюю ошибку аппроксимации (вручную в экселе), коэффициент детерминации, линейные коэффициенты корреляции между всеми членами регрессии, найти критерий Фишера, Т-статистику и т. д.
3) Проверьте модели на отсутствие автокорреляции.
4) Проверка на гетероскедастичность моделей.
5) Сравните модели между собой выберете лучшую
Работа выполняется на листах формата А4, с титульным листом и обязательными выводами по работе. Решение: Сбор данных из интернет – источников получены данные средней продолжительности жизни, ВВП в паритетах покупательной способности, темпы прироста населения по сравнению с предыдущим годом, %; темпы прироста рабочей силы по сравнению с предыдущим годом, %; коэффициент младенческой смертности. Изучим зависимость продолжительности жизни от нескольких факторов по данным за 2005 г., представленным в табл.1.
Таблица 1. Обзор социальных показателей стран третьего мира.
Страна | У | Х1 | Х2 | Х3 | Х4 |
Мозамбик | 47 | 3,0 | 2,6 | 2,4 | 113 |
Бурунди | 49 | 2,3 | 2,6 | 2,7 | 98 |
Чад | 48 | 2,6 | 2,5 | 2,5 | 117 |
Непал | 55 | 4,3 | 2,5 | 2,4 | 91 |
Буркина-Фасо | 49 | 2,9 | 2,8 | 2,1 | 99 |
Мадагаскар | 52 | 2,4 | 3,1 | 3,1 | 89 |
Бангладеш | 58 | 5,1 | 2,0 | 2,1 | 79 |
Гаити | 57 | 3,4 | 2,0 | 1,7 | 72 |
Мали | 50 | 2,0 | 2,9 | 2,7 | 123 |
Нигерия | 53 | 4,5 | 2,9 | 2,8 | 80 |
Кения | 58 | 5,1 | 2,7 | 2,7 | 58 |
Того | 56 | 4,2 | 3,0 | 2,8 | 88 |
Индия | 62 | 5,2 | 1,8 | 2,0 | 68 |
Бенин | 50 | 6,5 | 2,9 | 2,5 | 95 |
Пакистан | 68 | 7,4 | 3,1 | 4,0 | 46 |
Мавритания | 59 | 7,4 | 2,8 | 2,7 | 73 |
Зимбабве | 47 | 4,9 | 3,1 | 2,8 | 124 |
Гондурас | 60 | 8,3 | 2,9 | 3,3 | 90 |
Китай | 51 | 5,7 | 2,5 | 2,7 | 96 |
Камерун | 57 | 7,5 | 2,4 | 2,2 | 55 |
Конго | 67 | 7,0 | 3,0 | 3,8 | 45 |
Шри-Ланка | 69 | 10,8 | 1,1 | 1,1 | 34 |
Египет | 57 | 7,8 | 2,9 | 3,1 | 56 |
Индонезия | 51 | 7,6 | 2,9 | 2,6 | 90 |
Филиппины | 72 | 12,1 | 1,3 | 2,0 | 16 |
Марокко | 63 | 14,2 | 2,0 | 2,7 | 56 |
Папуа - Новая | 64 | 14,1 | 1,6 | 2,5 | 51 |
Гвинея | 66 | 10,6 | 2,2 | 2,7 | 39 |
Гватемала | 65 | 12,4 | 2,0 | 2,6 | 55 |
Эквадор | 57 | 9,0 | 2,3 | 2,3 | 64 |
Доминиканская Республика | 66 | 12,4 | 2,9 | 3,5 | 44 |
Ямайка | 69 | 15,6 | 2,2 | 3,2 | 36 |
Принятые в таблице обозначения:
у — средняя продолжительность жизни, лет;
х1 - ВВП в паритетах покупательной способности, млрд. долл.;
х2 - темпы прироста населения по сравнению с предыдущим годом, %;
х3 - темпы прироста рабочей силы по сравнению с предыдущим годом;
х4 - коэффициент младенческой смертности, %с.
1. Корреляционный анализ
Корреляционный анализ проводился с использованием компьютерной программы EXCEL с помощью пакета анализа данных
Таблица 2. Корреляционная зависимость продолжительности жизни от различных факторов.
У
|
Х1
|
Х2
|
Х3
|
Х4
|
|
У | 1 | ||||
Х1 | 0,7782 | 1 | |||
Х2 | -0,524 | -0,49 | 1 | ||
Х3 | 0,1123 | 0,096 | 0,6963 | 1 | |
Х4 | -0,928 | -0,763 | 0,523 | -0,032 | 1 |
На основании полученных данных можно сделать вывод, что наибольшее влияние на продолжительность жизни оказывает фактор Х1- ВВП в паритетах покупательной способности, у остальных факторов наблюдается слабый корреляционный отклик.
3. Для выбора наилучшей регрессионной функции необходимо ее проанализировать по набору критериев: коэффициенты попарной корреляции, коэффициенты множественной корреляции, критерий Фишера, статистики Стьюдента.
Строим регрессионную функцию по всем регрессорам, использую при этом пакет анализа данных MS Excel «Регрессия»
Таблица 3. Регрессионная статистика
Множественный R | 0,9546 |
R-квадрат | 0,9112 |
Нормированный R-квадрат | 0,8981 |
Стандартная ошибка | 2,3541 |
Наблюдения | 32 |
Пояснения к таблице 2. Регрисеонная статистика содержит строки, характеризующие построенное уравнение регрессии:
Для парной регрессии Множественный R равен коэффициенту корреляции (rxу
). Множественный коэффициент корреляции R определяется как коэффициент корреляции между наблюдаемыми значениями Yi
и расчетными, прогнозируемыми значениями. По его значению 0,9546 можно сказать, что между X и Y существует сильная линейная зависимость.
Строка R–квадрат равна коэффициенту корреляции в квадрате, он близок к 1, это означает что данная модель хорошо описывает данные
Нормированный R–квадрат рассчитывается с учетом степеней свободы числителя (n-2) и знаменателя (n-1) по формуле:
Стандартная ошибка (S) регрессии вычисляется по формуле 1.4.
Последняя строка содержит количество выборочных данных (n). Значимость уравнения в целом оценивается с помощью F-критерия Фишера
Если найденное значение F больше табличного для уровня значимости α
и степеней свободы (n-m-1) и m, то с вероятность 1 - α делаем заключение о статистической значимости уравнения в целом.
Таблица 4 Дисперсионный анализ
df
|
SS
|
MS
|
F
|
Значимость F
|
|
Регрессия | 4 | 1535,9 | 383,97 | 69,285 | 8,42972E-14 |
Остаток | 27 | 149,63 | 5,5418 | ||
Итого | 31 | 1685,5 |
Пояснения к таблице дисперсионного анализа: число регрессоров m = 4 число n-m-1 = 27, где n – число наблюдений
Для уровня значимости α = 0,05 и при степенях свободы 4, 27 табличное значение критерия Фишера Fтаб = 2,71.
Значение F =69,285 существенно превышает табличное, что говорит о статистической значимости уравнения в целом.
Таблица 5 Коэффициенты регрессии
Коэффициенты | Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 72,846 | 3,4746 | 20,965 | 3E-18 | 65,717 | 79,976 |
Х1 | 0,0031 | 0,1929 | 0,0163 | 0,9871 | -0,3925 | 0,3989 |
Х2 | -6,173 | 1,9298 | -3,199 | 0,0035 | -10,132 | -2,213 |
Х3 | 5,1218 | 1,5086 | 3,395 | 0,0021 | 2,02631 | 8,2173 |
Х4 | -0,18 | 0,0258 | -6,98 | 2E-07 | -0,2326 | -0,127 |
В столбце «Коэффициенты» получены коэффициенты уравнения регрессии.
Коэффициент b0
= 72,846 в Таблице анализа – это Y
-пересечение. Таким образом, получили уравнение регрессии:
У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4
Коэффициент b1
=0,0013 показывает, что при увеличении ВВП на 1 млр. дол. Средняя продолжительность жизни увеличивается в среднем на 0,0031 лет, увеличение темпов прироста населения на 1%,. приводит в среднем уменьшению продолжительности жизни на 6,173 лет, увеличение темпов прироста рабочей силы на 1% приводит к увеличению продолжительности жизни на 5,122 лет, а увеличение коэффициента младенческой смертности, на 1% ведет к уменьшению средней продолжительности жизни на 0,18 лет.
Стандартные ошибки mi
, t-статистики ti
могут быть вычислены по формулам
Где σY
- среднее квадратическое отклонение для отклика Y, σXi
- среднее квадратическое отклонение для регрессора Xi (X1, X2, …)R2
- коэффициент детерминации для уравнения множественной регрессии, - коэффициент детерминации для зависимости отклика Y от всех регрессоров кроме Xi,- коэффициент детерминации для зависимости Xi от всех регрессоров кроме Xi.
Табличные t–критерии Стьюдента зависят от принятого уровня значимости и от числа степеней свободы (n-m-1). Если вычисленные значения t–критерия превышают табличные, то говорят, что соответствующий коэффициент регрессии является статистически значимым и на него можно опираться в анализе и прогнозе.
Более того, используя табличное значение t-критерия и стандартную ошибку mi
коэффициента регрессии bi
можно с вероятностью 1 - α сделать вывод о том, что истинное значение коэффициента регрессии попадет в интервал (bi
– tтаб
*mi
, bi
+ tтаб
*mi
).
Они составляют:
m(X1)
=0.192, m(X2)
=1,9289, m(X3)
=1,5086, m(X4)
=0.0258, m(y)
=3.4746
t(X1)
=0.0163, t(X2)
=-3.199, t(X3)
=3.395, t(X4)
=-6.98, t(y)
=20.965
Табличное значение t–критерия Стьюдента при уровне значимости α = 0,05 и числе степеней свободы 27 tтаб
=2,051. Коэффициенты t- статистики при регрессорах Х1 , Х2 и Х4 меньше t таб., и согласно t–критерию не являются статистически значимыми.
По величине Р
-значения возможно определять значимость коэффициентов, не находя критическое значение t
-статистики. Если значение t
-статистики велико, то соответствующее значение вероятности значимости мало – меньше 0,05, и можно считать, что коэффициент регрессии значим. И наоборот, если значение t
-статистики мало, соответственно вероятность значимости больше 0,05 – коэффициент считается незначимым.
Для коэффициентов b0
, b2
, b3
, b4
значения вероятности близко к нулю, следовательно, b1
можно считать значимым, b1- близко к единице, коэффициент не значим.
Далее представлены доверительные интервалы (нижняя и верхняя границы) для рассчитанных коэффициентов.
Таблица 6 Расчет относительной ошибки аппроксимации
Страна | У | у ожидаемое | остатки E | остатки/у |
Мозамбик | 47 | 48,735 | -1,73 | 0,0369 |
Бурунди | 49 | 52,969 | -3,97 | 0,081 |
Чад | 48 | 49,143 | -1,14 | 0,0238 |
Непал | 55 | 53,316 | 1,68 | 0,0306 |
Буркина-Фасо | 49 | 48,485 | 0,52 | 0,0105 |
Мадагаскар | 52 | 53,552 | -1,55 | 0,0299 |
Бангладеш | 58 | 57,027 | 0,97 | 0,0168 |
Гаити | 57 | 56,234 | 0,77 | 0,0134 | Мали | 50 | 46,617 | 3,38 | 0,0677 |
Нигерия | 53 | 54,877 | -1,88 | 0,0354 |
Кения | 58 | 59,56 | -1,56 | 0,0269 |
Того | 56 | 52,819 | 3,18 | 0,0568 |
Индия | 62 | 59,73 | 2,27 | 0,0366 |
Бенин | 50 | 50,647 | -0,65 | 0,0129 |
Пакистан | 68 | 65,915 | 2,08 | 0,0307 |
Мавритания | 59 | 56,25 | 2,75 | 0,0466 |
Зимбабве | 47 | 45,724 | 1,28 | 0,0272 |
Гондурас | 60 | 55,648 | 4,35 | 0,0725 |
Китай | 51 | 53,956 | -2,96 | 0,058 |
Камерун | 57 | 59,399 | -2,40 | 0,0421 |
Конго | 67 | 65,687 | 1,31 | 0,0196 |
Шри-Ланка | 69 | 65,577 | 3,42 | 0,0496 |
Египет | 57 | 60,742 | -3,74 | 0,0657 |
Индонезия | 51 | 52,062 | -1,06 | 0,0208 |
Филиппины | 72 | 72,195 | -0,20 | 0,0027 |
Марокко | 63 | 64,082 | -1,08 | 0,0172 |
Папуа - Новая | 64 | 66,61 | -2,61 | 0,0408 |
Гвинея | 66 | 66,082 | -0,08 | 0,0012 |
Гватемала | 65 | 63,929 | 1,07 | 0,0165 |
Эквадор | 57 | 58,912 | -1,91 | 0,0335 |
Доминиканская Республика | 66 | 64,964 | 1,04 | 0,0157 |
Ямайка | 69 | 69,197 | -0,20 | 0,0029 |
сумма | 1,0424 | |||
средняя ошибка аппроксимации | 3,2574 |
Средняя ошибка аппроксимации показывает среднее отклонение расчетных значений от фактических и рассчитывается по формуле:
Средняя ошибка аппроксимации составляет 3,2574 %. Это значит, что качество тренда, исходя из относительных отклонений по каждому наблюдения, признается хорошим, так в норме средняя ошибка аппроксимации колеблется в пределах до 10%
3) Проверка модели на отсутствие автокорреляции
Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями
При проверке независимости значений ei определяется отсутствие в остаточном ряду автокорреляции, под которой понимается корреляция между элементами одного и того же числового ряда. В нашем случае автокорреляция - это корреляция ряда e1, e2, e3 ... с рядом eL+1, eL+2, eL+3 Число L характеризует запаздывание (лаг). Корреляция между соседними членами ряда (т.е. когда L = 1) называется автокорреляцией первого порядка. Далее для остаточного ряда будем рассматривать зависимость между соседними элементами ei
.
Наличие автокорреляции может быть выявлено при помощи d-критерия Дарбина-Уотсона. Значение критерия вычисляется по формуле:
Таблица 7. Расчет критерия d - Дарбина-Уотсона
Страна | остатки E | (Ei
–Ei-1 )2 |
Ei
2 |
Мозамбик | -1,73 | 3,01 | 3,01 |
Бурунди | -3,97 | 4,9903 | 15,75 |
Чад | -1,14 | 7,9868 | 1,31 |
Непал | 1,68 | 7,9914 | 2,84 |
Буркина-Фасо | 0,52 | 1,3661 | 0,27 |
Мадагаскар | -1,55 | 4,2746 | 2,41 |
Бангладеш | 0,97 | 6,3751 | 0,95 |
Гаити | 0,77 | 0,0428 | 0,59 |
Мали | 3,38 | 6,8497 | 11,44 |
Нигерия | -1,88 | 27,662 | 3,52 |
Кения | -1,56 | 0,1 | 2,43 |
Того | 3,18 | 22,484 | 10,12 |
Индия | 2,27 | 0,8299 | 5,15 |
Бенин | -0,65 | 8,5083 | 0,42 |
Пакистан | 2,08 | 7,46 | 4,35 |
Мавритания | 2,75 | 0,4422 | 7,56 |
Зимбабве | 1,28 | 2,1712 | 1,63 |
Гондурас | 4,35 | 9,4605 | 18,94 |
Китай | -2,96 | 53,41 | 8,74 |
Камерун | -2,40 | 0,3109 | 5,75 |
Конго | 1,31 | 13,775 | 1,72 |
Шри-Ланка | 3,42 | 4,4504 | 11,71 |
Египет | -3,74 | 51,337 | 14,01 |
Индонезия | -1,06 | 7,1856 | 1,13 |
Филиппины | -0,20 | 0,7508 | 0,04 |
Марокко | -1,08 | 0,7854 | 1,17 |
Папуа - Новая | -2,61 | 2,3372 | 6,81 |
Гвинея | -0,08 | 6,3933 | 0,01 |
Гватемала | 1,07 | 1,3285 | 1,15 |
Эквадор | -1,91 | 8,8971 | 3,66 |
Доминиканская Республика | 1,04 | 8,6895 | 1,07 |
Ямайка | -0,20 | 1,5193 | 0,04 |
сумма | 283,18 | 149,69 | |
критерий d | 1,8918 |
В таблице значений критерия Дарбина-Уотсона для уровня значимости 5% при m=4и n=32 критические значения d1=1.14, d2=1,74,
В нашем расчете значение d-критерия попадает в интервал от d2 до 2, автокорреляция отсутствует.
4) Проверка на гетероскедастичность моделей с использованием теста Бреуша-Пагана
Для этого проверки на гетероскедастичность воспользуемся таблицами 6 и 7
Затем строим регрессию, в которой за зависимую переменную берется столбец квадратов остатков еi2, а за зависимые переменные – переменные Х1, Х2, Х3, Х4,
Результат представлен в таблицах 8,9,10
Таблица 8. Регрессионная статистика
Множественный R | 0,222046 |
R-квадрат | 0,049305 |
Нормированный R-квадрат | -0,09154 |
Стандартная ошибка | 5,309145 |
Наблюдения | 32 |
Таблица 9. Дисперсионный анализ | |||||
df
|
SS
|
MS
|
F
|
Значимость F
|
|
Регрессия | 4 | 39,4692 | 9,867301 | 0,35006 | 0,841652584 |
Остаток | 27 | 761,0497 | 28,18702 | ||
Итого | 31 | 800,5189 |
Таблица 10. Коэффициенты регресси
Коэффиц иенты |
Стандартная ошибка | t-статистика | P-Значение | Нижние 95% | Верхние 95% | |
Y-пересечение | 3,561922 | 7,836107 | 0,454552 | 0,65306 | -12,516 | 19,6402 |
Х1 | -0,21277 | 0,434968 | -0,48916 | 0,62868 | -1,1052 | 0,67971 |
Х2 | -2,64445 | 4,352113 | -0,60762 | 0,54851 | -11,574 | 6,28535 |
Х3 | 2,473815 | 3,402388 | 0,727082 | 0,47343 | -4,5073 | 9,45493 |
Х4 | 0,036775 | 0,058082 | 0,633148 | 0,53196 | -0,0824 | 0,15595 |
Найдена статистика:
Х2
наб
= nR2
=32*0.049305=1,578
Так как
Х2набл
=1,578< Х2крит
=9,48,
То гипотеза о гетероскедастичности отвергается и модель считается гомоскедастичной.
Критическое значение распределения Хи-квадрат найдено с помощью действий: fx
→Статистические→ХИ2ОБР(m
), где m –
число переменных, входящих в уравнение регрессии (в данном случае 6).
5) Сравните модели между собой выберете лучшую.
Как уже отмечалось ранее по величине Р
-значения возможно определять значимость коэффициентов, не находя критическое значение t
-статистики. Если значение t
-статистики велико, то соответствующее значение вероятности значимости мало – меньше 0,05, и можно считать, что коэффициент регрессии значим. И наоборот, если значение t
-статистики мало, соответственно вероятность значимости больше 0,05 – коэффициент считается незначимым.
Для коэффициентов b0
, b2
, b3
, b4
полученных при регрессионном анализе в п.4 значения вероятности близко к 1, следовательно, данные коэффициенты не значимы.
Таким образом, модель выраженная уравнением
У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4
Выводы
Проанализировав данные зависимости средней продолжительности жизни в странах третьего мира ВВП, темпы прироста населения, темпы прироста рабочей силы и коэффициент младенческой смертности можно сделать ряд выводов:
1. В результате проведенного корреляционного анализа наибольшее
влияние на среднюю продолжительность жизни оказывает ВВП, у остальных факторов наблюдается слабый корреляционный отклик.
2. В ходе регрессионного анализа было получено уравнение зависимости:
У=72,846+0,0031Х1-6,173Х2+5,122Х3-0,18Х4
При этом коэффициент b1=0,0013 показывает, что при увеличении ВВП на 1 млрд. дол. средняя продолжительность жизни увеличивается в среднем на 0,0031 лет, увеличение темпов прироста населения на 1%,. приводит в среднем уменьшению продолжительности жизни на 6,173 лет, увеличение темпов прироста рабочей силы на 1% приводит к увеличению продолжительности жизни на 5,122 лет, а увеличение коэффициента младенческой смертности, на 1% ведет к уменьшению средней продолжительности жизни на 0,18 лет.
3. По значению коэффициента множественной корреляции регрессии равным 0,9546 можно сказать, что между факторными и результативными признаками существует сильная линейная зависимость.
4. Значение F =69,285 существенно превышает табличное, что говорит о статистической значимости уравнения в целом.
5. Табличное значение t–критерия Стьюдента при уровне значимости α = 0,05 и числе степеней свободы 27 tтаб
=2,051. Коэффициенты t- статистики при регрессорах Х1 , Х2 и Х4 меньше t таб., и согласно t–критерию не являются статистически значимыми.
6. Средняя ошибка аппроксимации составляет 3,2574 %. Это значит, что качество тренда, исходя из относительных отклонений по каждому наблюдения, признается хорошим, так в норме средняя ошибка аппроксимации колеблется в пределах до 10%
7. В таблице значений критерия Дарбина-Уотсона для уровня значимости 5% при m=4и n=32 критические значения d1=1.14, d2=1,74, В нашем расчете значение d-критерия = 1,89 попадает в интервал от d2 до 2, значит автокорреляция отсутствует.
8. Проверка на гетероскедастичность моделей проводилась с использованием теста Бреуша-Пагана. Тест показал гетероскедастичность отсутствует и модель считается гомоскедастичной.
Список используемой литературы
1. Эконометрика: Учебник / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 576 с.
2. Практикум по эконометрике: Учеб. пособие / Под ред. И.И. Елисеевой. – М.: Финансы и статистика, 2006. – 344 с.
3. Эконометрика: Учебно-методическое пособие / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008. – 198 с.
4. Практикум по эконометрике с применение MS Excel / Шалабанов А.К., Роганов Д.А. – Казань: Издательский центр Академии управления «ТИСБИ», 2008 – 53 с.
5. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2-х т. – Т. 1. Айвазян С.А., Мхитарян В.С. Теория вероятностей и прикладная статистика. – М.: ЮНИТИ-ДАНА, 2001. – 656 с.
6. Прикладная статистика. Основы эконометрики: Учебник для вузов: В 2-х т. – Т. 2. Айвазян С.А. Основы эконометрики. – М.: ЮНИТИ-ДАНА, 2001. – 432 с.
7. Эконометрика: Учебник / Тихомиров Н.П., Дорохина Е.Ю. – М.: Издательство «Экзамен», 2003. – 512 с
8. Берндт Э. Р. Практика эконометрики: классика и современность: Учебник для студентов вузов. – М.: ЮНИТИ-ДАНА, 2005. – 863 с.
9. Эконометрика: учебное пособие / А.В. Гладилин, А.Н. Герасимов, Е.И. Громов. – М.: КНОРУС, 2008. – 232 с.
10. Введение в эконометрику: учебное пособие / Л.П. Яновский, А.Г. Буховец. – М.: КНОРУС, 2009. – 256 с.
11. Луговская Л.В. Эконометрика в вопросах и ответах: учебное пособие. – М.: ТК Велби, Изд-во Проспект, 2006. – 208 с.