Министерство образования и науки Украины
Донецкий Национальный университет
Кафедра теории вероятности
и математической статистики
специальность
«математическая экономика»
Курсовая работа на тему
«Анализ модели множественной линейной регрессии»
Донецк 2006
План
Введение………………………………………………………………….2
1. Описание модели и предварительный анализ……………………….5
2. Гетероскедастичность
2.1 Гетероскедастичность и ее последствия……………………..6
2.2 Обнаружение гетероскедастичности…………………………7
3. Автокорреляция
3.1 Автокорреляция и ее последствия…………………………...12
3.2 Обнаружение автокорреляции первого порядка:
критерий Дарбина-Уотсона……………………………………………..13
4. Мультиколлинеарность
4.1. Мультиколлинеарность и ее последствия…………………..16
4.2 Обнаружение мультиколлинеарности……………………….17
5. Спецификация модели………………………………………………...18
6. Анализ особенностей модели…………………………………………23
7. Список использованной литературы…………………………………24
8. Приложение 1. Исходные данные…………………………………….25
9. Приложение 2. Стандартизированные данные………………………26
10. Приложение 3. Пример применения метода
Голдфельда-Квандта……………………………………………………..27
Введение
Множественная линейная регрессия является обобщением парной линейной регрессии на случай, когда зависимая переменная гипотетически связана более чем с одной независимой переменной. Вследствие этого многие элементы анализа множественной линейной регрессии совпадают с элементами анализа парной регрессии (как то оценка дисперсии коэффициентов регрессии, проверка гипотезы об их значимости, вычисление коэффициента детерминации и т.д.) Для множественной линейной регрессии, построенной методом наименьших квадратов, также имеет место теорема Гаусса-Маркова
:
Предположим, что , где Х – детерминированная матрица , имеющая максимальный ранг и
1.
2. ;
3. ;
4. ,
тогда оценка метода наименьших квадратов является несмещенной, эффективной и состоятельной.
Метод наименьших квадратов применяется в предположении, что кроме условий 1-4 теоремы Гаусса-Маркова выполняются также следующие требования:
5. Модель является линейной относительно параметров;
6.Между объясняющими переменными нет строгой или сильной зависимости;
7. Ошибка имеет гауссовское распределение с параметрами 0 и .
Нарушение хотя бы одного из предположений МНК приводит к ухудшению качества модели. В этом случае оценку нельзя считать несмещенной, эффективной и состоятельной. Нарушение второго условия приводит к гетероскедастичности, третьего – к автокорреляции, шестого – к мультиколлинеарности. Обнаружение этих явлений является необходимым элементом анализа множественной линейной регрессии. В данной работе приведено теоретическое описание методов обнаружения автокорреляции, гетероскедастичности и мультиколлинеарности, а также применение этих методов на конкретном примере.
Не менее важной задачей эконометриста есть правильная спецификация модели (ибо добавление переменной, которая не должна присутствовать в модели, равно как и отсутствие переменной, которая должна содержаться в ней, существенно ухудшает качество модели) и анализ ее особенностей. Этот аспект также будет рассмотрен в данной работе.
1. Описание модели и предварительный анализ
В нашем исследовании этапы анализа множественной парной регрессии будут рассматриваться на примере конкретной модели вида
. (1.1)
Данные, на основе которых строится эта модель приведены в Приложении 1. Оценки коэффициентов регрессии, полученные методом наименьших квадратов приведены в Таблице 1.1.
Таблица 1.1
b4 |
b3 |
b2 |
b1 |
b0 |
0,878172 |
-0,94682 |
-0,78627 |
0,224341 |
75,57982 |
Однако вследствие того, что исходные данные выражены в различных единицах измерения, имеет смысл перейти к так называемой стандартизированной форме, т.е. центрировать и нормировать исходные данные (см. Приложение 2). Таким образом мы приводим их к сопоставимому виду. Модель в этом случае будет иметь вид
. (1.2)
Коэффициенты для этой новой модели соответственно равны
b4stand |
b3stand |
b2stand |
b1stand |
0,142938 |
-0,68549 |
-0,00833 |
0,038692 |
А уравнение множественной линейной регрессии записывается следующим образом
. (1.3)
Коэффициент детерминации для данной модели равен 0,689985. Проведена проверка на адекватность с помощью критерия Фишера. Модель признана адекватной. В результате проверки на статистическую значимость выяснилось, что значимым является только коэффициент b3stand.
Таким образом, часть стандартной процедуры анализа общая для парной и множественной линейной регрессии завершена, и можно перейти к элементам анализа, более характерным для множественной регрессии.
2. Гетероскедастичность
2.1 Гетероскедастичность и ее последствия
Во втором условии Гаусса—Маркова утверждается, что дисперсия случайного члена в каждом наблюдении должна быть постоянной. Такое утверждение может показаться странным, и здесь требуется пояснение. Случайный член в каждом наблюдении имеет только одно значение, и может возникнуть вопрос о том, что означает его «дисперсия».
Имеется в виду его возможное поведение до того, как сделана выборка. Когда мы записываем модель (1.1), первые два условия Гаусса—Маркова указывают, что случайные члены , , ..., в n наблюдениях появляются на основе вероятностных распределений, имеющих нулевое математическое ожидание и одну и ту же дисперсию. Их фактические значения в выборке иногда будут положительными, иногда — отрицательными, иногда — относительно далекими от нуля, иногда.— относительно близкими к нулю, но у нас нет причин ожидать появления особенно больших отклонений в любом данном наблюдении. Другими словами, вероятность того, что величина примет какое-то данное положительное (или отрицательное) значение, будет одинаковой для всех наблюдений. Это условие известно как гомоскедастичность, что означает «одинаковый разброс».
Вместе с тем для некоторых выборок, возможно, более целесообразно предположить, что теоретическое распределение случайного члена является разным для различных наблюдений в выборке. Математически гомоскедастичность и гетероскедастичность могут определяться следующим образом: Гомоскедастичность: Var () = постоянна для всех наблюдений; Гетероскедастичность: Var () = , она не обязательно одинакова для всех i.
Для чего вводится требование об отсутствии гетероскедастичности? Во-первых, желательно, чтобы дисперсия МНК оценок была наименьшей, т.е. чтобы они обеспечивали максимальную точность. При отсутствии гетероскедастичности обычные коэффициенты регрессии имеют наиболее низкую дисперсию среди всех несмещенных оценок, являющихся линейными функциями от наблюдений у. Если имеет место гетероскедастичность, то оценки МНК, которые мы до сих пор использовали, неэффективны. Можно, по меньшей мере в принципе, найти другие оценки, которые имеют меньшую дисперсию и, не менее, являются несмещенными. Вторая, не менее важная причина заключается в том, что сделанные оценки стандартных ошибок коэффициентов регрессии будут неверны. Они вычисляется на основе предположения о том, что распределение случайного члена гомоскедастично; если это не так, то они неверны. Вполне вероятно, что стандартные ошибки будут занижены, а следовательно, t-статистика — завышена, будет получено неправильное представление о точности оценки уравнения регрессии. Возможно, будет принята гипотеза, что коэффициент значимо отличается от нуля данном уровне значимости, тогда как в действительности это не так.
2.2 Обнаружение гетероскедастичности
Очень часто появление проблемы гетероскедастичности можно предвидеть заранее, основываясь на знании характера данных. В таких случаях можно предпринять соответствующие действия по устранению этого эффекта на этапе спецификации модели регрессии, и это позволит уменьшить или, возможно, устранить необходимость формальной проверки. К настоящему времени для такой проверки предложено большое число тестов (и, соответственно, критериев для них). Мы рассмотрим три обычно используемых теста (критерия), в которых делаются различные предположения о зависимости между дисперсией случайного члена и величиной объясняющих переменных: тест ранговой корреляции Спирмена, тест Голдфелда—Квандта и тест Глейзера.
Тест ранговой корреляции Спирмена
При выполнении теста ранговой корреляции Спирмена предполагается, что дисперсия случайного члена будет либо увеличиваться, либо уменьшаться по мере увеличения, и поэтому в регрессии, оцениваемой с помощью МНК; абсолютные величины остатков и значения объясняющих переменных будут коррелированы. Данные по и остатки упорядочиваются, и коэффициент ранговой корреляции определяется как
, (2.2.1)
где — разность между рангом и рангом е. Если предположить, что коэффициент корреляции для генеральной совокупности равен нулю, то коэффициент ранговой корреляции имеет нормальное распределение с математическим ожиданием 0 и дисперсией в больших выборках. Следовательно, соответствующая тестовая статистика равна , и при использовании двустороннего критерия нулевая гипотеза об отсутствии гетероскедастичности будет отклонена при уровне значимости в 5%, если она превысит 1,96, и при уровне значимости в 1%, если она превысит 2,58.
Применим тест ранговой корреляции Спирмена к нашей модели. Для простоты изложения подробные расчеты приведены лишь для .
упорядоченная х1 |
ранг |
упорядоченная |e| |
ранг |
D |
|
-1,849459746 |
7 |
0,008280966 |
8 |
-1 |
1 |
-1,388153599 |
3 |
0,024533337 |
2 |
1 |
1 |
-1,270872375 |
1 |
0,066601421 |
18 |
-17 |
289 |
-1,239597381 |
2 |
0,109125921 |
7 |
-5 |
25 |
-1,106678661 |
5 |
0,109137124 |
20 |
-15 |
225 |
-1,091041164 |
12 |
0,115128486 |
15 |
-3 |
9 |
-1,059766171 |
6 |
0,129180745 |
12 |
-6 |
36 |
-0,856478716 |
4 |
0,179692968 |
24 |
-20 |
400 |
-0,137153876 |
17 |
0,184931495 |
17 |
0 |
0 |
-0,082422638 |
22 |
0,200673797 |
10 |
12 |
144 |
-0,07460389 |
11 |
0,274351484 |
22 |
-11 |
121 |
0,050496083 |
9 |
0,321946398 |
23 |
-14 |
196 |
0,292877279 |
20 |
0,328435011 |
1 |
19 |
361 |
0,535258475 |
14 |
0,365273023 |
11 |
3 |
9 |
0,535258475 |
19 |
0,39452205 |
6 |
13 |
169 |
0,566533468 |
15 |
0,458740222 |
14 |
1 |
1 |
0,60562721 |
8 |
0,54427352 |
16 |
-8 |
64 |
0,746364678 |
16 |
0,616338961 |
19 |
-3 |
9 |
0,769820923 |
21 |
0,64321145 |
5 |
16 |
256 |
0,840189658 |
24 |
0,649611436 |
13 |
11 |
121 |
1,082570854 |
18 |
0,725844891 |
9 |
9 |
81 |
1,184214581 |
13 |
0,74336366 |
4 |
9 |
81 |
1,27803956 |
10 |
1,186499516 |
21 |
-11 |
121 |
1,668976974 |
23 |
1,47627288 |
3 |
20 |
400 |
коэффициент ранговой корреляции Спирмена |
-0,356521739 |
|
3120 |
||
тестовая статистика |
-1,709818195 |
(тестовая статистика для =1,447090034)
(тестовая статистика для =0,796525062)
(тестовая статистика для =0,492094017)
Т.к. статистики по модулю меньше 1,96, то при уровне значимости 0,05 нет оснований отвергнуть нулевую гипотезу об отсутствии гетероскедастичности.
Тест Голдфелда-Квандта
Вероятно, наиболее популярным формальным критерием является критерий, предложенный С. Голдфелдом и Р. Квандтом . При проведении проверки по этому критерию предполагается, что стандартное отклонение () распределения вероятностей пропорционально значению в этом наблюдении. Предполагается также, что случайный член распределен нормально и не подвержен автокорреляции.
Все наблюдений в выборке упорядочиваются по величине, после чего оцениваются отдельные регрессии для первых и для последних наблюдений; средние наблюдений отбрасываются. Если предположение относительно природы гетероскедастичности верно, то дисперсия и в последних наблюдениях будет больше, чем в первых и это будет отражено в сумме квадратов остатков в двух указанных «частных регрессиях. Обозначая суммы квадратов остатков в регрессиях для первых и последних наблюдений соответственно через RSS1 и RSS2, рассчитаем отношение RSS2/RSS1, которое имеет Г-распределение с (— k— 1) и (—k— 1) степенями свободы, где k — число объясняющих переменных в регрессионном уравнении. Мощность критерия зависит от выбора отношению к n. Основываясь на результатах некоторых проведенных ими экспериментов, С. Голдфелд и Р. Квандт утверждают, что должно составлять порядка 11, когда n= 30, и порядка 22, когда n = 60.
Метод Голдфелда—Квандта может также использоваться для проверки гетероскедастичность при предположении, что, обратно пропорционально . При этом используется та же процедура, что и описанная выше, но тестовой статистикой теперь является показатель RSS1/RSS2, который вновь имеет Г -распределение с (— k— 1) и (—k— 1) степенями свободы.
Применим метод Голдфелда-Квандта к нашей модели. Для простоты изложения подробные расчеты приведены лишь для (см. Приложение 3).
Для
RSS2/RSS1 |
0,631458 |
RSS1/RSS2 |
1,583637 |
Для
RSS2/RSS1 |
0,622567 |
RSS1/RSS2 |
1,606252 |
Для
RSS2/RSS1 |
0,894035 |
RSS1/RSS2 |
1,118524 |
Тест Глейзера
Тест Глейзера позволяет несколько более тщательно рассмотреть характер гетероскедастичности. Мы снимаем предположение о том, что , пропорционально , и хотим проверить, может ли быть более подходящей какая-либо другая функциональная форма, например
(2.2.2)
Чтобы использовать данный метод, следуёт оценить регрессионную зависимость у от Х с помощью обычного МНК, а затем вычислить абсолютные величины остатков по функции (2.2.2) для данного значения Можно построить несколько таких функций, изменяя значение. В каждом случае нулевая гипотеза об отсутствии гетероскедастичности будет отклонена, если оценка значимо отличается от нуля. Если при оценивании более чем одной функции получается значимая оценка , то ориентиром при определении характера гетероскедастичности может служить наилучшая из них. Применим тест Глейзера к нашей модели. Для простоты изложения расчеты приведены лишь для .
|
-2 |
-1 |
1 |
2 |
a |
0,39599 |
0,411648 |
0,410665 |
0,411491 |
S(a) |
0,081442 |
0,075325 |
0,07601 |
0,113293 |
b |
0,000437 |
0,010412 |
-0,03746 |
-0,00086 |
S(b) |
0,000869 |
0,012965 |
0,077645 |
0,087282 |
|
0,011384 |
0,028482 |
0,010471 |
0,00000443 |
F |
0,253322 |
0,644972 |
0,232788 |
0,0000974 |
Статистически значимых оценок получить не удалось. Дальнейший перебор гамма в данной работе не целесообразен, так как остальные критерии указывают на отсутствие гетероскедастичности. По той же причине не рассматривается тест Глейзера для остальных переменных.
Вывод: в результате применения теста ранговой корреляции Спирмена, метода Голдфельда-Квандта и теста Глейзера мы пришли к выводу, что нет основания отвергнуть гипотезу об отсутствии гетероскедастичности в нашей модели.
3. Автокорреляция
3.1 Автокорреляция и ее последствия
Автокорреляция – нарушение третьего условия теоремы Гаусса-Маркова. Последствия автокорреляции в некоторой степени сходны с последствиями гетероскедастичности. Коэффициенты регрессии остаются несмещенными, но становятся неэффективными, и их стандартные ошибки оцениваются неправильно (вероятно, они смещаются вниз, т. е. занижаются). Автокорреляция обычно встречается только в регрессионном анализе данных временных рядов.
3.2 Обнаружение автокорреляции первого порядка: критерий Дарбина-Уотсона
Начнем с частного случая, в котором автокорреляция подчиняется авторегрессионной схеме первого порядка:
(3.2.1)
Это означает, что величина случайного члена в любом наблюдении равна его значению в предшествующем наблюдении, умноженному на, плюс новый . данная схема оказывается авторегрессионной, поскольку е
определяется значениями этой же самой величины с запаздыванием, и схемой первого порядка, потому что в этом простом случае максимальное запаздывание равно единице. Предполагается, что значение в каждом наблюдении не зависит от его значений во всех других наблюдениях. Если положительно, то автокорреляция положительная; если отрицательно, то автокорреляция отрицательная. Если = 0, то автокорреляции нет и третье условие Гаусса—Маркова удовлетворяется. Конечно, мы не располагаем способом измерения значений случайного члена, поэтому мы не можем оценить регрессию (3.1.1) непосредственно. Тем не менее мы можем оценивать путем оценивания регрессионной зависимости е,
от
с использованием обычного МНК. При этом оценка равна
. (3.2.2)
Так как среднее значение Т остатков равно нулю, (среднее значение остатков в наблюдениях от 1 до Т—
1) и (среднее значение остатков в наблюдениях от 2 до Т)
будут близки к нулю, если выборка достаточно велика, и и будут аппроксимироваться выражениями и , соответственно.
Кроме того, будет приблизительно равно .
Следовательно, аппроксимируется выражением .
Широко известная статистика Дарбина—Уотсона определяется следующим образом:
(3.2.3)
Если автокорреляция отсутствует, то = 0, и поэтому величина DW должна близкой к двум. При наличии положительной автокорреляции величина DW, вообще говоря, будет меньше двух; при отрицательной автокорреляции она, вообще говоря, будет превышать 2. Так как должно находиться между значениями 1 и —1, то DW должно лежать между 0 и 4. Критическое значение DW при любом данном уровне значимости зависит, как можно предполагать, от числа объясняющих переменных в уравнении регрессии и от количества, наблюдений в выборке. К сожалению, оно также зависит от конкретных значений, принимаемых объясняющими переменными. Поэтому невозможно составить таблицу с указанием точных критических значений для всех возможных выборок, как это можно сделать для t и F-статистик; можно вычислить верхнюю и нижнюю границы для критического значения. Для положительной автокорреляции они обычно обозначаются как и .
Если бы мы знали значение , то могли бы сравнить с ним значение DW, рассчитанное для нашей регрессии. Если бы оказалось, что то мы не смогли бы отклонить нулевую гипотезу от отсутствии автокорреляции. В случае мы бы отклонили нулевую гипотезу и сделали вывод о наличии положительной автокорреляции.
Вместе с тем мы знаем только, что находится где-то между и и предполагает наличие трех возможностей:
1. Величина DW меньше, чем . В этом случае она будет также меньше, чем и поэтому мы сделаем вывод о наличии положительной автокорреляции.
2. Величина DW больше, чем , В этом случае она также больше критического уровня, и поэтому мы не сможем отклонить нулевую гипотезу.
З. Величина DW находится между и . В этом случае она может быть больше или меньше критического уровня. Поскольку нельзя определить, которая из двух возможностей налицо, мы не можем ни отклонить, ни принять нулевую гипотезу.
В случаях 1 и 2 тест Дарбина—Уотсона дает определенный ответ, но случай 3 относится к зоне невозможности принятия решения, и изменить создавшееся положение нельзя.
Проверка на отрицательную автокорреляцию проводится по аналогичной схеме, причем зона, содержащая критический уровень, расположена симметрично справа от 2. Величина (4- ) есть нижний предел, ниже которого признается отсутствие автокорреляции, а (4— ) — верхний предел, выше которого делается вывод о наличии отрицательной автокорреляции.
Таким образом, если DW находится между и (4- ), то нет оснований отвергать нулевую гипотезу об отсутствии автокорреляции.
Для нашей модели DW=1.75, =0,81, =1,53 (при уровне значимости 1%), а (4- )=2,47. Следовательно, в этом случае нет оснований отвергать нулевую гипотезу об отсутствии автокорреляции первого порядка.
4. Мультиколлинеарность
4.1. Мультиколлинеарность и ее последствия.
Мультиколлинеарность — это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадежных оценок регрессии. Разумеется, такая зависимость совсем необязательно дает неудовлетворительные оценки. Если все другие условия благоприятствуют, т. е. если число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена — мала, то в итоге можно получить вполне хорошие оценки.
Итак, мультиколлинеарность должна вызываться сочетанием нестрогой зависимости и одного (или более) неблагоприятного условия, и это — вопрос степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в определенной степени, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это серьезно влияет на результаты оценки регрессии.
Эта проблема является обычной для регрессий временных рядов, т. е. когда данные состоят из ряда наблюдений в течение какого-то периода времени. Если две или более независимые переменные имеют ярко выраженный временной тренд, то они будут тесно коррелированы, и это может привести к мультиколлинеарности.
4.2 Обнаружение мультиколлинеарности
Основной способ проверки наличия мультиколлинеарности среди поясняющих переменных состоит в исследовании корреляционной матрицы, состоящей из выборочных частичных коэффициентов корреляции. Значимость одного или нескольких коэффициентов означает присутствие в регрессионной модели явления автокорреляции.
В случае двух объясняющих переменных частичный выборочный коэффициент корреляции между y и за исключением влияния имеет вид
(4.2.1)
Остальные частичные коэффициенты корреляции вычисляются аналогично. Для случая трех и более регрессоров также существуют подобные формулы, но вследствие их громоздкости представляется более приятным с практической точки зрения следующий метод: вычисляется матрица Z, обратная к матрице полной корреляции, и тогда частичный выборочный коэффициент между переменными и равен
(4.2.2)
Вычислим полной корреляции для нашей модели.
х1 |
х2 |
х3 |
х4 |
|
х1 |
1 |
-0,50916 |
-0,664453715 |
0,301554799 |
х2 |
-0,509162268 |
1 |
0,741273537 |
-0,50786553 |
х3 |
-0,664453715 |
0,741274 |
1 |
-0,76295918 |
х4 |
0,301554799 |
-0,50787 |
-0,762959184 |
1 |
Вычислим матрицу Z.
2,187050344 |
-0,05801 |
2,322440805 |
1,082952756 |
-0,05800602 |
2,261181 |
-1,974634343 |
-0,3406974 |
2,322440805 |
-1,97463 |
6,478765795 |
3,239841974 |
1,082952756 |
-0,3407 |
3,239841974 |
2,972269121 |
Вычислим теперь матрицу частичных коэффициентов корреляции
х1 |
х2 |
х3 |
х4 |
|
х1 |
1 |
0,026084 |
-0,61698 |
-0,42475 |
х2 |
0,026084 |
1 |
0,515909 |
0,131419 |
х3 |
-0,61698 |
0,515909 |
1 |
-0,7383 |
х4 |
-0,42475 |
0,131419 |
-0,7383 |
1 |
Коэффициенты частичной корреляции между и остальными регрессорами значимы. Дабы окончательно убедиться в наличии линейной зависимости между объясняющими переменными построим регрессии каждой из объясняющих переменных от остальных. В каждом из этих случаев коэффициент детерминации статистически значим. Следовательно, в нашей модели присутствует мультиколлинеарность.
5. Спецификация модели
Если точно известно, какие объясняющие переменные должны быть включены в уравнение при проведении регрессионного анализа, то наша задача — ограничиться оцениванием их коэффициентов, определением доверительных интервалов для этих оценок и т. д. Однако на практике мы никогда не можем быть уверены, что уравнение специфицировано правильно. Экономическая теория должна указывать направление, но теория не может быть совершенной. Не будучи уверенными в ней, мы можем включить в уравнение переменные, которых там не должно быть, и в то же время мы можем не включить другие переменные, которые должны там присутствовать. Вообще говоря, в проблему спецификации модели входят также вопросы выбора функциональной зависимости между
Для спецификации нашей модели будем использовать следующий метод.
Сначала оценим регрессию с k объясняющими переменными (в нашем случае k=4) и объясненная сумма квадратов отклонения y от составляет . Затем добавим еще несколько переменных, доведя их общее число до m,
и обьясненная сумма квадратов возрастает до .
Таким образом, мы объясняем дополнительную величину ,
использован для этого дополнительные (m-k) степеней свободы, и требуется выяснить, превышает ли данное увеличение то, которое может быть получено случайно.
Используется F-тест, и соответствующая F-статистика может быть описана следующим образом: (5.1)
Поскольку
— необъясненная сумма квадратов отклонений в уравнении со всеми m переменными — равняется и
- необъясненная сумма квадратов отклонений в уравнении с k переменными — равняется ,
улучшение качества уравнения при добавлении (m-k) переменных, представленное как разность ,
записывается в виде выражения. Следовательно, соответствующая F-статистика равна:
, (5.2)
в соответствии с нулевой гипотезой о том, что дополнительные переменные не увеличивают возможности объяснения уравнения, она распределена с (m-k) и (n-k-1) степенями свободы.
В нашем случае будет удобно поступить следующим образом: сначала попробовать убрать из модели последовательно ,,, и в каждом из этих случаев проверить выполнение вышеописанной гипотезы. Затем проделать то же самое с комбинациями из двух и трех переменных.
Исключим из модели переменную
R |
0,6893 |
ESS3 |
15,8539 |
RSS3 |
7,1461 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,04195 |
Fcr |
4,3512 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Исключим
R |
0,689954 |
ESS3 |
15,86894 |
RSS3 |
7,13106 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,00188 |
Fcr |
4,3512 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Исключим
R |
0,617456 |
ESS3 |
14,20149 |
RSS3 |
8,79851 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
4,44507 |
Fcr |
4,3512 |
Следовательно, дополнительные переменные увеличивают возможности объяснения уравнения.
Исключим
R |
0,683111 |
ESS3 |
15,71154 |
RSS3 |
7,28846 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,42128 |
Fcr |
4,3512 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Вывод: исключать не желательно.
Исключим теперь и .
R |
0,689276 |
ESS2 |
15,85336 |
RSS2 |
7,14664 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,0217 |
Fcr |
3,4668 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Исключим и .
R |
0,683 |
ESS2 |
15,709 |
RSS2 |
7,291 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,214 |
Fcr |
3,4668 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Исключим и .
R |
0,6831 |
ESS2 |
15,711 |
RSS2 |
7,289 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,212 |
Fcr |
3,4668 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Вывод: исключение переменных и влияет на модель весьма незначительно.
Исключим теперь все переменные, кроме.
R |
0,683 |
ESS1 |
15,708 |
RSS1 |
7,292 |
ESS4 |
15,86964 |
RSS4 |
7,13036 |
F |
0,143 |
Fcr |
3,05 |
Следовательно, дополнительные переменные не увеличивают возможности объяснения уравнения.
Таким образом, приходим к выводу, что оптимальной будет модель, в которой y зависит только от .
Скорректированный коэффициент детерминации
, (5.3)
где k – число независимых переменных в этом случае будет равен 0,676.
6. Анализ особенностей модели
Итак, нами проведен подробный анализ множественной линейной регрессии.
В результате этого анализа мы выяснили, что в данном случае выполняется условие гомоскедастичности, отсутствует автокорреляция, но присутствует мультиколлинеарность, так как переменные ,, связаны с переменной линейной зависимостью. В ходе анализа спецификации модели мы пришли к выводу, что оптимальной будет модель с одним регрессором - . В этом случае устраняется проблема мультиколлинеарности. В пользу этого свидетельствует также тот факт, что согласно t-критерию только коэффициент при в исходной модели признан статистически значимым.
Если же взглянуть на нашу модель с точки зрения «здравого смысла», то становится очевидным, что производительность труда напрямую зависит от уровня затрат рабочего времени. И это подтверждается результатами анализа с математической точки зрения. А в свою очередь уровень затрат рабочего времени зависит от фондоёмкости, стажа, текучести, что отражено в таблице частичных выборочных коэффициентов корреляции. Таким образом, есть основания считать, что анализ модели проведен верно.
Список использованной литературы
1. Доугерти К. Введение в эконометрику: Пер. с англ. – М.: ИНФРА-М, 1997.
2.Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс. Учебное пособие. 2-е изд., испр. – М.: Дело, 1998.
3. Назаренко О.М. Основи економетрики: Підручник. – Київ: «Центр навчальної літератури», 2004.
Приложение 1
Исходные данные
Месяц |
Производительность труда, у1 |
Фондоемкость, х1 |
Коэффициент текучести, х2 |
Уровень затрат рабочего времени, х3 |
Стаж, х4 |
1 |
55,4 |
25,6 |
13,4 |
19 |
7,2 |
2 |
63 |
37,6 |
12,6 |
17,8 |
5 |
3 |
73,6 |
34,2 |
14 |
16 |
12,5 |
4 |
65,4 |
34,4 |
11,8 |
16,1 |
9,4 |
5 |
56,8 |
34 |
9,6 |
14,7 |
10,2 |
6 |
78,1 |
48,4 |
8,3 |
14,5 |
9,9 |
7 |
68,8 |
49,9 |
13,4 |
15,2 |
11,7 |
8 |
58,3 |
46,7 |
12,8 |
13,3 |
7,5 |
9 |
70,2 |
48 |
14,4 |
13,9 |
13 |
10 |
82,8 |
54,2 |
11,3 |
11,2 |
10,7 |
11 |
86,5 |
54,9 |
5,9 |
12,4 |
9,9 |
12 |
85,3 |
52,7 |
7,4 |
10,6 |
12,4 |
13 |
90,2 |
67,9 |
8,8 |
12,2 |
12,6 |
14 |
86,6 |
48,2 |
8,1 |
12,1 |
16,6 |
15 |
96,4 |
50,7 |
11,2 |
10,4 |
12,8 |
16 |
86,8 |
64,3 |
4,3 |
9,8 |
13,7 |
17 |
94,8 |
59,6 |
7,2 |
10,7 |
12,9 |
18 |
90,2 |
45,4 |
2,9 |
8,7 |
15,4 |
19 |
78,6 |
74,7 |
5,4 |
9,3 |
16,6 |
20 |
93,3 |
50,2 |
1,6 |
9 |
16,1 |
21 |
88,9 |
58,3 |
4,3 |
6,5 |
11,6 |
22 |
93,9 |
56,4 |
2 |
4,3 |
16,1 |
23 |
87,9 |
67 |
8 |
5 |
17,2 |
24 |
98,2 |
74,7 |
-1 |
7 |
13,5 |
Приложение 2
Стандартизированные данные
месяц |
ystand |
x1stand |
x2stand |
x3stand |
x4stand |
1 |
-1,138703734 |
-1,27087 |
2,129500778 |
1,817988473 |
-1,07758 |
2 |
-1,356882333 |
-1,2396 |
2,109497639 |
1,606298171 |
-1,15942 |
3 |
-2,253838793 |
-1,38815 |
0,249205766 |
0,94770612 |
-0,50469 |
4 |
-0,20134383 |
-0,85648 |
1,169350133 |
1,065311844 |
-1,20034 |
5 |
-0,314473474 |
-1,10668 |
-0,010835033 |
1,041790699 |
-1,40495 |
6 |
-0,007407298 |
-1,05977 |
0,649268535 |
0,524325516 |
0,027281 |
7 |
-0,459925873 |
-1,84946 |
-0,370891525 |
0,477283227 |
0,313726 |
8 |
-0,379118984 |
0,605627 |
-0,110850725 |
0,64193124 |
0,313726 |
9 |
0,235013367 |
0,050496 |
-0,410897802 |
0,712494674 |
-0,05456 |
10 |
-0,096294875 |
1,27804 |
0,70927795 |
0,28911407 |
-0,99574 |
11 |
-1,009412713 |
-0,0746 |
0,029171244 |
0,736015818 |
-0,95482 |
12 |
-0,41144174 |
-1,09104 |
0,389227735 |
0,359677504 |
0,068201 |
13 |
-0,532652072 |
1,184215 |
0,889306196 |
-0,22835111 |
-0,54561 |
14 |
-0,112456253 |
0,535258 |
-0,450904079 |
-0,55764714 |
-0,42285 |
15 |
-0,257908652 |
0,566533 |
0,509246566 |
0,171508347 |
-0,30009 |
16 |
-0,072052809 |
0,746365 |
-1,211023338 |
-0,7458163 |
-0,54561 |
17 |
0,727935386 |
-0,13715 |
-1,111007646 |
-1,00454889 |
1,541351 |
18 |
0,356223699 |
1,082571 |
-1,291035892 |
-0,62821057 |
-0,42285 |
19 |
0,170367856 |
0,535258 |
0,269208905 |
-0,81637973 |
1,459509 |
20 |
0,776419519 |
0,292877 |
-0,05084131 |
-0,7458163 |
1,00938 |
21 |
2,271346952 |
0,769821 |
-1,131010785 |
-1,45145064 |
0,354647 |
22 |
1,746102178 |
-0,08242 |
-0,05084131 |
-1,71018323 |
2,114242 |
23 |
1,649133912 |
1,668977 |
-1,471064138 |
-1,45145064 |
1,786876 |
24 |
0,671370564 |
0,84019 |
-1,431057861 |
-1,05159118 |
0,600172 |
Приложение 3.
Пример применения метода Голдфельда-Квандта
x1 упорядоченное |
y упорядоченное |
частная регрессия |
е2 |
-1,849459746 |
-0,45993 |
-1,4667727 |
1,013741 |
-1,388153599 |
-2,25384 |
-0,92641095 |
1,762065 |
-1,270872375 |
-1,1387 |
-0,78903085 |
0,122271 |
-1,239597381 |
-1,35688 |
-0,75239615 |
0,365404 |
-1,106678661 |
-0,31447 |
-0,5966987 |
0,079651 |
-1,091041164 |
-0,41144 |
-0,57838136 |
0,027869 |
-1,059766171 |
-0,00741 |
-0,54174666 |
0,285519 |
-0,856478716 |
-0,20134 |
-0,30362115 |
0,010461 |
-0,137153876 |
0,727935 |
0,538976829 |
0,035705 |
-0,082422638 |
1,746102 |
RSS1 |
3,702684 |
-0,07460389 |
-1,00941 |
||
0,050496083 |
0,235013 |
||
0,292877279 |
0,77642 |
||
0,535258475 |
-0,11246 |
||
0,535258475 |
0,170368 |
||
0,566533468 |
-0,25791 |
0,106320791 |
0,132663 |
0,60562721 |
-0,37912 |
0,134788179 |
0,264101 |
0,746364678 |
-0,07205 |
0,237270778 |
0,095681 |
0,769820923 |
2,271347 |
0,254351211 |
4,068272 |
0,840189658 |
0,671371 |
0,305592511 |
0,133794 |
1,082570854 |
0,356224 |
0,48209032 |
0,015842 |
1,184214581 |
-0,53265 |
0,556105531 |
1,185393 |
1,27803956 |
-0,09629 |
0,624427264 |
0,51944 |
1,668976974 |
1,649134 |
0,90910115 |
0,547648 |
n' |
9 |
RSS2 |
6,962835 |
коэфф.регр. для первых n' |
|||
1,171373387 |
0,699635 |
||
коэфф.регр. для последних n' |
|||
0,728182764 |
-0,30622 |
||
RSS2/RSS1 |
1,880483 |
RSS1/RSS2 |
0,531778 |
кол-во степеней свободы |
4 |
||
Fcr |
6,388233 |