РефератыМатематикаПоПорушення основних припущень лінійного регресійного аналізу

Порушення основних припущень лінійного регресійного аналізу

Міністерство освіти і науки України


Дніпропетровський національний університетімені Олеся Гончара


МАГІСТЕРСЬКА РОБОТА


Порушення основних припущень лінійного регресійного аналізу

Виконавець:


студентка групи МС-08-1м


Черемісіна В.О.


«__»________2009р.


Керівник роботи:


__________________ «__»________2009р.


Рецензент:


__________________ «__»________2009р.


Дніпропетровськ2009


Реферат


Магістерська робота містить 85 сторінок, 38 рисунків, 13 таблиць, 4 джерела.


Об’єктом дослідження є основні припущення лінійного регресійного аналізу.


Мета роботи – вивчення наслідків порушення основних припущень лінійного регресійного аналізу.


Методика дослідження – оцінювання параметрів лінійної регресії МНК-методом, перевірка статистичних гіпотез, побудова простої лінійної регресії та лінійної регресії з двома незалежними змінними.


Результати досліджень можуть бути використані при розв’язанні задач та при подальшому вивченні порушень припущень лінійного регресійного аналізу.


Перелік ключових слів: ПОРУШЕННЯ ПРИПУЩЕНЬ, ЛІНІЙНА РЕГРЕСІЯ, ЗАЛИШКИ, РОЗПОДІЛ, НЕКОРЕЛЬОВАНІСТЬ, ЗНАЧУЩІСТЬ, АДЕКВАТНІСТЬ.


ЗМІСТ


ВСТУП


РОЗДІЛ І Проста лінійна регресія


1.1 Постановка задачі


1.2 Метод найменших квадратів


1.3 Точність оцінки регресії


1.4 -критерій значущості регресії


1.5 Геометрична інтерпретація коефіцієнтів регресії


1.6 Довірчий інтервал для . Стандартне відхилення кутового коефіцієнта


1.7 Довірчий інтервал для . Стандартне відхилення вільного члена


1.8 Довірча смуга для регресії


1.9 Повторні спостереження. Неадекватність і “чиста помилка”


1.10 Деякі відомості з математичної статистики


1.10.1 Критерій (гіпотетичний розподіл визначений)


1.10.2.Критерій (гіпотетичний розподіл невизначений)


1.10.3 Критерій Бартлетта


1.11 Аналіз залишків


1.12 Лінійна регресія з двома незалежними змінними


РОЗДІЛ ІІ Дослідження порушень основних припущень лінійного регресійного аналізу


2.1 „Ідеальна” модель лінійної регресії


2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна


2.3 Модель лінійної регресії, в якій спостереження величини залежні


2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини


2.5 Модель лінійної регресії, в якій спостереження показниково розподілені величини


ВИСНОВКИ


СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ


ВСТУП


Нехай – результат спостереження, який описується лінійною моделлю виду


(1)


де – регресійна матриця розміру , ,


– вектор невідомих параметрів,


– вектор похибок спостережень.


Припущення відносно вектора спостережень позначатимемо :


.(2)


Або, що те ж саме, припущення відносно вектора похибок мають вигляд:


(3)


Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?


Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:


1) припущення про незміщеність похибок ;


2) припущення про однакову дисперсію і некорельованість похибок ;


3) припущення про нормальний розподіл похибок ;


4) припущення про незалежність спостережень .


РОЗДІЛ І
П
РОСТА ЛІНІЙНА РЕГРЕСІЯ


1.1
Постановка задачі


Нехай – вибірка, утворена незалежними нормально розподіленими випадковими величинами з однією і тією ж дисперсією і середніми, про які відомо, що вони лінійно залежать від параметрів, тобто мають вигляд


,(1.1.1)


де – відомі невипадкові величини; – невідомі параметри.


Кожну з випадкових величин можна подати у вигляді


, (1.1.2)


де називають похибкою спостережень. Похибка змінюється від спостереження до спостереження, () - незалежні випадкові величини. Відносно будемо припускати, що


1)


2) , некорельовані при



(з незалежності , випливає їх некорельованість)


3) розподілені нормально з параметрами .


Отже, нехай – результати спостережень, які описуються моделлю виду


(1.1.3)



Параметри невідомі, і їх необхідно оцінити за вибіркою .


Для оцінки невідомих параметрів використовують метод максимальної правдоподібності або метод найменших квадратів.


1.2
Метод найменших квадратів


Означення 1.2.1. МНК-оцінкою параметрів будемо називати точку , в якій функція


(1.2.1)


досягає найменшого значення.


Здиференцюємо по , а потім по



Прирівнюємо похідні нулеві:




(1.2.2)


(1.2.3)


Останню систему називають системою нормальних рівнянь. Із (1.2.2) маємо:


(1.2.4)


Підставляємо в (1.2.3):



(1.2.5)


Оскільки



і, крім того,



то (1.2.5) запишеться у вигляді



Тоді рівняння простої лінійної регресії має вигляд



Перевіримо, що в точці функція дійсно досягає мінімуму.


Візьмемо другі похідні:



Складаємо дискримінант:



Отже, і . Тоді в точці функція досягає мінімального значення.


Зауваження 1. Якщо в рівнянні регресії



обрати , то . Це означає, що точка лежить на підібраній прямій.


Зауваження 2. Сума всіх залишків дорівнює нулю, дійсно,


в кожній точці.




1.3
Точність оцінки регресії


Тепер розглянемо питання про те, яка точність може бути приписана лінії регресії, коефіцієнти якої були оцінені. Розглянемо таку тотожність:



(1.3.1)


Розглянемо доданок



Підставляємо останнє в (1.3.1):



Звідки


(1.3.2)


Означення 1.3.1. Величина – це відхилення -го спостереження від загального середнього, тому суму називають сумою квадратів відхилень відносно середнього значення.


Означення 1.3.2. Величина – це відхилення -го спостереження від його передбаченого значення, тому суму називають сумою квадратів відхилень відносно регресії.


Означення 1.3.3. Величина – це відхилення -го передбаченого значення від загального середнього, тому суму називають сумою квадратів, обумовленою регресією.


Тоді (1.3.2) можна переписати в еквівалентній формі


сума квадратів сума квадратів сума квадратів


= +


відносно обумовлена відносно (1.3.3)


середнього регресією регресії


З останнього випливає, що розсіювання відносно можна приписати у деякій мірі тому факту, що не всі спостереження знаходяться на лінії регресії.


Якщо це було б не так, то відносно регресії дорівнювала б нулю



З цих міркувань зрозуміло, що придатність лінії регресії з метою прогнозування залежить від того, яка частина суму квадратів відносно середнього приходиться на суму квадратів, обумовлену регресією, і яка на суму квадратів відносно регресії.


Задовільним вважається випадок, коли сума квадратів, обумовлена регресією, буде набагато більша, ніж сума квадратів відносно регресії.


Кожна сума квадратів пов’язана з числом, яке називають її ступенем вільності.


Число ступенів вільності – це число незалежних елементів, які складаються з незалежних чисел , необхідних для утворення даної суми квадратів.


Розглянемо суму квадратів відхилень відносно середнього значення .


Серед величин незалежними є тільки величина, оскільки останній елемент знаходиться як лінійна комбінація інших



Число ступенів вільності цієї суми квадратів дорівнює .


Розглянемо суму квадратів, обумовлену регресією .


Єдиною функцією від є оцінка , оскільки, . Тому число ступенів вільності цієї суми квадратів дорівнює .


Число ступенів вільності суми квадратів дорівнює .


Отже, згідно з (1.3.3) ми можемо розкласти ступені вільності суми квадратів так:


(1.3.4)


За допомогою (1.3.3) та (1.3.4), побудуємо таблицю дисперсійного аналізу.


Таблиця 1.3.1. Таблиця дисперсійного аналізу





















Джерело варіації

Сума квадратів



Число ступенів вільності



Середній квадрат



Обумовлена регресією
Відносно регресії
Відносно середнього

1.4
-критерій значущості регресії


-критерій. Якщо гіпотезу відхиляти при


(1.4.1)


і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.


Якщо гіпотеза відхиляється, то регресія значуща, тобто між змінними та існує лінійна залежність.


Якщо ж гіпотеза не відхиляється, то регресія незначуща, між змінними та лінійної залежності немає.


На практиці для перевірки гіпотези також можна використовувати -критерій, який еквівалентний -критерію, оскільки




А



-критерій. Якщо гіпотезу відхиляти при


(1.4.2)


і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.


1.5
Геометрична інтерпретація коефіцієнтів регресії


Коефіцієнт визначає точку перетину прямої регресії з віссю ординат, а коефіцієнт характеризує нахил прямої регресії до вісі абсцис.








1


Нехай – кут, утворений прямою регресії з віссю абсцис, тоді



Отже, – це міра залежності від .


Згідно з оцінка показує на скільки змінюється при зміні на одиницю. Знак визначає напрям цієї зміни.


Оцінки параметрів регресії не безрозмірні величини. Оцінка має розмірність змінної , а оцінка має розмірність, яка дорівнює відношенню розмірності до розмірності .


1.6 Довірчий інтервал для

. Стандартне відхилення кутового коефіцієнта


Введемо основні припущення (постулати) про те, що в лінійній моделі



1. Похибка – випадкова величина з середнім і невідомою дисперсією .


2. Похибки некорельовані при , тобто



Тому





3. некорельовані при , тобто



4. Похибка нормально розподілена з параметрами , отже, стають не тільки некорельованими, але й незалежними.


В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра :



Перепишемо цю оцінку у вигляді



Далі розглянемо функцію



Порахуємо дисперсію цієї функції


,


Якщо – попарно некорельовані (), – константи, крім того, , отже,



У виразі для константи , оскільки можна розглядати як величини.


Отже, дисперсія оцінки дорівнює


(1.6.1)


Стандартне відхилення оцінки – це корінь квадратний з дисперсії



(1.6.2)


Оскільки невідома, то заміть неї використовується оцінка , припускаючи, що модель коректна.


Нагадаємо, що середній квадрат дорівнює



Тоді оцінка стандартного відхилення дорівнює


(1.6.3)


Перепишемо її у вигляді



Якщо розсіювання спостережень відносно лінії регресії нормальне, тобто, всі похибки розподілені нормально з параметрами , то %-вий довірчий інтервал для параметра має вигляд


(1.6.4)


і містить невідомий параметр з імовірністю .


З іншого боку, якшо це доцільно, то ми можемо перевірити гіпотезу ( – const) проти альтернативи .


-критерій. Якщо гіпотезу відхиляти при


(1.6.5)


і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.


Після того, як ми знайшли довірчий інтервал для , немає необхідності знаходити величину для перевірки гіпотези за допомогою t-критерію. Дійсно, досить дослідити довірчий інтервал для і подивитись, чи містить він значення . Якщо довірчий інтервал містить , то гіпотеза не відхиляється, і відхиляється у супротивному разі.


Отже, гіпотеза відхиляється, якщо



,


,


тобто лежить за межами, які відповідають (1.6.4).


1.7 Довірчий інтервал для . Стандартне відхилення вільного члена


В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра



Порахуємо дисперсію оцінки :



(1.7.1)


Тоді стандартне відхилення оцінки дорівнює:


(1.7.2)


Оскільки дисперсія невідома, то замість неї використовується оцінка , припускаючи, що модель коректна


(1.7.3)


%-ий довірчий інтервал для параметра має вигляд



і містить невідомий параметр з імовірністю .


-критерій. Якщо гіпотезу ( – const) відхиляти при



і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.


Перевірити гіпотезу можна й за допомогою довірчого інтервалу для .


Необхідно записати довірчий інтервал для і подивитись, чи містить він значення . Якщо довірчий інтервал містить , то не відхиляється, і відхиляється у супротивному разі.


1.8
Довірча смуга для регресії


Спочатку розглянемо лінійні комбінації


, де – const,


, де – const,


В припущеннях некорельованості при ( при ) , обчислимо .



В підрозділі 1.2 було знайдено рівняння простої лінійної регресії:


.


Нехай , тоді , звідси .


А , тоді , звідси .


Отже,



тобто і некорельовані випадкові величини.


Порахуємо дисперсію (або при заданому ).


(1.8.1)


Стандартне відхилення оцінки при заданому є


(1.8.2)


Оскільки невідома, то замість неї використовують оцінку , припускаючи, що модель коректна.


Оцінка стандартного відхилення має вигляд:


(1.8.3)


Ця величина досягає мінімального значення, коли , і зростає при віддаленні від в будь-якому напрямі.


%-ві довірчі інтервали для регресії мають вигляд:



або, що те ж саме,


Чим більша різниця між та , тим більше відхилення між та (довжина довірчого інтервалу). Останнє означає, що точність прогнозу різна в різних точках .


Дві криві по обидві сторони від лінії регресії визначають %-ві довірчі границі й показують, як змінюються границі в залежності від зміни . Ці криві – гіперболи.


Для того, щоб одержати ці криві, необхідно з’єднати неперервною лінією всі значення при всіх (нижня гіпербола) та при всіх (верхня гіпербола).


1.9
Повторні спостереження. Неадекватність і “чиста” помилка


Побудована лінія регресії – це розрахункова лінія, яка базується на деякій моделі або припущеннях. Але припущення потрібно розглядати як попередні. При деяких обставинах (умовах) можна перевірити, чи коректна (адекватна) побудована модель.


Розглянемо випадок, коли в даних містяться повторні спостереження. Введемо додаткові позначення для множини спостережень при одному й тому ж значенні .


Нехай


– спостережень при ,


– спостережень при ,


. . . . . . . . .


– спостережень при ,


при цьому .


Якщо спостереження повторюються (два рази або більше) при однакових значеннях , то ми можемо використати ці повторення для знаходження оцінки для дисперсії . Про таку оцінку говорять, що вона представляє “чисту помилку”, оскільки, якщо однакові, наприклад, для двох спостережень, то тільки випадкові варіації можуть впливати на результати і створювати розсіювання між ними. Такі відмінності, як правило, забезпечують одержання надійної оцінки для . Тому при плануванні експериментів має сенс ставити експерименти з повтореннями.


Оцінка величини , пов’язана з “чистою помилкою”, знаходиться так.


Сума квадратів, пов’язана з “чистою помилкою” при дорівнює


, де


Число ступенів вільності цієї суми .


Сума квадратів, пов’язана з “чистою помилкою” при дорівнює


, де


Число ступенів вільності цієї суми і т. д.


Загальна сума квадратів, пов’язана з “чистою помилкою”дорівнює


з загальним числом ступенів вільності



Звідси середній квадрат для “чистої помилки” дорівнює


(1.9.1)


і є оцінкою для .


Покажемо, що сума квадратів, пов’язана з “чистою помилкою”, є частиною суми квадратів залишків (суми квадратів відносно регресії).


Залишок для -того спостереження при можна записати у вигляді:



Піднесемо праву та ліву частини рівності до квадрату.



Візьмемо суму по кожному з індексів та .


(1.9.2)


при цьому .


Суму (1.9.2) можна записати так


Сума Сума квадратів Сума


квадратів = “чистих + квадратів (1.9.3.)


залишків помилок” неадекватності


Число ступенів вільності:



Отже, суму квадратів “чистих помилок” можна ввести в таблицю дисперсійного аналізу.


Таблиця 1.9.1. Таблиця дисперсійного аналізу



































Джерело варіації

Число


ступенів


вільності


Сума квадратів



Середній квадрат



Статистика



Відносно середнього


Обумовлена регресією
Відносно регресії
Неадекватність
„Чиста помилка”

Критерій для перевірки адекватності моделі регресії можна сформулювати так.


Якщо


(1.9.4)


то відношення є значущим (лінійна модель неадекватна), при цьому, чим обумовлена неадекватність можна вивчити, дослідивши залишки; в супротивному випадку:


(1.9.5)


відношення є незначущим (лінійна модель адекватна), при цьому як , так і можна використовувати як оцінки для .


Об’єднана оцінка для може бути знайдена з суми квадратів “чистої помилки” і суми квадратів “неадекватністі” шляхом їх об’єднання у суму квадратів залишків і поділу її на число ступенів вільності .


Якщо виявлено неадекватність моделі, то необхідно будувати іншу модель (нелінійну).


1.10
Деякі відомості з математичної статистики


1.10.1 Критерій (гіпотетичний розподіл визначений)


Постановка задачі. Нехай – реалізація вибірки з невідомого розподілу , відносно якого висувається гіпотеза , де належить заданому класу розподілів (зокрема, може бути повністю визначеним розподілом). Гіпотезу можна сформулювати і так: є вибіркою з розподілу із заданими властивостями.


Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу чи ні.


Відхилення емпіричного розподілу від гіпотетичного. Незалежно від того, справджується гіпотеза чи ні, емпіричний розподіл , побудований за вибіркою з , а саме, для кожного фіксованого значення емпіричної функції розподілу є незміщеною і спроможною оцінкою . Тому, якщо ввести відхилення емпіричного розподілу від гіпотетичного , причому так, щоб воно набирало малих значень, коли гіпотеза справджується, і великих, коли гіпотеза не справджується (а це видається цілком можливим, оскільки мало відрізняється від ), то гіпотезу природно відхиляти або не відхиляти залежно від того, якого значення набрало відхилення - великого чи малого.


Відхилення Пірсона емпіричного розподілу від гіпотетичного . Відхилення між двома розподілами: - емпіричним, побудованим за вибіркою , і –гіпотетичним, заданими на множинівибіркових значень (на вибірковому просторі), можна будувати різними способами. Далі описано відхилення від , запропоноване Пірсоном. Воно будується так. Ділимо на скінчене число неперетинних множин :


.


І як відхилення від розглядаємо


(1.10.1.1)


де - імовірність того, що вибіркове значення потрапить до множини , обчислена за гіпотетичним розподілом (тобто )); – імовірність вибірковому значенню потрапити до множини , обчислена за емпіричним розподілом ; чисельно ця ймовірність дорівнює частоті вибірковому значенню потрапити до множини , знайденій за вибіркою (– кількість вибіркових значень з , що потрапили до ).


Далі, якщо , то є ймовірність вибірковому значенню потрапити до , обчислена за розподілом , з якого добуто вибірку , а тому для кожного частоти вибіркового значення потрапити до є незміщеними і спроможними оцінками ймовірностей . І отже, відхилення є малим порівняно з відхиленням від , обчисленими за розподілом , відмінним від . А разом із ними малим є відхилення порівняно з відхиленням , коли розподіл відмінний від (більш того, – мінімально можливе відхилення).


Таким чином, для перевірки гіпотези : є вибірка з розподілу , обчислюємо відхилення . Якщо при цьому набрало малого значення, то гіпотезу не відхиляємо , у супротивному разі – відхиляємо.


Межі, що відокремлюють великі значення відхилення від малих, установлюються на підставі того факту, що для вибірки з розподілу при великих розподіл (розподіл мінімально можливого відхилення) мало відрізняється від розподілу з ступенями вільності.


Критерій (гіпотетичний розподіл не залежить від невідомих параметрів). Нехай – вибірка із розподілу і – верхня α-межа - розподілу з ступенями вільності.


Якщо гіпотезу : є вибірка з розподілу відхиляти при


(1.10.1.2)


і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується.


1.10.2 Критерій (гіпотетичний розподіл невизначений)


Нехай – вибірка з невідомого розподілу , стосовно якого висувається гіпотеза


.


Розподіл залежить від параметрів , які невідомо, причому єдиним джерелом інформації про значення цих параметрів є вибірка . Іншими словами, гіпотеза полягає в тому, що є вибіркою із розподілу, який належить до класу розподілів .


Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу чи ні.


Природно діяти так. Визнаємо за значення невідомих параметрів їхні оцінки , знайдені за вибіркою , і, отже, за гіпотетичний приймемо розподіл . Відхилення будуємо так само, як і раніше:


(1.10.2.1)


де – імовірність того, що вибіркове значення потрапить до множини , обчислена за гіпотетичним розподілом. Фішер встановив, що коли гіпотеза справджується і оцінки знайдено за методом максимальної правдоподібності, то розподіл відхилення між і , коли , збігається до розподілу з ступенями вільності, де – кількість параметрів, оцінених за вибіркою .


Таким чином, коли параметри оцінюються за вибіркою методом максимальної правдоподібності, можна користуватися критерієм у такому формулюванні.


Якщо гіпотезу відхиляти при


(1.10.2.2)


і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується.


1.10.3
Критерій Бартлетта


Доволі поширеним є випадок, в якому вважається відомим, що дисперсії похибок всередині певних груп рівні. Припустимо, що ми хочемо перевірити гіпотезу . Тоді, якщо маємо взаємно незалежних статистик ( – число ступенів вільності ), то можна перевірити гіпотезу , використовуючи критерій Бартлетта.


Цей критерій вимагає обчислення статистики


,


де



і


.


Якщо гіпотеза справедлива, то статистика розподілена приблизно як, причому така апроксимація виявляється задовільною і при досить малих вибірках (). На жаль, цей критерій надто чутливий до будь-якого відхилення від нормальності величин, що складають кожне . Значимість статистики може вказувати не на відсутність однорідності дисперсії, а просто на відхилення від нормальності.


1.11 Аналіз залишків


Електронні обчислювальні машини дають нам можливість обчислення відхилень кожного серед значень , що спостерігались, від апроксимуючої регресії . Ці різниці називаються залишками і позначаються символами


,


Критерій Дарбіна-Уотсона.


Нехай нам треба підібрати постульовану лінійну модель


(1.11.1)


методом найменших квадратів за спостереженнями . Зазвичайми повинні припускати, що похибки – незалежні випадкові величини з розподілом , тобто всі серіальні кореляції . За допомогою критерію Дарбіна-Уотсона можна перевірити гіпотезу про те, що всі проти альтернативної гіпотези : залишки пов’язані корельовано лінійною залежністю


,


де .


Для перевірки гіпотези проти альтернативи будуємо модель за рівнянням (1.15.1) і знаходимо набір залишків . Тепер можна побудувати статистику


(1.11.2)


і визначити на її основі, чи можна відхиляти гіпотезу .


Критичні точки статистики Дарбіна-Уотсона табульовані.


Знаходимо верхню і нижню границі (вони залежать від числа в моделі і кількості спостережень ).


Якщо , то залишки додатньо автокорельовані.


Якщо , то залишки некорельовані.


Якщо , то залишки від’ємно корельовані.


Якщо або , то необхідно збільшити кількість спостережень.


1.12
Лінійна множинна регресія
з двома
незалежн
ими
змінн
ими


Нехай – результати спостережень, які описуються моделлю:


(1.12.1)


Основні припущення мають вигляд:



Значення змінних відомій ці змінні незалежні. Необхідно знайти оцінки невідомих параметрів .


Використаємо МНК-метод:



Отримаємо систему нормальних рівнянь для моделі (1.12.1). Ця система включає систему нормальних рівнянь простої лінійної регресії.



(1.12.2)




знаходяться з першого та другого рівнянь останньої системи.



Отримали рівняння регресії:



Матричний спосіб знаходження .



; ; ; ;


– транспонована матриця.



Систему (1.12.2) перепишемо у вигляді:



Або в матричному виді:



Домножимо праву та ліву частини на .



Звідси


.


Або, що те ж саме,


.


У множинній лінійній регресії на значущість треба перевіряти всю регресію, а також окремі коефіцієнти регресії. В першому випадку використовується загальний -критерій, а у другому – частинний -критерій.


Загальний -критерій.


Для перевірки гіпотези використовується -критерій, в якому


Загальна сума квадратів


,


де


Сума квадратів залишків



Сума квадратів, обумовлена регресією
























Джерело варіації SS df MS F
Регресія 2
Залишки
Загальна

-критерій перевірки значущості.


Гіпотеза відхиляється, якщо


, (1.12.3)


і в цьому випадку кажуть, що регресія значуща; і не відхиляється в супротивному разі (регресія незначуща).


Частинний -критерій.


Розглянемо 3 моделі:


1. .


– МНК-оцінки параметрів .


; .


2. .


– МНК-оцінки параметрів , які не збігаються з оцінками моделі 1.


; .


3. .


– МНК-оцінки параметрів , які не збігаються з оцінками моделей 1, 2.


; .


Означення 1. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 2 члена


; .


Означення 2. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 3 члена


; .


Оскільки


,,


де – число ступенів вільності, що відповідають середній сумі квадратів :


,


ми можемо записати 2 частинні -критерії.


Гіпотеза (при умові, що включено в модель) відхиляється, якщо:


,


і не відхиляється в супротивному разі.


Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель.


Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді


.


Гіпотеза (при умові, що включено в модель) відхиляється, якщо:


,


і не відхиляється в супротивному разі.


Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель.


Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді


.


РОЗДІЛ ІІ ДОСЛІДЖЕННЯ ПОРУШЕНЬ ОСНОВНИХ ПРИПУЩЕНЬ ЛІНІЙНОГО РЕГРЕСІЙНОГО АНАЛІЗУ


2.1 „Ідеальна” модель лінійної регресії


Нехай – незалежні нормально розподілені випадкові величини з однаковою дисперсією та середніми , лінійними за параметрами , де – невідомі параметри, – відомі невипадкові величини. Кожну випадкову величину можна подати у вигляді , де – похибки спостережень, і вони змінюються від спостереження до спостереження. Відносно похибок висуваються припущення:


1) , – незалежні випадкові величини;


2) .


За спостереженнями , які описуються моделлю



(2.1.1)


необхідно оцінити невідомі параметри .


Означення 2.1.1. «Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду



(2.1.2)


«Ідеальна» модель лінійної регресії – це модель (2.1.1) з коефіцієнтами .


Означення 2.1.2. «Ідеальною» моделлю простої лінійної регресії називатимемо модель виду


(2.1.3)


«Ідеальна» модель простої лінійної регресії – це модель (2.1.1) з коефіцієнтами та змінною.


Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з параметрами відповідно, де а середні обирались так.


Квадрат розіб’ємо на 16 однакових квадратів розміром . В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром . Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні .




Рис. 2.1.1. Вибір значень

, які набувають невипадкові змінні


«Ідеальна» модель простої лінійної регресії. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в „ідеальній” моделі.


Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.1.2.



Рис. 2.1.2. „Ідеальна” модель простої лінійної регресії


Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії наведено в таблиці 2.1.1.


Таблиця 2.1.1. Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії


































Джерело варіації SS df MS F
Обумовлена регресією 111167 1 111167 1411,53
Відносно регресії 50246,7 638 78,8
Відносно середнього 161413,7 639
Неадекватність 828,5 6 138,1 1,77
"Чиста помилка" 49418,2 632 78,2

F1 = 1,77 < 2,11 = F0,05;6;632, „ідеальна” модель адекватна.


F2 = 1411,53 > 3,86 = F0,05;1;638, „ідеальна” модель значуща.


Перевіримо гіпотези за допомогою критерію Стьюдента.


Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.


Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.


|t1| = 1,46 < 1,96 = t0,025;638, гіпотеза не відхиляється.


|t2| = 1 < 1,96 = t0,025;638, гіпотеза не відхиляється.


Перевіримо припущення про некорельованість залиш

ків за допомогою критерію Дарбіна-Уотсона. Статистика критерію


.


Оскільки , то залишки „ідеальної” моделі некорельовані.





Рис. 2.1.3. Графік залишків – смуга постійної ширини


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис.2.1.4. Нормальний розподіл залишків


Статистика, тому залишки можна вважати нормально розподіленими з параметрами .


Статистика Бартлетта , тому дисперсія залишків постійна.


Отже,


1) „ідеальна” модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, а гіпотеза не відхиляється);


3) залишки , „ідеальної” моделі некорельовані;


4) залишки „ідеальної” моделі нормально розподілені випадкові величини з параметрами ;


5) дисперсія залишків „ідеальної” моделі величина постійна.


«Ідеальна» модель лінійної регресії з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в „ідеальній” моделі.


Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.1.5.


Рис. 2.1.5. „Ідеальна” модель лінійної регресії з двома незалежними змінними


Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії наведено в таблиці 2.1.2.


Таблиця 2.1.2. Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії


































Джерело варіації SS df MS F
Обумовлена регресією 232687,1 2 116343,5 1399,4
Відносно регресії 52960,7 637 83,1
Відносно середнього 285647,7 639
Неадекватність 3965,6 61 65 0,76
"Чиста помилка" 48995,1 576 85,1

F1 = 0,76 < 1,34= F0,05;61;576, „ідеальна” модель адекватна.


F2 = 1399,4 > 3,01= F0,05;2;637, регресія значуща.


Перевіримо гіпотези за допомогою критерію Стьюдента.


Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.


Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.


Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.


|t1| = 0,04 < 1,96 = t0,025;637, гіпотеза не відхиляється.


|t2| = 0,3 < 1,96 = t0,025;637, гіпотеза не відхиляється.


|t3| = 0,7 < 1,96 = t0,025;637, гіпотеза не відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію


.


Оскільки , то залишки „ідеальної” моделі некорельовані.





Рис. 2.1.6. Графік залишків – смуга постійної ширини


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис.2.1.6. Нормальний розподіл залишків


Статистика, тому залишки можна вважати нормально розподіленими з параметрами .


Статистика Бартлетта , тому дисперсія залишків постійна.


Отже,


1) „ідеальна” модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза не відхиляється, гіпотеза не відхиляється);


3) залишки , „ідеальної” моделі некорельовані;


4) залишки „ідеальної” моделі нормально розподілені випадкові величини з параметрами;


5) дисперсія залишків „ідеальної” моделі величина постійна.


2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна


Нехай – незалежні нормально розподілені випадкові величини з середніми , лінійними за параметрами та дисперсією , що змінюється від спостереження до спостереження.


Параметри невідомі, – відомі невипадкові величини.


За спостереженнями , які описуються моделлю


, (2.2.1)


необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.2.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.


Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з середніми, що дорівнюють сумі координат точок квадрата, і змінними дисперсіями:



Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.2.1.


Рис. 2.2.1. Модель простої лінійної регресії, в якій дисперсія спостережень

величина змінна


Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.2.1.


Таблиця 2.2.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій дисперсія спостережень

величина змінна


































Джерело варіації SS df MS F
Обумовлена регресією 124615,2 1 124615,2 166,26
Відносно регресії 478200,8 638 749,5
Відносно середнього 602816 639
Неадекватність 3025,8 6 504,3 0,67
"Чиста помилка" 475175 632 751,9

F1 = 0,67 < 2,11 = F0,05;6;632, лінійна модель адекватна.


F2 = 166,26 > 3,86 = F0,05;1;638, регресія значуща.


|t1| = 0,04 < 1,96 = t0,025;638, гіпотеза не відхиляється.


|t2| = 0,38 < 1,96 = t0,025;638, гіпотеза не відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.





Рис. 2.2.2. Графік залишків – дисперсія змінюється


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис.2.2.3. Нормальний розподіл залишків


Статистика ,тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, а гіпотеза не відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.2.4.



Рис. 2.2.4. Модель лінійної регресії, в якій дисперсія спостережень

величина змінна


Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.2.2.


Таблиця 2.2.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій дисперсія спостережень

величина змінна


































Джерело варіації SS df MS F
Обумовлена регресією 209188,2 2 104594,1 132,29
Відносно регресії 503614,7 637 790,6
Відносно середнього 712802,9 639
Неадекватність 32906,7 61 539,5 0,66
"Чиста помилка" 470708,0 576 817,2

F1 = 0,66 < 1,34= F0,05;61;576, лінійна модель адекватна.


F2 = 132,29 > 3,01= F0,05;2;637, регресія значуща.


|t1| = 1,09 < 1,96 = t0,025;637, гіпотеза не відхиляється.


|t2| = 1,88 < 1,96 = t0,025;637, гіпотеза не відхиляється.


|t3| = 0,38 < 1,96 = t0,025;637, гіпотеза не відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.




Рис. 2.2.5. Графік залишків – смуга постійної ширини


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис. 2.2.6. Нормальний розподіл залишків


Статистика ,тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза не відхиляється, гіпотеза не відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


2.3 Модель лінійної регресії, в якій спостереження величини залежні


Нехай – залежні нормально розподілені випадкові величини з однаковою дисперсією та середніми , лінійними за параметрами .


Параметри невідомі, – відомі невипадкові величини.


За спостереженнями , які описуються моделлю


, (2.3.1)


необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.3.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.


Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з нормального розподілу з параметрами 0 та 1.


Наступні 7 вибірок рахуються за формулою


,


де сталі – елементи послідовності Фібоначчі, а саме: .


Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що , наведено на рисунку 2.3.1.



Рис. 2.3.1. Модель лінійної регресії, в якій спостереження величини залежні


Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.3.1.


Таблиця 2.3.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження величини залежні


































Джерело варіації SS df MS F
Обумовлена регресією 0,97 1 0,97 0,03
Відносно регресії 22892,15 638 35,88
Відносно середнього 22893,13 639
Неадекватність 9,81 6 1,64 0,05
"Чиста помилка" 22893,13 632 36,21

F1 = 0,05 < 2,11 = F0,05;6;632, лінійна модель адекватна.


F2 = 0,03 < 3,86 = F0,05;1;638, регресія незначуща.


|t1| = 0,29 < 1,96 = t0,025;638, гіпотеза не відхиляється.


|t2| = 100 > 1,96 = t0,025;638, гіпотеза відхиляється.





Рис. 2.3.2. Графік залишків – дисперсія змінюється


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.



Рис.2.3.3. Нормальний розподіл залишків


Статистика ,тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія незначуща (гіпотеза не відхиляється; гіпотеза не відхиляється, а гіпотеза відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.3.4.



Рис. 2.3.4. Модель лінійної регресії, в якій спостереження величини залежні


Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.3.2.


Таблиця 2.3.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження величини залежні


































Джерело варіації SS df MS F
Обумовлена регресією 11,83 2 5,92 0,25
Відносно регресії 15256,05 637 23,95
Відносно середнього 15267,88 639
Неадекватність 119,56 61 1,96 0,07
"Чиста помилка" 15136,49 576 26,28

F1 = 0,07 < 1,34= F0,05;61;576, лінійна модель адекватна.


F2 = 0,25 < 3,01= F0,05;2;637, регресія незначуща.


|t1| = 0,94 < 1,96 = t0,025;637, гіпотеза не відхиляється.


|t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється.


|t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.





Рис. 2.3.5. Графік залишків – дисперсія змінюється


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис. 2.3.6. Нормальний розподіл залишків


Статистика ,тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється, гіпотеза відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини


Нехай – незалежні рівномірно розподілені випадкові величини.


За спостереженнями , які описуються моделлю


, (2.4.1)


необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.4.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.


Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень з рівномірного на відрізку розподілу.


Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.4.1.



Рис. 2.4.1. Модель простої лінійної регресії, в якій спостереження рівномірно розподілені


Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.4.1.


Таблиця 2.4.1 Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження рівномірно розподілені


































Джерело варіації SS df MS F
Обумовлена регресією 28061,45 1 28061,45 437,88
Відносно регресії 40886,36 638 64,09
Відносно середнього 68947,81 639
Неадекватність 414 6 69 1,07
"Чиста помилка" 40472,36 632 64,04

F1 = 1,07 < 2,11 = F0,05;6;632, модель адекватна.


F2 = 437,88 > 3,86 = F0,05;1;638, регресія значуща.


|t1| = 0,16 < 1,96 = t0,025;638, гіпотеза не відхиляється.


|t2| = 25,5 > 1,96 = t0,025;638, гіпотеза відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.





Рис.2.4.2. Графік залишків – дисперсія залишків змінюється


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис. 2.4.3. Нормальний розподіл залишків


Статистика, ,тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


Лінійна регресія з двома незалежними змінними. Знайдемо МНК-оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що значення обираються згідно рис. 2.1.1, наведено на рисунку 2.4.4.


Рис. 2.
4
.4. Модель лінійної регресії, в якій спостереження рівномірно розподілені


Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.4.2.


Таблиця 2.4.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження рівномірно розподілені


































Джерело варіації SS df MS F
Обумовлена регресією 28171,07 2 14085,54 220,04
Відносно регресії 40776,74 637 64,01
Відносно середнього 68947,81 639
Неадекватність 3539,39 61 58,02 0,89
"Чиста помилка" 37237,35 576 64,65

F1 = 0,89 < 1,34 = F0,05;61;576, модель адекватна.


F2 = 220,04 > 3,01 = F0,05;2;637, модель значуща.


|t1| = 0,74< 1,96 = t0,025;637, гіпотеза не відхиляється.


|t2| = 25,5 > 1,96 = t0,025;637, гіпотеза відхиляється.


|t3| = 48,5 > 1,96 = t0,025;637, гіпотеза відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерія . Оскільки , то залишки цієї моделі некорельовані.





Рис.2.
4
.5. Графік залишків – дисперсія залишків змінюється


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис. 2.4.5. Нормальний розподіл залишків


Статистика, ,тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється, гіпотеза відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


2.5 Модель простої лінійної регресії, в якій спостереження показниково розподілені величини


Нехай – незалежні показниково розподілені випадкові величини з параметром .


За спостереженнями , які описуються моделлю


, (2.5.1)


необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.5.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.


Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з показникового розподілу з параметром .


Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.5.1.



Рис. 2.5.1. Модель простої лінійної регресії, в якій спостереження показниково розподілені


Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.1.


Таблиця 2.5.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені


































Джерело варіації SS df MS F
Обумовлена регресією 6,6 1 6,6 2,11
Відносно регресії 1992,5 638 3,12
Відносно середнього 1999,1 639
Неадекватність 16,04 6 2,67 0,85
"Чиста помилка" 1976,46 632 3,13

F1 = 0,85 < 2,11 = F0,05;6;632, модель адекватна.


F2 = 2,11 < 3,86 = F0,05;1;638, тому регресія незначуща.


|t1| = 12,29 > 1,96 = t0,025;498, гіпотеза відхиляється.


|t2| = 99 > 1,96 = t0,025;498, гіпотеза відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію Оскільки , то залишки цієї моделі некорельовані.





Рис. 2.5.2. Графік залишків – смуга постійної ширини


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис. 2.5.3. Нормальний розподіл залишків


Статистика , тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) модель незначуща (гіпотеза відхиляється; гіпотеза не відхиляється, гіпотеза відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.


Результати стохастичного експерименту, за умов, що значення обиралися згідно рис.2.1.1, наведено на рисунку 2.5.4.




Рис. 2.
5
.4. Модель лінійної регресії, в якій спостереження показниково розподілені


Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.2.


Таблиця 2.
5
.2. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені


































Джерело варіації SS df MS F
Обумовлена регресією 9,3 2 9,3 1,49
Відносно регресії 1989,79 637 3,12
Відносно середнього 1999,09 639
Неадекватність 176,57 61 2,89 0,92
"Чиста помилка" 1813,22 576 3,15

F1 = 0,92 < 1,34 = F0,05;61;576, лінійна модель адекватна.


F2 = 1,49 < 3,01 = F0,05;2;637, регресія незначуща.


|t1| = 8,42 > 1,96 = t0,025;637, гіпотеза відхиляється.


|t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється.


|t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється.


Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.





Рис. 2.
5
.5. Графік залишків – смуга постійної ширини


Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.




Рис. 2.5.6. Нормальний розподіл залишків


Статистика , тому залишки не можна вважати нормально розподіленими.


Статистика Бартлетта , тому дисперсія залишків змінна величина.


Отже,


1) лінійна модель адекватна;


2) регресія незначуща (гіпотеза відхиляється; гіпотеза не відхиляється, гіпотеза відхиляється, гіпотеза відхиляється);


3) залишки некорельовані;


4) залишки не можна вважати нормально розподіленими;


5) дисперсія залишків змінна величина.


ВИСНОВКИ


Нехай – результат спостереження, який описується лінійною моделлю виду


(1)


де – регресійна матриця розміру , ,


– вектор невідомих параметрів,


– вектор похибок спостережень.


Припущення відносно вектора спостережень позначатимемо :


.(2)


Або, що те ж саме, припущення відносно вектора похибок мають вигляд:


(3)


Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?


Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:


1) припущення про незміщеність похибок ; (4)


2) припущення про однакову дисперсію і некорельованість похибок (5)


3) припущення про нормальний розподіл похибок ; (6)


4) припущення про незалежність спостережень . (7)


Наслідки порушення припущень (4)-(7) розглянемо на прикладі лінійної регресії з двома незалежними змінними.


«Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду


(8)


«Ідеальна» модель – це модель (1) з коефіцієнтами .


Опишемо вибір невипадкових змінних .


Квадрат розіб’ємо на 16 однакових квадратів розміром . В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром . Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні .



Рис. 1. Вибір значень

, які набувають невипадкові змінні


Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (8).


Результати експерименту наведено на рисунку 2.




Рис. 2


За допомогою критеріїв математичної статистики ми будемо перевіряти не тільки, чи виконуються припущення регресійного аналізу, але й гіпотези про адекватність лінійної моделі, про значущість регресії, про значущість коефіцієнтів регресії. Отже, модель (8) узгоджується з результатами експерименту, жодне з вихідних припущень не порушено.


1) „ідеальна” модель адекватна (модель лінійна);


2) „ідеальна” регресія значуща;


3) гіпотези , не відхиляються;


4) дисперсія залишків постійна;


5) залишки некорельовані;


6) залишки нормально розподілені .


Розглянемо модель лінійної регресії, в якій дисперсія спостережень величина змінна, тобто припущення (5) місця не має.


Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю


(9)


Результати експерименту наведено на рисунку 3.




Рис. 3


В порівнянні з ідеальною моделлю залишки не мають .


Отже, разом з порушенням припущення про постійну дисперсію залишків порушується й припущення про нормальний розподіл залишків.


Якщо залишки не мають нормального розподілу, то використовувати МНК-метод для оцінки параметрів регресії неприпустимо (МНК-оцінки не збігаються з ММП-оцінками).


Розглянемо модель лінійної регресії, в якій спостереження величини залежні, тобто припущення (7) місця не має.


Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю


(10)


Результати експерименту наведено на рисунку 4.




Рис. 4


В порівнянні з ідеальною моделлю


1) регресія незначуща;


2) гіпотези , відхиляються;


3) дисперсія залишків змінна величина;


4) залишки не мають .


Отже, разом з порушенням припущення про незалежність спостережень , порушуються й припущення про постійність дисперсії залишків і припущення про нормальний розподіл залишків. Такі порушення неприпустимі.


Розглянемо модель лінійної регресії, в якій спостереження рівномірно розподілені, тобто припущення (6) місця не має.


Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю


(11)


Результати експерименту наведено на рисунку 5.




Рис. 5


В порівнянні з ідеальною моделлю


1) гіпотези , відхиляються;


2) дисперсія залишків змінна величина.


Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків.


Розглянемо модель лінійної регресії, в якій спостереження показниково розподілені, тобто припущення (6) місця не має.


Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю


(12)


Результати експерименту наведено на рисунку 6.



Рис. 6


В порівнянні з ідеальною моделлю,


1) лінійна регресія незначуща;


2) гіпотези відхиляються;


3) дисперсія залишків змінна величина.


Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків.


СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ


1. Дрейпер Н., Смит Г. Прикладнойрегрессионный анализ. – М.: Статистика, 1973.


2. Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений, 2-е изд. – М.: Физматгиз, 1962.


3. Рао С.Р. Линейные статистические методы и их применение. – М.: Наука, 1968.


4. Себер Дж. Линейный регрессионный анализ. – М: Мир, 1980.

Сохранить в соц. сетях:
Обсуждение:
comments powered by Disqus

Название реферата: Порушення основних припущень лінійного регресійного аналізу

Слов:8122
Символов:76727
Размер:149.86 Кб.