Міністерство освіти і науки України
Дніпропетровський національний університетімені Олеся Гончара
МАГІСТЕРСЬКА РОБОТА
Порушення основних припущень лінійного регресійного аналізу
Виконавець:
студентка групи МС-08-1м
Черемісіна В.О.
«__»________2009р.
Керівник роботи:
__________________ «__»________2009р.
Рецензент:
__________________ «__»________2009р.
Дніпропетровськ2009
Реферат
Магістерська робота містить 85 сторінок, 38 рисунків, 13 таблиць, 4 джерела.
Об’єктом дослідження є основні припущення лінійного регресійного аналізу.
Мета роботи – вивчення наслідків порушення основних припущень лінійного регресійного аналізу.
Методика дослідження – оцінювання параметрів лінійної регресії МНК-методом, перевірка статистичних гіпотез, побудова простої лінійної регресії та лінійної регресії з двома незалежними змінними.
Результати досліджень можуть бути використані при розв’язанні задач та при подальшому вивченні порушень припущень лінійного регресійного аналізу.
Перелік ключових слів: ПОРУШЕННЯ ПРИПУЩЕНЬ, ЛІНІЙНА РЕГРЕСІЯ, ЗАЛИШКИ, РОЗПОДІЛ, НЕКОРЕЛЬОВАНІСТЬ, ЗНАЧУЩІСТЬ, АДЕКВАТНІСТЬ.
ЗМІСТ
ВСТУП
РОЗДІЛ І Проста лінійна регресія
1.1 Постановка задачі
1.2 Метод найменших квадратів
1.3 Точність оцінки регресії
1.4 -критерій значущості регресії
1.5 Геометрична інтерпретація коефіцієнтів регресії
1.6 Довірчий інтервал для . Стандартне відхилення кутового коефіцієнта
1.7 Довірчий інтервал для . Стандартне відхилення вільного члена
1.8 Довірча смуга для регресії
1.9 Повторні спостереження. Неадекватність і “чиста помилка”
1.10 Деякі відомості з математичної статистики
1.10.1 Критерій (гіпотетичний розподіл визначений)
1.10.2.Критерій (гіпотетичний розподіл невизначений)
1.10.3 Критерій Бартлетта
1.11 Аналіз залишків
1.12 Лінійна регресія з двома незалежними змінними
РОЗДІЛ ІІ Дослідження порушень основних припущень лінійного регресійного аналізу
2.1 „Ідеальна” модель лінійної регресії
2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна
2.3 Модель лінійної регресії, в якій спостереження величини залежні
2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини
2.5 Модель лінійної регресії, в якій спостереження показниково розподілені величини
ВИСНОВКИ
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
ВСТУП
Нехай – результат спостереження, який описується лінійною моделлю виду
(1)
де – регресійна матриця розміру , ,
– вектор невідомих параметрів,
– вектор похибок спостережень.
Припущення відносно вектора спостережень позначатимемо :
.(2)
Або, що те ж саме, припущення відносно вектора похибок мають вигляд:
(3)
Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?
Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:
1) припущення про незміщеність похибок ;
2) припущення про однакову дисперсію і некорельованість похибок ;
3) припущення про нормальний розподіл похибок ;
4) припущення про незалежність спостережень .
РОЗДІЛ І
П
РОСТА ЛІНІЙНА РЕГРЕСІЯ
1.1
Постановка задачі
Нехай – вибірка, утворена незалежними нормально розподіленими випадковими величинами з однією і тією ж дисперсією і середніми, про які відомо, що вони лінійно залежать від параметрів, тобто мають вигляд
,(1.1.1)
де – відомі невипадкові величини; – невідомі параметри.
Кожну з випадкових величин можна подати у вигляді
, (1.1.2)
де називають похибкою спостережень. Похибка змінюється від спостереження до спостереження, () - незалежні випадкові величини. Відносно будемо припускати, що
1)
2) , некорельовані при
(з незалежності , випливає їх некорельованість)
3) розподілені нормально з параметрами .
Отже, нехай – результати спостережень, які описуються моделлю виду
(1.1.3)
Параметри невідомі, і їх необхідно оцінити за вибіркою .
Для оцінки невідомих параметрів використовують метод максимальної правдоподібності або метод найменших квадратів.
1.2
Метод найменших квадратів
Означення 1.2.1. МНК-оцінкою параметрів будемо називати точку , в якій функція
(1.2.1)
досягає найменшого значення.
Здиференцюємо по , а потім по
Прирівнюємо похідні нулеві:
(1.2.2)
(1.2.3)
Останню систему називають системою нормальних рівнянь. Із (1.2.2) маємо:
(1.2.4)
Підставляємо в (1.2.3):
(1.2.5)
Оскільки
і, крім того,
то (1.2.5) запишеться у вигляді
Тоді рівняння простої лінійної регресії має вигляд
Перевіримо, що в точці функція дійсно досягає мінімуму.
Візьмемо другі похідні:
Складаємо дискримінант:
Отже, і . Тоді в точці функція досягає мінімального значення.
Зауваження 1. Якщо в рівнянні регресії
обрати , то . Це означає, що точка лежить на підібраній прямій.
Зауваження 2. Сума всіх залишків дорівнює нулю, дійсно,
в кожній точці.
1.3
Точність оцінки регресії
Тепер розглянемо питання про те, яка точність може бути приписана лінії регресії, коефіцієнти якої були оцінені. Розглянемо таку тотожність:
(1.3.1)
Розглянемо доданок
Підставляємо останнє в (1.3.1):
Звідки
(1.3.2)
Означення 1.3.1. Величина – це відхилення -го спостереження від загального середнього, тому суму називають сумою квадратів відхилень відносно середнього значення.
Означення 1.3.2. Величина – це відхилення -го спостереження від його передбаченого значення, тому суму називають сумою квадратів відхилень відносно регресії.
Означення 1.3.3. Величина – це відхилення -го передбаченого значення від загального середнього, тому суму називають сумою квадратів, обумовленою регресією.
Тоді (1.3.2) можна переписати в еквівалентній формі
сума квадратів сума квадратів сума квадратів
= +
відносно обумовлена відносно (1.3.3)
середнього регресією регресії
З останнього випливає, що розсіювання відносно можна приписати у деякій мірі тому факту, що не всі спостереження знаходяться на лінії регресії.
Якщо це було б не так, то відносно регресії дорівнювала б нулю
З цих міркувань зрозуміло, що придатність лінії регресії з метою прогнозування залежить від того, яка частина суму квадратів відносно середнього приходиться на суму квадратів, обумовлену регресією, і яка на суму квадратів відносно регресії.
Задовільним вважається випадок, коли сума квадратів, обумовлена регресією, буде набагато більша, ніж сума квадратів відносно регресії.
Кожна сума квадратів пов’язана з числом, яке називають її ступенем вільності.
Число ступенів вільності – це число незалежних елементів, які складаються з незалежних чисел , необхідних для утворення даної суми квадратів.
Розглянемо суму квадратів відхилень відносно середнього значення .
Серед величин незалежними є тільки величина, оскільки останній елемент знаходиться як лінійна комбінація інших
Число ступенів вільності цієї суми квадратів дорівнює .
Розглянемо суму квадратів, обумовлену регресією .
Єдиною функцією від є оцінка , оскільки, . Тому число ступенів вільності цієї суми квадратів дорівнює .
Число ступенів вільності суми квадратів дорівнює .
Отже, згідно з (1.3.3) ми можемо розкласти ступені вільності суми квадратів так:
(1.3.4)
За допомогою (1.3.3) та (1.3.4), побудуємо таблицю дисперсійного аналізу.
Таблиця 1.3.1. Таблиця дисперсійного аналізу
Джерело варіації | Сума квадратів |
Число ступенів вільності |
Середній квадрат |
Обумовлена регресією | |||
Відносно регресії | |||
Відносно середнього |
1.4
-критерій значущості регресії
-критерій. Якщо гіпотезу відхиляти при
(1.4.1)
і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.
Якщо гіпотеза відхиляється, то регресія значуща, тобто між змінними та існує лінійна залежність.
Якщо ж гіпотеза не відхиляється, то регресія незначуща, між змінними та лінійної залежності немає.
На практиці для перевірки гіпотези також можна використовувати -критерій, який еквівалентний -критерію, оскільки
А
-критерій. Якщо гіпотезу відхиляти при
(1.4.2)
і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.
1.5
Геометрична інтерпретація коефіцієнтів регресії
Коефіцієнт визначає точку перетину прямої регресії з віссю ординат, а коефіцієнт характеризує нахил прямої регресії до вісі абсцис.
1
Нехай – кут, утворений прямою регресії з віссю абсцис, тоді
Отже, – це міра залежності від .
Згідно з оцінка показує на скільки змінюється при зміні на одиницю. Знак визначає напрям цієї зміни.
Оцінки параметрів регресії не безрозмірні величини. Оцінка має розмірність змінної , а оцінка має розмірність, яка дорівнює відношенню розмірності до розмірності .
1.6 Довірчий інтервал для
. Стандартне відхилення кутового коефіцієнта
Введемо основні припущення (постулати) про те, що в лінійній моделі
1. Похибка – випадкова величина з середнім і невідомою дисперсією .
2. Похибки некорельовані при , тобто
Тому
3. некорельовані при , тобто
4. Похибка нормально розподілена з параметрами , отже, стають не тільки некорельованими, але й незалежними.
В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра :
Перепишемо цю оцінку у вигляді
Далі розглянемо функцію
Порахуємо дисперсію цієї функції
,
Якщо – попарно некорельовані (), – константи, крім того, , отже,
У виразі для константи , оскільки можна розглядати як величини.
Отже, дисперсія оцінки дорівнює
(1.6.1)
Стандартне відхилення оцінки – це корінь квадратний з дисперсії
(1.6.2)
Оскільки невідома, то заміть неї використовується оцінка , припускаючи, що модель коректна.
Нагадаємо, що середній квадрат дорівнює
Тоді оцінка стандартного відхилення дорівнює
(1.6.3)
Перепишемо її у вигляді
Якщо розсіювання спостережень відносно лінії регресії нормальне, тобто, всі похибки розподілені нормально з параметрами , то %-вий довірчий інтервал для параметра має вигляд
(1.6.4)
і містить невідомий параметр з імовірністю .
З іншого боку, якшо це доцільно, то ми можемо перевірити гіпотезу ( – const) проти альтернативи .
-критерій. Якщо гіпотезу відхиляти при
(1.6.5)
і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.
Після того, як ми знайшли довірчий інтервал для , немає необхідності знаходити величину для перевірки гіпотези за допомогою t-критерію. Дійсно, досить дослідити довірчий інтервал для і подивитись, чи містить він значення . Якщо довірчий інтервал містить , то гіпотеза не відхиляється, і відхиляється у супротивному разі.
Отже, гіпотеза відхиляється, якщо
,
,
тобто лежить за межами, які відповідають (1.6.4).
1.7 Довірчий інтервал для . Стандартне відхилення вільного члена
В підрозділі 1.2 за допомогою МНК-метода знайдено оцінку параметра
Порахуємо дисперсію оцінки :
(1.7.1)
Тоді стандартне відхилення оцінки дорівнює:
(1.7.2)
Оскільки дисперсія невідома, то замість неї використовується оцінка , припускаючи, що модель коректна
(1.7.3)
%-ий довірчий інтервал для параметра має вигляд
і містить невідомий параметр з імовірністю .
-критерій. Якщо гіпотезу ( – const) відхиляти при
і не відхиляти в супротивному разі, то з імовірністю гіпотеза відхиляється, коли вона справедлива.
Перевірити гіпотезу можна й за допомогою довірчого інтервалу для .
Необхідно записати довірчий інтервал для і подивитись, чи містить він значення . Якщо довірчий інтервал містить , то не відхиляється, і відхиляється у супротивному разі.
1.8
Довірча смуга для регресії
Спочатку розглянемо лінійні комбінації
, де – const,
, де – const,
В припущеннях некорельованості при ( при ) , обчислимо .
В підрозділі 1.2 було знайдено рівняння простої лінійної регресії:
.
Нехай , тоді , звідси .
А , тоді , звідси .
Отже,
тобто і некорельовані випадкові величини.
Порахуємо дисперсію (або при заданому ).
(1.8.1)
Стандартне відхилення оцінки при заданому є
(1.8.2)
Оскільки невідома, то замість неї використовують оцінку , припускаючи, що модель коректна.
Оцінка стандартного відхилення має вигляд:
(1.8.3)
Ця величина досягає мінімального значення, коли , і зростає при віддаленні від в будь-якому напрямі.
%-ві довірчі інтервали для регресії мають вигляд:
або, що те ж саме,
Чим більша різниця між та , тим більше відхилення між та (довжина довірчого інтервалу). Останнє означає, що точність прогнозу різна в різних точках .
Дві криві по обидві сторони від лінії регресії визначають %-ві довірчі границі й показують, як змінюються границі в залежності від зміни . Ці криві – гіперболи.
Для того, щоб одержати ці криві, необхідно з’єднати неперервною лінією всі значення при всіх (нижня гіпербола) та при всіх (верхня гіпербола).
1.9
Повторні спостереження. Неадекватність і “чиста” помилка
Побудована лінія регресії – це розрахункова лінія, яка базується на деякій моделі або припущеннях. Але припущення потрібно розглядати як попередні. При деяких обставинах (умовах) можна перевірити, чи коректна (адекватна) побудована модель.
Розглянемо випадок, коли в даних містяться повторні спостереження. Введемо додаткові позначення для множини спостережень при одному й тому ж значенні .
Нехай
– спостережень при ,
– спостережень при ,
. . . . . . . . .
– спостережень при ,
при цьому .
Якщо спостереження повторюються (два рази або більше) при однакових значеннях , то ми можемо використати ці повторення для знаходження оцінки для дисперсії . Про таку оцінку говорять, що вона представляє “чисту помилку”, оскільки, якщо однакові, наприклад, для двох спостережень, то тільки випадкові варіації можуть впливати на результати і створювати розсіювання між ними. Такі відмінності, як правило, забезпечують одержання надійної оцінки для . Тому при плануванні експериментів має сенс ставити експерименти з повтореннями.
Оцінка величини , пов’язана з “чистою помилкою”, знаходиться так.
Сума квадратів, пов’язана з “чистою помилкою” при дорівнює
, де
Число ступенів вільності цієї суми .
Сума квадратів, пов’язана з “чистою помилкою” при дорівнює
, де
Число ступенів вільності цієї суми і т. д.
Загальна сума квадратів, пов’язана з “чистою помилкою”дорівнює
з загальним числом ступенів вільності
Звідси середній квадрат для “чистої помилки” дорівнює
(1.9.1)
і є оцінкою для .
Покажемо, що сума квадратів, пов’язана з “чистою помилкою”, є частиною суми квадратів залишків (суми квадратів відносно регресії).
Залишок для -того спостереження при можна записати у вигляді:
Піднесемо праву та ліву частини рівності до квадрату.
Візьмемо суму по кожному з індексів та .
(1.9.2)
при цьому .
Суму (1.9.2) можна записати так
Сума Сума квадратів Сума
квадратів = “чистих + квадратів (1.9.3.)
залишків помилок” неадекватності
Число ступенів вільності:
Отже, суму квадратів “чистих помилок” можна ввести в таблицю дисперсійного аналізу.
Таблиця 1.9.1. Таблиця дисперсійного аналізу
Джерело варіації | Число ступенів вільності |
Сума квадратів |
Середній квадрат |
Статистика |
Відносно середнього |
|
|||
Обумовлена регресією | ||||
Відносно регресії | ||||
Неадекватність | ||||
„Чиста помилка” |
Критерій для перевірки адекватності моделі регресії можна сформулювати так.
Якщо
(1.9.4)
то відношення є значущим (лінійна модель неадекватна), при цьому, чим обумовлена неадекватність можна вивчити, дослідивши залишки; в супротивному випадку:
(1.9.5)
відношення є незначущим (лінійна модель адекватна), при цьому як , так і можна використовувати як оцінки для .
Об’єднана оцінка для може бути знайдена з суми квадратів “чистої помилки” і суми квадратів “неадекватністі” шляхом їх об’єднання у суму квадратів залишків і поділу її на число ступенів вільності .
Якщо виявлено неадекватність моделі, то необхідно будувати іншу модель (нелінійну).
1.10
Деякі відомості з математичної статистики
1.10.1 Критерій (гіпотетичний розподіл визначений)
Постановка задачі. Нехай – реалізація вибірки з невідомого розподілу , відносно якого висувається гіпотеза , де належить заданому класу розподілів (зокрема, може бути повністю визначеним розподілом). Гіпотезу можна сформулювати і так: є вибіркою з розподілу із заданими властивостями.
Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу чи ні.
Відхилення емпіричного розподілу від гіпотетичного. Незалежно від того, справджується гіпотеза чи ні, емпіричний розподіл , побудований за вибіркою з , а саме, для кожного фіксованого значення емпіричної функції розподілу є незміщеною і спроможною оцінкою . Тому, якщо ввести відхилення емпіричного розподілу від гіпотетичного , причому так, щоб воно набирало малих значень, коли гіпотеза справджується, і великих, коли гіпотеза не справджується (а це видається цілком можливим, оскільки мало відрізняється від ), то гіпотезу природно відхиляти або не відхиляти залежно від того, якого значення набрало відхилення - великого чи малого.
Відхилення Пірсона емпіричного розподілу від гіпотетичного . Відхилення між двома розподілами: - емпіричним, побудованим за вибіркою , і –гіпотетичним, заданими на множинівибіркових значень (на вибірковому просторі), можна будувати різними способами. Далі описано відхилення від , запропоноване Пірсоном. Воно будується так. Ділимо на скінчене число неперетинних множин :
.
І як відхилення від розглядаємо
(1.10.1.1)
де - імовірність того, що вибіркове значення потрапить до множини , обчислена за гіпотетичним розподілом (тобто )); – імовірність вибірковому значенню потрапити до множини , обчислена за емпіричним розподілом ; чисельно ця ймовірність дорівнює частоті вибірковому значенню потрапити до множини , знайденій за вибіркою (– кількість вибіркових значень з , що потрапили до ).
Далі, якщо , то є ймовірність вибірковому значенню потрапити до , обчислена за розподілом , з якого добуто вибірку , а тому для кожного частоти вибіркового значення потрапити до є незміщеними і спроможними оцінками ймовірностей . І отже, відхилення є малим порівняно з відхиленням від , обчисленими за розподілом , відмінним від . А разом із ними малим є відхилення порівняно з відхиленням , коли розподіл відмінний від (більш того, – мінімально можливе відхилення).
Таким чином, для перевірки гіпотези : є вибірка з розподілу , обчислюємо відхилення . Якщо при цьому набрало малого значення, то гіпотезу не відхиляємо , у супротивному разі – відхиляємо.
Межі, що відокремлюють великі значення відхилення від малих, установлюються на підставі того факту, що для вибірки з розподілу при великих розподіл (розподіл мінімально можливого відхилення) мало відрізняється від розподілу з ступенями вільності.
Критерій (гіпотетичний розподіл не залежить від невідомих параметрів). Нехай – вибірка із розподілу і – верхня α-межа - розподілу з ступенями вільності.
Якщо гіпотезу : є вибірка з розподілу відхиляти при
(1.10.1.2)
і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується.
1.10.2 Критерій (гіпотетичний розподіл невизначений)
Нехай – вибірка з невідомого розподілу , стосовно якого висувається гіпотеза
.
Розподіл залежить від параметрів , які невідомо, причому єдиним джерелом інформації про значення цих параметрів є вибірка . Іншими словами, гіпотеза полягає в тому, що є вибіркою із розподілу, який належить до класу розподілів .
Необхідно за реалізацією вибірки дійти висновку: відхиляти гіпотезу чи ні.
Природно діяти так. Визнаємо за значення невідомих параметрів їхні оцінки , знайдені за вибіркою , і, отже, за гіпотетичний приймемо розподіл . Відхилення будуємо так само, як і раніше:
(1.10.2.1)
де – імовірність того, що вибіркове значення потрапить до множини , обчислена за гіпотетичним розподілом. Фішер встановив, що коли гіпотеза справджується і оцінки знайдено за методом максимальної правдоподібності, то розподіл відхилення між і , коли , збігається до розподілу з ступенями вільності, де – кількість параметрів, оцінених за вибіркою .
Таким чином, коли параметри оцінюються за вибіркою методом максимальної правдоподібності, можна користуватися критерієм у такому формулюванні.
Якщо гіпотезу відхиляти при
(1.10.2.2)
і не відхиляти в супротивному разі, то з імовірністю α гіпотеза буде відхилятися, коли вона справджується.
1.10.3
Критерій Бартлетта
Доволі поширеним є випадок, в якому вважається відомим, що дисперсії похибок всередині певних груп рівні. Припустимо, що ми хочемо перевірити гіпотезу . Тоді, якщо маємо взаємно незалежних статистик ( – число ступенів вільності ), то можна перевірити гіпотезу , використовуючи критерій Бартлетта.
Цей критерій вимагає обчислення статистики
,
де
і
.
Якщо гіпотеза справедлива, то статистика розподілена приблизно як, причому така апроксимація виявляється задовільною і при досить малих вибірках (). На жаль, цей критерій надто чутливий до будь-якого відхилення від нормальності величин, що складають кожне . Значимість статистики може вказувати не на відсутність однорідності дисперсії, а просто на відхилення від нормальності.
1.11 Аналіз залишків
Електронні обчислювальні машини дають нам можливість обчислення відхилень кожного серед значень , що спостерігались, від апроксимуючої регресії . Ці різниці називаються залишками і позначаються символами
,
Критерій Дарбіна-Уотсона.
Нехай нам треба підібрати постульовану лінійну модель
(1.11.1)
методом найменших квадратів за спостереженнями . Зазвичайми повинні припускати, що похибки – незалежні випадкові величини з розподілом , тобто всі серіальні кореляції . За допомогою критерію Дарбіна-Уотсона можна перевірити гіпотезу про те, що всі проти альтернативної гіпотези : залишки пов’язані корельовано лінійною залежністю
,
де .
Для перевірки гіпотези проти альтернативи будуємо модель за рівнянням (1.15.1) і знаходимо набір залишків . Тепер можна побудувати статистику
(1.11.2)
і визначити на її основі, чи можна відхиляти гіпотезу .
Критичні точки статистики Дарбіна-Уотсона табульовані.
Знаходимо верхню і нижню границі (вони залежать від числа в моделі і кількості спостережень ).
Якщо , то залишки додатньо автокорельовані.
Якщо , то залишки некорельовані.
Якщо , то залишки від’ємно корельовані.
Якщо або , то необхідно збільшити кількість спостережень.
1.12
Лінійна множинна регресія
з двома
незалежн
ими
змінн
ими
Нехай – результати спостережень, які описуються моделлю:
(1.12.1)
Основні припущення мають вигляд:
Значення змінних відомій ці змінні незалежні. Необхідно знайти оцінки невідомих параметрів .
Використаємо МНК-метод:
Отримаємо систему нормальних рівнянь для моделі (1.12.1). Ця система включає систему нормальних рівнянь простої лінійної регресії.
(1.12.2)
знаходяться з першого та другого рівнянь останньої системи.
Отримали рівняння регресії:
Матричний спосіб знаходження .
; ; ; ;
– транспонована матриця.
Систему (1.12.2) перепишемо у вигляді:
Або в матричному виді:
Домножимо праву та ліву частини на .
Звідси
.
Або, що те ж саме,
.
У множинній лінійній регресії на значущість треба перевіряти всю регресію, а також окремі коефіцієнти регресії. В першому випадку використовується загальний -критерій, а у другому – частинний -критерій.
Загальний -критерій.
Для перевірки гіпотези використовується -критерій, в якому
Загальна сума квадратів
,
де
Сума квадратів залишків
Сума квадратів, обумовлена регресією
Джерело варіації | SS | df | MS | F |
Регресія | 2 | |||
Залишки | ||||
Загальна |
-критерій перевірки значущості.
Гіпотеза відхиляється, якщо
, (1.12.3)
і в цьому випадку кажуть, що регресія значуща; і не відхиляється в супротивному разі (регресія незначуща).
Частинний -критерій.
Розглянемо 3 моделі:
1. .
– МНК-оцінки параметрів .
; .
2. .
– МНК-оцінки параметрів , які не збігаються з оцінками моделі 1.
; .
3. .
– МНК-оцінки параметрів , які не збігаються з оцінками моделей 1, 2.
; .
Означення 1. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 2 члена
; .
Означення 2. Величину називають додатковою сумою квадратів, обумовленою включенням в модель 3 члена
; .
Оскільки
,,
де – число ступенів вільності, що відповідають середній сумі квадратів :
,
ми можемо записати 2 частинні -критерії.
Гіпотеза (при умові, що включено в модель) відхиляється, якщо:
,
і не відхиляється в супротивному разі.
Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель.
Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді
.
Гіпотеза (при умові, що включено в модель) відхиляється, якщо:
,
і не відхиляється в супротивному разі.
Якщо гіпотеза відхиляється, то коефіцієнт є значущим, і його необхідно включити в модель.
Якщо гіпотеза не відхиляється, то включення коефіцієнта в модель не підвищує значущості регресії, і рівняння можна залишити у вигляді
.
РОЗДІЛ ІІ ДОСЛІДЖЕННЯ ПОРУШЕНЬ ОСНОВНИХ ПРИПУЩЕНЬ ЛІНІЙНОГО РЕГРЕСІЙНОГО АНАЛІЗУ
2.1 „Ідеальна” модель лінійної регресії
Нехай – незалежні нормально розподілені випадкові величини з однаковою дисперсією та середніми , лінійними за параметрами , де – невідомі параметри, – відомі невипадкові величини. Кожну випадкову величину можна подати у вигляді , де – похибки спостережень, і вони змінюються від спостереження до спостереження. Відносно похибок висуваються припущення:
1) , – незалежні випадкові величини;
2) .
За спостереженнями , які описуються моделлю
(2.1.1)
необхідно оцінити невідомі параметри .
Означення 2.1.1. «Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду
(2.1.2)
«Ідеальна» модель лінійної регресії – це модель (2.1.1) з коефіцієнтами .
Означення 2.1.2. «Ідеальною» моделлю простої лінійної регресії називатимемо модель виду
(2.1.3)
«Ідеальна» модель простої лінійної регресії – це модель (2.1.1) з коефіцієнтами та змінною.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з параметрами відповідно, де а середні обирались так.
Квадрат розіб’ємо на 16 однакових квадратів розміром . В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром . Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні .
Рис. 2.1.1. Вибір значень
, які набувають невипадкові змінні
«Ідеальна» модель простої лінійної регресії. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в „ідеальній” моделі.
Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.1.2.
Рис. 2.1.2. „Ідеальна” модель простої лінійної регресії
Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії наведено в таблиці 2.1.1.
Таблиця 2.1.1. Результати перевірки адекватності та значущості „ідеальної” моделі простої лінійної регресії
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 111167 | 1 | 111167 | 1411,53 |
Відносно регресії | 50246,7 | 638 | 78,8 | |
Відносно середнього | 161413,7 | 639 | ||
Неадекватність | 828,5 | 6 | 138,1 | 1,77 |
"Чиста помилка" | 49418,2 | 632 | 78,2 |
F1 = 1,77 < 2,11 = F0,05;6;632, „ідеальна” модель адекватна.
F2 = 1411,53 > 3,86 = F0,05;1;638, „ідеальна” модель значуща.
Перевіримо гіпотези за допомогою критерію Стьюдента.
Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.
Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.
|t1| = 1,46 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 1 < 1,96 = t0,025;638, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залиш
.
Оскільки , то залишки „ідеальної” моделі некорельовані.
Рис. 2.1.3. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.1.4. Нормальний розподіл залишків
Статистика, тому залишки можна вважати нормально розподіленими з параметрами .
Статистика Бартлетта , тому дисперсія залишків постійна.
Отже,
1) „ідеальна” модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, а гіпотеза не відхиляється);
3) залишки , „ідеальної” моделі некорельовані;
4) залишки „ідеальної” моделі нормально розподілені випадкові величини з параметрами ;
5) дисперсія залишків „ідеальної” моделі величина постійна.
«Ідеальна» модель лінійної регресії з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в „ідеальній” моделі.
Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.1.5.
Рис. 2.1.5. „Ідеальна” модель лінійної регресії з двома незалежними змінними
Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії наведено в таблиці 2.1.2.
Таблиця 2.1.2. Результати перевірки адекватності та значущості „ідеальної” моделі лінійної регресії
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 232687,1 | 2 | 116343,5 | 1399,4 |
Відносно регресії | 52960,7 | 637 | 83,1 | |
Відносно середнього | 285647,7 | 639 | ||
Неадекватність | 3965,6 | 61 | 65 | 0,76 |
"Чиста помилка" | 48995,1 | 576 | 85,1 |
F1 = 0,76 < 1,34= F0,05;61;576, „ідеальна” модель адекватна.
F2 = 1399,4 > 3,01= F0,05;2;637, регресія значуща.
Перевіримо гіпотези за допомогою критерію Стьюдента.
Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.
Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.
Якщо , то гіпотеза відхиляється, і не відхиляється у супротивному випадку.
|t1| = 0,04 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 0,3 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t3| = 0,7 < 1,96 = t0,025;637, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію
.
Оскільки , то залишки „ідеальної” моделі некорельовані.
Рис. 2.1.6. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.1.6. Нормальний розподіл залишків
Статистика, тому залишки можна вважати нормально розподіленими з параметрами .
Статистика Бартлетта , тому дисперсія залишків постійна.
Отже,
1) „ідеальна” модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза не відхиляється, гіпотеза не відхиляється);
3) залишки , „ідеальної” моделі некорельовані;
4) залишки „ідеальної” моделі нормально розподілені випадкові величини з параметрами;
5) дисперсія залишків „ідеальної” моделі величина постійна.
2.2 Модель лінійної регресії, в якій дисперсія спостережень величина змінна
Нехай – незалежні нормально розподілені випадкові величини з середніми , лінійними за параметрами та дисперсією , що змінюється від спостереження до спостереження.
Параметри невідомі, – відомі невипадкові величини.
За спостереженнями , які описуються моделлю
, (2.2.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.2.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірок з нормальних розподілів з середніми, що дорівнюють сумі координат точок квадрата, і змінними дисперсіями:
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що змінна , наведено на рисунку 2.2.1.
Рис. 2.2.1. Модель простої лінійної регресії, в якій дисперсія спостережень
величина змінна
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.2.1.
Таблиця 2.2.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій дисперсія спостережень
величина змінна
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 124615,2 | 1 | 124615,2 | 166,26 |
Відносно регресії | 478200,8 | 638 | 749,5 | |
Відносно середнього | 602816 | 639 | ||
Неадекватність | 3025,8 | 6 | 504,3 | 0,67 |
"Чиста помилка" | 475175 | 632 | 751,9 |
F1 = 0,67 < 2,11 = F0,05;6;632, лінійна модель адекватна.
F2 = 166,26 > 3,86 = F0,05;1;638, регресія значуща.
|t1| = 0,04 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 0,38 < 1,96 = t0,025;638, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.2.2. Графік залишків – дисперсія змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.2.3. Нормальний розподіл залишків
Статистика ,тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, а гіпотеза не відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.2.4.
Рис. 2.2.4. Модель лінійної регресії, в якій дисперсія спостережень
величина змінна
Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.2.2.
Таблиця 2.2.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій дисперсія спостережень
величина змінна
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 209188,2 | 2 | 104594,1 | 132,29 |
Відносно регресії | 503614,7 | 637 | 790,6 | |
Відносно середнього | 712802,9 | 639 | ||
Неадекватність | 32906,7 | 61 | 539,5 | 0,66 |
"Чиста помилка" | 470708,0 | 576 | 817,2 |
F1 = 0,66 < 1,34= F0,05;61;576, лінійна модель адекватна.
F2 = 132,29 > 3,01= F0,05;2;637, регресія значуща.
|t1| = 1,09 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 1,88 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t3| = 0,38 < 1,96 = t0,025;637, гіпотеза не відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.2.5. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.2.6. Нормальний розподіл залишків
Статистика ,тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза не відхиляється, гіпотеза не відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
2.3 Модель лінійної регресії, в якій спостереження величини залежні
Нехай – залежні нормально розподілені випадкові величини з однаковою дисперсією та середніми , лінійними за параметрами .
Параметри невідомі, – відомі невипадкові величини.
За спостереженнями , які описуються моделлю
, (2.3.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.3.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з нормального розподілу з параметрами 0 та 1.
Наступні 7 вибірок рахуються за формулою
,
де сталі – елементи послідовності Фібоначчі, а саме: .
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що , наведено на рисунку 2.3.1.
Рис. 2.3.1. Модель лінійної регресії, в якій спостереження величини залежні
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.3.1.
Таблиця 2.3.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження величини залежні
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 0,97 | 1 | 0,97 | 0,03 |
Відносно регресії | 22892,15 | 638 | 35,88 | |
Відносно середнього | 22893,13 | 639 | ||
Неадекватність | 9,81 | 6 | 1,64 | 0,05 |
"Чиста помилка" | 22893,13 | 632 | 36,21 |
F1 = 0,05 < 2,11 = F0,05;6;632, лінійна модель адекватна.
F2 = 0,03 < 3,86 = F0,05;1;638, регресія незначуща.
|t1| = 0,29 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 100 > 1,96 = t0,025;638, гіпотеза відхиляється.
Рис. 2.3.2. Графік залишків – дисперсія змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис.2.3.3. Нормальний розподіл залишків
Статистика ,тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія незначуща (гіпотеза не відхиляється; гіпотеза не відхиляється, а гіпотеза відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що незалежні змінні обрані згідно з рис. 2.1.1, наведено на рисунку 2.3.4.
Рис. 2.3.4. Модель лінійної регресії, в якій спостереження величини залежні
Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.3.2.
Таблиця 2.3.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження величини залежні
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 11,83 | 2 | 5,92 | 0,25 |
Відносно регресії | 15256,05 | 637 | 23,95 | |
Відносно середнього | 15267,88 | 639 | ||
Неадекватність | 119,56 | 61 | 1,96 | 0,07 |
"Чиста помилка" | 15136,49 | 576 | 26,28 |
F1 = 0,07 < 1,34= F0,05;61;576, лінійна модель адекватна.
F2 = 0,25 < 3,01= F0,05;2;637, регресія незначуща.
|t1| = 0,94 < 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.3.5. Графік залишків – дисперсія змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.3.6. Нормальний розподіл залишків
Статистика ,тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється, гіпотеза відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
2.4 Модель лінійної регресії, в якій спостереження рівномірно розподілені величини
Нехай – незалежні рівномірно розподілені випадкові величини.
За спостереженнями , які описуються моделлю
, (2.4.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.4.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні спостережень з рівномірного на відрізку розподілу.
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.4.1.
Рис. 2.4.1. Модель простої лінійної регресії, в якій спостереження рівномірно розподілені
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.4.1.
Таблиця 2.4.1 Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження рівномірно розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 28061,45 | 1 | 28061,45 | 437,88 |
Відносно регресії | 40886,36 | 638 | 64,09 | |
Відносно середнього | 68947,81 | 639 | ||
Неадекватність | 414 | 6 | 69 | 1,07 |
"Чиста помилка" | 40472,36 | 632 | 64,04 |
F1 = 1,07 < 2,11 = F0,05;6;632, модель адекватна.
F2 = 437,88 > 3,86 = F0,05;1;638, регресія значуща.
|t1| = 0,16 < 1,96 = t0,025;638, гіпотеза не відхиляється.
|t2| = 25,5 > 1,96 = t0,025;638, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис.2.4.2. Графік залишків – дисперсія залишків змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.4.3. Нормальний розподіл залишків
Статистика, ,тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК-оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що значення обираються згідно рис. 2.1.1, наведено на рисунку 2.4.4.
Рис. 2.
4
.4. Модель лінійної регресії, в якій спостереження рівномірно розподілені
Результати перевірки адекватності та значущості цієї моделі лінійної регресії наведено в таблиці 2.4.2.
Таблиця 2.4.2. Результати перевірки адекватності та значущості моделі лінійної регресії, в якій спостереження рівномірно розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 28171,07 | 2 | 14085,54 | 220,04 |
Відносно регресії | 40776,74 | 637 | 64,01 | |
Відносно середнього | 68947,81 | 639 | ||
Неадекватність | 3539,39 | 61 | 58,02 | 0,89 |
"Чиста помилка" | 37237,35 | 576 | 64,65 |
F1 = 0,89 < 1,34 = F0,05;61;576, модель адекватна.
F2 = 220,04 > 3,01 = F0,05;2;637, модель значуща.
|t1| = 0,74< 1,96 = t0,025;637, гіпотеза не відхиляється.
|t2| = 25,5 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t3| = 48,5 > 1,96 = t0,025;637, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерія . Оскільки , то залишки цієї моделі некорельовані.
Рис.2.
4
.5. Графік залишків – дисперсія залишків змінюється
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.4.5. Нормальний розподіл залишків
Статистика, ,тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія значуща (гіпотеза не відхиляється; гіпотеза відхиляється, гіпотеза відхиляється, гіпотеза відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
2.5 Модель простої лінійної регресії, в якій спостереження показниково розподілені величини
Нехай – незалежні показниково розподілені випадкові величини з параметром .
За спостереженнями , які описуються моделлю
, (2.5.1)
необхідно оцінити невідомі параметри , перевірити адекватність лінійної моделі (2.5.1), значущість лінійної регресії , а також з’ясувати, чи виконуються основні припущення лінійного регресійного аналізу.
Стохастичний експеримент. Проведемо стохастичний експеримент, який полягає в моделюванні вибірки з показникового розподілу з параметром .
Проста лінійна регресія. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що обирається згідно рис. 2.1.1, наведено на рисунку 2.5.1.
Рис. 2.5.1. Модель простої лінійної регресії, в якій спостереження показниково розподілені
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.1.
Таблиця 2.5.1. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 6,6 | 1 | 6,6 | 2,11 |
Відносно регресії | 1992,5 | 638 | 3,12 | |
Відносно середнього | 1999,1 | 639 | ||
Неадекватність | 16,04 | 6 | 2,67 | 0,85 |
"Чиста помилка" | 1976,46 | 632 | 3,13 |
F1 = 0,85 < 2,11 = F0,05;6;632, модель адекватна.
F2 = 2,11 < 3,86 = F0,05;1;638, тому регресія незначуща.
|t1| = 12,29 > 1,96 = t0,025;498, гіпотеза відхиляється.
|t2| = 99 > 1,96 = t0,025;498, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.5.2. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.5.3. Нормальний розподіл залишків
Статистика , тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) модель незначуща (гіпотеза відхиляється; гіпотеза не відхиляється, гіпотеза відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
Лінійна регресія з двома незалежними змінними. Знайдемо МНК – оцінки параметрів та перевіримо гіпотези про адекватність та значущість лінійної моделі регресії. Також з’ясуємо, чи виконуються припущення в цій моделі.
Результати стохастичного експерименту, за умов, що значення обиралися згідно рис.2.1.1, наведено на рисунку 2.5.4.
Рис. 2.
5
.4. Модель лінійної регресії, в якій спостереження показниково розподілені
Результати перевірки адекватності та значущості цієї моделі простої лінійної регресії наведено в таблиці 2.5.2.
Таблиця 2.
5
.2. Результати перевірки адекватності та значущості моделі простої лінійної регресії, в якій спостереження показниково розподілені
Джерело варіації | SS | df | MS | F |
Обумовлена регресією | 9,3 | 2 | 9,3 | 1,49 |
Відносно регресії | 1989,79 | 637 | 3,12 | |
Відносно середнього | 1999,09 | 639 | ||
Неадекватність | 176,57 | 61 | 2,89 | 0,92 |
"Чиста помилка" | 1813,22 | 576 | 3,15 |
F1 = 0,92 < 1,34 = F0,05;61;576, лінійна модель адекватна.
F2 = 1,49 < 3,01 = F0,05;2;637, регресія незначуща.
|t1| = 8,42 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t2| = 99 > 1,96 = t0,025;637, гіпотеза відхиляється.
|t3| = 100 > 1,96 = t0,025;637, гіпотеза відхиляється.
Перевіримо припущення про некорельованість залишків за допомогою критерію Дарбіна-Уотсона. Статистика критерію . Оскільки , то залишки цієї моделі некорельовані.
Рис. 2.
5
.5. Графік залишків – смуга постійної ширини
Гіпотезу про нормальний розподіл залишків перевіримо за допомогою критерію.
Рис. 2.5.6. Нормальний розподіл залишків
Статистика , тому залишки не можна вважати нормально розподіленими.
Статистика Бартлетта , тому дисперсія залишків змінна величина.
Отже,
1) лінійна модель адекватна;
2) регресія незначуща (гіпотеза відхиляється; гіпотеза не відхиляється, гіпотеза відхиляється, гіпотеза відхиляється);
3) залишки некорельовані;
4) залишки не можна вважати нормально розподіленими;
5) дисперсія залишків змінна величина.
ВИСНОВКИ
Нехай – результат спостереження, який описується лінійною моделлю виду
(1)
де – регресійна матриця розміру , ,
– вектор невідомих параметрів,
– вектор похибок спостережень.
Припущення відносно вектора спостережень позначатимемо :
.(2)
Або, що те ж саме, припущення відносно вектора похибок мають вигляд:
(3)
Вихідні припущення (2) або (3) регресійного аналізу виконуються далеко не завжди. Виникає низка питань: як виявити порушення цих припущень? В яких випадках і які порушення можна вважати припустимими? Що робити, якщо порушення виявляються неприпустимими?
Метою роботи є вивчення наслідків порушення основних припущень (3) лінійного регресійного аналізу, а саме:
1) припущення про незміщеність похибок ; (4)
2) припущення про однакову дисперсію і некорельованість похибок (5)
3) припущення про нормальний розподіл похибок ; (6)
4) припущення про незалежність спостережень . (7)
Наслідки порушення припущень (4)-(7) розглянемо на прикладі лінійної регресії з двома незалежними змінними.
«Ідеальною» моделлю лінійної регресії з двома незалежними змінними називатимемо модель виду
(8)
«Ідеальна» модель – це модель (1) з коефіцієнтами .
Опишемо вибір невипадкових змінних .
Квадрат розіб’ємо на 16 однакових квадратів розміром . В кожному з них оберемо 4 точки, які виступають вершинами квадратів розміром . Ці 64 вершини квадратів і обрані за значення, які набувають невипадкові змінні .
Рис. 1. Вибір значень
, які набувають невипадкові змінні
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю (8).
Результати експерименту наведено на рисунку 2.
Рис. 2
За допомогою критеріїв математичної статистики ми будемо перевіряти не тільки, чи виконуються припущення регресійного аналізу, але й гіпотези про адекватність лінійної моделі, про значущість регресії, про значущість коефіцієнтів регресії. Отже, модель (8) узгоджується з результатами експерименту, жодне з вихідних припущень не порушено.
1) „ідеальна” модель адекватна (модель лінійна);
2) „ідеальна” регресія значуща;
3) гіпотези , не відхиляються;
4) дисперсія залишків постійна;
5) залишки некорельовані;
6) залишки нормально розподілені .
Розглянемо модель лінійної регресії, в якій дисперсія спостережень величина змінна, тобто припущення (5) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(9)
Результати експерименту наведено на рисунку 3.
Рис. 3
В порівнянні з ідеальною моделлю залишки не мають .
Отже, разом з порушенням припущення про постійну дисперсію залишків порушується й припущення про нормальний розподіл залишків.
Якщо залишки не мають нормального розподілу, то використовувати МНК-метод для оцінки параметрів регресії неприпустимо (МНК-оцінки не збігаються з ММП-оцінками).
Розглянемо модель лінійної регресії, в якій спостереження величини залежні, тобто припущення (7) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(10)
Результати експерименту наведено на рисунку 4.
Рис. 4
В порівнянні з ідеальною моделлю
1) регресія незначуща;
2) гіпотези , відхиляються;
3) дисперсія залишків змінна величина;
4) залишки не мають .
Отже, разом з порушенням припущення про незалежність спостережень , порушуються й припущення про постійність дисперсії залишків і припущення про нормальний розподіл залишків. Такі порушення неприпустимі.
Розглянемо модель лінійної регресії, в якій спостереження рівномірно розподілені, тобто припущення (6) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(11)
Результати експерименту наведено на рисунку 5.
Рис. 5
В порівнянні з ідеальною моделлю
1) гіпотези , відхиляються;
2) дисперсія залишків змінна величина.
Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків.
Розглянемо модель лінійної регресії, в якій спостереження показниково розподілені, тобто припущення (6) місця не має.
Проведемо стохастичний експеримент, який полягає в моделюванні спостережень згідно з моделлю
(12)
Результати експерименту наведено на рисунку 6.
Рис. 6
В порівнянні з ідеальною моделлю,
1) лінійна регресія незначуща;
2) гіпотези відхиляються;
3) дисперсія залишків змінна величина.
Отже, разом з порушенням припущення про нормальний розподіл залишків, порушується й припущення про постійність дисперсії залишків.
СПИСОК ВИКОРИСТАНИХ ДЖЕРЕЛ
1. Дрейпер Н., Смит Г. Прикладнойрегрессионный анализ. – М.: Статистика, 1973.
2. Линник Ю.В. Метод наименьших квадратов и основы математико-статистической теории обработки наблюдений, 2-е изд. – М.: Физматгиз, 1962.
3. Рао С.Р. Линейные статистические методы и их применение. – М.: Наука, 1968.
4. Себер Дж. Линейный регрессионный анализ. – М: Мир, 1980.