Algorytm postępowania – Liniowa regresja wielozmiennowa

Zarówno oszacowania parametrów jak i wnioski co do jakości modelu szacowanego MNK,

oparte o wartości R2, F-statystyki t-statystyk mogą być fałszywe, jeśli niespełnione są założenia MNK:

 

 

Aby upewnić się, czy założenia MNK są spełnione po estymacji modelu trzeba przeprowadzić dodatkowo szereg testów statystycznych.

 

Normalność rozkładu składnika losowego – test Jarque-Bera

 

Jeśli rozkład składnika losowego nie jest normalny, to zastosowanie rozkładu t-Studenta do testowania hipotez o istotności parametrów za pomocą t-statystyk jest nieuprawnione. Dotyczy to również F-statystyki i rozkładu F.

Test skonstruowany jest tak, że weryfikacji podlega podobieństwo pewnych charakterystyk rozkładu składnika losowego modelu do znanych wartości tych charakterystyk w rozkładzie normalnym.

Przyjmujemy, że reszty modelu ekonometrycznego są empiryczną realizacją składnika losowego. Testujemy hipotezę

H0: składnik losowy modelu ma rozkład normalny

przy hipotezie alternatywnej

H1: składnik losowy modelu  nie ma rozkładu normalnego

 

Postępowanie przebiega następująco:

 

Krok 1: Szacujemy model

 

Krok 2: Obliczamy reszty e t, t = 1,2,…,n.

 

Krok 3: Szacujemy wartość obciążonego estymatora odchylenia   standardowego składnika losowego modelu:

S = Ö ((1/n) * ået2)

 

Krok 4: Szacujemy wartość miary asymetrii rozkładu reszt (miara ogólnie dla szeregów obserwacji  mierzy asymetrię rozkładu wokół średniej. Miara ta dla rozkładów symetrycznych, a więc i dla rozkładu normalnego, przyjmuje wartość 0.

 

A = 1/n å (et3/ S3)   – skewness

 

Krok 5: Szacujemy wartość miary kurtozy rozkładu reszt  (kurtoza mierzy płaskość  rozkładu).  Miara dla rozkładu normalnego przyjmuje wartość 3.

 

K = 1/n å (et4/ s4

 

 

Krok 6: Wyznaczamy wartość statystyki JB

 

JB  = (n – k)/6 * ( A2  + ¼ * (K-3)2 )

Statystyka JB ma rozkład chi2  z dwoma stopniami swobody.

 

Krok 7: Na poziomie istotności a weryfikujemy  hipotezę  zerową.  Jeśli dla wartości krytycznej testu chi*  spełniona jest nierówność JB > chi*  , to hipotezę  o  normalności  rozkładu  składnika  losowego  modelu   odrzucamy. W przeciwnym przypadku nie  ma  podstaw  do  odrzucenia  tej hipotezy.

 

Przykład. Model produkcji roślinnej:

 

PRODt  = c(0) + c(1)*SIPt + c(2) *NAWt  + et

gdzie SIP = siła pociągowa

NAW = nawożenie

 

Method: Least Squares
Sample: 1950 1996
Included observations: 47
Variable Coefficient Std. Error t-Statistic Prob.
SIP  0.622653  0.067650  9.204048  0.0000
NAW  0.017319  0.000779  22.23473  0.0000
C  51.56247  1.923409  26.80785  0.0000
R-squared  0.958139     Mean dependent var  103.2149
Adjusted R-squared  0.956236     S.D. dependent var  27.72400
S.E. of regression  5.799833     Akaike info criterion  6.415237
Sum squared resid  1480.075     Schwarz criterion  6.533331
Log likelihood -147.7581     F-statistic  503.5437
Durbin-Watson stat  1.738265     Prob(F-statistic)  0.000000

 

JB < chi* na poziomie istotności 0.05, zatem nie ma podstaw do odrzucenia hipotezy zerowej Bez sięgania do tablic: „probability” – (w przybliżeniu) pokazuje prawdopodobieństwo tego, że wartość JB będzie mniejsza od wartości krytycznej chi* . Zatem H0 można odrzucić, jesli to prawdopodobieństwo jest małe (np. 0.05).

Autokorelacja składnika losowego

 

Autokorelacja składnika losowego – składniki losowe różnych obserwacji są ze sobą skorelowane.

Szczególnie występuje w szeregach czasowych.

 

Przyczyny:

  • Natura procesu – wpływ zdarzeń losowych na przyszłość: np. seria nieurodzajnych lat, skutki trzęsienia ziemi
  • Natura procesu – psychologia podejmowania decyzji – wpływ zdarzeń z najbliższej przeszłości
  • Niepoprawna postać modelu: nie uwzględnienie cykli, pominięcie ważnej zmiennej objaśniającej, zła konstrukcja dynamicznej postaci modelu (nieuwzględnienie zmiennych opóźnionych).

 

Skutki: estymatory nie są efektywne, estymator wariancji jest obciążony co najczęściej prowadzi do niedoszacowania błędów i zawyżenia t-statystyk.

 

Co robić? Przy wystąpieniu autokorelacji składnika losowego należy albo zastosować inne metody szacunku (niż KMNK) – jeśli uznajemy, że autokorelacja składnika losowego wynika z natury rzeczywistego procesu , albo zmienić specyfikację modelu.

 

Schemat autoregresyjny rzędu pierwszego (AR(1)):

Składniki losowe dla różnych obserwacji są związane zależnością:

et = ret-1 + ht

Uogólnienie: schemat autoregresyjny rzędu s (AR(s)):

 

et = r1et-1 + r2et-2  +   … +   rset-s + ht

 

Wykrywanie autokorelacji

Test Durbina-Watsona na autokorelację rzędu 1

Zakładamy AR(1): et = ret-1 + ht

Będziemy testować zestaw hipotez:

 

H0: r = 0

H1: r > 0 (jeśli ocena estymatora r > 0) lub r < 0 (jeśli ocena estymatora r < 0)

 

za pomocą statystyki D-W:

 

d =  å(et  – et-1)2 / å et2

 

Wartości krytyczne rozkładu tej statystyki podane są w tablicach. Dla każdej pary (n,k), gdzi n – liczba obserwacji, k – liczba zmiennych objaśniających, podane są dwie wartości (górna i dolna) dL  i  dU.

Decyzje podejmujemy w następujący sposób (dla danego n i k!).

 

jeśli d <= dL hipotezę H0 odrzucamy i przyjmujemy, że występuje autokorelacja dodatnia
jeśli  d > dU  i d < 4- dU nie ma podstaw do odrzucenia H0 (brak autokorelacji 1-go rzędu)
jeśli  d >= 4 – dL odrzucamy H0 i przyjmujemy, że występuje autokorelacja ujemna
jeśli dL  <  d < dU albo  4-dU < d < 4-dL nie możemy podjąć żadnej decyzji

 

Test Durbina-Watsona ( prosty obliczeniowo, trudny w intrepretacji) ma ograniczenia, które podważają  sensowność jego zastosowania:

  • obszar niekonkluzywności
  • nie nadaje się w tej postaci do testowania modeli, w których występuje opóźniona zmienna objaśniana,
  • bada tylko autokorelację pierwszego rzędu (a np. w modelach o dużej częstotliwości czasowej obserwacji często występują autokorelacje wyższych rzędów).

 

Dlatego często praktycznie stosowane są inne testy: Q statystyki Ljunga-Boxa lub test mnożników Lagrange  (LM test Breuscha-Godfreya).

 

Przykład:

Wartość statystyki D-W dla modelu produkcji roślinnej wynosi ok. 1.73.

Przy liczbie  obserwacji n = 47 i zmiennych objaśniających k = 2) znajdujemy w tablicach wartości krytyczne dL i dU i stwierdzamy, że D-W > dU oraz  mniejsze od 4 – dU.

Nie mamy podstaw do odrzucenia hipotezy H0 – przyjmujemy, że nie występuje autokorelacja rzędu 1.

Heteroskedastyczność składnika losowego

 

Zjawisko heteroskedastyczności polega na niejednorodności wariancji składników losowych w obrębie proby (obserwacji).

 

Przyczyny: często natura zjawiska (np. w modelu przekrojowym wariancja dochodów wśród rodzin o wyższych dochodach jest wyższa niż u rodzin  o niższych dochodach, wariancja zysków rośnie wraz ze wzrostem rozmiarów firmy itp.). Modele finansowe.

 

Skutki: niespełnienie założeń KMNK, czego wynikiem jest to, że estymatory parametrów strukturalnych nie są efektywne, a estymatory ich wariancji są obciążone, co prowadzi do fałszywych informacji o poziomach istotności i wartości statystyk służących do testowania hipotez.

 

Wykrywanie heteroskedastycznośc: test Harrisona-McCabe’a (z obszarem nierozstrzygalności), test White’a (dla obserwacji >=30)

 

Test White’a

 

  • Szacujemy model (model podstawowy)
  • Obliczamy reszty et oraz ich kwadraty et2 . Będą one reprezentować wartości wariancji składnika losowego (średnia równa jest 0!).
  • Szacujemy pomocniczy model, w którym zmienną objaśnianą sa wartości wariancji (obserwacje reprezentowane są przez kwadraty reszt), a zmiennymi objaśniającymi wszelki możliwe niepowatrzające się kombinacje iloczynów zmiennych objaśniających modelu podstawowego.
  • Obliczamy statystykę White, która ma postać n*R2, gdzie n – liczba obserwacji. Statystyka ta mo rozkład chi2  z liczbą stopni swobody, rowną liczbie zmiennych objaśniających w model pomocniczym.
  • Za pomocą tej statystyki na poziomie istotności a (zwykle 0.05) weryfikujemy hipotezę zerową H0: wszystkie parametry w modelu pomocniczym równe są 0 (tzn. wariancja jest stała, składnik losowy jest homoskedastyczny) przy hipotezie alternatywnej H1: co najmniej jeden parametr przy zmiennej objaśniającej w modelu pomocniczym nie jest równy 0.
  • Hipotezę zerową odrzucamy, gdy wartość statytyki White’a jest większa od wartości krytycznej rozkkładu chi2 przy danej liczbie stopni swobody i wybranym poziomie istotności. W przeciwnym razie nie mamy podstaw do odrzucenia hipotezy zerowej (przyjmujemy, że składnik losowy jest homoskedastyczny).

 

Przykład:

Model produkcji roślinnej:

PRODt  = c(0) + c(1)*SIPt + c(2) *NAWt  + et

Szacujemy model i obliczamy reszty oraz ich kwadraty.

Szacujemy model pomocniczy o postaci:

RESZTY2 = C(1)*SIP + C(2)*(SIP^2) + C(3)*(SIP*NAW) + C(4)*NAW + C(5)*(NAW^2) + C(6)

R2 = 0.21489

Obliczamy: n*R2 =  10.09983 (prob. = 0.072456).

Na poziomie istotności 0.05 nie ma podstaw aby odrzucić hipotezę H0.

Przyjmujemy, że składnik losowy nie jest heteroskedatsyczny

 

Współiniowość zmiennych objasniających

 

Współliniowość wartości zmiennych objaśniających polega na tym, że szeregi obserwacji zmiennych objaśniających są nadmiernie skorelowane.

 

Jeśli występuje ścisła korelacja liniowa, to rząd macierzy X (obserwacji zmiennych objasniających) jest mniejszy od k+1 (k liczba zmiennych objasniających) , a w konsekwencji macierz XTX jest osobliwa, co uniemożliwia wyznaczenie parametrów metodą MNK.

W praktyce dokładna zależność liniowa zmiennych objaśniających jest mało prawdopodobna. Często jednak występują bardzo zbliżone do ściśle liniowych zależności wartości zmiennych objaśniających (nadmierne skorelowanie).

 

Przyczyna: tendencja kształtowania się wartości wielu kategorii ekonomicznych według tych samych trendów rozwojowych lub szerzej – według podobnych cykli koniunkturalnych. W modelach, w których informacje o zmiennych mają charakter danych przekrojowych, występowanie zjawiska współliniowości jest tłumaczone tendencją do proporcjonalnych zmian wartości zmiennych objaśniających.

 

Skutki:

  • Niemożliwy jest poprawny pomiar siły oddziaływania poszczególnych zmiennych na zmienną objaśnianą (założenie ceteris paribus może być nieaktualne).
  • Oceny wariancji MNK-estymatorów, związanych zeskorelowanymi zmiennymi są bardzo duże
  • W związku z tym wartości t-statystyk dla skorelowanych zmiennych są małe, co (wcale niekoniecznie i nie do końca słusznie sugeruje usunięcie wszystkich tych zmiennych ze specyfikacji modelu). Możemy otrzymać paradoksalny rezultat: wszystkie zmiennye objaśniające są statystycznie nieistotne, a mimo to współczynnik determinacji R2 osiąga dużą wartość (i statystyka F może. być istotna)

 

Przybliżona współliniowość nie powoduje utraty przez estymator wektora parametrów a modelu  wyznaczony KMNK własności, o których mówi twierdzenie Gaussa-Markowa..

 

Mierzenie współliniowości

 

Miarą dokładności oszacowania parametru aj, dla j=1,2, …, k modelu  jest średni błąd szacunku . Jest on pierwiastkiem kwadratowym z j-tego elementu diagonalnego djj macierzy  wariancji-kowariancji S2(XTX)-1. Można pokazać, że:

 

(4.15)

 

gdzie  jest współczynnikiem determinacji dla modelu pomocniczego, w którym zmienną objaśnianą jest Xj czyli j-ta zmienna objaśniająca modelu, a zmiennymi objaśniającymi – pozostałe k-1 zmiennych objaśniających modelu. Wśród szacowanych parametrów tego modelu znajduje się również wyraz wolny.

Zgodnie z interpretacją współczynnika determinacji , jego duża wartość oznacza wysoki topień skorelowania zmiennej Xj z pozostałymi k-1 zmiennymi objaśniającymi.

Ze wzoru  wynika, że im większa wartość współczynnika , tym większa wartość wariancji, a w konsekwencji większa wartość średniego błędu szacunku parametru aaj. Występujący w tym wzorze czynnik 1 / (1 – ) nazywa się czynnikiem inflacji wariancji (CIWj) estymatora parametru aaj

Gdy brak współliniowości zmiennych, wtedy  = 0 oraz CIWj = 1. Jeśli występuje przybliżona współliniowość zmiennych objaśniających, wtedy  > 0 oraz CIWj > 1. Mówimy, że wartość CIWj pokazuje stopień podwyższenia (inflacji) wartości wariancji estymatora parametru aaj wywołany współliniowością zmiennych. Uważa się, że wartość CIWj > 10 jest oznaką współliniowości, która trwale zakłóca jakość skonstruowanego modelu ekonometrycznego.

 

Przykład

W modelu konsumpcji lodów:

KONS = f (CENA, DOCH, TEMP)

są trzy zmienne objaśniające: CENA, DOCH i TEMP. Dla zbadania zjawiska współliniowości oszacowano modele ekonometryczne (t = 1,2, …, 32):

 

CENAt = 8,65 +5,67 DOCHt + 0,58 TEMPt                         = 0,88          CIWCENA = 8,33,

DOCHt = – 0,03 – 0,04 TEMPt + 0,11 CENAt          = 0,72          CIWDOCH = 3,57,

TEMPt = – 10,69 +1,10 CENAt – 4,32 DOCHt         = 0,74           CIWTEMP = 3,85.

 

W żadnym przypadku nie występuje zjawisko zakłócającej współliniowości między wyróżnioną zmienną objaśniającą a pozostałymi zmiennymi objaśniającymi, chociaż wartość czynnika inflacji wariancji parametru stojącego przy zmiennej CENA jest bliska 10.            ‚

UPROSZCZONA PROCEDURA BUDOWY i WERYFIKACJI

LINIOWEGO JEDNORÓWNANIOWEGO MODELU EKONOMETRYCZNEGO

 

Krok 1: Określić zmienną objaśnianą i zbiór kandydatek na zmienne objaśniające.

Zgromadzić niezbędne dane statystyczne.

 

Krok 2: Przeprowadzić procedurę doboru zmiennych objaśniających.

 

Krok 3: Zdefiniować jednorównaniowy liniowy model ekonometryczny.

 

Krok 4: Oszacować parametry modelu metodą najmniejszych kwadratów.

 

Krok 5: Wyznaczyć reszty modelu.

 

Krok 6: Czy reszty mają rozkład normalny?

TAK ® krok 7                       NIE ® STOP (użyć innych metod)

 

 

Krok 7: Czy występuje zjawisko autokorelacji składnika losowego modelu?

                        TAK ® STOP (użyć innych metod)             NIE ® krok 8

 

Krok 8: Czy występuje zjawisko heteroskedastyczności składnika losowego modelu?

                        TAK ® STOP (użyć innych metod)             NIE ® krok 9

 

Krok 9: Czy występuje zjawisko współliniowości zmiennych objaśniających?

TAK  krok11 lub® STOP (użyć innych metod)      NIE ® krok 10

 

 

Krok 10: Czy wszystkie zmienne objaśniające są istotne statystycznie?

TAK ® krok 12                     NIE ® krok 11

 

Krok 11: Zmienić zestaw zmiennych objaśniających i przejść do kroku 4.

 

Krok 12: Czy można zaakceptować wartość współczynnika determinacji?

TAK ® krok 13                     NIE ® krok 11

 

Krok 13: Czy można zaakceptować interpretację wartości oszacowań parametrów modelu?

TAK ® krok 14                     NIE ® krok 11

 

Krok 14: Wykorzystać oszacowany model ekonometryczny ® STOP.

 

Potrzebujesz pomocy statystycznej? Skontaktuj się z naszymi specjalistami 🙂