problemy klasyfikacyjne

Założenia regresji logistycznej. Normy stosowania testu.

założenia regresji logistycznej

 

Założenia regresji logistycznej . 

Analiza regresją logistyczną to nic innego jak zastosowanie testu statystycznego dla specyficznego układu zmiennych i celu analizy.

Regresja logistyczna nie ma wielu z kluczowych założeń regresji liniowej i ogólnych modeli liniowych, które bazują na algorytmach metody najmniejszych kwadratów – zwłaszcza jeżeli chodzi o liniowość, normalność, homoskedastyczność i poziom pomiaru.

Po pierwsze, nie wymaga liniowego związku pomiędzy zmienną zależną i niezależną. Regresja logistyczna radzi sobie z każdym typem związku, ponieważ dotyczy nieliniowej transformacji logarytmicznej do przewidywanej różnicy wskaźnika. Po drugie, zmienne niezależne nie muszą być normalne wieloczynnikowo – chociaż wieloczynnikowa normalność daje bardziej stabilne rezultaty. Także błędne warunki (pozostałości) nie muszą być normalnie wieloczynnikowo rozprowadzane. Po trzecie, homoskedastyczność nie jest wymagana. Regresja logistyczna nie wymaga aby zmienne były heteroskedastyczne na każdym poziomie zmiennych niezależnych. I w końcu, może poradzić sobie z porządkowymi i nominalnymi danymi jako niezależne zmienne. Zmienne niezależne nie muszą być w systemie metrycznym.

Jednak inne założenia wciąż występują.

Regresja logistyczna wymaga aby zmienna zależna była podwójna, a porządkowa regresja logistyczna wymaga aby zmienna zależna była porządkowa. Zredukowanie porządkowej albo metrycznej zmiennej do dychotomicznego poziomu powoduje stratę dużej ilości informacji, które sprawiają, że taki test jest gorszy w porównaniu z porządkową regresją logistyczną w takim przypadku.

Po drugie, jako że regresja logistyczna zakłada, że P(Y=I) istnieje prawdopodobieństwo wystąpienia zdarzenia, koniecznym jest aby zmienna zależna została odpowiednio zakodowana. To jest, dla podwójnej regresji, czynnik poziomu I ze zmiennej zależnej powinien reprezentować oczekiwany wynik.

Po trzecie, model powinien być poprawnie dopasowany. Ani nadmierne dopasowanie, ani niedopasowanie nie powinno mieć miejsca. To jest, tylko znaczące zmienne powinny być zawarte, ale jednocześnie wszystkie znaczące zmienne powinny być zawarte. Dobrym sposobem by to zapewnić jest użycie metody stopniowania by oszacować regresję logistyczną.

Po czwarte, błędne warunki muszą być niezależne. Regresja logistyczna wymaga by każda obserwacja była niezależna. To jest, punkty danych nie powinny być z żadnej zależnej próbki, np. pomiary przed i po, albo dopasowane parowanie. Poza tym model powinien mieć małą albo w ogóle nie mieć współliniowości. Czyli zmienne niezależne powinny być niezależne od siebie nawzajem. Jednakże jest możliwość by wprowadzić efekty interakcji dla kategorycznych zmiennych w analizie i modelu. Jeżeli współliniowość jest obecna centrując zmienne, można rozwiązać problem, tj. odjąć średnią każdej ze zmiennych. Jeżeli to nie zmniejszy współliniowości, (użycie analizy czynnikowej PCA) analiza czynnikowa z prostopadle odwróconymi czynnikami powinna zostać zrobiona przed oszacowaniem regresji logistycznej.

Po piąte, regresja logistyczna zakłada liniowość zmiennych niezależnych i różnic logarytmicznych. Mimo, że nie wymaga aby zmienne zależne i niezależne były powiązane liniowo ze sobą, to wymaga by zmienne niezależne były powiązane liniowo z różnicami logarytmicznymi. W innym wypadku, test nie doceni siły związku i odrzuci związek zbyt łatwo, jako nieistotny (nie odrzuci hipotezy zerowej) chociaż powinien go uznać za istotny. Rozwiązaniem tego problemu jest kategoryzacja zmiennych niezależnych. To znaczy zamiana zmiennych metrycznych na poziom porządkowy i następnie załączenie ich do modelu. Innym sposobem jest analiza dyskryminacyjna, jeżeli założenia o homoskedastyczności, wieloczynnikowej normalności i braku współliniowości są spełnione.

I wreszcie, regresja logistyczna wymaga próbek ogromnych rozmiarów. Ponieważ maksymalne prawdopodobieństwo oszacowań jest słabsze niż metoda najmniejszych kwadratów (np. zwykła regresja liniowa, wielokrotna regresja liniowa); podczas gdy metoda najmniejszych kwadratów wymaga w analizie 5 przypadków na zmienną niezależną, uczenie maszynowe wymaga przynajmniej 10 przypadków na zmienną niezależną, a niektórzy statystycy rekomendują przynajmniej 30 przypadków na każdy oszacowany parametr.

problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna