Założenia regresji logistycznej. Normy stosowania testu.

założenia regresji logistycznej

 

Założenia regresji logistycznej . 

Analiza regresją logistyczną to nic innego jak zastosowanie testu statystycznego dla specyficznego układu zmiennych i celu analizy.

Regresja logistyczna nie ma wielu z kluczowych założeń regresji liniowej i ogólnych modeli liniowych, które bazują na algorytmach metody najmniejszych kwadratów – zwłaszcza jeżeli chodzi o liniowość, normalność, homoskedastyczność i poziom pomiaru.

Po pierwsze, nie wymaga liniowego związku pomiędzy zmienną zależną i niezależną. Regresja logistyczna radzi sobie z każdym typem związku, ponieważ dotyczy nieliniowej transformacji logarytmicznej do przewidywanej różnicy wskaźnika. Po drugie, zmienne niezależne nie muszą być normalne wieloczynnikowo – chociaż wieloczynnikowa normalność daje bardziej stabilne rezultaty. Także błędne warunki (pozostałości) nie muszą być normalnie wieloczynnikowo rozprowadzane. Po trzecie, homoskedastyczność nie jest wymagana. Regresja logistyczna nie wymaga aby zmienne były heteroskedastyczne na każdym poziomie zmiennych niezależnych. I w końcu, może poradzić sobie z porządkowymi i nominalnymi danymi jako niezależne zmienne. Zmienne niezależne nie muszą być w systemie metrycznym.

Jednak inne założenia wciąż występują.

Podwójna regresja logistyczna wymaga aby zmienna zależna była podwójna, a porządkowa regresja logistyczna wymaga aby zmienna zależna była porządkowa. Zredukowanie porządkowej albo metrycznej zmiennej do dychotomicznego poziomu powoduje stratę dużej ilości informacji, które sprawiają, że taki test jest gorszy w porównaniu z porządkową regresją logistyczną w takim przypadku.

Po drugie, jako że regresja logistyczna zakłada, że P(Y=I) istnieje prawdopodobieństwo wystąpienia zdarzenia, koniecznym jest aby zmienna zależna została odpowiednio zakodowana. To jest, dla podwójnej regresji, czynnik poziomu I ze zmiennej zależnej powinien reprezentować oczekiwany wynik.

Po trzecie, model powinien być poprawnie dopasowany. Ani nadmierne dopasowanie, ani niedopasowanie nie powinno mieć miejsca. To jest, tylko znaczące zmienne powinny być zawarte, ale jednocześnie wszystkie znaczące zmienne powinny być zawarte. Dobrym sposobem by to zapewnić jest użycie metody stopniowania by oszacować regresję logistyczną.

Po czwarte, błędne warunki muszą być niezależne. Regresja logistyczna wymaga by każda obserwacja była niezależna. To jest, punkty danych nie powinny być z żadnej zależnej próbki, np. pomiary przed i po, albo dopasowane parowanie. Poza tym model powinien mieć małą albo w ogóle nie mieć współliniowości. Czyli zmienne niezależne powinny być niezależne od siebie nawzajem. Jednakże jest możliwość by wprowadzić efekty interakcji dla kategorycznych zmiennych w analizie i modelu. Jeżeli współliniowość jest obecna centrując zmienne, można rozwiązać problem, tj. odjąć średnią każdej ze zmiennych. Jeżeli to nie zmniejszy współliniowości, (użycie analizy czynnikowej PCAanaliza czynnikowa z prostopadle odwróconymi czynnikami powinna zostać zrobiona przed oszacowaniem regresji logistycznej.

Po piąte, regresja logistyczna zakłada liniowość zmiennych niezależnych i różnic logarytmicznych. Mimo, że nie wymaga aby zmienne zależne i niezależne były powiązane liniowo ze sobą, to wymaga by zmienne niezależne były powiązane liniowo z różnicami logarytmicznymi. W innym wypadku, test nie doceni siły związku i odrzuci związek zbyt łatwo, jako nieistotny (nie odrzuci hipotezy zerowej) chociaż powinien go uznać za istotny. Rozwiązaniem tego problemu jest kategoryzacja zmiennych niezależnych. To znaczy zamiana zmiennych metrycznych na poziom porządkowy i następnie załączenie ich do modelu. Innym sposobem jest analiza dyskryminacyjna, jeżeli założenia o homoskedastyczności, wieloczynnikowej normalności i braku współliniowości są spełnione.

I wreszcie, regresja logistyczna wymaga próbek ogromnych rozmiarów. Ponieważ maksymalne prawdopodobieństwo oszacowań jest słabsze niż metoda najmniejszych kwadratów (np. zwykła regresja liniowa, wielokrotna regresja liniowa); podczas gdy metoda najmniejszych kwadratów wymaga w analizie 5 przypadków na zmienną niezależną, uczenie maszynowe wymaga przynajmniej 10 przypadków na zmienną niezależną, a niektórzy statystycy rekomendują przynajmniej 30 przypadków na każdy oszacowany parametr.