Założenia analizy regresji liniowej i statystyki diagnostyczne

Założenia analizy regresji liniowej – By wykonać analizę regresji niezbędne staje się testowanie, czy dane mają wiele właściwości.

Poniżej wymieniamy najważniejsze założenia:

  • Założenia analizy regresji liniowej – Klasyczny model analizy regresji wymagał, by zmienne niezależne i zależne były ilościowe i miały rozkład normalny. Założenie o ilościowym poziomie pomiaru zmiennych podważa się od dosyć dawna, wskazując, że ten typ ana­lizy statystycznej może być stosowany także wówczas, gdy predyktory są jakościowe pod warunkiem, że mają jedynie dwie wartości, są dychotomiczne. Założenie o nor­malności rozkładu ilościowych zmiennych warto testować, zwłaszcza że nie jest to trudne, a dzięki sprawdzeniu tego założenia można skorygować dane i przez to uzyskać bardziej adekwatnie oszacowany model.
  • Założenia analizy regresji liniowej – Model jest liniowy. Założenie to nie jest zwykle sprawdzane za pomocą testów statystycznych, a analiza regresji jest odporna na niewielkie złamanie tego wym­gania. By sprawdzić, czy dopasowana linia prosta jest adekwatnym modelem, można obejrzeć wykres rozrzutu, by sprawdzić, czy dane układają się w postaci linii na wykresie rozrzutu. Przy większej liczbie obserwacji lub słabej zależno­ści na wykresie rozrzutu należy szukać raczej smugi punktów niż linii. Jeśli z wykresu rozrzutu widzimy, że model jest krzywoliniowy (smuga przypomina banana, a nie linię) możemy zmienić model lub przekształcić dane, redukując krzywoliniowość (Larose, 2008 s. 85). Założenia analizy regresji liniowej.
  • Założenia analizy regresji liniowej – Liczba obserwacji musi być równa lub większa niż liczba wszystkich zmien­nych wykorzystywanych w analizie – wyjaśnianych i wyjaśniających. Oczy­wiście, im więcej jest osób badanych, tym lepsze uzyskamy wyniki. Zależność ta przestaje się sprawdzać w przypadku zbiorów o ogromnej liczbie obserwacji – przy kilkudziesięciu tysiącach badanych osób istotny może być taki model, który nie wyjaśnia zbyt wiele zmienności wyników. Niezbędny jest więc złoty środek. Tabachnick i Fidell definiują go jako zasadę 50+15 – by regresja rzetelnie szacowała parametry potrzebnych jest co najmniej 50 osób; liczba ta musi być zwiększona o 15 osób wraz z dodawaniem każdego kolejnego predyktora (Tabachnick i Fidell, 2007).
  • Wariancja reszt jest taka sama dla wszystkich obserwacji – założenie to nazywane jest homoscedastycznością (Stanisz, 2007).
  • Składniki losowe (reszty) są nieskorelowane i mają rozkład normalny.
  • Założenia analizy regresji – Żadna ze zmiennych wyjaśniających (niezależnych) nie jest skorelowana z pozostałymi predyktorami. Założenie to testujemy za pomocą współczynni­ków korelacji r. Analiza regresji umożliwia także sprawdzenie tego założe­nia za pomocą statystyk współliniowości: współczynnik VIF i współczynnik tole­rancji (Vańance Inflation Factor, tolerance). Jeśli predyktory są skorelowane, możemy zredukować ich liczbę za pomocą analizy czynnikowej lub wykonać modelowa­nie liniowo strukturalne (Structural Eąuation Modeling – SEM), analizę zbliżoną do regresji, a pozwalającą uwzględnić skorelowanie predyktorów w modelu. Zaczniemy od homoscedastyczności, czyli założenia o równej wariancji reszt na różnych pozio­mach zmiennej niezależnej. Następnie przejdziemy do omówienia założeń o nor­malności rozkładu zmiennych i reszt oraz dużej części poświęconej odróżnianiu przypadków odstających od wpływowych. Ich usunięcie pozwala często znorma­lizować rozkład zmiennej, a więc przyczynia się do zmniejszenia wariancji błędu.

HOMOSCEDASTYCZNOŚĆ

Testowanie homoscedastyczności nie jest zbyt proste choć wydaje się być nie­zwykle ważne do określenia adekwatności modelu regresji. Przypomnijmy, co to jest homoscedastyczność. Założenie to dotyczy wariancji, czyli rozprosze­nia reszt – odległości rzeczywistych wyników wokół linii regresji. Zgodnie z nim reszty powinny mieć podobne rozproszenie wokół linii regresji, zarówno dla niskich, jak i wysokich wartości zmiennej niezależnej (z lewej i prawej strony wykresu rozrzutu). Oznacza to, że punkty określające rzeczywiste wyniki osób badanych powinny być podobnie odległe dla różnych poziomów zmiennej nieza­leżnej. Sytuacja, w której dla niskich wartości zmiennej niezależnej punkty leżą bliżej linii regresji (reszty są niewielkie), a dla wysokich wartości zmiennej nie­zależnej oddalają się znacznie od linii (reszty są duże), powinna nas skłaniać do dużej ostrożności w stosowaniu prostej analizy regresji.

BRAK SKORELOWANIA PREDYKTORÓW

Kolejnym założeniem, które warto sprawdzić, jest określenie stopnia korelacji predyktorów wprowadzanych do modelu regresji wielokrotnej.  Zwróćmy uwagę na to, że ten problem występuje wyłącznie w ana­lizie regresji wielokrotnej, gdy liczba predyktorów jest większa niż 1.

(Variance Inflation Factor – VIF).  Jaka wartość tych współczynników świadczy o silnej korelacji mię­dzy predyktorami? Field wskazuje na dwie wartości: niektórzy badacze uważają, że wartości VIF powyżej 10 wskazują na silne powiązania między zmiennymi nieza­leżnymi (Field, 2009), podczas gdy inni konstatują, że problemem jest taki zestaw predyktorów, w którym średnia wartość VIF, statystyki obliczanej dla każdego predyktora oddzielnie, przekracza 2. Podobne kryterium dotyczy współczynnika tole­rancji. Jeśli jej wartość jest niższa niż 0,1 lub – jak podają inne źródła – 0,2, to mamy powody do podejrzewania, że predyktory są skorelowane. Oba współczynniki są toż­same, dlatego że wartość VIF można policzyć, dzieląc 1 przez wartość tolerancji. Skorelowanie predyktorów można sprawdzać za pomocą testu współliniowości VIF oraz współczynnika tolerancji. Gdy VIF przekracza 10, a tolerancja jest mniejsza niż 0,1, oznacza to, że predyktory są istotnie skorelowane, ich współczynniki beta, określające siłę i kierunek związku ze zmienną zależną, mogą być nieprawidłowo szacowane.

Logarytmizacja.

Czy w przypadku rozkładu zmiennych odbiegającego od normalnego nie możemy wykonać analiz? Literatura statystyczna wskazuje, że dość dobrze można sobie radzić z zakłóceniami w wymiarze symetrii pionowej rozkładu (skośnością) gorzej z kurtycznością rozkładu (Bielecki, Bedyńska, 2010; Larose, 2008; Tabachnick, Fidell, 2007). W przypadku gdy uzyskamy skośność zmiennej zależnej lub niezależnej, reko­menduje się dokonanie na danych surowych przekształceń matematycznych, które mogą rozkład znormalizować, zmniejszając jego skośność. Do przekształceń tych należą logarytmizacja, podniesienie do potęgi, funkcja odwrotności. D. Larose (Larose 2008, s. 85) cytuje w swojej książce regułę wypukłości, która choć stoso­wana do redukcji krzywoliniowości w analizie regresji wydaje się mieć też zastoso­wanie przy normalizacji rozkładów zmiennych wprowadzanych do modelu regresji.

Tabachnick i Fidell wskazują na niebezpieczeństwa związane ze stosowaniem przekształceń polegające na tym, że rozkład dodatnio skośny po przekształceniu staje się ujemnie skośny (Tabachnick, Fidell, 2007). Przy małej dodatniej skośności sugerują one podniesienie do kwadratu, przy silniejszej logarytmizację, przy wyraź­nej – funkcję przeciwności (inverse). Gdy rozkład jest ujemnie skośny do każdego wymienionego wyżej przekształcenia, trzeba dodać funkcję odwrotności (reflect). Autorki wskazują również, że korekta skośności jest niezbędna głównie wówczas, gdy tylko część zmiennych charakteryzuje się określoną skośnością. Jeśli skośność nie jest silna i dotyczy wszystkich zmiennych, poprawa wyników analiz po norma­lizacji rozkładów jest zwykle niewielka. Warto także pamiętać, że skośność może wynikać z pojawienia się w zbiorze danych przypadków odstających i ich wyszu­kanie może stać się szansą na poprawienie parametrów rozkładu zmiennych.

  • Prócz wyżej wymienionych przekształceń statystycznych jest również  przekształcenie Coxa Coxa. Coraz częściej jest ono wykorzystywane w psychologii ze względu na fenomenalne właściowości unormalniające rozkład wyników.

Analiza odległości przypadku od grupy pozostałych punktów

Inną grupą statystyk są miary odległości. Opierają się one na innym założeniu niż reszty. Otóż, statystycy zauważyli, że przypadki odstające to często takie, które – co prawda, leżą blisko linii regresji, ale ich odległość od swego rodzaju środka ciężkości pozostałych danych (tzw. centroidy) jest duża. Znacznie lepszą diagnostykę oferują wtedy miary odległości, ponieważ reszty – surowe czy standaryzowane – są w takim przypadku „ślepe i głuche”.

Miarami odległości są:

Założenia analizy regresji liniowej – Odległość Cooka (Cook’s Distance – COO) – jeśli przekracza wartość 1, to przypadek uznajemy za odstający. Daniel Larose przytacza jeszcze kilka bar­dziej specyficznych kryteriów pozwalających na bazie odległości Cooka okre­ślić, czy przypadek jest odstający (Larose, 2008: s. 57).

Założenia analizy regresji liniowej – Wartość wpływu (Leverage LEV) – statystyka ta może przyjmować warto­ści od 0 do 1. Aby określić, czy przypadek jest odstający, należy obliczyć naj­pierw średnią, przeciętną wartość wpływu dla zbioru danych, którym dyspo­nujemy. By to zrobić, musimy skorzystać ze wzoru (k 4- 1) / n, gdzie k to liczba predyktorów w modelu, natomiast n to liczba uczestników badania. Uznajemy przypadek za wpływowy, jeśli jego wartość dwukrotnie albo trzykrotnie prze­kracza obliczoną wcześniej wartość przeciętną.

Założenia analizy regresji liniowej – Odległości Mahalanobisa (Mahalanobis Distance – MAH) – są one powią­zane z wartością wpływu. Mierzą odległość danej obserwacji od średniej ze zmiennych niezależnych. Niestety, istnieje trudność w określeniu punktu odcięcia przypadków wpływowych. Field podaje, że przy próbach o liczebno­ści n = 500 i pięciu predyktorach wartości odległości Mahalanobisa powyżej 25 wskazują, że przypadek jest odstający, przy próbie n = 100 i trzech pre­dyktorach już wartość wynosząca 15 sugeruje pojawienie się takiego przy­padku, a przy małej próbie n = 50 i jednym predyktorze wartość 11 powinna być brana pod uwagę jako wskazująca na poszukiwany przypadek wpływowy (Field, 2009).

Trzecia grupa miar diagnostycznych w analizie regresji to statystyki wpływu.

Pojawiły się one w celu diagnozy takiego układu wyników, w którym przypadek odstający nie dość, że odbiega wartościami od pozostałych obserwacji, to jeszcze znacząco modyfikuje przebieg linii regresji, przesuwając ją w swoim kierunku. Te miary są więc szczególnie czułe na wpływowe przypadki odstające. Znajdziemy kilka statystyk zaprojektowanych na taką sytuację, które znakomicie identyfikują wpływowe przypadki odstające:

Założenia analizy regresji liniowej – Wartości przewidywane skorygowane (Adjusted Predicted Value ADJ) – oblicza nowy model z pominięciem tego konkretnego przypadku i na j podstawie tego nowego modelu oblicza wynik przewidywany dla tej obserwacji. Jeśli obserwacja jest wpływowa, to wynik przewidywany na podstawie modelu z pominięciem tego przypadku będzie znacznie odbiegał od wyniku przewidywanego na podstawie modelu ze wszystkimi obserwacjami. Ta róż­nica między wartością przewidywaną skorygowaną a rzeczywistą wartością przewidywaną jest określana przez statystykę zwaną DfFit.

Założenia analizy regresji liniowej – Reszty usuniętych (Deleted Residual DRE) – wartość odległości między wynikiem rzeczywistym a wartością przewidywaną skorygowaną. Im jest większa, ‚ tym bardziej przypadek wpływa na przebieg regresji..

Założenia analizy regresji liniowej – Reszty studentyzowane usuniętych (Studentized Deleted Residual SDR) – jest to reszta usuniętych, ale podzielona przez odchylenie standardowe, a więc przeliczona na wyniki statystyki t. Ta wartość może być porównywana między różnymi modelami.

DfFit (DFF) i standaryzowane DfFit (SDF) – statystyka DFFit powstaje w wyniku obliczenia różnicy wartości przewidywanej dla danej obserwacji wów­czas, gdy regresja uwzględnia wszystkie obserwacje, oraz w takim przypadku gdy dana obserwacja zostanie wyłączona z obliczeń. Im mniejsza jest wartość DfFIT, tym mniej dany przypadek jest wpływowy. Ponownie jak w przypadku reszt łatwiej poddać interpretacji wartość standaryzowaną tego współczynnika. Założenia analizy regresji liniowej.

DfBety (DFB) i standaryzowane DfBety (SFB) – statystyki te to różnica między parametrami modelu regresji z uwzględnieniem danego przypadku (dla wszystkich danych) i jeśli ten przypadek usuniemy. Program szacuje parametry modelu regresji (współczynnik nachylenia) dla wszystkich obserwacji, a następnie usuwa pierwszą obserwację i wylicza model dla pozostałych. Różnicę między parametrami podaje w postaci statystyki dfBeta dla każdej obserwacji. Im większa jest wartość dfBeta, tym większa różnica między modelem dla wszystkich obserwacji a tym po usunięciu danego przypadku. Tak więc im większa wartość dfBeta, tym bardziej przypadek ujawnia, na jakie osoby danych efekt działa. Nie wyjaśnia więc, dlaczego jakieś zjawisko działa, ale w jakich warunkach. Znajomość mediatorów przyczynia się do określenia moderatorów zjawiska, ale niestety znajomość moderatorów nie zawsze wskazuje trop w poszukiwaniu mediatorów. Typowym moderato­rem jest płeć, niemniej rzadko wskazuje ona na to, jaki może być mechanizm zjawisk psychologicznych, bo płeć różnicuje niezliczone właściwości psychiczne i wybór byłby trudny. Założenia analizy regresji liniowej