Wielopoziomowa analiza regresji jako model hierarchiczny.

Jaka jest jej przewaga nad klasycznymi modelami i w jakich warunkach ma ona najlepsze właściwości estymacji wyników?

W tym wpisie wprowadzimy do ogólnej charakterystyki wielopoziomowego modelu liniowego, czyli analizy statystycznej używanej w przypadku kiedy założenie o niezależności obserwacji od siebie jest złamane lub zachodzi duża szansa, że będzie ono naruszone. W pierwszym etapie przedstawimy metodologiczne argumenty za stosowaniem tej metody, a w drugim pokażemy kiedy ją stosować oraz omówimy podstawowe pojęcia leżące u podstaw hierarchicznych modeli regresji: wielopoziomowy schemat pomiarów i ich interakcje, efekty stałe, losowe oraz składniki wariancji.

Kiedy stosować analizę wielopoziomową?

Z metodologicznej perspektywy niezależność obserwacji jest jednym z najważniejszych założeń wnioskowania o relacjach między zmiennymi. Założenie to polega na tym, że wynik pomiaru zmiennej u danej obserwacji jest niezależny od wyniku pomiaru zmiennej u innej obserwacji. Taka współzależność może pojawiać ze względu na:

systematyczne zmiany w czasie u tej samej obserwacji badanej
zależność powtórzonego pomiaru – występuje w kontekście wielokrotnego pomiaru tej samej obserwacji w czasie
badanie podobnych do siebie grup obserwacji np. klasy szkolne, grupy pracowników, pomiary około dobowe u tej samej osoby, wywiady dzienniczkowe
badanie hierarchicznych struktur np. struktur w których uczniowe zagnieżdżeni są w klasach, klasy zagnieżdżone w szkołach, szkoły w rejonach itd.

Problemy z zależnością jednostek badanych pojawiają się w kilku grupach sytuacji. Niektóre nie podlegają kontroli eksperymentalnej i statystycznej i na szczęście doczekały się one rozwiązania jakim jest wielopoziomowa analiza danych modelem hierarchicznym regresji liniowej/nieliniowej. Wielopoziomowe analizy regresji są stosowane w eliminowaniu zakłócających efektów analizy danych w grupach i hierarchicznych strukturach, a także z pewnymi zmianami, metoda ta jest doskonała do analizy efektów powtarzanych pomiarów w czasie lub obszarze.

Hierarchiczny model liniowy (HLM – Hierarchical Linear Modeling)

Analizę wielopoziomową wykorzystuje się w badaniu obserwacji zagnieżdżonych w grupach/klastarach/wewnątrz osób i miedzy osobami. Są różne metody analizy takich danych. Pierwszą metodą jest analiza polegająca na pominięciu tego faktu, że dane układają się grupy/klastry i podejmuje się działania oparte na analizie danych metodą „jak leci” lub „walcem”. Druga metoda to agregowanie danych z grup i traktowanie grup również jako jednostek pomiaru. W ten sposób otrzymujemy średnie wartości zmiennych niezależnych i zależnych w grupach. Chcąc podejść do analizy w sposób rasowy można pominąć te procedury i użyć do analizy metody wielopoziomowej. Jest to metoda statystyczna która weryfikuje hipotezę o wpływie czynników wyższego rzędu (predyktorów grupowych) na pomiary i reklacje niższego rzędu (relacje rozpatrywane na niższym poziomie analizy).

Korelacja wewnątrzklasowa – Współczynnik ICC jako statystyczne kryterium decydujące o zastosowaniu analizy wielopoziomowej

Ocenę zgrupowania danych zwracją współczynniki ICC (współczynnik korelacji wewnątrzklasowej ang. intraclass corealation coefficient). Miara ICC podaje informację o tym na ile do siebie podobni są członkowie grupy (współczynnik przyjmuje wartości między 0 (całkowity brak podobieństwa) do 1 (całkowite podobieństwo) [ICC=wariancja międzyobiektowa/wariancja całkowita modelu zerowego]. Warto sprawdzać ten współczynnik już na poziomie wstępnych obliczeń, by podjąć decyzję o właściwej analizie statystycznej wyników badania. Niemniej w przypadku posiadania hierarchicznej struktury danych, bez głębszego zastanawiania się powinno stosować się analizę wielopoziomową. Warto wyliczać ten współczynnik już na poziomie analizy zerowego w którym testuje się wariancję zmiennej zależnej (ang. random intercept effect).

Model efektów losowych, stałych i model mieszany. Jak oszacować wielopoziomowy charakter relacji między zmiennymi.

Wielopoziomowy model regresji hierarchicznej jest o wiele bardziej zaawansowanym modelem niż liniowy model regresji oparty o klasyczną metodę najmniejszych kwadratów. Wielopoziomowy charakter analizy regresji kontroluje jednocześnie strukturę grupową danych oraz relacje pomiędzy zmiennymi na niższym poziomie analizy. Zazwyczaj w modelu regresji wielopoziomowej dąży się do wyjaśnienia relacji na niższych poziomach predyktorami z wyższego poziomu (interakcja wielopoziomowa/między poziomowa), choć nie jest to zawsze cel tej analizy. Ciekawe są po prostu obserwacje zależności między zmiennymi uwzględniające grupową strukturę danych)

W wielopoziomowym modelu analizy regresji mamy do czynienia z różnymi typami współczynników, oszacowań i przekształceń, które mogą być osadzone równaniu regresji wielopoziomowej, które są poszczególnymi elementami równania.

model efektów stałych interceptów (stały poziom interceptów we wszystkich grupach)
model efektów losowych interceptów (losowy poziom interceptów we wszystkich grupach)
model efektów stałych linii regresji (stałe nachylenie linii regresji we wszystkich grupach)
model efektów losowych nachyleń linii regresji (losowe nachylenia linii regresji w grupach)
model interakcji wielopoziomowej (czynniki poziomu 2 wpływają na wyniki poziomu 1)
wariancja błędu na poziomie losowych interceptów
modem mieszany interceptów i nachyleń lini regresji (różna specyfikacja komponentów wariancyjnych)
korelacje między komponetntami losowymi
model between (model różnic między między obserwacjami)
model within (model różnic wewnątrz osobniczych)

Najczęściej wykorzystywane programy do analizy danych o strukturze wielopoziomowej to SPSS (Heck, Thomas, & Tabata, 2010; Mayers, 2013), makro do SPSS pozwalające na wielopoziomową analizę mediacji (Hayes & Rockwood, 2020). Modelowanie równań strukturalnych w M PLUS pozwala na bardzo zaawansowane modelowanie ścieżkowe wewnątrz grup i pomiędzy grupami (Byrne, 2012). Bardzo popularnym oprogramowaniem jest również program HLM, a najlepszym narzędziem do analizy takich danych jest oczywiscie R i pakiet „lme4”, „multilevel”, a także programy do wielopziomowego modelowania równań strukturalnych „lavaan” (choć nie najlepszy) oraz „xxM” (bardzo zaawansowany).

Masz kłopot z przeprowadzeniem lub interpretacją wyników analizy statystycznej modeli wielopziomowych? Zapraszamy do kontaktu.

Bibliografia:

Byrne, B. M. (2012). Structural Equation Modeling with M plus.

Hayes, A. F., & Rockwood, N. J. (2020). Conditional Process Analysis: Concepts, Computation, and Advances in the Modeling of the Contingencies of Mechanisms. American Behavioral Scientist, 64(1), 19–54. https://doi.org/10.1177/0002764219859633

Heck, H. R., Thomas, L. S., & Tabata, L. N. (2010). Multilevel and Longitudinal Modeling with IBM SPSS (G. A. Marcoulides, ed.). New York: Routledge.

Mayers, A. (2013). Introduction do Statistics and SPSS in Psychology (1st ed.). London: PEARSON EDUCATION LIMITED.

Blog naukowy

Hierarchiczne modele liniowe. Wielopoziomowa analiza regresji Metodolog.pl