Hierarchiczne modele liniowe. Wielopoziomowa analiza regresji Metodolog

Wielopoziomowa analiza regresji jako model hierarchiczny.


Jaka jest ich przewaga nad klasycznymi modelami i w jakich warunkach mają one najlepsze właściwości estymacji wyników?


W tym wpisie wprowadzimy do ogólnej charakterystyki wielopoziomowego modelu liniowego, czyli analizy statystycznej używanej w przypadku kiedy założenie o niezależności obserwacji od siebie jest złamane lub zachodzi duża szansa, że będzie ono naruszone. W pierwszym etapie przedstawimy metodologiczne argumenty za stosowaniem tej metody, a w drugim pokażemy podstawowe pojęcia leżące u podstaw modeli hierarchicznych regresji, czyli wielopoziomowy schemat pomiarów i ich interakcje, efekty stałe, losowe oraz składniki wariancji.

Z metodologicznej perspektywy niezależność obserwacji jest jednym z najważniejszych założeń analizy regresji. Założenie to polega na tym, że wynik pomiaru zmiennej u danej obserwacji jest niezależny od wyniku pomiaru zmiennej u innej obserwacji. Warunki w których może pojawić się zależność obserwacji od siebie możemy ukazać w trzech kategoriach zdarzeń. Współzależność może pojawiać ze względu na:

  • systematyczne zmiany w czasie (np. mało sumienni obywatele wypełniają zeznanie podatkowe w dzień obowiązku oddania deklaracji)
  • zależność powtórzonego pomiaru – występuje w kontekście wielokrotnego pomiaru tej samej obserwacji w czasie
  • badanie podobnych do siebie grup obserwacji np. klasy szkolne

Problemy z zależnością jednostek badanych pojawiają się w kilku grupach sytuacji. Niektóre nie podlegają kontroli eksperymentalnej, ale większość z nich doczekało się rozwiązania jakim jest wielopoziomowa analiza danych modelem hierarchicznym regresji liniowej. Głównie modele wielopoziomowej regresji są stosowane w eliminowaniu zakłócających efektów analizy danych w grupach, ale z pewnymi zmianami metoda ta jest doskonała do analizy efektów powtarzanych pomiarów.

 

Hierarchiczny model liniowy (HLM) = wielopoziomowa analiza regresji

W przypadku metody najmniejszych kwadratów przy liniowej analizie regresji jest kilka metod do analizowania obserwacji zgrupowanych.

Pierwszą metodą jest analiza polegająca na pominięciu tego faktu, że dane układają się grupy/klastry i podejmuje się działania oparte na analizie danych metodą „jak leci” lub „walcem”. Druga metoda to agregowanie danych z grup i traktowanie grup jako jednostek pomiaru. W ten sposób otrzymujemy średnie wartości zmiennych niezależnych i zależnych w grupach (często taka praktyka prowadzi do błędnych w rzeczywistości wniosków). Chcąc podejść do analizy w sposób rasowy można pominąć te procedury i użyć do analizy metod hierarchicznych.

Korelacja wewnątrzklasowa.

W zwykłej analizie regresji zależność obserwacji wiąże się z zaniżeniem błędów standardowych współczynników regresji przez co przedziały ufności dla estymatorów są bliższe siebie. Wpływa to na zwiększone oszacowania testów istotności statystycznej. Im bardziej zależne obserwacje bym większa szansa na pozostanie przy hipotezie zerowej w przypadku kiedy jest ona fałszywa (jest to tzw. zjawisko inflacji wariancji). Ocenę zgrupowania danych oddaje współczynniki ICC (współczynnik korelacji wewnątrzklasowej ang. intraclass corealation coefficient). Miara ICC jest informacją o tym na ile do siebie podobni są członkowie grupy (współczynnik przyjmuje wartości między 0 (całkowity brak podobieństwa) do 1 (całkowite podobieństwo) [ICC=wariancja międzyobiektowa/wariancja całkowita] Warto sprawdzać ten współczynnik już na poziomie wstępnych obliczeń by podjąć decyzję o właściwej analizie statystycznej wyników badania. Niemniej w przypadku posiadania hierarchicznej struktury danych, bez głębszego zastanawiania się powinno stosować się wielopoziomowy model analizy danych.

Model efektów losowych, czyli wielopoziomowy charakter losowych współczynników regresji.

Wielopoziomowy model efektów losowych jest o wiele bardziej zaawansowanym modelem niż liniowy model regresji oparty o klasyczną metodę najmniejszych kwadratów. Wielopoziomowy charakter analizy regresji kontroluje strukturę grupową danych oraz pojedynczy, a zarazem grupowy związek pomiędzy zmiennymi. W wielopoziomowym modelu analizy regresji mamy do czynienia z różnymi typami równań regresji:

  • model efektów stałych
  • model efektów losowych
  • model efektów mieszanych

 

Masz kłopot z interpretacją wyników analizy statystycznej modeli mieszanych? Zapraszamy do kontaktu.