problemy klasyfikacyjne

Propensity score matching – Statystyczny wpływ netto zmiennej niezależnej na zmienną zależną.

meto1

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Metoda PSM to perfekcyjny przykład poznawania prawdziwych źródeł zmienności!

Propensity score matching – Statystyczny wpływ netto.

Czyli jak do obserwacji z grupy eksperymentalnej wybrać obserwacje podobne, ale jednocześnie będące grupą odniesienia ? Jak uzyskać czysty wpływ zmiennej niezależnej na zmienną zależną.

Propensity Score Matching to procedura polegająca na statystycznym utworzeniu podobieństwa między grupą kontrolną i eksperymentalną pod względem zmiennych balansujących. Pierwszy krok tej procedury polega na utworzeniu wektora balansującego wskazującego prawdopodobieństwo przynależności do grupy kontrolnej i eksperymentalnej (zazwyczaj wykonuje się to dzięki oszacowaniom regresji logistycznej). Drugi krok polega tym aby przyporządkować obserwacje podobne do siebie pod względem wartości wektora balansującego. Najczęściej przyporządkowuje się obserwacje z grupy eksperymentalnej do grupy kontrolnej za pośrednictwem metody najbliższego sąsiada. Metoda ta pozwala na przyporządkowania obserwacji z grupy eksperymentalnej do osoby z grupy kontrolnej pod względem bliskości wartości wektora balansującego. Do wykonania tej procedury można wykorzystać popularny pakiet „MatchIt” z repozytorium CRAN [1] w programie R.

[1] https://cran.r-project.org/web/packages/MatchIt/index.html


Procedura PSM jest pewnego rodzaju połączeniem statystycznej analizy danych z pewną logiką metodologiczną. O co chodzi ? W metodzie tej chodzi o to aby obserwacje w grupie eksperymentalnej były podobne do osób z grupy kontrolnej pod względem cech, które są powiązane ze zmienną niezależną oraz zmienną zależną. Chodzi o wyrównanie różnic pomiędzy grupami.


Wyobraźmy sobie sytuację kiedy badamy wpływ cukrzycy na czas trwania życia (  np. analizą przeżycia/survival analysis lub porównywaniem krzywych na wykresie Kaplana Mayera ). Kiedy zanalizujemy statystycznie ten wpływ może się okazać, że skracający życie czynnik jakim jest cukrzyca może tylko pozornie wpływać na śmiertelność. Może być tak, że grupa eksperymentalna (cukrzyków) jest inna pod względem wielu cech oraz jest inaczej traktowana w procesie długofalowego leczenia niż grupa kontrolna (zdrowych ludzi) *Niestety ze względów etycznych nie możemy losowo wybierać obserwacji i wywoływać w jednej grupie cukrzycy a w drugiej nie. Losowy dobór do grup badawczych jest oczywiście uczciwy i jak najbardziej pożądany. Wywołanie cukrzycy już takie nie jest. Niemniej jednak jest coś co możemy zrobić. Możemy wykorzystać metodę PSM. Czyli wybrać grupę kontrolną, która pod względem wielu czynników będzie podobna do grupy eksperymentalnej. Jak to zrobić ? W przypadku kiedy sytuacja wygląda na taką w której mamy 2 grupy badawcze możemy użyć regresji logistycznej ( dla problemów w których jest większa ilość grup eksperymentalnych można zastosować inne statystyczne metody klasyfikacyjne). Jako zmienne wejściowe wybieramy czynniki, które są powiązane z cukrzycą  oraz z przedwczesnymi zgonami, które chcemy wyjaśnić wpływem cukrzycy. Ów cukrzyca na potrzeby analizy regresji logistycznej jest naszą zmienną zależną ( ale tylko na chwilę). Dzięki regresji logistycznej uzyskujemy przewidywane prawdopodobieństwo przynależenia obserwacji do danej grupy ( cukrzyca – zdrowy ). Dzięki temu powiedzmy, że uzyskujemy wektor balansujący obie grupy. Jak to ? Każdy uzyskany wynik w grupie kontrolnej i eksperymentalnej możemy interpretować jako pewnego rodzaju poziom podobieństwa względnego. Dzięki takiemu zabiegowi uzyskujemy wartości identyfikacyjne na podstawie których możemy wyodrębnić jednostki w grupie kontrolnej i eksperymentalnej podobne do siebie pod względem wcześniej wyodrębnionych cech. Takie dopasowanie najlepiej wykonać analizą skupień metodą najbliższego sąsiada. Dzięki takiemu zabiegowi dobieramy do grupy eksperymentalnej bardzo podobne osoby  z grupy kontrolnej. Obie grupy są do siebie podobne pod względem różnych cech np. BMI, płci, grupy krwi, wieku, parametru Logistic Euroscore, rodzaju leczenia, ilości odbytych operacji lub hospitalizacji. Gdybyśmy planowali dobór osób do grupy kontrolnej szansa na dopasowanie do grupy eksperymentalnej osób podobnych była by prawie niemożliwa.

Koniec końców w przypadku kiedy mamy wybalansowane różnice pomiędzy grupami pod względem cech, które są powiązane z cukrzycą i zgonami możemy określić wpływ netto cukrzycy na śmiertelność.


Przyszłość tej metody.

Metoda propensity score matching zdobywa coraz większą popularność i jest coraz częściej wymagana przy projektach badań ilościowych w których losowy dobór jednostek do badania, a następnie do grup badawczych jest niemożliwy. Można powiedzieć, że metoda propensity score matching może się stać standardem przy badaniach, tak jak podwójna randomizacja w badaniach eksperymentalnych.


Etapy procedury Propensity score matching.

– znalezienie zmiennych powiązanych ze zmienną nieznależną i zależną

– zbudowanie wektora balansującego ( np. użycie do tego regresji logistycznej, naiwnego klasyfikatora Bayesa, analizy dyskryminacyjnej lub sieci neuronowej )

– dokonnać powiązania (matchingu) obserwacji z grupy eksperymentalnej i kontrolnej przy użyciu wektora balansującego ( najlepiej użyć do tego algorytmu KNN – analizy skupień najbliższego sąsiada )

– porównać różnice pomiędzy grupą kontrolną a eksperymentalną pod względem cech budujących wektor balancujący przed i po procedurze propensity score matching

– zweryfikować różnice statystyczne netto pomiędzy wybalansowanymi grupami  (zmienną niezależną) pod względem interesującej nas zmiennej zależnej


Jak ocenić skuteczność wykonanych kroków ?

– w pierwszym etapie (przed matchingiem) analizy statystycznej powinny być wyraźne różnice pomiędzy grupami pod względem czynników budujących wektor balansujący

– obie grupy po zbudowaniu wektora balansującego powinny różnić się pod względem jego wyniku

– po dopasowaniu (matchingu) różnice istotne statystycznie pod względem czynników budujących wektor balansujący powinny zniknąć

– istotna statystycznie różnica między grupami (zmienną niezależną) pod względem wektora balansującego powinna zniknąć


Jak ocenić wpływ netto zmiennej niezależnej na zmienną zależną ?

Po procedurze propensity score matching przeprowadzamy analizę statystyczną, która ma zakwestionować losowość wyników np. test t Studenta lub analizę wariancji. W naszym przypadku była to analiza Log – Rank (Logarytmicznych Rang). Zmienną niezależną była zmienna  cukrzyca lub jej brak, a zmienną zależną był czas życia po operacji.


Gdzie procedura propensity score matching może mieć zastosowanie ?

Najczęściej procedura ta może mieć zastosowanie w badaniach ewaluacyjnych przy interwencjach społecznych (np. w Projekcie Alternatywa II), w projektach badawczych przy, których manipulowanie zmienną niezależną jest nieetyczne lub niemożliwe. W badaniach w których nie można stworzyć grupy kontrolnej ze względu na koszt badań lub brak możliwości znalezienia jednostek podobnych do grupy eksperymentalnej.

Autorem tekstu jest Konrad Hryniewicz.