Analiza przeżycia- co to jest i jak się tego używa?

Analiza przeżycia (ang. survival analysis) jest zbiorem metod zajmujących się badaniem czasu do zajścia zdarzenia (ang. time to event).

Metody te mają zastosowanie w różnych naukach i dziedzinach życia m.in. w ekonomii, medycynie, biologii, inżynierii a nawet socjologii. Ze względu na szerokie zastosowanie w statystyce medycznej występuje wiele różnych definicji zdarzenia. Terminem tym może być określana śmierć pacjenta, czas działania urządzenia lub na przykład czas odejścia pracownika z pracy. Poza badaniem czasu zajścia zdarzenia analiza przeżycia pozwala też na obliczenie prawdopodobieństwa przeżycia, czasu pomiędzy kolejnymi zdarzeniami czy też średniego czasu przeżycia dla jednostek, które przeżyły już do pewnego momentu. Głównym fundamentem analizy przeżycia jest teoria rachunku prawdopodobieństwa i statystyka.

Dużym problemem w wyznaczaniu czasu przeżycia jest występowanie danych cenzurowanych lub uciętych. Cenzurowane są takie obserwacje, dla których zdarzenie miało miejsce przed lub po czasie obserwacji (ale nie wiadomo dokładnie kiedy), nazywane są one odpowiednio danymi cenzurowanymi lewostronnie i prawostronnie.

uciete

Przykłady danych uciętych w analizie przeżycia

Dane ucięte występują w trzech wariantach: dane ucięte lewostronnie, prawostronnie oraz dwustronnie. Załóżmy, że rozpatrujemy osoby chore na raka, a interesującym nas zdarzeniem jest śmierć z powodu tej choroby. Lewostronne ucięcie występuje gdy dany osobnik został dołączony do badania już w czasie jego trwania (pacjent B). Prawostronne ucięcie występuje gdy pacjent odszedł z badania przed jego końcem z przyczyn innych niż rozpatrywane przez nas zdarzenie (pacjent C). Przyczyny wykluczenia z badania mogą być różne, pacjent mógł wyjechać, przestać chodzić do lekarza lub umrzeć z miłości co nie było zdarzeniem przez nas pożądanym J. Ucięcie dwustronne ma miejsce oczywiście dla pacjentów, którzy dołączyli do badania w trakcie jego trwania oraz opuścili grupę badawczą z przyczyn innych niż śmierć na raka (pacjent A).

W analizie przeżycia zmienną zależną może być albo czas zajścia zdarzenia albo status obserwacji w danym czasie (np. żyje, nie żyje). Zmienne te mogą być szacowane za pomocą dwóch funkcji zależnych od czasu: funkcja przeżycia i funkcja hazardu. Funkcje te są kluczowymi pojęciami w analizie przeżycia opisującymi rozkład czasu zdarzeń. Funkcja przeżycia jest rozumiana jako prawdopodobieństwo, że dana osoba przeżyje przynajmniej do ustalonego czasu t i opisana jest wzorem

S(t)=P[T>t]=1-F(t)

gdzie  F(t)=P[<t] jest dystrybuantą rozumianą jako prawdopodobieństwo tego, że osoba umrze przed czasem t. Funkcja hazardu natomiast opisuje prawdopodobieństwo, że w danej jednostce czasu dojdzie do zdarzenia i jest dana wzorem

wzorek

który oznacza, że dla małego (bliskiego 0) przedziału czasu  obliczane jest prawdopodobieństwo, że dana osoba umrze w przedziale czasu  (t,t+gt)pod warunkiem, że przeżyła ona do czasu t.

Do estymacji funkcji w analizie przeżycia i funkcji hazardu stosuje się zarówno metody parametryczne jak i nieparametryczne. Metody parametryczne zakładają, że ogólny rozkład czasu przeżycia może być dany jednym ze znanych rozkładów prawdopodobieństwo, w praktyce najczęściej używa się rozkładu wykładniczego, Weibulla, Gompertza i log-logistycznego. Parametry w takich modelach są zazwyczaj szacowane za pomocą odpowiedniej modyfikacji funkcji największej wiarygodności.

Do obliczenia funkcji analizy przeżycia za pomocą metod nieparametrycznych  najczęściej stosowaną i najszerzej znaną metodą jest estymator Kaplana- Meiera. Służy on nie tylko do szacowania prawdopodobieństwa przeżycia i przedstawienia go w formie graficznej, ale też do porównywania dwóch lub więcej grup badanych (np. dwie grupy stosujące różne leki, albo różnice między kobietami i mężczyznami).

Inną często używaną metodą w analizie przeżycia jest model analizy przeżycia proporcjonalnego hazardu Cox’a, który jest modelem semiparametrycznym. Metoda ta pozwala na zbudowanie modelu przeżycia z kilkoma predyktorami oraz na oszacowanie, które zmienne wpływają na zwiększenie się ryzyka zajścia zdarzenia.

Więcej o statystycznej analizie danych w naukach medycznych:

Statystyczna analiza w medycynie

Statystyczna analiza danych w pedagogice gdańsk warszawa wrocław kraków poznań

Obserwacje ucięte w analizie przeżycia

Analiza Przeżycia – Survival Analysis