Informacje o statystycznej analizie przeżycia. Techniki obliczeniowe w biostatystyce.

meto

Analiza przeżycia

Informacje ogólne

Te techniki były pierwotnie rozwijane w medycznych i biologicznych badaniach (biostatystyka), ale mają też szerokie zastosowanie w naukach społecznych i ekonomicznych, tak samo jak w inżynierii (rzetelność i analiza przeżycia).

Wyobraź sobie, że jesteś badaczem w szpitalu, który sprawdza efektywność nowego leku na nieuleczalną chorobę. Główną interesującą nas zmienną jest liczba dni, którą przeżyją poszczególni pacjenci. Zasadniczo, można użyć standardowej parametrycznej i nieparametrycznej statystyki by opisać przeciętną długość przetrwania, i aby porównać nowy lek z poprzednimi metodami. Jednakże, na koniec badania, znajdą się pacjenci którzy przetrwali przez cały okres, szczególnie pośród tych, których przyjęto do szpitala (i projektu badawczego) w późnym momencie badania; będą też pacjenci z którymi stracimy kontakt. Zapewne nikt nie będzie chciał ich wykluczyć z badania uznając ich za brak danych (jako, że większość z nich przetrwała i dlatego są odzwierciedleniem sukcesu nowej metody badawczej). Te obserwacje, które zawierają jedynie częściowe informacje nazywa się obserwacjami uciętymi (np. „pacjent A przetrwał przynajmniej 4 miesiące zanim go przeniesiono i straciliśmy z nim kontakt”, określenie ucinania zostało po raz pierwszy użyte przez Halda w 1949).

Obserwacje ucięte

Generalnie, obserwacje ucięte pojawiają się gdy nasza zmienna zależna reprezentuje czas do śmierci klinicznej, i kiedy czas trwania badania jest ograniczony. Obserwacje ucięte mogą w różnych obszarach badania. Na przykład, w badaniach społecznych można sprawdzać „przeżywalność” małżeństw, oceny w momencie bycia wyrzucanym ze szkoły, zwolnienia w korporacjach itd. W każdym przypadku, pod koniec badania, niektóre pary pozostaną małżeństwem, niektórzy nie zostaną wyrzuceni ze szkoły, albo będą ciągle pracować w korporacji; zatem te przypadki są reprezentowane przez obserwacje ucięte.

W ekonomii można zbadać „przeżywalność” nowych biznesów albo okres używalności produktów takich jak pojazdy. W badaniu kontroli jakości, częstą praktyką jest sprawdzanie żywotności części pod obciążeniami (analiza żywotności)

Techniki analityczne

Głównie, metody oferowane przez Analizę przetrwania dotykają tych samych pytań badawczych co wiele innych procedur; jednakże, wszystkie metody a Analizie przetrwania poradzą sobie z obserwacjami uciętymi. Tablice trwania życia, rozkład przeżycia, estymacja funkcji przeżycia to wszystko opisowe metody by oszacować rozkład przeżycia czasów z próbki. Niektóre techniki są zdolne do porównywania przeżywalności w dwóch lub więcej grupach. W końcu, analiza przeżycia oferuje kilka modeli regresji by oszacować związek zmiennych ciągłych z czasami przeżycia.

Tablice trwania życia

Najbardziej bezpośrednim sposobem by opisać przeżywalność w próbce jest obliczenie tablic trwania życia. Jest to jedna ze starszych metod służących do analizy przeżywalności danych. Ta tablica może być uważana za „poszerzony” rozkład częstości. Rozkład czasów przeżycia jest podzielony na pewną liczbę przedziałów. Na każdy przedział możemy obliczyć liczbę i proporcję przypadków albo obiektów, które weszły w poszczególny przedział „żywe”, liczbę i proporcje przypadków, które zniszczyły się w poszczególnym przedziale (np. liczba zdarzeń krańcowych, albo przypadków, które „zmarły”), i liczbę przypadków, które zaginęły albo zostały ucięte w poszczególnym interwale.

Bazując na tych liczbach i proporcjach, można obliczyć kilka dodatkowych statystyk:

Liczba przypadków ryzyka – jest to liczba przypadków, które mieszczą się w poszczególnym przedziale żywych, odjąć połowę przypadków straconych lub uciętych w poszczególnym przedziale.

Proporcja porażek – ta proporcja jest wyliczana jako stosunek liczby przypadków zniszczonych w poszczególnym przedziale, dzielonych przez liczbę przypadków ryzyka w tym przedziale.

Proporcja przeżyć – ta proporcja jest liczona jako 1 odjąć proporcję porażek

Łączna proporcja przetrwania (funkcja przeżycia) – jest to łączna proporcja przypadków potrafiących przeżyć aż do odpowiedniego przedziału. Jako że prawdopodobieństwa przetrwania są przypuszczalnie niezależne pomiędzy przedziałami, to prawdopodobieństwo jest wyliczane przez dzielenie prawdopodobieństw pomiędzy wszystkimi poprzednimi przedziałami. Powstająca funkcja jest także zwana przeżywalnością lub funkcją przeżycia.

Prawdopodobieństwo zawartości – jest to oszacowane prawdopodobieństwo porażki w poszczególnym przedziale, obliczone w jednostce czasu, czyli:

Fi = (Pi-Pi+1) /hi

W tym wzorze, Fi jest danym prawdopodobieństwem zawartości w przedziale i, Pi jest oszacowaną łączną proporcją przeżycia na początku przedziału i (na końcu przedziału i-1), Pi+1 jest łączną proporcją przeżycia na końcu przedziału i, a hi jest szerokością danego przedziału.

Stawka ryzyka – stawka ryzyka jest definiowana prawdopodobieństwo w jednostce czasu, że przypadek, który przeżył do początku danego przedziału zginą w tym przedziale. Dokładniej rzecz biorąc, jest wyliczane jako liczba zniszczonych w jednostkach czasu w danym przedziale, podzielona przez średnią liczbę żyjących przypadków w środku przedziału.

Średni czas przeżycia – jest to czas przeżycia, w którym łączna funkcja przeżycia wynosi 0,5. Inne percentyle (25, 75) z łącznej funkcji przeżycia mogą być obliczane równolegle. Zauważ, że percentyl 50 (średni) dla łącznej funkcji przeżycia zwykle nie jest taki sam jak punkt w czasie gdzie przeżywa 50% próbki (tak byłoby tylko w przypadku gdzie nie wystąpiłyby obserwacje ucięte).

Wymagana wielkość próbki – aby polegać na wiarygodnych oszacowaniach z tych 3 najważniejszych funkcji (przeżywalność, prawdopodobieństwo zawartości i ryzyko) i ich typowe błędy za każdym razem minimalna rekomendowana wielkość próbki wynosi 30.

Więcej na:
Analiza przeżycia. Praktyczne zastosowanie.
Analiza przeżycia. Survival Analysis.
Biostatystyka. Statystyczna analiza danych w naukach medycznych.

Analiza regresji logistycznej.

100 powodów dla których nie warto umieć analizy statystycznej w medycynie i naukach społecznych.

Metodologie kliniczno medyczne. Propensity Score Matching – Biostatystyczna nowość.

Analiza ryzyka na przykładzie Ryzyka Bankowego/Kredytowego