analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

statystyczna analiza przeżycia kaplana mayera krzywe życia analiza danych medycznych

Informacje o statystycznej analizie przeżycia. Techniki obliczeniowe w biostatystyce.

meto

Analiza przeżycia

Informacje ogólne

Te techniki były pierwotnie rozwijane w medycznych i biologicznych badaniach (biostatystyka), ale mają też szerokie zastosowanie w naukach społecznych i ekonomicznych, tak samo jak w inżynierii (rzetelność i analiza przeżycia).

Wyobraź sobie, że jesteś badaczem w szpitalu, który sprawdza efektywność nowego leku na nieuleczalną chorobę. Główną interesującą nas zmienną jest liczba dni, którą przeżyją poszczególni pacjenci. Zasadniczo, można użyć standardowej parametrycznej i nieparametrycznej statystyki by opisać przeciętną długość przetrwania, i aby porównać nowy lek z poprzednimi metodami. Jednakże, na koniec badania, znajdą się pacjenci którzy przetrwali przez cały okres, szczególnie pośród tych, których przyjęto do szpitala (i projektu badawczego) w późnym momencie badania; będą też pacjenci z którymi stracimy kontakt. Zapewne nikt nie będzie chciał ich wykluczyć z badania uznając ich za brak danych (jako, że większość z nich przetrwała i dlatego są odzwierciedleniem sukcesu nowej metody badawczej). Te obserwacje, które zawierają jedynie częściowe informacje nazywa się obserwacjami uciętymi (np. „pacjent A przetrwał przynajmniej 4 miesiące zanim go przeniesiono i straciliśmy z nim kontakt”, określenie ucinania zostało po raz pierwszy użyte przez Halda w 1949).

Obserwacje ucięte

Generalnie, obserwacje ucięte pojawiają się gdy nasza zmienna zależna reprezentuje czas do śmierci klinicznej, i kiedy czas trwania badania jest ograniczony. Obserwacje ucięte mogą w różnych obszarach badania. Na przykład, w badaniach społecznych można sprawdzać „przeżywalność” małżeństw, oceny w momencie bycia wyrzucanym ze szkoły, zwolnienia w korporacjach itd. W każdym przypadku, pod koniec badania, niektóre pary pozostaną małżeństwem, niektórzy nie zostaną wyrzuceni ze szkoły, albo będą ciągle pracować w korporacji; zatem te przypadki są reprezentowane przez obserwacje ucięte.

W ekonomii można zbadać „przeżywalność” nowych biznesów albo okres używalności produktów takich jak pojazdy. W badaniu kontroli jakości, częstą praktyką jest sprawdzanie żywotności części pod obciążeniami (analiza żywotności)

Techniki analityczne

Głównie, metody oferowane przez Analizę przetrwania dotykają tych samych pytań badawczych co wiele innych procedur; jednakże, wszystkie metody a Analizie przetrwania poradzą sobie z obserwacjami uciętymi. Tablice trwania życia, rozkład przeżycia, estymacja funkcji przeżycia to wszystko opisowe metody by oszacować rozkład przeżycia czasów z próbki. Niektóre techniki są zdolne do porównywania przeżywalności w dwóch lub więcej grupach. W końcu, analiza przeżycia oferuje kilka modeli regresji by oszacować związek zmiennych ciągłych z czasami przeżycia.

Tablice trwania życia

Najbardziej bezpośrednim sposobem by opisać przeżywalność w próbce jest obliczenie tablic trwania życia. Jest to jedna ze starszych metod służących do analizy przeżywalności danych. Ta tablica może być uważana za „poszerzony” rozkład częstości. Rozkład czasów przeżycia jest podzielony na pewną liczbę przedziałów. Na każdy przedział możemy obliczyć liczbę i proporcję przypadków albo obiektów, które weszły w poszczególny przedział „żywe”, liczbę i proporcje przypadków, które zniszczyły się w poszczególnym przedziale (np. liczba zdarzeń krańcowych, albo przypadków, które „zmarły”), i liczbę przypadków, które zaginęły albo zostały ucięte w poszczególnym interwale.

Bazując na tych liczbach i proporcjach, można obliczyć kilka dodatkowych statystyk:

Liczba przypadków ryzyka – jest to liczba przypadków, które mieszczą się w poszczególnym przedziale żywych, odjąć połowę przypadków straconych lub uciętych w poszczególnym przedziale.

Proporcja porażek – ta proporcja jest wyliczana jako stosunek liczby przypadków zniszczonych w poszczególnym przedziale, dzielonych przez liczbę przypadków ryzyka w tym przedziale.

Proporcja przeżyć – ta proporcja jest liczona jako 1 odjąć proporcję porażek

Łączna proporcja przetrwania (funkcja przeżycia) – jest to łączna proporcja przypadków potrafiących przeżyć aż do odpowiedniego przedziału. Jako że prawdopodobieństwa przetrwania są przypuszczalnie niezależne pomiędzy przedziałami, to prawdopodobieństwo jest wyliczane przez dzielenie prawdopodobieństw pomiędzy wszystkimi poprzednimi przedziałami. Powstająca funkcja jest także zwana przeżywalnością lub funkcją przeżycia.

Prawdopodobieństwo zawartości – jest to oszacowane prawdopodobieństwo porażki w poszczególnym przedziale, obliczone w jednostce czasu, czyli:

Fi = (Pi-Pi+1) /hi

W tym wzorze, Fi jest danym prawdopodobieństwem zawartości w przedziale i, Pi jest oszacowaną łączną proporcją przeżycia na początku przedziału i (na końcu przedziału i-1), Pi+1 jest łączną proporcją przeżycia na końcu przedziału i, a hi jest szerokością danego przedziału.

Stawka ryzyka – stawka ryzyka jest definiowana prawdopodobieństwo w jednostce czasu, że przypadek, który przeżył do początku danego przedziału zginą w tym przedziale. Dokładniej rzecz biorąc, jest wyliczane jako liczba zniszczonych w jednostkach czasu w danym przedziale, podzielona przez średnią liczbę żyjących przypadków w środku przedziału.

Średni czas przeżycia – jest to czas przeżycia, w którym łączna funkcja przeżycia wynosi 0,5. Inne percentyle (25, 75) z łącznej funkcji przeżycia mogą być obliczane równolegle. Zauważ, że percentyl 50 (średni) dla łącznej funkcji przeżycia zwykle nie jest taki sam jak punkt w czasie gdzie przeżywa 50% próbki (tak byłoby tylko w przypadku gdzie nie wystąpiłyby obserwacje ucięte).

Wymagana wielkość próbki – aby polegać na wiarygodnych oszacowaniach z tych 3 najważniejszych funkcji (przeżywalność, prawdopodobieństwo zawartości i ryzyko) i ich typowe błędy za każdym razem minimalna rekomendowana wielkość próbki wynosi 30.

czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/

problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna