Kryterium informacyjne
Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.
Zatem jak obliczyć wartość IV? Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:
IV = ∑(%złych – %dobrych)*WOE
Prosty przykład wyznaczania IV przedstawia poniższa tabela.
IV------>
0,36178
Przedziały |
Liczba złych k. |
Liczba dobrych k. |
% złych |
% dobrych |
WOE |
MIV |
0-1k |
197 |
354 |
11% |
31% |
-1,01919 |
0,20192 |
1-3k |
450 |
367 |
26% |
32% |
-0,22921 |
0,01509 |
3-5k |
582 |
234 |
33% |
20% |
0,47805 |
0,06004 |
5k+ |
532 |
187 |
30% |
16% |
0,61243 |
0,08473 |
Łącznie |
1761 |
1142 |
Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.
Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV. W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).
Więcej info na:
Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej