Statystyczna aplikacja scoringu kredytowego. Modelowanie i informacje ogólne.

Metodolog - statystyczna analiza data minig

Statystyczna aplikacja scoringu kredytowego

 

Informacje ogólne

 

Scoring kredytowy jest być może jedną z najbardziej „klasycznych” aplikacji do predyktywnego modelingu, przewidującą czy przedłużenie kredytu aplikującemu zakończy się zyskiem czy stratą dla instytucji pożyczającej. Jest wiele wariacji i zawiłości względem tego jak kredyt jest przedłużany dla jednostek indywidualnych, biznesów i innych organizacji na różne cele (zakup sprzętu, nieruchomości, wyrobów konsumpcyjnych itd.) i wykorzystuje się zróżnicowane metody kredytowe (karty kredytowe, pożyczki, plan opóźnionej płatności). Ale we wszystkich przypadkach, podmiot pożyczający zapewnia pieniądze dla jednostki albo instytucji, oczekując bycia spłaconym w odpowiednim czasie, z uwzględnieniem rekompensaty w zamian za poniesione ryzyko.

Scoring kredytowy jest zestawem modeli decyzyjnych i leżących u ich podłoża technik, które wspomagają podmioty pożyczające przy udzielaniu kredytów konsumenckich. Te techniki określają kto dostanie kredyt, jak duży powinien on być i jakie strategie operacyjne będą zwiększały rentowność biorącego pożyczkę od kredytodawcy. Ponadto, pomagają one oszacować ryzyko pożyczki. Scoring kredytowy jest oszacowaniem zależnym od posiadanej przez kredytobiorcę wiarygodności gdyż opiera się na rzeczywistych danych.

Kredytodawca zasadniczo podejmuje dwa typy decyzji: po pierwsze, czy udzielić kredytu nowemu aplikantowi, i po drugie, jak obchodzić się z dotychczasowymi aplikantami, łącznie z decyzjami o zwiększaniu ich limitów kredytowych. W obu przypadkach, niezależnie od użytej techniki, kluczowym jest aby była duża próbka poprzednich klientów z ich szczegółowymi aplikacjami, wzorami zachowań i dostępną historią kredytową. Większość technik wykorzystuję próbkę do rozpoznania związków pomiędzy charakterystyką klienta (roczny przychód, wiek, liczba lat zatrudnienia u obecnego pracodawcy itd.) i jego dalszą historią.

Typowe obszary aplikacyjne na rynku konsumenckim zawierają: karty kredytowe, kredyty samochodowe, kredyty hipoteczne, pożyczki hipoteczne, pocztowe zamówienia z katalogów i szeroki wachlarz osobistych pożyczek na produkty.

„Klasyczny” scoring kredytowy, karty scoringu kredytowego

 

Klasyczne i ciągle szeroko stosowane (z powodzeniem) podejście oceny zdolności kredytowej i ryzyka bazując na budowie „karty skoringowej”; typowa karta scoringowa może wyglądać tak:

Dla każdej predykcyjnej zmiennej, są zapewnione specjalne zakresy danych lub kategorii (np. Okres kredytowy), a dla każdej kategorii (np. okres kredytowy pomiędzy 9 a 15 latami), wynik jest prognozowany w ostatniej kolumnie. Dla każdego aplikującego o kredyt, wyniki mogą być przetwarzane przez wszystkie predykcyjne zmienne i kategorie, i w oparciu o całkowity wynik kredytowy, można podejmować decyzje o ewentualnym udzieleniu kredytu.

Niektóre właściwości klasycznych kredytowych kart scoringowych; modele

 

Są różne aspekty poszczególnego przepływu pracy w modelingu w czasie tworzenia karty skoringowej, a także jej efektywnego używania.

Toporne kodowanie („dyskretyzujące”) predyktory

 

Po pierwsze, chcąc stworzyć efektywną kartę skoringową, musimy zadbać by była ona prosta w obsłudze. Nierzadko decyzja u udzieleniu kredytu musi zostać podjęta bardzo szybko aby nie narażać na niebezpieczeństwo danej „transakcji” (np. sprzedaż samochodu). Jeżeli decyzja o udzieleniu kredytu trwa zbyt długo, kredytobiorca może zwrócić się gdzieś indziej w poszukiwaniu finansowych usług. Dlatego, w przypadku braku możliwości użycia automatycznych rozwiązań scoringowych chociażby za pomocą strony internetowej, karty skoringowe muszą być łatwo zapewnić użytkownikowi możliwość ustalenia indywidualnych komponentów składających się na całościowy wynik i decyzję kredytową, a aby to osiągnąć, warto podzielić wartości każdą ciągłą i kategorialną predykcyjną zmienną na stosunkowo małą liczbę kategorii tak aby aplikant mógł zostać szybko podliczony. Na przykład, zmienna Wiek aplikanta może być szybko zakodowana w 4 kategoriach (20-30, 30-40, 50-60, 60+) i właściwe wyniki powiązane z każdą kategorią będą wpisane w arkusz kalkulacyjny w celu obliczenia końcowego wyniku.

Jest wiele metod i postępowań, które są brane pod uwagę w procesie decyzji o tym jak rekodować zmienne wartości na mniejszą liczbę klas. W skrócie, pożądanym jest (znowu, z perspektywy upraszczania) by wynik kredytowy i ryzyko kredytowe wśród zakodowanych klas było predyktorem pod postacią rosnącej lub malejącej funkcji. Tak więc na przykład, im więcej aplikant obecnie posiada długów tym większe ryzyko niespłacania kiedy zostanie mu udzielony kolejny kredyt.

Zwykle, podczas procesu tworzenia karty scoringowej, toporne-kodowanie predyktorów jest ręczną procedurą, w której predyktory są rozważane jeden po drugim w oparciu o treningowy zestaw danych stworzony z poprzednich aplikantów ze znaną już jakością ich charakterystyk (np. czy kredyt był spłacany czy nie). Wynikiem tego procesu jest zestaw zmiennych, który wchodzi kolejny predykcyjny modeling, jako zrekodowane (topornie-zakodowane) predyktory.

Budowanie modelu

Kiedy treningowy zestaw danych, na którym opiera się modeling zawiera binarny wskaźnik zmiennej „spłacony” vs „niespłacony” albo „dobry kredyt” vs „zły kredyt”, wtedy modele regresji logistycznej są dobrze dobrane do kolejnego predykcyjnego modelingu. Regresja logistyczna owocuje przewidywaniami możliwości na wystąpienie potencjalnego zysku. Co więcej, modele regresji logistycznej są liniowe, w tym logarytmicznie-przetransformowana prognoza prawdopodobieństwa jest funkcją liniową predyktora zmiennej wartości. A zatem, końcowy model karty scoringowej podzielony w ten sposób ma oczekiwaną jakość, tak że końcowy wynik kredytowy (ryzyko kredytowe) jest liniową funkcją predyktorów, i z kilkoma dodatkowymi zmianami, zastosowanymi do parametrów modelu, zwykła liniowa funkcja wyników może być połączona z każdą predykcyjną klasą wartości po topornym kodowaniu. Tak więc ostateczny wynik kredytowy jest prostą sumą indywidualnych wartości wyników, które można wziąć z karty skoringowej.

Uwaga na odrzucanie wniosków

 

Termin „odrzucenie wniosku” opisuje zagadnienie radzenia sobie z nieodłączną stronniczością kiedy modeling jest oparty na treningowym zestawie danych składającym się tylko z tych poprzednich aplikantów dla których właściwe zachowanie (dobry kredyt vs zły kredyt) został zaobserwowany; jednakże, jest najpewniej inna istotna liczba poprzednich aplikantów, która została odrzucona i dla której ostateczne „zachowanie kredytowe” nigdy nie zostało zapisane. Pytanie brzmi, jak zawrzeć tych poprzednich aplikantów w modelingu, tak aby uczynić model bardziej precyzyjnym i silnym (mniej stronniczym) i przystosowanym również do tych jednostek.

Jest to szczególnie ważne kiedy kryteria decyzji o przyznaniu kredytu muszą być trochę luźniejsze, tak aby zainteresować więcej kredytobiorców. Może to wystąpić na przykład podczas ekonomicznego pogorszenia koniunktury, dotykającego wielu ludzi i plasującego ich ogólną sytuację finansową w takich ramach, które byłby niewystarczające do udzielenia kredytu według starych kryteriów. Krótko mówiąc, jeżeli nikt nie byłby w stanie zakwalifikować się do udzielenia mu kredytu, instytucje z tego żyjące straciły by rację bytu i wypadły z interesu. Dlatego często, szczególnie ważnym jest tworzenie predykcji o obserwacjach ze specjalnym predyktorem wartości, które były istotnie poza zakresem tego co było wcześniej rozważane, i w konsekwencji jest niedostępne, bo nie było zauważone w treningowych danych, gdzie zapisywane są rzeczywiste wyniki.

Jest sporo podejść sugerujących jak zawrzeć wcześniej odrzuconych aplikantów kredytowych w budowanym modelu, tak by zrobić model o jak najszerszym zastosowaniu (również w stosunku do tych aplikantów). Krótko mówiąc, te metody sprowadzają się do systematycznej ekstrapolacji z rzeczywistych zaobserwowanych w statystycznej analizie danych, często przez celowe wprowadzanie uprzedzeń i założeń o oczekiwanym zysku z pożyczki, jaki jest w przypadku (w rzeczywistości nieobserwowanego) kredytobiorcy.

Model ewaluacji

 

Kiedy już (regresja logistyczna) model zostanie zbudowany na treningowym zestawie danych, jego ważność musi zostać oszacowana przez niezależną odmowę albo próbkę testową, z dokładnie tych samych powodów, i takimi samymi metodami jak to się zwykle robi przy predykcyjnym modelingu. Każda z tych metod, grafy i statystyki, które zwykle wyliczane do tego celu lepiej oszacowują szanse na rozróżnienie aplikantów z dobrym kredytem od tych ze złym kredytem we wstrzymanej próbce, w porównaniu ze zwykłym zgadywaniem albo jakimiś innych metodami na podjęcie decyzji o udzieleniu bądź wstrzymaniu kredytu.

Do przydatnych grafów zaliczają się wykres dźwigniowy, wykres Kolmogorova-Smirnova i inne sposoby na oszacowanie mocy predykcyjnej modelu. Na przykład, poniższy obrazek pokazuje wykres Kolmogorova-Smirnova (KS) dla modelu kredytowej karty scoringowej.

 

Na tym wykresie, oś X pokazuje wartości wyniku kredytowego (sumy), a oś Y oznacza łączne proporcje obserwacji z każdej klasy wyników (dobry kredyt vs zły kredyt) oferowanej próby. W dalszej części są dwie linie, większa jest stopniem zróżnicowania pomiędzy dobrym kredytem a złym kredytem próby i dlatego, model jest lepszy (bardziej precyzyjny).

Ustalanie bezpieczników/punktów odcięcia wyniku

Kiedy dobry (regresja logistyczna) model został ukończony i oceniony, należy podjąć decyzję gdzie wsadzić bezpiecznikowe wartości dla udzielenia bądź nieudzielenia kredytu (albo gdzie powinno się uzyskać więcej informacji od aplikanta by ulepszyć aplikację). Najbardziej bezpośrednim sposobem by to zrobić jest wzięcie jako bezpiecznika punktu, w którym największa różnica pomiędzy dobrym kredytem i złym kredytem została zaobserwowana w próbce i dlatego nie jest zaskakująca. Jednakże, wiele innych względów zwykle również składa się na tę decyzję.

Przede wszystkim, niespłacenie wielkiego kredytu jest dużo gorsze niż małego kredytu. Generalnie, zyski i straty są związane z 4 prawdopodobnymi możliwościami (prawidłowe przewidzenie dobrego kredytu, prawidłowe przewidzenie złego kredytu; i analogicznie nieprawidłowe złego i dobrego), które muszą być brane pod rozwagę, a bezpiecznik powinien być dobrany w taki sposób by maksymalizować zysk oparty na modelu prognozującym ryzyko. Jest sporo metod i specjalnych wykresów, które zostały opracowane po to by decydować o ostatecznym wyniku bezpieczników, wszystkie radzą sobie z oszacowaniem oczekiwanych zysków i strat z różnymi bezpiecznikowymi wartościami.

Monitorowanie karty scoringowej, stabilność populacji, działanie karty scoringowej i analizy vintage (raporty wykroczeń)

 

Wreszcie, kiedy karta scoringowa została ukończona i jest w użyciu przy udzielaniu kredytu, musi być oczywiście uważnie monitorowana by zweryfikować jej oczekiwane działanie. Zasadniczo, 3 rzeczy mogą się zmienić:

Po pierwsze, populacja aplikantów może się zmienić w odniesieniu do ważnych (wykorzystanych w karcie wyników) predyktorów. Na przykład, wiek aplikanta może się obniżyć, albo aplikant może posiadać mniejszy majątek niż to zostało opisane w danych treningowych, z których powstała karta scoringowa. To oczywiście zmieni proporcje aplikantów, którzy uzyskają akceptację na otrzymanie kredytu (z wykorzystaniem obecnej karty scoringowej), i to może również zmienić sposób w jaki powinien być ustawiony bezpiecznik. Tak zwane raporty stabilności w populacji są używane do wyłapywania i śledzenia zmian w populacji aplikacji (kompozycja danych aplikanta w odniesieniu predyktorów).

Po drugie, predykcje z karty scoringowej mogą stawać się coraz bardziej nieprecyzyjne. Dlatego, precyzja predykcji z modelu musi być śledzona, tak by wyłapać moment gdy model powinien zostać zaktualizowany albo odrzucony (i należałoby stworzyć nowy).

Po trzecie, rzeczywiste obserwowane stawki niespłacania (złego kredytu) mogą się zmieniać w czasie (np. w związku z warunkami ekonomicznymi). Takie zmiany wymuszą korekty w wartościach bezpieczników, a także być może w modelu karty scoringowej również. Metody i raporty, które zwykle służą do śledzenia zaległych pożyczek i porównań z oczekiwanymi zaległościami, są nazywane analizami vintage albo raportami zaległościowymi.

Inne metody na budowanie kart skoringowych

 

Tradycyjna metoda budowania kart skoringowych, zwięźle zarysowana powyżej, jest cały czas szeroko stosowana, ponieważ ma mnóstwo zalet w odniesieniu do możliwości interpretacji modeli (i dlatego łatwo można wyjaśnić decyzję o udzieleniu bądź odmowie udzielenia kredytu aplikantom i organom regulacyjnym); poza tym zapewnia wystarczającą precyzję predykcyjności sprawiając, że tworzenie alternatywnych i bardziej kompleksowych kart scoringowych okazuje się zbyt drogie i zwyczajnie niepotrzebne (i.e. nie ma wystarczającego ROI do wykorzystania bardziej kompleksowych metod).

Jednak w ostatnich latach, generalnie powszechność metod predykcyjnego modelingu rośnie i zastępują one tradycyjną regresję logistyczną opartą na liniowych sumach wyników kart scoringowych.

Model proporcjonalnego hazardu Coxa

 

Po pierwsze, modyfikacja tradycyjnego podejścia, która zyskała popularność, zastępuje krok modelingu regresji logistycznej modelu, modelem proporcjonalnego hazardu Coxa. By streścić, model Coxa (w skrócie) przewiduje prawdopodobieństwo porażki, niespłacalności albo „rozwiązania” wyniku w specjalnym przedziale czasowym. Szczegóły dotyczące modelu Coxa (założenia o prawdopodobieństwie ryzyka i jak je testować) można znaleźć czytając o analizie przeżycia. Jednak efektywnie tę metodę można rozpatrywać jako alternatywę i udoskonalenie regresji logistycznej szczególnie kiedy w grę wchodzą „dożywotnie” kredyty (aż do niespłacenia, wcześniejszej wypłaty itd.) w danych treningowych. Model Coxa jest jednak wciąż modelem liniowym (względnej stawki ryzyka), i.e. jest liniowy w predyktorach, a prognozy są liniową kombinacją wartości predyktorów. Dlatego opisana powyżej wstępna obróbka predyktorów jest cały czas użyteczna i adekwatna (np.  toporne kodowanie predyktorów), tak jak kolejne kroki modelu ewaluacji, selekcja bezpieczników i tak dalej.

Algorytmy modelingu predykcyjnego (np. stochastic gradient boosting)

 

Jeżeli precyzja prognozy ryzyka jest najważniejszą do rozważenia rzeczą przy budowie karty scoringowych (i jest związana głównie z oczekiwanym ROI tworzącym rezultaty z projektu), wtedy metody predykcyjnego modelingu i ogólne aproksymatory takie jak Stochastic Gradient Boosting zapewniają lepsze wyniki niż modele liniowe. Rozwój zaawansowanych data-miningowych algorytmów predykcyjnego modelingu jest generalnie napędzany pragnieniem wykrywania kompleksowych skomplikowanych interakcji, nieliniowości, nieciągłości i tak dalej, pośród predyktorów i ich związków z wynikiem zainteresowania, w celu napędzenia precyzji prognozowania.

Zauważ, że automatyczne (komputerowe) silniki scoringowe potrafią dostarczyć feedback dla aplikanta niemal natychmiast dlatego negują zalety tradycyjnych metod tworzenia kart scoringowych (jak opisano powyżej). Poza tym, cały czas jest możliwe automatyczne przeprowadzenie kolejnych analiz do decyzji kredytowej by zdecydować jakie są predyktory zmiennej/zmiennych i wartości najbardziej wpływające na prognozę ryzyka, i w następnej kolejności odmowę kredytu (chociaż te metody są mniej bezpośrednie) i by zapewnić ten feedback aplikantom (który jest zwykle wymagany przez prawo traktujące o biznesie kredytowym).

Właściwy proces tworzenia kart skoringowych modeli z użyciem data-miningowych algorytmów takich jak ‘stochastic gradient boosting’ zwykle okazuje się być prostszy niż tradycyjne techniki. Jako że większość algorytmów to generalnie aproksymatory zdolne by reprezentować każdy związek między predyktorami a wynikami, będąc stosunkowo silne względem odstających, nie jest niezbędnym wykonywanie wielu kroków przygotowujących predyktory, takich jak toporne-kodowanie itd. Wszystkie kolejne kroki w budowaniu modelu ciągle występują, z wyjątkiem tego, że zamiast oceniania modelu i rozpoznawania wartości bezpieczników na podstawie (sum) wyników, wykresy i tabele, które są zwykle sporządzane by wspomóc te analizy mogę być stworzone w oparciu o prognozę prawdopodobieństw z poszczególnego data-miningowego modelu predykcyjnego (albo całokształtu modeli).

Podobnie, większość typowych kroków po implementacji (w „produkcję”) karty skoringowej  także ciągle jest obecne i jest potrzebne by ocenić działanie systemu scoringowego (tak samo jak stabilność populacji, stopnie wykroczeń i precyzję).

Cele biznesowe

Aplikacja modeli scoringowych w dzisiejszym środowisku biznesowym pokrywa duży obszar celów. Oryginalne śledzenie i ocenianie ryzyka niespłacenia poszerzone zostało przez modele scoringu kredytowego o inne aspekty zarządzania ryzykiem kredytowym: jeszcze przed aplikacją (identyfikacja potencjalnych aplikantów), w momencie aplikacji (identyfikacja aplikantów, których należy zaakceptować), i na poziomie działania (identyfikacja możliwych zachowań obecnych klientów). Modele scoringowe z różnymi celami rozwinięto. Obecnie mogą zostać podzielone na 4 kategorie, jak opisano poniżej.

  1. ASPEKT MARKETINGOWY

 

Cele:

Przykłady

  • Scoring odpowiedzi: modele, które szacują z jakim prawdopodobieństwem konsument odpowie na bezpośredniego maila z ofertą nowego produktu.
  • Scoring utrzymywania: modele przewidujące z jakim prawdopodobieństwem konsument dalej będzie używał produktu albo pójdzie do innego kredytodawcy, gdy jego umowa dobiegnie końca.
  1. ASPEKT APLIKACYJNY

 

Cele:

  • Decydowanie o tym jak duży i czy w ogóle kredyt powinien zostać udzielony.
  • Prognoza przyszłych zachowań nowego kredytobiorcy przez przewidywanie szans na niespłacanie pożyczki albo nieodpowiednie zachowania w czasie spłacania w momencie przyznawania kredytu.

Przykład:

  • Scoring aplikacyjny: modele szacujące jaka jest szansa, że nowy kredytobiorca stanie się niewypłacalny.

 

  1. ASPEKT WYKONAWCZY

 

Cel:

  • Przewidzieć przyszłe zachowanie względem płatności obecnych dłużników by rozpoznać/izolować złych klientów i poświęcić im więcej uwagi, redukując prawdopodobieństwo, że ci dłużnicy później urosną do rangi większego problemu.

Przykład:

  • Scoring zachowania: model, który szacuje poziom zagrożenia obecnych dłużników.
  1. ZARZĄDZANIE ZŁYM DŁUGIEM

 

Cel:

  • Optymalny wybór polityki egzekwowania należności by zmniejszyć koszty administrowania nią albo zwiększyć ilość odzyskanych, zaległych aktywów z danych kont.

 

Przykład:

  • Scoringowy model decyzji o egzekwowaniu: modele, które determinują kiedy podjąć akcję na koncie dłużnika i która z kilku alternatywnych technik egzekwowania może być bardziej adekwatna i skuteczna.

Dlatego, ogólny cel scoringu kredytowego jest nie tylko taki by zdecydować czy kredytu należy udzielić, ale także by zachęcić wysokiej jakości kredytobiorców, których następnie można będzie zatrzymać i kontrolować, utrzymując plusiki w teczce z zyskami.