liniowa i kwadratowa funkcja dyskryminacyjna klasyfikacja

Liniowa analiza dyskryminacji.

meto1

 

Liniowa analiza dyskryminacji

Celem liniowej analizy dyskryminacji (LDA) jest statystyczne rozdzielenie heterogenicznej populacji na dwie homogeniczne podgrupy i dalsze procesy decyzyjne na otrzymanych podzbiorach. Możemy założyć, że dla każdego kredytobiorcy istnieje określona liczba zmiennych go objaśniających. Główną ideą jest wyszukanie takiej liniowej kombinacji tych zmiennych, która wydzieli nam najlepiej homogeniczne podzbiory. W przypadku podziału jedynie na dwa podzbiory naszym celem jest znalezienie liniowej kombinacji zmiennych objaśniających, która pozostawi nam największy dystans między średnimi w obu otrzymanych grupach. W LDA przyjmujemy, że p(x|G) i p(x|B) pochodzą z wielowymiarowego rozkładu normalnego o jednakowych wariancjach. Równanie AG = {x|p(G|x) ≥cB/( cB + cG)} sprowadzamy do

AG = {x|∑aixi ≥ c} (1)

gdzie xi oznaczają zmienne objaśniające, a ai – odpowiednie wagi.

Metodę tę pierwszy wprowadził Fisher w 1936 roku. W jego analizie dyskryminacyjnej dążył on do znalezienia takiego kierunku a, który maksymalizuje odległość między zrzutowanymi średnimi obu prób przy uwzględnieniu wariancji rzutu (czyli standaryzowanej odległości zrzutu średnich). W ten sposób doszedł do następujących wyników:

a = W^T ((x_2 ) ̅-(x_1 ) ̅)

gdzie:

W = 1/(n-2) ∑_(k=1)^2▒〖∑_(l=1)^(n_k)▒( x_kl 〗-x ̅_k)〖(x_kl-x ̅_k)〗^T

I ostatecznie otrzymał następującą regułę dyskryminacyjną:

jeśli aT (x − x2−2×1 ) > 0 wtedy wektor x należy do grupy k = 2, w przeciwnym razie – do grupy k = 1. Doboru zmienny do modelu można dokonać na wiele różnych sposobów. Jedną z metod jest regresja krokowa (postępowa lub wsteczna), która polega do dobieraniu (lub odrzucaniu) kolejnych zmiennych za każdym razem wyliczając wartość kryteriów informacyjnych i decydując na tej podstawie o tym czy zmienna ma pozostać w modelu czy też nie. Można również posłużyć się otrzymanymi wartościami wag ai i w zależności od ich wartości wybrać odpowiedni model.

Dopiero w 1968 roku Altman wykorzystał analizę dysryminacyjną w zarządzaniu finansami. Opracował on swój model (zwanym modelem Zeta Score), posługując się próbą 66 korporacji amerykańskich reprezentujących po 33 spółki z każdej grupy (bankrutów i niebankrutów). Dane do wyznaczenia współ-czynników dyskryminacji zaczerpnął ze sprawozdań finansowych sporządzonych w roku sprawozdawczym poprzedzającym bankructwo spółki. W swoich rozważaniach Altman uwzględnił początkowo 22 wskaźniki finansowe spośród których wybrał ostatecznie pięć, według niego najbardziej istotnych w predykcji bankructwa. Ostatecznie przedstawiona przez Altmana funkcja dyskryminacyjna miała postać:

Z = 1,2 · x1 + 1,4 · x2 + 3,3 · x3 + 0,6 · x4 + 1,0 · x5 (4)
gdzie:
x1 = kapitał obrotowy
aktywa ogółem
x2 = zysk zatrzymany
aktywa ogółem
x3 = zysk przed opodatkowaniem i spłatą odsetek
aktywa ogółem
x4 = wartość rynkowa kapitału
całkowite zadłużenie
x5 = przychody ze sprzedaży
aktywa ogółem
W tych badaniach wartością dyskryminacyjną okazała się liczba 1,81. Dla analizowanej próby Altman ustalił prawdopodobieństwa zbankrutowania badanych korporacji np. korporacja dla której funkcja dyskryminacji wynosi −0,55 zbankrutuje z prawdopodobieństwem 75%, natomiast prawdopodobieństwo zbankrutowania korporacji, dla której funkcja dyskryminacji przyjmie wartość 2,3 wynosi 1%. Altman i jego współpracownicy w pózniejszych latach ulepszali ten model, stosujac techniki oczyszczania danych z wpływu czynników losowych. W 1984 roku Altman wykazał, że modele służące do przewidywania upadku przedsiębiorstwa powinny być tworzone dla konkretnego kraju, w którym będą później używane. Przyczyną są między innymi różnice w systemach rachunkowości obowiązujących w różnych krajach. Modele Altmana były stosowane dla polskich spółek giełdowych, jak przewidział Altman, z kiepskim rezultatem. Dlatego też w 1996 roku model dyskryminacyjny na podstawie danych pochodzących z polskiego sektora zbudowali J.Gajdka i D.Stos. Swoją analizę autorzy oparli na próbie 40 spółek giełdowych, 20 bankrutów i 20 spółek nadal funkcjonujących. Za bankrutów Gajdka i Stos uznali przedsiębiorstwa które:

rozpoczęły proces likwidacji spowodowanej sytuacją finansową,

zawarły układ sądowy z wierzycielami

podpisały ugodę bankową dokonaną na podstawie Ustawy o Restrukturyzacji Finansowej Przedsiębiorstw i Banków.

Na podstawie analizy sprawozdań finansowych z roku poprzedzającego rok bankructwa autorzy wybrali pięć wskaźników, najbardziej istotnych. Otrzymali w ten sposób następującą funkcję dyskryminacyjną:

Z = 0,773 − 0,086 · x1 − 0,0008 · x2 + 0,922 · x3 + 0,654 · x4 − 0,595 · x5 (5)
gdzie:
x1 = przychody ze sprzedaży
aktywa ogółem
x2 = zobowiązania krótkoterminowe * 365
koszty wytworzenia produkcji sprzedanej
x3 = zysk (strata) netto
aktywa ogółem
x4 = zysk (strata) netto
przychody ze sprzedaży
x5 = całkowite zobowiązania
aktywa ogółem

Wartość graniczna wyznaczająca podział pomiędzy grupami bankrutów i niebankrutów to 0, 45.

W późniejszych latach powstało dużo innych modeli, również dla sektora polskiego (m.in. model Hołdy). Efektywność funkcji dyskryminacyjnej jest uzależniona od spełnienia pewnych założeń. Chodzi tu przede wszystkim o wymagania dotyczące istnienia wielowymiarowego rozkładu normalnego, a także istotne zróżnicowanie macierzy kowariancji w obu rozpatrywanych populacjach oraz ciągłego charakteru analizowanych cech. W praktyce jednak weryfikacja założeń nie jest należycie przeprowadzana. Nie zawsze też można wymagać od badanej populacji, że założenia te będą spełnione. Warto jednak pamiętać, że dużą zaletą tej metody jest jej prostota i wysoka skuteczność na danych spełniających założenia. Co ciekawe aby ominąć warunek o równości macierzy kowariancji w grupach w późniejszych latach wprowadzono kwadratową analizę dyskryminacji. Jednak jej wyniki okazały się ekonomicznie nieinterpretowalne i przy użyciu nowych przypadków kredytowych okazała się ona bardzo niestabilna.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.

problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Metody oceny zdolnosci kredytowej

meto

 

Metody oceny zdolności kredytowej

Pojęcie zdolności kredytowej
Ustawa z dnia 29 sierpnia 1997 roku — Prawo bankowe (Dz. U. z 1997 r. Nr 140, poz. 939, art. 70.1.)
definiuje zdolność kredytowa następujaco: Przez zdolność kredytowa rozumie się zdolność do spłaty zaciągniętego
kredytu wraz z odsetkami w terminach określonych w umowie. Kredytodawca, biorąc pod
uwagę sytuację majątkową jednostki gospodarczej, której udziela kredytu oraz zewnętrzne uwarunkowania
ekonomiczne w danym momencie, próbuje oszacować ryzyko niespłacenia kredytu. Bardzo ważne jest,
aby zdolność kredytowa kredytobiorcy dobrze określić przed podpisaniem umowy. Jednak w momencie
przyznania kredytu nie kończy się okres obserwowania kredytobiorcy, wręcz przeciwnie – przez cały czas
trwania stosunku kredytowego banki dokonują oceny zdolności kredytowej jednostek gospodarczych korzystających
z kredytu. Bank musi umieć stwierdzić, czy kredytobiorca będzie w stanie spłacić całą kwotę
w terminie zawartym w umowie.
Podmiot gospodarczy posiada zdolność kredytowa wtedy, gdy jest wypłacalny, czyli na tyle efektywnie
gospodaruje pieniędzmi, że jest w stanie regulować na bieżąco wszystkie swoje zobowiązania, a w razie
czego mieć możliwość upłynnienia swojego majątku. Badanie zdolności kredytowej ma na celu określenie
w każdym postępowaniu o przyznaniu kredytu stopnia ryzyka, na jakie narażony jest bank.

Bank przy udzielaniu kredytu narażony jest na dwa rodzaje ryzyka:

1. aktywne:
(a) straty
(b) utraty płynności
(c) utraty ubezpieczenia

2. pasywne:
(a) zmiany procentu
(b) zmiany kursu walutowego
(c) zmiany wartości pieniądza
Główna różnica miedzy tymi dwoma rodzajami ryzyka jest to, ze o ile bank jest jeszcze w stanie
kontrolować ryzyko aktywne i je chociaż w pewnym stopniu przewidywać, tak nie ma prawie żadnego
wpływu na to na jakim poziomie będzie się utrzymywało ryzyko pasywne. Ryzyko pasywne jest niezależne
od kredytodawców, dlatego też starają się oni za wszelka cenę minimalizować poziom ryzyka aktywnego.

Metody scoringowe – idea

Metody scoringowe oceny zdolności kredytowej są obecnie najpowszechniejsze i najbardziej rozwijane,
dają również najlepsze rezultaty. Odpowiedzmy sobie zatem na pytanie ’czym jest scoring?’. Najprościej
mówiąc, jest to ocena punktowa reprezentująca wiarygodność kredytową kredytobiorcy. Jednak obecnie
banki oraz różne inne instytucje finansowe wykorzystują metody scoringowe do tworzenia rozbudowanych
modeli statystycznych prognozujących różnego rodzaju prawdopodobieństwa, które w praktyce wykorzystywane
sa jako element procesu decyzyjnego.
Metody scoringowe powstały ponad 50 lat temu. Pierwsza firma, która zaczęła je stosować była Fair Isaac
Corporation (obecnie FICO), utworzona w 1956 roku przez inżyniera Billa Faira oraz matematyka Earla
Judsona Isaaca. Założyciele FICO rozpoczęli budowę metod scoringowych od sporządzania prostych tablic
aplikacyjnych. Dopiero w 1975 roku wprowadzony został system scoringu behawioralnego do oceny
ryzyka kredytowego związanego z obsługa dotychczasowego klienta.
Oczywiście z postępem technologii informatycznych metody te były coraz bardziej rozwijane i doskonalone.
Dla scoringu było to tak bardzo istotne ze względu na możliwość przechowywania i obróbki dużych
ilości danych (m.in. socjodemograficznych i transakcyjnych). Oprócz danych o klientach, które banki
same zbierają głównie na podstawie wywiadu, w Polsce mogą one również korzystać z baz danych różnych
instytucji takich jak Biuro Informacji Kredytowej, Związek Banków Polskich czy biura informacji
gospodarczej. Wiedza zebrana w ten sposób umożliwia ograniczenie ryzyka współpracy z nieuczciwymi
klientami.
Główna idea scoringu kredytowego opiera się na badaniu ryzyka poniesienia kosztów związanych z prawdopodobieństwem
spłaty kredytu. Dla uproszczenia przyjmijmy, ze populacja kredytobiorców składa się
z dwóch grup G i B, oznaczających dobrych i złych klientów, odpowiednio. Dobry kredytobiorca spłaca
kredyt w całości i na czas. Natomiast zły kredytobiorca zależy od stopnia niewywiązania się z umowy.
Zazwyczaj wielkości obu grup są bardzo zróżnicowane. Oznaczmy przez pG prawdopodobieństwo tego, ze
losowo wybrana osoba jest dobrym kredytobiorca, podobnie pB – prawdopodobieństwo wybrania złego
kredytobiorcy. Przy losowo wybranej populacji nie zdarza się, żeby zachodziła równość pG = pB. Niech x
będzie wektorem niezależnych zmiennych wykorzystywanym w procesie podejmowania decyzji, do której
grupy zaliczyć rozpatrywanego klienta. Niech prawdopodobieństwo tego, ze dany klient z opisującym go
wektorem x należy do grupy G wynosi p(G|x), a gdy nalezy do grupy B – p(B|x). Niech prawdopodobieństwo
p(x|G) oznacza, ze dobry kredytobiorca posiada wektor opisujących go cech równy x. Podobnie
dla złego kredytobiorcy prawdopodobieństwo to wynosi p(x|B). Zadaniem jest estymacja prawdopodobieństwa
p(.|x) na podstawie posiadanego zbioru danych dotyczących kredytobiorców, o których wiemy
w jakim stopniu spłacili kredyt. Dodatkowo chcemy znaleźć zasadę podziału przestrzeni X wszystkich
wektorów mierzalnych x na dwie grupy AG i AB, takie ze w grupie AG znalazłyby się jedynie wektory
opisujące dobrych kredytobiorców, natomiast w grupie AB – wektory opisujące wyłącznie złych kredytobiorców.
Niestety w większości przypadków nie jesteśmy w stanie znaleźć idealnego podziału przestrzeni
X, ponieważ może się zdarzyć, ze dwóch kredytobiorców z różnych grup posiada identyczny wektor cech
x. Dlatego tez niezbędne jest znalezienie reguły, która będzie minimalizowała koszty błędnej klasyfikacji
kredytobiorcy. Oznaczmy przez cG koszt związany z zaklasyfikowaniem dobrego kredytobiorcy jako złego,
oraz przez cB – koszt związany z zaklasyfikowaniem złego kredytobiorcy jako dobrego. Zazwyczaj cB > cG
ponieważ koszty związane z błędną klasyfikacją złego kredytobiorcy są dużo wyższe niż jakiekolwiek inne
koszty.
Jeśli klient z opisującym go wektorem x zostanie zaklasyfikowany do grupy G oczekiwane koszty bądą
wynosić cBp(B|x) i wtedy oczekiwana strata dla całej próbki wynosi
cB
X
x2AG
p(B|x)p(x) + cG
X
x2AB
p(G|x)p(x)
gdzie p(x) oznacza prawdopodobieństwo tego, ze rozpatrywany wektor wynosi x. Wielkość ta jest minimalizowana
wtedy, gdy do grupy AG należą kredytobiorcy których wektor x należy do zbioru:
AG = {x|cBp(B|x) ¬ cGp(G|x)} (1)
Po przekształceniach dostajemy:
AG = {x|p(G|x) ­
cB

cB + cG} (2)
Bez straty ogólności możemy znormalizować poniesione koszty i przyjąć, że cB + cG = 1. Zatem reguła
klasyfikacji będzie polegała na tym, ze kredytobiorcę o wektorze zmiennych x przypiszemy do zbioru AG
wtedy, gdy p(G|x) ­ cB. W przeciwnym razie będziemy go zaliczać do grupy AB.
Patrząc na powyższe widzimy, że najważniejszym zadaniem jest ustalenie wysokości kosztów granicznych,
czyli oszacowanie optymalnego punktu odcięcia. Bank musi ustalić czy bardziej zależy mu na uniknięciu
ryzyka czy na dużych dochodach i w zależności od tego ustalić najlepszą dla niego granice kosztów.

Literatura
[1] http://www.statsoft.pl/textbook
[2] Matysiak S. (2011) Zarzadzanie ryzykiem kredytowym w banku.
[3] Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56:
3-4.

Autorem tekstu jest Marta Mrozek.

Zobacz więcej na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

Ryzyko kredytowe

Metody oceny zdolności kredytowej
Ryzyko kredytowe i ocena zdolności kredytowej na podstawie cech osobowości

Dane binarne w statystyce

Czym jest cecha wielowymiarowa i jak wygląda jej rozkład

meto

 

Czym jest cecha wielowymiarowa i jak wygląda jej rozkład?

Przeważnie gdy mamy do czynienia z jednostkami statystycznymi wchodzącymi w skład zbiorowości generalnej, to charakteryzowane są one więcej niż jedną cechą. W związku z tym, że – z reguły – zachodzi pewna zależność pomiędzy nimi, bada się je razem, by ustalić występujące rodzaje zależności, jaka jest ich siła, kształt czy kierunek.

Wielowymiarową cechą statystyczną nazywamy zbiór cech, którymi jednocześnie opisywane są jednostki populacji. Wymiar uwarunkowany jest liczebnością tych cech. Tak samo jak cechy jednowymiarowe, cechy wielowymiarowe dzielimy na mierzalne i niemierzalne oraz skokowe i ciągłe. Badając własności rozkładów wielowymiarowych, dokonujemy analizy współzależności.

Często spotykaną cechą jest cecha dwuwymiarowa, więc poświęćmy jej chwilę i na jej przykładzie dokonajmy opisu współzależności. Tak jak powyżej zostało napisane, liczba cech decyduje o wymiarze. Skoro rozważamy cechę dwuwymiarową, to nietrudno jest zgadnąć, że występują dwie własności/ cechy jednocześnie opisujące jednostki populacji. Pełna  definicja cechy dwuwymiarowej brzmi:

„Cecha dwuwymiarowa – to będące przedmiotem jednoczesnego badania dwie własności elementów zbiorowości, pozwalające na rozróżnienie jednostek miedzy sobą.”

Statystyka opisowa, M. Sobczyk

Zbiór wszystkich jednostek opisywanych  jednocześnie przez powyższe dwie cechy, nazywamy zbiorowością dwuwymiarową. A na czym polega dwuwymiarowy rozkład empiryczny? Według dr Mieczysława Sobczyka jest „to uporządkowany zbiór par wartości (wariantów) cech x oraz y (xi,yi) wraz z przyporządkowanymi im liczebnościami (nij) lub częstościami względnymi (wij). Potrzebne jest skorzystanie z pomocy lub usług statystycznych ?

Autorem tekstu jest Martyna Kuligowska

Martyna Kuligowska Analiza statystyczna danych

analiza statystyczna metodolog

Metody analizy skupień (segmentacja/grupowanie)

meto1

 

Analiza skupień  / grupowanie / segmentacja

Badacze grupują dane w struktury, które powinny być zorganizowane i sensowne. Tu z pomocą przychodzi im analiza skupień. Pojęcie „analiza skupień” obejmuje kilka różnych algorytmów klasyfikacji, to narzędzie do eksploracyjnej analizy danych. Celem analizy skupień jest ułożenie obiektów w grupy w taki sposób, by obiekty należące do tej samej grupy były ze sobą jak najbardziej powiązane, a jednocześnie były jak najmniej związane z obiektami z pozostałych grup. Należy pamiętać o tym, że analiza skupień wykrywa struktury w danych, jednak nie wyjaśnia dlaczego one występują.
Metody analizy skupień mają zastosowanie w fazie eksploracyjnej badań, gdy nie dysponujemy żadnymi hipotezami. Z tego powodu nie testujemy istotności statystycznej, nawet w przypadku gdy podawane są poziomy p (jak przy grupowaniu metodą k-średnich). Analiza skupień znajduje zastosowanie w wielu dziedzinach badań np. w medycynie grupuje się choroby, objawy czy metody leczenia. Grupowanie prowadzi do powstawania użytecznych klasyfikacji.

Algorytm aglomeracji służy do grupowania obiektów w coraz większe zbiory/ skupienia przy zastosowaniu miary podobieństwa lub odległości. Charakterystycznym wynikiem takiego klasyfikowania jest hierarchiczne drzewo. Na początku hierarchicznego wykresu drzewkowego każdy obiekt stanowi swoją własną klasę, każdym krokiem osłabiamy nasze kryterium i coraz więcej elementów wchodzi do tego samego skupienia. W ten sposób coraz więcej elementów wiąże się ze sobą w skupienia coraz bardziej od siebie się różniące. Na ostatnim etapie wszystkiego obiekty są ze sobą połączone. Na wykresie na poziomej osi znajdują się odległości aglomeracyjne, które pozwalają odczytać odległość w której pojawiło się nowe skupienie elementów. Jeśli dane maja wyrazistą strukturę, to często ta struktura przyjmuje w hierarchicznym drzewie kształt oddzielnych gałęzi. Udana analiza przy pomocy łączenia daje możliwość wykrywania skupień (gałęzi) i ich interpretacji.
W metodzie aglomeracji wykorzystuje się różne miary rozbieżności między obiektami.
Można ją obliczyć jako odległość geometryczną w przestrzeni wielowymiarowej, czyli odległość euklidesową. Na odległości euklidesowe duży wpływ mają różnice jednostek między wymiarami, na podstawie których są wyliczane odległości. Dlatego trzeba pamiętać o standaryzacji, aby mieć dane o porównywalnej skali. Odległość euklidesową obliczamy ze wzoru: odległość(x,y) = { i (xi – yi)2 }½
Kwadrat odległości euklidesowej wyznaczamy poprzez podniesienie do kwadratu odległości euklidesowej. Ma to na celu przypisanie większej wagę obiektom, które są bardziej oddalone. Oblicza się ze wzoru: odległość(x,y) = i (xi – yi)2
Odległość miejska (Manhattan, City Block) jest sumą różnic mierzonych wzdłuż wymiarów. Miara ta daje podobne wyniki jak odległość euklidesowa. W przypadku tej miary wpływ obserwacji odstających jest tłumiony. Wzór przedstawia się następująco: odległość(x,y) = i |xi – yi| .
Odległość Czebyszewa to miara odległości stosowana w przypadkach, w których chcemy zdefiniować dwa obiekty jako „inne”, gdy różnią się one w jednym dowolnym wymiarze. Odległość Czebyszewa oblicza się w następujący sposób: odległość(x,y) = Maksimum|xi – yi|
Odległość potęgowa stosowana jest wtedy, gdy chcemy zmniejszyć lub zwiększyć lub wzrastającą wagę przypisaną do wymiarów, w przypadku których odpowiednie obiekty bardzo się od siebie różnią. Odległość potęgowo wyznaczamy ze wzoru: odległość(x,y) = ( i |xi – yi|p)1/r
Niezgodność procentowa używana jest gdy dane dla wymiarów objętych analizą są z natury dyskretne. Wyznaczamy ją ze wzoru: odległość(x,y) = (Liczba xi ≠ yi)/ i
Ważne są także zasady wiązania lub aglomeracji, które określają kiedy dwa skupienia są wystarczająco podobne, aby można je było połączyć. Istnieje wiele zasad wiązania, na przykład:
W przypadku metody pojedynczego wiązania/najbliższego sąsiedztwa odległość między dwoma skupieniami jest określona przez odległość między dwoma najbliższymi obiektami (najbliższymi sąsiadami) należącymi do różnych skupień. Zgodnie z tą zasadą obiekty tworzą skupienia łącząc się w ciągi, a skupienia wynikowe tworzą długie „łańcuchy”.
Metoda pełnego wiązania (najdalszego sąsiedztwa) polega na tym, że odległość między skupieniami jest zdeterminowana przez największą z odległości między dwoma dowolnymi obiektami należącymi do różnych skupirń (tzn. „najdalszymi sąsiadami”). Metoda ta sprawdza się w przypadkach, kiedy obiekty faktycznie formują naturalnie oddzielone „kępki”. Metoda ta nie jest zaś odpowiednia wówczas, gdy skupienia są w jakiś sposób wydłużone lub mają charakter łańcuchowy.
Metoda średnich połączeń polega na tym, że odległość między dwoma skupieniami oblicza się jako średnią odległość między wszystkimi parami obiektów należących do dwóch różnych skupień. Metoda ta jest efektywna, gdy obiekty formują naturalnie oddzielone „kępki”, ale zdaje także egzamin w przypadku wydłużonych skupień.
Metoda średnich połączeń ważonych to metoda podobna do metody średnich połączeń, z tym wyjątkiem, że w obliczeniach uwzględnia się wielkość odpowiednich skupień (tzn. liczbę zawartych w nich obiektów) jako wagę. Zatem raczej ta metoda niż poprzednia, powinna być stosowana wtedy, gdy podejrzewamy, że liczności skupień są wyraźnie nierówne.
Metoda środków ciężkości. Środek ciężkości skupienia jest średnim punktem w przestrzeni wielowymiarowej. W tej metodzie odległość między dwoma skupieniami jest określona jako różnica między środkami ciężkości.
Metoda ważonych środków ciężkości (mediany). To metoda podobna do poprzedniej, jednak w obliczeniach wprowadza się ważenie, żeby uwzględnić różnice między wielkościami skupień (tzn. liczbą zawartych w nich obiektów). Metoda ta jest lepsza od poprzedniej w sytuacji, gdy istnieją (lub podejrzewamy, że istnieją) znaczne różnice w rozmiarach skupień.
Metoda Warda różni się od pozostałych metod, gdyż do oszacowania odległości między skupieniami wykorzystuje analizę wariancji. Metoda ta zmierza do minimalizacji sumy kwadratów odchyleń dowolnych dwóch skupień, które mogą zostać uformowane na każdym etapie.
Grupowanie obiektów i cech przydaje się w (stosunkowo rzadkich) okolicznościach, gdy oczekujemy, że zarówno przypadki, jak i zmienne jednocześnie przyczyniają się do odkrywania sensownych układów skupień.
Grupowanie metodą k-średnich w znaczny sposób różni się od metod Aglomeracji i Grupowania obiektów. Przy pomocy metody k-średnich powstaje utworzonych k skupień, w możliwie największym stopniu różniących się od siebie. Należy zaznaczyć, że optymalna liczba skupień nie jest znana z góry i powinna być wyliczana na podstawie danych. Metoda ta stanowi swoistą odwrotność analizy wariancji. Należy zacząć od k losowych skupień, a następnie przenosić obiekty między tymi skupieniami mając na celu:
a) minimalizację zmienności wewnątrz skupień
b) maksymalizację zmienności między skupieniami.
Dzięki temu maksymalne podobieństwo będzie charakteryzowało członków danego skupienia/grupy, a minimalne podobieństwo będzie między członkami danej grupy a pozostałymi obiektami. Jest to „odwrotność” analizy wariancji w takim sensie, że test istotności w ANOVA porównuje zmienność międzygrupową ze zmiennością wewnątrzgrupową przy przeprowadzaniu testu istotności dla hipotezy, że średnie w grupach są takie same. Przy grupowaniu metodą k-średnich, staramy się tak przenosić obiekty między grupami, aby uzyskać największy poziom istotności analizy ANOVA. Wielkość statystyki F pochodzącej z analizy wariancji wykonanej w każdym wymiarze jest wskaźnikiem tego, na ile dobrze dany wymiar dyskryminuje skupienia.
Grupowanie metodą EM- algorytm tej metody próbuje oszacować obserwowany rozkład wartości jako mieszaninę rozkładów różnych grup. Algorytm ten potrafi korzystać również ze zmiennych jakościowych. Najpierw losowo przydziela prawdopodobieństwa (wagi) każdej z klas (kategorii) w obrębie każdego skupienia. W kolejnych iteracjach prawdopodobieństwa są zmieniane tak, aby zmaksymalizować wiarygodność danych przy podanej ilości skupień. Algorytm EM mówi o tym, że każda obserwacja należy do każdego ze skupień z określonym prawdopodobieństwem klasyfikacyjnym.
V- krotny sprawdzian krzyżowy to algorytm automatycznie wyznaczający liczbę skupień danych. Jest to bardzo ważne w przypadku, gdy nie testujemy hipotez i nie wiemy jaka jest liczba skupień w próbie. Algorytm ten znajduje zastosowanie na przykład w zadaniach typu „poszukiwanie wzorów”. Algorytm sprawdzianu krzyżowego można zastosować też w analizie skupień.

Autorem testu jest Judyta Borchet

11647379_880289168675562_2028751748_n

Źródło:
statsoft.pl