problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Metody oceny zdolnosci kredytowej

meto

 

Metody oceny zdolności kredytowej

Pojęcie zdolności kredytowej
Ustawa z dnia 29 sierpnia 1997 roku — Prawo bankowe (Dz. U. z 1997 r. Nr 140, poz. 939, art. 70.1.)
definiuje zdolność kredytowa następujaco: Przez zdolność kredytowa rozumie się zdolność do spłaty zaciągniętego
kredytu wraz z odsetkami w terminach określonych w umowie. Kredytodawca, biorąc pod
uwagę sytuację majątkową jednostki gospodarczej, której udziela kredytu oraz zewnętrzne uwarunkowania
ekonomiczne w danym momencie, próbuje oszacować ryzyko niespłacenia kredytu. Bardzo ważne jest,
aby zdolność kredytowa kredytobiorcy dobrze określić przed podpisaniem umowy. Jednak w momencie
przyznania kredytu nie kończy się okres obserwowania kredytobiorcy, wręcz przeciwnie – przez cały czas
trwania stosunku kredytowego banki dokonują oceny zdolności kredytowej jednostek gospodarczych korzystających
z kredytu. Bank musi umieć stwierdzić, czy kredytobiorca będzie w stanie spłacić całą kwotę
w terminie zawartym w umowie.
Podmiot gospodarczy posiada zdolność kredytowa wtedy, gdy jest wypłacalny, czyli na tyle efektywnie
gospodaruje pieniędzmi, że jest w stanie regulować na bieżąco wszystkie swoje zobowiązania, a w razie
czego mieć możliwość upłynnienia swojego majątku. Badanie zdolności kredytowej ma na celu określenie
w każdym postępowaniu o przyznaniu kredytu stopnia ryzyka, na jakie narażony jest bank.

Bank przy udzielaniu kredytu narażony jest na dwa rodzaje ryzyka:

1. aktywne:
(a) straty
(b) utraty płynności
(c) utraty ubezpieczenia

2. pasywne:
(a) zmiany procentu
(b) zmiany kursu walutowego
(c) zmiany wartości pieniądza
Główna różnica miedzy tymi dwoma rodzajami ryzyka jest to, ze o ile bank jest jeszcze w stanie
kontrolować ryzyko aktywne i je chociaż w pewnym stopniu przewidywać, tak nie ma prawie żadnego
wpływu na to na jakim poziomie będzie się utrzymywało ryzyko pasywne. Ryzyko pasywne jest niezależne
od kredytodawców, dlatego też starają się oni za wszelka cenę minimalizować poziom ryzyka aktywnego.

Metody scoringowe – idea

Metody scoringowe oceny zdolności kredytowej są obecnie najpowszechniejsze i najbardziej rozwijane,
dają również najlepsze rezultaty. Odpowiedzmy sobie zatem na pytanie ’czym jest scoring?’. Najprościej
mówiąc, jest to ocena punktowa reprezentująca wiarygodność kredytową kredytobiorcy. Jednak obecnie
banki oraz różne inne instytucje finansowe wykorzystują metody scoringowe do tworzenia rozbudowanych
modeli statystycznych prognozujących różnego rodzaju prawdopodobieństwa, które w praktyce wykorzystywane
sa jako element procesu decyzyjnego.
Metody scoringowe powstały ponad 50 lat temu. Pierwsza firma, która zaczęła je stosować była Fair Isaac
Corporation (obecnie FICO), utworzona w 1956 roku przez inżyniera Billa Faira oraz matematyka Earla
Judsona Isaaca. Założyciele FICO rozpoczęli budowę metod scoringowych od sporządzania prostych tablic
aplikacyjnych. Dopiero w 1975 roku wprowadzony został system scoringu behawioralnego do oceny
ryzyka kredytowego związanego z obsługa dotychczasowego klienta.
Oczywiście z postępem technologii informatycznych metody te były coraz bardziej rozwijane i doskonalone.
Dla scoringu było to tak bardzo istotne ze względu na możliwość przechowywania i obróbki dużych
ilości danych (m.in. socjodemograficznych i transakcyjnych). Oprócz danych o klientach, które banki
same zbierają głównie na podstawie wywiadu, w Polsce mogą one również korzystać z baz danych różnych
instytucji takich jak Biuro Informacji Kredytowej, Związek Banków Polskich czy biura informacji
gospodarczej. Wiedza zebrana w ten sposób umożliwia ograniczenie ryzyka współpracy z nieuczciwymi
klientami.
Główna idea scoringu kredytowego opiera się na badaniu ryzyka poniesienia kosztów związanych z prawdopodobieństwem
spłaty kredytu. Dla uproszczenia przyjmijmy, ze populacja kredytobiorców składa się
z dwóch grup G i B, oznaczających dobrych i złych klientów, odpowiednio. Dobry kredytobiorca spłaca
kredyt w całości i na czas. Natomiast zły kredytobiorca zależy od stopnia niewywiązania się z umowy.
Zazwyczaj wielkości obu grup są bardzo zróżnicowane. Oznaczmy przez pG prawdopodobieństwo tego, ze
losowo wybrana osoba jest dobrym kredytobiorca, podobnie pB – prawdopodobieństwo wybrania złego
kredytobiorcy. Przy losowo wybranej populacji nie zdarza się, żeby zachodziła równość pG = pB. Niech x
będzie wektorem niezależnych zmiennych wykorzystywanym w procesie podejmowania decyzji, do której
grupy zaliczyć rozpatrywanego klienta. Niech prawdopodobieństwo tego, ze dany klient z opisującym go
wektorem x należy do grupy G wynosi p(G|x), a gdy nalezy do grupy B – p(B|x). Niech prawdopodobieństwo
p(x|G) oznacza, ze dobry kredytobiorca posiada wektor opisujących go cech równy x. Podobnie
dla złego kredytobiorcy prawdopodobieństwo to wynosi p(x|B). Zadaniem jest estymacja prawdopodobieństwa
p(.|x) na podstawie posiadanego zbioru danych dotyczących kredytobiorców, o których wiemy
w jakim stopniu spłacili kredyt. Dodatkowo chcemy znaleźć zasadę podziału przestrzeni X wszystkich
wektorów mierzalnych x na dwie grupy AG i AB, takie ze w grupie AG znalazłyby się jedynie wektory
opisujące dobrych kredytobiorców, natomiast w grupie AB – wektory opisujące wyłącznie złych kredytobiorców.
Niestety w większości przypadków nie jesteśmy w stanie znaleźć idealnego podziału przestrzeni
X, ponieważ może się zdarzyć, ze dwóch kredytobiorców z różnych grup posiada identyczny wektor cech
x. Dlatego tez niezbędne jest znalezienie reguły, która będzie minimalizowała koszty błędnej klasyfikacji
kredytobiorcy. Oznaczmy przez cG koszt związany z zaklasyfikowaniem dobrego kredytobiorcy jako złego,
oraz przez cB – koszt związany z zaklasyfikowaniem złego kredytobiorcy jako dobrego. Zazwyczaj cB > cG
ponieważ koszty związane z błędną klasyfikacją złego kredytobiorcy są dużo wyższe niż jakiekolwiek inne
koszty.
Jeśli klient z opisującym go wektorem x zostanie zaklasyfikowany do grupy G oczekiwane koszty bądą
wynosić cBp(B|x) i wtedy oczekiwana strata dla całej próbki wynosi
cB
X
x2AG
p(B|x)p(x) + cG
X
x2AB
p(G|x)p(x)
gdzie p(x) oznacza prawdopodobieństwo tego, ze rozpatrywany wektor wynosi x. Wielkość ta jest minimalizowana
wtedy, gdy do grupy AG należą kredytobiorcy których wektor x należy do zbioru:
AG = {x|cBp(B|x) ¬ cGp(G|x)} (1)
Po przekształceniach dostajemy:
AG = {x|p(G|x) ­
cB

cB + cG} (2)
Bez straty ogólności możemy znormalizować poniesione koszty i przyjąć, że cB + cG = 1. Zatem reguła
klasyfikacji będzie polegała na tym, ze kredytobiorcę o wektorze zmiennych x przypiszemy do zbioru AG
wtedy, gdy p(G|x) ­ cB. W przeciwnym razie będziemy go zaliczać do grupy AB.
Patrząc na powyższe widzimy, że najważniejszym zadaniem jest ustalenie wysokości kosztów granicznych,
czyli oszacowanie optymalnego punktu odcięcia. Bank musi ustalić czy bardziej zależy mu na uniknięciu
ryzyka czy na dużych dochodach i w zależności od tego ustalić najlepszą dla niego granice kosztów.

Literatura
[1] http://www.statsoft.pl/textbook
[2] Matysiak S. (2011) Zarzadzanie ryzykiem kredytowym w banku.
[3] Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56:
3-4.

Autorem tekstu jest Marta Mrozek.

Zobacz więcej na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

Ryzyko kredytowe

Metody oceny zdolności kredytowej
Ryzyko kredytowe i ocena zdolności kredytowej na podstawie cech osobowości

Dane binarne w statystyce

Rzetelność pomiaru.

meto1

rzetelny

  1. «wypełniający należycie swe obowiązki»

  2. «taki, jaki powinien być, odpowiadający wymaganiom»

  3. «zgodny z prawdą, wiarygodny»”

Słownik języka polskiego PWN

Wszyscy cenimy ludzi rzetelnych. Wypełniających należycie swe obowiązki. Takich, jacy powinni być, odpowiadających wymaganiom. Mówiących rzeczy zgodne z prawda, wiarygodnych, według definicji „Słownika języka polskiego” PWN. Lecz jest pewna grupa ludzi, która rzetelności nie wymaga tylko od ludzi, ale przede wszystkim od zupełnie czegoś innego. Tak, mówimy o badaczach. Bo czego, jeżeli nie wiarygodnego obrazu rzeczywistości poszukują oni w swoich badaniach. Choć rzetelność w rozumieniu psychometrycznym nieco odbiega od tej, która została przedstawiona powyżej, to idea pozostaje ta sama. Chodzi o to by uzyskane przez nas wyniki jak najtrafniej oddawały rzeczywisty charakter badanego zjawiska. By nasze badanie wypełniało należycie swe obowiązki – udzielało odpowiedzi dokładnie na to zagadnienie, które chcemy zgłębić.

Budując kwestionariusz do pomiaru jakiegoś pojęcia umieszczamy w nim optymalną liczbę pozycji, czyli wskaźników naszego badania. Przez optymalna rozumiemy taką, która uwzględnia zarówno wyliczoną liczbę pozycji odpowiadającą wartości pożądanej przez nas rzetelności, jak i czynniki poboczne w obrębie naszego badania. Co to znaczy? Teoria teorią, wzory wzorami, ale musimy się liczyć z tym, że gdy wyliczymy sobie jakąś horrendalnie dużą liczbę pozycji potrzebną do uzyskania oczekiwanej rzetelności i umieścimy ją w formularzu, to możemy mieć problem, chociażby ze znalezieniem chętnych do wzięcia udziału w badaniu. Gdy już uda się nam określić optymalną liczbę pozycji, dopasowujemy do niej skalę. W zależności od charakteru przeprowadzanego badania, dobieramy ilość stopni skali. Gdy to wszystko jest już gotowe, pomiary dokonane, możemy przejść do analizy zebranych pomiarów, a co nas w dzisiejszym wpisie najbardziej interesuje – współczynnika rzetelności.

W modelu klasycznym każdy pomiar odzwierciedla do pewnego stopnia prawdziwy wynik dla badanego pojęcia, a do pewnego stopnia nieznany błąd losowy.

x=tau+error

X – odpowiedni faktyczny pomiar

tau – powszechnie używane do oznaczenia wyniku prawdziwego

error – składnik błędu losowego pomiaru

W takim rozumieniu, warunkiem rzetelnego pomiaru jest wyższy wynik prawdziwy (tau) od błędu (error). Stąd już niedaleka droga do współczynnika rzetelności. Rozumiemy go w kategoriach proporcji zmienności wyniku prawdziwego, która jest ujęta dla wszystkich osobników lub respondentów w stosunku do całkowitej obserwowanej zmienności i może być zapisana w następujący sposób:

A co będzie gdy utworzone przez nas pozycje mają różny poziom rzetelności? Jeśli składnik błędu w odpowiedziach jest rzeczywiście losowy, to możemy oczekiwać, że wartość oczekiwana lub średnia składnika błędu po pozycjach będzie równa zero. Im większa liczba pozycji, tym bardziej w skali sumarycznej odzwierciedlony zostanie wynik prawdziwy.

Najbardziej popularnym współczynnikiem, stosowanym do szacowania rzetelności skali sumarycznej jest alfa Cronbacha.

– wariancja k pojedynczych pozycji

– wariancja sumy wszystkich pozycji

Współczynnik ten przyjmuje wartości od 0 do 1. W przypadku gdy pozycje w ogóle nie dają wyniku prawdziwego, ale jedynie błąd, to wariancja sumy będzie równa sumie wariancji poszczególnych pozycji, a współczynnik alfa będzie wynosił zero. Natomiast wartość 1 otrzymamy wtedy, gdy wszystkie pozycje są idealnie rzetelne i mierzą tę samą rzecz.

Dla pozycji binarnych (prawda/fałsz) chcąc obliczyć alfę Cronbacha, korzystamy z tzw. wzoru 20 Kudera-Richardsona na rzetelność skal sumarycznych. Współczynnik rzetelności obliczany w ten sposób określa się  jako rzetelność wewnętrznie zgodną.

Alternatywna droga w obliczaniu rzetelności skali sumarycznej wymaga od nas podzielenia tej skali w losowy sposób i sprawdzenia korelacji występujących między połówkami. Doskonała korelacja (r=1,0) świadczy o doskonałej rzetelności. By to sprawdzić, do oszacowania wykorzystujemy współczynnik połówkowy Spearmana-Browna:

A jakie są konsekwencje rzetelności mniejszej niż doskonała? Jak możemy się domyślać, im większy udział błędu losowego w faktycznym pomiarze, tym mniejszy udział wyniku prawdziwego. Może to świadczyć o tym, że w rzeczywistości zbadaliśmy zagadnienie zupełnie inne niż to, które pragnęliśmy zgłębić. By się o tym przekonać możemy zbadać korelację z powiązanymi zewnętrznymi kryteriami. Gdy wszystko jest skorelowane, możemy mówić o trafności skali. Dochodzenie do trafności skali jest bardzo praco- i czasochłonne, bo wymaga rozważenia wielu zewnętrznych kryteriów, które teoretycznie powinny być powiązane z pojęciem z założenia mierzonym przez skalę.

Gdy otrzymaliśmy już rzetelność zarówno skali jak i zmiennej kryterium, i wiemy, ze są one skorelowane możemy oszacować rzeczywistą korelację wyników prawdziwych w obu miarach. Co to oznacza? Przy pomocy poniższego wzoru mamy możliwość skorygować korelację ze względu na tłumienie.

– estymator korelacji między wynikami prawdziwymi w obu miarach x i y

,  – rzetelność miar (skal) x i y

Autorem tekstu jest Martyna Kuligowska

Martyna Kuligowska Analiza statystyczna danych

Dane binarne w statystyce

Propensity Score Matching – W skrócie.

 

meto

Pewnie dużo słyszałeś wcześniej o dopasowaniu propensity score. Czym one są i jak można ich używać ?

Propensity scores są użyteczne kiedy próbujemy wyciągnąć doraźne wnioski z badań obserwacyjnych gdzie „manipulacja eksperymentalna” nie była losowo przydzielana wybranym obserwacjom. Dla uproszczenia przypuśćmy, że zmienna niezależna ma dwa poziomy T=1 (manipulacja) i T=0 brak manipulacji. W badaniach randomizowanych, propensity score jest znany, dla przykładu: jeśli manipulacja została przydzielona do uczestników poprzez kostkę lub monetę, wtedy propensity score dla wszystkich wynosi 0,5. W typowych badaniach obserwacyjnych, propensity score nie jest znany, ponieważ manipulacja nie była przydzielana przez badacza. W tym przypadku, propensity score często jest szacowany poprzez dopasowanie wartości przewidywanych z regresji logistycznej (lub innej metody klasyfikacyjnej)  zbudowanej z charakterystyk badanych. W badaniach obserwacyjnych, manipulowana grupa i grupa kontrolna, nie są bezpośrednio porównywalne, ponieważ mogą się one różnic już u podstaw. Propensity score odgrywa ważną rolę w wybalansowaniu grup badawczych by stały się porównywalne. Rosenbaum & Rubin (1983) pokazali, że manipulowana ni kontrolna grupa z takimi samymi propensity scorami miała identyczne rozkłady dla wszystkich zmiennych bazowych. Ta „balansująca właściwość” oznacza, że jeśli kontrolujemy propensity score kiedy porównujemy grupy, mamy efektywny zwrot z badania obserwacyjnego do badania eksperymentalnego, gdzie obserwacje w grupach mają te same charakterystyki. Możesz się zastanawiać, czemu potrzebujemy kontroli propensity score, bardziej niż bezpośrednia kontrola bazowych zmiennych ? Zakładamy, że relacja między zmienną zależną a niezależną jest liniowa, a ta dla wszystkich w obu grupach T1 i T0 jest taka sama.

 

Autorem tekstu jest Konrad Hryniewicz

Źródło tekstu: https://methodology.psu.edu/eresources/ask/fa07

cv

analiza statystyczna wyników badań

Wielkość i siła efektu – podstawowe miary szacujące siłę związków i wpływów.

meto

 

Wielkość efektu weryfikują miary siły efektu.

Wielkość efektu jest ilościową miarą siły zjawiska obliczaną na podstawie danych. Stosuje się ją do mierzenia wpływu pewnego czynnika na wynik ogólny grupy, czyli siły związku między zmienną niezależną a zmienną zależną. Wielkość efektu nie jest zależna od wielkości próby, a jego interpretacja opiera się na założeniu o normalności rozkładów wyników porównywanych grup.

Miary wielości efektu dzielą się na dwie rodziny. Jest to rodzina d, w skład której wchodzą:
d Cohena (dla testu t dla prób zależnych) oraz g Hedgesa (dla testu t dla prób niezależnych).  W skład rodziny r wchodzą miary takie jak: eta-kwadrat, omega-kwadrat oraz r ( jest to współczynnik korelacji punktowo-dwuseryjnej  między grupą eksperymentalną a kontrolną, wyniki są zmienną o charakterze ciągłym).

Tab. Miary wielkości / siły efektu oraz przyjmowane przez nie wartości dla poszczególnych testów. Źródło: Internet

Miary wielkości / siły efektu Przedział wartości siły związku
Test t dla 2 średnich niezależnych i zależnych 1. d Cohena

2. g Hedgesa

3. r punktowo-dwuseryjny między grupami

d Cohena, g Hedgesa:

0.2 – efekt mały

0.5 – efekt przeciętny

0.8 – efekt duży

Jednoczynnikowa ANOVA 1. Eta-kwadrat

2. Omega-kwadrat

Eta-kwadrat <0,1>

Omega-kwadrat

0.01 – efekt mały

0.06 – efekt przeciętny

0.14 – efekt duży

Dwuczynnikowa ANOVA 1. Eta-kwadrat

2. Cząstkowa omega-kwadrat

Eta-kwadrat <0,1>

Omega-kwadrat

0.01 – efekt mały

0.06 – efekt przeciętny

0.14 – efekt duży

Chi-kwadrat Współczynnik Fi

Fi Cramera

0.1 – efekt mały

0.3 – efekt przeciętny

0.5 – efekt duży

Test Kruskala-Wallisa Epsilon-kwadrat <0,1>
Test U Manna-Whitneya rg Rangowy współczynnik korelacji dwuseryjnej Glassa <-1,1>
Test rang Friedmana Współczynnik zgodności W <0,1>
Test znaków rangowanych Wilcoxona rc Rangowy współczynnik korelacji dwuseryjnej dla par dopasowanych <-1,1>

Poszczególne analizy wymagają zastosowania określonych miar wielkości efektu. W dalszej części tekstu po kolei się im przyjrzymy.

Dla jednoczynnikowej analizy wariancji miarą wielkości efektu będzie Eta-kwadrat (stosunek korelacyjny) oraz Omega-kwadrat dla grup niezależnych. Miara Eta-kwadrat szacuje proporcję całkowitej wariancji, którą można przypisać zmiennej niezależnej. Jest ona jednak obciążona, gdyż podwyższa szacowane wartości.
ɳ2 = SSm/SSc 

gdzie: SSm – międzygrupowa suma kwadratów ; SSc – całkowita suma kwadratów

Omega kwadrat to względnie nieobciążona miara wielkości efektu w ANOVA dla grup niezależnych. Miara Omega-kwadrat szacuje proporcję wariancji zmiennej zależnej w populacji, którą możemy przypisać k warunkom eksperymentalnym.

ω2m = [SSm – (k – 1)(s2wew)]/(SSc + s2wew)

gdzie: SSm – międzygrupowa suma kwadratów;  SSc – całkowita suma kwadratów; s2wew – wewnątrzgrupowe oszacowanie wariancji

Miara wielkości efektu w ANOVA dla pomiarów powtarzanych to Eta-kwadrat dla pomiarów powtarzanych.  Miara ta szacuje tę proporcję zróżnicowania, którą można przypisać zmiennej niezależnej po wyeliminowaniu zróżnicowania spowodowanego różnicami indywidualnymi.

ɳ2 = SS2osoby/(SS2osoby + SS2reszta)

Miarą wielkości efektu w ANOVA dla planu dwuczynnikowego jest Eta-kwadrat dla planu dwuczynnikowego.

ɳ2wiersze = SSW/SSc

ɳ2kolumny = SSK/SSc

ɳ2WK = SSWK/SSc

gdzie: SSW –suma kwadratów dla wiersza; SSK – suma kwadratów dla kolumny; SSWK – suma kwadratów dla interakcji WK; SSc – całkowita suma kwadratów

Miarą siły związku między zmienną zależną a efektem eksperymentalnym każdego z czynników jest cząstkowa Omega-kwadrat dla planu czynnikowego.

ω2= oszacowanie wariancji dla (W, K oraz WK)/ [oszacowanie wariancji dla (W, K oraz WK) + oszacowanie wariancji wewnątrz kratek]

gdzie: W – liczba wierszy; K – liczba kolumn

Dane jakościowe również posiadają własne miary do oceniania wielkości efektu. Popularnie używane miary związku dla testu chi-kwadrat to współczynnik Phi oraz V Cramera. Współczynnik Phi jest związany z punktowo-dwuseryjną korelacją oraz z d Cohena i oszacowuje rozmiar związku pomiędzy dwoma zmiennymi (2×2). Natomiast V Craméra jest rozszerzeniem współczynnika fi i może być użyty ze zmiennymi o większej ilości kategorii.

Współczynniki fi=√χ2/n

V Cramera√χ2/n(df mniejsze)

V Cramera możemy przekształcić na wartość omega-kwadrat. Według Cohena można przyjąć, że omega kwadrat wynosząca 0,1 – oznacza mały efekt; 0,3 – przeciętny efekt a 0,5 – duży efekt.

Wielkość efektu jest ważna również w badaniach korelacyjnych. W przypadku analizy regresji miarami wielkości efektu są: statystyka R2 oraz współczynnik f 2 Cohena. Statystyka R2 mówi o stopniu dopasowania modelu do danych. Pokazuje jaki procent wariancji zmiennej zależnej można wyjaśnić za pomocą predykatorów. Współczynnik f 2 Cohena, wykorzystujący statystykę R2, stosowany jest w modelu regresji wielokrotnej.

 Współczynnik f 2 Cohena=R2/1-R2

W przypadku eksploracyjnej analizy czynnikowej miarą wielkości efektu jest łączny procent wariancji wyjaśnianej przez wyodrębnione czynniki. W przypadku konfirmacyjnej analizy czynnikowej stosujemy test chi-kwadrat (Jest to miara dobroci dopasowania modelu do danych) oraz wskaźniki GFI (wskaźnik dobroci dopasowania) oraz AGFI (skorygowany wskaźnik dobroci dopasowania), które porównują wyjściową oraz odtworzoną macierz kowariancji. Innymi miarami wielkości efektu dla konfirmacyjnej analizy czynnikowej jest pierwiastek ze średniego kwadratu reszt (RMR) oraz pierwiastek ze średniego kwadratu błędu aproksymacji (RMSEA). Pokazuje on średnią z macierzy pozostałości po dopasowaniu modelu (macierz reszt). Jego poprawną interpretację zapewnia odniesienie go do wielkości kowariancji z macierzy korelacji zmiennych obserwowalnych. Wysoka wartość RMR wskazuje na złe dopasowanie modelu. Z kolei pierwiastek ze średniego kwadratu błędu aproksymacji (RMSEA) szacuje wielkość popełnianego błędu aproksymacji w populacji.

Miarą wielkości efektu dla modelu analizy ścieżek Path Analysis jest, analogicznie jak w przypadku analizy regresji, statystyka R2.

W przypadku, gdy jedyną alternatywą jest brak jakiegokolwiek wskaźnika wielkości efektu próba jest mała i inne wskaźniki mogą wprowadzać w błąd, gdy zastosowano metody nieparametryczne dla których brak określonych ściśle wskaźników lub gdy badanie zbliżone jest formą do badania standardowego, stosujemy wskaźnik requivalent.  Jest to wskaźnik wielkości efektu, który można odczytać z tablic bądź obliczyć przy pomocy wzoru:

r=√t2/t2+(N+2)

Źródła:

Brzeziński, J. (2004). Metodologia badań psychologicznych. Warszawa: Wydawnictwo Naukowe PWN

King, B., Minium, E. (2009). Statystyka dla psychologów i pedagogów. Warszawa: Wydawnictwo Naukowe PWN

 Więcej na:

Jakie jest stanowisko asa (Amerykanskie Stowarzyszenie Statystyczne) na temat wartości p (istotnosci statystycznej) w odniesieniu do psychologii/