statystyka medyczna, biostatystyka

Statystyczne metody lokalizacji genów.

meto

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Lokalizacja genów wpływających na pewne ilościowe fenotypowe cechy osobników (w skrócie mapowanie QTL’i) polega na wskazaniu tych loci (miejsc) na chromosomie, na których znajdują się geny istotnie sprzężone z badaną cechą ilościową.

Rozwiązanie tego problemu jest szczególnie istotne w takich dziedzinach nauki jak medycyna (geny odpowiedzialne za choroby dziedziczne, uzależnienia), hodowla roślin i zwierząt (np. polepszenie jakość upraw, zwiększenie wydajności mlecznej krów) i psychologia (wpływ genów na cechy osobowości). Genetycy na podstawie wieloletnich badań sporządzają tzw. mapy markerów genetycznych, czyli zbiory genotypów znajdujących się na określonych loci. Dzięki nim, przy użyciu różnych metod statystycznych, estymuje się m. in. położenia i efekty szukanych QTL’i.

Pierwsze prace nad metodami lokalizacji QTL’i zapoczątkował Soller. Wykorzystywał on podstawowe metody statystyczne (analiza ANOVA, test t-Studenta) do wskazania zmiennych, które istotnie wpływają na badaną cechę. Nowych zmiennych poszukiwał on tylko na pozycjach, na których znajdowały się markery. Dopiero w 1989 Lander i Botstain wprowadzili metodę interwałową, która umożliwiała lokalizację QTL’i między markerami. Początkowo badano modele z jednym QTL’em. W ostatnich latach zaczęto rozpatrywać modele z większą liczbą QTL’i.

Powstają nowe metody statystyczne, których celem jest nie tylko estymacja położenia i efektów QTL’i, ale również ich ilości. W wielu przypadkach bada się również, czy między znalezionymi QTL’ami występują interakcje.

Metody ogólnie podzielić możemy na te, które służą do porównywania modeli – kryteria wyboru modelu AIC, BIC i ich modyfikacje, kryterium Bayesa. Drugą grupą są kryteria służące do dopasowania modelu czyli np. metoda największej wiarogodności, metoda Haley’a-Knott’a, algorytm Expectation-Maximization, metody Monte Carlo łańcucha Markowa (MCMC). Są również metody służące do szukania najlepszego modelu takie jak metody krokowe.

Przypuśćmy, że znamy mapę markerów genetycznych. Wiemy ponadto, że szukane QTL’e znajdują się pomiędzy markerami, zatem oprócz tego, że nie znamy ich położeń, efektów i ilości, dodatkową niewiadomą stają się ich genotypy. W takim przypadku całkiem dobrze sprawdza się interwałowa metoda lokalizacji genów.

Wielowymiarowa metoda interwałowa może być zaimplementowana na kilka różnych sposobów. W wersji deterministycznej tej metody można się posłużyć algorytmem EM (do wyestymowania brakujących danych) oraz kryteriami informacyjnymi, takimi jak mBIC przy wyborze modelu. Można też użyć metody bayesowskiej – algorytmu reversible jump MCMC.

Rozważmy model liniowy dla cechy fenotypowej na którą oddziałuje p QTL’i. Wartości genotypowe zarówno markerów jak i szukanych genów będziemy oznaczać jak w (1). Zaobserwowany fenotyp yi i-tego osobnika w próbce wielkości n możemy przedstawić za pomocą następującego modelu liniowego:

yi = β0 +  ∑    βj Qij + i, (1)

gdzie i jest zmienną losową o średniej zero i wariancji σ^2, β = {β_j }, j = 1, …, p to współczynniki regresji – efekty QTL’i, natomiast Qij , i = 1, …, n, j = 1, …, p oznaczają genotypy QTL’i. Niech dodatkowo λ_j oznacza odległość j-tego QTL’a od początku chromosomu. Wtedy parametrami genetycznymi są położenia QTL’i λ oraz wektor parametrów θ = (β_0, β, σ^2). Oprócz wartości fenotypowych y_i badanych osobników dysponujemy również wiedzą na temat genotypów m markerów – M_i = {M_i_k}_m_k=1 dla i-tego osobnika oraz znamy odległości D = {D_k}_m_k=1, gdzie D_k oznacza odległość między 1 i k-tym markerem.

Autorem tekstu jest Marta Mrozek.

Więcej info na:

Statystyczna analiza danych 

Zalety statystyki Bayesowskiej

Naiwny klasyfikator Bayesa
Najczesciej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

Analiza statystyczna danych warszawa wroclaw krakow poznan gdansk

problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Metody oceny zdolnosci kredytowej

meto

 

Metody oceny zdolności kredytowej

Pojęcie zdolności kredytowej
Ustawa z dnia 29 sierpnia 1997 roku — Prawo bankowe (Dz. U. z 1997 r. Nr 140, poz. 939, art. 70.1.)
definiuje zdolność kredytowa następujaco: Przez zdolność kredytowa rozumie się zdolność do spłaty zaciągniętego
kredytu wraz z odsetkami w terminach określonych w umowie. Kredytodawca, biorąc pod
uwagę sytuację majątkową jednostki gospodarczej, której udziela kredytu oraz zewnętrzne uwarunkowania
ekonomiczne w danym momencie, próbuje oszacować ryzyko niespłacenia kredytu. Bardzo ważne jest,
aby zdolność kredytowa kredytobiorcy dobrze określić przed podpisaniem umowy. Jednak w momencie
przyznania kredytu nie kończy się okres obserwowania kredytobiorcy, wręcz przeciwnie – przez cały czas
trwania stosunku kredytowego banki dokonują oceny zdolności kredytowej jednostek gospodarczych korzystających
z kredytu. Bank musi umieć stwierdzić, czy kredytobiorca będzie w stanie spłacić całą kwotę
w terminie zawartym w umowie.
Podmiot gospodarczy posiada zdolność kredytowa wtedy, gdy jest wypłacalny, czyli na tyle efektywnie
gospodaruje pieniędzmi, że jest w stanie regulować na bieżąco wszystkie swoje zobowiązania, a w razie
czego mieć możliwość upłynnienia swojego majątku. Badanie zdolności kredytowej ma na celu określenie
w każdym postępowaniu o przyznaniu kredytu stopnia ryzyka, na jakie narażony jest bank.

Bank przy udzielaniu kredytu narażony jest na dwa rodzaje ryzyka:

1. aktywne:
(a) straty
(b) utraty płynności
(c) utraty ubezpieczenia

2. pasywne:
(a) zmiany procentu
(b) zmiany kursu walutowego
(c) zmiany wartości pieniądza
Główna różnica miedzy tymi dwoma rodzajami ryzyka jest to, ze o ile bank jest jeszcze w stanie
kontrolować ryzyko aktywne i je chociaż w pewnym stopniu przewidywać, tak nie ma prawie żadnego
wpływu na to na jakim poziomie będzie się utrzymywało ryzyko pasywne. Ryzyko pasywne jest niezależne
od kredytodawców, dlatego też starają się oni za wszelka cenę minimalizować poziom ryzyka aktywnego.

Metody scoringowe – idea

Metody scoringowe oceny zdolności kredytowej są obecnie najpowszechniejsze i najbardziej rozwijane,
dają również najlepsze rezultaty. Odpowiedzmy sobie zatem na pytanie ’czym jest scoring?’. Najprościej
mówiąc, jest to ocena punktowa reprezentująca wiarygodność kredytową kredytobiorcy. Jednak obecnie
banki oraz różne inne instytucje finansowe wykorzystują metody scoringowe do tworzenia rozbudowanych
modeli statystycznych prognozujących różnego rodzaju prawdopodobieństwa, które w praktyce wykorzystywane
sa jako element procesu decyzyjnego.
Metody scoringowe powstały ponad 50 lat temu. Pierwsza firma, która zaczęła je stosować była Fair Isaac
Corporation (obecnie FICO), utworzona w 1956 roku przez inżyniera Billa Faira oraz matematyka Earla
Judsona Isaaca. Założyciele FICO rozpoczęli budowę metod scoringowych od sporządzania prostych tablic
aplikacyjnych. Dopiero w 1975 roku wprowadzony został system scoringu behawioralnego do oceny
ryzyka kredytowego związanego z obsługa dotychczasowego klienta.
Oczywiście z postępem technologii informatycznych metody te były coraz bardziej rozwijane i doskonalone.
Dla scoringu było to tak bardzo istotne ze względu na możliwość przechowywania i obróbki dużych
ilości danych (m.in. socjodemograficznych i transakcyjnych). Oprócz danych o klientach, które banki
same zbierają głównie na podstawie wywiadu, w Polsce mogą one również korzystać z baz danych różnych
instytucji takich jak Biuro Informacji Kredytowej, Związek Banków Polskich czy biura informacji
gospodarczej. Wiedza zebrana w ten sposób umożliwia ograniczenie ryzyka współpracy z nieuczciwymi
klientami.
Główna idea scoringu kredytowego opiera się na badaniu ryzyka poniesienia kosztów związanych z prawdopodobieństwem
spłaty kredytu. Dla uproszczenia przyjmijmy, ze populacja kredytobiorców składa się
z dwóch grup G i B, oznaczających dobrych i złych klientów, odpowiednio. Dobry kredytobiorca spłaca
kredyt w całości i na czas. Natomiast zły kredytobiorca zależy od stopnia niewywiązania się z umowy.
Zazwyczaj wielkości obu grup są bardzo zróżnicowane. Oznaczmy przez pG prawdopodobieństwo tego, ze
losowo wybrana osoba jest dobrym kredytobiorca, podobnie pB – prawdopodobieństwo wybrania złego
kredytobiorcy. Przy losowo wybranej populacji nie zdarza się, żeby zachodziła równość pG = pB. Niech x
będzie wektorem niezależnych zmiennych wykorzystywanym w procesie podejmowania decyzji, do której
grupy zaliczyć rozpatrywanego klienta. Niech prawdopodobieństwo tego, ze dany klient z opisującym go
wektorem x należy do grupy G wynosi p(G|x), a gdy nalezy do grupy B – p(B|x). Niech prawdopodobieństwo
p(x|G) oznacza, ze dobry kredytobiorca posiada wektor opisujących go cech równy x. Podobnie
dla złego kredytobiorcy prawdopodobieństwo to wynosi p(x|B). Zadaniem jest estymacja prawdopodobieństwa
p(.|x) na podstawie posiadanego zbioru danych dotyczących kredytobiorców, o których wiemy
w jakim stopniu spłacili kredyt. Dodatkowo chcemy znaleźć zasadę podziału przestrzeni X wszystkich
wektorów mierzalnych x na dwie grupy AG i AB, takie ze w grupie AG znalazłyby się jedynie wektory
opisujące dobrych kredytobiorców, natomiast w grupie AB – wektory opisujące wyłącznie złych kredytobiorców.
Niestety w większości przypadków nie jesteśmy w stanie znaleźć idealnego podziału przestrzeni
X, ponieważ może się zdarzyć, ze dwóch kredytobiorców z różnych grup posiada identyczny wektor cech
x. Dlatego tez niezbędne jest znalezienie reguły, która będzie minimalizowała koszty błędnej klasyfikacji
kredytobiorcy. Oznaczmy przez cG koszt związany z zaklasyfikowaniem dobrego kredytobiorcy jako złego,
oraz przez cB – koszt związany z zaklasyfikowaniem złego kredytobiorcy jako dobrego. Zazwyczaj cB > cG
ponieważ koszty związane z błędną klasyfikacją złego kredytobiorcy są dużo wyższe niż jakiekolwiek inne
koszty.
Jeśli klient z opisującym go wektorem x zostanie zaklasyfikowany do grupy G oczekiwane koszty bądą
wynosić cBp(B|x) i wtedy oczekiwana strata dla całej próbki wynosi
cB
X
x2AG
p(B|x)p(x) + cG
X
x2AB
p(G|x)p(x)
gdzie p(x) oznacza prawdopodobieństwo tego, ze rozpatrywany wektor wynosi x. Wielkość ta jest minimalizowana
wtedy, gdy do grupy AG należą kredytobiorcy których wektor x należy do zbioru:
AG = {x|cBp(B|x) ¬ cGp(G|x)} (1)
Po przekształceniach dostajemy:
AG = {x|p(G|x) ­
cB

cB + cG} (2)
Bez straty ogólności możemy znormalizować poniesione koszty i przyjąć, że cB + cG = 1. Zatem reguła
klasyfikacji będzie polegała na tym, ze kredytobiorcę o wektorze zmiennych x przypiszemy do zbioru AG
wtedy, gdy p(G|x) ­ cB. W przeciwnym razie będziemy go zaliczać do grupy AB.
Patrząc na powyższe widzimy, że najważniejszym zadaniem jest ustalenie wysokości kosztów granicznych,
czyli oszacowanie optymalnego punktu odcięcia. Bank musi ustalić czy bardziej zależy mu na uniknięciu
ryzyka czy na dużych dochodach i w zależności od tego ustalić najlepszą dla niego granice kosztów.

Literatura
[1] http://www.statsoft.pl/textbook
[2] Matysiak S. (2011) Zarzadzanie ryzykiem kredytowym w banku.
[3] Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56:
3-4.

Autorem tekstu jest Marta Mrozek.

Zobacz więcej na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

Ryzyko kredytowe

Metody oceny zdolności kredytowej
Ryzyko kredytowe i ocena zdolności kredytowej na podstawie cech osobowości

Dane binarne w statystyce

Rzetelność pomiaru.

meto1

rzetelny

  1. «wypełniający należycie swe obowiązki»

  2. «taki, jaki powinien być, odpowiadający wymaganiom»

  3. «zgodny z prawdą, wiarygodny»”

Słownik języka polskiego PWN

Wszyscy cenimy ludzi rzetelnych. Wypełniających należycie swe obowiązki. Takich, jacy powinni być, odpowiadających wymaganiom. Mówiących rzeczy zgodne z prawda, wiarygodnych, według definicji „Słownika języka polskiego” PWN. Lecz jest pewna grupa ludzi, która rzetelności nie wymaga tylko od ludzi, ale przede wszystkim od zupełnie czegoś innego. Tak, mówimy o badaczach. Bo czego, jeżeli nie wiarygodnego obrazu rzeczywistości poszukują oni w swoich badaniach. Choć rzetelność w rozumieniu psychometrycznym nieco odbiega od tej, która została przedstawiona powyżej, to idea pozostaje ta sama. Chodzi o to by uzyskane przez nas wyniki jak najtrafniej oddawały rzeczywisty charakter badanego zjawiska. By nasze badanie wypełniało należycie swe obowiązki – udzielało odpowiedzi dokładnie na to zagadnienie, które chcemy zgłębić.

Budując kwestionariusz do pomiaru jakiegoś pojęcia umieszczamy w nim optymalną liczbę pozycji, czyli wskaźników naszego badania. Przez optymalna rozumiemy taką, która uwzględnia zarówno wyliczoną liczbę pozycji odpowiadającą wartości pożądanej przez nas rzetelności, jak i czynniki poboczne w obrębie naszego badania. Co to znaczy? Teoria teorią, wzory wzorami, ale musimy się liczyć z tym, że gdy wyliczymy sobie jakąś horrendalnie dużą liczbę pozycji potrzebną do uzyskania oczekiwanej rzetelności i umieścimy ją w formularzu, to możemy mieć problem, chociażby ze znalezieniem chętnych do wzięcia udziału w badaniu. Gdy już uda się nam określić optymalną liczbę pozycji, dopasowujemy do niej skalę. W zależności od charakteru przeprowadzanego badania, dobieramy ilość stopni skali. Gdy to wszystko jest już gotowe, pomiary dokonane, możemy przejść do analizy zebranych pomiarów, a co nas w dzisiejszym wpisie najbardziej interesuje – współczynnika rzetelności.

W modelu klasycznym każdy pomiar odzwierciedla do pewnego stopnia prawdziwy wynik dla badanego pojęcia, a do pewnego stopnia nieznany błąd losowy.

x=tau+error

X – odpowiedni faktyczny pomiar

tau – powszechnie używane do oznaczenia wyniku prawdziwego

error – składnik błędu losowego pomiaru

W takim rozumieniu, warunkiem rzetelnego pomiaru jest wyższy wynik prawdziwy (tau) od błędu (error). Stąd już niedaleka droga do współczynnika rzetelności. Rozumiemy go w kategoriach proporcji zmienności wyniku prawdziwego, która jest ujęta dla wszystkich osobników lub respondentów w stosunku do całkowitej obserwowanej zmienności i może być zapisana w następujący sposób:

A co będzie gdy utworzone przez nas pozycje mają różny poziom rzetelności? Jeśli składnik błędu w odpowiedziach jest rzeczywiście losowy, to możemy oczekiwać, że wartość oczekiwana lub średnia składnika błędu po pozycjach będzie równa zero. Im większa liczba pozycji, tym bardziej w skali sumarycznej odzwierciedlony zostanie wynik prawdziwy.

Najbardziej popularnym współczynnikiem, stosowanym do szacowania rzetelności skali sumarycznej jest alfa Cronbacha.

– wariancja k pojedynczych pozycji

– wariancja sumy wszystkich pozycji

Współczynnik ten przyjmuje wartości od 0 do 1. W przypadku gdy pozycje w ogóle nie dają wyniku prawdziwego, ale jedynie błąd, to wariancja sumy będzie równa sumie wariancji poszczególnych pozycji, a współczynnik alfa będzie wynosił zero. Natomiast wartość 1 otrzymamy wtedy, gdy wszystkie pozycje są idealnie rzetelne i mierzą tę samą rzecz.

Dla pozycji binarnych (prawda/fałsz) chcąc obliczyć alfę Cronbacha, korzystamy z tzw. wzoru 20 Kudera-Richardsona na rzetelność skal sumarycznych. Współczynnik rzetelności obliczany w ten sposób określa się  jako rzetelność wewnętrznie zgodną.

Alternatywna droga w obliczaniu rzetelności skali sumarycznej wymaga od nas podzielenia tej skali w losowy sposób i sprawdzenia korelacji występujących między połówkami. Doskonała korelacja (r=1,0) świadczy o doskonałej rzetelności. By to sprawdzić, do oszacowania wykorzystujemy współczynnik połówkowy Spearmana-Browna:

A jakie są konsekwencje rzetelności mniejszej niż doskonała? Jak możemy się domyślać, im większy udział błędu losowego w faktycznym pomiarze, tym mniejszy udział wyniku prawdziwego. Może to świadczyć o tym, że w rzeczywistości zbadaliśmy zagadnienie zupełnie inne niż to, które pragnęliśmy zgłębić. By się o tym przekonać możemy zbadać korelację z powiązanymi zewnętrznymi kryteriami. Gdy wszystko jest skorelowane, możemy mówić o trafności skali. Dochodzenie do trafności skali jest bardzo praco- i czasochłonne, bo wymaga rozważenia wielu zewnętrznych kryteriów, które teoretycznie powinny być powiązane z pojęciem z założenia mierzonym przez skalę.

Gdy otrzymaliśmy już rzetelność zarówno skali jak i zmiennej kryterium, i wiemy, ze są one skorelowane możemy oszacować rzeczywistą korelację wyników prawdziwych w obu miarach. Co to oznacza? Przy pomocy poniższego wzoru mamy możliwość skorygować korelację ze względu na tłumienie.

– estymator korelacji między wynikami prawdziwymi w obu miarach x i y

,  – rzetelność miar (skal) x i y

Autorem tekstu jest Martyna Kuligowska

Martyna Kuligowska Analiza statystyczna danych

Dane binarne w statystyce

Propensity Score Matching – W skrócie.

 

meto

Pewnie dużo słyszałeś wcześniej o dopasowaniu propensity score. Czym one są i jak można ich używać ?

Propensity scores są użyteczne kiedy próbujemy wyciągnąć doraźne wnioski z badań obserwacyjnych gdzie „manipulacja eksperymentalna” nie była losowo przydzielana wybranym obserwacjom. Dla uproszczenia przypuśćmy, że zmienna niezależna ma dwa poziomy T=1 (manipulacja) i T=0 brak manipulacji. W badaniach randomizowanych, propensity score jest znany, dla przykładu: jeśli manipulacja została przydzielona do uczestników poprzez kostkę lub monetę, wtedy propensity score dla wszystkich wynosi 0,5. W typowych badaniach obserwacyjnych, propensity score nie jest znany, ponieważ manipulacja nie była przydzielana przez badacza. W tym przypadku, propensity score często jest szacowany poprzez dopasowanie wartości przewidywanych z regresji logistycznej (lub innej metody klasyfikacyjnej)  zbudowanej z charakterystyk badanych. W badaniach obserwacyjnych, manipulowana grupa i grupa kontrolna, nie są bezpośrednio porównywalne, ponieważ mogą się one różnic już u podstaw. Propensity score odgrywa ważną rolę w wybalansowaniu grup badawczych by stały się porównywalne. Rosenbaum & Rubin (1983) pokazali, że manipulowana ni kontrolna grupa z takimi samymi propensity scorami miała identyczne rozkłady dla wszystkich zmiennych bazowych. Ta „balansująca właściwość” oznacza, że jeśli kontrolujemy propensity score kiedy porównujemy grupy, mamy efektywny zwrot z badania obserwacyjnego do badania eksperymentalnego, gdzie obserwacje w grupach mają te same charakterystyki. Możesz się zastanawiać, czemu potrzebujemy kontroli propensity score, bardziej niż bezpośrednia kontrola bazowych zmiennych ? Zakładamy, że relacja między zmienną zależną a niezależną jest liniowa, a ta dla wszystkich w obu grupach T1 i T0 jest taka sama.

 

Autorem tekstu jest Konrad Hryniewicz

Źródło tekstu: https://methodology.psu.edu/eresources/ask/fa07

cv