Dane binarne w statystyce

Statystyka opisowa – statystyczny opis danych.

meto

Statystyka opisowa

Od czego najlepiej zacząć analizę danych, gdy już wszystkie pracowicie wprowadzimy do programu i nie mamy pojęcia co dalej? Musimy się zaznajomić z naszymi danymi i zobaczyć co tak naprawdę udało nam się zebrać i jakie analizy będzie można na tych danych przeprowadzić. Do tego służą nam statystyki opisowe. Statystyka opisowa pozwala nam obiektywnie zobrazować różne aspekty naszych danych liczbowych.

Statystyki opisowe najczęściej dotyczą jednej zmiennej czyli wybranej właściwości z naszego zbioru danych, która przyjmuje co najmniej dwie różne wartości (np. płeć osoby badanej). Zmienne dzielimy na grupy ze względu na ich różne własności. Najpopularniejszym i najbardziej praktycznym podziałem jest podział Stevensa.

Stevens wyróżnił:

  1. Skalę nominalną – mamy tylko kategorię dla osoby badanej
  2. Skalę porządkową – kategorie mogą zostać ułożone od najmniejszej do największej
  3. Skalę interwałową – posiada jednostkę, wiemy o ile obserwacje się od siebie różnią
  4. Skalę ilorazową – posiada zero bezwzględne, wiemy ile razy obserwacje się różnią

Skale interwałowe i ilorazowe nazywamy często łącznie skalą ilościową.

Do podstawowego opisu statystycznego zmiennych stosujemy miary tendencji centralnej i miary rozproszenia.

Miary tendencji centralnej:

DOMINANTA – określa wartość najczęstszą w danym zbiorze, może być stosowana dla każdej skali

MEDIANA – jest to wartość środkowa w uporządkowanym wg wielkości zbiorze, może być stosowana dla skal porządkowych i ilościowych.

KWARTYL – kwartyle dzielą uporządkowaną grupę na cztery równe części

ŚREDNIA ARYTMETYCZNA – wartość przeciętna, ma zastosowanie tylko dla skal ilościowych

Miary rozproszenia:

ROZSTĘP – różnica między maksymalną a minimalną wartością w grupie

ODCHYLENIE ĆWIARTKOWE – jest to różnica między trzecim i pierwszym kwartylem podzielona przez dwa

ODCHYLENIE ŚREDNIE – jest to średnia arytmetyczna bezwzględnych odchyleń pomiarów od średniej arytmetycznej w próbie

ODCHYLENIE STANDARDOWE – jest to pierwiastek z sumy kwadratów odchyleń od średniej poszczególnych obserwacji podzielonej przez liczbę obserwacji. Kwadrat odchylenia standardowego to WARIANCJA – najszerzej stosowana miara zmienności zmiennej

WSPÓŁCZYNNIK ZMIENNOŚCI – jest równy ilorazowi odchylenia standardowego i średniej arytmetycznej. Dla danych porządkowych stosowany jest pozycyjny współczynnik zmienności oparty na medianie i odchyleniu ćwiartkowym. Wartość współczynnika zmienności poniżej 0,5 świadczy o niewielkim zróżnicowaniu, wartości z przedziału 0,5-1 wskazują na umiarkowane zróżnicowanie, a wartości powyżej 1 świadczą o bardzo dużym zróżnicowaniu.

Autorem tekstu jest Marta Mrozek.

Potrzebujesz wsparcia lub usług statystyczno-metodologicznych? Napisz do nas lub zadzwoń. Oferujemy niskie ceny przy badaniach korelacyjnych i prostych eksperymentach!

Władzą jest wiedza o źródłach zmienności Metodolog.pl motto

Analiza statystyczna standardy APA

Współczynnik rzetelności – Alfa Cronbacha.

meto

 

 Alfa Cronbacha jest statystyką. Używa się jej zwykle do mierzenia wewnętrznej spójności albo rzetelności psychometrycznego narzędzia.

 

Innymi słowy, mierzy jak dobrze zestaw zmiennych albo pozycji mierzy pojedynczy, jednowymiarowy ukryty aspekt jednostki. Generalnie, niejedna wielkość zainteresowania medycznego, jak lęk albo poziom niepełnosprawności, są niemożliwe do jednoznacznego zmierzenia. W takich przypadkach, zadajemy szereg pytań i łączymy odpowiedzi w jedną, liczbową wartość.

Co to jest?

 

Na przykład, załóżmy, że chcemy się dowiedzieć jaki jest stopień niepełnosprawności pacjentów cierpiących na mielopatię szyjki macicy.

Najpierw przygotujemy tabelę z 10 pozycjami rejestrującymi poziom trudności napotykanych przy wykonywaniu codziennych czynności. Każda pozycja jest oceniana od 1 co znaczy „bezproblemowo” do 4 co oznacza „niewykonalne”. Zsumowany wynik z tych 10 pozycji da nam ostateczny rezultat.

Jednakże, kiedy pozycje są użyte by stworzyć skalę, muszą być wewnętrznie spójne. Każda z pozycji powinna mierzyć tę samą rzecz, więc powinny być one ze sobą skorelowane. Alfa Cronbacha generalnie wrasta gdy korelacje pomiędzy pozycjami wzrastają. Z tego powodu, współczynnik jest także nazywany spójnością wewnętrzną albo wewnętrzną spójnością rzetelności dla testu.

Zakres

 

Wartość alfa (α) może się znajdować pomiędzy minus nieskończonością a 1. Jednak, tylko dodatnia wartość (α) ma sens. Generalnie, współczynnik alfa ma zakres od 0 do 1 i może zostać wykorzystany do opisania rzetelności czynników wydobytych dychotomicznie (czyli pytań z dwoma możliwymi odpowiedziami) i/albo kwestionariuszy lub skali sformatowanych wielopunktowo (np. skala oceny 1=biedny, 5=wyśmienity).

Niektórzy znawcy nalegają by wynik rzetelności wynosił 0,7 albo więcej w czasie używania psychometrycznego narzędzia. Ta zasada powinna być stosowana ostrożnie gdy (α) ma być liczona z pozycji, które nie są skorelowane.

Zastrzeżenia

 

Pomimo, że Alfa Cronbacha jest dzisiaj szeroko stosowana, jest związanych z nią kilka problemów.

 

Pierwszym problemem jest to, że alfa jest zależna nie tylko od wielkości korelacji pomiędzy pozycjami, ale także od liczby pozycji na skali. Skala może sprawiać wrażenie „homogenicznej” poprzez zwykłe dublowanie liczby pozycji, nawet jeżeli średnie korelacji pozostaną niezmienne.

 

To prowadzi prosto do drugiego problemu. Jeżeli mamy dwie skale z których każda mierzy odrębny aspekt, i połączymy je by stworzyć jedną długą skalę, alfa prawdopodobnie będzie wysoka, chociaż połączona skala w oczywisty sposób dotyka dwóch różnych atrybutów.

 

Po trzecie, jeśli alfa jest zbyt wysoka, może to sugerować nadmierną ilość pozycji, to znaczy, pozycji zadających to samo pytanie w odrobinę inny sposób. 

 

Więcej informacji na:

Analiza rzetelności

Analiza statystyczna danych do pracy doktorskiej

Rzetelność Pomiaru

Psychometria 2

Model połówkowy – Analiza rzetelności

Analiza danych statystycznych opracowanie statystyczne badania ankiety danych historycznych

Wprowadzenie do analizy równań strukturalnych. Analiza ścieżek / SEM / SEPATH

Statystyczna analiza danych w psychologii

Usługi statystyczne pomoc statystyczna

Pomoc statystyczna dla doktorantów. Czy taka pomoc jest niezbędna?

czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/

wiedza o statystyce i badaniach

Sieci neuronowe. Zaawansowana analiza statystyczna.

meto1

 

Sieci neuronowe

Sztuczne sieci neuronowe, których intensywny rozwój nastąpił w drugiej połowie lat osiemdziesiątych, znajdują się w polu zainteresowania naukowców z różnych dziedzin, m.in. informatyków, cybernetyków, automatyków oraz biologów i psychologów. Sztuczna sieć neuronowa jest zbiorem elementów zwanych neuronami wraz z zestawem połączeń między nimi. Jej budowa i działanie zostało zainspirowane wynikami badań nad ludzkim mózgiem. Sieć składa się z:wejść xi, gdzie wprowadzone zostają dane, warstw połączonych ze sobą neuronów, w których przebiega proces analizy, wyjścia y, gdzie pojawia się sygnał będący wynikiem analizy.

Budowa pojedynczego nauronu_sieć neuronowa_rys 1

Rysunek 1: Budowa pojedynczego neuronu

Na wejścia podawane są wektory uczące. Należy obliczyć całkowite pobudzenie neuronu e liniowego i radialnego. Wyjście y zależy od całkowitego pobudzenia neuronu:

y = f(e) (1)

gdzie f jest funkcją aktywacji neuronu, a jej postać określa typ neuronu. Najczęściej używane funkcje aktywacji to funkcja tożsamościowa, logistyczna, Gaussa oraz signum.

W najprostszym przypadku sieć składa się z dwóch warstw neuronów: wejściowej i wyjściowej. Jeżeli liczba warstw jest większa to pozostałe warstwy, leżące pomiędzy pierwszą a ostatnią noszą nazwę warstw ukrytych. Jeżeli połączenia w sieci przebiegają zawsze od warstwy niższej do wyższej do mamy do czynienia z tzw. siecią feedforward. Natomiast jeśli istnieją połączenia wyjść neuronów z wejściami tej samej lub wcześniejszej warstwy to taką sieć nazywamy siecią ze sprzężeniami zwrotnymi.

sieć neuronowa perceptron wielowarstwowy

Rysunek 2: Sieć feedforward – perceptron wielowarstwowy

Wartości jakie sieć wygeneruje na końcu zależą przede wszystkim od wag i rodzaju funkcji. Na podstawie testowego zbioru danych sieć uczy się rozpoznawać dobre i złe kredyty. Poprawnie nauczona sieć posiada umiejętność uogólniania wiedzy zdobytej na podstawie historycznych obserwacji i dokonywania trafnych prognoz dla nowych danych. Dlatego też proces uczenia sieci odgrywa tu kluczową rolę. Wyróżnia się dwa warianty uczenia sieci:

z nauczycielem, bez nauczyciela.

Uczenie z nauczycielem polega na tym, że sieci podaje się dane wejściowe wraz z pożądanymi dla nich danymi wyjściowymi i na tej podstawie sieć dostosowuje wagi w taki sposób żeby te dane wyjściowe otrzymać. Idea tego procesu dla pojedynczego elementu przetwarzającego przedstawia się następująco:

  1. Wprowadzamy dane wejściowe zawarte w wektorze X oraz sygnał wyjściowy z.
  1. Przetwarzamy siecią neuronową dane wejściowe X i w rezultacie dostajemy na wyjściu sygnał y różny od z.
  1. Określamy wielkość błędu w k-tej iteracji:
σk = z − yk (8)
4. Określamy nowy wektor wag:
W k+1 = W k + ησkxT (9)

gdzie W k – macierz wag określona w k-tej iteracji, η – współczynnik liczbowy decydujący o szybkości uczenia się.

5. Celem procesu jest minimalizacja funkcji:
1         n
X
Q = ∑(zi yi)2 (10)
2
     i=1

gdzie indeks i określa numer obserwacji w ciągu uczącym.

Algorytm ten jest jednym z pierwszych algorytmów uczenia sieci z nauczycielem i znany jest jako reguła delty. Nie sprawdza się jednak najlepiej w dłuższych przedziałach czasu, ponieważ otrzymane w jego wyniku wagi nie mogły być stosowane na danych dynamicznych i zbyt często należałoby je douczać. Później weszły w życie inne metody uczenia sieci z nauczycielem, takie jak algorytm propagacji wstecznej czy też algorytm Levenberga-Marquardta.

Uczenie z nauczycielem nie zawsze jest możliwe do zastosowania. Często zdarza się że nie dysponujemy danymi testowymi na wyjściu, a zebranie ich byłoby zbyt kosztowe. Posiadamy natomiast duży zbiór danych wejściowych. Dla takich sytuacji naukowcy opracowali algorytmy uczenia sieci bez nauczyciela. Najogólniej rzecz ujmując, polegają one na podawaniu na wejście sieci szeregu przykładowych wektorów uczących bez jakiejkolwiek informacji dotyczącej oczekiwanych sygnałów wyjściowych. Odpowiednio zaprojektowana i nauczona sieć neuronowa powinna umieć wykorzystać wiedzę pochodzącą od sygnałów wejściowych i na jej podstawie zbudować algorytm swojego działania. W tworzeniu takich sieci istotne jest, aby wektory wejściowe były odpowiednio długie (wskazana jest nawet nadmiarowość danych).

Ponieważ nie jesteśmy w stanie w mierzalny sposób określić poprawności danych na wyjściu, dlatego też sieci uczone bez nauczyciela mogą jedynie:

  • oceniać podobieństwo analizowanego elementu w stosunku do przyjętego za wzorzec,
  • dokonywać analizy głównych składowych, czyli szukać wektorów ortogonalnych w przestrzeni danych, które mają największy wpływ na dyspersję danych,
  • grupować według prawdopodobieństwa lub określać prototypy wzorców, kodować.

Do metod uczenia sieci bez nauczyciela zaliczamy m.in. regułę Hebba i algorytm Kohonena.

Z wymienionych algorytmów w ocenie zdolności kredytowej wykorzystywany jest najczęściej algorytm propagacji wstecznej dla perceptronu wielowarstwowego (sieci feedforward).

Autorem tekstu jest Marta Mrozek.

Więcej na:

Sieć neuronowa budowa sztucznego neuronu

Najczęściej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

10 algorytmów uczenia maszynowego

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

problemy klasyfikacyjne

Steiger z bar statistic – test istotności statystycznej dla różnic między korelacjami

meto

 

Nie wiesz, ale chcesz policzyć różnice pomiędzy korelacjami, policzyć efekt mediacyjny lub porównać różnice pomiędzy wektorami B?

Przeszukaliśmy dla Was internety w celu dostarczenia tego typu analiz statystycznych. Są one rzadko spotykane w oprogramowaniach statystycznych (np. tego typu analizy statystycznej w SPSS, Statistica, Gretl, SAS nie znajdziecie).
https://www.surrey.ac.uk/psychology/current/statistics/ChrisCalcv1_4.xls < – Steiger, J. H. (1980). Tests for comparing elements of a correlation matrix. Psychological Bulletin, 87, 245-251.

http://www.psychmike.com/dependent_correlations.php <- super ekstra akrusz kalkululacyjny z testami różnic między korelacjami, wskaźnikami B (analiza regresji), testem Aroiana i Sobela (analiza mediacji)