analiza statystyczna w nauce

Etapy wnioskowania statystycznego i wybór odpowiedniego testu.

meto

 

Na etapy wnioskowania statystycznego i wyboru testu składają się następujące punkty:

-sformułowanie hipotezy zerowej i alternatywnej

-określenie skali pomiarowej badanej zmiennej

-wybór testu statystycznego

-określenie poziomu istotności alfa dla testu statystycznego i wielkości próby N

-określenie rozkładu z próby statystyki danego testu statystycznego przy założeniu słuszności hipotezy zerowej

-określenie obszaru odrzuceń hipotezy zerowej

-obliczenie wartości statystyki testu i podjęcie decyzji odnośnie hipotezy zerowej

Przy wyborze odpowiedniego testu statystycznej istotności różnic należy wziąć pod uwagę 4 rzeczy:

  1. Skala pomiarowa (zmiennej zależnej)

-nominalna

-porządkowa

-interwałowa lub ilorazowa

  1. Liczebność grup

-małe (do 30 osób)

-duże (powyżej 30 osób)

3.Liczba porównywanych grup

-testy dla jednej grupy

-testy dla dwóch grup

-testy dla więcej niż dwóch grup

  1. Grupy zależne lub niezależne (techniki wyboru osób do próby)

Gdy już odpowiemy sobie na powyższe pytania z łatwością dobierzemy odpowiedni test statystyczny.

Pomiar zmiennej interwałowej

Autorem tekstu jest Marta Mrozek.

POMIAR ZMIENNEJ NA SKALI NOMINALNEJ

GRUPY ZALEŻNE                                                                        GRUPY NIEZALEŻNE

test McNemary                                              Małe liczebności                     Duże liczebności

Test Fishera                            Test Chi-kwadrat

POMIAR ZMIENNEJ NA SKALI PORZĄDKOWEJ

DWIE GRUPY                                                         WIĘCEJ NIŻ DWIE GRUPY

GRUPY ZALEŻNE  GRUPY NIEZALEŻNE

GRUPY ZALEŻNE  GRUPY NIEZALEŻNE

Test Wilcoxona          Test Manna-Whitneya

Test Friedmana           Test Kruskala-Wallisa

POMIAR ZMIENNEJ NA SKALI INTERWAŁOWEJ

JEDNA GRUPA                   DWIE GRUPY                     WIĘCEJ NIŻ DWIE GRUPY

Duża   Mała                            Zależne           Niezależne                              ANOVA

Test Z     Test t dla  jednej średniej                Duża        Mała                         Duża   Mała

jednej średniej

Test Z dla                   Test t dla         Test Z dla dwóch średnich

danych zależnych       danych zależnych

Badamy homogeniczność                                                                                                     wariancji

wariancje w grupach są równe     wariancje w grupach różnią się

Test t dla dwóch średnich                 Test t dla dwóch średnich z poprawką na nierówność wariancji

czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/

wiedza o statystyce i badaniach

Sieci neuronowe. Zaawansowana analiza statystyczna.

meto1

 

Sieci neuronowe

Sztuczne sieci neuronowe, których intensywny rozwój nastąpił w drugiej połowie lat osiemdziesiątych, znajdują się w polu zainteresowania naukowców z różnych dziedzin, m.in. informatyków, cybernetyków, automatyków oraz biologów i psychologów. Sztuczna sieć neuronowa jest zbiorem elementów zwanych neuronami wraz z zestawem połączeń między nimi. Jej budowa i działanie zostało zainspirowane wynikami badań nad ludzkim mózgiem. Sieć składa się z:wejść xi, gdzie wprowadzone zostają dane, warstw połączonych ze sobą neuronów, w których przebiega proces analizy, wyjścia y, gdzie pojawia się sygnał będący wynikiem analizy.

Budowa pojedynczego nauronu_sieć neuronowa_rys 1

Rysunek 1: Budowa pojedynczego neuronu

Na wejścia podawane są wektory uczące. Należy obliczyć całkowite pobudzenie neuronu e liniowego i radialnego. Wyjście y zależy od całkowitego pobudzenia neuronu:

y = f(e) (1)

gdzie f jest funkcją aktywacji neuronu, a jej postać określa typ neuronu. Najczęściej używane funkcje aktywacji to funkcja tożsamościowa, logistyczna, Gaussa oraz signum.

W najprostszym przypadku sieć składa się z dwóch warstw neuronów: wejściowej i wyjściowej. Jeżeli liczba warstw jest większa to pozostałe warstwy, leżące pomiędzy pierwszą a ostatnią noszą nazwę warstw ukrytych. Jeżeli połączenia w sieci przebiegają zawsze od warstwy niższej do wyższej do mamy do czynienia z tzw. siecią feedforward. Natomiast jeśli istnieją połączenia wyjść neuronów z wejściami tej samej lub wcześniejszej warstwy to taką sieć nazywamy siecią ze sprzężeniami zwrotnymi.

sieć neuronowa perceptron wielowarstwowy

Rysunek 2: Sieć feedforward – perceptron wielowarstwowy

Wartości jakie sieć wygeneruje na końcu zależą przede wszystkim od wag i rodzaju funkcji. Na podstawie testowego zbioru danych sieć uczy się rozpoznawać dobre i złe kredyty. Poprawnie nauczona sieć posiada umiejętność uogólniania wiedzy zdobytej na podstawie historycznych obserwacji i dokonywania trafnych prognoz dla nowych danych. Dlatego też proces uczenia sieci odgrywa tu kluczową rolę. Wyróżnia się dwa warianty uczenia sieci:

z nauczycielem, bez nauczyciela.

Uczenie z nauczycielem polega na tym, że sieci podaje się dane wejściowe wraz z pożądanymi dla nich danymi wyjściowymi i na tej podstawie sieć dostosowuje wagi w taki sposób żeby te dane wyjściowe otrzymać. Idea tego procesu dla pojedynczego elementu przetwarzającego przedstawia się następująco:

  1. Wprowadzamy dane wejściowe zawarte w wektorze X oraz sygnał wyjściowy z.
  1. Przetwarzamy siecią neuronową dane wejściowe X i w rezultacie dostajemy na wyjściu sygnał y różny od z.
  1. Określamy wielkość błędu w k-tej iteracji:
σk = z − yk (8)
4. Określamy nowy wektor wag:
W k+1 = W k + ησkxT (9)

gdzie W k – macierz wag określona w k-tej iteracji, η – współczynnik liczbowy decydujący o szybkości uczenia się.

5. Celem procesu jest minimalizacja funkcji:
1         n
X
Q = ∑(zi yi)2 (10)
2
     i=1

gdzie indeks i określa numer obserwacji w ciągu uczącym.

Algorytm ten jest jednym z pierwszych algorytmów uczenia sieci z nauczycielem i znany jest jako reguła delty. Nie sprawdza się jednak najlepiej w dłuższych przedziałach czasu, ponieważ otrzymane w jego wyniku wagi nie mogły być stosowane na danych dynamicznych i zbyt często należałoby je douczać. Później weszły w życie inne metody uczenia sieci z nauczycielem, takie jak algorytm propagacji wstecznej czy też algorytm Levenberga-Marquardta.

Uczenie z nauczycielem nie zawsze jest możliwe do zastosowania. Często zdarza się że nie dysponujemy danymi testowymi na wyjściu, a zebranie ich byłoby zbyt kosztowe. Posiadamy natomiast duży zbiór danych wejściowych. Dla takich sytuacji naukowcy opracowali algorytmy uczenia sieci bez nauczyciela. Najogólniej rzecz ujmując, polegają one na podawaniu na wejście sieci szeregu przykładowych wektorów uczących bez jakiejkolwiek informacji dotyczącej oczekiwanych sygnałów wyjściowych. Odpowiednio zaprojektowana i nauczona sieć neuronowa powinna umieć wykorzystać wiedzę pochodzącą od sygnałów wejściowych i na jej podstawie zbudować algorytm swojego działania. W tworzeniu takich sieci istotne jest, aby wektory wejściowe były odpowiednio długie (wskazana jest nawet nadmiarowość danych).

Ponieważ nie jesteśmy w stanie w mierzalny sposób określić poprawności danych na wyjściu, dlatego też sieci uczone bez nauczyciela mogą jedynie:

  • oceniać podobieństwo analizowanego elementu w stosunku do przyjętego za wzorzec,
  • dokonywać analizy głównych składowych, czyli szukać wektorów ortogonalnych w przestrzeni danych, które mają największy wpływ na dyspersję danych,
  • grupować według prawdopodobieństwa lub określać prototypy wzorców, kodować.

Do metod uczenia sieci bez nauczyciela zaliczamy m.in. regułę Hebba i algorytm Kohonena.

Z wymienionych algorytmów w ocenie zdolności kredytowej wykorzystywany jest najczęściej algorytm propagacji wstecznej dla perceptronu wielowarstwowego (sieci feedforward).

Autorem tekstu jest Marta Mrozek.

Więcej na:

Sieć neuronowa budowa sztucznego neuronu

Najczęściej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

10 algorytmów uczenia maszynowego

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

problemy klasyfikacyjne

Steiger z bar statistic – test istotności statystycznej dla różnic między korelacjami

meto

 

Nie wiesz, ale chcesz policzyć różnice pomiędzy korelacjami, policzyć efekt mediacyjny lub porównać różnice pomiędzy wektorami B?

Przeszukaliśmy dla Was internety w celu dostarczenia tego typu analiz statystycznych. Są one rzadko spotykane w oprogramowaniach statystycznych (np. tego typu analizy statystycznej w SPSS, Statistica, Gretl, SAS nie znajdziecie).
https://www.surrey.ac.uk/psychology/current/statistics/ChrisCalcv1_4.xls < – Steiger, J. H. (1980). Tests for comparing elements of a correlation matrix. Psychological Bulletin, 87, 245-251.

http://www.psychmike.com/dependent_correlations.php <- super ekstra akrusz kalkululacyjny z testami różnic między korelacjami, wskaźnikami B (analiza regresji), testem Aroiana i Sobela (analiza mediacji)

statystyka medyczna, biostatystyka

Statystyczne metody lokalizacji genów.

meto

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Lokalizacja genów wpływających na pewne ilościowe fenotypowe cechy osobników (w skrócie mapowanie QTL’i) polega na wskazaniu tych loci (miejsc) na chromosomie, na których znajdują się geny istotnie sprzężone z badaną cechą ilościową.

Rozwiązanie tego problemu jest szczególnie istotne w takich dziedzinach nauki jak medycyna (geny odpowiedzialne za choroby dziedziczne, uzależnienia), hodowla roślin i zwierząt (np. polepszenie jakość upraw, zwiększenie wydajności mlecznej krów) i psychologia (wpływ genów na cechy osobowości). Genetycy na podstawie wieloletnich badań sporządzają tzw. mapy markerów genetycznych, czyli zbiory genotypów znajdujących się na określonych loci. Dzięki nim, przy użyciu różnych metod statystycznych, estymuje się m. in. położenia i efekty szukanych QTL’i.

Pierwsze prace nad metodami lokalizacji QTL’i zapoczątkował Soller. Wykorzystywał on podstawowe metody statystyczne (analiza ANOVA, test t-Studenta) do wskazania zmiennych, które istotnie wpływają na badaną cechę. Nowych zmiennych poszukiwał on tylko na pozycjach, na których znajdowały się markery. Dopiero w 1989 Lander i Botstain wprowadzili metodę interwałową, która umożliwiała lokalizację QTL’i między markerami. Początkowo badano modele z jednym QTL’em. W ostatnich latach zaczęto rozpatrywać modele z większą liczbą QTL’i.

Powstają nowe metody statystyczne, których celem jest nie tylko estymacja położenia i efektów QTL’i, ale również ich ilości. W wielu przypadkach bada się również, czy między znalezionymi QTL’ami występują interakcje.

Metody ogólnie podzielić możemy na te, które służą do porównywania modeli – kryteria wyboru modelu AIC, BIC i ich modyfikacje, kryterium Bayesa. Drugą grupą są kryteria służące do dopasowania modelu czyli np. metoda największej wiarogodności, metoda Haley’a-Knott’a, algorytm Expectation-Maximization, metody Monte Carlo łańcucha Markowa (MCMC). Są również metody służące do szukania najlepszego modelu takie jak metody krokowe.

Przypuśćmy, że znamy mapę markerów genetycznych. Wiemy ponadto, że szukane QTL’e znajdują się pomiędzy markerami, zatem oprócz tego, że nie znamy ich położeń, efektów i ilości, dodatkową niewiadomą stają się ich genotypy. W takim przypadku całkiem dobrze sprawdza się interwałowa metoda lokalizacji genów.

Wielowymiarowa metoda interwałowa może być zaimplementowana na kilka różnych sposobów. W wersji deterministycznej tej metody można się posłużyć algorytmem EM (do wyestymowania brakujących danych) oraz kryteriami informacyjnymi, takimi jak mBIC przy wyborze modelu. Można też użyć metody bayesowskiej – algorytmu reversible jump MCMC.

Rozważmy model liniowy dla cechy fenotypowej na którą oddziałuje p QTL’i. Wartości genotypowe zarówno markerów jak i szukanych genów będziemy oznaczać jak w (1). Zaobserwowany fenotyp yi i-tego osobnika w próbce wielkości n możemy przedstawić za pomocą następującego modelu liniowego:

yi = β0 +  ∑    βj Qij + i, (1)

gdzie i jest zmienną losową o średniej zero i wariancji σ^2, β = {β_j }, j = 1, …, p to współczynniki regresji – efekty QTL’i, natomiast Qij , i = 1, …, n, j = 1, …, p oznaczają genotypy QTL’i. Niech dodatkowo λ_j oznacza odległość j-tego QTL’a od początku chromosomu. Wtedy parametrami genetycznymi są położenia QTL’i λ oraz wektor parametrów θ = (β_0, β, σ^2). Oprócz wartości fenotypowych y_i badanych osobników dysponujemy również wiedzą na temat genotypów m markerów – M_i = {M_i_k}_m_k=1 dla i-tego osobnika oraz znamy odległości D = {D_k}_m_k=1, gdzie D_k oznacza odległość między 1 i k-tym markerem.

Autorem tekstu jest Marta Mrozek.

Więcej info na:

Statystyczna analiza danych 

Zalety statystyki Bayesowskiej

Naiwny klasyfikator Bayesa
Najczesciej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

Analiza statystyczna danych warszawa wroclaw krakow poznan gdansk