pomoc statystyczna statystyka metodolog

Obliczenia statystyczne do prac magisterskich.

meto

Obliczenia i usługi statystyczne w pracach magisterskich.

Każdy magister nauk empirycznych ma przed sobą (chyba, że ma bardzo teoretyczną pracę magisterską (co jest rzadkością)) do wykonania obliczenia statystyczne wyników badań własnych oraz napisanie wniosków i dyskusji wyników w oparciu o ich rezultaty.

Jest to potrzebne ze względu na wymagania dotyczące formalnej weryfikacji zebranych danych z przeprowadzonych badań. Wynika to z natury nauk empirycznych. Tam gdzie nie ma matematyki lub logiki nie ma wnioskowania naukowego.

Zwyczaj analiza statystyczna ankiet, obliczenia statystyczne związane z analizą kwestionariuszy, eksperymentów lub obserwacji przeciętnie wymaga użycia około 3-4 testów statystycznych, a czasem (przy bardziej wyśrubowanej metodologii lub schemacie badawczym) nawet ich większej ilości.

Wiąże za tym trochę bardziej zaawansowana wiedza ze statystyki i praktyka wykorzystywania procedur statystycznych w odpowiedni sposób i prawidłowa interpretacja ich wyników.

Podsumowując wszystko, to przed przyszłym magistrem stoi wykonanie analiz statystycznych (statystyki) weryfikujących postawione hipotezy w kontekście własnej pracy empirycznej. Jest to niebywała gratka dla kogoś kto nie zna się na statystyce lub matematyce.

Trochę o nas i tym czym zespół Metodolog.pl zajmuje się na co dzień.

Specjalizujemy się w usługach statystycznych i analizach w biostatystyce, psychometrii, biometrii, ekonometrii i weryfikacji hipotez i budowie modeli statystycznych. Przetwarzamy każde dane, które są wyrażone w postaci liczb i symboli.

Do współpracy przy usługach statystycznych  z naszą firmą zachęcamy wszystkich naukowców, studentów i doktorantów nie znających się na statystyce i obliczeniach, a mających potrzebę kontynuowania niezachwianego postępu teoretycznego i praktycznego w swojej dziedzinie nauki.

Nie każdy w końcu może się nauczyć analizy i skupiać się na niej kiedy ma na głowie skomplikowane badania i napięte terminy realizacji.

Wykonujemy obliczenia statystyczne i usługi  dla:

  • psychologów
  • socjologów
  • pedagogów
  • lekarzy
  • dietetyków
  • inżynierów
  • ekonomistów
  • firm i instytucji

Zajmujemy się szerokim spektrum analiz danych,  obliczeń statystycznych, usług i pomocy naukowej.

Zawsze wykonujemy pracę najwyższej jakości.

Jeśli masz trudności z opisem wyników w magisterce lub doktoracie to zadzwoń do nas lub napisz ( 798 30 95 31 Metodolog @).

Podpowiemy Ci jak ma wyglądać opracowanie statystyczne, co zawrzeć w pracy, jak przygotować metodologię, co pominąć i na czym się skupić by mieć doskonałe obliczenia statystyczne w projekcie.

Wiedz, że to od analiz zależą Twoje wnioski, a to one są najważniejsze z perspektywy dowodzenia prawdy naukowej.

Jeśli szukasz pomocy statystycznej to zapoznaj się z naszym tekstem dotyczącym tego KOMU NIE POWIERZAĆ OBLICZEŃ DO PRAC MAGISTRSKICH

Skoro tu wszedłeś to prawdopodobnie szukasz informacji o tym jak zrobić analizę statystyczną do pracy magisterskiej lub doktorskiej nie wychodząc z domu. Piszemy ten post po to by uchronić Cię przed oddaniem Twoich danych w nieodpowiednie ręce.

Jeśli borykasz się z analizą danych w magisterce lub doktoracie i nie potrafisz tego wykonać sam,  musisz wiedzieć, że obliczenia statystyczne wypływają na jakość Twojej pracy. To od prawidłowo wykonanej statystyki zależy wartość naukowa Twojej magisterki i doktoratu.

Na rynku polskim istnieje wiele firm oferujących pomoc i usługi statystyczne, ale wiele z tych firm to krzaki, które nie realizują rzetelnie swojej pracy. Często dzwonią do nas osoby, które zostały oszukane lub odesłane z kwitkiem z jakieś firmy lub osoby znalezionej w internecie „ogarniającej statystykę w pracach magisterskich i doktorskich”.

Zazwyczaj takie osoby (ogarniacze) zajmują się analizą ankiet np. analizują odsetki odpowiedzi dla 40 itemowego testu psychologicznego, albo liczą statystyki opisowe dla zmiennych porządkowych np. liczą średnią dla wykształcenia (ogólnie celem tego typu osób jest zrobienie „czegoś” i wzięcie pieniędzy. Przykładów źle zrealizowanej analizy statystycznej w pracach naukowych mamy całą szufladę.

Nasza długoletnia praktyka zmusza nas do pisania o tych nieciekawych zdarzeniach. Osoby nie znające się na obliczeniach statystycznych i metodologii badań wyrządzają ogromne szkody, poczynając od finansowych, a kończąc na tych naukowych (zła analiza prowadzi do błędów podczas weryfikacji hipotez badawczych i niepoprawnych oszacowań).

czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/

pomoc, usługi i analizy statystyczne metodolog

Reguła najbliższego sąsiada. Analiza skupień najbliższego sąsiedztwa.

meto1

 

Reguła najbliższego sąsiada

Metoda najbliższego sąsiada jest jedną z metod rozpoznawania obrazów, która znalazła zastosowanie w sprawdzaniu wiarygodności kredytowej. Reguła ta klasyfikuje przy pomocy określonej miary odległości między obiektami. Badany obiekt przyporządkowujemy do klasy, do której należy jego k najbliższych są-siadów (odległości mierzymy za pomocą wybranej miary metrycznej). Jest to metoda nieparametryczna ponieważ nie estymujemy tutaj żadnych parametrów a o tym, do której grupy zakwalifikować nowego klienta, wnioskujemy na podstawie zebranego zbioru treningowego.

Zacznijmy od zdefiniowania odległości Euklidesowej między dwoma wektorami na płaszczyźnie. Załóżmy, że mamy dane dwa wektory x0 i x1. Odległość między nimi jest dana następującym wzorem:

1 (1)
d(x0, x1) = [(x0x1)T (x0x1)] 2

Załóżmy że w zbiorze treningowym mamy dane n punktów x1, x2, …, xn, którym odpowiadają wartości y1, y2, …yn. Naszym zadaniem jest wyznaczenie wartości y0 dla badanego punktu x0 o podanych współrzędnych. Przyjmijmy oznaczenie: d1 = d(x0, x1), d2 = d(x0, x2),…,dn = d(x0, xn) i niech dn > dn−1 > … > d2 > d1. Wtedy estymator y0 przedstawia się następująco:

yˆ0 = y1 gdy K=1 (2)
yˆ0 = y1 + y2 gdy K=2 (3)
 2
yˆ0 =  1k ∑yi gdy K=k (4)
 k

i=1

Załóżmy, że zbiór treningowy {(y1, x1), (y2, x2), .., (yn, xn)} możemy podzielić na J podzbiorów ze względu na wartość yi. Zadanie będzie polegało na zakwalifikowaniu (y0, x0) do jednego z tych podzbiorów. W 1996 roku T.Hastie i R.Tibshirani opisali w swojej pracy metodę zwaną DANN. Polega ona na uwzględnieniu w odległości euklidesowej dodatkowej macierzy uwzględniającej położenia punktów względem poszczególnych wybranych wcześniej j klas. W tej metodzie di jest następującej postaci:

1 (5)
d(x0, xi) = [(x0xi)T Σ(x0xi)] 2

Z badań przeprowadzonych przez Hastie i Tibshirani wynika, że jedna iteracja ich algorytmu jest już wystarczająca, kolejne nie poprawiają wyniku. W 2002 roku C.C.Holmes i N.M.Adams wprowadzili metodę zwaną BANN, która do estymacji wartości zmiennej y0 wykorzystywała statystykę Bayesowską (metodę MCMC oraz algorytm Metropolisa-Hastingsa). Autorzy R.Guo i S.Chakraborty porównali metody standardową k-NN, DANN oraz BANN i na podstawie wielu przeprowadzonych eksperymentów doszli do wniosku, że najlepsze wyniki daje metoda BANN. Jest to zapewne spowodowane w dużej mierze jej elastycznością – zmienne k i km nie są dobierane na sztywno. Wyznacza się je maksymalizując rozkład a posteriori metodą MCMC. Metody bayesowskie znalazły w ostatnich latach szerokie zastosowanie (m.in. w medycynie i genetyce) i mimo swojej złożoności są kuszącą alternatywną dla statystyki klasycznej.

Autorem tekstu jest Marta Mrozek.

Więcej info na:

Analiza skupień. Segmentacja i grupowanie.
10 algorytmów uczenia maszynowego

Analiza skupien najblizszego sasiedztwa k- nearest neighbors

Propensity score matching statystyczny wpływ netto zmiennej niezależnej na zmienna zalezną

wiedza o statystyce i badaniach

Sieci neuronowe. Zaawansowana analiza statystyczna.

meto1

 

Sieci neuronowe

Sztuczne sieci neuronowe, których intensywny rozwój nastąpił w drugiej połowie lat osiemdziesiątych, znajdują się w polu zainteresowania naukowców z różnych dziedzin, m.in. informatyków, cybernetyków, automatyków oraz biologów i psychologów. Sztuczna sieć neuronowa jest zbiorem elementów zwanych neuronami wraz z zestawem połączeń między nimi. Jej budowa i działanie zostało zainspirowane wynikami badań nad ludzkim mózgiem. Sieć składa się z:wejść xi, gdzie wprowadzone zostają dane, warstw połączonych ze sobą neuronów, w których przebiega proces analizy, wyjścia y, gdzie pojawia się sygnał będący wynikiem analizy.

Budowa pojedynczego nauronu_sieć neuronowa_rys 1

Rysunek 1: Budowa pojedynczego neuronu

Na wejścia podawane są wektory uczące. Należy obliczyć całkowite pobudzenie neuronu e liniowego i radialnego. Wyjście y zależy od całkowitego pobudzenia neuronu:

y = f(e) (1)

gdzie f jest funkcją aktywacji neuronu, a jej postać określa typ neuronu. Najczęściej używane funkcje aktywacji to funkcja tożsamościowa, logistyczna, Gaussa oraz signum.

W najprostszym przypadku sieć składa się z dwóch warstw neuronów: wejściowej i wyjściowej. Jeżeli liczba warstw jest większa to pozostałe warstwy, leżące pomiędzy pierwszą a ostatnią noszą nazwę warstw ukrytych. Jeżeli połączenia w sieci przebiegają zawsze od warstwy niższej do wyższej do mamy do czynienia z tzw. siecią feedforward. Natomiast jeśli istnieją połączenia wyjść neuronów z wejściami tej samej lub wcześniejszej warstwy to taką sieć nazywamy siecią ze sprzężeniami zwrotnymi.

sieć neuronowa perceptron wielowarstwowy

Rysunek 2: Sieć feedforward – perceptron wielowarstwowy

Wartości jakie sieć wygeneruje na końcu zależą przede wszystkim od wag i rodzaju funkcji. Na podstawie testowego zbioru danych sieć uczy się rozpoznawać dobre i złe kredyty. Poprawnie nauczona sieć posiada umiejętność uogólniania wiedzy zdobytej na podstawie historycznych obserwacji i dokonywania trafnych prognoz dla nowych danych. Dlatego też proces uczenia sieci odgrywa tu kluczową rolę. Wyróżnia się dwa warianty uczenia sieci:

z nauczycielem, bez nauczyciela.

Uczenie z nauczycielem polega na tym, że sieci podaje się dane wejściowe wraz z pożądanymi dla nich danymi wyjściowymi i na tej podstawie sieć dostosowuje wagi w taki sposób żeby te dane wyjściowe otrzymać. Idea tego procesu dla pojedynczego elementu przetwarzającego przedstawia się następująco:

  1. Wprowadzamy dane wejściowe zawarte w wektorze X oraz sygnał wyjściowy z.
  1. Przetwarzamy siecią neuronową dane wejściowe X i w rezultacie dostajemy na wyjściu sygnał y różny od z.
  1. Określamy wielkość błędu w k-tej iteracji:
σk = z − yk (8)
4. Określamy nowy wektor wag:
W k+1 = W k + ησkxT (9)

gdzie W k – macierz wag określona w k-tej iteracji, η – współczynnik liczbowy decydujący o szybkości uczenia się.

5. Celem procesu jest minimalizacja funkcji:
1         n
X
Q = ∑(zi yi)2 (10)
2
     i=1

gdzie indeks i określa numer obserwacji w ciągu uczącym.

Algorytm ten jest jednym z pierwszych algorytmów uczenia sieci z nauczycielem i znany jest jako reguła delty. Nie sprawdza się jednak najlepiej w dłuższych przedziałach czasu, ponieważ otrzymane w jego wyniku wagi nie mogły być stosowane na danych dynamicznych i zbyt często należałoby je douczać. Później weszły w życie inne metody uczenia sieci z nauczycielem, takie jak algorytm propagacji wstecznej czy też algorytm Levenberga-Marquardta.

Uczenie z nauczycielem nie zawsze jest możliwe do zastosowania. Często zdarza się że nie dysponujemy danymi testowymi na wyjściu, a zebranie ich byłoby zbyt kosztowe. Posiadamy natomiast duży zbiór danych wejściowych. Dla takich sytuacji naukowcy opracowali algorytmy uczenia sieci bez nauczyciela. Najogólniej rzecz ujmując, polegają one na podawaniu na wejście sieci szeregu przykładowych wektorów uczących bez jakiejkolwiek informacji dotyczącej oczekiwanych sygnałów wyjściowych. Odpowiednio zaprojektowana i nauczona sieć neuronowa powinna umieć wykorzystać wiedzę pochodzącą od sygnałów wejściowych i na jej podstawie zbudować algorytm swojego działania. W tworzeniu takich sieci istotne jest, aby wektory wejściowe były odpowiednio długie (wskazana jest nawet nadmiarowość danych).

Ponieważ nie jesteśmy w stanie w mierzalny sposób określić poprawności danych na wyjściu, dlatego też sieci uczone bez nauczyciela mogą jedynie:

  • oceniać podobieństwo analizowanego elementu w stosunku do przyjętego za wzorzec,
  • dokonywać analizy głównych składowych, czyli szukać wektorów ortogonalnych w przestrzeni danych, które mają największy wpływ na dyspersję danych,
  • grupować według prawdopodobieństwa lub określać prototypy wzorców, kodować.

Do metod uczenia sieci bez nauczyciela zaliczamy m.in. regułę Hebba i algorytm Kohonena.

Z wymienionych algorytmów w ocenie zdolności kredytowej wykorzystywany jest najczęściej algorytm propagacji wstecznej dla perceptronu wielowarstwowego (sieci feedforward).

Autorem tekstu jest Marta Mrozek.

Więcej na:

Sieć neuronowa budowa sztucznego neuronu

Najczęściej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

10 algorytmów uczenia maszynowego

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna