Metodologia badań naukowych

Metodologia (Nauka)

meto

 

Metodologia – nauka zajmująca się efektywnością oraz wartością poznawczą metod badań naukowych.

Wyodrębnia się metodologie dotyczące nauk ścisłych, przyrodniczych, społecznych oraz humanistycznych. Obecnie największą wagę przykłada się do wykorzystywania metod statystycznych oraz matematycznych, służących do opisu zjawisk, którymi zainteresował się konkretny naukowiec. Do uzyskania danych służących obliczeniom używa się dokładnie opisanych, w metodologiach poszczególnych dziedzin nauk, działań. Poszczególne dziedziny nauk posiadają odrębne metodologie lub zapożyczają metodologie innych dziedzin nauk. Dobrym przykładem jest ekonometria będąca zmodyfikowanymi i dopasowanymi metodami statystycznymi mających zastosowanie w ekonomii. Metodologia w naukach społecznych przybiera postać zbierania danych poprzez ankiety. Ich struktura, sposób przeprowadzenia i wybór ankietowanych jest wcześniej dokładnie ustalony według konkretnych zasad. Do przetworzenia wyników stosuje się np. statystykę opisową. Natomiast w naukach technicznych można dokonywać pomiaru dzięki miernikom pod warunkiem zachowania sprecyzowanych warunków otoczenia. Rezultaty następnie są często zbierane i porównywane z wynikami uzyskanymi przez innych naukowców przy jednoczesnym zachowaniu takich samych zmiennych lub niewielkim ich przekształceniu. Do przetworzenia wyników używany jest często opis matematyczny.  Od prawidłowej metodologii zależy wartość całego postępowania badawczego.

Więcej na:

Metodologia badań naukowych

Struktura procesu badawczego

Metodologia badań

Pisanie opracowania statystycznego krok po kroku

Marketingowe analizy statystyczna. Analiza statystyczna w kontekście marketingu

Analiza danych statystycznych opracowanie statystyczne badania ankiet i danych historycznych
Czym jest cecha wielowymiarowa i jak wygląda jej rozkład

czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/

pomoc, usługi i analizy statystyczne metodolog

Reguła najbliższego sąsiada. Analiza skupień najbliższego sąsiedztwa.

meto1

 

Reguła najbliższego sąsiada

Metoda najbliższego sąsiada jest jedną z metod rozpoznawania obrazów, która znalazła zastosowanie w sprawdzaniu wiarygodności kredytowej. Reguła ta klasyfikuje przy pomocy określonej miary odległości między obiektami. Badany obiekt przyporządkowujemy do klasy, do której należy jego k najbliższych są-siadów (odległości mierzymy za pomocą wybranej miary metrycznej). Jest to metoda nieparametryczna ponieważ nie estymujemy tutaj żadnych parametrów a o tym, do której grupy zakwalifikować nowego klienta, wnioskujemy na podstawie zebranego zbioru treningowego.

Zacznijmy od zdefiniowania odległości Euklidesowej między dwoma wektorami na płaszczyźnie. Załóżmy, że mamy dane dwa wektory x0 i x1. Odległość między nimi jest dana następującym wzorem:

1 (1)
d(x0, x1) = [(x0x1)T (x0x1)] 2

Załóżmy że w zbiorze treningowym mamy dane n punktów x1, x2, …, xn, którym odpowiadają wartości y1, y2, …yn. Naszym zadaniem jest wyznaczenie wartości y0 dla badanego punktu x0 o podanych współrzędnych. Przyjmijmy oznaczenie: d1 = d(x0, x1), d2 = d(x0, x2),…,dn = d(x0, xn) i niech dn > dn−1 > … > d2 > d1. Wtedy estymator y0 przedstawia się następująco:

yˆ0 = y1 gdy K=1 (2)
yˆ0 = y1 + y2 gdy K=2 (3)
 2
yˆ0 =  1k ∑yi gdy K=k (4)
 k

i=1

Załóżmy, że zbiór treningowy {(y1, x1), (y2, x2), .., (yn, xn)} możemy podzielić na J podzbiorów ze względu na wartość yi. Zadanie będzie polegało na zakwalifikowaniu (y0, x0) do jednego z tych podzbiorów. W 1996 roku T.Hastie i R.Tibshirani opisali w swojej pracy metodę zwaną DANN. Polega ona na uwzględnieniu w odległości euklidesowej dodatkowej macierzy uwzględniającej położenia punktów względem poszczególnych wybranych wcześniej j klas. W tej metodzie di jest następującej postaci:

1 (5)
d(x0, xi) = [(x0xi)T Σ(x0xi)] 2

Z badań przeprowadzonych przez Hastie i Tibshirani wynika, że jedna iteracja ich algorytmu jest już wystarczająca, kolejne nie poprawiają wyniku. W 2002 roku C.C.Holmes i N.M.Adams wprowadzili metodę zwaną BANN, która do estymacji wartości zmiennej y0 wykorzystywała statystykę Bayesowską (metodę MCMC oraz algorytm Metropolisa-Hastingsa). Autorzy R.Guo i S.Chakraborty porównali metody standardową k-NN, DANN oraz BANN i na podstawie wielu przeprowadzonych eksperymentów doszli do wniosku, że najlepsze wyniki daje metoda BANN. Jest to zapewne spowodowane w dużej mierze jej elastycznością – zmienne k i km nie są dobierane na sztywno. Wyznacza się je maksymalizując rozkład a posteriori metodą MCMC. Metody bayesowskie znalazły w ostatnich latach szerokie zastosowanie (m.in. w medycynie i genetyce) i mimo swojej złożoności są kuszącą alternatywną dla statystyki klasycznej.

Autorem tekstu jest Marta Mrozek.

Więcej info na:

Analiza skupień. Segmentacja i grupowanie.
10 algorytmów uczenia maszynowego

Analiza skupien najblizszego sasiedztwa k- nearest neighbors

Propensity score matching statystyczny wpływ netto zmiennej niezależnej na zmienna zalezną

wiedza o statystyce i badaniach

Sieci neuronowe. Zaawansowana analiza statystyczna.

meto1

 

Sieci neuronowe

Sztuczne sieci neuronowe, których intensywny rozwój nastąpił w drugiej połowie lat osiemdziesiątych, znajdują się w polu zainteresowania naukowców z różnych dziedzin, m.in. informatyków, cybernetyków, automatyków oraz biologów i psychologów. Sztuczna sieć neuronowa jest zbiorem elementów zwanych neuronami wraz z zestawem połączeń między nimi. Jej budowa i działanie zostało zainspirowane wynikami badań nad ludzkim mózgiem. Sieć składa się z:wejść xi, gdzie wprowadzone zostają dane, warstw połączonych ze sobą neuronów, w których przebiega proces analizy, wyjścia y, gdzie pojawia się sygnał będący wynikiem analizy.

Budowa pojedynczego nauronu_sieć neuronowa_rys 1

Rysunek 1: Budowa pojedynczego neuronu

Na wejścia podawane są wektory uczące. Należy obliczyć całkowite pobudzenie neuronu e liniowego i radialnego. Wyjście y zależy od całkowitego pobudzenia neuronu:

y = f(e) (1)

gdzie f jest funkcją aktywacji neuronu, a jej postać określa typ neuronu. Najczęściej używane funkcje aktywacji to funkcja tożsamościowa, logistyczna, Gaussa oraz signum.

W najprostszym przypadku sieć składa się z dwóch warstw neuronów: wejściowej i wyjściowej. Jeżeli liczba warstw jest większa to pozostałe warstwy, leżące pomiędzy pierwszą a ostatnią noszą nazwę warstw ukrytych. Jeżeli połączenia w sieci przebiegają zawsze od warstwy niższej do wyższej do mamy do czynienia z tzw. siecią feedforward. Natomiast jeśli istnieją połączenia wyjść neuronów z wejściami tej samej lub wcześniejszej warstwy to taką sieć nazywamy siecią ze sprzężeniami zwrotnymi.

sieć neuronowa perceptron wielowarstwowy

Rysunek 2: Sieć feedforward – perceptron wielowarstwowy

Wartości jakie sieć wygeneruje na końcu zależą przede wszystkim od wag i rodzaju funkcji. Na podstawie testowego zbioru danych sieć uczy się rozpoznawać dobre i złe kredyty. Poprawnie nauczona sieć posiada umiejętność uogólniania wiedzy zdobytej na podstawie historycznych obserwacji i dokonywania trafnych prognoz dla nowych danych. Dlatego też proces uczenia sieci odgrywa tu kluczową rolę. Wyróżnia się dwa warianty uczenia sieci:

z nauczycielem, bez nauczyciela.

Uczenie z nauczycielem polega na tym, że sieci podaje się dane wejściowe wraz z pożądanymi dla nich danymi wyjściowymi i na tej podstawie sieć dostosowuje wagi w taki sposób żeby te dane wyjściowe otrzymać. Idea tego procesu dla pojedynczego elementu przetwarzającego przedstawia się następująco:

  1. Wprowadzamy dane wejściowe zawarte w wektorze X oraz sygnał wyjściowy z.
  1. Przetwarzamy siecią neuronową dane wejściowe X i w rezultacie dostajemy na wyjściu sygnał y różny od z.
  1. Określamy wielkość błędu w k-tej iteracji:
σk = z − yk (8)
4. Określamy nowy wektor wag:
W k+1 = W k + ησkxT (9)

gdzie W k – macierz wag określona w k-tej iteracji, η – współczynnik liczbowy decydujący o szybkości uczenia się.

5. Celem procesu jest minimalizacja funkcji:
1         n
X
Q = ∑(zi yi)2 (10)
2
     i=1

gdzie indeks i określa numer obserwacji w ciągu uczącym.

Algorytm ten jest jednym z pierwszych algorytmów uczenia sieci z nauczycielem i znany jest jako reguła delty. Nie sprawdza się jednak najlepiej w dłuższych przedziałach czasu, ponieważ otrzymane w jego wyniku wagi nie mogły być stosowane na danych dynamicznych i zbyt często należałoby je douczać. Później weszły w życie inne metody uczenia sieci z nauczycielem, takie jak algorytm propagacji wstecznej czy też algorytm Levenberga-Marquardta.

Uczenie z nauczycielem nie zawsze jest możliwe do zastosowania. Często zdarza się że nie dysponujemy danymi testowymi na wyjściu, a zebranie ich byłoby zbyt kosztowe. Posiadamy natomiast duży zbiór danych wejściowych. Dla takich sytuacji naukowcy opracowali algorytmy uczenia sieci bez nauczyciela. Najogólniej rzecz ujmując, polegają one na podawaniu na wejście sieci szeregu przykładowych wektorów uczących bez jakiejkolwiek informacji dotyczącej oczekiwanych sygnałów wyjściowych. Odpowiednio zaprojektowana i nauczona sieć neuronowa powinna umieć wykorzystać wiedzę pochodzącą od sygnałów wejściowych i na jej podstawie zbudować algorytm swojego działania. W tworzeniu takich sieci istotne jest, aby wektory wejściowe były odpowiednio długie (wskazana jest nawet nadmiarowość danych).

Ponieważ nie jesteśmy w stanie w mierzalny sposób określić poprawności danych na wyjściu, dlatego też sieci uczone bez nauczyciela mogą jedynie:

  • oceniać podobieństwo analizowanego elementu w stosunku do przyjętego za wzorzec,
  • dokonywać analizy głównych składowych, czyli szukać wektorów ortogonalnych w przestrzeni danych, które mają największy wpływ na dyspersję danych,
  • grupować według prawdopodobieństwa lub określać prototypy wzorców, kodować.

Do metod uczenia sieci bez nauczyciela zaliczamy m.in. regułę Hebba i algorytm Kohonena.

Z wymienionych algorytmów w ocenie zdolności kredytowej wykorzystywany jest najczęściej algorytm propagacji wstecznej dla perceptronu wielowarstwowego (sieci feedforward).

Autorem tekstu jest Marta Mrozek.

Więcej na:

Sieć neuronowa budowa sztucznego neuronu

Najczęściej wykonywane analizy statystyczne w pracach magisterskich i doktorskich

10 algorytmów uczenia maszynowego

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

problemy klasyfikacyjne

Steiger z bar statistic – test istotności statystycznej dla różnic między korelacjami

meto

 

Nie wiesz, ale chcesz policzyć różnice pomiędzy korelacjami, policzyć efekt mediacyjny lub porównać różnice pomiędzy wektorami B?

Przeszukaliśmy dla Was internety w celu dostarczenia tego typu analiz statystycznych. Są one rzadko spotykane w oprogramowaniach statystycznych (np. tego typu analizy statystycznej w SPSS, Statistica, Gretl, SAS nie znajdziecie).
https://www.surrey.ac.uk/psychology/current/statistics/ChrisCalcv1_4.xls < – Steiger, J. H. (1980). Tests for comparing elements of a correlation matrix. Psychological Bulletin, 87, 245-251.

http://www.psychmike.com/dependent_correlations.php <- super ekstra akrusz kalkululacyjny z testami różnic między korelacjami, wskaźnikami B (analiza regresji), testem Aroiana i Sobela (analiza mediacji)