analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

czerwony alarm pogotowie statystyczne

Charakter eksploracyjny projektu badawczego.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Charakter eksploracyjny projektu badawczego.

W takim układzie badania mamy do czynienia z zebraniem różnych wyników np. w formie ankiety powiązanych np. z informacją o tym czy ktoś spłacił kredyt gotówkowy lub nie. W kwestionariuszu zbierano informację o różnych cechach psychologicznych, szerokiej gamie informacji demograficznych, zarobkach oraz potencjale kulturowym osoby. W takim przypadku nie mamy sprecyzowanych hipotez i chcemy dopiero zweryfikować wpływ poszczególnych zmiennych na inne zmienne. W sytuacji eksploracyjnego charakteru badania mamy do czynienia wtedy kiedy nie wiemy co może wyjść z naszego badania, ale mamy przypuszczenia, że w zebranych danych potencjalnie znajdują się różne istotne zależności.

statystyka medyczna, biostatystyka

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

W ostatnich latach, coraz większą popularnością cieszą się urządzenia monitorujące nasze zdrowie. Smartwatche i smartbandy zyskują kolejnych użytkowników, którzy wykorzystują je w celu zbierania informacji na temat stanu swojego zdrowia. Przy ich pomocy możemy zebrać dane np. na temat snu, bądź jeżeli uprawiamy sport, to małe urządzenie na nadgarstku pomoże usystematyzować dane o osiągnięciach i dostarczyć nowych cennych informacji.


Nie trzeba było długo czekać, by znaleźć poważniejsze zastosowanie dla tych technologii. Intel we współpracy z Fundacją Michaela J. Foxa, podjął się badań nad chorobą Parkinsona przy pomocy urządzeń typu „wearables”. Odzież technologiczna jest w stanie dyskretnie zbierać i przekazywać obiektywne dane empiryczne w czasie rzeczywistym, 24 godziny na dobę, siedem dni w tygodniu. Jest to duży postęp w diagnozowaniu i leczeniu Parkinsona. Dzięki zastosowaniu sensorów badacze pozyskają ogrom danych do analizy Big Daty. Nie trudno się domyślić, że w porównaniu z dotychczas stosowanymi metodami monitorowania przebiegu choroby u pacjenta, przeskok w ilości danych będzie ogromny. Jednakże dopiero taka masa danych dostarczy badaczom materiał, na podstawie którego będą w stanie zgłębić istotę problemu choroby Parkinsona i wykryć wzorce. Big Data odgrywa w tym kluczową rolę.


Ze względu na obszerność danych Intel opracował platformę analityczną do big data, która wykorzystuje różne rodzaje oprogramowania, w tym Cloudera CDH — platformę open source, która gromadzi i przechowuje dane oraz nimi zarządza.  Platforma big data obsługuje aplikację analityczną do przetwarzania oraz wykrywania zmian w danych w czasie rzeczywistym. Poprzez wykrywanie anomalii i zmiany w czujniku, może dostarczyć naukowcom obiektywną metodę pomiaru progresji choroby. Zaawansowane możliwości analizy danych udostępnione przez Big data Intel z pewnością okażą się pomocne w dalszych badaniach nad chorobą.


czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/