analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

statystyka medyczna, biostatystyka

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

W ostatnich latach, coraz większą popularnością cieszą się urządzenia monitorujące nasze zdrowie. Smartwatche i smartbandy zyskują kolejnych użytkowników, którzy wykorzystują je w celu zbierania informacji na temat stanu swojego zdrowia. Przy ich pomocy możemy zebrać dane np. na temat snu, bądź jeżeli uprawiamy sport, to małe urządzenie na nadgarstku pomoże usystematyzować dane o osiągnięciach i dostarczyć nowych cennych informacji.


Nie trzeba było długo czekać, by znaleźć poważniejsze zastosowanie dla tych technologii. Intel we współpracy z Fundacją Michaela J. Foxa, podjął się badań nad chorobą Parkinsona przy pomocy urządzeń typu „wearables”. Odzież technologiczna jest w stanie dyskretnie zbierać i przekazywać obiektywne dane empiryczne w czasie rzeczywistym, 24 godziny na dobę, siedem dni w tygodniu. Jest to duży postęp w diagnozowaniu i leczeniu Parkinsona. Dzięki zastosowaniu sensorów badacze pozyskają ogrom danych do analizy Big Daty. Nie trudno się domyślić, że w porównaniu z dotychczas stosowanymi metodami monitorowania przebiegu choroby u pacjenta, przeskok w ilości danych będzie ogromny. Jednakże dopiero taka masa danych dostarczy badaczom materiał, na podstawie którego będą w stanie zgłębić istotę problemu choroby Parkinsona i wykryć wzorce. Big Data odgrywa w tym kluczową rolę.


Ze względu na obszerność danych Intel opracował platformę analityczną do big data, która wykorzystuje różne rodzaje oprogramowania, w tym Cloudera CDH — platformę open source, która gromadzi i przechowuje dane oraz nimi zarządza.  Platforma big data obsługuje aplikację analityczną do przetwarzania oraz wykrywania zmian w danych w czasie rzeczywistym. Poprzez wykrywanie anomalii i zmiany w czujniku, może dostarczyć naukowcom obiektywną metodę pomiaru progresji choroby. Zaawansowane możliwości analizy danych udostępnione przez Big data Intel z pewnością okażą się pomocne w dalszych badaniach nad chorobą.


Dane binarne w statystyce

Ekonometria

meto

 

Wybrałeś jakiś kierunek związany z szeroko rozumianymi naukami ekonomicznymi. Taki, w którym czuć pieniądz. Co więcej taki, który (wg Twoich ustaleń) w niedalekiej przyszłości sprawi, że ten pieniądz będzie czuć również od Ciebie.

Załóżmy, że wybranym przez Ciebie, drogi czytelniku, kierunkiem są Finanse i Rachunkowość. Rozpoczynasz te studia pełen optymizmu i młodzieńczej werwy. Z nadzieją patrzysz w przyszłość, w której oczami wyobraźni widzisz te wszystkie księgi rachunkowe podmiotów gospodarczych wszelkiej maści, które będziesz prowadzić. Sukcesywnie zaliczasz kolejne przedmioty. Życie jest piękne. Złapałeś pana Boga za nogi, już prawie możesz mianować się buchalterem. A tutaj przychodzi nowy semestr, nowe przedmioty i tajemniczo brzmiąca EKONOMETRIA. Z ciekawością godną młodego szulera, udajesz się na pierwszy wykład, nie mając w zasadzie pojęcia czym, ta słodko brzmiąca ekonometria się zajmuje. Przez następne kilka miesięcy  w tej materii nie zmieni się nic poza tym, że termin ten utraci ciut z pierwotnej słodyczy. Trochę posiedzisz na wykładach, na ćwiczeniach ewentualnie poczujesz w sobie wewnętrznego Pogromcę Wielkich Tajemnic XXI wieku i rozwikłasz zagadkę co jest w logo Gretla – dziewczynka czy ministrant? Jednak gdyby ktoś Cię spytał, bądź może sam zadałbyś sobie pytanie „czym jest ekonometria?”, po krótkiej chwili refleksji prawdopodobnie padłaby odpowiedź „nie wiem i w sumie to nie ważne, bo to i tak zaraz się kończy i w sumie… to byle zaliczyć”. Gdy nadejdzie czas zaliczenia to pewnie nawet za którymś razem Ci się to uda. I niebo się rozpogodzi, na horyzoncie znów będzie widać tylko piękne dni, a o ekonometrii zapomnisz tak szybko, jak szybko zdążyłeś się jej „nauczyć” na kilka dni przed egzaminem.

Tylko czemu tak to musi wyglądać? Ekonometria jest jednym z ciekawszych i przejawiających większy potencjał przedmiotów, które pojawiają się na studiach związanych z naukami ekonomicznymi.

Pomijając oczywiste argumenty związane z poszerzaniem horyzontów, zdobywaniem wiedzy z dziedzin pokrewnych, ale niekoniecznie niezbędnych w konkretnej materii, można przytoczyć wiele innych „za”. Współczesny smart thinking jest nierozerwalnie związany z metodami analitycznymi, a co za tym idzie w pewnym stopniu z ekonometrią. Szeroko pojmowane analizy zjawisk dostarczają nam informacji, na podstawie których jesteśmy w stanie prognozować. Kluczem do wartościowej prognozy jest prawidłowo zbudowany model, w tym przypadku model ekonometryczny. To podstawowe narzędzie w połączeniu z wiedzą umożliwia nam dogłębne zbadanie zdarzeń występujących na rynkach.

Prognozowanie jest jednym z istotniejszych obszarów zarządzania.

Zarówno ogromne korporacje, jak i małe przedsiębiorstwa, zmuszone są planować swoje przedsięwzięcia z dużym wyprzedzeniem. By podejmowane działania były owocne, konieczne jest zapoznanie się z danymi z przeszłości. To przy ich pomocy możemy zrozumieć istotę ubiegłych już zdarzeń i zbadać związki występujące pomiędzy interesującą nas materią a czynnikami, które teoretycznie powinny na nią wpływać. Dogłębna analiza dostarczy informacji, na podstawie których możemy podejmować dalsze kroki. Dane z przeszłości informują nie tylko o ubiegłych zdarzeniach, lecz także na ich podstawie, przy prawidłowo zbudowanym modelu, jesteśmy w stanie oszacować to co wydarzy się w przyszłości. Za przykład posłużyć może tworzenie prognoz sprzedaży dla produktu. Opierając się o pozyskane dane, dotyczące sprzedaży podobnego produktu na rynku i nastawienia konsumentów, firma może wstępnie oszacować przyszłą sprzedaż.

Ekonometria jest ciekawą i przede wszystkim – przydatną nauką.

Tak jak każda dziedzina korzystająca z metod statystycznych, systematyzuje zachodzące zdarzenia i przekłada je na język matematyki tak, by móc „wycisnąć” z nich jak najwięcej informacji i osiągnąć ekonomicznie optymalne wyniki np. sprzedaży.

Autorem jest Martyna Kuligowska

Martyna Kuligowska Analiza statystyczna danych pomoc statystyczna ekonometria analiza danych prognozowanie

czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/