analiza statystyczna metodolog

Kliniczne podejmowanie decyzji w badaniach psychologicznych opartych na metodach reguł decyzyjnych.

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Kliniczne podejmowanie decyzji w badaniach psychologicznych  opartych na metodach reguł decyzyjnych.

Psychologowie pracujący w praktyce muszą podejmować decyzje o klientach, mając ograniczony czas i informacje. Nowe algorytmy analityczne na danych mogą dostarczyć wyników badań empirycznych, które są bardziej wydajne i łatwiejsze do zastosowania w praktyce psychologicznej.

Podejmowanie decyzji w praktyce psychologicznej

Kiedy podejmujemy decyzje w realnym świecie, mamy do czynienia z ograniczeniami informacji, zasobów poznawczych, i czasem do dyspozycji. To się nazywa „racjonalność ograniczona”, również jako psychologowie, musimy znaleźć sposób na radzenie sobie z tymi ograniczeniami, kiedy podejmujemy decyzje o klientach lub pacjentach. Jednocześnie, standardy zawodowe psychologów wymagają praktykowanie podejścia opartego na dowodach: dokładność oceny i skuteczność zabiegów powinny być poparte badaniami empirycznymi. Być może nawet co ważniejsze, opinie i metaanalizę do oceny klinicznej („przewidywania kliniczne”) i formuły empiryczne („przewidywanie statystyczne”) wykazały, że te ostatnie są bardziej dokładne niż to pierwsze. Więc najlepiej, dla psychologów pracujących w praktyce byłoby gdyby badania empiryczne były dostarczane im z zasadami predykcji statystycznych, które mogą być łatwo ocenione.

Popularne modele statystyczne w badaniach psychologicznych

Jednak w większości badań empirycznych w psychologii dane analizowano stosując ogólny model liniowy lub GLM. Z tych modeli, możemy przewidzieć wartość zmiennej przez zsumowanie składek innych zmiennych objaśniających (często nazywany je „ryzykiem” lub czynnikami „ochronnymi”). GLM są to potężne modele, które są koncepcyjnie proste i mają pożądane właściwości pod względem stabilności i dokładności; może to wyjaśnić ich popularność wśród przedstawicieli nauk społecznych.

Jako przykład GLM, weźmy analizy wykonywane w referacie Penninx i współpracowników, którzy badali czynniki przewidujące, czy pacjenci, którzy obecnie mają lęk lub zaburzenia depresyjne nadal będą mieć takie zaburzenia po dwóch latach. Naukowcy odkryli siedem zmiennych i czynników, które przewidywały obecność zaburzeń; przedstawiono to w poniższej tabeli.

czynniki przewidujące obecność zaburzeń psychometria

Model ten oferuje nam kilka ważnych informacji na temat ryzyka i czynników ochronnych na rzecz rozwoju przewlekłego stanu depresji lub lęku. Jednakże, jeśli chcemy wykorzystać model do oceny ryzyka nowego pacjenta zachorowania na przewlekłą chorobą, musimy ocenić wartość wszystkich siedmiu zmiennych i obliczyć sumę ważoną ich wartości. Może to wymagać zbyt wiele czasu i zasobów, zwłaszcza dla psychologa pracującego w praktyce klinicznej, gdzie oba  zasoby są ograniczone.

Szybki i oszczędny proces decyzyjny

Badacze tacy jak Gigerenzer i Katsikopoulos  sugerowali użycie tak zwanych „szybkich i oszczędnych drzew decyzyjnych” do prognozowania statystycznego w praktyce klinicznej. Szybkie i oszczędne drzewo jest bardzo prostym drzewem decyzyjnym, składającym się tylko z jednej gałęzi. Na każdym poziomie drzewa, oceniana jest wartość tylko jednej zmiennej; na podstawie tej wartości, albo drzewo zostaje zamknięte i podjęta ostateczna decyzja albo wartość kolejnej zmiennej w drzewie zostanie oceniona. Przykład takiego drzewa przedstawiono poniżej. Może być ono stosowane przez lekarzy w celu podjęcia decyzji, czy należy przepisać antybiotyki makrolidowe dzieciom z infekcją.

drzewo decyzyjne w psychologii C&RT Chaid

Te szybkie i oszczędne drzewa wydają się bardzo pomocne do wykonywania prognoz statystycznych, kiedy czas, informacje i zasoby są ograniczone. Jednakże, drzewa mają być zbudowane w taki sposób, że zapewnią dokładne podjęcie decyzji, a zmienne będą oceniane w najbardziej skuteczny sposób.

Nowe narzędzia do przewidywania

Oto gdzie metody oparte na regułach mogą się przydać. Metody oparte na regułach są stosunkowo nowym narzędziem analitycznym danych, opracowane w dziedzinie statystyki i drążenia danych. Friedman i Popescu opracowali jeden z najbardziej obiecujących metod opartych na regułach: algorytm RuleFit.

Algorytm ten osiąga tak zwane reguły przewidywania całościowego stosując dokładnie te same dane, które są stosowane do dopasowania GLM. Jednak, że zasada predykcji całościowej może być reprezentowana jako szybkie i oszczędne drzewo, które może być łatwiejsze do stosowania w praktyce niż GLM.

W artykule opublikowanym w tym roku pokazaliśmy przykład zasady przewidywania całościowego dla przewidzenia obecności zaburzeń depresyjnych i lękowych, przy zastosowaniu algorytmu RuleFit do tych samych danych, co w oryginalnym badaniu Penninx i współpracowników.

 Znaleźliśmy regułę przewidywania całościowego opierającego się na dwóch prostych zasadach, zapewniając decyzje, których dokładność była porównywalna do pierwotnego modelu liniowego. Poniżej dwa przepisy całościowe, które przedstawione są jako szybkie i oszczędne drzewa. Średnio ocena zasad wymaga oszacowania wartości zaledwie trzech zmiennych, natomiast za pomocą GLM do przewidywania potrzebne by było oszacowanie wartości siedmiu zmiennych z tabeli powyżej.

drzewa decyzyjne przewidujące depresję i chroniczny lęk decyzje kliniczne w psychologii

W związku z tym, możemy stwierdzić, że metody oparte na regułach oraz algorytm RuleFit w szczególności, są to obiecujące metody tworzenia narzędzi decyzyjnych, które są proste i łatwe do zastosowania w praktyce psychologicznej. W przyszłych badaniach, będziemy działać na rzecz dalszej poprawy stosowalności, dokładności i łatwości użycia metod opartych na regułach.

Więcej o analizach statystycznych danych:

Pomoc statystyczna.

Analizy statystyczne.

analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

statystyka medyczna, biostatystyka

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

W ostatnich latach, coraz większą popularnością cieszą się urządzenia monitorujące nasze zdrowie. Smartwatche i smartbandy zyskują kolejnych użytkowników, którzy wykorzystują je w celu zbierania informacji na temat stanu swojego zdrowia. Przy ich pomocy możemy zebrać dane np. na temat snu, bądź jeżeli uprawiamy sport, to małe urządzenie na nadgarstku pomoże usystematyzować dane o osiągnięciach i dostarczyć nowych cennych informacji.


Nie trzeba było długo czekać, by znaleźć poważniejsze zastosowanie dla tych technologii. Intel we współpracy z Fundacją Michaela J. Foxa, podjął się badań nad chorobą Parkinsona przy pomocy urządzeń typu „wearables”. Odzież technologiczna jest w stanie dyskretnie zbierać i przekazywać obiektywne dane empiryczne w czasie rzeczywistym, 24 godziny na dobę, siedem dni w tygodniu. Jest to duży postęp w diagnozowaniu i leczeniu Parkinsona. Dzięki zastosowaniu sensorów badacze pozyskają ogrom danych do analizy Big Daty. Nie trudno się domyślić, że w porównaniu z dotychczas stosowanymi metodami monitorowania przebiegu choroby u pacjenta, przeskok w ilości danych będzie ogromny. Jednakże dopiero taka masa danych dostarczy badaczom materiał, na podstawie którego będą w stanie zgłębić istotę problemu choroby Parkinsona i wykryć wzorce. Big Data odgrywa w tym kluczową rolę.


Ze względu na obszerność danych Intel opracował platformę analityczną do big data, która wykorzystuje różne rodzaje oprogramowania, w tym Cloudera CDH — platformę open source, która gromadzi i przechowuje dane oraz nimi zarządza.  Platforma big data obsługuje aplikację analityczną do przetwarzania oraz wykrywania zmian w danych w czasie rzeczywistym. Poprzez wykrywanie anomalii i zmiany w czujniku, może dostarczyć naukowcom obiektywną metodę pomiaru progresji choroby. Zaawansowane możliwości analizy danych udostępnione przez Big data Intel z pewnością okażą się pomocne w dalszych badaniach nad chorobą.


czerwony alarm pogotowie statystyczne

Kryterium informacyjne

meto

 

Kryterium informacyjne

Jeśli chcemy w prosty sposób wybrać zmienne, które mają największą moc predykcyjną w stosunku do naszej zmiennej zależnej warto jest wziąć pod uwagę kryterium informacyjne. Jest to bardzo prosty do obliczenia współczynnik i w przypadku gdy naszą zmienną zależną jest dobry/zły kredytobiorca możemy bez używania skomplikowanych narzędzi przeprowadzić w ten sposób prostą selekcję zmiennych. A w przypadku gdy stosujemy później modele vintage’owe taki wybór zmiennych okazuje się często być wystarczający.

Zatem jak obliczyć wartość IV?  Najpierw musimy zdecydować jaki klient jest dobry a jaki zły. Następnie obliczamy WOE (Weight of Evidence). WOE = ln (%złych/%dobrych). Natomiast wzór na IV przedstawia się następująco:

IV = ∑(%złych – %dobrych)*WOE

Prosty przykład wyznaczania IV przedstawia poniższa tabela.

 

IV------>
0,36178
Przedziały
Liczba złych k.
Liczba dobrych k.
% złych
% dobrych
WOE
MIV
0-1k
197
354
11%
31%
-1,01919
0,20192
1-3k
450
367
26%
32%
-0,22921
0,01509
3-5k
582
234
33%
20%
0,47805
0,06004
5k+
532
187
30%
16%
0,61243
0,08473
Łącznie
1761
1142

Ogólnie przyjmuje się, że wartość IV poniżej 0,02 świadczy o braku zdolności predykcyjnej danej cechy a wartości powyżej 0,3 świadczą już o dużej wartości predykcyjnej.

Wystarczy zatem wyliczyć IV dla posiadanych zmiennych i wybrać te z najwyższą IV.  W pakiecie R z pomocą przychodzi nam funkcja iv.mult z pakietu woe, która przyjmuje parametry  iv.mult(nazwa zbioru danych, nazwa zmiennej zależnej, TRUE (jeśli chcemy wyświetlić wartości IV)).

Więcej info na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego
Ryzyko kredytowe
Metody oceny zdolności kredytowej
Drzewa decyzyjne
Liniowa analiza dyskryminacji
Analiza regresji logistycznej

Ryzyko kredytowe i psychologia. Psychologia zachowań i osobowości w ocenie zdolności kredytowej Credit Risk & Personality/