problemy klasyfikacyjne

Propensity score matching – Statystyczny wpływ netto zmiennej niezależnej na zmienną zależną.

meto1

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Metoda PSM to perfekcyjny przykład poznawania prawdziwych źródeł zmienności!

Propensity score matching – Statystyczny wpływ netto.

Czyli jak do obserwacji z grupy eksperymentalnej wybrać obserwacje podobne, ale jednocześnie będące grupą odniesienia ? Jak uzyskać czysty wpływ zmiennej niezależnej na zmienną zależną.

Propensity Score Matching to procedura polegająca na statystycznym utworzeniu podobieństwa między grupą kontrolną i eksperymentalną pod względem zmiennych balansujących. Pierwszy krok tej procedury polega na utworzeniu wektora balansującego wskazującego prawdopodobieństwo przynależności do grupy kontrolnej i eksperymentalnej (zazwyczaj wykonuje się to dzięki oszacowaniom regresji logistycznej). Drugi krok polega tym aby przyporządkować obserwacje podobne do siebie pod względem wartości wektora balansującego. Najczęściej przyporządkowuje się obserwacje z grupy eksperymentalnej do grupy kontrolnej za pośrednictwem metody najbliższego sąsiada. Metoda ta pozwala na przyporządkowania obserwacji z grupy eksperymentalnej do osoby z grupy kontrolnej pod względem bliskości wartości wektora balansującego. Do wykonania tej procedury można wykorzystać popularny pakiet „MatchIt” z repozytorium CRAN [1] w programie R.

[1] https://cran.r-project.org/web/packages/MatchIt/index.html


Procedura PSM jest pewnego rodzaju połączeniem statystycznej analizy danych z pewną logiką metodologiczną. O co chodzi ? W metodzie tej chodzi o to aby obserwacje w grupie eksperymentalnej były podobne do osób z grupy kontrolnej pod względem cech, które są powiązane ze zmienną niezależną oraz zmienną zależną. Chodzi o wyrównanie różnic pomiędzy grupami.


Wyobraźmy sobie sytuację kiedy badamy wpływ cukrzycy na czas trwania życia (  np. analizą przeżycia/survival analysis lub porównywaniem krzywych na wykresie Kaplana Mayera ). Kiedy zanalizujemy statystycznie ten wpływ może się okazać, że skracający życie czynnik jakim jest cukrzyca może tylko pozornie wpływać na śmiertelność. Może być tak, że grupa eksperymentalna (cukrzyków) jest inna pod względem wielu cech oraz jest inaczej traktowana w procesie długofalowego leczenia niż grupa kontrolna (zdrowych ludzi) *Niestety ze względów etycznych nie możemy losowo wybierać obserwacji i wywoływać w jednej grupie cukrzycy a w drugiej nie. Losowy dobór do grup badawczych jest oczywiście uczciwy i jak najbardziej pożądany. Wywołanie cukrzycy już takie nie jest. Niemniej jednak jest coś co możemy zrobić. Możemy wykorzystać metodę PSM. Czyli wybrać grupę kontrolną, która pod względem wielu czynników będzie podobna do grupy eksperymentalnej. Jak to zrobić ? W przypadku kiedy sytuacja wygląda na taką w której mamy 2 grupy badawcze możemy użyć regresji logistycznej ( dla problemów w których jest większa ilość grup eksperymentalnych można zastosować inne statystyczne metody klasyfikacyjne). Jako zmienne wejściowe wybieramy czynniki, które są powiązane z cukrzycą  oraz z przedwczesnymi zgonami, które chcemy wyjaśnić wpływem cukrzycy. Ów cukrzyca na potrzeby analizy regresji logistycznej jest naszą zmienną zależną ( ale tylko na chwilę). Dzięki regresji logistycznej uzyskujemy przewidywane prawdopodobieństwo przynależenia obserwacji do danej grupy ( cukrzyca – zdrowy ). Dzięki temu powiedzmy, że uzyskujemy wektor balansujący obie grupy. Jak to ? Każdy uzyskany wynik w grupie kontrolnej i eksperymentalnej możemy interpretować jako pewnego rodzaju poziom podobieństwa względnego. Dzięki takiemu zabiegowi uzyskujemy wartości identyfikacyjne na podstawie których możemy wyodrębnić jednostki w grupie kontrolnej i eksperymentalnej podobne do siebie pod względem wcześniej wyodrębnionych cech. Takie dopasowanie najlepiej wykonać analizą skupień metodą najbliższego sąsiada. Dzięki takiemu zabiegowi dobieramy do grupy eksperymentalnej bardzo podobne osoby  z grupy kontrolnej. Obie grupy są do siebie podobne pod względem różnych cech np. BMI, płci, grupy krwi, wieku, parametru Logistic Euroscore, rodzaju leczenia, ilości odbytych operacji lub hospitalizacji. Gdybyśmy planowali dobór osób do grupy kontrolnej szansa na dopasowanie do grupy eksperymentalnej osób podobnych była by prawie niemożliwa.

Koniec końców w przypadku kiedy mamy wybalansowane różnice pomiędzy grupami pod względem cech, które są powiązane z cukrzycą i zgonami możemy określić wpływ netto cukrzycy na śmiertelność.


Przyszłość tej metody.

Metoda propensity score matching zdobywa coraz większą popularność i jest coraz częściej wymagana przy projektach badań ilościowych w których losowy dobór jednostek do badania, a następnie do grup badawczych jest niemożliwy. Można powiedzieć, że metoda propensity score matching może się stać standardem przy badaniach, tak jak podwójna randomizacja w badaniach eksperymentalnych.


Etapy procedury Propensity score matching.

– znalezienie zmiennych powiązanych ze zmienną nieznależną i zależną

– zbudowanie wektora balansującego ( np. użycie do tego regresji logistycznej, naiwnego klasyfikatora Bayesa, analizy dyskryminacyjnej lub sieci neuronowej )

– dokonnać powiązania (matchingu) obserwacji z grupy eksperymentalnej i kontrolnej przy użyciu wektora balansującego ( najlepiej użyć do tego algorytmu KNN – analizy skupień najbliższego sąsiada )

– porównać różnice pomiędzy grupą kontrolną a eksperymentalną pod względem cech budujących wektor balancujący przed i po procedurze propensity score matching

– zweryfikować różnice statystyczne netto pomiędzy wybalansowanymi grupami  (zmienną niezależną) pod względem interesującej nas zmiennej zależnej


Jak ocenić skuteczność wykonanych kroków ?

– w pierwszym etapie (przed matchingiem) analizy statystycznej powinny być wyraźne różnice pomiędzy grupami pod względem czynników budujących wektor balansujący

– obie grupy po zbudowaniu wektora balansującego powinny różnić się pod względem jego wyniku

– po dopasowaniu (matchingu) różnice istotne statystycznie pod względem czynników budujących wektor balansujący powinny zniknąć

– istotna statystycznie różnica między grupami (zmienną niezależną) pod względem wektora balansującego powinna zniknąć


Jak ocenić wpływ netto zmiennej niezależnej na zmienną zależną ?

Po procedurze propensity score matching przeprowadzamy analizę statystyczną, która ma zakwestionować losowość wyników np. test t Studenta lub analizę wariancji. W naszym przypadku była to analiza Log – Rank (Logarytmicznych Rang). Zmienną niezależną była zmienna  cukrzyca lub jej brak, a zmienną zależną był czas życia po operacji.


Gdzie procedura propensity score matching może mieć zastosowanie ?

Najczęściej procedura ta może mieć zastosowanie w badaniach ewaluacyjnych przy interwencjach społecznych (np. w Projekcie Alternatywa II), w projektach badawczych przy, których manipulowanie zmienną niezależną jest nieetyczne lub niemożliwe. W badaniach w których nie można stworzyć grupy kontrolnej ze względu na koszt badań lub brak możliwości znalezienia jednostek podobnych do grupy eksperymentalnej.

Autorem tekstu jest Konrad Hryniewicz.


analiza statystyczna danych do pracy magisterskiej

Analiza statystyczna do pracy magisterskiej, licencjackiej i doktorskiej. Legal czy nielegal ?

Analiza statystyczna do doktoratu, pracy magisterskiej i licencjackiej.


Zanim zlecisz obliczenia analizy statystyczne do pracy dyplomowej zapoznaj się z tym wpisem. Dowiesz się tego czy korzystanie z pomocy firm (w tym firmy Metodolog) oferujących usługi statystyczne w pracy magisterskiej , licencjackiej  lub pracy doktorskiej jest ok ? Czy jest legalne ? Czy jest etyczne ?


Czy jest ok ? Jest.

Jak zawsze punkt widzenia zależy od punktu siedzenia. Osoby, a raczej studenci, którzy nie mają pojęcia o metodach obliczeniowych, statystyce i metodologii badań lepiej, aby zlecały wykonanie tej specyficznej i trudnej pracy. Dlaczego? Dlatego, że nieświadomie mogą zrobić krzywdę sobie oraz nauce, poprzez nieumiejętne i ślepe wykorzystywanie technik statystycznych (jest to oczywiście zależne od sumienności, skrupulatności i wiedzy danego studenta). Takie zachowanie przekłada się to oczywiście na błędy pierwszego i drugiego rodzaju. Oczywiście prace magisterskie nie są tą samą rangą badań co seria badań w artykule naukowym lub pracy doktorskiej. Niemniej jednak pokazanie wyników istotnych analiz statystycznych w pracy magisterskiej lub licencjackiej, które tak na prawdę istotne nie są, niosą bardzo ciężkie konsekwencje. Np. Ucieszony promotor – profesor może zrelacjonować ów wyniki tak wykonanej analizy statystyczne i wniosków w swojej książce, albo artykule naukowym. Profesor też człowiek. Czy będzie się on  zastanawiać nad jakością danych i zasadnością użytych analiz statystycznych w pracy magisterskiej swojego studenta w momencie kiedy wyniki wyszły pożądane (a w rzeczywistości statystyczno metodologicznej jednak takie nie wyszły)? Niestety nie… I trach ! Mamy artefakt w obiegu wiedzy!

Wszystko jest ok kiedy gra muzyka. Dla dobra stanu wiedzy, dla dobra przyszłych publikacji, dla dobra studentów i promotorów prac, sugeruje się aby analiza statystyczna do doktoratu, prac magisterskich i licencjackich były wykonywane przez profesjonalnych statystyków lub metodologów. Wykonanie analiz i obliczeń statystycznych do projektu magisterskiego lub licencjackiego w naukach społecznych (psychologia, socjologia, pedagogika, ekonomia) lub medycznych (pielęgniarstwo, lekarskie, weterynaria) nie jest drogie. Na polskim rynku jest kilku rzetelnych dostawców usług statystycznych ]. Za niektórych analityków, którzy wykonują obliczenia statystyczne do projektów badawczych mogę ręczyć osobiście, swoim majątkiem oraz dać uciąć rękę.


Czy takie usługi są legalne ? Tak.

Polskie prawo nie zakazuje zlecania  legalnie działającym podmiotom gospodarczym takich rzeczny jak wykonywanie obliczeń statystycznych i analiz do prac magisterskich, licencjackich i doktorskich.


Czy tego typu pomoc jest etyczna? I tak… I nie…

Praca magisterska, licencjacka oraz doktorska powinna być od A do Z wykonana samodzielnie przez studenta tak samo jak analiza statystyczna. Praca tego typu, szczególnie w przypadku magistra jest czymś co potwierdza zdobytą wiedzę mistrzowską oraz umiejętność produkcji wiedzy. Co więcej, we wszystkich naukach przyrodniczych jest wymagana statystyczna weryfikacja danych, czyli analizy statystyczne. Co w przypadku kiedy student dysponuje doskonałą wiedzą, praktyką i intuicją w danej dziedzinie nauki oraz potrafi wytwarzać dobra danej nauki, no ale nie radzi sobie ze statystyką ? Ma gubić się samotnie w piekle modeli liniowych, nieliniowych? W statsytyce Bayesa?  Zamiast wymodelować dane w scoringu kredytowym ma wrzucać predyktory bez żadnej obróbki do modelu klasyfikacyjnego? Nie kontrolować wielokrotności porównań w testach post hoc ? Niewiedza rodzi ignorancję, ignorancja rodzi błędy, a błędy prowadzą do katastrof (mniejszych i większych).


Warto się zastanowić uczciwie (wątek ten kieruje do studentów, promotorów i recenzentów), czy zlecanie obliczeń statystycznych w projektach magisterskich, licencjackich i doktorskich specjalistom  jest ok, czy jednak nie jest ok ? Jak w ogóle rozpatrywać tę  decyzję ?


Wątek ten można zakończyć bardzo gorącym i mądrym chińskim przysłowiem” Żyj tak jakbyś miał żyć wiecznie „


Analizy statystyczne dla wszystkich, albo promotorzy prac do roboty :)!


Więcej info o tym czym są analizy statystyczne i usługi statystyczne w nauce:

Analiza statystyczna w socjologii
Przykładowa praca magisterska
Metody statystyczne w analizie ankiet
Analiza statystyczna w medycynie
Statystyka w pedagogice
Statystyka w psychologii
Analizy statystyczne / analiza badań / metody statystyczne
Usługi statystyczne = Pomoc statystyczna
Opracowanie statystyczne ankiet
Teoria statystyki – matematyczną koncepcją opisania czegoś w ujęciu ilościowym
Statystyczny blog

Skalowanie wielowymiarowe – Statystyka w marketingu motoryzacyjnym.

Metodolog.pl przedstawia skalowanie wielowymiarowe jako metodę statystyczną w marketingu motoryzacyjnym.

meto1

 

Przedstawiamy Państwu rezultaty przeprowadzonego badania dotyczącego wpływu interesowania się samochodami na ich postrzeganie.

Jak już wiemy ludzie się różnią, a wraz z różnicami indywidualnymi różni się postrzeganie świata. Przebadaliśmy jakiś czas temu świat postrzegania marek samochodów przez ludzi znających się i interesujących się markami aut. Zachęcamy do zapoznania się z wynikami przeprowadzonej w tym kontekście analizy rzetelności metodą Alfa Cronbacha oraz skalowania wielowymiarowego metodą Alscal.

Cały tok pracy przedstawia poniższa infografika.

Skalowanie wielowymiarowe - Statystyka w marketingu motoryzacyjnym.

Więcej informacji o Skalowaniu Wielowymiarowymi użytym w powyżej analizie MDS Skalowanie Wielowymiarowe – przykłady zastosowań./

 

problemy klasyfikacyjne

Regresja logistyczna – Analiza klasyfikacyjna.

Budowa modelu regresji logistycznej pozwala na oszacowanie prawdopodobieństwa wystąpienia jakiegoś zdarzenia w zależności od zestawu zmiennych które wpływają na pojawienie się ów badanego zjawiska.

Model równania analizy logistycznej szacuje się za pomocną metody MNW (Metoda Największej Wiarygodności). Celem jest zmaksymalizowanie wiarygodności zajścia zdarzenia 0 (porażka, śmierć, wypadek) i 1 (sukcesu, przeżycia, ocalenia). Zmienną która wpływa na zdarzenia może być mierzona na każdej skali pomiarowej. Analiza pozwala na wnioskowanie o % zdarzeń które wyjaśnia analiza oraz % wskaźnik poprawności przewidywania zdarzenia. Analiza pozwala również wykryć wpływ każdej ze zmiennych na prawdopodobieństwo wystąpienia zdarzenia i to, ile możemy się pomylić w szacowaniu. Do wizualizacji używa się wynalezionej podczas Drugiej Wojny Światowej krzywej ROC, za pomocą której szacowano naloty bombowe. Pole powierzchni pod krzywą wskazuje na siłę zmiennej wpływającej na pojawienie się zdarzenia. Na rysunku nr 1 przedstawiającym krzywe ROC widać że zmiana filtra oleju wpływa bardziej na awarię niż spóźnienie się z wymiana oleju. Płeć na szczęście nie wpływa na awarię.

Analiza regresji logistycznej jest bardzo często używana w problemach klasyfikacyjnych. Bardzo szczególnym problemem w którym analiza regresji logistycznej ma zastosowanie jest analiza i modelowanie ryzyka kredytowego. W tym kontekście modeluje się zmienne wejściowe, tworzy interakcje między nimi, a także tworzy się pochodne zmiennych w celu maksymalizowania prognozy tego czy ktoś spłaci kredyt/ pożyczkę lub nie. W tym przypadku analiza regresji logistycznej jest jedną z najbardziej skutecznych metod statystycznej analizy danych. Wiele symulacji oraz lata praktyki pozycjonują regresję logistyczną na pierwszym miejscu pod względem oceny jakości (widzianej z perspektywy zdolności modelu do separacji grup oraz stabilności jego szacowania). Regresję logistyczną wykorzystuje się również w badaniach i analizach medycznych (biostatystka). Jest ona doskonałą metodą wyjaśniającą i opisującą wpływ różnych zmiennych o stanie zdrowia pacjentów na występowanie różnych czynników chorobowych. Podobnie badacze wykorzystują regresję logistyczną w psychologii. Coraz częściej w publikacjach pojawiają się informacje na temat przewidywań zachowań ludzi opartych właśnie o prognozy z wykorzystaniem analizy regresji logistycznej. Test ten jest wspaniałym narzędziem do budowy zaawansowanych modeli wyjaśniająco klasyfikujących. Analiza ta nie jest skomplikowana w swej interpretacji oraz jest odporna na niespełnienie różnych założeń, które wymagają inne testy statystyczne (np. analiza dyskryminacyjna). Najważniejszą procedurą w kontekście tej analizy jest przygotowanie danych, przekształcenia, wybór odpowiednich zmiennych oraz diagnostyka modelu. To ona tych czynności zależy jakość wyników oszacowanych przez regresję logistyczną oraz ich stabilność oraz zdolność samego testu do uogólniania wiedzy na nowych danych. Bardzo gorąco polecamy tę procedurę, stosujemy ją od lat z sukcesem w analizach w kontekście medycyny, inżynierii, ekonometrii, psychometrii, pielęgniarstwie i coraz częściej w biznesie (firmy pożyczkowe, ubezpieczeniowe) i marketingu. Na życzenie jesteśmy przedstawić naszą autorską (lecz bardzo podobną w detalach) metodologię modelowania systemów klasyfikacyjnych opartych właśnie o oszacowania regresji logistycznej.

Jeśli chciałbyś przetestować możliwości tej wspaniałej procedury to się z nami skontaktuj. Opowiemy Ci jak jej użycie może wpłynąć na wnioski z Twojego badania, albo jak może to usprawnić działanie Twojego biznesu. W pierwszej kolejności możemy omówić Twój problem klasyfikacyjny i zaproponować możliwości aplikacji regresji logistycznej lub innej metody klasyfikacyjnych np. rozbudowanych drzew decyzyjnych lub analizy skupień. Wszystko zależy od tego z jakimi problemami mamy do czynienia. Nasz warsztat analityczny ma cały arsenał analiz statystycznych oraz metod opracowywania raportów i analiz statystycznych. Wszystko po to by poskromić każdy rodzaj danych. W szczególnych przypadkach jesteśmy wstanie sięgnąć po najnowsze i nieznane, a czasem niestandardowe rozwiązania. Poniżej prezentujemy skrótowy opis technik statystycznych wykorzystywanych poza regresją logistyczną. Być może, że któreś z tych podejść będzie bardziej odpowiadało na Twoje potrzeby i będzie bardziej dopasowane do problemów badawczych w kontekście tworzenia Twojej nauki lub rozwoju biznesu.

Zachęcamy do zapoznania się z naszym warsztatem.