pomoc, usługi i analizy statystyczne metodolog

Wprowadzenie do analizy równań strukturalnych / SEM / Analizy ścieżek / Konfirmacyjnej analizy czynnikowej / CFA

meto

 

Analiza modelowania równań strukturalnych ma na celu analizę kształtu i siły zależności mających charakter funkcji liniowych pomiędzy zmierzonymi zjawiskami. Podstawowym przykładem modelu strukturalnego jest model regresji liniowej, który wyjaśnia wpływ zmiennej niezależnej na ilościową zmienną zależną.

Sytuacją wyjściową by modelować strukturę równań liniowych powinna być teoria dotycząca badanego zjawiska. To właśnie ona wskazuje na zależności / wpływy, które powinny być uwzględnione w estymacji układu modelu. Analiza równań strukturalnych umożliwia szacowanie zależności przyczynowo skutkowych oraz korelacyjnych. Model taki może być prezentowany za pomocą funkcji lub tabeli, choć najfajniejszą i zarazem bardzo elegancką  formą prezentacji jest układ graficzny.

Dzięki wymodelowaniu logiki zależności i wpływów można szacować teoretyczną postać macierzy wariancji-kowariancji zmiennych budujących model. Szacowanie modelu opiera się na porównaniu oszacowanych parametrów macierzy wariancji-kowariancji wynikających z modelu tak aby była ona podobna do skonceptualizowanej teoretycznej macierzy wariancji – kowariancji. Nawet w przypadku kiedy zbuduje się model z najlepszych parametrów, ale nie będą one wpływały na dopasowanie to trzeba odrzucić model lub go przekształcić. Oczywiście trzeba pamiętać, że przekształcanie modelu może doprowadzić bardzo szybko do dopasowania modelu do danych, ale może on wtedy nie pasować do wcześniej ustalonych założeń teoretycznych. W momencie kiedy obie macierze do siebie są dopasowane pod względem kryteriów dopasowania ( RMSEA, GFI, AGFI, Chi Kwadrat, CFI itp) można przyjąć, że model wraz z teorią jest jest znacząco ze sobą powiązany. Wtedy i tylko wtedy można przejść do drugiego kroku analizy jaką jest ocena parametrów opisujących model kierunków i sił zależności/wpływów. W przypadku kiedy model nie jest dopasowany do teorii (danych) metodologia postępowania w zmianie układów równań strukturalnych podrzuca sugestie (analityczne) dotyczące tego jak zmienić model by uzyskać zadowalające dopasowanie. Sugestie te obejmują dodanie i usunięcie parametrów, niekiedy sugerują też zmianę układu zależności/wpływów. Modelowanie strukturalne to narzędzie do analizy zmiennych ciągłych. Często jednak używa się go analizowania zmiennych zakodowanych na porządkowym poziomie pomiaru. Przy takim  zastosowaniu ów skali warto zatroszczyć się o to aby rozpiętość skali była możliwie jak największa. Pomiary w analizie równań strukturalnych można podzielić na da typy: pierwszym typem są zmienne obserwowalne, a drugim zmienne nieobserwowalne. Zmienne obserwowalne sa po prostu zmiennymi w bazie danych. Zmienne nieobserwowalne posiadają składniki losowe, które charakteryzują tę część zmienności modelowanych zjawisk, które nie wyjaśniają zmienne umieszczone w modelu równań strukturalnych. Pozostałe zmienne nieobserwowalne, to pomiary opisujące badane uniwersum zjawisk, które ze względu na swoją naturę wymagają mniej lub bardziej zaawansowanego pomiaru lub obróbki statystycznej. W przypadku nauk o zachowaniu większość pomiarów ma właśnie taką charakterystykę. W tym tekście skupimy się na modelowaniu równań strukturalnych biorąc pod uwagę właśnie zmienne obserwowalne i ewentualnie składniki losowe. Prostym przedstawieniem tej grupy modeli o jakich jest mowa to analiza regresji liniowej. Wzięcie pod uwagę korelacji, co jest możliwe dzięki modelowaniu strukturalnym pozawala przezwyciężyć problem interkorelacji (współliniowości), często spotykanej w tego typu modelach. Chodzi w tym o to, że oszacowania parametrów analizy są zazwyczaj zawyżone ze względu na zbyt mocne powiązanie predyktorów co w konsekwencji zwraca mniejszą istotność oszacowań związków/wpływów zmiennych. W modelach strukturalnych można ponad to analizować nie tylko bezpośrednie, ale także efekty pośrednie (mediacji/supresji) dzięki czemu można szacować modele wielorównaniowe. Modelom strukturalnym ze zmiennymi latentnymi (nieobserwowalnymi) poświęcimy osobny wpis. Niemniej to o czym będzie mowa w dalszych wpisach ma zastosowanie i w analizie równań strukturalnych, i w konfirmacyjnej analizie czynnikowej (Confirmatory Factor Analysis).

W skrócie :

Modelowanie równań strukturalnych posiada potencjał w analizie zjawisk postulowanych przez teorię, czyli powiązania różnych zależności pomiędzy badanymi zjawiskami. Model strukturalny jest skonstruowany z pomiarów ciągłych (skala ilościowa) lub porządkowych (przy zachowaniu założenia o rozpiętości skali) oraz zakłada liniową funkcję zależności pomiędzy zmiennymi. Zmienne te mogą być obserwowane lub latentne (nieobserwowalne), a zależności jakie je łączą mogą mieć charakter przyczynowo-skutkowy lub korelacyjny. Model strukturalny może składać się z bardzo wielu równań, a co za tym idzie wielu zaawansowanych zależności.

Poniższy graf ścieżkowy przedstawia empiryczny model przewidywań teorii HAPA (Schwarzer, 2008) zbudowany dla danych związanych z oszczędzaniem. Teoria ta przewiduje, że na chęć do danego zachwoania wpłwywa świadomość ryzyk związnych z brakiem zachowań pożądanych, poczucie własnej skuteczności w wykonaniu zachowania oraz postrzegane korzyści wynikające z podjętego działania (w przypadku poniższych chodzi o oszczędzanie). Wspomniane 3 czynniki determinują intencję do zachowania się. Niemniej by intencja została przekształcona w działanie musi być spełnionych kilka warunków. Są one reprezentowane przez czynniki kontroli zachowania (monitorowanie zachowania, utrzymanie poczucia skuteczności itd.). Poniższy model przedstawia wyniki oszacowań modelu równań strukturalnych wykonanych metodą SEM-CB. Więcej na temat modelu czytelnik znajdzie tutaj: Hryniewicz, K. (2019) “Motivation and Action Control in a Saving Lifestyle,” WSB Journal of Business and Finance, 53(1). doi: 10.2478/WSBJBF-2019-0014.

Konfirmacyjna analiza czynnikowa i model ścieżkowy

Przykład układu równań.

Analizę modelu równań strukturalnych najlepiej jest opisać w postaci graficznej, rysując wykres ścieżkowy. Jego różne składowe najlepiej odzwierciedlają elementy układu zmiennych. Zmienne obserwowalne są zazwyczaj przedstawiane jako kwadraty lub prostokąty, nieobserwowalne zmienne są przedstawiane jako kółka (jest to ekspresja zmiennej latentnej, które ma odzwierciedlenie we wskaźnikach obserwowalnych). Relację przyczynową skutkową symbolizuje strzałka, kierunek tej zależności jest oznaczony grotem. Element mający dwa groty strzałki, przedstawia kowarancję (czyli niestandaryzowaną korelację). Wskazuje on zależność pomiędzy zmiennymi (lub obiektami modelu strukturalnego). Każdy element oraz każda strzałka odpowiada jednemu współczynnikowi strukturalnemu. Parametry te opisują moc i kierunek korelacji lub relację przyczynowo-skutkową. Współczynnikami przyczynowo skutkowymi są standaryzowane lub niestandaryzowane współczynniki regresji. Współczynnikami relacji są kowariancje (niestandaryzowana korelacja) lub korelacje (standaryzowana kowariancja).

Niestandaryzowane współczynniki analizy ścieżek informują o tym, o ile jednostek (wyrażonych w danej jednostce pomiaru) zmieni się zmienna zależna, kiedy wyniki pomiaru zmiennej niezależnej wzrosną lub opadną.

Współczynniki standaryzowane w równaniach strukturalnych informują o ile zmieni się wynik zmiennej zależnej (wyrażonej w odchyleniach standardowych) w momencie kiedy wynik zmiennej niezależnej zmniejszy się lub zwiększy o jedno odchylenie standardowe.

Wariancja składnika losowego to zmienność która nie została wyjaśniona przez model.

Współczynnik korelacji R2 (lub inaczej współczynnik determinacji) informuje badacza o tym ile zmienności zmiennej zależnej jest wyjaśniane przez zmienne kontrolowane w układzie równań strukturalnych.

pomoc statystyczna statystyka metodolog

Analiza przeżycia- co to jest i jak się tego używa?

Analiza przeżycia (ang. survival analysis) jest zbiorem metod zajmujących się badaniem czasu do zajścia zdarzenia (ang. time to event).

Metody te mają zastosowanie w różnych naukach i dziedzinach życia m.in. w ekonomii, medycynie, biologii, inżynierii a nawet socjologii. Ze względu na szerokie zastosowanie w statystyce medycznej występuje wiele różnych definicji zdarzenia. Terminem tym może być określana śmierć pacjenta, czas działania urządzenia lub na przykład czas odejścia pracownika z pracy. Poza badaniem czasu zajścia zdarzenia analiza przeżycia pozwala też na obliczenie prawdopodobieństwa przeżycia, czasu pomiędzy kolejnymi zdarzeniami czy też średniego czasu przeżycia dla jednostek, które przeżyły już do pewnego momentu. Głównym fundamentem analizy przeżycia jest teoria rachunku prawdopodobieństwa i statystyka.

Dużym problemem w wyznaczaniu czasu przeżycia jest występowanie danych cenzurowanych lub uciętych. Cenzurowane są takie obserwacje, dla których zdarzenie miało miejsce przed lub po czasie obserwacji (ale nie wiadomo dokładnie kiedy), nazywane są one odpowiednio danymi cenzurowanymi lewostronnie i prawostronnie.

uciete

Przykłady danych uciętych w analizie przeżycia

Dane ucięte występują w trzech wariantach: dane ucięte lewostronnie, prawostronnie oraz dwustronnie. Załóżmy, że rozpatrujemy osoby chore na raka, a interesującym nas zdarzeniem jest śmierć z powodu tej choroby. Lewostronne ucięcie występuje gdy dany osobnik został dołączony do badania już w czasie jego trwania (pacjent B). Prawostronne ucięcie występuje gdy pacjent odszedł z badania przed jego końcem z przyczyn innych niż rozpatrywane przez nas zdarzenie (pacjent C). Przyczyny wykluczenia z badania mogą być różne, pacjent mógł wyjechać, przestać chodzić do lekarza lub umrzeć z miłości co nie było zdarzeniem przez nas pożądanym J. Ucięcie dwustronne ma miejsce oczywiście dla pacjentów, którzy dołączyli do badania w trakcie jego trwania oraz opuścili grupę badawczą z przyczyn innych niż śmierć na raka (pacjent A).

W analizie przeżycia zmienną zależną może być albo czas zajścia zdarzenia albo status obserwacji w danym czasie (np. żyje, nie żyje). Zmienne te mogą być szacowane za pomocą dwóch funkcji zależnych od czasu: funkcja przeżycia i funkcja hazardu. Funkcje te są kluczowymi pojęciami w analizie przeżycia opisującymi rozkład czasu zdarzeń. Funkcja przeżycia jest rozumiana jako prawdopodobieństwo, że dana osoba przeżyje przynajmniej do ustalonego czasu t i opisana jest wzorem

S(t)=P[T>t]=1-F(t)

gdzie  F(t)=P[<t] jest dystrybuantą rozumianą jako prawdopodobieństwo tego, że osoba umrze przed czasem t. Funkcja hazardu natomiast opisuje prawdopodobieństwo, że w danej jednostce czasu dojdzie do zdarzenia i jest dana wzorem

wzorek

który oznacza, że dla małego (bliskiego 0) przedziału czasu  obliczane jest prawdopodobieństwo, że dana osoba umrze w przedziale czasu  (t,t+gt)pod warunkiem, że przeżyła ona do czasu t.

Do estymacji funkcji w analizie przeżycia i funkcji hazardu stosuje się zarówno metody parametryczne jak i nieparametryczne. Metody parametryczne zakładają, że ogólny rozkład czasu przeżycia może być dany jednym ze znanych rozkładów prawdopodobieństwo, w praktyce najczęściej używa się rozkładu wykładniczego, Weibulla, Gompertza i log-logistycznego. Parametry w takich modelach są zazwyczaj szacowane za pomocą odpowiedniej modyfikacji funkcji największej wiarygodności.

Do obliczenia funkcji analizy przeżycia za pomocą metod nieparametrycznych  najczęściej stosowaną i najszerzej znaną metodą jest estymator Kaplana- Meiera. Służy on nie tylko do szacowania prawdopodobieństwa przeżycia i przedstawienia go w formie graficznej, ale też do porównywania dwóch lub więcej grup badanych (np. dwie grupy stosujące różne leki, albo różnice między kobietami i mężczyznami).

Inną często używaną metodą w analizie przeżycia jest model analizy przeżycia proporcjonalnego hazardu Cox’a, który jest modelem semiparametrycznym. Metoda ta pozwala na zbudowanie modelu przeżycia z kilkoma predyktorami oraz na oszacowanie, które zmienne wpływają na zwiększenie się ryzyka zajścia zdarzenia.

Więcej o statystycznej analizie danych w naukach medycznych:

Statystyczna analiza w medycynie

Statystyczna analiza danych w pedagogice gdańsk warszawa wrocław kraków poznań

Obserwacje ucięte w analizie przeżycia

Analiza Przeżycia – Survival Analysis

 

problemy klasyfikacyjne

Propensity score matching – Statystyczny wpływ netto zmiennej niezależnej na zmienną zależną.

meto1

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Metoda PSM to perfekcyjny przykład poznawania prawdziwych źródeł zmienności!

Propensity score matching – Statystyczny wpływ netto.

Czyli jak do obserwacji z grupy eksperymentalnej wybrać obserwacje podobne, ale jednocześnie będące grupą odniesienia ? Jak uzyskać czysty wpływ zmiennej niezależnej na zmienną zależną.


Procedura PSM jest pewnego rodzaju połączeniem statystycznej analizy danych z pewną logiką metodologiczną. O co chodzi ? W metodzie tej chodzi o to aby obserwacje w grupie eksperymentalnej były podobne do osób z grupy kontrolnej pod względem cech, które są powiązane ze zmienną niezależną oraz zmienną zależną. Chodzi o wyrównanie różnic pomiędzy grupami.


Wyobraźmy sobie sytuację kiedy badamy wpływ cukrzycy na czas trwania życia (  np. analizą przeżycia/survival analysis lub porównywaniem krzywych na wykresie Kaplana Mayera ). Kiedy zanalizujemy statystycznie ten wpływ może się okazać, że skracający życie czynnik jakim jest cukrzyca może tylko pozornie wpływać na śmiertelność. Może być tak, że grupa eksperymentalna (cukrzyków) jest inna pod względem wielu cech oraz jest inaczej traktowana w procesie długofalowego leczenia niż grupa kontrolna (zdrowych ludzi) *Niestety ze względów etycznych nie możemy losowo wybierać obserwacji i wywoływać w jednej grupie cukrzycy a w drugiej nie. Losowy dobór do grup badawczych jest oczywiście uczciwy i jak najbardziej pożądany. Wywołanie cukrzycy już takie nie jest. Niemniej jednak jest coś co możemy zrobić. Możemy wykorzystać metodę PSM. Czyli wybrać grupę kontrolną, która pod względem wielu czynników będzie podobna do grupy eksperymentalnej. Jak to zrobić ? W przypadku kiedy sytuacja wygląda na taką w której mamy 2 grupy badawcze możemy użyć regresji logistycznej ( dla problemów w których jest większa ilość grup eksperymentalnych można zastosować inne statystyczne metody klasyfikacyjne). Jako zmienne wejściowe wybieramy czynniki, które są powiązane z cukrzycą  oraz z przedwczesnymi zgonami, które chcemy wyjaśnić wpływem cukrzycy. Ów cukrzyca na potrzeby analizy regresji logistycznej jest naszą zmienną zależną ( ale tylko na chwilę). Dzięki regresji logistycznej uzyskujemy przewidywane prawdopodobieństwo przynależenia obserwacji do danej grupy ( cukrzyca – zdrowy ). Dzięki temu powiedzmy, że uzyskujemy wektor balansujący obie grupy. Jak to ? Każdy uzyskany wynik w grupie kontrolnej i eksperymentalnej możemy interpretować jako pewnego rodzaju poziom podobieństwa względnego. Dzięki takiemu zabiegowi uzyskujemy wartości identyfikacyjne na podstawie których możemy wyodrębnić jednostki w grupie kontrolnej i eksperymentalnej podobne do siebie pod względem wcześniej wyodrębnionych cech. Takie dopasowanie najlepiej wykonać analizą skupień metodą najbliższego sąsiada. Dzięki takiemu zabiegowi dobieramy do grupy eksperymentalnej bardzo podobne osoby  z grupy kontrolnej. Obie grupy są do siebie podobne pod względem różnych cech np. BMI, płci, grupy krwi, wieku, parametru Logistic Euroscore, rodzaju leczenia, ilości odbytych operacji lub hospitalizacji. Gdybyśmy planowali dobór osób do grupy kontrolnej szansa na dopasowanie do grupy eksperymentalnej osób podobnych była by prawie niemożliwa.

Koniec końców w przypadku kiedy mamy wybalansowane różnice pomiędzy grupami pod względem cech, które są powiązane z cukrzycą i zgonami możemy określić wpływ netto cukrzycy na śmiertelność.


Przyszłość tej metody.

Metoda propensity score matching zdobywa coraz większą popularność i jest coraz częściej wymagana przy projektach badań ilościowych w których losowy dobór jednostek do badania, a następnie do grup badawczych jest niemożliwy. Można powiedzieć, że metoda propensity score matching może się stać standardem przy badaniach, tak jak podwójna randomizacja w badaniach eksperymentalnych.


Etapy procedury Propensity score matching.

– znalezienie zmiennych powiązanych ze zmienną nieznależną i zależną

– zbudowanie wektora balansującego ( np. użycie do tego regresji logistycznej, naiwnego klasyfikatora Bayesa, analizy dyskryminacyjnej lub sieci neuronowej )

– dokonnać powiązania (matchingu) obserwacji z grupy eksperymentalnej i kontrolnej przy użyciu wektora balansującego ( najlepiej użyć do tego algorytmu KNN – analizy skupień najbliższego sąsiada )

– porównać różnice pomiędzy grupą kontrolną a eksperymentalną pod względem cech budujących wektor balancujący przed i po procedurze propensity score matching

– zweryfikować różnice statystyczne netto pomiędzy wybalansowanymi grupami  (zmienną niezależną) pod względem interesującej nas zmiennej zależnej


Jak ocenić skuteczność wykonanych kroków ?

– w pierwszym etapie (przed matchingiem) analizy statystycznej powinny być wyraźne różnice pomiędzy grupami pod względem czynników budujących wektor balansujący

– obie grupy po zbudowaniu wektora balansującego powinny różnić się pod względem jego wyniku

– po dopasowaniu (matchingu) różnice istotne statystycznie pod względem czynników budujących wektor balansujący powinny zniknąć

– istotna statystycznie różnica między grupami (zmienną niezależną) pod względem wektora balansującego powinna zniknąć


Jak ocenić wpływ netto zmiennej niezależnej na zmienną zależną ?

Po procedurze propensity score matching przeprowadzamy analizę statystyczną, która ma zakwestionować losowość wyników np. test t Studenta lub analizę wariancji. W naszym przypadku była to analiza Log – Rank (Logarytmicznych Rang). Zmienną niezależną była zmienna  cukrzyca lub jej brak, a zmienną zależną był czas życia po operacji.


Gdzie procedura propensity score matching może mieć zastosowanie ?

Najczęściej procedura ta może mieć zastosowanie w badaniach ewaluacyjnych przy interwencjach społecznych (np. w Projekcie Alternatywa II), w projektach badawczych przy, których manipulowanie zmienną niezależną jest nieetyczne lub niemożliwe. W badaniach w których nie można stworzyć grupy kontrolnej ze względu na koszt badań lub brak możliwości znalezienia jednostek podobnych do grupy eksperymentalnej.

Autorem tekstu jest Konrad Hryniewicz.

cv


Jak statystycznie przekształcać zmienne ilościowe na wydaje przedziały ? – Przygotowanie danych w credit scoringu.

meto1

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Kiedy w problemach klasyfikacyjnych np. w analizie ryzyka kredytowego ( Credit Scoringu ) ekspercka wiedza zawodzi w kontekście ustalania definicji zły/dobry klient.

Więcej info tutaj.

Jak statystycznie przekształcać zmienne ilościowe na wydaje przedziały ? - Przygotowanie danych w credit scoringu.

Więcej o tematach na tematy statystycznej analizy ryzyka kredytowego na:

Modelowanie ryzyka kredytowego. Czym jest ryzyko kredytowe/ Credit Scoring / analiza ryzyka kredytowego ?
Modele scoringowe. Czym jest scoring i jakie ma zastosowanie?
Modelowanie statystycznego systemu scoringowego.
Modele scoringowe. Czym jest scoring i jakie ma zastosowanie?

Analiza koszykowa / asocjacji algorytm apriori. Lepiej odpowiadać na potrzeby innych niż narzucać im swoją wolę.

 

 

Wsparcie i ufność dzięki algorytmowi Apriori ( analiza koszykowa ).

 

analiza conjoint, analiza danych w marketingu, analiza statystyczna w marketingu, analiza użyteczności, badania, badania marketingowe, Badanie, dane marketingowe, decyzje konsumenckie, decyzje zakupowe, marketing, marketingu, pomoc statystyczna, raport statystyczny w marketingu, statystyczna analiza preferencji, statystyka, statystyka w marketingu, statystyki, usługi statystyczne, użyteczność