analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

problemy klasyfikacyjne

Założenia regresji logistycznej. Normy stosowania testu.

założenia regresji logistycznej

 

Założenia regresji logistycznej . 

Analiza regresją logistyczną to nic innego jak zastosowanie testu statystycznego dla specyficznego układu zmiennych i celu analizy.

Regresja logistyczna nie ma wielu z kluczowych założeń regresji liniowej i ogólnych modeli liniowych, które bazują na algorytmach metody najmniejszych kwadratów – zwłaszcza jeżeli chodzi o liniowość, normalność, homoskedastyczność i poziom pomiaru.

Po pierwsze, nie wymaga liniowego związku pomiędzy zmienną zależną i niezależną. Regresja logistyczna radzi sobie z każdym typem związku, ponieważ dotyczy nieliniowej transformacji logarytmicznej do przewidywanej różnicy wskaźnika. Po drugie, zmienne niezależne nie muszą być normalne wieloczynnikowo – chociaż wieloczynnikowa normalność daje bardziej stabilne rezultaty. Także błędne warunki (pozostałości) nie muszą być normalnie wieloczynnikowo rozprowadzane. Po trzecie, homoskedastyczność nie jest wymagana. Regresja logistyczna nie wymaga aby zmienne były heteroskedastyczne na każdym poziomie zmiennych niezależnych. I w końcu, może poradzić sobie z porządkowymi i nominalnymi danymi jako niezależne zmienne. Zmienne niezależne nie muszą być w systemie metrycznym.

Jednak inne założenia wciąż występują.

Regresja logistyczna wymaga aby zmienna zależna była podwójna, a porządkowa regresja logistyczna wymaga aby zmienna zależna była porządkowa. Zredukowanie porządkowej albo metrycznej zmiennej do dychotomicznego poziomu powoduje stratę dużej ilości informacji, które sprawiają, że taki test jest gorszy w porównaniu z porządkową regresją logistyczną w takim przypadku.

Po drugie, jako że regresja logistyczna zakłada, że P(Y=I) istnieje prawdopodobieństwo wystąpienia zdarzenia, koniecznym jest aby zmienna zależna została odpowiednio zakodowana. To jest, dla podwójnej regresji, czynnik poziomu I ze zmiennej zależnej powinien reprezentować oczekiwany wynik.

Po trzecie, model powinien być poprawnie dopasowany. Ani nadmierne dopasowanie, ani niedopasowanie nie powinno mieć miejsca. To jest, tylko znaczące zmienne powinny być zawarte, ale jednocześnie wszystkie znaczące zmienne powinny być zawarte. Dobrym sposobem by to zapewnić jest użycie metody stopniowania by oszacować regresję logistyczną.

Po czwarte, błędne warunki muszą być niezależne. Regresja logistyczna wymaga by każda obserwacja była niezależna. To jest, punkty danych nie powinny być z żadnej zależnej próbki, np. pomiary przed i po, albo dopasowane parowanie. Poza tym model powinien mieć małą albo w ogóle nie mieć współliniowości. Czyli zmienne niezależne powinny być niezależne od siebie nawzajem. Jednakże jest możliwość by wprowadzić efekty interakcji dla kategorycznych zmiennych w analizie i modelu. Jeżeli współliniowość jest obecna centrując zmienne, można rozwiązać problem, tj. odjąć średnią każdej ze zmiennych. Jeżeli to nie zmniejszy współliniowości, (użycie analizy czynnikowej PCA) analiza czynnikowa z prostopadle odwróconymi czynnikami powinna zostać zrobiona przed oszacowaniem regresji logistycznej.

Po piąte, regresja logistyczna zakłada liniowość zmiennych niezależnych i różnic logarytmicznych. Mimo, że nie wymaga aby zmienne zależne i niezależne były powiązane liniowo ze sobą, to wymaga by zmienne niezależne były powiązane liniowo z różnicami logarytmicznymi. W innym wypadku, test nie doceni siły związku i odrzuci związek zbyt łatwo, jako nieistotny (nie odrzuci hipotezy zerowej) chociaż powinien go uznać za istotny. Rozwiązaniem tego problemu jest kategoryzacja zmiennych niezależnych. To znaczy zamiana zmiennych metrycznych na poziom porządkowy i następnie załączenie ich do modelu. Innym sposobem jest analiza dyskryminacyjna, jeżeli założenia o homoskedastyczności, wieloczynnikowej normalności i braku współliniowości są spełnione.

I wreszcie, regresja logistyczna wymaga próbek ogromnych rozmiarów. Ponieważ maksymalne prawdopodobieństwo oszacowań jest słabsze niż metoda najmniejszych kwadratów (np. zwykła regresja liniowa, wielokrotna regresja liniowa); podczas gdy metoda najmniejszych kwadratów wymaga w analizie 5 przypadków na zmienną niezależną, uczenie maszynowe wymaga przynajmniej 10 przypadków na zmienną niezależną, a niektórzy statystycy rekomendują przynajmniej 30 przypadków na każdy oszacowany parametr.

statystyczna analiza przeżycia kaplana mayera krzywe życia analiza danych medycznych

Informacje o statystycznej analizie przeżycia. Techniki obliczeniowe w biostatystyce.

meto

Analiza przeżycia

Informacje ogólne

Te techniki były pierwotnie rozwijane w medycznych i biologicznych badaniach (biostatystyka), ale mają też szerokie zastosowanie w naukach społecznych i ekonomicznych, tak samo jak w inżynierii (rzetelność i analiza przeżycia).

Wyobraź sobie, że jesteś badaczem w szpitalu, który sprawdza efektywność nowego leku na nieuleczalną chorobę. Główną interesującą nas zmienną jest liczba dni, którą przeżyją poszczególni pacjenci. Zasadniczo, można użyć standardowej parametrycznej i nieparametrycznej statystyki by opisać przeciętną długość przetrwania, i aby porównać nowy lek z poprzednimi metodami. Jednakże, na koniec badania, znajdą się pacjenci którzy przetrwali przez cały okres, szczególnie pośród tych, których przyjęto do szpitala (i projektu badawczego) w późnym momencie badania; będą też pacjenci z którymi stracimy kontakt. Zapewne nikt nie będzie chciał ich wykluczyć z badania uznając ich za brak danych (jako, że większość z nich przetrwała i dlatego są odzwierciedleniem sukcesu nowej metody badawczej). Te obserwacje, które zawierają jedynie częściowe informacje nazywa się obserwacjami uciętymi (np. „pacjent A przetrwał przynajmniej 4 miesiące zanim go przeniesiono i straciliśmy z nim kontakt”, określenie ucinania zostało po raz pierwszy użyte przez Halda w 1949).

Obserwacje ucięte

Generalnie, obserwacje ucięte pojawiają się gdy nasza zmienna zależna reprezentuje czas do śmierci klinicznej, i kiedy czas trwania badania jest ograniczony. Obserwacje ucięte mogą w różnych obszarach badania. Na przykład, w badaniach społecznych można sprawdzać „przeżywalność” małżeństw, oceny w momencie bycia wyrzucanym ze szkoły, zwolnienia w korporacjach itd. W każdym przypadku, pod koniec badania, niektóre pary pozostaną małżeństwem, niektórzy nie zostaną wyrzuceni ze szkoły, albo będą ciągle pracować w korporacji; zatem te przypadki są reprezentowane przez obserwacje ucięte.

W ekonomii można zbadać „przeżywalność” nowych biznesów albo okres używalności produktów takich jak pojazdy. W badaniu kontroli jakości, częstą praktyką jest sprawdzanie żywotności części pod obciążeniami (analiza żywotności)

Techniki analityczne

Głównie, metody oferowane przez Analizę przetrwania dotykają tych samych pytań badawczych co wiele innych procedur; jednakże, wszystkie metody a Analizie przetrwania poradzą sobie z obserwacjami uciętymi. Tablice trwania życia, rozkład przeżycia, estymacja funkcji przeżycia to wszystko opisowe metody by oszacować rozkład przeżycia czasów z próbki. Niektóre techniki są zdolne do porównywania przeżywalności w dwóch lub więcej grupach. W końcu, analiza przeżycia oferuje kilka modeli regresji by oszacować związek zmiennych ciągłych z czasami przeżycia.

Tablice trwania życia

Najbardziej bezpośrednim sposobem by opisać przeżywalność w próbce jest obliczenie tablic trwania życia. Jest to jedna ze starszych metod służących do analizy przeżywalności danych. Ta tablica może być uważana za „poszerzony” rozkład częstości. Rozkład czasów przeżycia jest podzielony na pewną liczbę przedziałów. Na każdy przedział możemy obliczyć liczbę i proporcję przypadków albo obiektów, które weszły w poszczególny przedział „żywe”, liczbę i proporcje przypadków, które zniszczyły się w poszczególnym przedziale (np. liczba zdarzeń krańcowych, albo przypadków, które „zmarły”), i liczbę przypadków, które zaginęły albo zostały ucięte w poszczególnym interwale.

Bazując na tych liczbach i proporcjach, można obliczyć kilka dodatkowych statystyk:

Liczba przypadków ryzyka – jest to liczba przypadków, które mieszczą się w poszczególnym przedziale żywych, odjąć połowę przypadków straconych lub uciętych w poszczególnym przedziale.

Proporcja porażek – ta proporcja jest wyliczana jako stosunek liczby przypadków zniszczonych w poszczególnym przedziale, dzielonych przez liczbę przypadków ryzyka w tym przedziale.

Proporcja przeżyć – ta proporcja jest liczona jako 1 odjąć proporcję porażek

Łączna proporcja przetrwania (funkcja przeżycia) – jest to łączna proporcja przypadków potrafiących przeżyć aż do odpowiedniego przedziału. Jako że prawdopodobieństwa przetrwania są przypuszczalnie niezależne pomiędzy przedziałami, to prawdopodobieństwo jest wyliczane przez dzielenie prawdopodobieństw pomiędzy wszystkimi poprzednimi przedziałami. Powstająca funkcja jest także zwana przeżywalnością lub funkcją przeżycia.

Prawdopodobieństwo zawartości – jest to oszacowane prawdopodobieństwo porażki w poszczególnym przedziale, obliczone w jednostce czasu, czyli:

Fi = (Pi-Pi+1) /hi

W tym wzorze, Fi jest danym prawdopodobieństwem zawartości w przedziale i, Pi jest oszacowaną łączną proporcją przeżycia na początku przedziału i (na końcu przedziału i-1), Pi+1 jest łączną proporcją przeżycia na końcu przedziału i, a hi jest szerokością danego przedziału.

Stawka ryzyka – stawka ryzyka jest definiowana prawdopodobieństwo w jednostce czasu, że przypadek, który przeżył do początku danego przedziału zginą w tym przedziale. Dokładniej rzecz biorąc, jest wyliczane jako liczba zniszczonych w jednostkach czasu w danym przedziale, podzielona przez średnią liczbę żyjących przypadków w środku przedziału.

Średni czas przeżycia – jest to czas przeżycia, w którym łączna funkcja przeżycia wynosi 0,5. Inne percentyle (25, 75) z łącznej funkcji przeżycia mogą być obliczane równolegle. Zauważ, że percentyl 50 (średni) dla łącznej funkcji przeżycia zwykle nie jest taki sam jak punkt w czasie gdzie przeżywa 50% próbki (tak byłoby tylko w przypadku gdzie nie wystąpiłyby obserwacje ucięte).

Wymagana wielkość próbki – aby polegać na wiarygodnych oszacowaniach z tych 3 najważniejszych funkcji (przeżywalność, prawdopodobieństwo zawartości i ryzyko) i ich typowe błędy za każdym razem minimalna rekomendowana wielkość próbki wynosi 30.

analiza statystyczna metodolog

Wykonanie analizy czynnikowej w praktyce.

meto

 

Wykonanie analizy czynnikowej w praktyce.

Wstęp.

Analiza czynnikowa jest metodą statystyczną polegającą na redukcji danych. Jej celem obliczeniowym jest wyszukanie powiązanych ze sobą zmiennych mogących mieć jakiś wspólny mianownik (wektor) np. pozycje kwestionariusza mierzące pewne spójne i reprezentatywne uniwersum zachowań np. ekstrawersję. Jest to dosyć prosta metoda statystyczna dająca bardzo zadowalające wyniki. Metodę tę często stosuje się w medycynie, psychologii, biostatystyce i psychometrii. Jej ekwiwalentem jest nowsza metoda o nazwie SVD (Singular Vector Decomposition). Obie metody zwracają podobne wyniki, lecz u podstaw leży inna metoda obliczeniowa i geneza powstania.

Aby przeprowadzić analizę czynnikową, nasze dane muszą spełniać kilka warunków:

  1. wszystkie zmienne muszą być mierzone na tej samej skali (chodzi tu o pozcyje testu)
  2. jeśli zmienne nie są wyrażone w tej samej jednostce pomiaru należy ów pomiary wystandaryzować
  3. odpowiedzi na pytania muszą charakteryzować się duża zmiennością (jeśli badani podobnie odpowiadali na dane pytanie w ankiecie to nie ma co takiego pytania włączać do analizy)
  4. badanych obserwacji powinno być tyle samo ile pozycji testowych, a z godnie z regułą kciuka 15 razy więcej
  5. nie powinno być sytuacji w której braki danych przekraczają 5%.

Zanim przeprowadzimy analize czynnikowa oprócz prostych statystyk opisowych musimy zrobić także bardziej skomplikowaną analizę, polegająca na diagnostyce dotyczacej tego czy nasze dane nadają się do przeprowadzenia analizy czynnikowej. Najlepiej jest uruchomić analize czynnikową.

Analiza miary K-M-O. Kryterium Kaisera/ Mayera / Olkina.

W analizie czynnikowej musimy podjąć na początku pewne decyzje związane z podstawowymi testami. Pierwszym kryterium jest ocena wyniku testu KMO. Miara KMO przyjmuje wartości od 0 do 1. Im wartość bliższa 1 tym bardziej wskazane jest przeporwadzenie analizy czynnikowej. Jeśli miara KMO jest niższa niż 0,7 to może być to spowodowane zbyt małą ilością badanych w stosunku do liczby pytań, złą konstrukcją pozycji testowych lub badana próba była zbyt jednorodna. Jeśli ocena wskaźnika KMO pozwoliła na akceptacje analizy to przeprowadzamy jeszcze raz analizę czynnikową.

Jak wyodrębniać czynniki?

W tym momencie musimy podjąć jakąś decyzję dotyczącą kryterium wyodrębniania czynników. Mamy do dyspozycji dwa kryteria.

Pierwszym jest kryterium Kaisera, które sugeruje wyodrebnienie tylu czynników ile sugerują wartości własne większe od 1 przy danym rozwiązaniu czynnikowym.

Drugim kryterium jest kształt wykresu osypiska (opartym o wartości własne). W kolejnym kroku podejmujemy decyzję o metodzie rotacji czynników. Decyzję o ilości czynników podejmujemy w oparciu  o wzrokową ocenę krzywizny linii na wykresie osypiska.

Rotacja.

W tym kroku podejmujemy decyzję o metodzie rotacji czynników. Jeśli test, który konstruujemy ma mieć więcej niż jeden wymiar, powinniśmy przeprowadzić jakąś z metod rotacji czynników, która spowoduje maksymalizację dostosować poszczególnym pozycji testowych do osi wyodrębnionych wymiarów. Po takiej rotacji macierz korelacji pytań/ pozycji testowych jest lepiej dopasowana a co za tym idzie, jest łatwiej interpretowana. Najczęściej wykonywane metody rotacji to metoda:

– Varimax

(metoda ortogonalna tak jak metoda Equamax i Quartimax) stosuje się ją do czynników potencjalnie będących od siebie niezależnych np. ekstrawersja i inteligencja.

– Promax

(metoda nieortogonalna, czyli ukośna. Metodą ukośną jest jeszcze metoda OBLIMIN z możliwością ustawienia stopnia korelacji między zmiennymi) Tą metodę stosuje się w przypadku silniego skorelowania wyodrebnianych wymiarów np. Inteligencja słowna i inteligencja matematyczna.

Interpretacja wyników procedury analizy czynnikowej.

Jest to jeden z trudniejszych etapów przeprowadzania analizy czynnikowej. Wpierw trzeba podjąć decyzję o ilości wariancji wyjaśnianej przez test. Jesli nie jest ona zadowalająca to trzeba się odnieść krytycznie do podjętych kroków wraz z rozpatrzeniem poprawności wykonania badania. Ponad to! Trzeba podjąć decyzję o pozycjach testowych wschodzących w skład danego czynnika i postarać się go nazwać. W większości wypadków pomaga w tym teoria leżąca u podstaw badanego narzędzia, lecz w przypadkach analiz eksploracyjnych takiego komfortu nie ma. Etykieta skomponowanego wymiaru powinna być uogólnieniem pozcyji wchodzących w skład skali.

Jeśli analiza czynnikowa dotyczy budowy kwestionariusza lub jego statystycznego przygotowania, zaleca się skonstruowanie klucza odpowiedzi. Jeśli analiza czynnikowa polega na redukcji danych mających zastosowanie w dalszych procedurach statystycznych zaleca się zapisanie tych wyników w jakimiś z języków programowania np. R lub Python.