analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

problemy klasyfikacyjne

Założenia regresji logistycznej. Normy stosowania testu.

założenia regresji logistycznej

 

Założenia regresji logistycznej . 

Analiza regresją logistyczną to nic innego jak zastosowanie testu statystycznego dla specyficznego układu zmiennych i celu analizy.

Regresja logistyczna nie ma wielu z kluczowych założeń regresji liniowej i ogólnych modeli liniowych, które bazują na algorytmach metody najmniejszych kwadratów – zwłaszcza jeżeli chodzi o liniowość, normalność, homoskedastyczność i poziom pomiaru.

Po pierwsze, nie wymaga liniowego związku pomiędzy zmienną zależną i niezależną. Regresja logistyczna radzi sobie z każdym typem związku, ponieważ dotyczy nieliniowej transformacji logarytmicznej do przewidywanej różnicy wskaźnika. Po drugie, zmienne niezależne nie muszą być normalne wieloczynnikowo – chociaż wieloczynnikowa normalność daje bardziej stabilne rezultaty. Także błędne warunki (pozostałości) nie muszą być normalnie wieloczynnikowo rozprowadzane. Po trzecie, homoskedastyczność nie jest wymagana. Regresja logistyczna nie wymaga aby zmienne były heteroskedastyczne na każdym poziomie zmiennych niezależnych. I w końcu, może poradzić sobie z porządkowymi i nominalnymi danymi jako niezależne zmienne. Zmienne niezależne nie muszą być w systemie metrycznym.

Jednak inne założenia wciąż występują.

Regresja logistyczna wymaga aby zmienna zależna była podwójna, a porządkowa regresja logistyczna wymaga aby zmienna zależna była porządkowa. Zredukowanie porządkowej albo metrycznej zmiennej do dychotomicznego poziomu powoduje stratę dużej ilości informacji, które sprawiają, że taki test jest gorszy w porównaniu z porządkową regresją logistyczną w takim przypadku.

Po drugie, jako że regresja logistyczna zakłada, że P(Y=I) istnieje prawdopodobieństwo wystąpienia zdarzenia, koniecznym jest aby zmienna zależna została odpowiednio zakodowana. To jest, dla podwójnej regresji, czynnik poziomu I ze zmiennej zależnej powinien reprezentować oczekiwany wynik.

Po trzecie, model powinien być poprawnie dopasowany. Ani nadmierne dopasowanie, ani niedopasowanie nie powinno mieć miejsca. To jest, tylko znaczące zmienne powinny być zawarte, ale jednocześnie wszystkie znaczące zmienne powinny być zawarte. Dobrym sposobem by to zapewnić jest użycie metody stopniowania by oszacować regresję logistyczną.

Po czwarte, błędne warunki muszą być niezależne. Regresja logistyczna wymaga by każda obserwacja była niezależna. To jest, punkty danych nie powinny być z żadnej zależnej próbki, np. pomiary przed i po, albo dopasowane parowanie. Poza tym model powinien mieć małą albo w ogóle nie mieć współliniowości. Czyli zmienne niezależne powinny być niezależne od siebie nawzajem. Jednakże jest możliwość by wprowadzić efekty interakcji dla kategorycznych zmiennych w analizie i modelu. Jeżeli współliniowość jest obecna centrując zmienne, można rozwiązać problem, tj. odjąć średnią każdej ze zmiennych. Jeżeli to nie zmniejszy współliniowości, (użycie analizy czynnikowej PCA) analiza czynnikowa z prostopadle odwróconymi czynnikami powinna zostać zrobiona przed oszacowaniem regresji logistycznej.

Po piąte, regresja logistyczna zakłada liniowość zmiennych niezależnych i różnic logarytmicznych. Mimo, że nie wymaga aby zmienne zależne i niezależne były powiązane liniowo ze sobą, to wymaga by zmienne niezależne były powiązane liniowo z różnicami logarytmicznymi. W innym wypadku, test nie doceni siły związku i odrzuci związek zbyt łatwo, jako nieistotny (nie odrzuci hipotezy zerowej) chociaż powinien go uznać za istotny. Rozwiązaniem tego problemu jest kategoryzacja zmiennych niezależnych. To znaczy zamiana zmiennych metrycznych na poziom porządkowy i następnie załączenie ich do modelu. Innym sposobem jest analiza dyskryminacyjna, jeżeli założenia o homoskedastyczności, wieloczynnikowej normalności i braku współliniowości są spełnione.

I wreszcie, regresja logistyczna wymaga próbek ogromnych rozmiarów. Ponieważ maksymalne prawdopodobieństwo oszacowań jest słabsze niż metoda najmniejszych kwadratów (np. zwykła regresja liniowa, wielokrotna regresja liniowa); podczas gdy metoda najmniejszych kwadratów wymaga w analizie 5 przypadków na zmienną niezależną, uczenie maszynowe wymaga przynajmniej 10 przypadków na zmienną niezależną, a niektórzy statystycy rekomendują przynajmniej 30 przypadków na każdy oszacowany parametr.

Dane binarne w statystyce

Wstęp do meta-analizy. Pierwsze kroki w statystycznej analizie wielu badań.

meto

 

Meta-analiza jest zbiorem statystycznych procedur używanych w dostarczeniu przejrzystych, obiektywnych i replikowalnych podsumowań odkryć badawczych.

Zaczniemy od wprowadzenia w meta-analizę wraz z wyszczególnieniem wstępnych kroków zawartych w kompletowaniu syntezy badań.

Gane Glass wprowadził termin meta-analiza w odniesieniu do statystycznej analizy szerokiej kolekcji wyników analiz z indywidualnych badań w celu integracji wniosków.  Jak z każdą statystyczną procedurą, meta-analiza ma mocne strony oraz ograniczenia. Niemniej jednak jest ona teraz standardowym narzędziem do dostarczania przejrzystych, obiektywnych i powtarzalnych podsumowań w naukach społecznych, medycynie, edukacji i innych polach nauki.

Systematyczne strategie badawcze.

Przed konstrukcją meta-analizy, pytanie badawcze musi być sformułowane precyzyjnie, te pytania wpłyną w całości na proces meta-analityczny. Tak więc, jak jest w zwykłych badaniach empirycznych muszą być dopracowane kryteria włączania i wyłączania. To dostarczy jasność na to jak wyniki badań będa generalizowane na populację.  Jednym z celów jet  każdej meta-analizy jest zebranie reprezentatywnej próby podstawowych badań, które zapewniają zdefiniowane kryteria ich doboru. Systematyczna strategia badawcza zawiera dwa główne kroki: (1) zdefiniowanie problemu i kryteriów wyborów (włączenia i wyłączenia) oraz (2) wyboru badań.

(1) Kryteria włączenia i wyłączenia.

Definiowanie badania w włączaniu i wyłączaniu powinno być oparte na hipotezie badawczej i pytaniach badawczych. Kryteria włączania i wyłączania mogą potencjalnie wpływać na wyniki badania. Taki więc jest ważne aby były one wyraźne i przemyślane.

(2) Selekcja badań.

Selekcja badań i proces wydobycia danych jest często najbardziej czasochłonnym krokiem w przeprowadzeniu meta-analizy. Proces wyboru badań zwykle zawiera szczególną sekwencję z wstępnego wyszukania do kodowania sił efektu z pojedynczego badania podstawowego. Może być pomocne ustruktyruzowanie procesu przy bazowaniu na 4 krokach (identyfikacja, przejrzenie, kwalifikowanie i włączenie) uszczegółowionych w Meta-Analisis Reporting Standards (MARS), instrukcja jest na stronie (http://www.apa.org/pubs/ authors/jars.pdf)  lub PRISMA (http://www.prisma-statement.org/statement.htm). Powyższe kroki powinny być podwójnie kodowane (np. przez dwie osoby) by zapewnić większa obiektywność i precyzję w procesie selekcjonowania badań.

 

czerwony alarm pogotowie statystyczne

Metaanaliza – Statystyczne podsumowanie wyników wielu badań.

meto

 

Finałem metaanalizy jest powiązanie danych z tych badań, złączenie ich i charaktersytyka ogólnej tendencji lub kierunku wyników tych badań.

Metaanaliza polega na zbiorze informacji o wynikach przeprowadzonych badań mających ze  sobą zbieżną narrację. Często weryfikuje się w ten sposób wiedzę na temat badań klinicznych (w których mała liczność obserwacji zmusza do ostrożniejszego wyciągania wniosków z danych).

Metaanaliza jako metodologia ma w sobie pewną logikę. Oto kroki tej logiki.

– postawiene pytania/problemu badawczego

– wykrycie odpowiednich badań na określony temat

– krytyczna selekcja odpowiednich badań

– ewaluacja i podsumowanie wyników Metaanalizy.

Przed metanalizą należy oszacować poziom i źródła heterogeniczności (braku jednorodności wyników) wyników badań ujętych w metaanalizie.

Do badania jednorodności stosuje się wiele procedur; takich jak metody ocen wzrokowych ( wykres leśny, wykres Galbraitha) lub metod ocen formalnych takich jak test Hartleya, Corhana, Indexu I2).

Najczęściej pojawiającymi się źródłami hetoregoniczności wariancji badań w metaanalizie są:

odmienne metodologie badań

– zróżnicowane próby badawcze

– różnorodne okresy trwania badania

– zróżnicowane wskaźniki i sposoby estymacji wyników

W celu usunięcia tych czynników stosuje się analizę wrażliwości, metaregresję lub analizuje się wyniki w różnorodnych populacjach badań.

Do meta-analiz wykorzystujemy oprogramowanie Comprehensive Meta Analysis CMA, Jasp, Jamovi oraz R.