Najwyższy standard wykonywania projektów z zakresu analizy statystycznej danych

Czemu istotność statystyczna jest dominująca w naukach empirycznych?

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Edwards, Lindman i Savage (1963) dlaczego istotność statystyczna jest nadal dominująca w naukach empirycznych ?

Poniżej jest fragment z Edwards, Lindman, and Savage (1963, pp. 236-7) mówiący o tym czemu wartość istotności (p value) nadal jest dominującą miarą w naukach empirycznych nawet po wielokrotnym okazaniu się jako niespójna i bezsensowna statystyka (to są moje słowa, autorzy wyżej wymienieni są bardziej serdeczni w swoim komentarzu).

Jeśli klasyczne testy istotności dają częstsze odrzucenie prawdziwości hipotezy zerowej bez rzeczywistych dowodów to czemu przetrwały one tak długo i zdominowały pewne nauki empiryczne? Trzy uwagi wydają się rzucać trochę światła na te ważne i trudne pytanie.

  1. W zasadzie, wiele odrzuceń przy poziomie 0,05 są oparte na wartości testu statystycznego daleko poza granicą, a więc dopowiada jednoznacznie dowodzeniu. W praktyce ten argument traci dużo na sile. Stało się zwyczajem odrzucać hipotezę zerową przy najwyższym poziomie istotności pomiędzy magicznymi wartościami 0,05, 0,01, 0,001, gdzie test statystyczny pozwala częściej niż wybór poziomu istotności wykraczający i odrzucający wszystkie hipotezy które test statystyczny sprowadził poza kryterium wartości określonej poprzez wybrany poziom istotności. Więc 0,05 poziom odrzucenia dziś zwykle znaczy, że test statystyczny był istotny na poziomie 0,05 ale nie na 0,01. Mimo to test statystyczny który spada poniżej poziomu 0,01 i może odpowiadać silniejszemu dowodzeniu przeciwko hipotezie zerowej niż jeden test zaledwie istotny na poziomie 0,05.
  2. Ważne odrzucenia na poziomie 0,05 i 0,01 bazujące na testach statystycznych które nie byłyby istotne na wyższych poziomach istotności nie są powszechne. Psycholodzy tendencyjnie prowadzą względnie duże i otrzymują bardzo istotne efekty główne. W miejscu gdzie poziom 0,05 odrzucenia jest najczęściej powszechny jest testowanie interakcji w analizach wariancji. Wielu eksperymentatorów podchodzi do tych testów bardzo poważnie, zamiast przeprowadzenia kilku linii eksperymentalnych.
  3. Próby replikacji rezultatów są raczej rzadkie, więc odrzucenie hipotez zerowych podlega poddawaniu empirycznemu sprawdzeniu. Kiedy takie sprawdzenie jest wykonywane i zawodzi, wyjaśnienie anomalii zawsze koncentruje się na projekcie eksperymentu, niewielkimi zmianami w technice, a nie w znaczeniu procedur statystycznych używanych w oryginalnym badaniu.

wiedza o statystyce i badaniach

Weryfikacja statystyczna na przykładzie wypadków narciarskich. Rozkład Poissona, normalny, a ryzyko.

meto

Metodolog.pl – Analiza Statystyczna w Nauce

Firma statystyczna METODOLOG

Wypadki narciarskie i próbkowanie losowe

„Holendrzy ranni po jeździe na nartach: niezwykły wzrost o 14 procent”, pisze gazeta holenderska NRC. Czy to naprawdę zauważalny wzrost lub po prostu próbkowanie losowe? Szybka analiza statystyczna da nam odpowiedź.

W ostatni weekend NRC, holenderska gazeta, opublikowała artykuł tłustym drukiem n z pozycją Holendrzy ranni po jeździe na nartach: niezwykły wzrost o 14 procent. Szukając wyjaśnień, gazeta wspomniała, że zmiana ta nie może być wyjaśniona przez warunki spowodowane śniegiem lub zwiększoną liczbę osób, które wyjechały na urlop na narty. Doszli do wniosku, że musi to być spowodowane czynnikami osobowymi takimi jak podejmowanie wyższego ryzyka i mniejszego starannego przygotowania.

Przy liczeniu liczby wypadków każdego roku nie możemy oczekiwać, że tegoroczna liczba równa będzie liczbie wypadków w przyszłym roku. Zawsze będą jakieś losowe fluktuacje. Pozostaje pytanie, którego roku wahania są jedynie przypadkowe, a które są systematyczne? Aby odpowiedzieć na to pytanie możemy korzystać ze statystyk, czyli dystrybucje próbkowania są wykorzystywane do danych gromadzonych. W badaniach psychologicznych rozkład normalny dla zmiennych ciągłych lub rozkład dwumianowy dla zmiennych dychotomicznych jest często używany do weryfikacji statystycznej. Dla liczby zdarzeń w danym przedziale czasowym, takich jak liczby wypadków w roku, rozkładem najbardziej naturalnym jest rozkład Poissona (to dzięki niemy możemy modelować i weryfikować rozkład zdarzeń rzadkich. Rozkład Poissona ma jeden parametr, który reprezentuje zarówno średnią i wariancję. To oznacza, że większa średnia oznacza większą zmienność. Według artykułu NRC, w ubiegłym roku było około 700 rannych, w tym roku około 800, a więc najprawdopodobniej oszacowanie wynosiłoby 750. Czy zmiana z 700 na 800 to naprawdę niezwykły skok czy po prostu losowe pobieranie próbek z funkcji gęstości prawdopodobieństwa? Z programem R łatwo jest wylosować liczby z danej gęstości. Losując pięć liczb z rozkładu Poissona z = 750, 783, mogę uzyskać 738, 756, 722 i 813.

Z tej prostej sekwencji liczb losowych możemy stwierdzić, że nie jest dziwne obserwować 722 wypadków jednego roku i 813 rok później; zmiana podobna do tej przedstawionej w gazecie. Taka zmiana może być kwestią przypadku. W celu uzyskania lepszego oglądu wylosowałem 10,000 obserwacji z rozkładu Poissona by zweryfikować statystycznie to co można zobaczyć w poniższym histogramie.

Histogram - statystyka

Minimum w histogramie to około 650, podczas gdy maksymalna liczba wynosi około 850. Tak, to wszystko wydaje się dużym zamieszaniem zamiast rzeczywistej zmiany. Ponadto stwierdzenie, że podejmujemy większe ryzyko nie wydaje się mieć żadnych podstaw.

czerwony alarm pogotowie statystyczne

Charakter eksploracyjny projektu badawczego.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Charakter eksploracyjny projektu badawczego.

W takim układzie badania mamy do czynienia z zebraniem różnych wyników np. w formie ankiety powiązanych np. z informacją o tym czy ktoś spłacił kredyt gotówkowy lub nie. W kwestionariuszu zbierano informację o różnych cechach psychologicznych, szerokiej gamie informacji demograficznych, zarobkach oraz potencjale kulturowym osoby. W takim przypadku nie mamy sprecyzowanych hipotez i chcemy dopiero zweryfikować wpływ poszczególnych zmiennych na inne zmienne. W sytuacji eksploracyjnego charakteru badania mamy do czynienia wtedy kiedy nie wiemy co może wyjść z naszego badania, ale mamy przypuszczenia, że w zebranych danych potencjalnie znajdują się różne istotne zależności.

Dojazd do klienta, delegacja firma statystyczna

Weryfikacyjny charakter badania.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Weryfikacyjny charakter badania.

Jest to badanie mające ściśle określony schemat. Głównym celem jest weryfikacja konkretnych hipotez konkretnymi zmiennymi zebranymi w toku badania. Chodzi o to by zweryfikować serię hipotez/przewidywań/problemów badawczych.

Przykładem weryfikacyjnego charakteru badania jest badanie polegające na zbadaniu wpływu choroby niedokrwiennej serca na czas trwania życia. W układzie tego badania brały udział osoby zdrowe i chore na chorobę niedokrwienną objęte obserwacją kliniczną rozłożoną w czasie.

W badaniu takim mamy informacje o zmiennych co do których mamy pewność, że odpowiedzą na nasze hipotezy/przewidywania/problemu badawcze.

ceny usług analiz obliczeń statystycznych

Wywiad badawczy w projekcie analitycznym Konrad Hryniewicz

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Wywiad badawczy w projekcie analitycznym Konrad Hryniewicz

Sekcja A. Opis problemu badawczego.

  1. Psychologia ekonomiczna.
  2. Wpływ cech osobowości na zachowania finansowe.
  3. Charakter projektu jest weryfikacyjny. Chodzi w nim o to aby poddać weryfikacji zmienne dotyczące cech osobowości na różnorodne zachowania finansowe ludzi.
  4. Projekt ma konkretne hipotezy i nic w nim nie trzeba eksplorować.
  5. Nie
  6. Poproszę o pełny opis w standardzie APA oraz wizualizację w formie wykresów (ale nie tabel)
  7. Konrad Hryniewicz (Sopot – Trójmiasto) 798 30 95 31.
  8. Jestem właścicielem firmy usługowej.

Sekcja B. Metodologia

  1. Przedmiotem badania byli ludzie.
  2. W badaniu wzięło udział 1000 osób.
  3. Nie, choć chodzi o analizy również w podgrupach.
  4. Cechy osobowości mierzono raz, ale zachowania finansowe mierzono w odstępie dwóch lat.
  5. Badano jedną grupę osób, ale dokonano powtórnego pomiaru zachowań finansowych
  6. Weryfikowano wpływ cech osobowości modelu BIG5 i ocenienano jakie mają oddziaływanie na zachowania finansowe.
  7. Nie korelowano ze sobą niczego.
  8. Dane o cechach osobwości zebrano skrócona wersją kwestionariusza 5 Cech Osobowości BIG5 Costy&Mcrea, informacje o zachowaniach finansowych zebrano autorską ankietą. Dodatkowo zebrano informacje o cechach demograficznych osób badanych za pomocą serii pytań metryczkowych.

Sekcja C) Hipotezy.

  1. W badaniu stawiam 2 problemy badawcze.
  2. Hipoteza nr 1 – Cechy osobowości u osób młodszych wpływają na zachowania finansowe silniej niż u osób starszych. Hipoteza nr 2 – Zachowania finansowe są niezmienne w czasie.

Sekcja D) Zmienne weryfikujące hipotezy/przewidywania/problemy badawcze.

Hipoteza nr 1. Cechy osobowości u osób młodszych wpływają na zachowania finansowe silniej niż u osób starszych.

  1. Aby uzyskać zmienne dotyczące cech osobowości trzeba utworzyć wskaźniki:

Ekstrawersja zmienne w bazie – EKS1, EKS2, EKS3

Sumienność zmienne w bazie – SUM1, SUM2, SUM3,

Naurotyczność zmienne w bazie – NEU1, NEU2, NEU3

Ugodowość zmienne w bazie – UG1, UG2, UG3

Otwartość na doświadczenia – OTW1, OTW2, OTW3

  1. Aby uzyskać zminne dotyczące zachowań finansowych trzeba odkryć/wyeksplorować spośród zmiennych w bazie od zach_f1_pomiar1, do zach_f50_pomiar1 pomiary odnoszące się do określonych zachowań finansowych np. tendencje zakupowe w sklepie, wydawanie pieniędzy na przyjemności itp.
  2. Osoby badane trzeba podzielić na młodsze i starsze według zmiennej wiek_w_latach.

Hipoteza nr 2 – Zachowania finansowe są niezmienne w czasie.

Trzeba dokonać porównania zmiennych zach_f,  w czasie pomiaru pierwszego i drugiego.

Sekcja E) Uwagi końcowe.

Poproszę o informowanie mnie ilości czynników/typów na które się dzielą zachowania finansowe. Muszę podjąć decyzję o ich ilości w oparciu o teorię. Poza tym chciałbym porozmawiać o metodach statystycznych wykrywania tych czynników.