Hackowanie wartości p, problemy z istotnością statystyczną, nadużycia i możliwe rozwiązania

Istotność statystyczna i problemy z jej raportowaniem.

Istotność statystyczna jest miarą prawdopodobieństwa błędnego odrzucenia hipotezy zerowej przez eksperymentatora, jej symbolem jest litera alfa pisana mała literą. Niskie wartości alfa oznaczają, że wynik powstał przez przypadek. Testując hipotezy we właściwy sposób, zakładamy krytyczną wartość alfy zanim zbierzemy dane. Musimy zawrzeć kompromis między istotnością a mocą testu (tzn. prawdopodobieństwem, że hipoteza zerowa zostanie odrzucona, w przypadku gdy jest fałszywa). Niskie wartości alfy oznaczają, że błędne odrzucenie zerowej hipotezy jest mniej prawdopodobne, ale również ogólnie spada szansa jej odrzucenia. Zwiększając wielkość próby, zwiększamy istotność bez zmniejszania mocy testu.

Słowo „istotny”, w tym znaczeniu, nie oznacza „duży” bądź „ważny” jak ma to miejsce w codziennym użyciu tego słowa. Oznacza ono, że efekt jest wystarczająco duży, że nieprawdopodobnym wydaje się, by wystąpił wyłącznie przez przypadek. Efekty istotne statystycznie mogą być w rzeczywistości bardzo niewielkimi, chociaż duże próby są wymagane by wykazać istotność małych/słabych efektów.

W wielu podejściach statystycznych, istotność statystyczna jest omawiana w przypadku raportowania wyników testowania hipotez. Hipoteza alternatywna (informująca, że efekt występuje) jest przyjmowana, a zerowa hipoteza (informująca, że efekt nie występuje) jest odrzucana – wtedy, kiedy wyniki testu wskazują, istotne odstępstwo od hipotezy zerowej. Jeśli istotna różnica nie występuje, hipoteza zerowa nie jest odrzucana, choć nie jest to równoznaczne z jej przyjęciem. W większości przypadków, nie odrzucenie hipotezy zerowej jest słabym dowodem do uznania jej prawdziwości.

WARTOŚĆ ALFA vs WARTOŚĆ P

Testowanie hipotez składa się z następujących kroków: formułowanie hipotezy zerowej i alternatywnej, wybieranie krytycznej wartości alfa, wybieranie obszaru wykluczenia, zbieranie danych, obliczanie statystyk i ocenianie czy statystyki mieszczą się w obszarze wykluczenia. Występują cztery możliwe rezultaty testowania hipotez: hipoteza zerowa jest prawdziwa i nie jest odrzucona, hipoteza zerowa jest fałszywa i odrzucona, hipoteza zerowa jest prawdziwa ale odrzucona oraz hipoteza zerowa jest fałszywa ale nie jest odrzucona. Jeśli hipoteza zerowa jest prawdziwa ale odrzucona, mamy do czynienia z błędem I rodzaju. Jeśli hipoteza zerowa jest fałszywa ale nie jest odrzucona, mamy do czynienia z błędem II rodzaju. Prawdopodobieństwo wystąpienia błędu I rodzaju, jest z definicji równe wartości alfa. Prawdopodobieństwo wystąpienia błędu II rodzaju nie może zostać wyliczone, jeśli alternatywna hipoteza nie posiada znanego rozkładu.

Jeśli możliwe wyniki eksperymentu mogą zostać uporządkowane od tych „najbardziej prawdopodobnych” (hipoteza zerowa) do „najmniej prawdopodobnych”, wtedy rzeczywiste wyniki mogą zostać przypisane do wartości równej prawdopobieństwu ich wystąpienia wraz z tymi wynikami, które są jeszcze mniej prawdopodobne. To prawdopodobieństwo nazywane jest „wartością p”. Jeśli wartość „p” jest mniejsza od wartości alfa, odrzucamy hipotezę zerową. Istotność testu jest determinowana przez wartość alfa, która jest niezależna od wyników testu. Jedynym wywieranym efektem przez wartość p jest odrzucanie hipotezy zerowej, gdy wartość alfa jest większa od wartości p, bądź nieodrzucanie hipotezy zerowej, gdy wartość alfa jest mniejsza od wartości p. Wynik nie staje się bardziej statystycznie istotny jeśli wartość p jest znacznie mniejsza od wartości alfa w porównaniu do wartości niewiele mniejszej od wartości alfa.

NADUŻYCIE

Z nadużyciem mam do czynienia gdy dziennikarze bądź pewne instytucje ignorują koncept istotności – prowadząc do błędnych informacji później upublicznianych. W 2005 r. raport stworzony przez brytyjski rząd podsumował, że nie odnotowano „istotnego wzrostu używania narkotyków w brytyjskich szkołach”. Kilka gazet zabrało się za wyciąganie swoich własnych wniosków. W ich absolutnie amatorskim sposobie analizy raportu, odnotowali, że wzrost użycia kokainy w szkołach wzrósł z 1% do 2% – mimo, że wartości te w raporcie zostały zaokrąglone dla potrzeb podsumowania i w rzeczywistości wynosi odpowiednio 1,4% oraz 1,9%. Mieliśmy więc do czynienia ze wzrostem na poziomie 35% a nie 100%.

Znaleźli więc chwytliwy temat do nagłówka; w przeciwieństwie do orzeczenia rządu, zużycie kokainy wzrosło dwukrotnie, zalewa szkolne podwórka, co rząd próbuje ukryć. Jednakże, rządowe wnioski były bardziej dokładne, ponieważ brały pod uwagę istotność, grupowanie i fakt, że wiele różnych narkotyków było ankietowanych. Jeśli testujesz wiele zmiennych, szansa, że jedno z nich wykaże jasny trend przez przypadek rośnie, stąd też testy istotności muszą być odpowiednio zmieniane. Gdy rzeczywiście wykonano niezbędne matematyczne analizy, wspomniane wcześniej wyniki okazały się być absolutnie nieistotne. Przypadek sprawił, że próba w większym stopniu niż w  populacji, składała się  z osób zażywających kokainę.

PROBLEMY ZE STATYSTYCZNĄ ISTOTNOŚCIĄ

Wartość alfa jest z reguły ustalana na poziomie 0.05 bądź mniejszym. To oznacza, że występuję mniej niż 5% szansy na to, że odrzucimy hipotezę zerową przez sam przypadek. Jeśli test zwróci wynik p=0.04, wynik nazywany jest istotnym, zaś jeśli zwróci wynik p=0.06 wynik jest nieistotny.

Skutkiem ubocznym tej standardowej wartości alfa jest fakt, że 1 na 20 wyników będzie istotny, podczas gdy i tak nie kryje się za nim żaden efekt. To zdarza się często, więc błędem jest zakładać, że odpowiednia wartość „p” oznacza, że możesz być absolutnie pewien słuszności otrzymanego wyniku, to dalej jest kwestią prawdopodobieństwa. W pojedynczym eksperymencie, w którym przeprowadza się wiele testów statystycznych jest to poważny problem, np. gdy przeprowadzasz 40 testów, ok. 2 z nich odnotuje występowanie efektu, którego tam w ogóle nie ma. Jest to często nazywane współczynnikiem FWER (family wise error rate), który ciężko kontrolować, choć istnieją pewne miary w tym pomocne.

Podczas gdy łatwo zaobserwować ten problem w pojedynczym eksperymencie, to samo zjawisko pojawia się grupie pojedynczych eksperymentów publikowanych w wielu magazynach. W tysiącach eksperymentów prowadzonych każdego dnia na cały świecie, wiele z nich wyjawi statystyczną istotność, podczas gdy efekt w rzeczywistości nie występuje. Publikatorskie uprzedzenia rozdmuchują ten problem z powodu niechęci do publikowania eksperymentów, które odnotowują tylko brak efektu (tj nieudane eksperymenty), a znacznie chętniej eksperymenty z efektami.

NADUŻYCIA PSEUDONAUKI

To jest powodem dlaczego wybieranie pojedynczego wyniku testu z wybranego artykułu by coś wywnioskować jest bezsensowne. Jest to powszechna taktyka w pseudonaukach by przeszukiwać tysiące badań by znaleźć jeden istotny wynik potwierdzający ich założenia. Prawdziwej nauce musi towarzyszyć przewaga dowodów, a wyniki eksperymentów muszą być wielokrotnie i rzetelnie powtarzane zanim zostaną wcielone do zasobów pewnej i uznanej wiedzy.

Problemu omawiane powyżej są spowodowane przez używanie częstościowego podejścia w analizie statystycznej. Powstaje coraz większe grono naukowców korzystający ze statystyki w ujęciu Bayesowskim.

 „Łowienie wartości „p”” inaczej „p-hacking”

Łowienie wartości p (z ang. „p-value fishing”), bardziej znane jako „p-hacking” jest pejoratywnym zwrotem dla statystycznego kuglarstwa uprawianego przez tych, którzy w nie do końca czysty sposób chcą promować swoje hipotezy. Są dwa sposoby by otrzymać statystycznie istotny wynik, który nie oznacza w sumie niczego. Pierwszy z nich jest używany w badaniach z dużą liczbą zmiennych, kiedy wykonuje się porównania wszystkich zmiennych ze sobą w nadziei, że któryś wynik okażę się istotny.

Prawidłowo metodologia nakazuje, by eksperymentator wybrał, które zmienne będą porównywane najpierw, a także, by dokonywać korekt post-hoc w każdym dalszym porównaniu. Innym słowy, zwykłe porównywanie maksymalnie dużej liczby zmiennych, przyniesie nam statystycznie istotne wyniki, w które w rzeczy samej będę statystycznym szumem. Korekty post-hoc albo zmniejszają wartość alfa testów post-hoc, albo zwiększają ich wartość „p”, dzięki czemu poziom FWER jest utrzymywany.

Drugim sposobem na tzw „p-hacking” jest podkręcanie liczby badanych osób aż do momentu, w którym istotność jest osiągnięta. Przeważnie dobrze jest mieć większą liczbę osób badanych, jednakże dane powinny być analizowane w ich świetle. To co się często dzieje z dużą liczbą osób badanych jest to, że nawet drobna różnica w średnich stanie się istotna nawet jeśli wielkość efektu jest bliska zeru. Dlatego należy przyglądać się również wielkości efektu przy zaznajamianiu się z wartościami „p”.

Możliwe rozwiązania problemu

Innym rozwiązaniem było argumentowanie, ze statystyki muszą stracić swój magiczny status w nauce jako pewnego rodzaju analogia do dowodzenia i raczej należy widzieć je jako argument lub miarę siły dowodzenia. Wartość statystyki „p” jest wycinkiem większej całości i powinna być równoważono innymi rodzajami dowodów. Wartość „p” może być raportowana bezpośrednio, pozwalając nam na integrowaniu tej informacji z innymi dowodami w tworzeniu konkluzji. Jeśli inne dowody są słabe, być może wartość p na poziomie 0.05 jest nie przekonywująca, a być może gdy inne dowody są silne wartość „p” na poziomie 0.1 jest wystarczająca wysoka.

Jednakże, jest to problematyczne, jak samo obchodzenie się z wartością „p”, które otwiera wiele możliwości do wielu błędów statystycznych, jak mnożenie statystyk „p” dwóch badań w celu otrzymania sumarycznego „p”.

Skupianie się na przedziałach ufności zamiast na wartościach „p” zapewnia większą elastyczność i mniejszą arbitralność w ocenianiu dowodów. 95% przedział ufności może być interpretowany jako odrzucanie hipotezy zerowej pewnych wartości znajdujących się poza granicą przedziału znajdującą się w punkcie alfa 0.05. Jednakże, ten sam przedział pozwala na interpretowanie wartości w dopuszczalnym przedziale i decydować o wystarczającym precyzji by mu ufać. Szeroki przedział ufności związany z niskimi wartościami „p” może być mniej użyteczny niż wąski, bardziej dokładnym przedział ufności, któremu nie udaje się odrzucić hipotezy zerowej.

Może cenniejsze stanie się raportowanie większej ilości replikowalnych badań?