Ogół społeczeństwa nie ma pojęcia, co oznacza „istotne statystycznie”

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Ogół społeczeństwa nie ma pojęcia, co oznacza „istotne statystycznie”

Tytuł tego wpisu nie powinien szokować kogoś, kto miał zajęcia podstawowe ze statystyki. Statystyka jest pełna terminów, które mają szczególne znaczenie statystyczne oprócz codziennego znaczenia.

Kilka przykładów:

Znaczące, zaufanie, moc, losowe, średnia, krzywa normalna, wiarygodne, chwila, uprzedzenia, interakcja, prawdopodobieństwo, błąd, obciążenia, ciężary, niebezpieczeństwo, ryzyko, bootstrap, informacje, jack-knife, jądro, niezawodne ważności; a to tylko wierzchołek góry lodowej. (Oczywiście im lista robi się dłuższa, tym więcej lekcji statystyki trzeba podjąć).

Nie powinno dziwić, że błędy ludzi w znaczeniu terminologii statystycznej  dotyczą zwykle znaczenia angielskiego, kiedy prawie każde słowo ma jakieś podwójne znaczenie.

Philip Tromovitch (2015) niedawno wypuścił zgrabny artykuł, w którym przetestował nieco ponad 1000 członków ogółu społeczeństwa na ich rozumienie znaczenia „istotność”, termin, który ma bardzo precyzyjną definicję statystyczną: przy założeniu hipotezy zerowej jest prawdziwy (zwykle definiowany jako brak efektu).

Jednak w codziennym języku angielskim, coś, co jest istotnym oznacza, że jest godne i warte naszej uwagi. Zamiast podać oczywistą definicję słownika, zapytałem mamę, co myśli. Powiedziała, że interpretuje wyrażenie, takie jak „nastąpił znaczny spadek sprzedaży od 2013 do 2014”, że spadek sprzedaży był „dość duży, istotny.” (Dzięki mama :)) Ale to tylko jeden osoba. Co myślą respondenci badania Tromovitch?

Tromovitch zbadał w sumie 1103 osób. Poprosił 611 swoich respondentów o odpowiedź na pytanie wielokrotnego wyboru, a reszta odpowiedziała na wariant  pytań otwartych. Oto pytanie wielokrotnego wyboru jego respondentów:

  • Kiedy naukowcy deklarują, że odkrycie w ich pracy jest „istotne”, które z poniższych uważasz, że jest najbliższe temu co mówią:
  • Stwierdzenie: jest duże
  • Stwierdzenie: jest ważne
  • Stwierdzenie: jest inne niż by się tego spodziewano przypadkowo
  • Stwierdzenie: było nieoczekiwane
  • stwierdzenie: jest bardzo precyzyjne
  • stwierdzenie: opiera się na dużej próbce danych

Respondenci, którzy wybrali dwie pierwsze odpowiedzi uznano, że niewłaściwie używają języka angielskiego, wybranie trzeciej odpowiedź zostało uznana za poprawne, a wybranie którejkolwiek z finałowej trójki uznano za błędne odpowiedzi. Oddzielił respondentów posiadających stopień doktora (n = 15) od reszty, ale nie otrzymał żadnej informacji na temat tego, co było w jakiej dziedzinie byli doktorami, więc będę po prostu zapoznawać się z pozostałymi wynikami próbek od tego momentu, ponieważ próbkę dotyczącą doktorów należy traktować z przymrużeniem oka.

Mniej więcej 50% respondentów dało ogólno-angielską interpretację „znaczące” (opcje 1 lub 2), z grubsza 40% wybrało jedną z pozostałych trzech błędnych odpowiedzi (opcje 4, 5 lub 6), a mniej niż 10% w rzeczywistości wybrało prawidłową odpowiedź (opcja 3). Nawet gdyby były one całkowicie zgadywane, czego można oczekiwać, żeby zbliżyć się do 17% prawidłowej (1/6).

Ale chyba format wielokrotnego wyboru nie jest najlepszym sposobem, aby otrzymać wyniki, ponieważ test zapewnia wiele odpowiedzi, które brzmią zupełnie rozsądne. Tromovitch zadał to również jako pytanie otwarte, aby zobaczyć, jakiego rodzaju odpowiedzi ludzie generują sami. Jeden wariant testu wyraźnie mówi, że chce wiedzieć o istotności statystycznej, a drugi po prostu wymienia znaczenie. Dokładne sformułowanie brzmiało:

Naukowcy czasem twierdzą, że odkrycie w ich pracy jest „[statystycznie] znaczące.” Jeśli byś zaktualizował słownik angielskiego nowoczesnym amerykańskim, w jaki sposób zdefiniował byś pojęcie „[statystycznie] znaczące„?

Czy respondenci odpowiedzieli lepiej, kiedy mogli odpowiadać swobodnie? Wcale nie. Żaden test nie miał wysokiego wskaźnika sukcesu; udzielili poprawnych odpowiedzi na około 4% i 1%. To przekłada się na dosłownie 12 poprawnych odpowiedzi na ogólną liczbę 492 respondentów obojga monitów łącznie (w tym reakcje PHD). Tromovitch bierze pod uwagę wszystkie te odpowiedzi w dodatku, dzięki czemu można przeczytać rodzaje odpowiedzi, które zostały podane i uznane za poprawne.

Jeśli spojrzeć na odpowiedzi można zobaczyć, że większość z nich oznacza jakieś oświadczenie o prawdopodobieństwie prawdziwości jednej lub drugiej hipotezy, co jest niedozwolone w wyniku prawidłowego określenia istotności statystycznej! Na przykład, jedna odpowiedź kodowana jako prawidłowa jak powiedział, „Prawdopodobieństwo, że wynik / ustalenia nie są dziełem przypadku i prawdopodobnie prawdą” jest rażąco błędne. Prawdopodobieństwo, że wyniki nie są dziełem przypadku, nie jest tym o czym mówi nam znaczenie statystyczne. Większość odpowiedzi zakodowanych jako „poprawne” przez Tromovitch jest dość niejasnych, więc nie jest to oczywiste, że nawet w tych poprawnych Respondenci mają dobry uchwyt koncepcji. Nic dziwnego, że opinia publiczna patrzy na statystyki, jak gdyby była jakąś magia. Nie rozumieją ich w ogóle.

To co wyniosłem z tego badania to tytuł tego kawałka: ogół społeczeństwa nie ma pojęcia co oznacza istotność statystyczną. To nie jest zaskakujące, jeśli wziąć pod uwagę, że badacze sami często nie wiedzą, co to znaczy! Nawet profesorowie uczący metod badawczych i statystyk robią to źle. Wyniki Haller & Krauss (2002), budynek off Oakes (1986) sugerują, że to jest normalne dla studentów, pracowników naukowych, a nawet instruktorów metodycznych, że wprowadza się błędne interpretacje p-wartości i testów istotności. To bardzo źle.  Normalne, że studenci pierwszego roku lub laicy się mylą, ale wykształceni naukowcy i instruktorzy metodologii? Jeśli nie kupujesz wyników badań, otwórz czasopismo psychologiczne, a znajdziesz mnóstwo przykładów błędnej interpretacji i nieporozumień.

Ostatnio Hoekstra, Morey, Rouder, & Wagenmakers (2014) wykazali, że przedziały ufności są podobnie błędnie interpretowane przez badaczy, pomimo ostatnich głosów (Cumming, 2014), aby całkowicie zrezygnować z testów istotności na rzecz przedziałów ufności. Być może moglibyśmy wrzucić dużo i zacząć od nowa z czymś, co rzeczywiście ma sens? Może moglibyśmy spróbować uczyć czegoś, co ludzie mogą rzeczywiście zrozumieć?

Słyszałem o czymś co nazywa się statystykami Bayesa , moglibyśmy ich spróbować.