Weryfikacja statystyczna na przykładzie wypadków narciarskich. Rozkład Poissona, normalny, a ryzyko.

meto

Metodolog.pl – Analiza Statystyczna w Nauce

Firma statystyczna METODOLOG

Wypadki narciarskie i próbkowanie losowe

„Holendrzy ranni po jeździe na nartach: niezwykły wzrost o 14 procent”, pisze gazeta holenderska NRC. Czy to naprawdę zauważalny wzrost lub po prostu próbkowanie losowe? Szybka analiza statystyczna da nam odpowiedź.

W ostatni weekend NRC, holenderska gazeta, opublikowała artykuł tłustym drukiem n z pozycją Holendrzy ranni po jeździe na nartach: niezwykły wzrost o 14 procent. Szukając wyjaśnień, gazeta wspomniała, że zmiana ta nie może być wyjaśniona przez warunki spowodowane śniegiem lub zwiększoną liczbę osób, które wyjechały na urlop na narty. Doszli do wniosku, że musi to być spowodowane czynnikami osobowymi takimi jak podejmowanie wyższego ryzyka i mniejszego starannego przygotowania.

Przy liczeniu liczby wypadków każdego roku nie możemy oczekiwać, że tegoroczna liczba równa będzie liczbie wypadków w przyszłym roku. Zawsze będą jakieś losowe fluktuacje. Pozostaje pytanie, którego roku wahania są jedynie przypadkowe, a które są systematyczne? Aby odpowiedzieć na to pytanie możemy korzystać ze statystyk, czyli dystrybucje próbkowania są wykorzystywane do danych gromadzonych. W badaniach psychologicznych rozkład normalny dla zmiennych ciągłych lub rozkład dwumianowy dla zmiennych dychotomicznych jest często używany do weryfikacji statystycznej. Dla liczby zdarzeń w danym przedziale czasowym, takich jak liczby wypadków w roku, rozkładem najbardziej naturalnym jest rozkład Poissona (to dzięki niemy możemy modelować i weryfikować rozkład zdarzeń rzadkich. Rozkład Poissona ma jeden parametr, który reprezentuje zarówno średnią i wariancję. To oznacza, że większa średnia oznacza większą zmienność. Według artykułu NRC, w ubiegłym roku było około 700 rannych, w tym roku około 800, a więc najprawdopodobniej oszacowanie wynosiłoby 750. Czy zmiana z 700 na 800 to naprawdę niezwykły skok czy po prostu losowe pobieranie próbek z funkcji gęstości prawdopodobieństwa? Z programem R łatwo jest wylosować liczby z danej gęstości. Losując pięć liczb z rozkładu Poissona z = 750, 783, mogę uzyskać 738, 756, 722 i 813.

Z tej prostej sekwencji liczb losowych możemy stwierdzić, że nie jest dziwne obserwować 722 wypadków jednego roku i 813 rok później; zmiana podobna do tej przedstawionej w gazecie. Taka zmiana może być kwestią przypadku. W celu uzyskania lepszego oglądu wylosowałem 10,000 obserwacji z rozkładu Poissona by zweryfikować statystycznie to co można zobaczyć w poniższym histogramie.

Histogram - statystyka

Minimum w histogramie to około 650, podczas gdy maksymalna liczba wynosi około 850. Tak, to wszystko wydaje się dużym zamieszaniem zamiast rzeczywistej zmiany. Ponadto stwierdzenie, że podejmujemy większe ryzyko nie wydaje się mieć żadnych podstaw.