Statystyka i nauka – skrót raportu z warsztatów przyszłości nauk statystycznych Londyn 2014

Podsumowanie eventu.

Amerykańskie towarzystwo statystyczne ASA, Królewska społeczność statystyków i cztery inne wiodące organizacje współtworzyły uroczystość roku 2013 jako międzynarodowego roku statystyki. Zwieńczeniem tej imprezy były warsztaty, trwające od 11 do 12 listopada 2013 roku. To spotkanie zrzeszało razem więcej niż 100 zaproszonych uczestników w kontekście dwóch dni wykładów i dyskusji. Za darmo można zapoznać się z tym eventem na www.statisticsview.com.

Statystyka może być najzwięźlej opisana jako nauka o niepewności. Podczas gdy słowa „statystyka” i „dane” są często wymieniane zamiennie w dyskursie publicznym. Statystyka w aktualnej rzeczywistości wykracza poza zwykłą akumulację danych. Rolą statystyka jest:

  • projektowanie zbierania danych w formie minimalizującej błąd i zakłócające czynniki oraz maksymalizację informacyjnej zawartości
  • weryfikacje jakości danych po ich zebraniu
  • analiza danych w kierunku który dostarcza wglądu lub informacji wspierających podejmowanie decyzji

Te procesy są brane pod uwagę jako wyraźne stochastyczne i niepewne obecne w każdym realnym świecie procesów pomiarowych, a także jako systematyczna niepewność, która może być włączona w projekt eksperymentalny. To rozpoznanie jest nieodłączną charakterystyką statystyki, dlatego, że opisujemy ją jako nauka o niepewności, a nie nauka o danych. Dane są wszechobecne w społeczeństwie 21 wieku. Przenikają one naszą naukę, rząd oraz handel. Z tego powodu, statystycy mogą wskazać różne kierunki w których ich praca może zrobić coś dobrego. Jakkolwiek przydatność statystyk jest coraz częściej dostrzegana i uznawana przez społeczeństwo. Naukowcy i kierownictwo myślą o statystyce jako o infrastrukturze, podobnie jak o innych infrastrukturach. Statystycy z niektórymi wybitnymi wyjątkami, niechętnie dzielą się swoimi wynikami lu są również niezdolni do komunikowania wartości ich pracy reszcie świata

Ten raport rozpoczyna się czymś co było bardziej nieobecne na warsztatach w Londynie. Siedem studiów przypadków z przeszłości, przedstawianych jako sukcesów w statystyce. Te sukcesy są pewnie nie wyczerpujące w kontekście innych o których mówiono, ale jest nadzieja, że są one co najmniej reprezentatywne. Zawierają one:

  • rozwój metodologii randomizowanych prób kontrolnych i odpowiednich metod oceny takich prób, które są wymaganym elementem w procesie odkrywania leków w wielu krajach
  • Stosowanie statystyki Bayesa do przetwarzania obrazów, rozpoznawania obiektów, rozpoznawania mowy, a nawet przyziemnych i nudnych aplikacji takich jak sprawdzanie pisowni
  • Gwałtowne rozprzestrzenianie się metod Łańcucha Marcova, używanych w statystycznej fizyce, modelowaniu populacji i licznych innych metodach symulowania niepewności, które nie są dystrybuowane zgodnie z prostymi książkowymi modelami np. jako zmienne przypominające kształt dzwonu (rozkład normalny)
  • Zaangażowanie statystyków w wielu sprawach sądowych na przestrzeli lat. Kiedy oskarżony jest oskarżony o przestępstwo ponieważ występuje nadzwyczajne nieprawdopodobieństwo łańcucha wydarzeń
  • odkrycie za pomocą metod statystycznych biomarkerów genów, które nadają zwiększone lub zmieniejszone ryzyko pewnych rodzajów raka
  • Metoda nazywana „krikingiem”, która pozwala naukowcom interpolować wygładzone rozkłady ilości przedmiotów zainteresowania z rozdzielonych pomiarów. Obszary zastosowania tej metody obejmują wydobycie, meteorologię, rolnictwo i astronomie
  • wzrost w ostatnich latach analityki w sporcie i polityce. W niektórych przypadkach, metody zaangażowane nie są szczególnie nowe, ale to co jest nowe to zwiększone zainteresowanie interesariuszy (managerów sportowych i polityków) wartością która obiektywna analiza statystyczna może wnieść w ich dane

Niewątpliwe największym wyzwaniem i okazją jest dzisiejsza konfrontacja statystyków w powstawaniu Big Data – baz danych z ludzkim genomem, ludzkim umysłem, sprzedażą internetową, sieciami społecznymi. Big Data jest wyzwaniem z kilku ważnych powodów:

  • Problem Skali

Wiele popularnych algorytmów do analizy statystycznej analizy danych nie skaluje dosyć dobrze i bardzo powoli przetwarzają terabajty danych. Statystycy potrzebują zwiększać wydajność algorytmów lub projektować nowe, które znajdą kompromis teoretycznej skuteczności i szybkości liczenia

  • Różne rodzaje danych

Big Data są nie tylko duże, ale złożone i pochodzą z różnych form. Dla przykładu zdjęć lub sieci.

  • Efekt patrzenia wszędzie

Jak naukowcy przechodzą z hipotez do danych to  w Big Data mogą wystąpić problemy podobne jak u naukowców z weryfikacją hipotez. Polega to na wykrywaniu fałszywych zależności i produkowaniu artefaktów.

  • Bezpieczeństwo i poufność

Jest to najprawdopodobniej obszar największego zainteresowania opinii publicznej w temacie Big Data. Statystycy nie mogą sobie pozwolić na ignorowanie tego. Dane mogą być anonimizowane by ochraniać dane personalne, ale w tym kontekście nie ma czegoś takiego jak „bezpieczeństwo perfekcyjne”

  • Odkrywanie koła na nowo

Niektóre firmy zbierające Big Data, zwłaszcza firmy internetowe – mogą nie uświadamiać sobie, że statystycy mają długie doświadczenia z uzyskiwaniem informacji z danych. Niektórzy statystycy oburzają się na termin „data science”. Inni czują, że powinni akceptować rzeczywistość, którą jest nauka o danych i skupić się oraz doszkalać się z tego zakresu.

Big Data nie była jedynym bieżącym trendem omawianym podczas spotkania w Londynie. Inne omawiane tematy zawierały:

Opinie różnią się znacznie w zakresie problematyki, ale wiele odkryć, które idą do druku są niewątpliwie fałszywe. Kilka głównych czasopism naukowych wymagają lub zachęcają autorów do dokumentowania ich statystycznych metody w takim kierunku aby pozwalały innym na odtworzenie analiz statystycznych

  • Zaktualizowanie randomizowanych prób z grupą kontrolną

Tradycyjne RCT (Randomized trial control) jest droga i brakuje jej elastyczności. Adaptacyjne projekty i inteligentne próby są dwiema modyfikacjami które mają dać obiecujące rezultaty, ale praca ciągle potrzebuje przekonania klinicystów do tego, że mogą oni uwierzyć innowacyjnej metodzie w miejscu starej i prawdziwej RCT.

  • Statystyki zmian klimatu

Jest to jest z obszarów nauki, który błaga o większą ilość statystyków. Modele klimatów wyraźnie nie zawierają niepewności, więc niepewność musi być symulowana przez uruchamianie jej wielokrotnie w nieco różnych warunkach

  • Statystyki w innych nowych miejscach

Dla przykładu, jedna rozmowa wyjaśniła jak metody zbierania nowych danych i analiza statystyczna danych zwiększają (lub mogą zwiększyć) nasze zrozumienie publicznego żywienia. Inny uczestnik opisywał jak ONZ eksperymentuje pierwszy raz z probabilistycznym niż deterministycznym prognozowaniem demografii

  • Komunikacja i wizualizacja analiz statystycznych

Internet i multimedia dają statystykom nowych okazji to wzięcia ich pracy bezpośrednio na światło dzienne.

  • Edukacja

Wieloaspektowy temat był dyskutowany wiele razy, ale bez żadnych realnych uzgodnień. Wielu uczestników na spotkaniu uważało zgodnie, że program potrzebuje ponownej oceny i aktualizacji by absolwenci byli bardziej konkurencyjni w miejscu pracy.

  • Nagrody i korzyści zawodowe

Promocja i stażowy system potrzebuje zapewnienia nietradycyjnego wkładu w szerokie pisanie na temat używanej i wartościowanej części statystycznego oprogramowania. Nieoficjalna hierarchia w czasopismach w których teoretyczne czasopisma są bardziej prestiżowe niż stosowane i statystyczne pisma jest trochę przestarzała. Warto wprowadzić pewne zmiany w tym kontekście.

W sumie pogląd statystyki, który się wylania z warsztatów w Londynie była jednym polem w którym wyłoniły się trzy konteksty:

  • zdrowie
  • obfite i nowe źródła danych
  • trudne problemy do rozwiązania w ciągu następnego stulecia