analiza statystyczna wyników badań

Statystyka i nauka – skrót raportu z warsztatów przyszłości nauk statystycznych Londyn 2014

Podsumowanie eventu.

Amerykańskie towarzystwo statystyczne ASA, Królewska społeczność statystyków i cztery inne wiodące organizacje współtworzyły uroczystość roku 2013 jako międzynarodowego roku statystyki. Zwieńczeniem tej imprezy były warsztaty, trwające od 11 do 12 listopada 2013 roku. To spotkanie zrzeszało razem więcej niż 100 zaproszonych uczestników w kontekście dwóch dni wykładów i dyskusji. Za darmo można zapoznać się z tym eventem na www.statisticsview.com.

Statystyka może być najzwięźlej opisana jako nauka o niepewności. Podczas gdy słowa „statystyka” i „dane” są często wymieniane zamiennie w dyskursie publicznym. Statystyka w aktualnej rzeczywistości wykracza poza zwykłą akumulację danych. Rolą statystyka jest:

  • projektowanie zbierania danych w formie minimalizującej błąd i zakłócające czynniki oraz maksymalizację informacyjnej zawartości
  • weryfikacje jakości danych po ich zebraniu
  • analiza danych w kierunku który dostarcza wglądu lub informacji wspierających podejmowanie decyzji

Te procesy są brane pod uwagę jako wyraźne stochastyczne i niepewne obecne w każdym realnym świecie procesów pomiarowych, a także jako systematyczna niepewność, która może być włączona w projekt eksperymentalny. To rozpoznanie jest nieodłączną charakterystyką statystyki, dlatego, że opisujemy ją jako nauka o niepewności, a nie nauka o danych. Dane są wszechobecne w społeczeństwie 21 wieku. Przenikają one naszą naukę, rząd oraz handel. Z tego powodu, statystycy mogą wskazać różne kierunki w których ich praca może zrobić coś dobrego. Jakkolwiek przydatność statystyk jest coraz częściej dostrzegana i uznawana przez społeczeństwo. Naukowcy i kierownictwo myślą o statystyce jako o infrastrukturze, podobnie jak o innych infrastrukturach. Statystycy z niektórymi wybitnymi wyjątkami, niechętnie dzielą się swoimi wynikami lu są również niezdolni do komunikowania wartości ich pracy reszcie świata

Ten raport rozpoczyna się czymś co było bardziej nieobecne na warsztatach w Londynie. Siedem studiów przypadków z przeszłości, przedstawianych jako sukcesów w statystyce. Te sukcesy są pewnie nie wyczerpujące w kontekście innych o których mówiono, ale jest nadzieja, że są one co najmniej reprezentatywne. Zawierają one:

  • rozwój metodologii randomizowanych prób kontrolnych i odpowiednich metod oceny takich prób, które są wymaganym elementem w procesie odkrywania leków w wielu krajach
  • Stosowanie statystyki Bayesa do przetwarzania obrazów, rozpoznawania obiektów, rozpoznawania mowy, a nawet przyziemnych i nudnych aplikacji takich jak sprawdzanie pisowni
  • Gwałtowne rozprzestrzenianie się metod Łańcucha Marcova, używanych w statystycznej fizyce, modelowaniu populacji i licznych innych metodach symulowania niepewności, które nie są dystrybuowane zgodnie z prostymi książkowymi modelami np. jako zmienne przypominające kształt dzwonu (rozkład normalny)
  • Zaangażowanie statystyków w wielu sprawach sądowych na przestrzeli lat. Kiedy oskarżony jest oskarżony o przestępstwo ponieważ występuje nadzwyczajne nieprawdopodobieństwo łańcucha wydarzeń
  • odkrycie za pomocą metod statystycznych biomarkerów genów, które nadają zwiększone lub zmieniejszone ryzyko pewnych rodzajów raka
  • Metoda nazywana „krikingiem”, która pozwala naukowcom interpolować wygładzone rozkłady ilości przedmiotów zainteresowania z rozdzielonych pomiarów. Obszary zastosowania tej metody obejmują wydobycie, meteorologię, rolnictwo i astronomie
  • wzrost w ostatnich latach analityki w sporcie i polityce. W niektórych przypadkach, metody zaangażowane nie są szczególnie nowe, ale to co jest nowe to zwiększone zainteresowanie interesariuszy (managerów sportowych i polityków) wartością która obiektywna analiza statystyczna może wnieść w ich dane

Niewątpliwe największym wyzwaniem i okazją jest dzisiejsza konfrontacja statystyków w powstawaniu Big Data – baz danych z ludzkim genomem, ludzkim umysłem, sprzedażą internetową, sieciami społecznymi. Big Data jest wyzwaniem z kilku ważnych powodów:

  • Problem Skali

Wiele popularnych algorytmów do analizy statystycznej analizy danych nie skaluje dosyć dobrze i bardzo powoli przetwarzają terabajty danych. Statystycy potrzebują zwiększać wydajność algorytmów lub projektować nowe, które znajdą kompromis teoretycznej skuteczności i szybkości liczenia

  • Różne rodzaje danych

Big Data są nie tylko duże, ale złożone i pochodzą z różnych form. Dla przykładu zdjęć lub sieci.

  • Efekt patrzenia wszędzie

Jak naukowcy przechodzą z hipotez do danych to  w Big Data mogą wystąpić problemy podobne jak u naukowców z weryfikacją hipotez. Polega to na wykrywaniu fałszywych zależności i produkowaniu artefaktów.

  • Bezpieczeństwo i poufność

Jest to najprawdopodobniej obszar największego zainteresowania opinii publicznej w temacie Big Data. Statystycy nie mogą sobie pozwolić na ignorowanie tego. Dane mogą być anonimizowane by ochraniać dane personalne, ale w tym kontekście nie ma czegoś takiego jak „bezpieczeństwo perfekcyjne”

  • Odkrywanie koła na nowo

Niektóre firmy zbierające Big Data, zwłaszcza firmy internetowe – mogą nie uświadamiać sobie, że statystycy mają długie doświadczenia z uzyskiwaniem informacji z danych. Niektórzy statystycy oburzają się na termin „data science”. Inni czują, że powinni akceptować rzeczywistość, którą jest nauka o danych i skupić się oraz doszkalać się z tego zakresu.

Big Data nie była jedynym bieżącym trendem omawianym podczas spotkania w Londynie. Inne omawiane tematy zawierały:

Opinie różnią się znacznie w zakresie problematyki, ale wiele odkryć, które idą do druku są niewątpliwie fałszywe. Kilka głównych czasopism naukowych wymagają lub zachęcają autorów do dokumentowania ich statystycznych metody w takim kierunku aby pozwalały innym na odtworzenie analiz statystycznych

  • Zaktualizowanie randomizowanych prób z grupą kontrolną

Tradycyjne RCT (Randomized trial control) jest droga i brakuje jej elastyczności. Adaptacyjne projekty i inteligentne próby są dwiema modyfikacjami które mają dać obiecujące rezultaty, ale praca ciągle potrzebuje przekonania klinicystów do tego, że mogą oni uwierzyć innowacyjnej metodzie w miejscu starej i prawdziwej RCT.

  • Statystyki zmian klimatu

Jest to jest z obszarów nauki, który błaga o większą ilość statystyków. Modele klimatów wyraźnie nie zawierają niepewności, więc niepewność musi być symulowana przez uruchamianie jej wielokrotnie w nieco różnych warunkach

  • Statystyki w innych nowych miejscach

Dla przykładu, jedna rozmowa wyjaśniła jak metody zbierania nowych danych i analiza statystyczna danych zwiększają (lub mogą zwiększyć) nasze zrozumienie publicznego żywienia. Inny uczestnik opisywał jak ONZ eksperymentuje pierwszy raz z probabilistycznym niż deterministycznym prognozowaniem demografii

  • Komunikacja i wizualizacja analiz statystycznych

Internet i multimedia dają statystykom nowych okazji to wzięcia ich pracy bezpośrednio na światło dzienne.

  • Edukacja

Wieloaspektowy temat był dyskutowany wiele razy, ale bez żadnych realnych uzgodnień. Wielu uczestników na spotkaniu uważało zgodnie, że program potrzebuje ponownej oceny i aktualizacji by absolwenci byli bardziej konkurencyjni w miejscu pracy.

  • Nagrody i korzyści zawodowe

Promocja i stażowy system potrzebuje zapewnienia nietradycyjnego wkładu w szerokie pisanie na temat używanej i wartościowanej części statystycznego oprogramowania. Nieoficjalna hierarchia w czasopismach w których teoretyczne czasopisma są bardziej prestiżowe niż stosowane i statystyczne pisma jest trochę przestarzała. Warto wprowadzić pewne zmiany w tym kontekście.

W sumie pogląd statystyki, który się wylania z warsztatów w Londynie była jednym polem w którym wyłoniły się trzy konteksty:

  • zdrowie
  • obfite i nowe źródła danych
  • trudne problemy do rozwiązania w ciągu następnego stulecia
statystyka medyczna, biostatystyka

Big Data w naukach medycznych

założenia regresji logistycznej

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Big Data w naukach medycznych

W dzisiejszych czasach możemy śmiało stwierdzić, że Big Data zmienia świat i najlepszym tego przykładem jest medycyna. W ostatniej dekadzie odnotowano ogromny postęp w ilości danych i zdolności do wykorzystania technologii aby te dane analizować i zrozumieć a to pomaga firmom w każdej branży, aby stać się bardziej skuteczne i produktywne. Tak samo dzieje się w medycynie. Oprócz poprawy zysków Big Data jest stosowany do przewidywania epidemii, leczenia chorób, poprawy jakości życia i uniknięcia zgonów, którym można zapobiec. Liczba ludności na świecie cały czas rośnie a długość życia się zwiększa przez co sposoby leczenia gwałtownie się zmieniają a wiele tych decyzji jest dyktowana przez dane. Celem dzisiejszej medycyny jest zdobyć jak najwięcej informacji o pacjencie i jak najszybciej wykryć chorobę ponieważ leczenie groźnej choroby na wczesnym etapie jest dużo prostsze  i tańsze niż gdyby została zauważona później.

Nowe technologie i analiza danych

Wejście smartfonów na rynek nowej technologii był dopiero początkiem. Dzięki aplikacją, które mogą być wykorzystane do wszystkiego: od krokomierza, który zmierzy ile kilometrów przeszliśmy danego dnia po liczniki kalorii  pomagające zaplanować dietę. Miliony z nas używa technologii mobilnych aby zmienić swój styl życia na lepszy. W ostatnim czasie pojawia się coraz więcej urządzeń przenośnych (np. do noszenia na ręku), które pozwalają śledzić  nasze postępy i przesyłają dane aby mogły być porównane z innymi.  W niedalekiej przyszłości będzie można dzielić te dane z lekarzem dzięki czemu powiększy się jego  zestaw narzędzi diagnostycznych. Nawet jeśli jesteśmy zdrowi, dostęp do obszernej i wciąż rosnącej bazy danych informacji i stanie zdrowia ogółu społeczeństwa pozwoli przewidzieć problemy, zanim one wystąpią a co za tym idzie przygotować środki zaradcze (lecznicze lub edukacyjne) z wyprzedzeniem. Przenośne urządzenia połączone z centralnymi bazami danych są znakomitym sposobem na gromadzenie informacji o przebiegu choroby pacjenta. Przykładem takiego zastosowania jest specjalna nakładka dla astmatyków. Inhalatory, które są w nią wyposażone łączą się ze smartfonami przez Bluetooth i monitorują stosowanie leku za pomocą aplikacji. Dzięki temu pacjent automatycznie aktualizuje historię zażywania lekarstwa, a lekarz dostaje wiarygodne dane o przebiegu choroby, na podstawie których może skuteczniej prowadzić terapię.

Sposób, w jaki  lekarz będzie współpracował z pacjentem może się zmienić w najbliższej przyszłości. Opieka medyczna chce skupić się na trzymaniu pacjenta w domu z dala od szpitala. Telemedycyna staje się coraz popularniejsza, oznacza formę świadczenia usług medycznych i opieki zdrowotnej za pomocą komputera i Internetu. Ściśle mówiąc ta metoda może odnosić się do czegoś tak prostego jak odwiedzenie strony internetowej i autodiagnostyki albo odbędzie się jako usługa jeden-na-jeden z wykwalifikowanym specjalistą. Komunikacja ta będzie oczywiście zostawić za sobą dane, które będą mogły być analizowane, aby dostarczyć cennych informacji do ogólnych trendów w dziedzinie zdrowia publicznego i sposobu w dostępie do opieki zdrowotnej. Dla chorych korzystanie z takich usług to wygoda obserwowania przebiegu leczenia on-line, zaoszczędzony czas, lepiej dobrane leczenie i szybszy powrót do zdrowia.

Badania Naukowe i statystyka

Jednym z głównych ograniczeń dzisiejszej medycyny w przemyśle farmaceutycznym jest zrozumienie biologii choroby. Big Data ma swój udział w badaniach klinicznych zdobywając coraz więcej danych na temat choroby zaczynając od badania DNA i komórek kończąc na tkankach i organach. Jeżeli lekarz oferuje lekarstwo i zapewnia jego skuteczność na dane dolegliwości to prawdopodobnie lek ten został stworzony przy użyciu Big Data. Ogromne ilości danych pozwalają naukowcom wybrać najlepsze substancje. W ostatnim czasie, udostępnianie danych pomiędzy firmami farmaceutycznymi doprowadziło do przełomu, odkryto że dezypramina, powszechnie używana jako lek anty -depresyjny, ma potencjalne zastosowanie w leczeniu nowotworów płuc.

Nie zapominajmy o największym problemie dzisiejszej medycyny- nowotworze. Zabieg, który polega na wykonaniu pełnej analizy genomu daje nadzieję osobom chorym na raka. Wykrycie nieprawidłowości w kodzie DNA umożliwia wcześniejsze rozpoczęcie skutecznej terapii. Metoda ta przez nie była wcześniej popularna ponieważ wiązała się z ogromnymi kosztami oraz miała długi czas realizacji. Dziś zabieg dużo tańszy, a nowoczesne rozwiązania serwerowe zapewniają wysoką wydajność.

Big Data również pomaga również w walce z rozprzestrzenianiem się epidemii. W Afryce, dane dotyczące lokalizacji telefonu okazały się bardzo cenne w śledzeniu ruchów ludności, co pomogło przewidzieć rozprzestrzenianie się wirusa Ebola. Strategie te były też kluczowe po trzęsieniu ziemi na Haiti 2010 , gdzie zostały one użyte w celu pomocy ofiarom katastrofy.

Prywatność i Bezpieczeństwo danych

Oczywiście, żadne dane nie są bardziej osobiste niż dane medyczne, więc bardzo ważne jest aby zostały wprowadzone najskuteczniejsze systemy zabezpieczające, aby upewnić się, że informacje dostaną się tylko do tych, do których powinny. Pomimo, to cyber-przestępcy systematycznie wykradają dokumentacje medyczną i zarabiają na nich więcej pieniędzy niż z kradzieży danych karty kredytowej. Miedzy innymi z tego powodu kompletna informatyzacja opieki medycznej to trudne wyzwanie. Danych przybywa coraz więcej, a to wymaga inwestycji w infrastrukturę informatyczną. Dane potrzebują miejsca na przechowywanie, więc placówki medyczne albo będą musiały rozbudować swoją serwerownię, albo zdecydować się na outsourcing.

Pomimo niebezpieczeństw jakie niesie za sobą wprowadzenie nowych technologii do opieki zdrowia korzyści jakie może przynieść Big Data są dużo większe. Informatyzacja danych medycznych może budzić obawy ale dopóki bezpieczeństwo jest utrzymywane na wysokim poziomie jest pewne, że przyczynia się do rozwoju nowych metod leczenia i pomaga nam coraz lepiej zrozumieć jak działa nasz organizm.

analiza statystyczna metodolog

Odkrywanie / eksploracja zmiennych.

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Odkrywanie / eksploracja zmiennych.

Odkrywanie i eksploracja zmiennych polega na wykryciu w zbiorze danych spójnych lub sensownych wzorców informacji metodami statystycznymi. Stosuje się to w momencie kiedy dokładnie nie wiemy konkretnie z czym mamy do czynienia w zbiorze danych, ale nasza wiedza ekspercka lub intuicja podpowiada, że coś w niej sensownego może być. Odpowiednimi metodami statystycznymi możemy wykryć np. grupy obserwacji różniące się między sobą różnymi cechami (np. grupa osób optymistycznych i pesymistycznych, wyróżnionych ze względu na poziom zadowolenia z życia, dochodów, zdrowia, i poziomu zrównoważenia emocjonalnego), możemy odkryć strukturę kwestionariusza mierzącego preferencje zawodowe (preferencja aktywności z danymi, preferencja aktywności z ludźmi, preferencja aktywności fizycznych i artystycznych). Jednym słowem odkrywanie wiedzy z danych to eksplorowanie zbioru w poszukiwaniu sensu i spójności w danych różnymi metodami statystycznymi.

pomoc, usługi i analizy statystyczne metodolog

Budowa wskaźników

 

Budowa wskaźników.

W bazie znajdują się zmienne które trzeba poddać przekształceniom mającym na celu utworzenie zagregowanego wskaźnika. Wskaźnikiem może być wartość BMI=(waga/wzrost*wzrost), logarytm naturalny z zarobków, zsumowany lub uśredniony wyniki z kilku pytań kwestionariusza mierzącego postawy wobec pieniędzy lub różnica wieku wyrażonego w latach ze stażem pracy (czyli miara rozpoczęcia pracy zawodowej).

statystyka medyczna, biostatystyka

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data

Analiza danych w medycynie – czyli jaką rolę odgrywa Big Data w badaniach nad Parkinsonem.

W ostatnich latach, coraz większą popularnością cieszą się urządzenia monitorujące nasze zdrowie. Smartwatche i smartbandy zyskują kolejnych użytkowników, którzy wykorzystują je w celu zbierania informacji na temat stanu swojego zdrowia. Przy ich pomocy możemy zebrać dane np. na temat snu, bądź jeżeli uprawiamy sport, to małe urządzenie na nadgarstku pomoże usystematyzować dane o osiągnięciach i dostarczyć nowych cennych informacji.


Nie trzeba było długo czekać, by znaleźć poważniejsze zastosowanie dla tych technologii. Intel we współpracy z Fundacją Michaela J. Foxa, podjął się badań nad chorobą Parkinsona przy pomocy urządzeń typu „wearables”. Odzież technologiczna jest w stanie dyskretnie zbierać i przekazywać obiektywne dane empiryczne w czasie rzeczywistym, 24 godziny na dobę, siedem dni w tygodniu. Jest to duży postęp w diagnozowaniu i leczeniu Parkinsona. Dzięki zastosowaniu sensorów badacze pozyskają ogrom danych do analizy Big Daty. Nie trudno się domyślić, że w porównaniu z dotychczas stosowanymi metodami monitorowania przebiegu choroby u pacjenta, przeskok w ilości danych będzie ogromny. Jednakże dopiero taka masa danych dostarczy badaczom materiał, na podstawie którego będą w stanie zgłębić istotę problemu choroby Parkinsona i wykryć wzorce. Big Data odgrywa w tym kluczową rolę.


Ze względu na obszerność danych Intel opracował platformę analityczną do big data, która wykorzystuje różne rodzaje oprogramowania, w tym Cloudera CDH — platformę open source, która gromadzi i przechowuje dane oraz nimi zarządza.  Platforma big data obsługuje aplikację analityczną do przetwarzania oraz wykrywania zmian w danych w czasie rzeczywistym. Poprzez wykrywanie anomalii i zmiany w czujniku, może dostarczyć naukowcom obiektywną metodę pomiaru progresji choroby. Zaawansowane możliwości analizy danych udostępnione przez Big data Intel z pewnością okażą się pomocne w dalszych badaniach nad chorobą.