Korelacja jako miara związku pomiędzy zmiennymi.

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

 

Korelacja jest statystyczną techniką, która pokazuje czy i jak mocno pary zmiennych są ze sobą związane.

Na przykład, wzrost i waga są związane; wyżsi ludzie są zwykle ciężsi od niższych. Związek nie jest idealny. Ludzie tego samego wzrostu różnią się swoją wagą, a w dodatku na pewno bez trudu możesz przywołać przykład swoich znajomych z których niższy jest cięższy od wyższego. Tym niemniej, średnia waga ludzi mających 1,70 metra wzrostu jest mniejsza niż tych mających 1,80, a z kolei ich średnia waga jest mniejsza niż średnia waga ludzi posiadających 1,90 metra wzrostu. Korelacja może powiedzieć ci jak bardzo zmienność ludzi wzrostu jest powiązana z ich wzrostem.

Pomimo, że ta korelacja jest w miarę oczywista, twoje dane mogą zawierać niespodziewane korelacje. Możesz również podejrzewać, że zachodzą korelacje, ale nie wiedzieć które są najsilniejsze. Inteligentna analiza korelacji może zaprowadzić cię do lepszego zrozumienia swoich danych.

Techniki stwierdzania korelacji

 

Istnieje kilka różnych technik korelacyjnych. Opcjonalny w Systemie Ankiet Moduł Statystyczny zawiera najbardziej powszechne typy, zwany współczynnikiem korelacji Pearsona albo korelacji momentu-produktu. Moduł zawiera także jego wariację nazywaną korelacją cząstkową. Ta ostatnia przydaje się kiedy chcesz przyjrzeć się związkowi pomiędzy dwoma zmiennymi podczas usunięcia efektu jednej albo dwóch innych zmiennych.

Jak wszystkie techniki statystyczne, korelacji można używać tylko dla pewnych rodzajów danych. Korelacja działa tylko na danych policzalnych, gdzie liczby mają znaczenie, zwykle są ilościami czegoś. Nie może być stosowana dla danych typowo kategorialnych jak płeć, kupowane marki albo ulubiony kolor.

Skale ocen

 

Skale ocen są nieco kontrowersyjne. Liczby w skalach ocen mają swoje znaczenia, ale te znaczenia nie są zbyt precyzyjne. Nie są takie jak ilości. W przypadku ilości (np. dolarów), różnica pomiędzy 1 i 2 będzie dokładnie taka sama jak pomiędzy 2 i 3. W skalach ocen już niekoniecznie. Możesz mieć pewność, że twój respondent myśli o ocenie 2 jako mocniejszej od 1 i słabszej od 3, ale nie możesz założyć na pewno, że jest ona dokładnie pomiędzy tymi dwoma ostatnimi. To widać w pełnej jaskrawości kiedy masz etykiety podpunktów w swojej skali (nie możesz założyć, że „dobrze” jest dokładnie w połowie pomiędzy „znakomicie” i „w miarę”).

Większość statystyków mówi, że nie można używać korelacji ze skalami ocen, ponieważ matematyczne techniki zakładają, że różnice pomiędzy liczbami są dokładnie takie same. Nie zmienia to faktu, że wielu badaczy posługujących się ankietami, używa korelacji ze skalami ocen, ponieważ wyniki zwykle odbijają się w świecie realnym. Nasza opinia jest taka, że można użyć korelacji razem ze skalami ocen, zachowując przy tym dozę rozsądku. Pracując z wielkimi ilościami, korelacje zapewniają precyzyjne pomiary. Gdy się pracuje ze skalami ocen, korelacje zapewniają pewne ogólne wskazówki.

Współczynnik korelacji

 

Główny wynik korelacji nazywany jest współczynnikiem korelacji (albo „r”). Mieści się w przedziale od -1.0 do +1.0. Im bardziej r zbliżone jest do +1 albo -1, tym mocniej dwie zmienne są ze sobą związane.

Jeżeli r jest bliskie 0, znaczy to, że nie zachodzi związek pomiędzy zmiennymi. Jeżeli r jest dodatnie, oznacza to, że gdy jedna zmienna się zwiększa, druga zwiększa się wraz z nią. Jeżeli r jest ujemne, znaczy to, że jeśli jedna zmienna się zwiększa, to druga się zmniejsza (często nazywane jest to korelacją ujemną).

Chociaż współczynnik korelacji jest zwykle zapisywany jako r=(wartość pomiędzy -1 i 1), podniesienie go do kwadratu, sprawia, że staje się łatwiejszy do zrozumienia. Współczynnik korelacji podniesiony do kwadratu (albo r2) jest równy procentowi zmienności w jednej zmiennej, która jest związana ze zmiennością w innej. Po podniesieniu r do kwadratu, należy zignorować punkt dziesiętny. R z 0.5 oznacza że 25% zmienności jest powiązane (0.52=0.25). Wartość r wynosząca 0.7 oznacza, że 49% zmienności jest powiązane (0.72=0.49)

Raport korelacji pokazuje jeszcze drugi wynik każdego testu – istotność statystyczną. W tym przypadku, poziom istotności powie ci jakie jest prawdopodobieństwo, że zaobserwowane korelacji mogły zostać wychwycone na podstawie błędów albo przez przypadek. Jeśli pracujesz z małą próbką danych, wybierz format raportu zawierający poziom istotności. Ten format także raportuje wielkość próbki.

Kluczową rzeczą o której należy pamiętać pracując z korelacjami jest by nigdy nie zakładać, że korelacja oznacza iż zmiana w jednej zmiennej powoduje zmianę w innej. Sprzedaż zarówno komputerów jak i butów do biegania ewidentnie wzrosła w ostatnich kilku latach i jest pomiędzy nimi wysoka korelacja, ale nie można przecież zakładać, że zakup komputera powoduje u ludzi chęć zakupu butów (i odwrotnie).

Drugim zastrzeżeniem jest to, że technika korelacji Pearsona najlepiej działa w liniowych związkach; jeżeli jedna zmienna się zwiększa to druga też (albo zmniejsza) w bezpośredniej proporcji. Nie sprawdza się to w związkach krzywoliniowych (w którym związek nie podąża po linii prostej). Przykładem związku krzywoliniowego jest wiek i opieka zdrowotna. Są powiązane, ale związek nie jest zapisywany za pomocą linii prostej. Małe dzieci i ludzie starsi wymagają dużo więcej opieki zdrowotnej niż nastolatki i młodzi dorośli. Regresja wielokrotna (także zawarta w module statystycznym) może być wykorzystana do badania związków krzywoliniowych, ale jest poza zakresem tego artykułu.

Biostatystyka analiza statystyczna danych medycznych

Składnik losowy – biały szum

założenia regresji logistycznej

 

Składnik losowy i diagnostyka modelu ekonometrycznego.

Kształtowanie się składnika losowego w modelu ekonometrycznym, jest jednym z podstawowych źródeł wiedzy na temat tego, czy model został zbudowany prawidłowo.

Jego wartość to różnica pomiędzy wartością empiryczną w danym okresie, a oszacowaną wartością teoretyczną dla wartości zmiennych objaśniających w danym okresie (bądź wcześniejszych, w przypadku szeregów ze zmiennymi endogenicznymi opóźnionymi w czasie). Z definicji model (w szerokim znaczeniu) to uproszczony obraz rzeczywistości. W takim razie budując model ekonometryczny, chcemy „uprościć” pewne zjawiska zachodzące w ekonomii, do postaci funkcji. Jednocześnie oczekujemy, że model będzie w jak najlepszym stopniu oddawał rzeczywistość, co za tym idzie różnica pomiędzy wartością, która wystąpiła w rzeczywistości (empiryczna), a tym co obliczyliśmy na podstawie modelu (teoretyczna), będzie jak najmniejsza, czyli jak najbliższa zeru.

Zgodnie ze stochastycznymi założeniami, standardowy liniowy model ekonometryczny ma kilka charakterystycznych cech dotyczących składników losowych. Po pierwsze, tak jak już zostało wspomniane, składniki losowe oscylują wokół zera, co możemy zapisać jako Eξt-=0. Wariancje są stałe (Eξt2ξ2) oraz nieskorelowane w czasie (Eξtξt-j=0, j=1,2,…). Przyjmujemy również, że mają rozkład normalny t~N(0;σt2)). Odrzucamy również możliwość występowania korelacji ze zmiennymi objaśniającymi (Eξtxti=0, i=1,…,K).

Choć brzmi to skomplikowanie, to jest to łatwiejsze niż się wydaje. Zacznijmy od tego że, jeżeli składnik losowy kształtowałby się według jakiegoś schematu, to nie bardzo moglibyśmy mówić o jakiekolwiek losowości. Oznaczałoby to dla nas tyle, że w tej reszcie „coś się dzieje”, a model nie został zbudowany prawidłowo. Skoro widzimy, że coś się dzieje, to wypadałoby dojść do tego, co tam się kryje. Najprawdopodobniej w wartościach składnika losowego, w przypadku wystąpienia jego autokorelacji, zawarty jest jakiś czynnik mający spory wpływ na kształtowanie się zmiennej objaśnianej. Czynnik, którego nie wzięliśmy pod uwagę rozważając to, co może wpływać na badane przez nas zagadnienie. Jedną z szybkich metod, mających na celu oczekiwany spadek współczynnika autokorelacji jest dodanie do modelu zmiennej endogenicznej opóźnionej w czasie, ale o tym kiedy indziej bo to dużo bardziej skomplikowana sprawa.

Jeżeli wszystkie powyższe założenia [(Eξt-=0), (Eξt2ξ2), (Eξtξt-j=0, j=1,2,…), (ξt~N(0;σt2)] w przypadku analizowanego przez nas modelu, okazują się być prawdziwe, to możemy składniki zakłócające pojmować jako generowane przez proces białego szumu. W takim przypadku wszystkie współczynniki autokorelacji oraz współczynniki autokorelacji cząstkowej będą zerowe, nieistotne statystycznie (ρj=0  ϕjj=0 (j=1,2,…,s)). By określić czy występuje biały szum, musimy dokonać testów odpowiednich hipotez. Wśród nich znajdują się np. statystyka Quenouille’a czy statystyka Durbina-Watsona. W następnych wpisach pojawią się informacje, jak testować hipotezy o braku autokorelacji w Gretlu.

analiza statystyczna wyników badań

Czym jest teoria naukowa?

założenia regresji logistycznej

Czym jest teoria naukowa? 

Teoria naukowa jest specyficznym typem teorii używanym w metodzie naukowej. Słowo „teoria” może mieć różne znaczenia, w zależności od tego kogo spytasz.

„Sposób w jaki naukowcy używają słowa ‘teoria’ różni się nieco od tego jak używane jest ono w mowie potocznej” – mówi Jaime Tanner, profesor biologii na Marlboro College – „większość ludzi używa tego słowa do wyrażenia idei albo przeczucia, które ktoś ma, ale w nauce słowo ‘teoria’ odnosi się do sposobu w jaki interpretujemy fakty”.

Proces stawania się teorią naukową 

Każda teoria naukowa zaczyna jako hipoteza. Według słownika, hipoteza to jest idea, która nie została jeszcze udowodniona. Jeżeli zbierze się wystarczająco dużo dowodów potwierdzających hipotezę, wtedy przechodzi ona na następny krok, znany w metodzie naukowej jako teoria i zostaje zaakceptowana jako obowiązujące wyjaśnienie danego zjawiska. Czym jest teoria naukowa?

Tanner dalej wyjaśnia, że teoria naukowa jest strukturą dla obserwacji i faktów. Teorie mogą się zmieniać, sposób w jaki są interpretowane też może się zmieniać, za to fakty same w sobie pozostają niezmienne. Tanner przyrównuje teorie do kosza, w którym badacze trzymają wykryte przez siebie fakty i obserwacje. Kształt tego kosza może się zmienić jeśli badacze dowiedzą się więcej i dołączą nowe fakty. „Na przykład, mamy wystarczający dowód, że cechy w populacjach stając się bardziej lub mniej powszechne w miarę upływu czasu (ewolucja), więc ewolucja jest faktem, naczelne teorie o ewolucji, sposób w jaki myślimy o tych wszystkich tworzących całość faktach, może się zmienić na skutek nowych obserwacji ewolucyjnych” – powiedziała Tanner magazynowi Live Science.

Podstawy teorii 

Uniwersytet w Kalifornii, Berkley, definiuje teorię jako „rozległe, naturalne wyjaśnienie dla szerokiego zasięgu zjawiska. Teorie są zwięzłe, spójne, systematyczne, przewidujące i szeroko dające się zastosować, często integrując i uogólniając wiele hipotez”.

Każda teoria naukowa musi być oparta na ostrożnej i racjonalnej weryfikacji faktów. Fakty i teorie to dwie różne rzeczy. W metodzie naukowej, jest wyraźne rozróżnienie pomiędzy faktami, które mogą być obserwowane i/lub mierzone, i teoriami, które są naukowymi wyjaśnieniami i interpretacjami tychże faktów.

Ważną część teorii naukowej obejmuje stwierdzenie, które ma obserwowalne konsekwencje. Dobra teoria, jak grawitacyjna teoria Newtona, ma jedność, co oznacza, że składa się z ograniczonej liczby strategii rozwiązujących problem, które mogą być zastosowane do szerokiej gamy warunków naukowych. Inną cechą dobrej teorii jest to, że została sformułowana z pewnej liczby hipotez, które mogą być testowane niezależnie od siebie.

Ewolucja teorii naukowej

 

Teoria naukowa nie jest końcowym rezultatem metody naukowej; teorie mogą być udowodnione albo odrzucone, tak samo jak hipotezy. Teorie mogą być ulepszone albo zmodyfikowane gdy zostanie zebrane więcej informacji, tak aby precyzja przewidywania zwiększała się z upływem czasu.

Teorie są podwalinami pod przyszłą wiedzę naukową i zastosowanie zebranych informacji w praktyce. Badacze używają teorii, by tworzyć wynalazki albo poszukiwać nowych lekarstw.

Czym jest teoria naukowa – Niektórzy wierzą, że teorie zostaną prawami, ale teorie i prawa mają oddzielną i różną rolę w metodzie naukowej. Prawo jest opisem zaobserwowanego zjawiska, który jest prawdziwy niezależnie od ilości przeprowadzonych nań testów. Nie tłumaczy dlaczego coś jest prawdą; jedynie stanowi, że to prawda. Teoria, z drugiej strony, wyjaśnia obserwacje zebrane w czasie procesu badawczego. Więc, pomimo że zarówno prawo i teoria są elementami procesu badawczego, są zupełnie różnymi jego aspektami, jak twierdzi National Science Teachers Association.

Czym jest teoria naukowa – Definicje teorii.

Van de Ven (1989, p487) – Dobra teoria wychodzi poza ustalone empirycznie obserwowane wzorce, czyli jest czymś co stara się wyjaśnić powody wystąpienia tych wzorców.

Whetten (1989, p491) – Teoria tylko i wyłącznie wyjaśnia. Mówi co i jak dostarczać ram dla interpretowania wzorców, rozbieżności lub naszych empirycznych obserwacji.

Gioia and Pitre (1990, p517) – Teoria jest spójnym opisem lub wyjaśnieniem obserwowanych lub doświadczanych fenomenów. Ta nietypowa definicja jest konieczna by objąć szeroki zakres teoretycznych reprezentacji odkrytych w różnych paradygmatach.

Becharach (1989, p498) – W bardziej szczegółowych terminach, teoria może być widziana jako system konstruktów i zmiennych w których konstrukty są związane z innymi poprzez propozycje i zmienne które są związane z innymi poprzez hipotezy. Cały system jest ograniczone przez teoretyczne założenia.

Suddaby (2014, p407) – Teoria jest prostym sposobem narzucania konceptualnego porządku na empiryczną złożoność zjawiskowemu światu.

Honderich (1995, p386) Teoria w nauce jest ogólnym stwierdzeniem (lub hipotezą) z której szczególne wnioski mogą być dedukowane. Dokonywane obserwacje mogą być widziane jako potwierdzające lub falsyfikujące hipotezy.

Peter Seddon (keynote speech1 – The Role Of Theory in Structural Equation Modelling Research) – Teoria jest wiedzą która dostarcza ważnych, dobrze uzasadnionych i jasno ograniczonych wyjaśnień tego, jak działa dana część świata.

Wykres pogodowy Metodolog

Ogół społeczeństwa nie ma pojęcia, co oznacza „istotne statystycznie”

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Ogół społeczeństwa nie ma pojęcia, co oznacza „istotne statystycznie”

Tytuł tego wpisu nie powinien szokować kogoś, kto miał zajęcia podstawowe ze statystyki. Statystyka jest pełna terminów, które mają szczególne znaczenie statystyczne oprócz codziennego znaczenia.

Kilka przykładów:

Znaczące, zaufanie, moc, losowe, średnia, krzywa normalna, wiarygodne, chwila, uprzedzenia, interakcja, prawdopodobieństwo, błąd, obciążenia, ciężary, niebezpieczeństwo, ryzyko, bootstrap, informacje, jack-knife, jądro, niezawodne ważności; a to tylko wierzchołek góry lodowej. (Oczywiście im lista robi się dłuższa, tym więcej lekcji statystyki trzeba podjąć).

Nie powinno dziwić, że błędy ludzi w znaczeniu terminologii statystycznej  dotyczą zwykle znaczenia angielskiego, kiedy prawie każde słowo ma jakieś podwójne znaczenie.

Philip Tromovitch (2015) niedawno wypuścił zgrabny artykuł, w którym przetestował nieco ponad 1000 członków ogółu społeczeństwa na ich rozumienie znaczenia „istotność”, termin, który ma bardzo precyzyjną definicję statystyczną: przy założeniu hipotezy zerowej jest prawdziwy (zwykle definiowany jako brak efektu).

Jednak w codziennym języku angielskim, coś, co jest istotnym oznacza, że jest godne i warte naszej uwagi. Zamiast podać oczywistą definicję słownika, zapytałem mamę, co myśli. Powiedziała, że interpretuje wyrażenie, takie jak „nastąpił znaczny spadek sprzedaży od 2013 do 2014”, że spadek sprzedaży był „dość duży, istotny.” (Dzięki mama :)) Ale to tylko jeden osoba. Co myślą respondenci badania Tromovitch?

Tromovitch zbadał w sumie 1103 osób. Poprosił 611 swoich respondentów o odpowiedź na pytanie wielokrotnego wyboru, a reszta odpowiedziała na wariant  pytań otwartych. Oto pytanie wielokrotnego wyboru jego respondentów:

  • Kiedy naukowcy deklarują, że odkrycie w ich pracy jest „istotne”, które z poniższych uważasz, że jest najbliższe temu co mówią:
  • Stwierdzenie: jest duże
  • Stwierdzenie: jest ważne
  • Stwierdzenie: jest inne niż by się tego spodziewano przypadkowo
  • Stwierdzenie: było nieoczekiwane
  • stwierdzenie: jest bardzo precyzyjne
  • stwierdzenie: opiera się na dużej próbce danych

Respondenci, którzy wybrali dwie pierwsze odpowiedzi uznano, że niewłaściwie używają języka angielskiego, wybranie trzeciej odpowiedź zostało uznana za poprawne, a wybranie którejkolwiek z finałowej trójki uznano za błędne odpowiedzi. Oddzielił respondentów posiadających stopień doktora (n = 15) od reszty, ale nie otrzymał żadnej informacji na temat tego, co było w jakiej dziedzinie byli doktorami, więc będę po prostu zapoznawać się z pozostałymi wynikami próbek od tego momentu, ponieważ próbkę dotyczącą doktorów należy traktować z przymrużeniem oka.

Mniej więcej 50% respondentów dało ogólno-angielską interpretację „znaczące” (opcje 1 lub 2), z grubsza 40% wybrało jedną z pozostałych trzech błędnych odpowiedzi (opcje 4, 5 lub 6), a mniej niż 10% w rzeczywistości wybrało prawidłową odpowiedź (opcja 3). Nawet gdyby były one całkowicie zgadywane, czego można oczekiwać, żeby zbliżyć się do 17% prawidłowej (1/6).

Ale chyba format wielokrotnego wyboru nie jest najlepszym sposobem, aby otrzymać wyniki, ponieważ test zapewnia wiele odpowiedzi, które brzmią zupełnie rozsądne. Tromovitch zadał to również jako pytanie otwarte, aby zobaczyć, jakiego rodzaju odpowiedzi ludzie generują sami. Jeden wariant testu wyraźnie mówi, że chce wiedzieć o istotności statystycznej, a drugi po prostu wymienia znaczenie. Dokładne sformułowanie brzmiało:

Naukowcy czasem twierdzą, że odkrycie w ich pracy jest „[statystycznie] znaczące.” Jeśli byś zaktualizował słownik angielskiego nowoczesnym amerykańskim, w jaki sposób zdefiniował byś pojęcie „[statystycznie] znaczące„?

Czy respondenci odpowiedzieli lepiej, kiedy mogli odpowiadać swobodnie? Wcale nie. Żaden test nie miał wysokiego wskaźnika sukcesu; udzielili poprawnych odpowiedzi na około 4% i 1%. To przekłada się na dosłownie 12 poprawnych odpowiedzi na ogólną liczbę 492 respondentów obojga monitów łącznie (w tym reakcje PHD). Tromovitch bierze pod uwagę wszystkie te odpowiedzi w dodatku, dzięki czemu można przeczytać rodzaje odpowiedzi, które zostały podane i uznane za poprawne.

Jeśli spojrzeć na odpowiedzi można zobaczyć, że większość z nich oznacza jakieś oświadczenie o prawdopodobieństwie prawdziwości jednej lub drugiej hipotezy, co jest niedozwolone w wyniku prawidłowego określenia istotności statystycznej! Na przykład, jedna odpowiedź kodowana jako prawidłowa jak powiedział, „Prawdopodobieństwo, że wynik / ustalenia nie są dziełem przypadku i prawdopodobnie prawdą” jest rażąco błędne. Prawdopodobieństwo, że wyniki nie są dziełem przypadku, nie jest tym o czym mówi nam znaczenie statystyczne. Większość odpowiedzi zakodowanych jako „poprawne” przez Tromovitch jest dość niejasnych, więc nie jest to oczywiste, że nawet w tych poprawnych Respondenci mają dobry uchwyt koncepcji. Nic dziwnego, że opinia publiczna patrzy na statystyki, jak gdyby była jakąś magia. Nie rozumieją ich w ogóle.

To co wyniosłem z tego badania to tytuł tego kawałka: ogół społeczeństwa nie ma pojęcia co oznacza istotność statystyczną. To nie jest zaskakujące, jeśli wziąć pod uwagę, że badacze sami często nie wiedzą, co to znaczy! Nawet profesorowie uczący metod badawczych i statystyk robią to źle. Wyniki Haller & Krauss (2002), budynek off Oakes (1986) sugerują, że to jest normalne dla studentów, pracowników naukowych, a nawet instruktorów metodycznych, że wprowadza się błędne interpretacje p-wartości i testów istotności. To bardzo źle.  Normalne, że studenci pierwszego roku lub laicy się mylą, ale wykształceni naukowcy i instruktorzy metodologii? Jeśli nie kupujesz wyników badań, otwórz czasopismo psychologiczne, a znajdziesz mnóstwo przykładów błędnej interpretacji i nieporozumień.

Ostatnio Hoekstra, Morey, Rouder, & Wagenmakers (2014) wykazali, że przedziały ufności są podobnie błędnie interpretowane przez badaczy, pomimo ostatnich głosów (Cumming, 2014), aby całkowicie zrezygnować z testów istotności na rzecz przedziałów ufności. Być może moglibyśmy wrzucić dużo i zacząć od nowa z czymś, co rzeczywiście ma sens? Może moglibyśmy spróbować uczyć czegoś, co ludzie mogą rzeczywiście zrozumieć?

Słyszałem o czymś co nazywa się statystykami Bayesa , moglibyśmy ich spróbować.