Korelacja jako miara związku pomiędzy zmiennymi.

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

 

Korelacja jest statystyczną techniką, która pokazuje czy i jak mocno pary zmiennych są ze sobą związane.

Na przykład, wzrost i waga są związane; wyżsi ludzie są zwykle ciężsi od niższych. Związek nie jest idealny. Ludzie tego samego wzrostu różnią się swoją wagą, a w dodatku na pewno bez trudu możesz przywołać przykład swoich znajomych z których niższy jest cięższy od wyższego. Tym niemniej, średnia waga ludzi mających 1,70 metra wzrostu jest mniejsza niż tych mających 1,80, a z kolei ich średnia waga jest mniejsza niż średnia waga ludzi posiadających 1,90 metra wzrostu. Korelacja może powiedzieć ci jak bardzo zmienność ludzi wzrostu jest powiązana z ich wzrostem.

Pomimo, że ta korelacja jest w miarę oczywista, twoje dane mogą zawierać niespodziewane korelacje. Możesz również podejrzewać, że zachodzą korelacje, ale nie wiedzieć które są najsilniejsze. Inteligentna analiza korelacji może zaprowadzić cię do lepszego zrozumienia swoich danych.

Techniki stwierdzania korelacji

 

Istnieje kilka różnych technik korelacyjnych. Opcjonalny w Systemie Ankiet Moduł Statystyczny zawiera najbardziej powszechne typy, zwany współczynnikiem korelacji Pearsona albo korelacji momentu-produktu. Moduł zawiera także jego wariację nazywaną korelacją cząstkową. Ta ostatnia przydaje się kiedy chcesz przyjrzeć się związkowi pomiędzy dwoma zmiennymi podczas usunięcia efektu jednej albo dwóch innych zmiennych.

Jak wszystkie techniki statystyczne, korelacji można używać tylko dla pewnych rodzajów danych. Korelacja działa tylko na danych policzalnych, gdzie liczby mają znaczenie, zwykle są ilościami czegoś. Nie może być stosowana dla danych typowo kategorialnych jak płeć, kupowane marki albo ulubiony kolor.

Skale ocen

 

Skale ocen są nieco kontrowersyjne. Liczby w skalach ocen mają swoje znaczenia, ale te znaczenia nie są zbyt precyzyjne. Nie są takie jak ilości. W przypadku ilości (np. dolarów), różnica pomiędzy 1 i 2 będzie dokładnie taka sama jak pomiędzy 2 i 3. W skalach ocen już niekoniecznie. Możesz mieć pewność, że twój respondent myśli o ocenie 2 jako mocniejszej od 1 i słabszej od 3, ale nie możesz założyć na pewno, że jest ona dokładnie pomiędzy tymi dwoma ostatnimi. To widać w pełnej jaskrawości kiedy masz etykiety podpunktów w swojej skali (nie możesz założyć, że „dobrze” jest dokładnie w połowie pomiędzy „znakomicie” i „w miarę”).

Większość statystyków mówi, że nie można używać korelacji ze skalami ocen, ponieważ matematyczne techniki zakładają, że różnice pomiędzy liczbami są dokładnie takie same. Nie zmienia to faktu, że wielu badaczy posługujących się ankietami, używa korelacji ze skalami ocen, ponieważ wyniki zwykle odbijają się w świecie realnym. Nasza opinia jest taka, że można użyć korelacji razem ze skalami ocen, zachowując przy tym dozę rozsądku. Pracując z wielkimi ilościami, korelacje zapewniają precyzyjne pomiary. Gdy się pracuje ze skalami ocen, korelacje zapewniają pewne ogólne wskazówki.

Współczynnik korelacji

 

Główny wynik korelacji nazywany jest współczynnikiem korelacji (albo „r”). Mieści się w przedziale od -1.0 do +1.0. Im bardziej r zbliżone jest do +1 albo -1, tym mocniej dwie zmienne są ze sobą związane.

Jeżeli r jest bliskie 0, znaczy to, że nie zachodzi związek pomiędzy zmiennymi. Jeżeli r jest dodatnie, oznacza to, że gdy jedna zmienna się zwiększa, druga zwiększa się wraz z nią. Jeżeli r jest ujemne, znaczy to, że jeśli jedna zmienna się zwiększa, to druga się zmniejsza (często nazywane jest to korelacją ujemną).

Chociaż współczynnik korelacji jest zwykle zapisywany jako r=(wartość pomiędzy -1 i 1), podniesienie go do kwadratu, sprawia, że staje się łatwiejszy do zrozumienia. Współczynnik korelacji podniesiony do kwadratu (albo r2) jest równy procentowi zmienności w jednej zmiennej, która jest związana ze zmiennością w innej. Po podniesieniu r do kwadratu, należy zignorować punkt dziesiętny. R z 0.5 oznacza że 25% zmienności jest powiązane (0.52=0.25). Wartość r wynosząca 0.7 oznacza, że 49% zmienności jest powiązane (0.72=0.49)

Raport korelacji pokazuje jeszcze drugi wynik każdego testu – istotność statystyczną. W tym przypadku, poziom istotności powie ci jakie jest prawdopodobieństwo, że zaobserwowane korelacji mogły zostać wychwycone na podstawie błędów albo przez przypadek. Jeśli pracujesz z małą próbką danych, wybierz format raportu zawierający poziom istotności. Ten format także raportuje wielkość próbki.

Kluczową rzeczą o której należy pamiętać pracując z korelacjami jest by nigdy nie zakładać, że korelacja oznacza iż zmiana w jednej zmiennej powoduje zmianę w innej. Sprzedaż zarówno komputerów jak i butów do biegania ewidentnie wzrosła w ostatnich kilku latach i jest pomiędzy nimi wysoka korelacja, ale nie można przecież zakładać, że zakup komputera powoduje u ludzi chęć zakupu butów (i odwrotnie).

Drugim zastrzeżeniem jest to, że technika korelacji Pearsona najlepiej działa w liniowych związkach; jeżeli jedna zmienna się zwiększa to druga też (albo zmniejsza) w bezpośredniej proporcji. Nie sprawdza się to w związkach krzywoliniowych (w którym związek nie podąża po linii prostej). Przykładem związku krzywoliniowego jest wiek i opieka zdrowotna. Są powiązane, ale związek nie jest zapisywany za pomocą linii prostej. Małe dzieci i ludzie starsi wymagają dużo więcej opieki zdrowotnej niż nastolatki i młodzi dorośli. Regresja wielokrotna (także zawarta w module statystycznym) może być wykorzystana do badania związków krzywoliniowych, ale jest poza zakresem tego artykułu.