Korelacyjny model badawczy

Niekwestionowaną zaletą eksperymentalnego podejścia do sprawdzania hipotez badawczych jest możliwość dokonywania jednoznacznych interpretacji przyczynowo-skutkowych obserwowanych zależności między zmiennymi  zależną i niezależną.

Problem jednak w tym, że psychologowie nie zawsze konstruują (definiują) zmienne, które pozwalają na manipulowanie nimi. Można manipulować zmiennymi sytuacyjnymi, ale nie sposób identycznie postępować ze zmiennymi osobowościowymi, zmiennymi fizjologicznymi  czy – zbiorczo określanymi różnicami indywidualnymi..

W takich wypadkach psychologowie sięgają po drugi, alternatywny wobec eksperymentalnego, model badawczy – korelacyjny. Warto dodać, że i w jednym, i w drugim podejściu psychologowie równolegle pracowali nad doskonaleniem warsztatu badawczego. Ponadto kiedy treścią sprawdzanych hipotez są związki zmiennych innych niż sytuacyjne, psycholog również ma do dyspozycji odpowiednie, nawet bardzo wyrafinowane narzędzia statystyczne.

Słabością podejścia korelacyjnego jest niemożność dokonania – bezpośrednio z zebranych danych empirycznych – interpretacji przyczynowo-skutkowej zarejestrowanej korelacji między zmiennymi. Niestety, nie zawsze badacze, a zwłaszcza ci początkujący, zdają sobie z tego sprawę. Problem jest bardzo poważny i poświęcono mu bardzo obszerną literaturę przedmiotu. Rzecz jasna, w podręczniku psychologii nie można bardzo szczegółowo go zgłębić, ale można na tyle przybliżyć, aby krytyczny człowiek nie postępował nazbyt pochopnie, gdy stwierdzając (na podstawie istotnej wartości współczynnika korelacji) powiązanie dwóch zmiennych, jedną z nich (bo takie są jego oczekiwania!) uzna za przyczynę, a drugą za jej skutek.

Zacznijmy od przyjrzenia się dwom przykładom, a Czytelnik zechce odpowiedzieć na pytanie, czy opisany w nich związek korelacyjny ma odniesienia do rzeczywistości.

Pierwszy przykład (za: Francuz i Mackiewicz, 2005, s. 506-511). Zawsze na wiosnę—a zwłaszcza w takim kraju, jak Polska, który jest rajem dla bocianów – niektórzy zastanawiają się nad takim oto problemem: czy zachodzi związek między „liczbą dzieci rodzących się w danym kraju europejskim” a „liczbą bocianów przylatujących wiosną do danego kraju”? Ten problem próbował „naukowo” rozwiązać Robert Mathews.  Wziął on pod uwagę następujące dane pochodzące z 17 krajów: (a) powierzchnię – P, (b) liczbę par bocianich – LB, (c) ludność – L, (d) liczbę urodzeń dzieci w ciągu roku -LD. Dane pochodziły z 1990 roku. Wszystkie możliwe korelacje między tymi czterema zmiennymi przyjmowały następujące wartości: LB-L — 0,354; LB-LD = 0,620; LB-P = 0,579; LD-L = 0,851; LD-P = 0,923; P-L = 0,812. Jeżeli podniesiemy do kwadratu wartość r = 0,620 i pomnożymy ją przez 100%, to dowiemy się, że wspólna wariancja obu zmiennych LB i LD wynosi około 38%. To nie tak mało. Czy zatem jest to namacalny dowód, że takie powiązanie rzeczywiście zachodzi? A może jest inne, racjonalne rozwiązanie tej zagadki?

Bardziej złożona analiza korelacyjna, z odwołaniem się do współczynników korelacji cząstkowej (partial correlatiotn), o tych współczynnikach, zob. np. w: Brzeziński, 2006), biorąca pod uwagę nie tylko te dwie frapujące zmienne: LB i LD, ale także trzecią (nazywa się ją zmienną kontrolną – Z): P, pozwoli znaleźć właściwe rozwiązanie. Wartość współczynnika korelacji cząstkowej wynosi: 0,28. Jest dużo mniejsza od wartości pierwotnie policzonej, równej 0,62. Jeżeli sprawdzimy jej istotność statystyczną za pomocą testu t Studenta, to okaże się, że ta korelacja cząstkowa (zmienna kontrolna P!) jest nieistotna statystycznie (p=0,276 — co znacząco przewyższa przyjmowaną na ogół wartość krytyczną: 0,05). Wniosek: związek liczby bocianów i liczby rodzących się dzieci jest związkiem pozornym, a nie związkiem rzeczywistym. To, że zarówno liczba dzieci (LD), jak i liczba bocianów (LB) są stosunkowo silnie powiązane z powierzchnią kraju (P), narzuciło nam fałszywy obraz powiązania liczby dzieci z liczbą bocianów. Tak jednak nie jest. A może tak jest, a przeprowadzona w pracy Francuza i Mackiewicza analiza statystyczna wcale nie jest przekonująca? No cóż, Czytelnik musi sam to rozstrzygnąć. My chcielibyśmy tylko przypomnieć zasadę racjonalności.

Możemy teraz pokusić się o podanie kryteriów związku rzeczywistego. Ich znajomość oraz stosowanie w praktyce badawczej uchroni nas przed zbyt pochopnym wyciąganiem wniosków o przyczynowej naturze zaobserwowanych (policzonych) przez nas korelacji.

Metodolodzy (głównie z kręgu nauk społecznych: Babbie, 2003; Frankfort-Nachmias i Nachmias, 2001; Sułek, 1979) wskazują, że muszą zachodzić trzy warunki, aby daną zależność można było uznać za rzeczywistą, a nie pozorną (spurious):

(1) Na osi czasu — zmienna A, kandydująca do miana przyczyny, poprzedza zmienną B, kandydującą do miana skutku. Na przykład inteligencja jako potencjalna przyczyna osiągnięć szkolnych uczniów rzeczywiście poprzedza owe osiągnięcia. Czy można sobie wyobrazić, że jest odwrotnie?

(2) Zachodzi empirycznie stwierdzona korelacja (na przykład obliczona za pomocą  współczynników korelacji czy regresji) między zmienną A, kandydującą do miana przyczyny, i zmienną B, kandydującą do miana skutku.

(3) Należy wykluczyć istnienie trzeciej zmiennej (kontrolnej – Z), która wchodząc w związek z dwiema pozostałymi zmiennymi, A i B, wywołuje iluzję związku tych zmiennych. Inaczej mówiąc, trzeba empirycznie stwierdzić, iż nie jest tak, że zmienna A (uznawaną przez badacza za przyczynę) i zmienna B (uznawana przezeń za skutek) są tak naprawdę powiązane ze zmienną Z, a nie ze sobą. Obie zmienne A i B, mogą być, po prostu, skutkami tej samej przyczyny Z.

Kiedy zaś w grę wchodzi większa liczba zmiennych, to wówczas -zwłaszcza dziś, w epoce komputerów – badacze sięgają po bardzo złożone, zaawansowane statystycznie narzędzia, takie jak analiza ścieżek (path analysis) – przystępne wprowadzenie do niej w: Gaul i Machowski, 2006; zob. też ramka 4.10).

Model korelacyjny występuje w trzech podstawowych odmianach, wyłonionych według kryterium liczby zmiennych, które badacz uważa za powiązane ze sobą:

Pierwsza odmiana. Jedna zmienna X jest powiązana z jedną zmienną Y (jest to odpowiednik klasycznego modelu eksperymentalnego, jednoczynnikowego:X-> Y-w modelu statystycznym testu t). Jeżeli stwierdzimy zachodzenie korelacji między nimi (a badacz może wybierać odpowiedni współczynnik z bardzo bogatego ich zestawu, to można przystąpić do nadania tej korelacji interpretacji przyczynowo-skutkowej (X -> Y) poprzez odwołanie się do wcześniej przytoczonych trzech punktów. Najmocniejsza wersja tego modelu — gdy obie zmienne są ilościowe — odwołuje się do współczynnika korelacji liniowej r Pearsona. Modelem geometrycznym tego związku jest linia najmniejszych kwadratów.

Druga odmiana. Wiele zmiennych, powiedzmy Xp X2, Xm, jest powiązanych z jedną zmienną, powiedzmy y (jest to odpowiednik eksperymentu wieloczynnikowego: ABC -> Y w modelu statystycznym testu F ANOVA). Ten model znany jest pod nazwą modelu wielokrotnej regresji liniowej (multiple linear regression), gdyż jego schematem geometrycznym jest płaszczyzna najmniejszych kwadratów (w wypadku 2 + 1 zmiennych). Współczynnikiem korelacji znajdującym tu zastosowanie jest współczynnik korelacji wielokrotnej (ponieważ wiele — więcej niż jedna — zmiennych niezależnych jest uwzględnionych w tym modelu) R (multiple linear correlation). Informuje on o stopniu związku zmiennej Y i liniowej kombinacji zmiennych niezależnych i przyjmuje wartości z zakresu: 0-1. Interpretacja przyczynowo-skutkowa jest bardzo skomplikowana i wymaga odwołania się na przykład do analizy ścieżek lub statystycznej analizy równań strukturalnych.

Wyjaśnienia wymaga też wyrażenie „korelacja wielu zmiennych”. Jednak nie jest tak, że gdy badacz interesuje się powiązaniem występującym (tak zakłada jego hipoteza robocza) między zmienną Y: „osiągnięcia szkolne” ucznia a zmiennymi „iloraz inteligencji”, X2: „status społeczno-ekonomiczny rodziny”, to współczynnik R informuje go o sile korelacji trzech zmiennych. W istocie ma on do czynienia z dwiema zmiennymi: (a) zmienną Y, tu nazywaną też zmienną kryterium (criterion variable), oraz (b) nową, „superzmienną”, powstałą jako efekt liniowej kombinacji zmiennych niezależnych, tu nazywanych także predyktorami (predictors, predictor variables). Ta nowa zmienna syntetyczna albo złożona (synthetic wriable, composite variable) powstała jako rezultat powiązania współtworzących ją zmiennych podstawowych. To powiązanie może być przeprowadzone w modelu wielokrotnej korelacji liniowej lub w MANOVA, czy też w innym wielowymiarowym modelu statystycznym. Po tym wyjaśnieniu możemy zapisać dolne indeksy do symbolu korelacji wielokrotnej. Ze zmiennych X1 iX2 utworzona została nowa zmienna: liniowa kombinacja X1 i X2. Zatem w przypadku przytoczonych trzech zmiennych psycholog docieka, czy zachodzi liniowy związek między zmienną „osiągnięcia szkolne” uczniów a kombinacją zmiennych „iloraz inteligencji” uczniów i „status społeczno-ekonomiczny” ich rodzin. Geometrycznym modelem tego związku jest płaszczyzna najmniejszych kwadratów, ulokowana w przestrzeni o trzech wymiarach, którymi są owe trzy zmienne. Jakość jej dopasowania do „chmury” wyników określana jest za pomocą kwadratu współczynnika R, czyli: R2, który nosi nazwę współczynnika determinacji wielokrotnej (coefficient of multiple determination). Mówi on o wielkości wspólnej wariancji analizowanych zmiennych. Mnożąc jego wartość przez 100%, nadamy mu interpretacje procentową. Na przykład, gdy R = 0,80, to R2 = (0,80)2.=~ 0,64. Po pomnożeniu przez 100% mamy: (0,64) X 100% = 64%. Jeżeli upewniliśmy się, że to właśnie zmienne X1 i X2 są rzeczywistymi (nie pozornymi) przyczynami zmiennej Y, to zamiast mówić o „wspólnej wariancji” tych zmiennych, możemy powiedzieć, że to kombinacja zmiennychX1 i X2 wyjaśnia 64% wariancji zmiennej Y.