Jak skonstruować dobry test psychometryczny tips&tricks Metodolog.pl

Można powiedzieć, że test psychologiczny jest narzędziem, które:

(1) pozwala na uzyskanie takiej próbki zachowań, o których można przyjąć (np. na podstawcie założeń teoretycznych), że są one wskaźnikami interesującej nas cechy psychologicznej. Zachowania te nie muszą ściśle przypominać tych, które chcemy oszacować na podstawie testu. Wystarczy wykazać, że istnieje między nimi określony związek;

(2) dostarcza reguł obliczania wartości mierzonej cechy;

(3) spełnia określone kryteria formalne, takie jak: obiektywność (czyli niezależność wyników testowania), standaryzacja (czyli jednolitość reguł badania testem), rzetelność (czyli dokładność pomiaru), trafność (czyli ustalenie, że test mierzy właśnie to, co z założenia powinien mierzyć) i normalizacja (czyli określenie reguł interpretacji wyniku testowego)

(4) jasno określa zakres i rodzaj dopuszczalnych zachowań ze strony diagnosty, zakładając kooperacyjną postawę osoby badanej.

Charakterystyka statystyczna pozycji, które powinny być włączone do testu

(1) Średnia pozycji nie powinna osiągać wartości ekstremalnej w danej skali punktacji. Pozycja taka oznacza bowiem, że wszystkie osoby badane osiągnęły ten sam wynik. Nie wnosi więc ona żadnego wkładu w obserwowane różnice międzyosobnicze. Optymalna pozycja powinna zatem mieć średnią, „ulokowaną” idealnie w środku danej skali pomiarowej, na przykład przy kodowaniu „zero-jedynkowym” powinna być równa 0,50. W testach zdolności, z uwagi na silne skorelowanie pozycji, które prowadziłoby do uzyskiwania rozkładów platykurtycznych (o zbyt niskiej kurtozie; zob. Blalock, 1977), wprowadza się pozycje o zróżnicowanej średniej, to znaczy odpowiadające wzrastającemu poziomowi trudności pozycji.

(2) Wariancja pozycji nie powinna być równa zero. Pozycja taka bowiem nie wnosi żadnego wkładu w obserwowane różnice międzyosobnicze. Optymalna pozycja powinna zatem mieć dużą wariancję wyników. Przykładowo: maksymalna wariancja wyników pozycji jest rejestrowana przy „zero-jedynkowym” systemie punktacji dla średniej 0,50 i wynosi wtedy 0,25, co jest maksymalnie możliwym do uzyskania wynikiem.

(3) Pozycja powinna wykazywać dodatnie skorelowanie z innymi pozycjami. Przy korelacji równej zero pozycja ta zwiększa wariancję wyników testu, ale jedynie o wartość własnej wariancji. Jeśli jednak nie koreluje z innymi pozycjami, to znaczy, że nie mierzy tego, co one, oraz nie generuje kowariancji, a dokładniej – generuje zerowe kowariancje. Przy korelacji ujemnej pozycja z kolei także zwiększa wariancję wyników testu jako całości o swoją wariancję, ale generuje ujemne kowariancje z innymi pozycjami. Całkowita wariancja testu po dodaniu takiej pozycji wręcz maleje, co w oczywisty sposób jest sprzeczne z założeniami testu, który powinien ujawniać znaczne różnice międzyosobnicze. Interkorelacje pozycji z innymi pozycjami powinny być zatem dodatnie, tylko bowiem w tym wypadku maksymalizowana jest wariancja wyników testu jako całości. Optymalne pozycje nie powinny jednak wykazywać zbyt silnego skorelowania z innymi pozycjami (co jest zresztą przypadkiem raczej teoretycznym), ponieważ zbyt duża zgodność odpowiedzi może prowadzić do uzyskania rozkładów platykurtycznych wyniku testu.

Relacja między rzetelnością a trafnością pomiaru cechy testem

Rzetelność i trafność są dwoma parametrami psychometrycznymi pomiaru danej cechy testem. Wykazują także zbliżone uwarunkowania – zależą od charakterystyki testu (długość i interkorelacje pozycji testowych ) oraz zmienności w badanej próbie. Ograniczenie zmienności powoduje obniżanie się zarówno rzetelności, jak i trafności pomiaru. Trafność pomiaru jest jednak bardziej „wrażliwa” na zmiany procedury badania testem, na przykład zmiana warunków badania może skutkować nie tyle obniżeniem rzetelności, ile trafności pomiaru testem w konsekwencji badania innej zmiennej psychologicznej. jak przykładowo tendencji do dysymulowania. Pomiar jest wówczas rzetelny, ale nietrafny. Rozumowanie to prowadzi nas do wskazania istotnych relacji między rzetelnością a trafnością pomiaru. Utwierdzenia, że ogólnie rzetelność jest koniecznym, ale niewystaczającym warunkiem trafności pomiaru (rzetelność stanowi bowiem kres trafności pomiaru) Test może zatem oferować rzetelny i mało trafny pomiar, ale niemożliwa jest sytuacja odwrotna – testo o mało rzetelnym pomiarze będzie także testem mało trafnym, a test oferujący pomiar o dużej trafności automatycznie musi być testem o dużej rzetelności.

Czynniki wpływające na wielkość współczynników rzetelności pomiaru testem

Na rzetelność pomiaru, rozumianą jako zgodność wewnętrzna, wpływają dwa główne czynniku zakres zmienności w badanej próbie oraz charakterystyki testu, czyli jego długość i wielkość skorelowania pozycji. Współczynnik rzewności oznacza rzetelność pomiaru różnic interindywidualnych w zakresie cechy. Z tego względu ograniczenie zmienności wyników w badanej próbie skutkuje niższą rzetelnością pomiaru cechy, na przykład w grupach jednorodnych demograficznie współczynniki zgodności wewnętrznej są często niższe niż w całej próbie zróżnicowanej demograficznie. Wariancja prawdziwa jest definiowana poprzez kowariancję wyników pozycji, toteż większą rzetelnością pomiaru charakteryzują się testy zawierające większą liczbę pozycji (ze względu na większą liczbę wyrażeń kowariancyjnych pozycji oraz testy, których pozycje są wyżej skorelowane (z uwagi na wielkość wyrażeń kowariancyjnych. Zwiększenie rzetelności pomiaru – jak wskazuje wzór Spearmana-Browna – może zatem odbyć się poprzez wydłużenie testu, poprzez wprowadzenie do testu pozycji wysoko wzajemnie skorelowanych.

Zalecenia dotyczące opcji odpowiedzi w kwestionariuszach

W wypadku metod kwestionariuszowych sugeruje się zastosowanie raczej rozszerzonych formatów odpowiedzi a więc zawierających kilka (więcej niż dwie) opcji odpowiedzi. Formaty nie powinny jednak być nadmiernie szeroki oraz zawierać opcji pośredniej, wskazującej na niepewność osoby badanej (na przykład „Nie wiem” czy znaku zapytania [„?”]). Opcja centralna może być jednak uwzględniona, gdy oznacza przeciętne nasilenie zachowania. Optymalna liczba powinna wynosić od 4 do 7 opcji odpowiedzi, przy czym najlepiej, jeśli byłyby one wyrażone w formie akceptacji-dezakceptacji treści pozycji i nie zawierały opisów częstości czy intensywności zachowania (chyba że wymaga tego badany konstrukt teoretyczny). Inna kwestia dotyczy zakotwiczenia skali odpowiedzi, która powinna obejmować kategorie niemalże ekstremalne, rozszerzające poznawczo zakres analizowanych przez osobę badaną zachowań. kierunek zakotwiczenia zaś powinien przebiegać od opcji negatywnych do afirmatywnych, na przykład od „Zdecydowany nie zgadzam się” do „Zdecydowanie zgadzam się” . Ponadto powinny one być językowo proste i dostosowane do treści pozycji oraz preferencji osób badanych, co można ustalić w badaniach pilotażowych (Angleitner i in. 1986). Użytecznym rozwiązaniem jest także stosowanie określeń werbalnych (w formie gradacji stopnia akceptacji-dezakceptacji treści pozycji) wraz z przyporządkowanymi im wartościami liczbowymi. Kanonem jest ponadto wprowadzenie opcji o jednolitym formacie dla wszystkich pozycji, w przeciwnym razie zróżnicowanie szerokości formatu skutkuje zróżnicowaniem wag pozycji.

Sprzeczność między trafnością teoretyczną a kryterialną pomiaru cechy testem

Koncepcja cechy wymaga wprowadzenia do testu odmiennych treściowo, ale skorelowanych pozycji. Wybór pozycji wysoko wzajemnie skorelowanych powoduje jednak, że charakteryzują się one dużym podobieństwem treściowym. Rodzi to sprzeczność między teoretyczną „szerokością” definiowania cechy a możliwością jej raczej „wąskiego” zoperacjonalizowania w praktyce. Przyjmując też, że skorelowanie pozycji maleje wraz ze zmniejszaniem się podobieństwa treściowego, warunkuje to także sprzeczność między precyzją pomiaru (rzetelnością) a zakresem wskaźników cechy, obejmowanym przez test. W wypadku bowiem, gdy test zawiera pozycje podobne treściowo, to pomiar cechy jest bardzo rzetelny, ale cecha jest „wąsko zoperacjonalizowana”. Natomiast gdy cecha jest „zoperacjonalizowana szeroko”, to test obejmuje pozycje odmienne treściowo i słabo skorelowane, wskutek czego pomiar cechy jest mało rzetelny (zob. Murphy i Davidshofer, 2005). Paradoks ten powoduje też istnienie sprzeczności między trafnością teoretyczną a kryterialną zarówno pozycji testowych, jak i testu jako całości. W pierwszym wypadku bowiem cecha jest ujmowana precyzyjnie, a test charakteryzuje duża trafność teoretyczna pomiaru, ale słaba trafność kryterialna – badana cecha wyjaśnia w niewielkim stopniu złożone zachowania w naturalnych sytuacjach. W drugim zaś – badana cecha wyjaśnia wiele zmienności kryterium, ale wskutek wewnętrznej niejednorodności pozycji pomiar testowy jest mało trafny teoretycznie, a badana cecha treściowo niejednoznaczna. Rozwój teorii różnic indywidualnych, diagnostyki psychologicznej oraz psychometrii spowodował jednak, że psychologowie z reguły opowiadają się za pierwszą z tych możliwości, preferując konstruowanie testów o dużej trafności teoretycznej.

Blog naukowy

Jak skonstruować dobry test psychometryczny tips&tricks