Metodolog.pl – Analiza Statystyczna w nauce

Klasyczne i nowoczesne teorie pomiaru, raportów o pacjentach i kliniczne wyniki

Klasyczna teoria testu (KTT) ma szerokie zastosowanie w rozwoju, opisie i niekiedy wyborze miary efektu w próbach klinicznych. To znaczy, jakość wyników, czy podawana przez klinicystów czy reprezentujące pacjentów raporty, jest często opisywana wyrażeniami „trafności” i „rzetelności”, dwoma cechami pochodzącymi z, zależnie od wewnętrznych założeń, klasycznej teorii testu.

Są bardzo rożne typy „trafności”, i podczas gdy są różne metody na obliczanie rzetelności, jest ona zdefiniowana przez klasyczną teorię testu, jako zgodność zaobserwowanego wyniku z wynikiem prawdziwym. Fundamentalną cechą klasycznej teorii testu jest sformułowanie, że każdy zaobserwowany wynik (X) jest funkcją prawdziwego wyniku jednostki (T) i losowego błędu pomiaru (e):

X=T+e

KTT skupia się na całkowitym wyniku testu

– teoretyczne konstrukty klasycznego testu operują na streszczeniu (sumie odpowiedzi, średniej odpowiedzi albo innym ujęciu ilościowym na ‘całkowitym poziomie’) pozycji, jednostkowe pozycje nie są brane pod uwagę. Wyjątkiem mogłaby być korelacja całkowitej-pozycji (albo przecięte na pół jej wersje). Nacisk na wynik całkowity teorii konstruktów oznacza, że kiedy miara efektu jest ustalona, opisana i wybrana na podstawie swojej rzetelności (jakkolwiek oszacowanej), sformułowanie osądu jest niemożliwe, i w zasadzie, powinno się rozważyć wymianę pozycji z osądu. Każdy wynik z 10 jest traktowany jako taki sam. Kolejną cechą opisów opartych na KTT jest to, że najlepiej się sprawdzają kiedy pojedynczy czynnik leży u źródła całkowitego wyniku. To może być rozwiązywane, w wieloczynnikowych oszacowaniach, za pomocą rzetelności „testlet” (np. dzieląc całe oszacowanie na jednowymiarowe kawałki, z których każdy ma pewne oszacowanie rzetelności). Kiedykolwiek KTT jest używana, założony jest błąd stały (dla wszystkich badanych), czyli błąd pomiaru wynikający z instrumentu badawczego musi być niezależny od prawdziwego wyniku. To oznacza, że wynik, który jest mniej rzetelny dla jednostek z lepszym lub gorszym ogólnym wykonaniem zadania w teście nie spełnia założeń wymaganych dla interpretacji formuł pochodzących z KTT.

KTT oferuje kilka sposobów by oszacować rzetelność i założenia dla KTT mogą często być spełnione – ale wszystkie oszacowania tworzą założenia, które nie mogą być sprawdzone wewnątrz struktury KTT. Jeżeli założenia KTT nie są spełnione, wtedy rzetelność wciąż może być oszacowana, ale jej wynik nie będzie znaczący. Formuły same w sobie zadziałają; tylko że interpretacja tych wartości wyprowadzi na manowce.

IRT jest probabilistycznym (statystycznym, logistycznym) modelem tego jak badani odpowiedzieli na wszystkie dane im pozycje.

Item response theory (IRT) może być skontrastowana z klasyczną teorią testu na kilka sposobów; często IRT określa się jako „nowoczesną” teorię testu, co kontrastuje z „klasyczną” teorią testu. IRT NIE jest psychometrią. Rozmach psychometrii (i ograniczenia KTT) prowadzą do rozwoju IRT. KTT nie jest probabilistycznym modelem odpowiedzi. Zarówno klasyczne jak i nowoczesne podejścia teoretyczne do testowania rozwoju są pomocne w zrozumieniu i prawdopodobnie „mierzeniu”, psychologicznych zjawisk i konstruktów (i.e. oba są podciągnięte pod „psychometrię”). IRT ma potencjał do rozwoju i opisywania wyników prób klinicznych ponieważ zapewnia statystyczny model tego jak jak/dlaczego jednostki odpowiadają natrafiając na daną pozycję – i niezależnie, również o pozycjach samych w sobie. Opisy pochodzące z KTT dotyczą tylko całkowitych testów i są właściwe tylko dla próbki z której pochodzą, podczas gdy opisy testów pochodzące z IRT, ich składowe pozycje i jednostki są ogólne dla całej populacji pozycji albo jednostek. To jest kolejna cecha nowoczesnych metod, która jest bardzo atrakcyjna dla klinicystów. Co więcej, w IRT, rzetelność miary efektu ma inne znaczenie niż dla KTT: wtedy i tylko wtedy jeżeli model IRT pasuje, pozycje zawsze mierzą tę samą rzecz w taki sam sposób – dokładnie jak centymetry na linijce. Ta własność niezmienności jest kluczową cechą IRT.

W IRT pozycje same w sobie są scharakteryzowane; charakterystyki testu albo wyniku pochodzą po prostu z jego pozycji. W przeciwieństwie do KTT, jeżeli model pasuje, wtedy parametry pozycji (i charakterystyka testu z nich pochodząca) są niezmienne przy każdej populacji, i sprawdza się to również odwrotnie. Również inaczej niż w KTT, jeśli model IRT pasuje, wtedy charakterystyki pozycji mogą zależeć od twoich umiejętności (i.e. łatwiejsze/trudniejsze pozycje mogą mieć mniejszą/większą różnorodność).

Wewnątrz IRT, inaczej niż KTT, pozycje mogą być ukierunkowane, albo ulepszone z poszanowaniem ilości informacji jakich dostarczają o poziomie konstruktu naszego zainteresowania. To ma znaczące konsekwencje dla funkcjonalności i generalizacji rezultatów prób klinicznych, gdy używa się rezultatów pochodzących z IRT; i skomputeryzowanego testowania adaptacyjnego (CAT) uzyskującego odpowiedzi tylko z tych pozycji skupiających się coraz bardziej na danym poziomie konstruktu (lub umiejętności) jednostki. CAT ma potencjał by precyzyjnie oszacować to co rezultat stara się oszacować podczas minimalizacji liczby odpowiedzi wymaganych przez każdego uczestnika badania. Z IRT, testy mogą być dostosowane, albo ‘globalne’ testy mogą być rozwijane z precyzją w zakresie docelowym bazowego konstruktu, który podkreśla włączone kryteria albo dla którego etykietowanie FDA jest pożądane.

IRT jest potężne i oferuje możliwości w stylu klinicznych wyników, których KTT nie zapewnia.

Jednak modelowanie IRT jest złożone. System informacji o miarach wyników raportowanych pacjentów (The Patient Reported Outcome Measurement Information System – PROMIS) jest przykładem klinicznej próby wyników, które zostały opisane z użyciem IRT. Wszystkie pozycje (z obszaru zawartości) są połączone razem do oceny. Eksperci treści rozpoznają „najlepszą” reprezentację ich obszaru – wspierając test twarzy i trafność zawartości. Modele IRT są dopasowywane przez eksperckie zespoły modelujące IRT, które wykorzystują istniejące dane, tak aby wystarczająco dużej wielkości próbki zostały użyte przy oszacowywaniu parametrów pozycji. Pozycje, które nie pasują do zawartości, albo statystycznie, modelu są wyrzucane. Celem PROMIS jest „stworzenie trafnego, rzetelnego i uogólniającego działania dla klinicznych wyników zainteresowanych pacjentów.” Nieocenione w PROMIS – i wielu innych – protokoły są kierunkiem przyczynowości, jak pokazano na rysunku 1. Używając konstruktu „jakość życia” (QOL), rys. 1 pokazuje, że przyczynowość płynie z pozycji (qol1, qol2, qol3) do konstruktu (QOL). To jest, w tym przykładzie QOL jest konstruktem, który powstaje z odpowiedzi, których jednostki udzieliły w spisie pozycji QOL (3 są pokazane na rys. 1 dla ułatwienia). Poziom QOL nie powoduje różnic w tych odpowiedziach, różnorodność odpowiedzi powoduje różnice w konstrukcie QOL. Ten typ konstruktu jest nazywany „emergentnym” i jest powszechny. Problemem dla PROMIS (i podobnych aplikacji dla modeli IRT) jest fakt, że modele IRT wymagają przyczynowego czynnika będącego podstawą zaobserwowanych odpowiedzi, ponieważ warunkowanie przyczyny musi owocować warunkową niezależnością pozycji. Ta warunkowa niezależność (i.e. kiedy bazowa przyczyna jest utrzymywana na stałym poziomie, wcześniej skorelowane zmienne stają się statystycznie niezależne) jest krytycznym założeniem IRT. QOL i PROMIS są tylko przykładami tego kiedy przyczynowa kierunkowość jest utrudnieniem w możliwości interpretacji.

Jeśli ktoś odkryje, że model IRT pasuje do pozycji (qol1-3 na rys. 1), wtedy warunkowa niezależność w tych zaobserwowanych pozycjach musi pochodzić z przyczynowego czynnika; jest to zaprezentowane na rys. 1 przez ukryty czynnik F; warunkowanie czynnika, który wyłania się z zaobserwowanych pozycji, indukuje zależność, nie niezależność. Dlatego jeśli warunkowa niezależność została uzyskana, co jest niezbędne by model IRT pasował, i jeśli konstrukt (QOL na rys. 1) nie jest przyczynowy, wtedy musi być inny – przyczynowy – czynnik w systemie (F na rys. 1). Implikacja jest taka, że czynnik zainteresowania (np. QOL) nie jest konstruktem mierzonym na modelu IRT tak jak to jest pokazane na rys. 1 <właściwie, jest nim F>. Ten problem istnieje – potwierdzony bądź nie – dla każdego emergentnego konstruktu jakiego jak QOL pokazany na rys. 1. Wiele badań czynnika struktury zakłada model przyczynowy, wszystkie analizy IRT to zakładają. Rys. 1 pokazuje, że jeśli konstrukt nie jest przyczynowy, wtedy tym co mierzy model IRT nie tylko nie jest konstruktem zainteresowań, ale jeszcze wprowadza badacza w błąd, tak że myśli on, że model IRT opisuje konstrukt zainteresowań. Wysiłki takie jakie PROMIS, jeżeli omyłkowo są skierowane na konstrukty takie jak F zamiast QOL, marnują czas i cenne zasoby i dają fałszywy obraz własności, rzetelności i uogólnienia dla swoich wyników.

KTT i IRT różnią się w wielu aspektach.

Kluczowym podobieństwem jest to, że oba są modelami wykonania zadania; jeżeli założenia modelu nie są spełnione, konkluzje i interpretacje nie będą godne poparcia i badacz niekoniecznie będzie w stanie sprawdzić założeń. W przypadku IRT, jednakże, istnieją testy statystyczne pomagające ustalić czy konstrukt jest przyczynowy czy emergentny. Zarówno testowany z teoretycznej jak i statystycznej perspektywy, w modelowaniu IRT starannie powinno się rozważyć czy konstrukt jest przyczynowy czy emergentny.

Blog naukowy

Klasyczne i nowoczesne teorie pomiaru, raportów o pacjentach i klinicznych wyników

Klasyczne i nowoczesne teorie pomiaru, raportów o pacjentach i kliniczne wyniki

KTT skupia się na całkowitym wyniku testu

IRT jest probabilistycznym (statystycznym, logistycznym) modelem tego jak badani odpowiedzieli na wszystkie dane im pozycje.

IRT jest potężne i oferuje możliwości w stylu klinicznych wyników, których KTT nie zapewnia.

KTT i IRT różnią się w wielu aspektach.

mgr Konrad Hryniewicz