Wyciskanie sensu z Alfy Cronbacha – analiza rzetelności.

meto

 

Wyciskanie sensu z Alfy Cronbacha 

Edukatorzy medyczni próbują stworzyć rzetelne i wiążące testy i kwestionariusze by zwiększyć trafność swoich szacunków i ocen. Trafność i rzetelność są dwoma fundamentalnymi elementami w ocenie narzędzi pomiaru. Narzędzia mogą być konwencjonalną wiedzą, umiejętnością lub stosunkiem testów, symulacji klinicznych albo ankiet kwestionariuszowych. Narzędzia mogą mierzyć pojęcia, zdolności psychomotoryczne albo wartości afektywne. Trafność rozumie się jako stopień w jakim narzędzie pomiaru mierzy to co miało zmierzyć. Rzetelność natomiast traktuje się jako zdolność narzędzia do wykonywania spójnych pomiarów. Powinno się zaznaczyć, że rzetelność narzędzia jest silnie powiązana z jego trafnością. Narzędzie nie może być trafne jeśli nie jest rzetelne. Jednakże, rzetelność narzędzia nie zależy od jego trafności. Jest możliwe by obiektywnie zmierzyć rzetelność narzędzia i w tym tekście wytłumaczymy znaczenie Alfy Cronbacha , najszerzej używanej obiektywnej miary rzetelności.

Liczenie alfy stało się powszechną praktyką w medycznej nauce badawczej kiedy w użyciu są złożone miary pojęcia albo konstruktu.

Dzieje się tak dlatego, że łatwiej jest użyć porównania z innymi szacunkami (np. retest rzetelności szacunków) ponieważ wymaga to zastosowania tylko jednego testu. Jednak pomimo powszechnego używania alfy w literaturze, jej znaczenie, właściwy sposób użycia i interpretacje nie są łatwo zrozumiałe. Dlatego uważamy, że ważnym jest aby wytłumaczyć zasadnicze założenia alfy aby promować efektywne jej używanie. Trzeba podkreślić, że celem tego tekstu jest skupienie się na Alfie Cronbacha jako wskaźniku rzetelności. Alternatywne metody mierzenia rzetelności opierające się na metodach psychometrycznych, takie jak teoria czynnika G albo teoria reagowania na pozycje testowe mogą zostać użyte by monitorować i poprawiać jakość badań OSCE, ale o nich nie będzie tutaj mowy.

Co to jest alfa Cronbacha?

 

Alfa została rozwinięta przez Lee Cronbacha w 1951 by zapewnić miarę wewnętrznej spójności dla testu albo skali; jest to wyrażone liczbą między 0 i 1. Wewnętrzna spójność opisuje stopień w jakim wszystkie pozycje w teście mierzą to samo pojęcie albo konstrukt i stąd jest to połączone ze wzajemnym powiązaniem ze sobą pozycji wewnątrz testu. Wewnętrzna spójność powinna być ustalona, by zapewnić trafność, zanim test zostanie użyty do badań albo celi badawczych. Dodatkowo, rzetelność szacuje pokazaną ilość błędów pomiarowych w teście. Mówiąc prosto, ta interpretacja rzetelności jest korelacją testu samego ze sobą. Podniesienie do kwadratu tej korelacji i odjęcie od 1.00 sprawi, że powstanie wskaźnik błędów pomiaru. Na przykład, jeżeli test ma rzetelność na poziome 0.80, występuje 0.36 zmienności błędu (błąd losowości) w wyniku (0.80×0.80=0.64; 1.00-0.64=0.36). Jeżeli oszacowana rzetelność rośnie, fragment wyniku testu przypadający na błąd będzie malał. Oczywiście rzetelność testu ujawnia efekt błędu pomiarowego dla obserwowalnego wyniku raczej dla grupy badanych niż pojedynczego badanego. By obliczyć efekt błędu pomiaru na obserwowalnym wyniku pojedynczego badanego, musi zostać wyliczone standardowy błąd pomiaru (SEM).

Jeżeli pozycje w teście są ze sobą skorelowane, wartość alfy wzrasta. Jednakże, wysoki współczynnik alfa nie zawsze oznacza wysoki stopień spójności wewnętrznej. To dlatego, że alfa jest również kształtowana przez długość testu. Jeżeli długość testu jest niewystarczająca, wartość alfy spada. Zatem, żeby zwiększyć alfę, więcej pozycji sprawdzających tę samą rzecz powinno zostać dodane do testu. Warto też pamiętać, że alfa jest właściwością dla wyniku testu ze specyficznej próbki badanych. Dlatego badacze nie powinni polegać na wydanych przez alfę oszacowaniach tylko mierzyć ją za każdym razem gdy test jest przeprowadzany.

Użycie alfy Cronbacha

 

Niewłaściwe zastosowanie alfy może doprowadzić do sytuacji, w której test albo skala zostaną błędnie odrzucone lub test zostanie skrytykowany za wygenerowanie niewiarygodnych wyników. By uniknąć takiej sytuacji, zrozumienie powiązanych ze sobą pojęć wewnętrznej spójności, jednorodności lub jednowymiarowości może być pomocne przy używaniu alfy. Wewnętrzna spójność dotyczy wzajemnie powiązanych próbek pozycji testu, podczas gdy jednorodność odnosi się do jednowymiarowości. Mówi się, że miara jest jednowymiarowa jeśli jej pozycje mierzą pojedynczą, ukrytą cechę albo konstrukt. Wewnętrzna spójność jest potrzebnym, ale nie jedynym warunkiem zmierzenia jednorodności czy jednowymiarowości w próbce pozycji testu. Zasadniczo, pojęcie rzetelności zakłada, że jednowymiarowość występuje w próbce pozycji testu, a jeśli to założenie nie jest spełnione, to powoduje duże niedoszacowanie rzetelności. Zostało solidnie udowodnione, że wielowymiarowy test nie koniecznie musi mieć mniejszą alfę niż jednowymiarowy test. Zatem bardziej rygorystyczna wartość alfy nie może być po prostu zinterpretowana jako wskaźnik wewnętrznej spójności.

Analiza czynnikowa może być użyta do określenia wymiarów testu. Inna technika, na której można polegać bywała również używana i zachęcamy czytelnika do zapoznania się z tekstem „Applied Dimensionality and Test Structure Assesment with START-M Mathematics Test” i porównania metod do oceniania wymiarowości i zasadniczej struktury testu.

Dlatego alfa nie tylko mierzy jednowymiarowość zestawu pozycji, ale może być użyta do potwierdzenia czy próbki pozycji są faktycznie jednowymiarowe. Z drugiej strony, jeśli test ma więcej niż jedno pojęcie lub konstrukt, może nie mieć sensu liczenie alfy dla testu jako całości jako że większa liczba pytań będzie niechybnie nadmuchiwała wartość alfy. Zasadniczo dlatego alfa powinna być liczona dla każdego pojęcia, a nie dla każdego testu albo skali. Implikacja podsumowującego badania zawierającego niejednorodne, oparte na case’ie pytania jest taka, że alfa powinna być liczona dla każdego z osobna.

Co ważniejsze, alfa jest osadzona w modelu równoważności co zakłada, że każda pozycja testu mierzy taką samą utajoną cechę na tej samej skali. Dlatego jeżeli wielokrotne czynniki/cechy są podstawą pozycji na skali, jak pokazała analiza czynnikowa, to założenie jest łamane i alfa zaniża rzetelność testu. Jeżeli liczba pozycji testu jest za mała to także złamie założenie o równoważności i zaniży rzetelność. Kiedy pozycje testu spełniają założenie o równoważności modelu, alfa lepiej szacuje rzetelność. W praktyce alfa Cronbacha jest dolną granicą szacunku rzetelności ponieważ niejednorodne pozycje testu mogą łamać założenia równoważności modelu. Jeżeli wyliczenie „wystandaryzowanej pozycji alfa” w SPSS jest wyższe niż „alfa Cronbacha”, dalsze badanie równoważności pomiaru może być niezbędne.

Numeryczne wartości alfy

 

Jak wcześniej wspomniano, liczba pozycji testu, wzajemnych powiązań testu i wymiarowości oddziaływania nad wartością alfy. Są różne doniesienia na temat dopuszczalnej wartości alfy, poczynając od 0.70 aż do 0.95. Niska wartość alfy może być powodowana małą liczbą pytań, słabą wzajemnością powiązań pomiędzy pozycjami albo niejednorodnymi konstruktami. Np. jeżeli niska alfa wychodzi na skutek słabej korelacji pomiędzy pozycjami wtedy niektóre powinny być powtórzone lub usunięte. Najłatwiejszym sposobem by je znaleźć jest przeliczenie korelacji dla każdej pozycji testu z całkowitym wynikiem testu; pozycje z niską korelacją (w okolicach zera) są usuwane. Jeśli alfa jest zbyt wysoka, może to sugerować, że niektóre pozycje są zbędne jako że testują to samo pytanie ale nieco inaczej wyglądają. Rekomendowana jest alfa o maksymalnej wartości 0.90.

Streszczenie

 

Wysokiej jakości testy są potrzebne aby ocenić rzetelność danych zawartych w badaniach naukowych. Na alfę wpływa długość i wymiarowość testu.  Alfa jako wskaźnik rzetelności powinna spełnić założenia o istotnej równoważności. Niska alfa pojawia się gdy te założenia nie są spełnione. Alfa nie mierzy po prostu jednorodności i jednowymiarowości testu, jako że na rzetelność testu działa także jego długość. Dłuższy test zwiększa rzetelność niezależnie od tego czy test jest jednorodny czy nie. Wysoka wartość alfy (>90) może sugerować pewien nadmiar i pokazuje, że test powinno się skrócić.

Wnioski

 

Alfa jest ważnym pojęciem w ocenie diagnozy i kwestionariuszy. Jest ważne by oceniający i badacze oszacowali jej stan by dodać trafności i precyzji w interpretacji danych. Tym niemniej jednak alfa często stosowana jest bezrefleksyjnie i bez odpowiedniego zrozumienia i interpretacji. W tym poradniku spróbowaliśmy wyjaśnić zasadnicze założenia wyliczania alfy, czynniki wpływające na jej wielkość i sposoby na jakie można interpretować jej wartość. Mamy nadzieję, że przyszli badacze będą bardziej krytyczni analizując wartości alfy w swoich badaniach.

 

Bibliografia:

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16(3), 297–334. https://doi.org/10.1007/BF02310555

Kock, N. (2020). WarpPLS User Manual: Version 7.0 (7th ed.). ScriptWarp Systems.