Obiecujące przekształcenie Box Coxa Metodolog.pl

Kiedy dane nie mają rozkładu normalnego powoduje to trudność i zrezygnowanie ze standardowych form analiz i użycie alternatywnych metod estymacji wyników, które są odpowiednie dla wyników bez rozkładu normalnego.

Normalny rozkład danych jest potrzebny by używać szerokiej gamy narzędzi i testów statystycznych takich jak:

– analizy testów t

– analiz wariancji

– analiz korelacji

Czy są jakieś sposoby by pozostać przy mocnych testach parametrycznych?

Transformacja danych, a szczególnie transformacja mocy Boxa Coxa jet jedną z tych działań, które mogą pomóc w unormalnieniu danych. Poprzez zrozumienie zagadnienia jakim jest metoda Boxa Coxa, praktycy analizy statystycznych mogą lepiej przygotować pracę ze swoimi nienormalnymi danymi!

Czym jest transformacja?

Transformacja danych polega na wykonaniu tej samej matematycznej transformacji dla każdej wartości zmiennej wszystkich obserwacji w zbiorze danych. Niektóre transformacje są bardzo popularne w naszej codzienność np. zamiana złotówek na euro lub stopni Celsjusza na stopnie Fahrenheita. Te dwa przykłady transformacji są nazywane transformacjami liniowymi ponieważ oryginalne dane są multiplikowane lub dzielone przez jakiś specyficzny współczynnik lub stałą która jest po prostu dodawana do każdego wyniku. Niestety ta transformacja nie zmienia kształtu wyników rozkładu, a także nie pomaga uzyskać rozkładu bardziej normalnego.

Czym jest przekształcenie mocy Boxa-Coxa?

Statystycy Geore Box i Dawid Cox odkryli procedurę identyfikującą odpowiednią wartość współczynnika Lambda by użyć jej do przekształcenia danych w normalny kształt. Wartość Lambda identyfikuje moc dzięki której całe dane powinny być podniesione. W tym celu transformacja Boxa Coxa wyszukuje wartość pomiędzy – 5 a 5 która będzie najlepszą z możliwych wartości do unormalnienia rozkładu. Wykres nr 1. Przedstawia nienormalny rozkład wyników preferowania pracy po godzinach. Tabela nr 1 przedstawia powszechnie stosowane przekształcenia Boxa Coxa. Wykres nr 2 przedstawia rozkład wyników po wykorzystaniu transformacji moxy Boxa Coxa.

Tabela nr 1.


l
Y’
-2 Y-2 = 1/Y2
-1 Y-1 = 1/Y1
-0.5 Y-0.5 = 1/(Sqrt(Y))
0 log(Y)
0.5 Y0.5 = Sqrt(Y)
1 Y= Y
2 Y2

Wykres nr 1. Oryginalny rozkład wyników preferowania zostawania po godzinach w pracy.

Rozkład prawo skośny przed przekształceniem

Wykres nr 2. Przekształcony transformacją Boxa Coxa rozkład preferowania zostawania po godzinach w pracy.

Efekty przekształcenia mocy Boxa Coxa

Analiza zależności miedzy odchyleniem standardowym a wartością Lambda Wykazała, że najniższe odchylenie uzyskuje wartość Lambda z przedziału -2,48 a -0,69 (95% przedziały ufności), a najlepszą wartością, która jest wstanie najlepiej unormalnić rozkład wyników jest wartość Lambda równa -1,54.

Czy transformacja Boxa Coxa zawsze działa?

Transformacja Boxa Coxa nie jest zawsze gwarantem normalności rozkładu. Jest tak ponieważ nie sprawdza ona normalności. Metoda ta sprawdza najmniejsze odchylenie standardowe. Założenie jest takie, że spośród wszystkich transformacji z wartością Lambda Między – 5 a 5, transformowane dane będą mieć najprawdopodobniej rozkład normalny kiedy odchylenie standardowe będzie najmniejsze. Tak więc jest zawsze potrzebne sprawdzenie przetransformowanych danych formalnym testem np. Kołmogorowa Smirnowa lub wykresem pod kątem dopasowania do rozkładu normalnego.

Dodatkowym założeniem Boxa Coxa jest to, że wartości danych muszą być większe od wartości 0. Jeśli to założenie nie jest spełnione to można do danych dodać wartość stałą (zwykłe przekształcenie liniowe).