Działanie przy projektach analitycznych

Podstawy regresji do analiz biznesowych. Statystyczna analiza danych w biznesie.

Podstawy regresji do analiz biznesowych. Statystyczna analiza danych w biznesie.

 

Podstawy regresji do statystycznych analiz biznesowych

 Jeśli kiedykolwiek zastanawiałeś się jak dwie lubi więcej rzeczy wpływa na siebie, albo jeśli kiedykolwiek twój szef kazał ci stworzyć prognozę lub analizę związków pomiędzy zmiennymi, to nauka regresji będzie warta poświęcenia twojego czasu. W tym artykule, nauczysz się podstaw prostej regresji liniowej – narzędzia powszechnie stosowanego w prognozach i analizach finansowych. Rozpoczniemy od nauczenia się kluczowych zasad regresji, najpierw dowiemy się co nieco o kowariancji i korelacji, a potem przejdziemy do budowania i interpretowania wyników regresji. Liczne oprogramowania takie jak Microsoft Excel mogą zrobić za ciebie wszystkie obliczenia regresji, ale wciąż ważnym jest aby poznać ich zasadnicze mechanizmy.

Zmienne

W centrum regresji jest związek pomiędzy dwoma zmiennymi, nazywanymi zmienną zależną i niezależną. Na przykład, wyobraź sobie, że prognozujesz sprzedaż dla swojej firmy i doszedłeś do wniosku, że sprzedaż w twojej firmie rośnie i maleje w zależności od zmian PKB. Sprzedaż, którą prognozujesz, będzie zmienną zależną, ponieważ jej wartości „zależą” od wartości PKB, a PKB będzie zmienną niezależną. Teraz powinieneś ustalić siłę związku pomiędzy tymi dwoma zmiennymi i na tej podstawie stworzyć prognozę sprzedaży. Jeżeli PKB wzrośnie/zmaleje o 1% to jak to wpłynie na twoją sprzedaż, o ile ona wzrośnie lub zmaleje?

Kowariancja

Wzór by obliczyć związek pomiędzy dwoma zmiennymi nazywa się kowariancją. Te wyliczenia pokazują ci zarówno kierunek związku jak i jego względną siłę. Jeżeli jedna zmienna wzrasta, a druga również ma tendencję wzrostową, wtedy kowariancja jest pozytywna. Jeżeli jedna zmienna idzie do góry, a druga w tym czasie w dół, wtedy kowariancja będzie negatywna. Właściwa liczba jaką uzyskasz z tego wyliczenia może być trudna w interpretacji ponieważ nie jest wystandaryzowana. Kowariancja wynosząca 5, na przykład, może być zinterpretowana jako pozytywny związek, ale o sile można powiedzieć tylko tyle, że jest silniejsza niż gdyby było to 4, a słabsza niż gdyby liczba kowariancji wyniosła 6.

Współczynnik korelacji

Powinniśmy znormalizować kowariancję by pozwoliła nam lepiej interpretować i prognozować, a wynik jest wyliczeniem korelacji. Wyliczenie korelacji to po prostu wzięcie kowariancji i podzielenie jej przez wynik błędu standardowego z obu zmiennych. To umieści korelację pomiędzy wartościami 1 i -1. Korelacja dla 1 może być interpretowana jako sugerująca, że obie zmienne poruszają się idealnie pozytywnie względem siebie, a -1 oznacza, że są skorelowane idealnie negatywnie. W naszym poprzednim przykładzie, jeśli korelacja wynosi 1 a PKB wzrasta o 1%, wtedy sprzedaż również wzrośnie o 1%. Jeżeli korelacja wyniesie -1, a PKB podskoczy o 1% do góry, wtedy sprzedaż spadnie o 1% – dokładnie odwrotnie.

Równanie regresji

Teraz kiedy wiemy już jak wyliczany jest stosunkowy związek pomiędzy zmiennymi, możemy rozpisać równanie regresji by przewidywać zmienne jakich pragniemy. Poniżej znajduje się wzór na prostą regresję liniową. „y” jest wartością, którą próbujemy przewidzieć, „b” jest nachyleniem regresji, „x” jest wartością naszej zmiennej niezależnej, natomiast „a” reprezentuje oś y. Równanie regresji po prostu opisuje związek pomiędzy zmienną zależną (y) i zmienną niezależną (x).

Oś, albo „a”, jest wartością y (zmiennej zależnej) jeżeli wartość x (zmienna niezależna) wynosi zero. Zatem jeśli nie ma zmian w PKB, twoja firma w dalszym ciągu coś sprzeda – ta wartość, kiedy zmiany w PKB wynoszą zero, jest osią. Spójrz na graf poniżej by zobaczyć graficzny opis równania regresji. W tym grafie jest tylko pięć punktów danych reprezentowanych przez pięć kropek na grafie. Regresja liniowa próbuje oszacować jak przebiegnie linia by najlepiej dopasować się do danych, a równanie tej linii jest właśnie równaniem regresji.

Excel

Teraz, gdy znasz już nieco kulis analizy regresji, zróbmy prosty przykład użycia excelowskich narzędzi regresji. Wykorzystamy poprzedni przykład próbując przewidzieć przyszłoroczną sprzedaż, bazując na zmianach w PKB. Następna tabela zawiera nieprawdziwe dane, ale takie liczby mogłyby spokojnie wystąpić w prawdziwym życiu.

Rok Sprzedaż PKB
2005 100 1.00%
2006 250 1.90%
2007 275 2.40%
2008 200 2.60%
2009 300 2.90%

Po jednym spojrzeniu na tabelę, można zauważyć, że wystąpi tam pozytywna korelacja pomiędzy sprzedażą a PKB. Oba razem wzrastają. Korzystając z Excela, wszystko co musisz zrobić to kliknąć narzędzia, wybrać analizę danych, a następnie regresję. Okienko, które się pojawi jest proste do wypełnienia, twoim Zakresem Wejściowym Y jest twoja kolumna „sprzedaży” a twoim Zakresem Wejściowym X jest kolumna ze zmianami PKB; wybierz zakres wyjściowy tam skąd chcesz by dane pokazały się na twoim arkuszu i wciśnij OK. Powinieneś zobaczyć coś zbliżonego z tym co widać poniżej.

Regression Statistics Coefficients
Multiple R 0.8292243 Intercept 34.58409
R2 0.687613 PKB 88.15552
Adjusted

R Square

0.583484
Standard Error 51.021807
Observations 5

Interpretacja

Głównymi wynikami, którymi musisz się martwić przy prostej regresji liniowej są R2, intercept i współczynnik PKB. Liczba R2 w tym przykładzie wynosi 68,7% – to pokazuje jak dobrze nasz model przewiduje lub prognozuje przyszłą sprzedaż. Następnie mamy intercept wynoszący 34.58, co mówi nam, że jeśli zmiany w PKB będą prognozowane na zero, nasza sprzedaż będzie na poziomie około 35 jednostek. I na koniec, współczynnik korelacji PKB wynoszący 88.15 pokazuje nam, że jeśli PKB wzrośnie o 1%, sprzedaż prawdopodobnie pójdzie w górę o 88 jednostek.

Więc jak użyć tego prostego modelu w twoim biznesie? Cóż, jeśli twoje badania prowadzą do wniosku, że następna zmiana PKB wyniesie określony procent, możesz wstawić ten procent do tego modelu i wygenerować prognozę sprzedaży. To może pomóc w rozwijaniu bardziej precyzyjnego planu i budżetu na nadchodzący rok. Oczywiście, to jest tylko prosta regresja i istnieją modele, które możesz budować, zawierające wiele różnych zmiennych niezależnych zwane wielokrotną regresją liniową. Ale wielokrotne regresje są bardziej skomplikowane i mają kilka założeń wymagających kolejnego artykułu by o nich podyskutować.

Statystyczna analiza korelacji

Korelacja r-Pearsona w praktyce- statystyczna analiza korelacji/związku między zmiennymi

 

Korelacja r-Pearsona w praktyce- analiza przykładu

Wstęp – Statystyczna analiza korelacji

Zespół Metodolog.pl stworzył fikcyjną bazę danych, aby móc na przykładzie zaprezentować analizę korelacji r-Pearsona.

Problem badawczy

Celem badania było sprawdzenie, czy doświadczenie zawodowe wykazuje związek z wysokością pensji. Ustalono hipotezę badawczą mówiącą o tym, że doświadczenie zawodowe jest związane z wysokością pensji.

Metodologia

Przy pomocy ankiety umieszczonej w Internecie przebadano 23 osoby. Zapytano je o to, ile lat pracują w swoim zawodzie oraz ile zarabiają. W ramach operacjonalizacji pojęcia doświadczenia zawodowego zmierzono je latach.

Model analizy 

Termin „korelacja” oznacza współwystępowanie. Współczynnik korelacji liniowej Pearsona używany jest do obliczania związku między zmiennymi ilościowymi. Mówi o sile i kierunku związku między zmiennymi. Współczynniki korelacji r-Pearsona przyjmuje wartości z przedziału [-1;1]. Wartości te mówią o sile związku. Im jest bliższy „0” tym związek jest słabszy. Im bliżej „1” (lub „-1”), tym związek jest silniejszy. Wartość współczynnika równa „1” oznacza idealny związek liniowy (uzyskuje się go często w trakcie przypadkowej analizy korelacyjnej cechy A z cechą A).

Tabela 1. Interpretacja wysokości współczynnika korelacji.

Wartość r (wartości bezwzględne) Interpretacja
0 – 0,3 brak albo bardzo słaba korelacja
0,3 – 0,5 korelacja w stopniu umiarkowanym
05 – 0,7 korelacja silna
0,7 – 1 korelacja bardzo silna

Kierunek korelacji mówi nam o uporządkowaniu wartości jednej zmiennej względem wartości drugiej zmiennej. Korelacja może być dodatnia, co oznacza że wysokim wartościom jednej zmiennej odpowiadają wysokie wartości drugiej zmiennej. Korelacja jest ujemna wtedy, gdy jedna zmienna przyjmuje wysokie wartości, a druga niskie wartości. Korelacja równa 0 oznacza, że nie występuje związek między zmiennymi.

Ważnym jest aby pamiętać o tym, że korelacja nie mówi nam o zależnościach przyczynowych, lecz tylko o współwystępowaniu zmiennych.

Opis wyników – Statystyczna analiza korelacji

W ceku weryfikacji problemu badawczego przeprowadzono analizę korelacji r-Pearsona. Wyniki analizy okazały się nieistotne statystycznie r= 0,16; p > 0,05. Oznacza to, że nie ma związku między doświadczeniem a wysokością pensji. Wyniki przedstawia Tabela numer 2.

Tabela 2. Wyniki korelacji r-Pearsona.

Doświadczenie zawodowe
Pensja Korelacja Pearsona ,16
Istotność ,461
N 23

Dyskusja wyników – 

Statystyczna analiza korelacji

Hipoteza badawcza nie została potwierdzona. Wysokość pensji nie okazała się związana doświadczeniem zawodowym. Przyczyn takich wyników można poszukiwać w niskiej liczebności próby czy jej możliwej niereprezentatywności. Dodatkowo, nie wiemy przedstawicielami jakich zawodów były nasze osoby badane- wysokość ich zarobków mogła być specyficzna dla ich zawodu lub wynikać z braku możliwości awansu. Być może w testowanym modelu brakowało jakiejś zmiennej pośredniczącej, której włączenie mogłoby pomóc w ujawnieniu domniemanego związku.

Propozycja innego modelu analitycznego

W celu pogłębienia analizy można zastosować analizę regresji, która umożliwiłaby nam zbadanie dokładniejszych parametrów funkcyjnych związanych z badanym zjawiskiem.

Więcej na:

analiza statystyczna do pracy doktorskiej doktoratu rozprawy

Wskazówki odnośnie tego jak napisać raport statystyczny w pracy magisterskiej lub projekcie doktorskim

meto

 

Wskazówki odnośnie tego jak napisać raport statystyczny w pracy magisterskiej lub projekcie doktorskim.

Opracowanie statystyczne raportu podsumowującego pracę magisterską lub doktorską zazwyczaj składa się z mało zmiennej struktury kroków. Wymienimy najważniejsze etapy które składają się wzorcowy naukowy raport, który jest podsumowaniem zebranych danych lub obserwacji.

Krok 1. Postawienie hipotez badawczych.

Przygotowanie hipotez/problemów badawczych/przewidywań – na podstawie wcześniej przygotowanej teorii lub argumentów na rzecz (mogącego potencjalnie mieć miejsce) istniejącego zjawiska wyprowadza się hipotezy, które mają być potwierdzone przez zebrane dane w badaniu. W tym etapie werbalizuje się przypuszczenia co do kierunku wpływów lub związków pomiędzy badanymi zjawiskami. W tym etapie formułujemy hipotezy alternatywne (przypuszczane przez badacza stany rzeczy). Na tym etapie można się oddać refleksji mającej na celu zawężenie spektrum wykorzystywanych, w drugim kroku, analiz statystycznych, które mają zweryfikować prawdziwość hipotezy zerowej (testy statystyczne oparte o kwestionowanie losowości występowania zjawisk weryfikują prawdziwość hipotezy zerowej).

Krok 2. Eksploracja danych i przekształcenia zmiennych.

W tym etapie dokonuje się inspekcji zebranych danych pod kątem poprawności oraz jakości. Zazwyczaj wykonuje się pełną eksplorację danych polegającą na weryfikacji wystąpień, analizie statystyk opisowych oraz wzrokowej ocenie wykresów przedstawiających kształt rozkładów zmiennych i ewentualne odchylenia od normy. Dodatkowo dokonuje się przekształceń i manipulacji zmiennych. W zależności od charakteru oraz metodologii badania, wykonanych pomiarów i wyselekcjonowanych grup wykonuje się kroki mogące polepszyć dokładność wykonanych pomiarów (korygowanie składowych wskaźników), ich rzetelność (dokładność pomiarowa) oraz rozpatrywanie alternatywnych lub konkurencyjnych pomiarów.

Krok 3. Analizy statystyczne mające na celu weryfikację hipotez.

W pracy magisterskiej zazwyczaj używa się niższego kalibru analiz statystycznych niż w pracach doktorskich. Wynika to z tego, że prace magisterskie mają zazwyczaj niższy budżet badawczy, przez co metodologia oraz wielość obserwacji i wykonanych pomiarów jest po prostu mniejsza. W projektach badawczych do pracy magisterskiej wykonuje się zazwyczaj analizy statystyczne związane z ogólnym modelem liniowym. Najczęściej są to analizy korelacji, regresji, analizy wariancji w schematach dla powtarzanych pomiarów, porównaniach międzygrupowych lub mieszanych. W kontekście projektów doktorskich wykorzystuje się bardziej zaawansowane analizy statystyczne (gdzie niekiedy jest niezbędna pomoc statystyczna lub porada specjalisty od statystyki). Zazwyczaj w takich projektach wykorzystuje się metody wielowymiarowe tj. analizy równań strukturalnych, analizy dyskryminacyjne, modeluje się dane by maksymalizować poprawność klasyfikacji (regresja logistyczna) lub wykorzystuje się całą gamę statystycznych technik wykonanych po kolei w celu uzyskania informacji niezbędnych do wykonania następnych, a zarazem odpowiednich do tego specyficznego celu, analiz statystycznych. Niekiedy metodologie analityczne w projektach magisterskich lub doktorskich przewyższają możliwości badacza, który z natury rzeczy jest badaczem, a nie doświadczonym specjalistą od analizy danych, którego pomoc statystyczna zazwyczaj jest tania oraz szybka. Po wykonaniu analiz statystycznych weryfikujących, przychodzi czas na opis wyników w raporcie statystycznym wraz z ich wizualizacją. Przed wykonaniem opisu danych przyszły magister lub doktor powinien oddać się refleksji oraz krytycznie odnieść się do wykonanych kroków. Konieczne jest rozpatrzenie alternatywnych metod statystycznych (mogących w inny sposób weryfikować hipotezy) oraz uzyskanie pewności co do mocnych podstaw będących gwarantem poprawnie zweryfikowanego przewidywania. Ponad to poza weryfikacją hipotez, aspirujący magister lub młody doktor powinien wykonać prace obliczeniowe mówiące nie tylko o istotnych zależnościach, ale również powinien zadbać o statystyki informujące o wielkości badanych efektów.

Krok 4. Opis wyników w raporcie statystycznym.

Opis wyników jest równie ważnym etapem. Trzeba rozważyć co przedstawić w tekście, tabelach oraz wykresach. Jest niezmiernie ważne, aby raport statystyczny był transparentny i informował czytelnika w sposób jasny o wykonanych krokach, które doprowadziły do uzyskania określonych wyników. Konieczne jest zadbanie o wizualizację wyników. Zawsze obraz wyjaśnia więcej niż tysiąc słów, dlatego wykresy powinny zajmować ważne miejsce w raporcie statystycznym w projekcie pracy magisterskiej lub doktorskiej. Opracowanie statystyczne powinno zawierać tekst podkreślający najważniejsze wyniki widziane z perspektywy hipotez oraz celu badawczego. Narracja w opracowaniu raportu statystycznego powinna być ergonomiczna, wyczerpująca oraz bezbłędna. Osoby siedzące w badaniach robią to doskonale, podobnie jak zawodowi statystycy służący pomocą i poradą w kwestii analiz danych i pomocy statystycznej przy badaniach empirycznych. Ważne jest również to, aby przed pisaniem takiego raportu zapoznać się z tym co jest ważne w kontekście takiego raportu z określonej dziedziny nauki. Każda dziedzina nauki ma swoją specyfikę oraz modę. W raportach statystycznych w psychologii, gdzie bardzo popularna jest analiza równań strukturalnych,  podkreśla się inne wyniki niż w np. opracowaniach medycznych (biostatystyka) lub ekonomicznych (ekonometria).


Powyższe roki nie wyczerpują wielości możliwych sposobów przeprowadzania analizy i opisu wyników do doktoratu lub pracy magisterskiej. Niemniej jednak jest to uśredniona wizja elementów ważnych z perspektywy wykonania dobrego opisu wyników badania naukowego (empirycznego).

 

Działanie przy projektach analitycznych

Modelowanie równań strukturalnych: Indeksy dopasowania, wielkość próby i zaawansowane zagadnienia.

meto

 

Modelowanie równań strukturalnych: Indeksy dopasowania, wielkość próby i zaawansowane zagadnienia.

W tym wpisie serwujemy starter modelowania równań strukturalnych dla naukowców zajmujących się badaniem zachowania. Kolejno będziemy opisywać podstawy, model pomiarowy, model strukturalny oraz połączony w pełni strukturalny model. Następnie będą omówione zaawansowane kwestie zawierające indeksy dopasowania, wielkość próbki, moderatory, dane podłużne, mediacje itp.

Modele równań strukturalnych (SEM) to ważne narzędzie w warsztacie badawczym. Tym wpisem chcemy zachęcić do częstszego i bardziej kompetentnego użycia równań strukturalnych. Będą dyskutowane zaawansowane kwestie zawierające to jak włączać moderatory, jak myśleć oraz jak myśleć o modelowaniu danych podłużnych. Zaczniemy od tego czy są możliwości dla dwóch bardzo ważnych i rozpowszechnionych kwestii technicznych – kłopotliwych wyborów pomiędzy wskaźnikami dopasowania a pytaniem o wymaganą wielkość próby.

Indeksy dopasowania.

Kiedy oceniamy model mamy do wyboru zbadanie kilku indeksów dopasowania. Kiedy modelujemy analizę regresji, badacze raportują miarę R Kwadrat. R Kwadrat jest opisowym indeksem, który ocenia dobroć dopasowania  będąc nieco subiektywną miarą. Czy R Kwadrat równe 0,5 jest dobre? Może R Kwadrat 0,3, a może 0,1? Nie ma tutaj instrukcji, tak więc jest pożądane uzupełnienie tego o test F. Test F jest statystyką mogącą testować hipotezę zerową ponieważ pochodzi z odpowiadającego statystycznego rozkładu. Test F mówi nam czy model chwyta  istotną ilość wariancji. W kwestii oceny modelu równań strukturalnych jest mnóstwo indeksów dopasowania.  Np. w sekcji „dobroci dopasowania” wydruku z obliczeniami program Lisrel pokazuje 38 różnych wskaźników dopasowania. Wszystkie one służą do optymalizacji nieco różnych funkcji modelu – wskaźniki różnią się w zależności od tego czy są powiązane z wielkością próbki czy nie, albo czy oceniają absolutne dopasowanie czy dopasowanie względne do modelu odniesienia. Razem te różne wskaźniki dostarczają uzupełniających się informacji. Gerbing i Anderson (1992) opisując sytuację będącą analogicznie trudną w odpowiedzi na pytanie „Jaki jest najlepszy samochód na rynku”. Odpowiedz jest taka, że nie ma najlepszego samochodu. Definicja najlepszego samochodu zależy od przeznaczenia? Czy życzysz sobie prowadzić szybki samochód, stylowy czy bezpieczny? Co więc do dobry modelarz analizy równań strukturalnych ma robić? Ten tekst oferuje przebrnięcie przez bagno statystyk dopasowania. Po pierwsze jest trochę zgody, że badacze powinni raportować następujący profil wskaźników.  Chi kwadrat (oraz jego stopnie swobody oraz wartość istotności statystycznej), standaryzowany średni kwadrat reszt (SRMR), porównawczy indeks dopasowania (CFI). Idealnie dla modelu jest tak, że dopasowanie do danych oznacza, że test Chi Kwadrat jest nieistotny (p>0,05), SRMR był by blisko wartości 0,09 (lub mniej) a wskaźnik CFI byłby blisko 0,95 (lub wyżej). Przeanalizujmy więc te indeksy. Wśród wskaźników dopasowania w modelowaniu równań strukturalnych Chi Kwadrat jest tylko formalną statystyką, wszystkie inne są opisowe. Tylko dzięki testowi Chi Kwadrat możemy dokonać stwierdzenia odnoszącego się do istotności lub testowania hipotez, i dla innych, istnieją tutaj tylko „reguły kciuka” do oceny dobroci dopasowania. Może się wydawać, że tylko test Chi Kwadrat powinien być raportowany w statystycznym raporcie. Jakkolwiek, Chi Kwadrat ma swoje własne problemy. Najważniejszym z nich jest to, że Chi Kwadrat jest wrażliwy na wielkość próby. Podczas gdy jest ważne by mieć dużą próbę do wzmocnienia precyzji estymacji parametrów jest tak, że kiedy N próby wzrasta Chi Kwadrat uderza w górę. Wynik Chi Kwadrat niemal zawsze będzie istotny (wskazując słabe dopasowanie) nawet tylko ze skromnym rozmiarem próby. W rezultacie zostało zasugerowane z lekkim konsensusem w psychometrycznej literaturze, że model wykazuje dopasowanie jeśli statystyka skorygowana poprzez jej stopnie swobody  nie przekracza wartości 3.0.

SRMR oznacza „średni standaryzowany kwadrat reszt” Różnice pomiędzy danymi a modelem predykcyjnym zawierają reszty, których jest policzona średnia oraz pierwiastek kwadratowy. SRMR jest indeksem złego dopasowania  (większe wartości sygnalizują gorsze dopasowanie danych do modelu strukturalnego), miara rozpościera się od 0,00 do 1,00. SRMR wynosi zero kiedy model predykcyjny ma perfekcyjne dopasowanie. SRMR jest wzmacniane (zmniejszane) kiedy model pomiarowy jest czysty (wyższe ładunki czynnikowe). Indeks jest bardzo dobrym wskaźnikiem czy model badacza chwyta dane, ponieważ jest relatywnie mniej wrażliwy na inne kwestie jak naruszenia dotyczące założeń o rozkładzie.

CFI (Comperative Factor Index) jest „porównawczym indeksem dopasowania” i w przeciwieństwie do Chi Kwadrat, który porównuje model do danych. CFI jest rodzajem statystyki uchwycającej względną dobroć dopasowania lub dopasowanie hipotetycznego modelu jako empiryczny przyrost ponad prosty model (w szczególności ten w którym nie są estymowane ścieżki). W przeciwieństwie do Chi Kwadrat oraz SRMR, CFI jest wskaźnikiem dobroci dopasowania. Wyniki tej miary rozpościerają się od wyników 0,0 do 1.0, gdzie wyższe wyniki są lepsze. Również w przeciwieństwie do poprzednich dwóch wskaźników, CFI próbuje skorygować złożoność modelu. Robi to poprzez włączenie stopni swobody użytych w modelu bezpośrednio w obliczeniach.

Badanie Monte Carlo.

Uczeni często stosują symulację w analizie równań strukturalnych by testować pewne związki. Czynnik, dopasowania który dotyczy modelowania dobrych równań strukturalnych (SEM) jest powiązany z wielkością próby. Zobaczmy ilustrację tych wpływów na trzy statystyki dopasowania opisane powyżej. Rysunek poniżej przedstawia wpływ wielkości próby na na zmiany we wskaźnikach indeksów dopasowania.

Wielkość próby (Sample size).

W tej sekcji rozpatrzymy pytanie o wielkość próby z innego punku widzenia pytając o to „Jak dużo obserwacji jest niezbędne dla analizy by mieć dobry model SEM (analizy równań strukturalnych)?”. Wiele potencjalnych użytkowników ucieka od analizy równań strukturalnych ponieważ jest wrażenie, że wielkość próby musi być wyrażona w setkach. Jest to prawdą, że „większe jest zawsze lepsze” jeśli chodzi o wielkość próby. Ten truizm utrzymuje się szczególnie kiedy przewidywane efekty są subtelne, a pomiary nie są szczególnie czyste i rzetelne, a model strukturalny nie wprowadza bardzo wyraźnego rozróżnienia pomiędzy konstruktami. Zauważmy, że te stwierdzenie sugeruje – jeśli zmienne są rzetelne, efekty są mocne a model nie jest zbyt skomplikowany, mniejsze próbki będą zadowalać. By uzyskać smak tych powiązań, rozważmy następujące rzeczy. Było trochę myślenia, że silne, czyste pomiary (definiowane poprzez ilość zmiennych ładujących każdy czynnik oraz rzetelność czynników), były by nieco kompensujące dla wielkości próby, ale podczas gdy liczba zmiennych na czynnik ma wpływ na polepszenie statystyk dopasowania ten efekt jest skromny w porównaniu do rozmiaru próby. Co więcej, efekt ten może być niemonotniczny. Anderson & Gerbing (1991) uznają, że indeksy dopasowania są pogarszane przez liczbę czynników w modelu lub po prostu przez liczbę zmiennych. Jeśli tylko dwie zmienne ładują czynnik, może wystąpić błąd przy szacowaniu parametrów, ale jeśli są trzy lub więcej wskaźników na czynnik, ten błąd może niemal zanikać. W terminach redukcji błędu i nawet uzyskania modelu tylko do uruchomienia, autorzy Ci twierdzą, że dodatkową korzyścią jest, że przy „trzech lub więcej wskaźników na czynnik, wielkość próby N=100, będzie zwykle wystarczająca dla zbieżności”, a wielkość próby N=150 ” będzie zwykle wystarczająca dla konwergencji i właściwego rozwiązania.

Innym zapytaniem wzdłuż linii powiązań wśród charakterystyk modelu jest badanie współliniowości. Grawel, Cote i Baumgarthner (2004) uważają, że wysoka interkorelacja pomiędzy egzogenicznymi konstruktami to korelacja rzędu od 0,6 do 0,8, twierdzą również, że mogą w takim kontekście występować często błędy drugiego rodzaju we wnioskach (ścieżki mogą nie być istotne w przypadku kiedy rzeczywiście są istotne), o ile nie były ono mocno kompensowane siłą w danych, tak jak żyłowanie rzetelności i wielkości próby. Zarówno czynniki kompensujące służące do redukcji ogólnego błędu, użyczające większej precyzji i zaufania do parametrycznej estymacji.

Jest to trochę komfortowe, że modelowanie równań strukturalnych można wykonać dobrze nawet przy małej próbie (np N=50 lub N=100). Niejasna, ludowa reguła kciuka, rozważa wymaganą wielkość próby rzędu N>200, co może być zachowawcze i jest z pewnością uproszczone.

Badacze szczególnie troszczą się o wielkość próby i mogą liczyć pożądane N wymagane dla danego modelu (dla przykładu, przy ustalonej liczbie zmiennych, konstruktów – i co więcej – stopni swobody) i pożądać poziomu mocy lub odwrotnie szacować moc dla danego N.

Scenariusze różnych danych.

W tej finałowej sekcji, pokrótce odkrywamy kilka zaawansowanych tematów: moderację, dane podłużne, analizy czynnikowe wyższego rzędu, mediacje, wskaźniki odzwierciedlające oraz modele cząstkowych najmniejszych kwadratów.

Moderatory.

Pierwsze co musi zrobić badacz to zastanowienie się jak wprowadzić moderatory w model analizy równań strukturalnych (SEM). Moderator jest łatwym terminem interakcji i podejściem w analizie równań strukturalnych takim samym jak w analizie regresji. Zmienne efektów głównych są scentrowane, ich wskaźnik interakcyjny policzony oraz jako trzy zmienne są wprowadzane jako predyktory. Może być teoretyczne zainteresowanie tylko efektami głównymi, ale często włącza się jedynie jako statystyczną kontrole by pozwolić na czysto empiryczne skoncentrowanie się na interakcji. To podejście jest ogólne, pozwalając również na moderatory które są kategorialne lub ciągłe. Jeśli moderator jest kategorialny, inną opcją jest uruchomienie wielogrupowej analizy, w których model jest dopasowany do jednej grupy i ustawiony by sprawdzić numerycznie podobieńśtwo wskaźników dopasowania z drugą grupą.

Badania podłużne.

Badacze z podłużnymi danym, takimi jak powtórzone pomiary lub efekty wewnątrzgrupowe również mogą używać analizy równań strukturalnych (SEM). Są tutaj dwa rodzaje współczynników, które reprezentują efekty w czasie. Kilka z nich jest interesujących z teoretycznego punktu widzenia zobacz rys nr 3 poznanie w czasie 1 i afektu w czasie 2. Innych skutków działania jako statystycznych kontroli, takich jak efekty autokorelacji pomiędzy poznaniem w czasie 1 i 2 oraz owych afektów pomiędzy pomiarami w czasie 1 i 2.

Rysunek nr 3.

*Autokorealcje pomiarów są umożliwiane przez estymację korelacji między błędami (e1 <->e2), które są normalnie założone jako będące niezależne.

Analiza czynnikowa wyższego rzędu.

Kiedy zmienne zostaną zmierzone, czynnikowa analiza może być zastosowana z inną analizą czynnikową gdzie jest przeprowadzona jako macierz korelacji wśród czynników wydobytych w pierwszej analizie.  Te pierwsze czynniki są nazywane czynnikami pierwszego rzędu, a te następne są nazywane czynnikami wyższego rzędu. Rysunek nr 4, przedstawia przykład 8 składnikowej ankiety, gdzie 4 pytania mierzą afekt, a 4 mierzą poznanie. W szczególności dwa aspekty afektu są zakładane i również dwa aspekty poznania. Jest wielce prawdopodobne, że dwa czynniki afektu są powiązane, jak również też 2 czynniki poznania. By dopasować czynniki wyższego rzędu w analizie równań strukturalnych PLS potraktuj zmienne jako y  jako zmienne pierwszego rzędu, w wyższe poziomy jako czynniki endogenne.

Rysunek nr 4.

Analiza mediacji.

Popularnym zastosowaniem analizy równań strukturalnych jest zbadanie procesu przez który niezależna zmienna X wpływa na zmienną zależną Y bezpośrednio jako X->Y oraz pośrednio przez mediator X->M->Y. Tradycyjnie badacze mają dopasowania z serii regresji by estymować te związki, ale coraz częściej, statystyczni badacze wskazują na wyższość analizy równań strukturalnych w symultanicznym i bardziej efektywnym szacowaniu tych związków. Wszystkie trzy ścieżki są dopasowane na raz w pojedynczym modelu. Istotność współczynników ścieżkowych jest testowana i jeśli jest to pożądane, są one porównywane.

Wskaźniki odzwierciedlające/reflektywne

Część analizy czynnikowej w modelowaniu równań strukturalnych korzysta z bogatej i szerokiej literatury psychometrycznej datowanej na 1860r, kiedy Galton począł pomiar inteligencji. Jego filozofia i to, że Spearman i jego model czynnikowy który był istonie Platoniczny: nieobserwowalne było idealną, czystą formą, a obserwowalne było kombinacją idealnego i nieperfekcyjnego. Tłumacząc to na nasze cele, nieobserwowalne lub latentne czynniki były odzwierciedleniem obserwowanych zmiennych pomiarowych, a te zmienne były również poddane szumowi w formie systematycznych i losowych błędów. Tak więc, widzimy na rysunku nr 5, że rzekomy model może być podsumowany bardziej ogólnie poprzez model odzwierciedlony/reflektywny. Uczeni, którzy bronią wyższości odzwierciedlonego podejścia  przez formowanie nowego przybysza oczerniają brak podstaw teoretycznych wspierających nowe podejście – nie ma tutaj psychometrycznej teorii by to wesprzeć. Wskazują oni liczne techniczne kwestie takie jak np. problemy w identyfikacji modelu. Wskazują również na fakt, że błąd pomiaru i błędy predykcji są naraz uwikłane. Rysunek nr 5 przedstawia filozofię odzwierciedlaną w kierunkach strzałek dla hipotetycznych konstruktów oznaczonych  C, D, E (rozważymy A i B). Konstrukt C (w kółku, taki jak inteligencja lub postawa wobec reklam, rodzi pomiary C1, C2, C3 (w kwadratach) Błędy również są dołożone do tych pomiarów. Ludzie z większą inteligencją lub pozytywną postawą  C  uzyskują większe wyniki lub pozytywniejsze liczby w tych pomiarach. Mapowanie tego  nie jest perfekcyjne i ta niedoskonałość jest odnotowana w e’ (błędy nie są równe wzdłuż c1, c2, i c3, ale indeksy te są eliminowane ze względu na zwięzłość. Na obrazku również Dzeta chwyta jak dobrze każda zmienna endogenna jest przewidywana – ten błąd strukturalny jest oznaczany jako 1 – R Kwadrat, tak więc jeśli wiemy, że D pomaga nam przewidzieć E bardzo dobrze wtedy Dzeta E będzie niska. Rysunek nr 6 pokazuje odzwierciedloną filozofię z trzema zmiennymi mierzącymi konstrukt C i czterema mierzącymi E. Z rzadka stwarza się ankietę gdzie skala nie istnieje i przybliżony pomiar pojedynczym wskaźnikiem może być praktyczny. Ten scenariusz jest reprezentowany przez zmienną D, gdzie tylko jeden item D1 jest dostępny do pomiaru konstruktu. W tym scenariuszu mapa pomiarowa jest przemyślana jako jeden do jednego, pomiar jest istotnie równy konstruktowi, tak więc ładunek czynnikowy jest tożsamy i błąd pomiaru jest ustawiony na zero. Nie ma sytuacji kiedy badanie ludzkiego zachowania jest ukazane poprzez podobną sytuację – nigdy nie mamy zerowego błędu pomiarowego. Tak więc pojedynczy składnik nie jest nigdy optymalny. Jakkolwiek są one czasem używane z praktycznych powodów. Wiemy, że wielokrotne składniki są pożądane i lepiej mieć pewien wskaźnik niż pojedynczy pomiar.

Wspomnijmy, że część wyższości SEM ponad regresje jest tym, że regresja miesza błąd przewidywania z błędem pomiaru. Brak dopasowania w 1-R kwadrat nie może być niejednoznacznie przypisany do niespecyfikowanego modelu lub słabych miar. W przeciwieństwie analiza modelowania równań strukturalnych pozwala na takie rozróżnienie, czynniki analitycznej części bierze pod uwagę błędy pomiaru i część strukturalnych ścieżek która ustala błąd predykcji modelu. Trochę czasu temu, badacze nie będący biegli w psychometrycznych teoriach wysnuli postulat, że strzałki pomiarów powinny iść w inną stronę. W ich podejściu zmienne łączy się by utworzyć konstrukt, co jest nazywane (formowanym pomiarem). Przykład ten jest rutynowo w użyciu (tak często, że można się zastanawiać czy istnieje inna alternatywna forma konstrukcji modelu) w socjoekonomicznym statucie (SES). Badacze twierdzą, że edukacja, dochody, zawód łączy się w SES i że zmiana w edukacji, dochodach lub zatrudnieniu zmienia SES, ale że jest odwrotnie nie jest prawdą. Ci badacze proponują mierzenie edukacji, dochodów i zatrudnienia jako całości w jednym pomiarze, jak widzimy konstrukt D jest mierzony osobno poprzez D1 w towarzystwie założenia miary bezbłędnej. Następnie regresja jest modelowana w której edukacja, dochód i zatrudnienie przewidują socjoekonomiczny status. Nie jest tu nic złego z regresją. Nie jest nic złego z pojedynczym pomiarem jako takim, aczkolwiek jest to teoretycznie niewyszukane i empirycznie problematyczne. Jednak „formatywnie” jako nowe pojecie lub podejście jest niepotrzebne i mylące. Powiedzmy, że proponowany formatywny pomiar jest zaledwie niekompletnym reflektywnym układem pomiarowym. Rozważmy konstrukty A i B na lewej stronie modelu. Formatywne podejście traktuje A i B jak D (jako pojedynczy składnik), przerywane strzałki i pudełka po lewej by nie istniały. Jakkolwiek nie ma powodu, że A i B nie mogą być uważane jako konstrukty w tradycyjnym sensie, latentne czynniki które są odzwierciedlane w wielokrotnym pomiarze, jako w przerywanych związkach A1-A3 i B1-B3. Jesli A jest konstruktem edukacji, A1 może być edukacją ojca, A2 może być edukacją matki a A3 edukacją najstarszego dziecka. Jeśli B jest dochodem, B1 może być totalnym dochodem gospodarstwa domowego, B2 może być dochodem nieregulowanym, a B3 moze być dochodem najstarszego dorosłego. Możliwe, że pomiary A i B są nadmierne i typowo pojedyncze, ale dla szacowania A i B są typowo wystarczające. Jakkolwiek wybór użycia pojedynczego itemu A i B dla celów praktycznych powinien nie być mieszany z teoretycznie nieuzasadnionym wyborem modelowania wypaczającym 150 letnią tradycję psychometrycznej teorii.

Rysunek nr 5.

Wnioski

Jesteśmy blisko z nowymi sugestiami odnoszącymi się do modelowania równań strukturalnych. Te komentarz są równie istotne dla badaczy budujących i testujących modele jak również dla recenzentów oceniających artykuły w których autorzy używali modelowania równań strukturalnych.

  1. Modelowanie równań strukturalnych nie jest przerażające – jest ona naturalna progresją analizy czynnikowej i analizy regresji.
  2. Można przeprowadzać SEM dla próbek większych niż co najmniej 50 obserwacji.
  3. Każdy konstrukt powinien być mierzony co najmniej przez 3 wskaźniki. Konstrukty mierzone przez cztery lub więcej zmiennych są prawdopodobnie bardziej rzetelne.
  4. Używaj metody największej wiarygodności (ona jest zwykle domyślną metodą)
  5. Sprawdź statystyki dopasowania
  6. Z drugiej strony zadaj dobre teoretyczne pytanie. Czy każde hipotetyczne powiązanie jest logicznie wsparte oraz czy model opowiada teoretyczną historię?
  7. Dopasuj co najmniej jeden konkurencyjny model na literaturze na której ogniskuje się budujący model, by zobaczyć i udowodnić poprawę.

 

Konfirmacyjna analiza czynnikowa i model ścieżkowy

liniowa i kwadratowa funkcja dyskryminacyjna klasyfikacja

Logika budowy modelu klasyfikującego na bazie analizy dyskryminacyjnej. Wielowymiarowe modelowanie danych.

meto

 

Analiza dyskryminacyjna –  Wielowymiarowa analiza statystyczna klasyfikująca dla wielokategorialnych zmiennych zależnych.

Kierunkiem do jakiego dąży analiza dyskryminacyjna jest:

  1. Formalna logika jaką jest wzór funkcji dykryminującej mającej na celu wyszukanie miejsca do którego przystaje badany klient (lub inna jednostka zdefiniowana w badaniu) na podstawie pomiarów wykonanych na skali ilościowej (lub binarnej 0,1).
  2. Uzyskanie skomplikowanych prostych separujących grupy obiektów poddanych klasyfikowaniu
  3. Uzyskanie pakietu charakterystyk bezwzględnie najlepiej mogących opisywań różnice pomiędzy klasyfikowanymi grupami obserwacji.

LDA jest algorytmem statystycznym mającym na celu wyznaczenie wzoru, który będzie wzorem dyskryminującym lub klasyfikującym jednostkę badaną do zbioru grup „A” na podstawie zbioru pomiarów traktowanych jako zmienne niezależne. Analizę dykryminacyjną przeprowadza się na populacji treningowej, a następnie weryfikuję się jej trafność na zbiorze walidacyjnym (który nie brał udziału w trenowaniu analizy dyskryminacyjnej). Cenną uwagą w kontekście tej analizy jest to, że analityk wie z jakimi klasami obserwacji ma do czynienia oraz zna spektrum pomiarów jakie reprezentują te klasy.

Kroki konstruowania modelu Analizy Dyskryminacyjnej.

  1. Charakterystyka i selekcja pomiarów oraz podjęcie decyzji o ilości grup podlegających dyskryminacji.
  2. Próbkowanie dotyczące trenowania zbioru.
  3. Selekcja zmiennych w celu budowy funkcji dyskryminującej.
  4. Walidacja modelu na zbiorze testującym poprzednie kroki.

Krok 1.

  1. Charakterystyka pomiarów wyselekcjonowanych do analizy oraz podjęcie decyzji o ilości dyskryminowanych grup. d
  2. Selekcja pomiarów/charakterystyk może być przeprowadzona za pomocą eksploracji danych lub wstępnych badaniach statystycznych (mogą być również zasugerowane przez fachowca)
  3. Obserwacje w dyskryminowanych grupach muszą być niezależne. Ta sama jednostka badana nie może być przypisana do więcej niż jednej grupy badanej.
  4. Krok 2.
  5. Wylosowanie lub wybranie zbioru treningowego do przeprowadzenia analizy statystycznej metodą analizy dyskryminacyjnej.
  6. Rozdzielenie utworzonej próby na grupę treningową i zbiór walidacyjny.
  7. Krok 3.
  8. Wyznaczenie punktu dykryminacyjnego (próg odcięcia)
  9. Dla dwóch klas obiektów dobrym dyskryminatorem jest funkcja liniowa, dla więcej niż 2 klas warto zastanowić się nad wyborem metody asymptotycznej, Mahalanobisa lub kanonicznej.
  10. Krok 4.
  11. Wykonanie obliczeń na grupie treningowej w stosunku której jest jasne które jednostki badane przynależą do swoich klas.
  12. Jednostki badane znajdują swoje miejsce na zasadzie działania funkcji dyskryminacyjnej.
  13. Kierunkiem jaki może potencjalnie mieć analiza jest wyjaśnienie różnic między grupami lub ich klasyfikacja.

Wykonanie wzoru dyskryminacji.

Utworzenie podstawy i dyskryminacyjnej przedstawimy na przykładzie algorytmu (lub jak kto woli funkcji dyskryminacyjnej).

Podstawą do utworzenia funkcji dyskryminacyjnej jest założenie, że jednostki badane pochodzą z dwóch grup w których pomiary przyjmują rozkłady normalne, a w grupach tych są podobne wariancje-kowariancje między tymi zmiennymi. W ten sposób możemy określić formułę dyskryminującą

DF(x)=d1x1 + d2x2 + itd. Itd.

Dowolnie możemy manipulować poziomem odcięcia. Im wyższy wynik na skali DF tym obserwacja bardziej przynależy do którejś z grup, a im mniejszy jest tym obserwacja przynależy do drugiej grupy.

Jest to tak zwana dyskryminacja liniowa polegająca na  liniowej kombinacji prostych rozdzielających klasyfikowane grupy. Do nauki włączył ją Ronald Fisher. Analiza dyskryminacyjna dąży do przyłożenia prostej, która najlepiej różnicuje obiekty (zakładając, że jako dystans będziemy interpretować wariancję wewnątrzgrupową). Analiza dyskryminacyjna jest bardzo skuteczną metodą jeśli chodzi o separację obserwacji do grup tylko i wyłącznie w przypadku kiedy założenia podstawowe są spełnione. Wiele symulacji wskazuje, że w przypadku dużych prób założenie o normalności rozkładów może być niespełnione, ale w przypadku innych założeń warte jest ich sprawdzenie i krytyczne odniesienie się co do stanu modelu (np. zastosowanie kwadratowej funkcji). Poza tym, że model dykryminacyjny separuje grupy to analiza dyskryminacyjna wskazuje wektory wpływów i ocenia siłę przyczynowo skutkowych zależności. W skrócie pomaga określić jakie zmienne mają wpływ dodatni, a jakie ujemny w perspektywie przynależności do wyodrębnionych klas.

Najważniejsze miary w analizie dyskryminacyjnej.

R – moc dyskryminacyjna ( przyjmuje wartości z zakresu 0-1). Im wyższy wynik wym większa porcja wariancji klasyfikowania jest wyjaśniana przez pomiary uwzględnione w modelu dyskryminacyjnym.

Lambda Wilksa l-  Miara ta informuje o wariancji jaką wyjaśnia zmienna we wzorze dyskryminacyjnym grupy. W przypadku kiedy jest ona wysoka to znaczy, że dana zmienna ma słabą moc separującą. W przypadku niskiej jego wartości mamy do czynienia z podwyższoną porcją wyjaśnionej wariancji przez model dyskryminacyjny. Mamy wtedy do czynienia z lepszym modelem dyskryminacyjnym.

Odsetek poprawnych klasyfikacji – Dąży się do tego aby odsetek poprawnych klasyfikacji obserwacji do grup (jak we wszystkich metodach klasyfikacyjnych) był najmniejszy.