Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych

Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych

Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych?

 

Wstęp

Jeszcze do niedawna modele regresyjne stanowiły nieodłączny element dowodzenia statystycznego w nauce i biznesie (Fox, 2016; Pearl, 2009). To właśnie ogólny model liniowy regresji i metoda najmniejszych kwadratów rozbudzały wyobraźnię badaczy w kwestii projektowania badań, metod pomiarów i weryfikacji hipotez o przyczynowości. To dzięki analizie regresji i licznym statystykom wykorzystywanym do porównywania właściwości predykcyjnych modeli, samych współczynników regresji, funkcji sklejanych, określania istotności mediatorów (Baron & Kenny, 1986) lub moderatorów (Mayers), dowodzenie prawidłowości obserwowanych zjawisk stawała się faktem z mocnym zapleczem statystycznym. Dowód statystyczny przedstawiony w postaci modelu analizy regresji oraz szeregu statystyk specyfikujących wyniki dookreślające model, był i będzie przez jakiś czas stanowił szczególny element w planie badawczym większości naukowców (Andraszewicz et al., 2015; Wagenmakers, Love, et al., 2017; Wagenmakers, Marsman, et al., 2017).

Niemniej od pewnego czasu spostrzegam w swojej firmie zwiększone zainteresowanie naukowców, a także i niekiedy firm, dotyczące wykorzystywania technik modelowania równań strukturalnych (Structural Equations Modeling SEM) (Iacobucci, 2010; Vinzi, Trinchera, & Amato, 2010). Te już nie tak nowe metody dowodzenia statystycznego stają się coraz bardziej popularne i pożądane w pracach empirycznych oraz projektach biznesowych. Napiszę wpierw krótko o samej technice modelowania równań strukturalnych, a następnie odpowiem na pytanie postawione w starej, ale dobrej futurologicznej manierze „Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych?”.

Modelowanie równań strukturalnych

Modelowanie równań strukturalnych to zbiór technik pozwalających badaczowi dowolnie specyfikować model statystyczny (Kock & Gaskins, 2016). Dzięki tej elastyczności, naukowcy mogą weryfikować nawet najbardziej wyśrubowane przewidywania teoretyczne. Niemniej, niezależnie od nawet najbardziej szalonego przewidywania i modelu równań strukturalnych, metoda ta odpowiada w pewien sposób na zasadnicze pytanie dotyczące dowodzenia prawdy naukowej „Czy zebrane dane w badaniu empirycznym pokrywają się z moimi przewidywaniami teoretycznymi?”. Czyli tłumacząc to prościej „Czy moje rozumowanie ma pokrycie w danych?”.

Jak już wiemy świat nauki jest pełen różnorodnych przewidywań teoretycznych. Niestety, wiemy już z doświadczenia naukowego też, że niektóre z nich mogą być zbyt złożone, by mogły być weryfikowane przez metody statystyczne które powstały w przeszłości z myślą o weryfikacji prostych zależności . Mówię tutaj „prostych” z punktu widzenia teraźniejszości w której mamy do dyspozycji modele SEM, a także inne nowoczesne techniki statystyczne np. text mining lub analizy genetyczne, przetwarzanie obrazu itp. itd. Dlatego zastanówmy się, co modele SEM mogą nam zaproponować już na etapie myślenia o metodzie badania?

Porównanie możliwości modelu regresji z modelami strukturalnymi

Możliwość dokładnego pomiaru i weryfikacji wielu skutków jednocześnie

Porównując model regresji z modelem równań strukturalnych możemy dostrzec, według mnie, najbardziej bijącą po oczach różnicę. Jest to ilość możliwych do testowania zmiennych zależnych, jednocześnie! Analiza regresji osiąga swoje limity już przy jednej zmiennej zależnej, a w przypadku analizy modelowaniem równań strukturalnych ich ilość jest ograniczana jedynie przez fantazję badacza (Iacobucci, 2010; Kock, 2011; Pearl, 2009), metodologię badawczą i możliwości obliczeniowe komputera (Kock, 2017c). Powiedzmy, że jest to pierwsza cecha modeli strukturalnych która będzie kształtować myślenie badaczy o dowodzeniu naukowym, czyli możliwość pomiaru i testowania wielu skutków jednocześnie.

Taki obraz statystyczny, który przedstawia nam wpływ przyczyn/y na wiele skutków (które są kontrolowane w modelu jednocześnie) pozwala na wyciągnięcie wniosków bardziej zbliżonych do sytuacji rzeczywistej (zakładając, że metodologia badań i pomiarów jest dobra). Mówię tutaj o sytuacji rzeczywistej z tego względu, że w rzeczywistości taka jaka nam się jawi przyczyny i skutki oddziałują na siebie jednocześnie lub ewentualnie są rozłożone w czasie (co model SEM może również uwzględniać). W przypadku modeli regresyjnych jednoczesna kontrola wielu zmiennych zależnych nie jest możliwa.

Analiza efektów słabych i analiza statystyczna małych próbek

Analiza regresji jest analizą która wykorzystuje do analizy zmienne mierzone z błędem pomiarowym (zmienne latentne). Zmienną z błędem pomiarowym jest np. mierzony kwestionariuszowo odczuwany przez człowieka afekt pozytywny vs negatywny (Crawford & Henry, 2004; Quirin, Kaze, & Kuhl, 2009; Quirin et al., n.d.). Na taki pomiar składa się kilka pytań testowych (wskaźników) które poddane przekształceniu tworzą zmienną. Ze względu na to, że model analizy regresji nie przewidywał kontroli błędu pomiarowego, szacowane wyniki analizy są liczone z błędem pomiaru (czyli pomiar + błąd). W przypadku modelowania równań strukturalnych (Kock, 2017a, 2017b, 2019a, 2019b) możemy odciążyć wyniki od wpływu błędu pomiarowego. Modele SEM mogą kontrolować wielkość błędów pomiarowych i zwracać wyniki skorygowane właśnie o ten błąd. Oznacza to, że błędy standardowe oszacowań regresji techniką SEM są o wiele mniejsze niż błędy standardowe uzyskane w klasycznych analizach regresji. Jeśli w toku analizy uzyskamy mniejsze błędy standardowe, to zwiększamy prawdopodobieństwo uzyskania wyników istotnych (Korzystając z okazji, warto wspomnieć o wykładniczym wygładzaniu błędów standardowych w analizie SEM-PLS, które zwraca wyniki lepsze niż np. bootsrap (Kock & Hadaya, 2018)).

Co za tym wszystkim idzie w konsekwencji dla praktyki badawczej? Możliwe staje się testowanie efektów (przyczyn) o słabej silne. Np. wpływu aktywizacji pieniądza na zachowania związane z działaniem wspólnotowym i sprawczym (Abele & Wojciszke, 2014; Vohs, Mead, & Goode, 2006). Bywa, że efekty te nie są replikowane i jedną z przyczyn mogą być wykorzystywane metody statystyczne. Dzięki technikom modelowania równań strukturalnych staje się sensowne projektowanie badań w których przyczyny mają słaby wpływ na interesujące badacza zmienne ponieważ istnieje już narzędzie które jest w stanie taki słaby wpływ zweryfikować (korzystając z okazji zachęcam do skorzystania z kalkulatorka wyliczania minimalnej wielkości próbki KLIK). Technika ta staje się ratunkiem dla wyników nieistotnych które były  testowane metodami klasycznymi np. wspomnianą analizą regresji.

Cyrkularne zależności

Cyrkularne zależności są to wzajemne relacje między zmiennymi. Relację taką opisuje sytuacja w której zmienna niezależna wpływa na zmienną zależną, ale zwrotnie zmienna zależna może wpływać na zmienną niezależną. Np. apetyt może wpływać na wielkość jedzonych posiłków (dodatnia relacja), ale zwrotnie wielkość posiłków może redukować apetyt (ujemna relacja). Tego typu wnioski mogą być zbyt przesadzone w oderwaniu od metodologii takich badań, ale są pewnego rodzaju możliwością która staje się faktem statystycznym przy wymodelowaniu takiego zjawiska techniką równań strukturalnych. Technika ta stwarza potencjał to myślenia nad badaniami mogącymi weryfikować tego typu zależności.

Nieparametryczny charakter analizy

Nieparametryczny charakter techniki statystycznej jest szczególnie istotny w przypadku badań w których mamy do czynienia z rozkładem innym niż normalny np. kiedy bada się czynniki wpływające na ilość posiadanych dzieci. W przypadku analiz regresji jest niezbędne wykonywanie modeli regresji które kontrolują kształt rozkładu zmiennej zależnej np. rozkładu Poissona (ilość posiadanych dzieci ma właśnie taki rozkład w populacji) lub jej typ pomiaru (np. porządkowy). W przypadku modelowania równań strukturalnych (mówię tu o metodzie PLS (Rodríguez-Entrena, Schuberth, & Gelhard, 2016) ten problem zanika ze względu na nieparametryczny sposób wyliczania oszacowań ścieżkowych dzięki metodom próbkowania (bootstrap, blindfold). Metody próbkowania wyliczane są w oparciu o wyniki uzyskane w próbie, a nie w oparciu o założony z góry rozkład (Tenenhaus, Esposito, Chatelin, & Lauro, 2005). Odporność na złamanie założeń o rozkładzie normalnym, wielkości próbki (szczególnie w przypadku modelowania SEM-PLS) oraz skali pomiaru pozwala badaczom pokonać bariery stojące nad analizą ich wyników. Warto wspomnieć, że powyższe założenia statystyczne jest BARDZO ciężko spełnić w całości ze względu na metody pomiarowe, koszt badań lub metodologię.

Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych?

Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych? Moim zdaniem techniki SEM-PLS i SEM-CB będą stawały się coraz bardziej popularne wśród polskich badaczy i firm. Jeśli ta popularnośc będzie wzrastać, to będziemy mieć do czynienia wśród badaczy ze zmianami w kwestii zwiększonej częstości formułowania kompleksowych przewidywań i projektowaniem metodologii pod możliwości jakie stwarzają modele SEM. Moim zdaniem wynikiem tych zmian będzie większa trafność formułowanych wnioskó i zwiększone zaufanie co do dowodzonej prawdy na temat świata i naszego w nim życia.

Co zmieni modelowanie równań strukturalnych w zachowaniu badaczy

  • będą testować większą ilość testownych skutków
  • będą inwestować wysiłki nawet w słabe efekty weryfikowane na małych próbkach
  • będą projektować jeszcze bardziej wyrafinowane metodologie badawcze
  • nie będą musieli troszczyć się o spełnienie trudnych do spełnienia założeń statystycznych (wielkość próby, typ rozkładu i rodzaj skali pomiaru)

Jak modelowanie równań strukturalnych ukształtuje nasze myślenie o badaniach naukowych?

Bibliografia:

Abele, A. E., & Wojciszke, B. (2014). Communal and agentic content in social cognition: A dual perspective model. In Advances in Experimental Social Psychology (1st ed., Vol. 50, pp. 195–255). https://doi.org/10.1016/B978-0-12-800284-1.00004-7

Andraszewicz, S., Scheibehenne, B., Rieskamp, J., Grasman, R., Verhagen, J., & Wagenmakers, E.-J. (2015). An Introduction to Bayesian Hypothesis Testing for Management Research. Journal of Management, 41(2), 521–543. https://doi.org/10.1177/0149206314560412

Baron, R. M., & Kenny, D. A. (1986). The Moderator-Mediator Variable Distinction in Social The Moderator-Mediator Variable Distinction in Social Psychological Research: Conceptual, Strategic, and Statistical Considerations. Journal of Personality and Social Psychology, 51(6), 1173–1182. https://doi.org/10.1037/0022-3514.51.6.1173

Crawford, J. R., & Henry, J. D. (2004). The Positive and Negative Affect Schedule ( PANAS ): Construct validity , measurement properties and normative data in a large. 245–265.

Fox, J. (2016). Applied regression analysis and generalized linear models. 864.

Iacobucci, D. (2010). Structural equations modeling: Fit Indices, sample size, and advanced topics. Journal of Consumer Psychology, 20(1), 90–98. https://doi.org/10.1016/j.jcps.2009.09.003

Kock, N. (2011). Using WarpPLS in e-Collaboration Studies: Mediating Effects, Control and Second Order Variables, and Algorithm Choices. International Journal of E-Collaboration, 7(3), 1–13. https://doi.org/10.4018/jec.2011070101

Kock, N. (2017a). Structural equation modeling with factors and composites: A comparison of four methods. 1–9.

Kock, N. (2017b). VARIATION SHARING : A NOVEL NUMERIC SOLUTION TO THE PATH BIAS UNDERESTIMATION PROBLEM OF PLS-BASED SEM. 1–27.

Kock, N. (2017c). WarpPLS User Manual: Version 6.0. Retrieved from http://cits.tamiu.edu/WarpPLS/UserManual_v_6_0.pdf#page=77

Kock, N. (2019a). Factor-based structural equation modeling with WarpPLS. Australasian Marketing Journal (AMJ). https://doi.org/10.1016/j.ausmj.2018.12.002

Kock, N. (2019b). From composites to factors: Bridging the gap between PLS and covariance-based structural equation modelling. Information Systems Journal, 29(3), 674–706. https://doi.org/10.1111/isj.12228

Kock, N., & Gaskins, L. (2016). Simpson’s paradox, moderation, and the emergence of quadratic relationships in path models: An information systems illustration. International Journal of Applied Nonlinear Science, 2(3), 200–234. https://doi.org/10.1109/ICUMT.2009.5345351

Kock, N., & Hadaya, P. (2018). Minimum sample size estimation in PLS-SEM : The inverse square root and gamma-exponential methods. 227–261. https://doi.org/10.1111/isj.12131

Mayers, A. (n.d.). Introduction do Statistics and SPSS in Psychology.

Pearl, J. (2009). Causality: Models, Reasoning and Inference (2nd ed.). https://doi.org/10.1017/CBO9780511803161

Quirin, M., Kaze, M., & Kuhl, J. (2009). When Nonsense Sounds Happy or Helpless : The Implicit Positive and Negative Affect Test ( IPANAT ). 97(3), 500–516. https://doi.org/10.1037/a0016063

Quirin, M., Wróbel, M., Pala, A. N., Steiger, S., Brasschot, J., Kazen, M., … Shanchuan, D. (n.d.). A Cross-Cultural Validation of the Implicit Positive and Negative Affect Test (IPANAT): Results from Ten Countries Across Three Continents. European Journal of Psychological Assessment.

Rodríguez-Entrena, M., Schuberth, F., & Gelhard, C. (2016). Assessing statistical differences between parameters estimates in Partial Least Squares path modeling. Quality and Quantity, (August), 1–13. https://doi.org/10.1007/s11135-016-0400-8

Rodríguez-Entrena, M., Schuberth, F., & Gelhard, C. (2018). Assessing statistical differences between parameters estimates in Partial Least Squares path modeling. Quality and Quantity, 52(1), 57–69. https://doi.org/10.1007/s11135-016-0400-8

Tenenhaus, M., Esposito, V. V., Chatelin, Y.-M., & Lauro, C. (2005). PLS path modeling. Computational Statistics & Data Analysis, 48(1), 159–205. https://doi.org/10.1016/j.csda.2004.03.005

Vinzi, V. E., Trinchera, L., & Amato, S. (2010). Handbook of Partial Least Squares. https://doi.org/10.1007/978-3-540-32827-8

Vohs, K. D., Mead, N. L., & Goode, M. R. (2006). The Psychological Consequences of Money. Science, 314(5802), 1154–1156. https://doi.org/10.1126/science.1132491

Wagenmakers, E.-J., Love, J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., … Morey, R. D. (2017). Bayesian inference for psychology. Part II: Example applications with JASP. Psychonomic Bulletin & Review. https://doi.org/10.3758/s13423-017-1323-7

Wagenmakers, E.-J., Marsman, M., Jamil, T., Ly, A., Verhagen, J., Love, J., … Morey, R. D. (2017). Bayesian inference for psychology. Part I: Theoretical advantages and practical ramifications. Psychonomic Bulletin & Review, 1–42. https://doi.org/10.3758/s13423-017-1343-3