Analiza częstości publikowania wpisów na Metodolog.pl

Chociaż przeważająca część używanych w serii tekstów danych jest tekstowa, to – jak widać w powyższej tabeli – dysponujemy również jedną daną umożliwiającą bardziej konwencjonalną analizę, czyli datę. Głównym elementem naszego opracowania jest analiza tekstu, ale wiedzę na temat ewolucji bloga da również prześledzenie częstości, z jaką ukazywały się wpisy w poszczególnych okresach. Dlatego w tej części tekstu spróbujemy określić, w których okresach pojawiało się najwięcej wpisów, poszukać zależności między ich liczbą a czasem oraz zinterpretować wyniki.

Rozważymy okresy o długości:

  1. miesiąca,
  2. trzech miesięcy,
  3. sześciu miesięcy.

 

Do każdego wpisu przypisujemy charakterystyczny dla niego a-okres, na podstawie miesiąca, w którym został zamieszczony, począwszy od 1 (dla sierpnia 2015), a skończywszy na 33 (dla kwietnia 2018). B-okresy są tworzone jako zawierające a-okresy od 1 do 3 (dla b-okresu 1), od 4 do 6 (dla b-okresu 2) itd. Analogicznie jest z c-okresami.

Poprzez zliczenie, ile wpisów przypadło na określony okres, otrzymujemy poniższe wykresy. Dodana została na nich także linia trendu (utworzona metodą najmniejszych kwadratów).

 

Na wykresach widzimy, że w różnych miesiącach liczba publikowanych wpisów różniła się znacząco. Trudno na podstawie wykresów określić, co wpływało na zwiększanie się i zmniejszanie tej liczby – wahania nie miały charakteru okresowego, nie wydaje się też, aby występowało jakieś powiązanie liczby wpisów z okresami o większej ilości wolnego od pracy.

Można natomiast zauważyć, że z biegiem czasu liczba publikowanych wpisów zmniejsza się, co jasno pokazują linie trendu. Jest to prawdopodobnie związane z rozwojem firmy i tym, że od pewnego momentu jej strona była już wypromowana, a co za tym idzie – nie musiano wkładać tak dużo pracy w rozwój strony.

 

Analizy oraz wpis sporządził Pan Andrzej Porębski. Dziękujemy!

Przygotowanie danych do Text Miningu.

Przygotowanie danych do Text Miningu.

  1. Dane

1.1. Dane do text miningu to w naszym przypadku wpisy z naukowego bloga Metodolog.pl. Pozyskamy je, kopiując interesujące elementy każdego z wpisów. Pojedynczą obserwacją będzie zatem wpis na blogu Metodolog.pl, a cechami każdej z obserwacji: 1) data zamieszczenia; 2) tytuł; 3) treść wpisu.

Struktura wpisów sprawia, że trudno wyciągnąć z nich więcej odrębnych danych – nie posiadają one na przykład osobnej rubryki zawierającej informację o autorze lub konkretnej kategorii artykułu, nie znajdziemy pod wpisami komentarzy czytających.

 

1.2. Wszelkie dane najwygodniej umieścić w arkuszu kalkulacyjnym, np. Microsoft Excel. Po pierwsze, pozwoli nam to na łatwe kopiowanie, magazynowanie i przeglądanie danych oraz umożliwi wstępną obróbkę danych. Po drugie, wiele programów do analizy danych (w tym RStudio oraz Orange) umożliwia zaimportowanie danych wprost z arkusza kalkulacyjnego. Po trzecie, posiadając jako źródło plik arkusza kalkulacyjnego, bezpośrednio utworzyć można plik .csv, który jest powszechnie stosowanym formatem przechowywania danych statystycznych.

 

1.3. Ostatecznie, po zamieszczeniu w arkuszu interesujących nas danych, otrzymujemy 328 obserwacji. Kilka z nich powinno zwrócić naszą uwagę:

  1. a) w kilku przypadkach treść wpisu zawarta była w obrazku, czyli w perspektywie przeprowadzanego przez nas text miningu była nieanalizowalna; oczywiście tytuł tego wpisu był już typową daną tekstową – te wpisy potraktujemy zatem jako istniejące, ale niezawierające tekstu.
  2. b) w dwóch przypadkach treść wpisu składała się z ponad 32767 znaków, czyli przekraczały maksymalną pojemność jednej komórki arkusza kalkulacyjnego w programie Excel. To nie jedyny problem – taka ilość tekstu sprawiała, że wpisy te były swoistymi obserwacjami odstającymi – uwzględnienie ich w dalszej analizie skutkowałoby tym, że sumaryczna częstość występowania poszczególnych słów w nieproporcjonalnie dużym stopniu zależałaby od tych dwóch wpisów, co mogłoby utrudnić uzyskanie informacji oddających ogólną charakterystykę wpisów na stronie. Te dwie obserwacje zupełnie eliminujemy.

 

1.4. Posiadając już zbiorczo zgromadzoną zawartość wszystkich wpisów z bloga naukowego Metodolog.pl, można przejść do przetłumaczenia tekstu i tytułów na język angielski. Dlaczego jest to konieczne? Otóż niestety narzędzia wspomagające analizę tekstu, takiej jak słowniki stop words oraz stemmery (patrz niżej), najlepiej współpracują z tekstem w języku angielskim, a trudno znaleźć jakiekolwiek obsługujące język polski. Dlatego przetłumaczenie jest niezbędne do przeprowadzenia efektywnej analizy tekstu. Oczywiście w tym celu nie będziemy zatrudniać tłumacza przysięgłego, tylko wspomożemy się ogólnodostępnym tłumaczem internetowym – w naszym przypadku będzie to Google Translator.

Powstać może pytanie: czy znaczenia słów nie zostaną zmienione, czy tłumaczenie nie będzie niskiej jakości? Oczywiście, że będzie ono niewystarczające do komfortowego czytania takiego tekstu. Jednak tłumaczenie takie jest wystarczającej jakości, aby wykorzystać je do analizy tekstu. Dzieje się tak ze względu na kilka ważnych cech, które warto wyszczególnić. Po pierwsze, w analizie tekstu nie zależy nam na braku błędów językowych, składniowych czy stylistycznych w tłumaczeniu, ponieważ strukturę gramatyczną wypowiedzi i tak pomijamy. W analizie interesujące są tylko pojedyncze, powiązane z samoistnym znaczeniem słowa – a nie na przykład zachowanie stylu oryginału. Po drugie, widząc poważne błędu w tłumaczeniu łatwo nie zauważyć, że są jednak one dość rzadkie, jeśli spojrzeć z czysto statystycznego punktu widzenia. Jako ludzie biegle posługujący się danym językiem, jesteśmy bardzo wyczuleni na poważniejsze błędy językowe. Dlatego nawet, gdy stanowią one niewielki odsetek tekstu, będziemy traktować go jako niskiej jakości. Jednak te kilka procent błędów nie będzie znacząco wpływać na analizę ilościową – ogólna charakterystyka tekstu zostanie zachowana. Po trzecie, tłumacze internetowe, takie jak Google Translate, od czasu znaczącego unowocześnienia ich algorytmów, radzą sobie całkiem przyzwoicie z „suchymi” tekstami (w których walor stylistyczny oraz abstrakcyjne, liryczne, wysublimowane językowo konstrukcje nie mają takiego znaczenia) – a w przeważającej części to z takimi tekstami będziemy mieli do czynienia w ramach naszej analizy.

Na szczęście nie musimy każdego tekstu tłumaczyć osobno. Przy pomocy funkcji napisanej w języku Visual Basic for Application tłumaczenie z polskiego na angielski w arkuszu kalkulacyjnym Excel możemy zautomatyzować. Funkcja ta pozwoli na tłumaczenie tekstu o objętości do 10 000 znaków (ze spacjami). Pozostałe teksty stanowią niewielki odsetek całości i możemy przetłumaczyć je ręcznie. Kod funkcji w języku VBA widnieje poniżej (bazuje on na kodzie proponowanym pod adresem https://analystcave.com/excel-google-translate-functionality/).

 

Function ConvertToGet(val As String)

val = Replace(val, ” „, „+”)

val = Replace(val, vbNewLine, „+”)

val = Replace(val, „(„, „%28”)

val = Replace(val, „)”, „%29”)

ConvertToGet = val

End Function

 

Function Clean(val As String)

val = Replace(val, „"”, „”””)

val = Replace(val, „%2C”, „,”)

val = Replace(val, „'”, „‚”)

Clean = val

End Function

 

Public Function RegexExecute(str As String, reg As String, _

Optional matchIndex As Long, _

Optional subMatchIndex As Long) As String

On Error GoTo ErrHandl

Set regex = CreateObject(„VBScript.RegExp”): regex.Pattern = reg

regex.Global = Not (matchIndex = 0 And subMatchIndex = 0) ‚For efficiency

If regex.Test(str) Then

Set matches = regex.Execute(str)

RegexExecute = matches(matchIndex).SubMatches(subMatchIndex)

Exit Function

End If

ErrHandl:

RegexExecute = CVErr(xlErrValue)

End Function

 

Public Function TLUMACZ(rng As Range)

Dim getParam As String, trans As String, objHTTP As Object, URL As String

Set objHTTP = CreateObject(„MSXML2.ServerXMLHTTP”)

getParam = ConvertToGet(rng.Value)

URL = „https://translate.google.pl/m?hl=pl&sl=pl&tl=en&ie=UTF-8&prev=_m&q=” & getParam

objHTTP.Open „GET”, URL, False

objHTTP.setRequestHeader „User-Agent”, „Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.0)”

objHTTP.send („”)

If InStr(objHTTP.responseText, „div dir=””ltr”””) > 0 Then

trans = RegexExecute(objHTTP.responseText, „div[^””]*?””ltr””.*?>(.+?)</div>”)

TLUMACZ = Clean(trans)

Else

TLUMACZ = CVErr(xlErrValue)

End If

End Function

 

1.5. Ostatecznie ogólna struktura tabeli zawierającej posiadane przez nas dane prezentują się następująco:

 

L.p. Data Tytuł_pl Treść_pl Tytuł_ang Treść_ang
1 <data> <Tytuł wpisu> <Treść wpisu> <TLUMACZ(Tytuł_pl)> <TLUMACZ(Treść_pl)>
326 <data> <Tytuł wpisu> <Treść wpisu> <TLUMACZ(Tytuł_pl)> <TLUMACZ(Treść_pl)>

 

Jeśli nie zamierzamy korzystać z polskojęzycznych, nieprzetłumaczonych części, warto ramkę zredukować – będzie wtedy zajmowała znacząco mniej miejsca:

 

L.p. Data Tytuł_ang Treść_ang
1 <data> <Tytuł wpisu ang.> <Treść wpisu ang.>
326 <data> <Tytuł wpisu ang.> <Treść wpisu ang.>

Analizy oraz wpis sporządził Pan Andrzej Porębski. Dziękujemy!

Text Mining – ilościowa analiza tekstu

Text mining, czyli eksploracja lub przekopywanie tekstu, to zbiorcza nazwa dla metod analizy danych skupiających się na – jak sama nazwa wskazuje – danych tekstowych. Dzięki zastosowaniu metod text miningu możliwe jest uzyskanie z tekstu danych nadających się do ilościowej analizy statystycznej. Posługując się text miningiem, wykorzystuje się zupełnie inne podejście do danych tekstowych. Nie są już one traktowane jako dane wyłącznie jakościowe, lecz jako swoiste źródło danych ilościowych – przede wszystkim dotyczących częstości występowania poszczególnych słów w analizowanym tekście.

Text mining pozwala na względnie zautomatyzowane przeszukiwanie bardzo dużych porcji tekstu pod kątem występowania w nich słów kluczowych, ich zagęszczenia itp. To umożliwia stosowanie nowych metod analizy danych i pozyskiwanie nowego typu informacji, dotyczących miedzy innymi charakteru analizowanych tekstów czy zmienności częstości występowania słów kluczowych na przestrzeni czasu.

Źródłem danych do text miningu może być praktycznie wszystko wyrażone w języku – oczywiście pod warunkiem, że próba jest wystarczająco obszerna do zakładanych celów. Oczywiście specyfika przeprowadzanej analizy różnić się będzie w zależności od zestawu posiadanych danych. Na przykład, posiadając dla każdej informacji daną tekstową oraz daną ilościową, badać można wpływ występowania pewnych słów na zmianę danej ilościowej.

 

W prezentowanej serii tekstów przyjrzymy się możliwości wykorzystania technik text mining na konkretnym, praktycznym przykładzie. Zbadamy wpisy z bloga internetowego Metodolog.pl. Kolejno prześledzimy proces pozyskiwania i odpowiedniego przekształcania danych, podstawowe operacje w ramach text miningu, a także wykorzystanie tych metod w celu zbadaniaa informacji o charakterystyce – i zmienności – wpisów obecnych na stronie.

 

  1. Wykorzystane oprogramowanie

Istnieje wiele różnych środowisk umożliwiających analizę danych tekstowych. Charakteryzują się one odmiennym poziomem skomplikowania i oferowanymi funkcjonalnościami. Moduły do text miningu posiadają najpopularniejsze programy komercyjne (Statistica, SPSS), ale w tej prezentacji postawimy na program dostępne bezpłatnie, którego możliwości bez problemu wystarczą do przeprowadzenia interesującej nas analizy. Wykorzystywać będziemy:

  1. środowisko R (w wersji 3.5.0) wraz z programem RStudio (w wersji 1.1.447), wzbogacone o pakiety:
    1. dplyr,
    2. tidytext,
    3. ggplot2,
    4. RColorBrewer
    5. hunspell
    6. wordcloud,
  2. dodatkowo, do stworzenia bazy danych, Microsoft Excel.

 

Text mining wykonać można również w innych programach bezpłatnych, na przykład opartym na Pythonie programie Orange. Podstawowa różnica między środowiskami tkwi w tym, że Orange domyślnie bazuje na interfejsie graficznym (zatem analizę się „wyklikuje”), a R – na pisanych przez użytkownika komendach. Sprawia to, że rozpoczęcie przygody z Orange będzie dużo prostsze dla osób, które nie miały wcześniej do czynienia z programowaniem, ale jednocześnie środowisko to jest dużo bardziej ograniczone od R – możliwości analizy danych są dość znacząco zawężone przez opcje przewidziane przez twórców interfejsu graficznego. Z kolei środowisko R, dzięki możliwości rozszerzania niezliczoną liczbą pakietów oraz tworzenia własnych funkcji, oferuje prawie nieograniczone możliwości modyfikowania i analizowania danych, ale jest to okupione jego większym skomplikowaniem oraz koniecznością zapoznania się z samym językiem programowania.

Analizy oraz wpis sporządził Pan Andrzej Porębski. Dziękujemy!

Sprawa Cambridge Analytica okiem metodologa.

Sprawa Cambridge Analytica okiem metodologa.

Sprawa Cambridge Analytica okiem metodologa.

Sprawa Cambridge Analytica, którą intensywnie żyją ostatnimi czasy media, ludzie i polityka, nie będzie mieć szybkiego końca. Domniemywanie siły sprawczej tej firmy w kontekście wyborów w USA jest szeroko rozpowszechnione, a opinie ekspertów na ten temat jak zawsze podzielone. Jedni mówią, że wyniki wyborów były kierowane w pożądanym kierunku przez Cambrige Analytica, a drudzy, że działania jej nie miały na nie żadnego wpływu. O co w ogóle chodzi i jak to się wszystko zaczęło? Ano zaczęło się jak zwykle od szalonego, jak zawsze, naukowca. Chodzi o to, że właśnie pewien szalony naukowiec dostał nieskromny budżet na badania dotyczące różnic indywidualnych w kontekście lajkowania  materiałów na FB.

Czym właściwie są takie różnice indywidualne?

Ano są to fundamentalne różnice między ludźmi, które charakteryzują się wewnątrzosobniczą stałością i międzyosobniczą zmiennością. Krótko mówiąc ludzie różnią się w tym jaki lajkują materiał na FB oraz w jakiego typu interakcje wchodzą z facebookiem i ludźmi w nim zalogowanymi. Są to różnice stałe w czasie i względnie niepoddające się zmianom. Tę stałość zachowań wykorzystano w przesięwzięciu badawcznym, by określać ją za pomocą tzw. śladów cyfrowych (digital footprints). Badanie to wyglądało bardzo prosto. Aplikacja badawcza zainstalowana na fb posiadała cały zestaw  psychologicznych testów osobowości, inteligencji, postaw oraz innych skal mierzących takie różnice i za zgodą użytkownika zasysała dane z FB. Były nimi lajki, komentarze, informacje demograficzne (wspomniane digital footprints), a także informacje o znajomych. Taka metodologia badania to zwykłe badanie korelacyjne polegające na wiązaniu zmiennych psychologicznych ze zmiennymi z FB. Cel badawczy naukowca oczywiście był inny niż wpływanie na wyniki wyborów.

Kierowały nim pobudki czysto naukowe, czyli zwykła ciekawość poznawcza i pasja badawcza.

Niemniej wystarczyło poczekać na kogoś kto przyjdzie i się zapyta „Ej facet, można te wyniki zastosować w zmianie postaw wyborczych i ogólnie pojętym marketingu politycznym?”. Oczywiście, że można, można też wszystko później zwalić na ruskich hehe. Ekstrapolacja wiedzy z tych badań na kontekst wyborczy jest niezwykle prosta. Długa tradycja badań i teorii psychologicznych, a także żywe dane na temat użytkowników facebooka mogą być bez problemu zastosowane w opisie i przewidywaniu zachowań wyborczych. I tak się stało. Cambridge Analytica wykorzystało te dane do produkcji materiałów marketingowych o oczekiwanej skuteczności w selektywnie wybranych grupach społecznych. I teraz tak. Tutaj opinie ekspertów są podzielone. Jedni mówią, że taka manipulacja nie ma wpływu, a inni, że może być znacząca. Dlatego, wrzućmy na warsztat minusy tej metody lub czynniki które obniżają jej doskonałość, żeby nie było zbytnio kolorowo. Zacznijmy od samych testów psychologicznych wykorzystanych w badaniu szalonego naukowca. Testy te, a także każde inne testy psychologiczne, mają swoją rzetelność, czyli dokładność pomiaru danych zmiennych psychologicznych. One zawsze, w pewnym niewielkim zakresie, się mylą w pomiarze i ma to wpływ na dokładność predykcji w modelach statystycznych, która też nie jest  bez znaczenia (choć najnowsze analizy statystyczne drugiej generacji odciążają oszacowania wyników od błędu pomiarowego przez co rezultaty są dokładniejsze SEM-PLS). Algorytmy statystyczne również mają swoje wady. Są nimi trudności w radzeniu sobie z immanentnymi szumami w danych, wynikami przypadkowymi, artefaktami statystycznymi, obserwacjami odchylającymi się lub nietypowymi, a takżę błędy predykcji i błędy klasyfikacji wynikające z niedoskonałości danych wchodzących w algorytmy statystyczne. A w ogóle, głównym czynnikiem zakrzywiającym wyniki korelacji między cechami indywidualnymi, a lajkami jest, to że lajki i dane ludzi pozostawiane na FB są raczej pewną publiczną autoprezentacją w internecie niż prawdziwą ekspresją ludzkiej tożsamości. Powyższe argumenty nie napawają optymizmem w przewidywaniu zachowań… w skali mikro. W skali makro, dla uśrednionego obywatela mogą już mieć znaczenie w zmianie postaw, poznania, emocji i zachowania w stosunku do kandydata/obiektu. I w tej skali właśnie trzeba rozpatrywać wpływ Cambrigde Analytica. Podkreślić tutaj należy to, że wyprodukowane materiały marketingowe/propagandowe zostały stworzone na podstawie danych i teorii naukowych, a ich selektywna dystrybucja w odkryte, również w danych segmenty obywateli, była też nimi kierowana. Kierowanie tymi informacjami w mądry sposób, musiało zadziałać w istotny sposób, ale jaka była tego siła? Tego nie wiemy, ale moglibyśmy się dowiedzieć. Wystarczy zastosować metodologię Cambridge Analytica w kontekście np. referendów w małych miasteczkach. Kierując się taką metodą w układzie eksperymentu naukowego można by było zobaczyć, jaki wpływ na wyniki referendów w sprawie budowy mostu, wodociągu, drogi, wyboru burmistrza lub sędziego ma metoda Cambridge Analytica. Na podstawie takiego sposobu badania dezinformacji i propagandy politycznej, można sprawdzić jej wpływ na ludzkie decyzje w skali mikro i domniemywać, że w skali makro może mieć podobne efekty.

Moja osobista ocena tego jest taka.

W wyborach na wynik końcowy wpływa masa subtelnych czynników i liczy się każdy głos. Nawet jeśli metodologia Camridge Analityca nie ma dużej siły wpływu, ale „jakąś istotną ma” to jest warta pieniędzy, bo uprawdopodabnia osiągnięcie władzy. Będąc psychologiem, statystykiem i metodologiem w jednej osobie sądzę, że jeśli zabrały się za to osoby z głową na karku, to jest duża szansa, że sposób ten zadziałał w oczekiwanym kierunku. Gdybym ja miał pieniądze, władzę, wyniki badań i analiz, to wiedziałbym jak je skutecznie wykorzystać w kierowaniu marketingniem politycznym podczas wyborów i marketingiem w ogóle.

Jaka będzie przyszłość wykorzystywania wiedzy psychologicznej i analiz statystycznych w kontekście marketingu politycznego? Moim zdaniem sprawa Cambridge Analytica, to początek pewnego standardu. Tak jak kiedyś, ktoś postawił pierwsze billboardy reklamujące polityka, tak teraz normą stanie się „względnie” dokładne targetowanie i konkretny wpływ informacyjny poprzez internet. Ludzie zaczną się zastanawiać jak replikować wyniki naukowca i sprzedać się jako coś podobnego do Cambrige Analytica. Osobiście nie rozumiem tego całego szumu w okół tej sprawy. Od zawsze rynek wspierał polityków w kampaniach reklamowych, czy to za sprawą pieniędzy, usług, swoich ludzi (np. kler w Polsce!!!) czy wolontaryjnie.

Widocznie dochodzimy do momentu życia naszej kultury w której inteligentne działanie w internecie i przetwarzanie danych cyfrowych, to polityka uprawiana nowymi środkami.

 

Nieobserwowalna Heterogeniczność w PLS-SEM Metodolog.pl

Nieobserwowalna Heterogeniczność w PLS-SEM

Nieobserwowalna Heterogeniczność w PLS-SEM

Uwzględniana nieobserwowalna heterogeniczność w PLS-SEM stała się kluczowym elementem zapewniającym trafność wyników kiedy stosujemy modelowanie równań strukturalnych opartych o metodę cząstkowych najmniejszych kwadratów (SEM-PLS). Badacze rutynowo tworzą grupy danych i analizują ich grupowo specyficzne wyniki, by uwzględnić tę heterogeniczność w danych (Kotler, 1989). Niemniej źródła heterogeniczności w danych są często trudne do pojęcia a priori. Kiedy badacze nie uwzględnią heterogeniczności i obecności znacznych różnic międzygrupowych, wyniki analiz mogą być znacznie wątpliwe. Konsekwencją są wyciągane błędne i mylące konkluzje (Sarstedt i inni 2009). W modelowaniu równań strukturalnych w ogóle, a szczególnie w modelowaniu SEM-PLS odkrycie nieobserwowalnej heterogeniczności jest kluczową troską badacza i warto to podkreślać w kontekście oceny i podsumowania wyników (Hair i inni 2017). Stosowanie standardowych procedur grupowania danych, takich jak analiza k-średnich jest powszechnym podejściem do radzenia sobie z nieobserwowalną heterogenicznością.

Nieobserwowalna Heterogeniczność w PLS-SEM – Różnice międzygrupowe w odkrytych segmentach.

W kontekście PLS-SEM tradycyjne techniki grupowania zwracają słabe wyniki odnoszące się do identyfikacji różnic międzygrupowych pod względem szacowanych współczynników ścieżkowych. Tak więc badania oparte na metodologii stosowania SEM-PLS wymagają innych metod do identyfikowania i obróbki nieobserwowalnej heterogeniczności. Do tego typu przedsięwzięć coraz częściej wykorzystuje się techniki analizy klass latentnych (Sarstedt 2008). Stosowanie analizy klas latentnych jest dalekie od trywialnych. Użycie w SEM-PLS metody finite mixture PLS (FIMIX-PLS) jest najczęściej stosowanym podejściem analizy klas latentnych w SEM-PLS do tej pory. W analizie statystycznej wyników wykorzystujących SEM-PLS zaleca się wykorzystywanie tej metody do oceny heterogeniczności, a także do analizy wyników kryjących się w segmentach danego modelu. Procedura FIMIX-PLS jest obiecującym przedsięwzięciem analitycznym mającym na celu podjęcie decyzji o tym, czy nieobserwowalna heterogeniczność ma krytyczny wpływ na wyniki poddawane analizie. Jeśli zjawisko haterogeniczności w analizowanych danych zachodzi, to bazując na rezultatach metody FIMIX-PLS, badacz może podjąć decyzję o dążeniu do identyfikacji segmentów zagnieżdżonych w danych i ich interpretacji. Stosowanie wielogrupowych analiz modeli strukturalnych opartych na odkrywaniu segmentów w heterogenicznych danych daje wgląd w nieoczekiwane, a możliwe do interpretacji rezultaty badań.

Poniżej przedstawiamy algorytm odkrywania segmentów w modelach SEM-PLS.

  1. Współczynniki AIC i CAIC powinny wskazywać tę samą ilość segmentów
  2. Ilość obserwacji w segmentach powinna być wystarczająca w kontekście skomplikowania modelu strukturalnego SEM
  3. Przypisanie obserwacji do danego segmentu bazując na prawdopodobieństwach FIMIX-PLS
  4. Przeprowadzenie analizy ex-post; Czy wyniki są interpretowalne?; Czy można wyróżnić grupy poprzez zmienne eksploracyjne?
  5. Ocena invariancji (niezmienności modeli);

a) Brak invariancji pomiarowej – możliwe jest interpretowanie wyników współcznników ścieżkowych modelu w odkrytych segmentach

b) Częściowa invariancja pomiarowa – porównywanie segmentów za pomocą formalnej analizy porównującej grupy pod względem nasilenia współczynników ścieżkowych modelu

c) Całkowita invariancja pomiarowa – porównywanie segmentów za pomocą formalnej analizy porównującej grupy lub analizowanie danych na zagregowanym poziomie danych przy jednoczesnym rozważeniu analizy moderacji danych ścieżek modelu.

 

Bibliografia:

Kotler, P. (1989). From mass marketing to mass customization. Planning Review, 17, 10–47.

Sarstedt, M. (2008). A review of recent approaches for capturing heterogeneity in partial least squares path modelling. Journal of Modelling in Management, 3, 140–161.

Hair, J. F., Sarstedt,M.,Matthews, L.,&Ringle, C.M. (2016). Identifying and treating unobserved heterogeneity with FIMIX-PLS: Part I –Method. European Business Review, 28(1), 63–76