Analiza wątków w badaniu treści reklam Topic Modeling Text Mining

Analiza wątków Topic Modeling Text mining

Czym jest analiza wątków Topic Modeling Text mining?

Analiza wątków (z angielskiego Topic Modeling) to analiza statystyczna należąca do grupy technik ilościowej analizy tekstu (text mining). W tym wpisie chciałbym zaprezentować jej możliwości w odkrywaniu wiedzy dotyczącej tego co ludzie chcieliby wiedzieć na temat samochodów autonomicznych. Analiza wątków (topic modeling) jest techniką należącą do rodziny analiz statystycznych bez nadzoru, czyli takich w których nie ma kryteriów oceny modelu z perspektywy innych danych. Analiza wątków odkrywa pewną liczbę wątków która może być zgnieżdżona nie tylko w analizowanych dokumentach tekstowych, ale też w danych mających charakter symboliczny. Czyli takich w którym symbole mają nadane znaczenie np. kody serwisowe, identyfikatory części zamiennych, kody kreskowe itp. Struktura wątków jest zawsze ustalana przez analityka, a rezultatem tego ustalenia jest raport zawierający wagi przy danych słowach w poszczególnych wątkach. Fundamentalnym pytaniem które zadają sobie analitycy podczas takiej analizy jest to, ile ich w ogóle wybrać i czym się w tym wyborze kierować? Moim zdaniem przy wyborze ich ilości powinna decydować silna intuicja, eksperckie pojęcie na temat badanego uniwersum danych lub, jak w poniższym przykładzie, dobrze ugruntowana teoria naukowa.

Poniżej przedstawiam tylko zarays metody badawczej w której użyłem analizy wątków, a także krótki opis wyników. Myślę, że powinno to wystarczyć do zrozumienia potencjału tej techniki statystycznej.

Na czym polegała metoda badania dzięki której zebrano dane do analizy wątków (Topic Modeling)?

Za pośrednictwem elektronicznej ankiety, zadano 711 osobom 5 pytań dotyczących tego czego chcieliby się dowiedzieć na temat technologii autonomicznych samochodów (czyli takich samochodów które są prowadzone całkowicie przez komputer). Były to następujące pytania:

– Co byś chciał/a oglądać na reklamie usług transportowych w których jeżdżą samochody autonomiczne?

– Jaki miałaby mieć przekaz reklama takich autonomicznych samochodów?

– Co chciałbyś/abyś by w reklamie lub na prezentacji samochodu autonomicznego miało się dziać?

– Co byś chciał/a w niej zobaczyć lub dowiedzieć się na temat transportu autonomicznymi samochodami?

– Jakie wartości/idee miałby być przekazane w reklamie przewozów samochodem autonomicznym?

Ponad to zebrano podstawowe informacje demograficzne o badanych, a także inne informacje.

Wyniki analizy wątków (Topic Modeling)

Analizę wątków Topic Modeling wykonano w programie Orange 3 Biolab Studio (Biolab, 2020; Demsar et al., 2013).  Wykorzystano przy tym procedurę tokenizacji (zamiany słów na liczby), która bierze pod uwagę tylko słowa (bez znaków specjalnych, liczb, symboli itp.) Przetworzone wstępnie dane uzyskane od 711 badanych zwróciły informację o tym, że w zbiorze było 7797 tokenów słów oraz 111 ich rodzajów. Analizę wątków przeprowadzono dzięki technice Latent Dilichret Allocation (Asmussen & Møller, 2019; Brookes & McEnery, 2019). Technika ta analizuje słowa w każdym dokumencie i zwraca prawdopodobieństwo rozkładu pomiędzy słowami a latentną strukturą wątków (czyli ich utajoną liczbą, którą jak wspomniałem ustala użytkownik). W analizie wybrałem dwa wątki powołując się na teorię podwójnej perspektywy sprawczości i wspólnotowości (Abele & Wojciszke, 2014). Przewiduje ona to, że ludzie mogą odbierać technologię samochodów autonomicznych z perspektywy oceniającej (czy auto jest dla nich bezpieczne) oraz perspektywy realizacji swoich celów (jak dobrze auto realizuje ich  osobiste cele). Taka wskazówka pozwala oczekiwać dwóch różnych wątków w zgromadzonych danych.

Przeprowadzona analiza wątków – Topic Modeling – wykazała, że w wątku pierwszym dominowały słowa bezpieczny, kierowanie, droga, rodzina, bezpieczeństwo, komfort, środowisko, piękno, sytuacja, dziecko, wygląd, pasażer, radość itd. Drugi wątek był zdominowany przez słowa zaleta, ludzie, informacja, użycie, dobry, sposób, wiedzieć, transport, ważne, działania, kierowanie, system, niezły, rozwiązanie itd. Wyniki analizy wątków (topic modeling) pokazują poniższe chmury słów.

analiza wątków topic modeling text mining samochody autonomiczne text mining wspólnotowość

Słowa pojawiające się w wątku 1 (im większe słowo tym częściej się ono pojawiało).

analiza wątków topic modeling text mining samochody autonomiczne text mining sprawczość

Słowa pojawiające się w wątku 2 (im większe słowo tym częściej się ono pojawiało).

Podsumowanie

Jak oczekiwano, zebrane dane potwierdziły, że ludzie mają różne potrzeby informacyjne dotyczące autonomicznych samochodów. Przeprowadzona analiza wątków (tepic modeling text mining) pokazała, że badani poruszli w swoich wypowiedziach dwa różne wątki na temat tego co chcieliby wiedzieć na temat samochodów autonomicznych. Wątek 1 był bardziej związny z oczekiwaniami dotyczącymi bezpieczeństwa (zbieżnie z perspektywą oceniającą bezpieczeństwo), a wątek 2 był bardziej związany ze skutecznością i działaniem takiego auta (zgodnie z perspektywą użytkownika dążącego do swoich celów). Analiza ta jest daleka od tego, by na jej podstawie wyciągnąć jednoznaczne wnioski co do prawdziwości stawianych hipotez. Niemniej, pozwala ona na podglądanie natury ludzkiej, która skłania ludzi do oczekiwania informacji na temat bezpieczeństwa samochodu autonomicznego, a także jego działania.

Bibliografia:

Abele, A. E., & Wojciszke, B. (2014). Communal and agentic content in social cognition: A dual perspective model. In Advances in Experimental Social Psychology (1st ed., Vol. 50, pp. 195–255). https://doi.org/10.1016/B978-0-12-800284-1.00004-7

Asmussen, C. B., & Møller, C. (2019). Smart literature review: a practical topic modelling approach to exploratory literature review. Journal of Big Data, 6(1). https://doi.org/10.1186/s40537-019-0255-7

Biolab. (2020). Orange3 Text Mining Documentation. Retrieved from https://readthedocs.org/projects/orange3-text/downloads/pdf/latest/

Brookes, G., & McEnery, T. (2019). The utility of topic modelling for discourse studies: A critical evaluation. Discourse Studies, 21(1), 3–21. https://doi.org/10.1177/1461445618814032

Demsar, J., Curk, T., Erjavec, A., Gorup, C., Hocevar, T., Mulitinovic, M., … Zupan, B. (2013). Orange: Data Mining Toolbox in Python. Journal of Machine Learning Research, 14, 2350–2353.

Liu, H., Christiansen, T., Baumgartner, W. A., & Verspoor, K. (2012). BioLemmatizer: A lemmatization tool for morphological processing of biomedical text. Journal of Biomedical Semantics, 3(1), 1–29. https://doi.org/10.1186/2041-1480-3-3

Schmitz, C. (2012). LimeSurvey: An Open Source survey tool. Retrieved from www.limesurvey.org

Straka, M., & Straková, J. (2017). Tokenizing, POS tagging, lemmatizing and parsing UD 2.0 with UDPipe. CoNLL 2017 – SIGNLL Conference on Computational Natural Language Learning, Proceedings of the CoNLL 2017 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, 2, 88–99. https://doi.org/10.18653/v1/k17-3009