Wykorzystanie IRT (item response theory) do adaptacyjnych testów komputerowych (CAT) - detaliczna diagnostyka jakości kwestionariusza i redukcja czasu badania

Wykorzystanie IRT (item response theory) do adaptacyjnych testów komputerowych (CAT)

Wykorzystanie IRT (item response theory) do adaptacyjnych testów komputerowych (CAT) – detaliczna diagnostyka jakości kwestionariusza i redukcja czasu badania

WYKORZYSTANIE IRT (ITEM RESPONSE THEORY) DO ADAPTACYJNYCH TESTÓW KOMPUTEROWYCH (CAT)

Plan artykułu:

  • Czym jest IRT?
    1. Wstęp – definicja
    2. Wyjaśnienie na przykładzie – objaśnienie różnic między klasycznym podejściem a podejściem IRT.
  • Jakie są zalety wdrażania IRT
    1. Dokładna analiza struktury testu – jakie dodatkowe informacje o teście zyskujemy dzięki wykorzystaniu IRT
    2. Tworzenie adaptacyjnych testów komputerowych CAT (computer adaptive testing) – co daje możliwości implementacji IRT do testowania adaptatywnego
  • Jakie wymogi musimy spełnić by stworzyć test CAT – czyli łyżka dziegciu w beczce miodu.

 

Czym jest IRT?

1a) Wstęp.

IRT (ang. Item Response Theory) to w psychometrii paradygmat projektowania, analizowania oraz punktowania testów/kwestionariuszy mierzących zdolności, nastroje i inne zmienne. W odróżnieniu od alternatywnych, prostszych podejść dla tworzenia skal i oceniania odpowiedzi kwestionariuszowych (np. do powszechnie używanego podejścia nazywanego Klasyczną Teorią Testu) nie zakłada, że wszystkie pozycje mierzą ten sam stopień natężenia cechy i charakteryzują się taką samą jakością. Jak lepiej to zrozumieć?

1b) Wyjaśnienie na przykładzie.

Na potrzeby wyjaśnienia stworzyłem przykład testu poznawczego (test wiedzy matematycznej) oraz przykład testu afektywnego (test satysfakcji z życia).

Test poznawczy: Badanemu zadawane jest pytanie dotyczące jego wiedzy matematycznej. Są tylko dwie możliwe opcje odpowiedzi: badany odpowie poprawnie bądź nie.

Test wiedzy matematycznej Odp. niepoprawna Odp. poprawna
A.      2 + 2 = ?
B.      8+8*8=?
C.      (3!-4)3+1/(24)

 

Analizując wyniki dla powyższych testów zgodnie z klasycznym podejściem sumujemy punktacje odpowiedzi badanego na te 3 pytania otrzymując wynik ogólny przedstawiających wskaźnik poziomu wiedzy matematycznej respondenta. Taki sposób wyliczania wyniku wymaga założenia, że pozycje są identyczne pod kątem ważności mierzonej cechy, tzn. wzór odpowiedzi badanego nr 1: A-1 B-1 C-0 (suma punktów = 2) będzie zwracał taki sam wynik poziomu wiedzy matematycznej co wzór badanego nr 2: A-1 B-0 C-1 (suma punktów = 2) dlatego chcąc nie chcąc zakładamy, że pozycje są równie ważne.

A jak by to wyglądało w przypadku podejścia IRT?

Po pierwsze dzięki IRT moglibyśmy otrzymać 4 informacje o każdej z pozycji testowych. Tymi informacjami są:

  1. Dyskryminacja pozycji testowej (oznaczana symbolem „a”) – informacja o tym jak dobrze dana pozycja rozróżnia osoby o niższym natężeniu cechy od osób o wyższym natężeniu cechy. Weźmy na warsztat pozycje A. Gdyby okazało się, że ta pozycja doskonale rozdziela grupę respondentów na tych którzy nie skończyli przedszkola (osoby, które nie odpowiedziały poprawnie na pytanie) od tych którzy przedszkole ukończyli (wszyscy badani po skończeniu przedszkola odpowiadali poprawnie) wtedy byśmy mogli stwierdzić że pozycja charakteryzuje się wysokim parametr dyskryminacji. Innymi słowy, pozycja wysoce dyskryminująca, nie ważne łatwa, umiarkowana czy trudna, bardzo dokładnie rozdziela badanych na tych o mniejszym i o większym natężeniu analizowanej cechy. Wysoka dyskryminacja jest pożądaną cechą i IRT umożliwia diagnozę pozycji pod tym kątem, co w przypadku klasycznego podejścia jest całkowicie zaniedbywane.
  2. Trudność pozycji testowej (oznaczana symbolem „b”) – jak dana pozycja wypada na tle innych pod kątem natężenia cechy którą mierzy – czy badani w większości przypadków odpowiadali poprawnie na tę pozycję czy nie. W przykładowym teście wiedzy matematycznej najprostsza (o najniższej wartości parametru b) będzie oczywiście pozycja A., później B zaś najtrudniejsza C. IRT pozwala na diagnozę parametru trudności każdej pozycji co w przypadku klasycznego podejścia jest zaniedbywane.
  3. Dolna asymptota pozycji testowej („c”)
  4. Górna asymptota pozycji testowej („d”)

Parametry „c” i „d” są rzadziej wykorzystywane od „a” i „b”, zaś ich wytłumaczenie wymagałoby trochę bardziej złożonych wyjaśnień, dlatego znalazły się one poza zakresem tego wpisu.

Jeżeli są tu z nami osoby zajmujące się wykorzystywaniem testów afektywnych (tzn. takich w których nie ma zły/dobrych odpowiedzi, bo badani opisują najczęściej siebie, bądź innych  w kontekście stanów psychicznych) to się świetnie składa, bo IRT tak samo doskonale sprawdza się w przypadku testów afektywnych. Innymi słowy informacje o parametrach dyskryminacji i trudności moglibyśmy uzyskać równie dobrze dla pytań z poniższej, wymyślonej skali satysfakcji z życia.

Test afektywny: Badany proszony jest by odpowiedział na 3 poniższe pytania na 5 stopniowe skali Likerta, gdzie 5 oznacza zdecydowanie się zgadzam, zaś 1 zdecydowanie się nie zgadzam.

Treść pytania SKALI SATYSFAKCJI Z ŻYCIA 1 2 3 4 5
A.      Moje życie jest idealne pod każdym względem.
B.      Gdy wstaje nad ranem i myślę o nadchodzącym dniu, wypełnia mnie optymizm.
C.      Lubię moje życie.

 

Podsumowując wykorzystując IRT nie zakładamy, że wszystkie pozycje są takie same (klasyczne podejście) ale jesteśmy w stanie każdą z nich opisać pod kątem dyskryminacji i trudności. Jak wielkie jesteśmy w stanie z tego czerpać korzyści opisuję dalej.

Jakie są zalety wdrażania IRT

2a) Dokładna analiza struktury testu.

Jeżeli chcemy by test zawierał pozycje odnoszące się zarówno do niskiego natężenia analizowanej cechy (np. niskiego poziomu wiedzy matematycznej) jak i do wysokiego poziomu, przy jednoczesnej kontroli jakości tych pozycji (dyskryminacja) nie mamy innej opcji jak skorzystać z IRT. Dodatkowo możemy tak dobierać sobie pozycje testowe by nasz test charakteryzował się dokładnie taką rzetelnością jakbyśmy oczekiwali.

2b) Tworzenie adaptacyjnych testów komputerowych (computer adaptive testing)

Najciekawsze zaczyna się jednak teraz.

Dzięki podstawom teoretycznym IRT możliwe jest tworzenie adaptacyjnych testów komputerowych (w skrócie CAT – computer adaptive testing) tzn. testów samodopasowujący się do wiedzy badanego dzięki czemu istotnie redukujących czas trwania badania. W jaki sposób? Omówię to na przykładzie testów inteligencji:

Standardowe testy inteligencji zaczynają się od bardzo prostych pytań, przechodzą przez umiarkowane aż po jakiś 20/25 minut przejść do wyjątkowo skomplikowanych zadań, które jedynie nieliczni są w stanie rozwiązać. Procedura ta jest tak pomyślana, by jeden test wystarczył by móc oceniać inteligencję na pełnym wymiarze jej continuum. Jednakże tracimy dużo czasu, gdy osoby bardzo inteligentne muszą przechodzić przez szereg prostych dla nich zadań by na sam koniec zmierzyć się z pytaniami stanowiącymi dla nich wyzwanie.

CAT sprytnie omija ten problem. W jaki sposób? Algorytm CAT wyliczają najbardziej prawdopodobny poziom cechy badanego na podstawie dotychczasowego wzoru odpowiedzi. Zwyczajowo zaczyna się badanie od wylosowanie pozycji testowej o umiarkowanym poziomie trudności. Jeżeli badany odpowiedzi na nią poprawnie, algorytm wylicza najbardziej prawdopodobny poziom badanego i losuje taką pozycję, która będzie najlepiej dopasowano do obecnie wyliczonego poziomu wiedzy badanego. Najlepiej dopasowany poziom trudności to taki, w którym badany ma 50% szans na poprawną odpowiedź. Tzn. jeżeli zakładamy, że mamy do czynienia z dzieckiem w wieku około przedszkolnym zadamy mu pytanie „A” z testu wiedzy matematycznej, jeżeli odpowie poprawnie będziemy mogli założyć, że raczej ukończyło przedszkole, jeżeli nie odpowie poprawnie założymy na odwrót. Nie byłoby sensu osobie w wieku około przedszkolnym zadawać pytania „C”, gdyż łatwo przewidywalny fakt błędnej odpowiedzi nie dostarczyłby nam informacji czy jest ona lepsza czy gorsza od swoich rówieśników, bo na pewno odpowiedziałaby źle.

Podsumowując dzięki CAT możemy zredukować czas trwania testu około 50% przy zachowaniu tych samych wartości rzetelności/jakości testu.

Takie testy mniej nużą badanych, pozwalając na utrzymanie motywacji na wysokim poziomie przez cały okres trwania badania, zwracając wyniki mniej obciążone o błąd pomiaru.

Jakie wymogi musimy spełnić by stworzyć test CAT?

Tworzenie testu CAT jest  jednak bardziej wymagające od klasycznego podejścia. Przede wszystkim musimy posiadać dużą bazę pozycji testowych z których algorytm CAT będzie losował pytania. W zależności od typu testu i mierzonej cechy baza pozycji testowych powinna być od 3 do 10 razy większa od docelowej długości testu. Jeżeli planujemy badać wiedzę matematyczną przy użyciu 10 pozycji testowych (nie chcemy używać większej ilości pozycji, bo zależy nam na czasie) wtedy baza danych powinna zawierać od 30 do 100 pozycji testowych.

W odróżnieniu od podejścia klasycznego w którym po stworzeniu pozycji testowych w zasadzie od razu możemy przejść do ich użycia, w przypadku CAT najpierw musimy przebadać skonstruowane pozycje testowe na odpowiednio dużej grupie badanych. Wielkość te grupy zależy od wielu czynników i każdorazowo jest oszacowywana indywidualnie do potrzeb danego testu.

Autor tekstu:

Łukasz Rąbalski

spec. ds. Analiz Statystycznych i Metodologii Badań

 

Antysemityzm jako forma rasizmu.

Psychofizjologiczne podstawy antysemityzmu jako specyficznej formy rosizmu

Antysemityzm jako forma rasizmu.

Konrad Hryniewicz – Psychofizjologiczne podstawy antysemityzmu jako specyficznej formy rosizmu.

Mamy wszelkie powodu ku temu, aby w obecnej sytuacji rozwojowej historii kultury i techniki ludzkiej uważać agresję wobec żydów za duże niebezpieczeństwo dla stabilności pokoju na świecie. Nie poprawimy szansy na stawienie czoła tej groźbie przez traktowanie antysemityzmu jako zjawiska metafizycznego i nieuniknionego. Może natomiast sprostamy temu zadaniu przez zbadanie łańcucha przyczyn, które antysemityzm wyzwalają.

Antysemityzm jako formę rasizmu wobec żydów trzeba rozpatrywać niestandardowo. Róźnice w wyglądzie między ludźmi wyznającymi Judaizm, a reprezentantami innych wyznań religijnych nie są wyraźnie dostrzegalne np. w Polsce, gdzie mamy do czynienia ze „względnie” homogeniczną rasowo nacją. Skutkuje to tym, że dyskryminacja nie polega na fizycznym dostrzeganiu „obcego” wśród „swoich” na własnym terytorium, ale na aktywizacji duchowej lub wyobrażonej obecności obcego, zachowaniu czujności i reagowania kiedy wszczęty zostanie alarm. W eseju tym będą przeze mnie podkreślane psychologiczne czynniki, a konkretnie mechanizmy agresji wewnątrzgatunkowej, które mogą stanowić przyczynę obecności antysemityzmu jako specyficznej formy przejawiania rasimu. Wychodząc dalej, będę starał się ukazać antysemityzm jako formę rasizmu w którym kluczową rolę odgrywa mechanizm przejawiania wewnątrzgatunkowej agresji..

W celu rozwinięcia wywodu skupię się na podstawowych pojęciach pojawiających się w eseju. Przytoczone będzie obiegowe pojęcie antysemityzmu, rasizmu oraz definicja rasizmu profesora Bogłusława Wolniewicza. Podkreślony będzie również, opisany przez Konrada Lorenza, konstrukt wewnątrzgatunkowej agresji, który jest korzystnym mechanizmem pozwalającym osobnikom tego samego gatunku na utrzymanie życia swojego gatunku w czasie i przestrzeni.

Rasizm, czyli dyskryminacja rasowa, to poglądy które głoszą powstanie i utrzymywanie się różnic między rasami ludzkimi. Wywodzą się z nich ideologie podkreślające wyższość jednych ras nad innymi. Utrzymywanie i rozwijanie panowania przez rasy najwyższe jest centralną wartością tej ideologii i ze względu na swoją wyższość, dążą one do dominowania nad rasami niższynymi. Rasizm opiera się na przekonaniu, że różnice w wyglądzie ludzi różnych ras niosą za sobą niezmienne różnice osobowościowe i intelektualne. Profesor Bogusław Wolniewicz definiował rasizm jako przekonanie, że przynależność biologiczna do danej rasy np. żółtej oznacza wyższość duchową nad każdym kto do niej nie należy. Antysemityzm natomiast, to postawa wyrażająca rówenież dyskryminację, uprzedzenia, niechęć oraz wrogość, ale w stosunku do konkretnej populacji ludzi, Żydów. Są oni dyskryminowani ze względu na wyznawaną religię, przynalelżność do grupy etnicznej, rasowej, aktualną sytuację polityczną i gospodarczą w kraju. Ekstremalne przejawy i działania antysemickie ukierunkowywała ideologia niemieckiego nazizmu, która doprowadziła do próby całkowitego wyniszczenia narodu żydowskiego w niespokojnym czasie drugiej wojny światowej. Ogólnie, nie ma wątpliwości, że antysemityzm jest przejawem rasizmu. Niemniej związek ten jest niejasny. Czerpiąc z mocy powyższych pojęć, można powiedzieć, że mamy do czynienia z pewnym zgrzytem między definicyjnym rasizmem i antysemityzmem. Żydzi nie są dyskryminowani ze względu na przynależność rasową (których rasa w skali światowej jest silnie heterogeniczna), ale ze względu na wyznawane normy, religię, praktyki i przynależność kulturową. Dlatego antysemityzm jako specyficzna forma rasizmu musi rządzić się nieco innym mechanizmem funkcjonowania i utrzymywania się niż dyskryminacja czysto rasowa np. dyskryminowanie ludzi o czarnym lub żółtym kolorze skóry przez ludzi białych. Mechanizmem tym musi być coś bardzo pierwotnego w naturze ludzkiej, a jednocześnie musi być czymś co operuje na duchowym lub symbolicznym poziomie. Czyli czymś co wyzwala agresję wobec obcych podczas fizycznego kontaktu z nimi jak i bez niego.

Austryjacki etolog Konrad Lorenz w swej pracy badawczej nie zajmował się rasizmem i antysemityzmem. Niemniej, można powiedzieć, że zajmował się jakby rdzeniem przejawiania się jakiejkolwiek formy dyskryminacji, czyli agresją. Ze swoich długoletnich badań wyciągnął wniosek, że agresja wewnątrzgatunkowa, czyli przemoc przejawiana wobec reprezentantów tego samego gatunku jest korzystna dla przeżycia każdego gatunku. Taka forma agresji pozwala utrzymać gatunek przy życiu poprzez przejawianie agresji wobec własnych członków, których zachowanie przeszkadza w rozwoju ich samych. Przykładowo agresja tak zdefiniowana pozwala chronić dzielnym kotom swoje terytorium łowieckie przed innymi kotami, mocnym jeleniom utrzymywać lub zdobywać władzę nad stadem samic, a szczurom na niszczenie populacji innych szczurów i zachowaniu domimacji swojego szczurzego rodu na danym terytorium. Tam gdzie dochodzi do konfliktu interesów (między członkami tego samego gatunku) o konieczne dla życia zasoby, tam musi dojść do agresji. Dzięki takiemu mechanizmowi mogą przeżyć silne, mężne, odważne i sprytne jednostki, które nastepnie mogą przekazać swój zwycięski i cenny materiał genetyczny kolejnemu pokoleniu. Na tej zasadzie sam gatunek, a także mechanizm agresji, utrzymuje się i wzmacnia. W przypadku ludzi mechanizm wewnątrzgatunkowej agresji działa również, np. podczas kłótni małżeńskich, sprzeczkach sąsiedzkich, w czasie pogoni po promocje w sklepach lub w czasie wojen o surowce. Oczywiście w przypadku antysemityzmu i innych form dyskrymiancji religijnej oraz kulturowej, mechanizm przejawiania wewnątrzgatunkowej agresji musi funkcjonować nieco inaczej niż zwierzęca i bezpośrednie agresja fizyczna. Mechanizm w tym kontekście musi być równie skuteczny, ale działać na innym poziomie. W przypadku żydów, poza nielicznymi wyjątkami tych ortodoksyjnych, kolor skóry, czy specyficzny wygląd, nie jest znakiem przynależności do religii judaistycznej. Dlatego mechanizm wewnątrzgatunkowej agresji musi znajdować ujście nie w fizycznym kontakcie z reprezentantami religii żydowskiej, ale w sferze psychologicznej lub jakgdyby, duchowej.

Przez wiele milionów lat pracy doboru naturalnego, czyli  genetycznej mutacji i selekcji, tak silny mechanizm adaptacyjny jakim jest agresja, u świadomych swojego „Ja” ludzi, musi znajdować redukcję w czymś jeszcze niż tylko w w przejawianiu agresji fizycznej. W momencie fizycznej nieobecności „tego złego” konieczne jest ustalenie tego „duchowego złego” lub „wyobrażonego złego” i na nim ogniskuje się popęd agresji. Nasilająca się złość, niepokój, niestabilność ekonomiczna i polityczna w danej kulturze uaktywnia mechanizm wewnątrzgatunkowej agresji, a ta z kolei musi znaleźć swój upust. Tak jak to się dzieje w przypadku parującej z garnka zupy. Ze względu na długą i konkretną historię Żydów, może się ona stać mniejszością, która oczywiście jako jedna z wielu, może podlegać dyskryminacji wywołanej poszukiwaniem kozła ofiarnego za obecnie niestabilną sytuację w kulturze, grupie lub państwie. Ze względu na dążenie do utrzymania stabilności wśród członków i ciągłego trwania życia danej kultury muszą uaktywnić się powolnie i dokładnie wykształcone mechanizmy podsycające agresję. Agresja taka nie jest kierowana na swoich ludzi, samochody, ani na konkretnego wroga. Agreswyne zachowanie oraz odpowiednia postawa naturalnie musi być komunikowana wśród jak największej ilości członków własnej kultury, by wzbudzić strach u skrywającego się gdzieś „obcego”. Musi być ona ukierowana na grupę społeczną, co do której istnieje cień szansy, że jest ona zamieszana w wywoływanie niekorzystnej, dla danego kręgu kulturowego, sytuacji. W tym miejscu naturalny popęd agresji musi zadziałać, by utrzymać daną kulturę przy życiu i zmusić inną grupę do wycofania się. Przykładowo za pomocą przenoszonych drogą tradycji stereotypów społecznych o żydach, podsycania nastrojów poprzez medialne informacje o tajemnicznych żydowskich wpływach, rozmów między ludźmi na temat żydów, żartów o nich,  agresji fizyczna, słownej oraz wrogości. Te Formy antysemityzmu mają swój początek w źródle jakim jest adaptacyjny mechanizm wewnątrzgatunkowej agresji. W tym przypadku nieco ślepej, ale nadal spełniającej swoją naturalną funkcję ochronną członków swojej grupy, wydzielonej na zasadzie przynależnośći kulturowej, wyznaniowej lub państwowej. Rodzaj takiej agresji ma za zadanie wywołanie strachu u dyskryminowanej grupy i przekazanie komunikatu „Nie ufamy Wam, mamy złe zamiary, szukamy Was i jesteśmy czujni”. Mechanizm ten chroni własną kulturę i deprecjonuje inną, tą obcą o wyobrażonych lub domniemanych tylko, drapieżnych zamiarach. Taka forma agresji i nękania jest również widoczna w świecie wielu zwierząt. Może to być np. rój kawek nękający sowy za dnia, by te następnej nocy przeniosły się na inne terytorium łowieckie lub gromada zebr uderamniające kryjówkę lamparta na stepie, albo stado gęsi otaczające oraz krzyczące na przyłapanaego lisa i pouczające swoje młode, że futrzaste, długie i czerwonobrązowe, to ZŁO! Działania takie w świecie zwierząt mają na celu obrzydzenie życia nieprzyjacielowi i zmianę jego zamiarów. Znaczenie, które dla zachowania gatunku ma atak na wroga pożeracza jest oczywiste. Nawet mały i bezbronny napastnik może wyrządzić mu dotkliwą szkodę. Podobnie oczywiste jest traktowanie w taki sposób żydów lub innych grup społecznych, które stają się zagrożone w momentach niepokojów społecznych. Istnieje niemal stu procentowa pewność, że opiswany przez Lorenza mechanizm działa analogicznie u ludzi. Gdyby małpy, lub wieloryby zaczęły zabierać ludziom zasoby np. ropę, niszczyć uprawy rolne lub zakłócały porządek na ulicach, to prawdopodobnie ludzie dla sportu lub rozrywki, zaczeliby redukować ich liczbę. Oczywiście nie przejawiając przy tym krzty agresji, a wręcz robiliby, to z uśmiechem i radością, tak jak z uśmiechem i radością lew rzuca się na na uciekającą gazelę. Nikt w tych okolicznościach nie mówiłby o dyskryminacji i agresji. Agresja i dyskyrminacja w jakikolwiek sposób przejawiana wobec żydów jest czystą formą przejawiania agresji wewnątrzgatunkowej na tle duchowym, czy psychologicznym. Sama fizyczna obecność żydów nie ma większego znaczenia, bo walka z nimi odbywa się na poziomie świadomej wymiany dyskryminujących komunikatów między ludźmi danego kręgu.  Dlatego antysemityzm wydaję się być oczywiście rasizmem, ale o podłożu duchowym lub psychologicznym, którego napędem jest agresja wewnątrzgatunkowa. Jego podstawą do dyskryminacji nie jest kolor skóry i kształt czaszki, ale wyznawana inna wiara, historia i wartości. Te pierwsze są łatwie do zauważenia  np. w przypadku afroamerykanina. Ja jako człowiek rasy białej, wśród swoich mogę łatwo zobaczyć czarnoskórego „obcego”. To inna sprawa, czy go zdyskryminuję, czy nie, ale go rozpoznaję i to wyraźnie. To rasa jest znakiem rozpoznawczym kultury lub cywilizacji. W przypadku tych drugich, nie widzę czyjejś wiary, poglądów lub norm. Osoba taka musi się w pewien sposób zachować i tylko na tej podstawie mogę wyciągnąć wniosek o tym, czy ten ktoś jest „mój”, czy jest obcy. Jeśli jest mój, to raczej mi nic nie grozi, ale jeśli jest obcy, to muszę zachować czujność. Samo odróżnienie swojego od obcego w przeszłości ewolucyjnej miało ogromne znaczenie dla przeżycia danego gatunku, bo pozwalało w porę odpowiednio reagować, chroniąc siebie i innych. W przypadku kiedy ten obcy jest trudno dostrzegalny, albo jest tylko duchowy lub wyobrażony, tak jak dzieje się to w kontekście antysemityzmu, czujność i komunikowanie między członkami zbiorowości obecności „wyobrażonego złego” jest konieczne dla jej przeżycia i czujengo reagowania na każdy manifest odmienności kulturowej, specyficznego zachowania lub symbolu przynależności do innej grupy społecznej. W przypadku antysemityzmu jest to dyskryminacja cech, norm zachowań specyficznych dla kultury i religii żydowskiej, a nie koloru skóry lub budowy ciała. W świecie zwierząt analogiczny mechanizm działa wśród szczurzych stad, które toczą ze sobą krwawe walki. Szczury są jednymi z najbardziej agresywnych zwierząt i do tego tworzą wielkie szczurze rody. Mechanizm doboru naturalnego wyposarzył je w doskonały węch i dzięki niemu mogą odróżnić swojego członka rodu od członka obcego rodu. Jeśli szczur z jednego rodu wyczuje reprezentanta innego, wszczyna alarm oraz stara się stłuc na śmierć tego drugiego. Podobny, ale może w naszych czasach łagodniejszy i w nieco innej formie, mechanizm rządzi stosunkiem wobec żydów i innych grup religujnych.

Jeśli rasizm potraktujemy jako ideologię usprawiedliwiającą agresję wobec ludzkich ras, to antysemityzm wydaje się specyficzną jego formą, bo zawężoną do agresji wobec kultury i religii żydowskiej. Czyli naturalnie ukształtowanej formy agresji, która ma na celu ochronę swojej grupy społecznej i jej interesów przed wpływem innej, obcej. Mechanizm wewnątrzgatunkowej agresji wydaje się być kluczowym wyjaśnieniem antysemityzmu jako formy rasizmu, ale z pewnością nie jedynym.

How to predict saving? Role of the implementation intention.

How to predict saving? Role of the implementation intention – Within-Object-Variability

How to predict saving? Role of the implementation intention.

Behaviours which relate to low ability to save such as unplanned spending, habitual succumbing to temptations and lack of control over finances are hard to change and maintain. Most social cognitive theories assume that the intention to the desired behaviour is its best predictor (Ajzen, 1985; Prochaska, Wright, & Velicer, 2008; Steinmetz, Knappstein, Ajzen, Schmidt, & Kabst, 2016). These theories are very good for explaining variance in intentions, but they are less able to deal with behaviour prediction. They do not take into account the fact that people often behave contrary to their intentions. The reasons for this are unforeseen obstacles, indulging in temptation, procrastination, lack of energy and also lack of mental ability to act. Khul indicates intention realisation must be supported by a behavioural system of action control (Kuhl, 2000). Without its activation through positive affect regulation, the will to action is only represented in memory, but not in the behavior (Goschke & Kuhl, 1993). He describes this situation as state orientation. Transition from this state to action state and intention execution must be supported by cognition mechanisms which modulate the affect and thus facilitate initiation and control over behaviour. The concept of control has particular importance in the discussed area of saving. Literature supports the hypothesis that action control plays a crucial role in the context of consumer decisions and financial actions (Baumeister, 2002; Faber & Vohs, 2011; Koran, Faber, Aboujaoude, Large, & Serpe, 2006; Sotiropoulos & d’Astous, 2013), and its low level leads to adverse economical, health, social and legal consequences (Drever et al., 2015; Jian, Chen, & Chen, 2014; Taylor, Jenkins, & Sacker, 2011; von Stumm, Fenton O’Creevy, & Furnham, 2013; Worthy, Jonkman, & Blinn-Pike, 2010). From the above results it may be concluded that action control is one of the clear determinants of financial behaviours and their effects. Therefore, from the perspective of explaining the struggle to save, it may be assumed that money can effectively be put aside through treating saving as an area in which motivations and action control are elements of a financially healthy lifestyle (Dholakia, Tam, Yoon, & Wong, 2016). This lifestyle manifests itself in habitual, routine activities and occasional striving to put money aside, and also efforts toward maintaining financial well-being (Bagozzi & Warshaw, 1990; Dholakia et al., 2016). Due to the personal and social benefits of such behaviours, they can be equated with strengthening and maintaining a physically healthy lifestyle (Ouellette and Wood, 1998; Renner et al., 2008). A saving lifestyle may be considered as an area consisting of two stages with distinctive patterns of behaviour. The first is the process of motivation which evokes an intention towards the desired behavior (Ajzen, 1985, 1991). and second is a volitional step which supports the realisation of the intention and control over a behaviour accordingly, in line with the intention in question (Bandura & Adams, 1977; Gollwitzer, 1999; Kuhl, 2000). After a person develops an intention, he or she must turn it into a detailed vision of how to perform specific actions and what to do to maintain them. This is not achieved by a single act of will determined by intention. This requires cognitive skills and self-control strategies. Variable which relate to this area in this work will be the implementation intention. It refers to the formulation plans for „when”, „where” and “how” to perform given behaviour. Such an action is something more than an extension of a simple intention, because it allows the creation in advance of a cognitive representation of the situation in which one can perform a previously planned sequence of behaviours. When such situational cues are encountered, action specified in this way can be triggered automatically. Meta-analysis has proved that formulating plans in this manner has a significant impact on achieving consumer goals (Gollwitzer & Sheeran, 2006).

The overall objective of the study will be to verify the predictions resulting from theoretical premises concerning the casual mechanism explaining the saving lifestyle. What is the reason for saving? Do people save by the wish to save or maybe because of the ability to control their behavior in the context of saving?

The easiest way to verify the superiority of the behavior control mechanism, which is the implementation of intention, over the intention to behave is to run an experiment with a control group. That is manipulation of trainings focused on formulating intentions, implementation of intentions (Where, When, How and can save something?) and deferred measurement of their effects.

 

According to theoretical premises, teaching how to control behavior should have an impact on the level of savings and saving behaviors. However, another way to verify this prediction is to control the intra-individual variability of these variables. In order to decide what affects the level of savings, longitudinal research scheme could be made.

The study would consist of two stages, that is measure in time one and measure in time two. In these steps, the intentions for saving, implementation of intention and saving money would be measured.

The interval between measurements could be about three months. Period of three months is sufficient time in which people can save something or realize their savings plans. Below are sample test items that measure elaborated variables:

Intention What are your intentions?
I’m going to save money
I’m going to have big savings
I want to create a reserve of money
Action Planning If you save or want to save something, do you have clear plans about when, where and how you will do it? I have detailed plans for this:
How to plan the expenses to save something
How to organise your life to save something
I know when and how to plan expenses to save and live normally
I know when to save money
Saving lifestyle I have big savings
I manage to create a financial reserve
My life is so organised that I live normally and save
I create savings to deal with future expenses
I conscientiously try to save
Savings                   How much money have you saved in the last month? Enter the value in PLN
The scale of answers: Not true, A little untruth, Little truth, Truth.

 

With regard to the causes and effects of saving, the superiority of behavioral control over intention to behave should occur in the second measurement. Intention affects actual behavior, but ii is the control of action allows to maintain this action over time. It is anticipated that intention from the first measurement will have no effect on the saving behavior in the second measurement. The saving behavior would be explained behavior control. The intention in the second measurement should not significantly affect saving in the second measurement or would affect, but less than, behavior control.

Below is the predicted causal model.

How to predict saving? Role of the implementation intention.

Bibliography:

Ajzen, I. (1985). From Intentions to Actions: A Theory of Planned Behavior. Action Control, 11–39. https://doi.org/10.1007/978-3-642-69746-3_2

Ajzen, I. (1991). The theory of planned behavior. Orgnizational Behavior and Human Decision Processes, 50, 179–211. https://doi.org/10.1016/0749-5978(91)90020-T

Bagozzi, R. P., & Warshaw, P. R. (1990). Trying to Consume, 17(September).

Bandura, A., & Adams, N. E. (1977). Analysis of self-efficacy theory of behavioral change. Cognitive Therapy and Research, 1(4), 287–310. https://doi.org/10.1007/BF01663995

Baumeister, R. F. (2002). Yielding to Temptation: Self‐Control Failure, Impulsive Purchasing, and Consumer Behavior. Journal of Consumer Research, 28(4), 670–676. https://doi.org/10.1086/338209

Dholakia, U., Tam, L., Yoon, S., & Wong, N. (2016). The ant and the grasshopper: Understanding personal saving orientation of consumers. Journal of Consumer Research, 43(1), 134–155. https://doi.org/10.1093/jcr/ucw004

Drever, A. I., Odders-White, E., Kalish, C. W., Else-Quest, N. M., Hoagland, E. M., & Nelms, E. N. (2015). Foundations of financial well-being: Insights into the role of executive function, financial socialization, and experience-based learning in childhood and youth. Journal of Consumer Affairs, 49(1), 13–38. https://doi.org/10.1111/joca.12068

Faber, R. J., & Vohs, K. D. (2011). Self-regulation and spending: Evidence from impulsive and compulsive buying. Handbook of Self-Regulation: Research, Theory, and Applications, 537–550, NaN, 592.

Gollwitzer, P. M. (1999). Implementation intentions. American Psychologist, 54(7), 493–503. https://doi.org/10.1177/0146167207311201

Gollwitzer, P. M., & Sheeran, P. (2006). Implementation Intentions and Goal Achievement: A Meta-analysis of Effects and Processes. Advances in Experimental Social Psychology, 38(December), 69–119. https://doi.org/10.1016/S0065-2601(06)38002-1

Goschke, T., & Kuhl, J. (1993). Representation of intentions: Persisting activation in memory. Journal of Experimental Psychology: Learning, Memory, and Cognition, 19(5), 1211–1226. https://doi.org/10.1037/0278-7393.19.5.1211

Jian, J., Chen, C., & Chen, F. (2014). Consumer financial capability and financial satisfaction. Social Indicators Research, 118(1), 415–432. https://doi.org/10.1007/s11205-013-0414-8

Koran, L. M., Faber, R. J., Aboujaoude, E., Large, M. D., & Serpe, R. T. (2006). Estimated prevalence of compulsive buying behavior in the United States. American Journal of Psychiatry, 163(10), 1806–1812. Retrieved from %3CGo%5Cnto

Kuhl, J. J. (2000). A functional-design approach to motivation and self-regulation.pdf. Handbook of Self-Regulation.

Ouellette, J. A., & Wood, W. (1998). Habit and intention in everyday life: The multiple processes by which past behavior predicts future behavior. Psychological Bulletin, 124(1), 54–74. https://doi.org/10.1037/0033-2909.124.1.54

Prochaska, J. O., Wright, J. A., & Velicer, W. F. (2008). Evaluating theories of health behavior change: A hierarchy of criteria applied to the transtheoretical model. Applied Psychology, 57(4), 561–588. https://doi.org/10.1111/j.1464-0597.2008.00345.x

Renner, B., Kwon, S., Yang, B.-H., Paik, K.-C., Kim, S. H., Roh, S., … Schwarzer, R. (2008). Social-Cognitive Predictors of Dietary Behaviors in South Korean Men and Women. International Journal of Behavioral Medicine, 15, 4–13. https://doi.org/10.1080/10705500701783785

Sotiropoulos, V., & d’Astous, A. (2013). Attitudinal, Self-Efficacy, and Social Norms Determinants of Young Consumers’ Propensity to Overspend on Credit Cards. Journal of Consumer Policy, 36(2), 179–196. https://doi.org/10.1007/s10603-013-9223-3

Steinmetz, H., Knappstein, M., Ajzen, I., Schmidt, P., & Kabst, R. (2016). How Effective are Behavior Change Interventions Based on the Theory of Planned Behavior? Zeitschrift Für Psychologie, 224(3), 216–233. https://doi.org/10.1027/2151-2604/a000255

Taylor, M. P., Jenkins, S. P., & Sacker, A. (2011). Financial capability and psychological health. Journal of Economic Psychology, 32(5), 710–723. https://doi.org/10.1016/j.joep.2011.05.006

von Stumm, S., Fenton O’Creevy, M., & Furnham, A. (2013). Financial capability, money attitudes and socioeconomic status: Risks for experiencing adverse financial events. Personality and Individual Differences, 54(3), 344–349. https://doi.org/10.1016/j.paid.2012.09.019

Worthy, S. L., Jonkman, J., & Blinn-Pike, L. (2010). Sensation-Seeking, Risk-Taking, and Problematic Financial Behaviors of College Students. Journal of Family and Economic Issues, 31(2), 161–170. https://doi.org/10.1007/s10834-010-9183-6

Autorem tekstu jest Pan Konrad Hryniewicz. Dziękujemy!

Weryfikacja hipotezy o zmianie charakteru wpisów na blogu

Weryfikacja hipotezy o zmianie charakteru wpisów na blogu. 

W tej części tekstu spróbujemy odpowiedzieć na pytanie, czy charakter wpisów zmienił się po pewnym czasie istnienia bloga. Czy daje się dostrzec różnice w częstości występowania słów pomiędzy pierwszą i drugą połową okresu istnienia bloga?

Aby to określić, sprawdzimy, jaki odsetek wszystkich wyrazów stanowiło każde z słów w każdym z okresów. Następnie wykonamy testy istotności, których hipotezą zerową będzie równość odsetków, a hipotezą alternatywną negacja hipotezy zerowej.

Na początku konieczne jest podzielenie oryginalnych danych na dwie części. Jak wiadomo z poprzednich części analizy, wpisy były publikowane w 33 różnych miesiącach. Pierwsze 16 takich uznajmy za „duży okres pierwszy”, a późniejsze 17 okresów za „duży okres drugi”. Tym samym uzyskujemy dwie ramki danych, które będziemy ze sobą porównywać.

Przed „twardą” analizą statystyczną warto spojrzeć na sprawę z użyciem omówionych wcześniej narzędzi. Osobno dla każdej z ramek określimy dziesięć najczęściej występujących słów oraz stworzymy chmurę słów. Ponieważ liczba słów w każdym z okresów nie jest sobie równa, to częstość najczęściej występujących słów wyrażona jest w postaci przybliżonego odsetka.

Dla okresu pierwszego:

 

 

 

 

 

 

 

 

 

 

 

[1,] analysis    0.01784

[2,] data        0.01733

[3,] statistical 0.01644

[4,] variable    0.01356

[5,] search      0.01261

[6,] result      0.01237

[7,] test        0.01137

[8,] model       0.01011

[9,] method      0.00903

[10,] factor      0.00717

 

Dla okresu drugiego:

 

 

 

 

 

 

 

 

 

 

 

[1,] statistical 0.02402

[2,] variable    0.01656

[3,] search      0.01610

[4,] method      0.01574

[5,] analysis    0.01511

[6,] scientific  0.01057

[7,] result      0.01013

[8,] model       0.00926

[9,] data        0.00901

[10,] test        0.00893

 

Chociaż odsetki występowania słów ewidentnie się zmieniają, to jednak najczęściej występujące słowa pozostały prawie dokładnie takie samo. Jedynie „naukowy” (scientific) zastąpiło „czynnik” (factor). Pewne odmienności widać w chmurach słów, ale duża część słów widocznych w drugiej chmurze wygląda znajomo.

Czas przejść do ostatniej części analizy, czyli testu istotności wpływu okresu na charakter tekstów publikowanych na blogu (występowanie w nich poszczególnych słów). Zbadamy ją za pomocą testu chi-kwadrat. Dla każdego słowa zweryfikujemy p-wartość testu, przyjmując jako daną tablicę o następującym kształcie:

Liczba wystąpień i-tego słowa w okresie 1 Liczba wystąpień i-tego słowa w okresie 2
Liczba pozostałych słów w okresie 1 Liczba pozostałych słów w okresie 2

 

Ostateczną statystyką, która posłuży nam do przyjęcia lub odrzucenia hipotezy zerowej o braku odmienności okresów, będzie średnia ważona wszystkich P-wartości, przy czym wagą jest liczba wystąpień danego słowa w obu okresach:

wzór chi kwadrat

gdzie:

n – liczba słów,

si – liczba wystąpień i-tego słowa w obu okresach

pi – p-wartość testu chi-kwadrat przeprowadzonego dla i-tego słowa

 

Uzyskana w podany wyżej sposób statystyka ma wartość 0.264915, co oznacza, że nie ma podstaw do odrzucenia hipotezy o braku fundamentalnej zmiany charakteru wpisów w dwóch porównywanych okresach. Jednocześnie warto zauważyć, że częstość występowania pewnych słów istotnie statystycznie się zmieniła – ale takich słów było 487, wobec 5141 wszystkich słów. Wskazuje to oczywiście na pewną zmienność wpisów i zapewne inaczej ukształtowane statystyki, kładące nacisk na bardziej konkretne aspekty tekstów, mogłyby wskazać na możliwość odrzucenia hipotezy zerowej. Przykłady częściej pojawiających się słów, statystycznie istotnie różniących się częstością występowania w dwóch rozpatrywanych okresach to „observation”, „obtain”, „modeling”, „information”, „estimate”, „correlation” czy „company”.

Przeprowadzona analiza wykazała zatem pewną zmienność częstości występowania słów w obrębie okresów, ale tylko niektórych i niewystarczającą, aby całe teksty na podstawie opisanej wyżej statystyki uznać za istotnie statystycznie odmienne. Analizę tę można by znacząco pogłębiać i rozciągać na kolejne obszary, rozpatrując np. dużo większą liczbę okresów czy zmienność konkretnych grup słów. W text miningu możliwości są bardzo rozległe.

Analizy oraz wpis sporządził Pan Andrzej Porębski. Dziękujemy!

 

Analiza częstości występowania słów w R – TEXT MINING – R

Analiza częstości występowania słów w R

Czas przejść do właściwego text miningu. Zaprezentujemy teraz procedurę pozyskania informacji o najczęściej występujących w tekście słowach oraz wykonania różnorodnych cloud of words w środowisku R.

 

3.1. Posiadając ujęte w tabeli wpisy z bloga Metodolog.pl, można przejść do wyodrębnienia pojedynczych słów z tekstu ciągłego. Dokonujemy tego za pomocą funkcji unnest_tokens.

Pożądanym wynikiem jest ramka danych przechowująca każde występujące w tekście słowo w osobnym wierszu. Aby nie zatracić możliwości analizowania danych pod kątem ich wystąpienia w konkretnym okresie, w ramce zachowujemy daną określającą czas, w którym słowo się pojawiło.

Aby określić, jak często pojawiły się w całości tekstu dane słowa, stosujemy funkcję count.

 

3.2. Uzyskaliśmy dane dotyczące występowania w tekście poszczególnych słów. Jak jednak łatwo sprawdzić (poniżej czynimy to za pomocą funkcji head), wszystkie 10 najczęściej występujących słów mogłyby znaleźć się w każdym tekście.

 

1 the   18283

2 of    11671

3 and    6152

4 to     5584

5 in     5387

6 a      4693

7 is     4293

8 that   2400

9 for    2005

10 are    1932

 

Nie niosą one żadnej informacji o specyfice wpisów analizowanych przez nas. Dzieje się tak, ponieważ pewne elementy języka – np. spójniki, czy – w języku angielskim – słowa „a” i „an”, „the” itp. – występują jako elementy gramatyczne niezależnie od charakteru treściowego tekstu. Nie są one interesujące w analizie, a z konieczności będą występować częściej od słów niosących treść, przez to posiadających dużo węższe zastosowanie.

 

Dlatego wszelkie takie nieprzydatne, a wręcz przeszkadzające w analizie tekstu słowa należy wykluczyć. To w tym momencie uprzednie przetłumaczenie wpisów na język angielski okazuje się przydatne. Dla angielskiego dostępne są specjalne słowniki zawierające słowa niepożądane – to tzw. stop words. W R słownik taki znajduje się w ramce stop_words dostępnej w pakiecie tidytext. Dzięki temu nie trzeba samodzielnie takich słów „wyłapywać”, wystarczy usunąć ze sporządzonego spisu słów te, które występują również w słowniku stop words. Przydatna w tym celu będzie funkcja anti_join, zwracająca w przypadku dwóch jednokolumnowych ramek danych różnicę zbiorów będących argumentami funkcji (w tym wypadku zbioru słów występujących w tekście oraz zbioru słów niepożądanych w analizie z ramki danych stop words).

Po wyeliminowaniu słów słowa najczęściej występujące w ogóle tekstów na blogu zmieniają się radykalnie i powiązane są z sektorem działalności Metodolog.pl. Krok ten umożliwił uzyskanie danych niosących pewne informacje, odzwierciedlających tematykę analizowanego tekstu.

 

1 statistical  1777 2 analysis     1587 3 data         1334 4 research     1170 5 results       822 6 variables     771 7 methods       643 8 model         642 9 variable      62210 test          601

 

3.3. Chociaż zwyczajne wyświetlenie (np. funkcją View) uzyskanej ramki danych może być najwygodniejszym i najdokładniejszym sposobem analizowania częstości występowania słów w tekście, to nie jest ono atrakcyjnym wizualnie sposobem przedstawiania wyników analizy. Z pomocą przychodzą tutaj tzw. chmury słów (ang. word cloud). Utworzenie chmury słów w R jest bardzo proste (choć może nie aż tak proste, jak w wyklikiwalnym Orange).

Potrzebny będzie nam pakiet wordcloud, w którym znajduje się interesująca nas funkcja wordcloud o składni:

 

wordcloud(words,freq,scale=c(4,.5),min.freq=3,max.words=Inf,

random.order=TRUE, random.color=FALSE, rot.per=.1,

colors=”black”,ordered.colors=FALSE,use.r.layout=FALSE,

fixed.asp=TRUE, …)

 

Jak widać, jako argumenty posłużyć mogą kolejne kolumny ramki uzyskanej przy pomocy funkcji count. Obligatoryjnie podać musimy, jakie słowa zilustrowane będą w chmurze słów i określić częstość ich występowania w tekście źródłowym (w oparciu o którą funkcja narysuje słowa o odpowiedniej wielkości). Warto skorzystać także z możliwości wybrania liczby słów, które zostaną wyświetlone (parametr max.words) oraz zrezygnować z losowej kolejności wyświetlania słów w celu uzyskania wyższej klarowności generowanego obrazka (parametr random.order). Analizę obrazka ułatwi, zarazem podnosząc jego atrakcyjność wizualną, uczynienie słów kolorowymi (poniżej używany do tego jest pakiet RColorBrewer). Przykładowo:

 

require(RColorBrewer)

wordcloud(count(slowa, slowo)$word, count(slowa, slowo)$n, max.words = 200, colors = brewer.pal(8, „Dark2”), random.order = F)

 

Uzyskane chmury słów stanowią efektowny sposób prezentacji wyników analizy. Poniżej zostają zaprezentowane chmury utworzone przed i po usunięciu słów ujętych w słowniku stop_words. Ich porównanie świetnie pokazuje, że przed wyeliminowaniem niepożądanych słów wyniki były praktycznie bezwartościowe.

3.4. Mimo że druga chmura słów prezentuje się nieporównywalnie lepiej od pierwszej i przekazuje konkretne informacje, to jednak uważny obserwator bez trudu zauważy w niej elementy, których lepiej byłoby się pozbyć – chodzi o cyfry. Nie posiadają one poza kontekstem żadnego sensu, a to, że na blogu statystycznym występują cyfry, jest oczywistością. Dlatego dodatkowo usuniemy z tekstu cyfry oraz inne uprzednio zidentyfikowane elementy tekstowe, możliwe do prostego zidentyfikowania, które w żaden sposób nie nadawały się do analizy.

 

blokada <- c(„r”, „t”, „ax”,  „ml”, „lb”, „b”, „pg”, „ab”, „cg”, „k”, „id”, „rm”, „ad”, „fa”, „st”, „pp”, „pi”, „6”, „3”, „4”, „c”, „bf”, „cl”, „ht”, „kt”, „cm”, „gm”, „0”, „kg”, „ti”, „gt”, „iv”, „l”, „f”, „hr”, „-1”, „ma”, „ha”, „7”, „xi”, „ch”, „it”, „1”, „m”, „8”, „9”, „2”, „km”, „em”, „tn”, „ta”, „e”, „bi”, „ed”, „wk”, „dc”, „ii”, „5”)

blokada <- data.frame(blokada)

colnames(blokada) <- “slowo”

slowa <- anti_join(slowa, blokada)

3.5. Rzadko kiedy zależy nam na zachowaniu dokładnej formy gramatycznej analizowanych słów. Wręcz przeciwnie – w pewnych wypadkach nadmierna czułość rozróżnienia będzie wpływała na trudności w analizie częstości występowania słów. Świetnie widać to w języku polskim – np. odmienność słów „statystyczny” i „statystyczna” nie wynika w żadnym stopniu z odmienności znaczenia. W innych językach również będą występować takie sytuacje, a w analizie statystycznej nadmierna dokładność bywa zwyczajnie niepożądana (np. utrudniająca osiągnięcie prawidłowych konkluzji, a niedająca nic w zamian).

Z tych względów w text miningu stosuje się tzw. stemmery. Pozwalają one na ujednolicanie słów zbliżonych znaczeniowo, choć odmiennych gramatycznie. Stemmery mogą działać w sposób skomplikowany bardziej (np. Snowball) lub mniej (np. Hunspell). Zależnie od charakteru analizy, zależeć może nam na maksymalnym ujednoliceniu słów (czyli zachowaniu tylko ich trzonu znaczeniowego lub części słowa pozwalającej na określenie tego trzony) lub uzyskaniem trochę większej dokładności, objawiającej się choćby rozróżnianiem rzeczowników od odpowiadających im  przymiotników.

Poniżej zaprezentowano dziesięć najczęściej występujących słów oraz chmurę słów po użyciu stemmera Hunspell. Warto zwrócić uwagę na to, że bardziej ogólne formy pewnych słów „wchłonęły” swoje szczególne formy, przez co wśród najczęściej spotykanych słów pojawiły się wcześniej niewystępujące. Nowo utworzona chmura słów najlepiej oddaje rzeczywisty charakter wpisów, które pojawiły się na stronie.

 

1 statistical  1834

2 analysis     1588

3 variable     1393

4 data         1334

5 search       1321

6 method       1101

7 result       1088

8 test          986

9 model         925

10 study         636

3.6. Poniżej zaprezentowany zostaje przykładowy, krótki kod, za pomocą którego można zacząć swoją przygodę z text miningiem. Zakładamy, że dane zostały wczytane jako obiekt data, a tekst wszystkich wpisów przechowywany jest w kolumnie Tekst.

 

#podzial tekstu na pojedyncze slowa

slowa <- unnest_tokens(select(data, Numer, Tekst), slowo, Tekst)

#przeliczenie slow i uszeregowanie w kolejności od występujących najczesciej

count(slowa, slowo, sort = T)

#usuniecie slow stop words z ramki slow i przypisanie przeliczenia do zmiennej

slowa <- anti_join(slowa, stop_words)

liczebnosc <- count(slowa, slowo, sort = T)

#narysowanie chmury slow

wordcloud(liczebnosc$slowo, liczebnosc$n, max.words = 100)

Analizy oraz wpis sporządził Pan Andrzej Porębski. Dziękujemy!