Weryfikacja hipotezy o zmianie charakteru wpisów na blogu.
W tej części tekstu spróbujemy odpowiedzieć na pytanie, czy charakter wpisów zmienił się po pewnym czasie istnienia bloga. Czy daje się dostrzec różnice w częstości występowania słów pomiędzy pierwszą i drugą połową okresu istnienia bloga?
Aby to określić, sprawdzimy, jaki odsetek wszystkich wyrazów stanowiło każde z słów w każdym z okresów. Następnie wykonamy testy istotności, których hipotezą zerową będzie równość odsetków, a hipotezą alternatywną negacja hipotezy zerowej.
Na początku konieczne jest podzielenie oryginalnych danych na dwie części. Jak wiadomo z poprzednich części analizy, wpisy były publikowane w 33 różnych miesiącach. Pierwsze 16 takich uznajmy za „duży okres pierwszy”, a późniejsze 17 okresów za „duży okres drugi”. Tym samym uzyskujemy dwie ramki danych, które będziemy ze sobą porównywać.
Przed „twardą” analizą statystyczną warto spojrzeć na sprawę z użyciem omówionych wcześniej narzędzi. Osobno dla każdej z ramek określimy dziesięć najczęściej występujących słów oraz stworzymy chmurę słów. Ponieważ liczba słów w każdym z okresów nie jest sobie równa, to częstość najczęściej występujących słów wyrażona jest w postaci przybliżonego odsetka.
[1,] analysis 0.01784
[2,] data 0.01733
[3,] statistical 0.01644
[4,] variable 0.01356
[5,] search 0.01261
[6,] result 0.01237
[7,] test 0.01137
[8,] model 0.01011
[9,] method 0.00903
[10,] factor 0.00717
Dla okresu drugiego:
[1,] statistical 0.02402
[2,] variable 0.01656
[3,] search 0.01610
[4,] method 0.01574
[5,] analysis 0.01511
[6,] scientific 0.01057
[7,] result 0.01013
[8,] model 0.00926
[9,] data 0.00901
[10,] test 0.00893
Chociaż odsetki występowania słów ewidentnie się zmieniają, to jednak najczęściej występujące słowa pozostały prawie dokładnie takie samo. Jedynie „naukowy” (scientific) zastąpiło „czynnik” (factor). Pewne odmienności widać w chmurach słów, ale duża część słów widocznych w drugiej chmurze wygląda znajomo.
Czas przejść do ostatniej części analizy, czyli testu istotności wpływu okresu na charakter tekstów publikowanych na blogu (występowanie w nich poszczególnych słów). Zbadamy ją za pomocą testu chi-kwadrat. Dla każdego słowa zweryfikujemy p-wartość testu, przyjmując jako daną tablicę o następującym kształcie:
Liczba wystąpień i-tego słowa w okresie 1 | Liczba wystąpień i-tego słowa w okresie 2 |
Liczba pozostałych słów w okresie 1 | Liczba pozostałych słów w okresie 2 |
Ostateczną statystyką, która posłuży nam do przyjęcia lub odrzucenia hipotezy zerowej o braku odmienności okresów, będzie średnia ważona wszystkich P-wartości, przy czym wagą jest liczba wystąpień danego słowa w obu okresach:
gdzie:
n – liczba słów,
si – liczba wystąpień i-tego słowa w obu okresach
pi – p-wartość testu chi-kwadrat przeprowadzonego dla i-tego słowa
Uzyskana w podany wyżej sposób statystyka ma wartość 0.264915, co oznacza, że nie ma podstaw do odrzucenia hipotezy o braku fundamentalnej zmiany charakteru wpisów w dwóch porównywanych okresach. Jednocześnie warto zauważyć, że częstość występowania pewnych słów istotnie statystycznie się zmieniła – ale takich słów było 487, wobec 5141 wszystkich słów. Wskazuje to oczywiście na pewną zmienność wpisów i zapewne inaczej ukształtowane statystyki, kładące nacisk na bardziej konkretne aspekty tekstów, mogłyby wskazać na możliwość odrzucenia hipotezy zerowej. Przykłady częściej pojawiających się słów, statystycznie istotnie różniących się częstością występowania w dwóch rozpatrywanych okresach to „observation”, „obtain”, „modeling”, „information”, „estimate”, „correlation” czy „company”.
Przeprowadzona analiza wykazała zatem pewną zmienność częstości występowania słów w obrębie okresów, ale tylko niektórych i niewystarczającą, aby całe teksty na podstawie opisanej wyżej statystyki uznać za istotnie statystycznie odmienne. Analizę tę można by znacząco pogłębiać i rozciągać na kolejne obszary, rozpatrując np. dużo większą liczbę okresów czy zmienność konkretnych grup słów. W text miningu możliwości są bardzo rozległe.
Analizy oraz wpis sporządził Pan Andrzej Porębski. Dziękujemy!