Weryfikacja hipotezy o zmianie charakteru wpisów na blogu

Weryfikacja hipotezy o zmianie charakteru wpisów na blogu. 

W tej części tekstu spróbujemy odpowiedzieć na pytanie, czy charakter wpisów zmienił się po pewnym czasie istnienia bloga. Czy daje się dostrzec różnice w częstości występowania słów pomiędzy pierwszą i drugą połową okresu istnienia bloga?

Aby to określić, sprawdzimy, jaki odsetek wszystkich wyrazów stanowiło każde z słów w każdym z okresów. Następnie wykonamy testy istotności, których hipotezą zerową będzie równość odsetków, a hipotezą alternatywną negacja hipotezy zerowej.

Na początku konieczne jest podzielenie oryginalnych danych na dwie części. Jak wiadomo z poprzednich części analizy, wpisy były publikowane w 33 różnych miesiącach. Pierwsze 16 takich uznajmy za „duży okres pierwszy”, a późniejsze 17 okresów za „duży okres drugi”. Tym samym uzyskujemy dwie ramki danych, które będziemy ze sobą porównywać.

Przed „twardą” analizą statystyczną warto spojrzeć na sprawę z użyciem omówionych wcześniej narzędzi. Osobno dla każdej z ramek określimy dziesięć najczęściej występujących słów oraz stworzymy chmurę słów. Ponieważ liczba słów w każdym z okresów nie jest sobie równa, to częstość najczęściej występujących słów wyrażona jest w postaci przybliżonego odsetka.

Dla okresu pierwszego:

 

 

 

 

 

 

 

 

 

 

 

[1,] analysis    0.01784

[2,] data        0.01733

[3,] statistical 0.01644

[4,] variable    0.01356

[5,] search      0.01261

[6,] result      0.01237

[7,] test        0.01137

[8,] model       0.01011

[9,] method      0.00903

[10,] factor      0.00717

 

Dla okresu drugiego:

 

 

 

 

 

 

 

 

 

 

 

[1,] statistical 0.02402

[2,] variable    0.01656

[3,] search      0.01610

[4,] method      0.01574

[5,] analysis    0.01511

[6,] scientific  0.01057

[7,] result      0.01013

[8,] model       0.00926

[9,] data        0.00901

[10,] test        0.00893

 

Chociaż odsetki występowania słów ewidentnie się zmieniają, to jednak najczęściej występujące słowa pozostały prawie dokładnie takie samo. Jedynie „naukowy” (scientific) zastąpiło „czynnik” (factor). Pewne odmienności widać w chmurach słów, ale duża część słów widocznych w drugiej chmurze wygląda znajomo.

Czas przejść do ostatniej części analizy, czyli testu istotności wpływu okresu na charakter tekstów publikowanych na blogu (występowanie w nich poszczególnych słów). Zbadamy ją za pomocą testu chi-kwadrat. Dla każdego słowa zweryfikujemy p-wartość testu, przyjmując jako daną tablicę o następującym kształcie:

Liczba wystąpień i-tego słowa w okresie 1 Liczba wystąpień i-tego słowa w okresie 2
Liczba pozostałych słów w okresie 1 Liczba pozostałych słów w okresie 2

 

Ostateczną statystyką, która posłuży nam do przyjęcia lub odrzucenia hipotezy zerowej o braku odmienności okresów, będzie średnia ważona wszystkich P-wartości, przy czym wagą jest liczba wystąpień danego słowa w obu okresach:

wzór chi kwadrat

gdzie:

n – liczba słów,

si – liczba wystąpień i-tego słowa w obu okresach

pi – p-wartość testu chi-kwadrat przeprowadzonego dla i-tego słowa

 

Uzyskana w podany wyżej sposób statystyka ma wartość 0.264915, co oznacza, że nie ma podstaw do odrzucenia hipotezy o braku fundamentalnej zmiany charakteru wpisów w dwóch porównywanych okresach. Jednocześnie warto zauważyć, że częstość występowania pewnych słów istotnie statystycznie się zmieniła – ale takich słów było 487, wobec 5141 wszystkich słów. Wskazuje to oczywiście na pewną zmienność wpisów i zapewne inaczej ukształtowane statystyki, kładące nacisk na bardziej konkretne aspekty tekstów, mogłyby wskazać na możliwość odrzucenia hipotezy zerowej. Przykłady częściej pojawiających się słów, statystycznie istotnie różniących się częstością występowania w dwóch rozpatrywanych okresach to „observation”, „obtain”, „modeling”, „information”, „estimate”, „correlation” czy „company”.

Przeprowadzona analiza wykazała zatem pewną zmienność częstości występowania słów w obrębie okresów, ale tylko niektórych i niewystarczającą, aby całe teksty na podstawie opisanej wyżej statystyki uznać za istotnie statystycznie odmienne. Analizę tę można by znacząco pogłębiać i rozciągać na kolejne obszary, rozpatrując np. dużo większą liczbę okresów czy zmienność konkretnych grup słów. W text miningu możliwości są bardzo rozległe.