Text Mining – ilościowa analiza tekstu

Text mining, czyli eksploracja lub przekopywanie tekstu, to zbiorcza nazwa dla metod analizy danych skupiających się na – jak sama nazwa wskazuje – danych tekstowych. Dzięki zastosowaniu metod text miningu możliwe jest uzyskanie z tekstu danych nadających się do ilościowej analizy statystycznej. Posługując się text miningiem, wykorzystuje się zupełnie inne podejście do danych tekstowych. Nie są już one traktowane jako dane wyłącznie jakościowe, lecz jako swoiste źródło danych ilościowych – przede wszystkim dotyczących częstości występowania poszczególnych słów w analizowanym tekście.

Text mining pozwala na względnie zautomatyzowane przeszukiwanie bardzo dużych porcji tekstu pod kątem występowania w nich słów kluczowych, ich zagęszczenia itp. To umożliwia stosowanie nowych metod analizy danych i pozyskiwanie nowego typu informacji, dotyczących miedzy innymi charakteru analizowanych tekstów czy zmienności częstości występowania słów kluczowych na przestrzeni czasu.

Źródłem danych do text miningu może być praktycznie wszystko wyrażone w języku – oczywiście pod warunkiem, że próba jest wystarczająco obszerna do zakładanych celów. Oczywiście specyfika przeprowadzanej analizy różnić się będzie w zależności od zestawu posiadanych danych. Na przykład, posiadając dla każdej informacji daną tekstową oraz daną ilościową, badać można wpływ występowania pewnych słów na zmianę danej ilościowej.

 

W prezentowanej serii tekstów przyjrzymy się możliwości wykorzystania technik text mining na konkretnym, praktycznym przykładzie. Zbadamy wpisy z bloga internetowego Metodolog.pl. Kolejno prześledzimy proces pozyskiwania i odpowiedniego przekształcania danych, podstawowe operacje w ramach text miningu, a także wykorzystanie tych metod w celu zbadaniaa informacji o charakterystyce – i zmienności – wpisów obecnych na stronie.

 

  1. Wykorzystane oprogramowanie

Istnieje wiele różnych środowisk umożliwiających analizę danych tekstowych. Charakteryzują się one odmiennym poziomem skomplikowania i oferowanymi funkcjonalnościami. Moduły do text miningu posiadają najpopularniejsze programy komercyjne (Statistica, SPSS), ale w tej prezentacji postawimy na program dostępne bezpłatnie, którego możliwości bez problemu wystarczą do przeprowadzenia interesującej nas analizy. Wykorzystywać będziemy:

  1. środowisko R (w wersji 3.5.0) wraz z programem RStudio (w wersji 1.1.447), wzbogacone o pakiety:
    1. dplyr,
    2. tidytext,
    3. ggplot2,
    4. RColorBrewer
    5. hunspell
    6. wordcloud,
  2. dodatkowo, do stworzenia bazy danych, Microsoft Excel.

 

Text mining wykonać można również w innych programach bezpłatnych, na przykład opartym na Pythonie programie Orange. Podstawowa różnica między środowiskami tkwi w tym, że Orange domyślnie bazuje na interfejsie graficznym (zatem analizę się „wyklikuje”), a R – na pisanych przez użytkownika komendach. Sprawia to, że rozpoczęcie przygody z Orange będzie dużo prostsze dla osób, które nie miały wcześniej do czynienia z programowaniem, ale jednocześnie środowisko to jest dużo bardziej ograniczone od R – możliwości analizy danych są dość znacząco zawężone przez opcje przewidziane przez twórców interfejsu graficznego. Z kolei środowisko R, dzięki możliwości rozszerzania niezliczoną liczbą pakietów oraz tworzenia własnych funkcji, oferuje prawie nieograniczone możliwości modyfikowania i analizowania danych, ale jest to okupione jego większym skomplikowaniem oraz koniecznością zapoznania się z samym językiem programowania.