CRISP-Data Mining etap czwarty – modelowanie i wybór techniki modelowania

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

CRISP-Data Mining etap czwarty – modelowanie

 Wybór techniki modelowania

 Zadanie

Pierwszą kwestią w modelowaniu jest wybór techniki, która zostanie zastosowana. Chociaż mogłeś już wybrać narzędzie podczas fazy Zrozumienia Biznesu, to zadanie odnosi się do specyficznej techniki modelingu np. drzewko decyzyjne budowane z C5.0 albo sieć neuronowa produkcji ze wstecznym rozprzestrzenianiem się. Jeżeli wielokrotne techniki są stosowane, to zadanie powinno być przeprowadzone osobno dla każdej techniki.

Dane wyjściowe

  • Technika modelowania – dokumentuje właściwą technikę modelowania, która została wykorzystana.
  • Założenia modelowania – wiele technik modelowania ma specjalne założenia związane z danymi np. że wszystkie atrybuty mają jednolite dystrybucje, że nie ma brakujących wartości, klasa atrybutu musi być symbolem itd. Zapisuj wszystkie postawione założenia.

Generowanie projektu badania 

Zadanie

Zanim rzeczywiście zbudujesz model, musisz wygenerować procedurę albo mechanizm by sprawdzić jakość i wiarygodność modelu. Na przykład, w nadzorowanych zadaniach eksploracji danych takich jak klasyfikacja, popularnym błędem jest użycie błędnych stawek jako miary jakości dla modeli eksploracji danych. Dlatego, zwykle dzieli się zestawy danych na treningowe i testujące zestawy, buduje model na zestawie treningowym i ocenia jego jakość na osobnym zestawie testującym.

Dane wyjściowe

  • Projekt badania­ – opisuje założony plan dla treningu, testu i oceny modeli. Pierwszy element planu determinuje jak podzielić dostępne zestawy danych na treningowe, testowe i zweryfikowane zestawy danych.

Budowanie modelu 

Zadanie

Uruchomienie narzędzia modelującego na przygotowanym zestawie danych by stworzyć jeden lub więcej modeli.

Dane wyjściowe

  • Ustawienia parametrów – w każdym narzędziu modelującym, zawsze jest, zwykle duża, liczba parametrów, które można sobie dostosować. Zanotuj parametry i ich wybrane wartości, razem z ich racjonalnym uzasadnieniem dla wyboru akurat takich ustawień parametrów.
  • Modele – to są właściwe modele tworzone przez narzędzia, nie raporty.
  • Opisy modeli – opisują powstające modele, zawierają raport interpretacji modeli i dokumentację wszelkich trudności na które natrafiono przy intepretowaniu znaczenia modeli.

Ocena modelu

 Zadanie

Interpretacja modeli w nawiązaniu do twojego zakresu wiedzy, twoich kryteriów sukcesu w eksploracji danych i twoim oczekiwanym projekcie badania. Ocena sukcesu aplikacji modelującej i odkrycie informacji technicznych, następnie kontakt z analitykami biznesowymi i później czołowymi ekspertami w celu przedyskutowania wyników eksploracji danych w biznesowym kontekście. To zadanie rozważa tylko modele, podczas gdy faza oceny także bierze pod uwagę wszystkie inne wyniki, które zostały uzyskane w czasie trwania projektu. Na tym etapie powinieneś ocenić modele w nawiązaniu do kryteriów oceny. Na ile to tylko możliwe, weź cele i sukcesy biznesowe pod uwagę w swoich wyliczeniach. W większości projektów eksploracji danych, pojedyncza technika jest stosowana więcej niż raz i wyniki eksploracji danych są generowane przez kilka różnych technik.

Dane wyjściowe

  • Ocena modelu – podsumowanie wyników tego zadania, lista walorów wygenerowanych modeli (np. precyzyjność) i ocena ich jakości w relacji względem siebie nawzajem.
  • Powtórzone ustawienia parametrów – nawiązując do oceny modelu, powtórzenie ustawień parametrów i dostrojenie ich na następne zadanie budowania modelu. Powtarzanie budowy modelu i jego oceny aż do momentu, w którym będziesz przekonany, że znalazłeś najlepszy model(e). Dokumentacja wszystkich powtórzeń i ocen.