analiza statystyczna metodolog

Zaawansowana metoda Data Mining Crisp DM.

meto

Co to jest metoda CRISP-Data Mining? 

CRISP-Data Minig to skrót od międzybranżowy proces statystycznej eksploracji danych (cross-industry proces for data mining). Metoda CRISP-Data Minig zapewnia ustrukturyzowane podejście to planowania projektu eksploracji danych. Jest to rozrosła i sprawdzona w boju metoda. Nie mamy do niej żadnych praw własnościowych. Nie stworzyliśmy jej. Jesteśmy jednak heroldami wieści o jej niesamowitej praktyczności, elastyczności i użyteczności kiedy używa się analityki do rozwiązania drażliwych biznesowych kwestii. Jest to złota nitka wiążąca niemal każdą umowę z klientem. Poniżej jest zaprezentowany model CRISP-DM.

Data mining crisp dm 1 etap eksploracji danych

Poziomy rozdzielenia w CRISP-Data Minig

CRISP-Data Minig składa się z czterech poziomów, od ogólnego do specjalistycznego, a każdy poziom obejmuje liczbę zadań. Cztery poziomy są widoczne na poniższym diagramie.

data mining crisp dm eksploracja danych schemat

Ogólne zadania są w zamierzeniu tak kompletne i stabilne jak to tylko możliwe. Kompletne oznacza, że pokrywają cały proces eksploracji danych i wszystkie możliwe aplikacje do eksploracji danych. Stabilne oznacza zaś, że model powinien być obowiązywać także w przypadku niespodziewanych wydarzeń, takich jak nowe techniki modelingu.

Trzeci poziom – poziom zadań specjalistycznych – opisuje jak działania w ogólnych zadaniach powinny być przeprowadzone w specyficznych sytuacjach analizy danych. Na przykład, na drugim poziome może być ogólne zadanie „wyczyść dane”. Trzeci poziom opisuje jak to zadanie różni się w różnych sytuacjach, takich jak czyszczenie wartości liczbowych versus czyszczenie wartości kategorialnych, albo czy typ problemu to klastrowe czy predyktywne modelowanie.

Ten model jest wyidealizowaną sekwencją zdarzeń. W praktyce liczne zadania mogą być przeprowadzone w innej kolejności i często koniecznym będzie powrót do poprzedniego zadania i powtórzenie pewnych działań. Ten model nie ma na celu uchwycenia wszystkich możliwych ścieżek procesu eksploracji danych.