CRISP-DM etap drugi – Zebranie danych wstępnych i zrozumienie danych

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Zebranie danych wstępnych

 CRISP-DM etap drugi – zrozumienie danych

Zadanie

Drugi etap procesu CRISP-Data Mining wymaga od ciebie zdobycia danych (albo dostępu do danych) będących na liście w zasobach projektu. Wstępne zebranie zawiera ładowanie danych, jeżeli jest potrzebne by zrozumieć dane. Na przykład, jeżeli używasz specjalistycznego narzędzia do zrozumienia danych, oczywistym rozwiązaniem jest wyładowanie tych danych do tego narzędzia. Jeżeli pozyskujesz wielorakie źródła danych, warto rozważyć zintegrowanie ich, teraz albo w późniejszej fazie preparowania danych.

Dane wyjściowe

  • Raport z zebrania danych wstępnych – to lista zestawów danych/źródeł danych przyswojona wspólnie z ich lokalizacją, metodą użytą by je zdobyć i wszelkimi napotkanymi problemami. Zapisuje wszystkie napotkane problemy i każde osiągnięte rozwiązanie. To pomoże w przyszłej replikacji tego projektu albo w przeprowadzeniu podobnych projektów w przyszłości.

Opisywanie danych 

Zadanie Data minngowe

Sprawdzenie łącznych i powierzchniowych właściwości ze zdobytych danych i stworzenie raportu o wynikach.

Dane wyjściowe

  • Raport opisujący dane – opis danych, które zostały nabyte zawiera format danych, ilość danych (np. liczbę kolumn i wierszy w każdej tabeli), identyfikatory kolumn i wszystkich innych danych powierzchniowych, które zostały rozpoznane. Ocenia czy nabyte dane są zadowalające w stosunku do istotnych wymagań.

Eksplorowanie danych 

Zadanie Data minngowe

To zadanie zwraca się do pytań wydobywających dane, używając zapytań, wizualizacji i technik raportujących. Te zawierają dystrybucję kluczowych atrybutów (na przykład, docelowy atrybut w przewidywaniu zadania), związki pomiędzy parami albo małymi liczbami atrybutów, wyniki prostych agregacji, właściwości znaczących subpopulacji i proste analizy statystyczne. Te analizy mogą bezpośrednio zwracać się do celów wydobycia danych; mogą także przyczynić się do stworzenia lub oczyścić opisy danych lub raporty ilościowe; i uwzględniają transformacje i inne preparacje danych poczynione na poczet przyszłych analiz.

Dane wyjściowe

  • Raport eksploracji danych – opisuje wyniki tego zadania, zawiera pierwsze znaleziska lub wstępne hipotezy i ich wpływ na resztę danego projektu. Jeżeli jest należycie wykonany, zawiera grafy i wykresy, które wskazują charakterystyki danych sugerujące dalsze badanie ciekawych podzestawów danych.

Weryfikacja jakości danych

Zadanie Data minngowe

Badanie jakości danych, adresowanie pytań takich jak: czy dane są kompletne (czy pokrywają się ze wszystkimi wymaganymi przypadkami)? Czy są poprawne czy zawierają błędy, a jeśli tak, to jak częste są te błędy. Czy są brakujące wartości danych? Jeśli tak, to jak są reprezentowane, gdzie się pojawiają i jak często się zdarzają?

Dane wyjściowe

  • Raport jakości danych – lista wyników stworzona po weryfikacji jakości danych; jeżeli występują problemy z jakością, lista potencjalnych rozwiązań. Rozwiązania do problemów z jakością danych generalnie mocno zależą od zarówno wiedzy biznesowej jak i wiedzy o danych.