CRISP-DM etap trzeci – preparowanie danych – Wybór danych

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

CRISP-Data minig  etap trzeci – preparowanie danych

 Wybór danych

 Zadanie

Decyzja, które dane zostaną użyte do analizy. Kryteria zawierają trafność względem celów eksploracji danych, jakości i technicznych ograniczeń takich jak limity objętości danych albo typów danych. Zauważmy, że selekcja danych obejmuje także selekcję atrybutów (kolumn) tak samo jak selekcję rekordów (wierszy) w tabeli.

Dane wyjściowe

  • Racjonalne uzasadnienie przyjęcia/wykluczenia – lista danych, które mają być przyjęte/wykluczone i powody stojące za tymi decyzjami.

Czyszczenie danych

Zadanie

Podnieść jakość danych do wymaganego poziomu przez wyselekcjonowane techniki analiz. To może zawierać selekcję czystych podzestawów danych, wprowadzenie odpowiednich domyślnych, albo bardziej ambitne techniki jak oszacowanie brakujących danych przez modelowanie.

Dane wyjściowe

  • Raport z czyszczenia danych – opisuje jakie decyzje i działania zostały podjęte by nazwać problemy z jakością danych wykryte podczas zadania weryfikacji jakości danych w fazie zrozumienia danych. Transformowacje danych do procesów czyszczenia i możliwy wpływ na wyniki analiz powinien być wzięty pod rozwagę.

Konstruowanie danych

Zadanie

To zadanie zawiera konstruktywne operacje preparowania danych takie jak wytwarzanie z pochodnych atrybutów albo zupełnie nowych rekordów, lub transformowanie wartości pod istniejące atrybuty.

Dane wyjściowe

  • Pochodne atrybuty – to są nowe atrybuty, które są konstruowane z jednego lub więcej istniejących atrybutów w tym samym rekordzie. Przykład: powierzchnia=długość*szerokość
  • Wygenerowane rekordy – opisuje tworzenie zupełnie nowych rekordów. Przykład: tworzenie rekordów dla klientów, którzy nie dokonali żadnego zakupu w mijającym roku. Nie ma żadnego powodu by mieć taki rekord w surowych danych, ale dla celów modelowania może mieć sens wyraźne podkreślenie faktu, że dani klienci nie dokonali żadnych zakupów.

Integrowanie danych

Zadanie

To są metody w wyniku których informacje są połączone z wielorakich baz danych, tabel albo rekordów by stworzyć nowe rekordy lub wartości.

Dane wyjściowe

  • Dane scalone – scalanie tabel odnosi się do łączenia dwóch lub więcej tabel, które mają różne informacje na temat tego samego obiektu. Przykład: sieć dystrybucji ma jedną tabelę z informacjami o charakterystyce każdego sklepu (np. powierzchnia, typ budynku), inną tabelę z podsumowanymi danymi sprzedażowymi (np. zysk, procentowa zmiana w porównaniu z zeszłym rokiem) i inną z informacjami demograficznymi o otaczającym terenie. Każda z tych tabel zawiera jeden rekord na każdy sklep. Te tabele mogą zostać scalone w jedną nową tabelę z jednym rekordem na każdy sklep, łącząc pola z tabel źródłowych.
  • Agregacje – odnoszą się do operacji w których nowe wartości są wyliczane przez podsumowywanie informacji z wielorakich rekordów i tabel. Na przykład, zmiana tabeli zakupów konsumenckich gdzie każdy rekord odpowiada jednemu zakupowi na nową tabelę, gdzie każdy rekord odpowiada jednemu klientowi, z polami takimi jak liczba zakupów, średnia kwota zakupu, procent zamówień opłaconych kartą kredytową, procent zakupionych przedmiotów będących w promocji itd.