pomoc, usługi i analizy statystyczne metodolog

Metodologia Data Minig – Crisp DM. Struktura procesu.

Metodolog - statystyczna analiza data minig

Co to jest data mining?

Ogromne ilości danych są generowane każdego dnia przez urządzenia, strony internetowe, instytucje państwowe, firmy/przedsiębiorstwa oraz badania naukowe. Dane te posiadają wiele odpowiedzi na pojawiające się problemy spotykające wyżej wymienione przedsięwzięcia. Jak można użytecznie wyciągać informacje i wiedzę z takich ogromnych zbiorów danych?

Tak zwany data mining/big data to ogromny biznes. Dostęp do danych rośnie szybciej niż rzeżucha na święta. Świat biznesu, organizacji oraz nauki czerpie korzyści z wyrafinowanych technik i analiz statystycznych które pomagają w ogarnięciu tych wartościowych zasobów informacji.

Techniki data mining są wykorzystywane tam gdzie klasyczne metody statystyczne mają trudność z pokonaniem ilości dostępnych danych. Może to być ogromna liczba obserwacji, zmiennych lub szybkość z którą dane muszą być przetwarzane. Techniki data mining pozwalają uzyskiwać informacje z tych danych poprzez odkrywanie ukrytych wzorców, trendów sprzedażowych, preferencji zakupowych klientów lub kluczowych informacji z których korzysta inteligentne i strategiczne zarządzanie.

Proces data miningu/ drążenia danych zawiera w sobie:

  • identyfikacje obszarów ryzyka, oszustw i zanieczyszczeń w danych
  • reguły zależności, znajdowania związków między zmiennymi i budowania spersonalizowanych rekomendacji i porad
  • grupowanie i analizy identyfikujące klastry klientów do których można kierować odpowiedni przekaz reklamowy
  • sieci neuronowe które identyfikują złożone wzorce i zamieniają je na predykcje oparte na – rasowym poziomie – sztucznej inteligencji
  • drzewach decyzyjnych generujących sekwencje najlepszych decyzji w celu oszczędnego lub strategicznego działania

Często obliczeniowe metody otwierają pełen potencjał tkwiący w wielkich zbiorach danych. Analizy wielkich zbiorów danych  to przyszłość podejmowania decyzji i strategicznego planowania działań.

 

Struktura procesu. Data Mining Crisp DM

W jednym miejscu przedstawiamy Wam nasze wszystkie wpisy dotyczące kompleksowej metody analizy danych jaką jest Crisp DM. Jest to zaawansowana metoda analizy statystycznej w biznesie, ale tez również w nauce (szczególnie w przypadku odkrywania wiedzy z danych w kontekście badań eksploracyjnych). Poniżej przedstawiamy wszystkie linki do wpisów o technice data mining jaką jest metodologia CRISP DM.

Zaawansowana metoda Data Mining Crisp DM.
CRISP-DM etap drugi – Zebranie danych wstępnych i zrozumienie danych
CRISP-DM etap trzeci – preparowanie danych – Wybór danych
CRISP-Data Mining etap czwarty – modelowanie i wybór techniki modelowania
CRISP-DM etap piąty – ewaluacja czyli ocenianie wyników
CRISP-DM etap szósty – wdrażanie – plan wdrożenia
Dane binarne w statystyce

CRISP-DM etap drugi – Zebranie danych wstępnych i zrozumienie danych

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Zebranie danych wstępnych

 CRISP-DM etap drugi – zrozumienie danych

Zadanie

Drugi etap procesu CRISP-Data Mining wymaga od ciebie zdobycia danych (albo dostępu do danych) będących na liście w zasobach projektu. Wstępne zebranie zawiera ładowanie danych, jeżeli jest potrzebne by zrozumieć dane. Na przykład, jeżeli używasz specjalistycznego narzędzia do zrozumienia danych, oczywistym rozwiązaniem jest wyładowanie tych danych do tego narzędzia. Jeżeli pozyskujesz wielorakie źródła danych, warto rozważyć zintegrowanie ich, teraz albo w późniejszej fazie preparowania danych.

Dane wyjściowe

  • Raport z zebrania danych wstępnych – to lista zestawów danych/źródeł danych przyswojona wspólnie z ich lokalizacją, metodą użytą by je zdobyć i wszelkimi napotkanymi problemami. Zapisuje wszystkie napotkane problemy i każde osiągnięte rozwiązanie. To pomoże w przyszłej replikacji tego projektu albo w przeprowadzeniu podobnych projektów w przyszłości.

Opisywanie danych 

Zadanie Data minngowe

Sprawdzenie łącznych i powierzchniowych właściwości ze zdobytych danych i stworzenie raportu o wynikach.

Dane wyjściowe

  • Raport opisujący dane – opis danych, które zostały nabyte zawiera format danych, ilość danych (np. liczbę kolumn i wierszy w każdej tabeli), identyfikatory kolumn i wszystkich innych danych powierzchniowych, które zostały rozpoznane. Ocenia czy nabyte dane są zadowalające w stosunku do istotnych wymagań.

Eksplorowanie danych 

Zadanie Data minngowe

To zadanie zwraca się do pytań wydobywających dane, używając zapytań, wizualizacji i technik raportujących. Te zawierają dystrybucję kluczowych atrybutów (na przykład, docelowy atrybut w przewidywaniu zadania), związki pomiędzy parami albo małymi liczbami atrybutów, wyniki prostych agregacji, właściwości znaczących subpopulacji i proste analizy statystyczne. Te analizy mogą bezpośrednio zwracać się do celów wydobycia danych; mogą także przyczynić się do stworzenia lub oczyścić opisy danych lub raporty ilościowe; i uwzględniają transformacje i inne preparacje danych poczynione na poczet przyszłych analiz.

Dane wyjściowe

  • Raport eksploracji danych – opisuje wyniki tego zadania, zawiera pierwsze znaleziska lub wstępne hipotezy i ich wpływ na resztę danego projektu. Jeżeli jest należycie wykonany, zawiera grafy i wykresy, które wskazują charakterystyki danych sugerujące dalsze badanie ciekawych podzestawów danych.

Weryfikacja jakości danych

Zadanie Data minngowe

Badanie jakości danych, adresowanie pytań takich jak: czy dane są kompletne (czy pokrywają się ze wszystkimi wymaganymi przypadkami)? Czy są poprawne czy zawierają błędy, a jeśli tak, to jak częste są te błędy. Czy są brakujące wartości danych? Jeśli tak, to jak są reprezentowane, gdzie się pojawiają i jak często się zdarzają?

Dane wyjściowe

  • Raport jakości danych – lista wyników stworzona po weryfikacji jakości danych; jeżeli występują problemy z jakością, lista potencjalnych rozwiązań. Rozwiązania do problemów z jakością danych generalnie mocno zależą od zarówno wiedzy biznesowej jak i wiedzy o danych.