Naiwny klasyfikator Bayesa Microsoftu

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Naiwny klasyfikator Bayesa Microsoftu

 

Naiwny klasyfikator Bayesa Microsoftu jest algorytmem klasyfikującym opartym na bayesowskich twierdzeniach, i może zostać wykorzystany zarówno do eksploracyjnego jak i predykcyjnego modelingu. Słowo „naiwny” w nazwie Naiwny Bayes wywodzi się z faktu, że algorytm stosuje techniki bayesowskie, ale nie bierze pod uwagę zależności, które mogą istnieć.

Ten klasyfikator jest słabszy obliczeniowo niż inne algorytmy Microsoftu. Właśnie dlatego jest przydatny do szybkiego generowania eksploracyjnych modeli do odkrywania związków między kolumnami wkładu, a kolumnami przewidywalnymi. Możesz użyć tego klasyfikatora do zrobienia wstępnej eksploracji danych, a następnie możesz zastosować wyniki do stworzenia dodatkowych modeli eksploracyjnych z innymi algorytmami, które są mocniejsze obliczeniowo i bardziej precyzyjne.

Przykład:

 

W czasie trwania promocyjnej strategii, dział marketingowy firmy Adventure Works Cycle zdecydował aby celować w potencjalnych klientów poprzez wysyłanie im ulotek. By zredukować koszty, chcą oni wysyłać ulotki tylko do tych klientów, którzy prawdopodobnie odpowiedzą. Firma przechowuje informacje w bazie danych o demografii i odpowiedziach na wcześniejsze wysyłki. Chcą wykorzystać te dane by sprawdzić jak demograficzne wskaźniki takie jak wiek czy lokalizacja mogą pomóc przewidzieć odpowiedź na promocję, porównując potencjalnych klientów z klientami, którzy mają podobną charakterystykę i którzy kupowali produkty od firmy w przeszłości. Dokładniej rzecz ujmując, chcą zobaczyć różnice pomiędzy klientami, którzy kupili rowery i tymi, którzy się na to nie zdecydowali.

Używając klasyfikatora Naiwnego Bayesa Microsoftu, dział marketingu może szybko przewidzieć wynik dla danego profilu klienta, i dlatego może zdecydować, którzy klienci najprawdopodobniej odpowiedzą na ulotki. A wykorzystując przeglądarkę Naiwnego Bayesa Microsoftu w SQL Server Data Tools (SSDT), mogą również zwizualizować kolumny wkładu, które przyczyniają się do pozytywnej odpowiedzi na ulotki.

Jak działa ten klasyfikator?

 

Klasyfikator Naiwnego Bayesa Microsoftu oblicza prawdopodobieństwo każdego stanu w każdej kolumnie wkładu, dając każdy możliwy stan w kolumnie przewidywalnej.

By zrozumieć jak to działa, użyj przeglądarki Naiwnego Bayesa Microsoftu w SSDT (tak jak to pokazano na poniższym obrazku) by zobaczyć jak algorytm rozdziela stany.

Dane wejściowe do naiwnego klasyfikatora bayesa

Tutaj, przeglądarka Naiwnego Bayesa Microsoftu umieszcza każdą kolumnę wkładu w bazie danych i pokazuje jak stany każdej kolumny są rozdzielone, dając każdy stan kolumny przewidywalnej.

Możesz użyć obrazka tego modelu do zidentyfikowania kolumn wkładu, które są ważne w rozróżnianiu pomiędzy stanami kolumn przewidywalnych.

Na przykład, w rzędzie Comute Distance pokazanym tutaj, rozkład wartości wkładu jest widocznie różny dla kupujących i niekupujących. To oznacza, że ten wkład, Comute distance = 0-1, jest potencjalnym wskaźnikiem.

Przeglądarka również przewiduje wartości dla rozkładów, więc możesz zobaczyć, że dla klientów, którzy do pracy pokonują dystans od jednej do dwóch mil, prawdopodobieństwo kupienia roweru wynosi 0.387, a prawdopodobieństwo, że nie kupią roweru to 0.287. W tym przykładzie, klasyfikator wykorzystuje informacje numeryczną, pochodzącą z charakterystyki klienta (taką jak dystans dojeżdżania), by przewidzieć czy klient kupi rower.

Dane wymagane do modeli Naiwnego Bayesa

Kiedy przygotowujesz dane by użyć je w kształtowaniu modelu Naiwnego Bayesa, musisz zrozumieć wymagania tego klasyfikatora, zawierające to jak dużo danych jest potrzebne i jak tych danych użyć.

Wymagania do modelu Naiwnego Bayesa są następujące:

  • Pojedyncza kluczowa kolumna – każdy model musi zawierać jedną numeryczną bądź tekstową kolumnę, która identyfikuje każdy rekord. Klucze złożone są niedozwolone.
  • Kolumny wkładu – w modelu Naiwnego Bayesa, wszystkie kolumny muszą być albo oddzielone albo wartości muszą być niełączone.
  • Zmienne muszą być niezależne – w modelu Naiwnego Bayesa, również ważnym jest by zapewnić, że atrybuty wkładu są niezależne od siebie. To jest szczególnie ważne kiedy używasz modelu do przewidywania. Jeżeli użyjesz dwóch kolumn z danymi, które są już mocno powiązane, efekt zwielokrotni wpływ tych kolumn, co przyciemni inne czynniki wpływające na wynik.

Odwrotnie, zdolność klasyfikatora do rozpoznawania korelacji wśród zmiennych jest przydatna kiedy eksplorujesz model albo zbiór danych, by zidentyfikować związki wśród wkładów.

  • Przynajmniej jedna przewidywalna kolumna – przewidywalny atrybut musi zawierać rozdzielone wartości.

Wartości kolumny przewidywalnej mogą być traktowane jak wkłady. Ta praktyka może być użyteczna kiedy odkrywasz nowy zestaw danych, po to by znaleźć związki wśród kolumn.

Oglądanie modelu

 

Aby eksplorować model, możesz używać przeglądarki Naiwnego Bayesa Microsoftu. Przeglądarka pokaże ci jak atrybuty wkładu zależą od przewidywalnych atrybutów. Przeglądarka również zapewnia szczegółowy profil każdej grupy, listę atrybutów, które odróżniają każdą grupę od innych, i charakterystyki dla całego kształtowanego zestawu danych.

Jeżeli chcesz poznać więcej szczegółów, możesz przeglądać model w użyciem Microsoft Generic Content Tree Viewer (Data Mining).

Tworzenie Prognoz

 

Po ukształtowaniu modelu, wyniki są pogrupowane jako zbiór wzorów, który możesz eksplorować albo użyć do tworzenia prognoz.

Możesz tworzyć zapytania powracające do prognoz o tym jak nowe dane wpływają na przewidywalne atrybuty, albo możesz odzyskać statystyki, które opisują korelacje znalezione przez model.

Uwagi:

  • Obsługuje Predictive Model Markup Language do tworzenia modeli eksploracji
  • Obsługuje przeglądanie szczegółowe
  • Nie obsługuje tworzenia wymiarów eksploracji danych
  • Obsługuje OLAP modele eksploracyjne

Więcej info na temat metod Bayesa i Data miningu na:

Naiwny klasyfikator Bayesa (kodowany w Pythonie) – nauka w sześciu prostych krokach
Zrozumienie Bayesa: Dowody & Wnioski. Statystyka Bayesowska.
Metodologia Data Minig – Crisp DM. Struktura procesu.