problemy klasyfikacyjne

Naiwny klasyfikator Bayesa Microsoftu

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Naiwny klasyfikator Bayesa Microsoftu

 

Naiwny klasyfikator Bayesa Microsoftu jest algorytmem klasyfikującym opartym na bayesowskich twierdzeniach, i może zostać wykorzystany zarówno do eksploracyjnego jak i predykcyjnego modelingu. Słowo „naiwny” w nazwie Naiwny Bayes wywodzi się z faktu, że algorytm stosuje techniki bayesowskie, ale nie bierze pod uwagę zależności, które mogą istnieć.

Ten klasyfikator jest słabszy obliczeniowo niż inne algorytmy Microsoftu. Właśnie dlatego jest przydatny do szybkiego generowania eksploracyjnych modeli do odkrywania związków między kolumnami wkładu, a kolumnami przewidywalnymi. Możesz użyć tego klasyfikatora do zrobienia wstępnej eksploracji danych, a następnie możesz zastosować wyniki do stworzenia dodatkowych modeli eksploracyjnych z innymi algorytmami, które są mocniejsze obliczeniowo i bardziej precyzyjne.

Przykład:

 

W czasie trwania promocyjnej strategii, dział marketingowy firmy Adventure Works Cycle zdecydował aby celować w potencjalnych klientów poprzez wysyłanie im ulotek. By zredukować koszty, chcą oni wysyłać ulotki tylko do tych klientów, którzy prawdopodobnie odpowiedzą. Firma przechowuje informacje w bazie danych o demografii i odpowiedziach na wcześniejsze wysyłki. Chcą wykorzystać te dane by sprawdzić jak demograficzne wskaźniki takie jak wiek czy lokalizacja mogą pomóc przewidzieć odpowiedź na promocję, porównując potencjalnych klientów z klientami, którzy mają podobną charakterystykę i którzy kupowali produkty od firmy w przeszłości. Dokładniej rzecz ujmując, chcą zobaczyć różnice pomiędzy klientami, którzy kupili rowery i tymi, którzy się na to nie zdecydowali.

Używając klasyfikatora Naiwnego Bayesa Microsoftu, dział marketingu może szybko przewidzieć wynik dla danego profilu klienta, i dlatego może zdecydować, którzy klienci najprawdopodobniej odpowiedzą na ulotki. A wykorzystując przeglądarkę Naiwnego Bayesa Microsoftu w SQL Server Data Tools (SSDT), mogą również zwizualizować kolumny wkładu, które przyczyniają się do pozytywnej odpowiedzi na ulotki.

Jak działa ten klasyfikator?

 

Klasyfikator Naiwnego Bayesa Microsoftu oblicza prawdopodobieństwo każdego stanu w każdej kolumnie wkładu, dając każdy możliwy stan w kolumnie przewidywalnej.

By zrozumieć jak to działa, użyj przeglądarki Naiwnego Bayesa Microsoftu w SSDT (tak jak to pokazano na poniższym obrazku) by zobaczyć jak algorytm rozdziela stany.

Dane wejściowe do naiwnego klasyfikatora bayesa

Tutaj, przeglądarka Naiwnego Bayesa Microsoftu umieszcza każdą kolumnę wkładu w bazie danych i pokazuje jak stany każdej kolumny są rozdzielone, dając każdy stan kolumny przewidywalnej.

Możesz użyć obrazka tego modelu do zidentyfikowania kolumn wkładu, które są ważne w rozróżnianiu pomiędzy stanami kolumn przewidywalnych.

Na przykład, w rzędzie Comute Distance pokazanym tutaj, rozkład wartości wkładu jest widocznie różny dla kupujących i niekupujących. To oznacza, że ten wkład, Comute distance = 0-1, jest potencjalnym wskaźnikiem.

Przeglądarka również przewiduje wartości dla rozkładów, więc możesz zobaczyć, że dla klientów, którzy do pracy pokonują dystans od jednej do dwóch mil, prawdopodobieństwo kupienia roweru wynosi 0.387, a prawdopodobieństwo, że nie kupią roweru to 0.287. W tym przykładzie, klasyfikator wykorzystuje informacje numeryczną, pochodzącą z charakterystyki klienta (taką jak dystans dojeżdżania), by przewidzieć czy klient kupi rower.

Dane wymagane do modeli Naiwnego Bayesa

Kiedy przygotowujesz dane by użyć je w kształtowaniu modelu Naiwnego Bayesa, musisz zrozumieć wymagania tego klasyfikatora, zawierające to jak dużo danych jest potrzebne i jak tych danych użyć.

Wymagania do modelu Naiwnego Bayesa są następujące:

 • Pojedyncza kluczowa kolumna – każdy model musi zawierać jedną numeryczną bądź tekstową kolumnę, która identyfikuje każdy rekord. Klucze złożone są niedozwolone.
 • Kolumny wkładu – w modelu Naiwnego Bayesa, wszystkie kolumny muszą być albo oddzielone albo wartości muszą być niełączone.
 • Zmienne muszą być niezależne – w modelu Naiwnego Bayesa, również ważnym jest by zapewnić, że atrybuty wkładu są niezależne od siebie. To jest szczególnie ważne kiedy używasz modelu do przewidywania. Jeżeli użyjesz dwóch kolumn z danymi, które są już mocno powiązane, efekt zwielokrotni wpływ tych kolumn, co przyciemni inne czynniki wpływające na wynik.

Odwrotnie, zdolność klasyfikatora do rozpoznawania korelacji wśród zmiennych jest przydatna kiedy eksplorujesz model albo zbiór danych, by zidentyfikować związki wśród wkładów.

 • Przynajmniej jedna przewidywalna kolumna – przewidywalny atrybut musi zawierać rozdzielone wartości.

Wartości kolumny przewidywalnej mogą być traktowane jak wkłady. Ta praktyka może być użyteczna kiedy odkrywasz nowy zestaw danych, po to by znaleźć związki wśród kolumn.

Oglądanie modelu

 

Aby eksplorować model, możesz używać przeglądarki Naiwnego Bayesa Microsoftu. Przeglądarka pokaże ci jak atrybuty wkładu zależą od przewidywalnych atrybutów. Przeglądarka również zapewnia szczegółowy profil każdej grupy, listę atrybutów, które odróżniają każdą grupę od innych, i charakterystyki dla całego kształtowanego zestawu danych.

Jeżeli chcesz poznać więcej szczegółów, możesz przeglądać model w użyciem Microsoft Generic Content Tree Viewer (Data Mining).

Tworzenie Prognoz

 

Po ukształtowaniu modelu, wyniki są pogrupowane jako zbiór wzorów, który możesz eksplorować albo użyć do tworzenia prognoz.

Możesz tworzyć zapytania powracające do prognoz o tym jak nowe dane wpływają na przewidywalne atrybuty, albo możesz odzyskać statystyki, które opisują korelacje znalezione przez model.

Uwagi:

 • Obsługuje Predictive Model Markup Language do tworzenia modeli eksploracji
 • Obsługuje przeglądanie szczegółowe
 • Nie obsługuje tworzenia wymiarów eksploracji danych
 • Obsługuje OLAP modele eksploracyjne

Więcej info na temat metod Bayesa i Data miningu na:

Naiwny klasyfikator Bayesa (kodowany w Pythonie) – nauka w sześciu prostych krokach
Zrozumienie Bayesa: Dowody & Wnioski. Statystyka Bayesowska.
Metodologia Data Minig – Crisp DM. Struktura procesu.
Działanie przy projektach analitycznych

Obszary zastosowania Data Mining

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Obszary zastosowania Data Mining

Data mining to proces analityczny, który polega na badaniu dużych zbiorów danych aby odkryć regularne wzorce oraz systematyczne współzależności pomiędzy zmiennymi a następnie korzystać z tych informacji do budowy modeli predykcyjnych. Finalnym celem data mining jest najczęściej przewidywanie (zachowań klientów, wielkości sprzedaży, prawdopodobieństwa utraty klienta itp.). W skrócie data mining to automatyczne przesiewanie dużych ilości danych w celu uzyskania cennych informacji i formułowania prognoz. W wielu gałęziach przemysłu z powodzeniem wykorzystuje się tą eksploracje danych.

Najbardziej popularnym środowiskiem wykorzystującym data mining jest biznes. Sposób, w jaki firmy współpracują ze swoimi klientami zmienił się dramatycznie w ciągu ostatnich kilku lat. Nie jest gwarantowane że klient będzie chciał kontynuować współpracę. W rezultacie firmy muszą zrozumieć swoich klientów lepiej i szybko reagować na ich potrzeby i wymagania. Ponadto, okres, w którym muszą być wykonane te reakcje jest krótszy. Nie jest już możliwe, aby czekać, aż objawy niezadowolenia klientów staną się oczywiste, zanim muszą być podjęte działania. Aby odnieść sukces, firmy muszą być aktywni i przewidywać tego, co chce klient. Do tego celu wykorzystuje się analizę danych. Najważniejsze obszary biznesu, które z powodzeniem stosują eksploracji danych to:

 • Sprzedaż detaliczna

  – Za pomocą data mining identyfikuje się zachowania klientów (co i ile kupują), odkrywa trendy i wzorce zakupów klienta, poprawia jakość obsługi klienta, osiąga się lepszą satysfakcje klienta, stosuje się lepszą politykę dystrybucji i transportu oraz zmniejsza się koszty przedsiębiorstwa. Techniki eksploracji danych w handlu detalicznym mają zastosowanie w:

  • Segmentacji klientów: identyfikują grupę klientów i dopasowują każdego klienta do odpowiedniej grupy.
  • Ustalaniu zachowań klientów: identyfikują wzorce zakupów klienta i określają , jakie następne produkty klient prawdopodobnie kupi.
  • Utrzymaniu klienta: identyfikuje zwyczaje „zakupowe” klienta i dostosowuje ofertę produktów , cen i promocje.
  • Analizie kampanii sprzedażowych: przewiduje skuteczność sprzedaży opierając się na pewnych czynnikach, takich jak rabaty czy reklamy.
 • Bankowość

  Istnieje wiele obszarów, w których data mining może być stosowane w sektorze finansowym jak np. rentowność klientów, analiza kredytowa, prawdopodobieństwo niewypłacalności, marketing, oszustwa transakcyjne, ranking inwestycji, optymalizacji portfela, zarządzanie gotówką, prognozowanie i cross selling. Główne przykłady zastosowań technik eksploracji danych w bankowości to:

  • Scoring kredytowy: metoda oceny wiarygodności podmiotu ubiegającego się o kredyt bankowy.
  • Segmentacja klientów: ustanowienie grup klientów i dodanie każdego nowego klienta do odpowiedniej grupy.
  • Utrzymaniu klienta: identyfikuje zwyczaje „zakupowe” klienta i dostosowuje ofertę produktów (w tym wypadku kont, kredytów itp.)
  • Przewidywanie rentowności klientów: rozpoznawanie wzorców, na podstawie różnych czynników, takich jak np. produkty stosowane przez klienta, aby przewidzieć jego rentowność.
 • Ubezpieczenia

  Firmy ubezpieczeniowe wykorzystują data mining do pozyskiwania nowych klientów, zachowania dotychczasowych klientów i wykonywaniem różnych klasyfikacji. Główne zastosowania data mining w ubezpieczeniach są następujące:

  • Identyfikacja czynników ryzyka: czyli analiza czynników , takich jak historia reklamacji lub wzorce zachowań, które mogą mieć silniejszy lub słabszy wpływ na poziom ryzyka ubezpieczonego.
  • Wykrywanie oszustw: ustalenie wzorców oszustwa i przeanalizowanie czynników, które wskazują na duże prawdopodobieństwo oszustwa roszczenia.
  • Utrzymywanie i segmentacja klientów: ustalenie grup klientów i dodanie każdego nowego klienta do odpowiedniej grupy oraz kreślenie rabatów i pakietów, które mogły by zwiększyć lojalność klienta.

W dzisiejszych czasach analiza danych ma ogromne znaczenie również w medycynie a nawet można stwierdzić, że nowoczesna   medycyna   nie   może   obejść   się   bez   statystyki. W służbie zdrowia w każdym jej obszarze nastąpił prawdziwy rozwój zastosowań narzędzi statystycznych. Dzięki temu nie musimy  już  opierać się na intuicji, aby solidnie badać, mierzyć  i oceniać  różne  zjawiska.  Każde zmiany procedur leczniczych, zastosowanie nowego leku czy terapii muszą być w należyty sposób uzasadnione badaniami. Domaga się dowodów potwierdzających stawiane hipotezy. Dzięki  rozwojowi  sposobów  otrzymywania oraz magazynowania  danych  cyfrowych  możemy  projektować  bazy  danych  mające  kompletne,  szczegółowe  informacje  dotyczące objawów chorób, wyników testów medycznych, czy sposobu wyboru terapii.   Coraz nowocześniejsze wyposażenie zakładów ochrony zdrowia, rozkwit techniki, aparatury oraz diagnostyki otwiera duże możliwości, ale stawia szerokie wymagania przed analizą gromadzonych danych. Oczekuje się profesjonalnych narzędzi do analizy danych, skutecznych algorytmów i metod, które poza  dostarczaniem dokładnych danych wyników pomagają w ich objaśnieniu. Za pomocą danych historycznych, wykrywa się reguły, które następnie używa się w diagnostyce i prowadzeniu leczenia u nowych pacjentów. Odpowiednie modele, mające na uwadze charakterystykę pacjenta, mogą przyłączyć go do grup ryzyka zachorowania na daną chorobę, zaproponować odpowiednie sposoby leczenia, ocenić ryzyko wystąpienia powikłań lub pomóc w podjęciu decyzji o działaniach profilaktycznych. Coraz więcej publikacji przedstawiających wyniki badań medycznych zawiera już  nie  tylko  klasyczne  metody  statystyczne, takie jak  analiza  przeżycia  czy testy statystyczne, ale również metaanaliza i zaawansowane techniki data mining (np. sieci neuronowe, drzewa decyzyjne).

Podobne zastosowanie analizy danych można zaobserwować w psychologii. Psychologowie społeczni i inni naukowcy regularnie szukają wyjaśnienia ludzkich zachowań. Statystyka pomaga psychologom w organizacji ogromnych ilości danych, odpowiednim opisywaniu danych oraz wnioskowaniu na ich podstawie. Psycholodzy, którzy wynajdą nową metodę terapii muszą udowodnić że ona rzeczywiście przynosi rezultaty. Nie tylko na paru pacjentach.  Statystyka zawiera narzędzia, jakie pozwalają psychologii mierzyć wyjaśniane przez nią zjawiska. Pomaga w tym jak przeprowadzić badanie, czy faktycznie mierzymy to, co chcemy zmierzyć, czy rezultaty można uogólnić na całą populacje itp. Psychologia nie jest tak prosta jak matematyka, dowody to nie ciąg znaczków w równaniu, więc trzeba się wspomóc zaawansowaną analizą danych.

Dotychczasowe doświadczenia pokazują, że stosowanie systemów odkrywania wiedzy w bazach danych pozwala na znaczącą poprawę jakości produkcji, podniesienie poziomu zysków, ochrony przed oszustwami a także polepszenie funkcjonowania opieki zdrowotnej czy odkrycia nowej terapii. Data mining pozwala  uzyskać  odpowiedzi  na  wiele  ważnych  pytań,  ustalać  fakty,  odkryć  prawidłowości i zależności, których bez metod statystycznych w ogóle nie bylibyśmy w stanie wykryć.