Analiza koszykowa apriori analiza zachowań zakupowych klienta

Analiza koszykowa. Algorytm a priori – Statystyczna analiza zachowań konsumenckich oparta na regule asocjacji.

Analiza koszykowa

W tym miejscu znajdziecie opis technik pozwalających na wykrycie asocjacji, tj. powiązań albo skojarzeń między specyficznymi wartościami zmiennych kategorialnych, w dużych zbiorach danych. Takie zadanie cechuje zróżnicowane projekty data mining, ale też projekty text mining, będące podkategorią tych pierwszych. Te techniki są stosowane w szerokim wachlarzu działalności biznesowej i badawczej ze względu na swoją wysoką skuteczność. Oferują rozległe możliwości, można zbadać upodobania klientów, wspomóc dział HR, albo, np. zająć się badaniami historii rozwoju języka. Badacze mogą zaobserwować struktury i zależności pochowane w gigantycznych zbiorach danych. Można np. wywnioskować, że „petenci wybierający produkt A, chętnie też sięgają po produkt B lub C” lub: „podwładnym do gustu przypadła reorganizacja X, inaczej niż Y, a podoba im się koncepcja Z”. Algorytm a priori pozwala na sprawne przetwarzanie wielkiej ilości zasobów, tak aby zlokalizować tego typu powiązania, z wykorzystaniem do ich wyszukiwania, zdefiniowanych wstępnie wartości progowych.

Szczególne wymagania analizy analizy koszykowej.

Tabele wielodzielcze, a tym bardziej tabele wielokrotnych odpowiedzi mogą zostać wykorzystane do analizowania danych typu, o którym jest tutaj mowa. Jednak w wypadku, gdy ilość różnych kategorii jest znaczna, co więcej jest nieznana przed rozpoczęciem analizy, a także gdy stopień podziału nie jest początkowo wiadomy dla istotnych zasad asocjacji, tabelaryzowanie z użyciem Statystyk podstawowych jawi się jako uciążliwe, a wręcz w praktyce nie do zrobienia. Powróćmy do przykładu z księgarnią. Nie sposób zliczyć tytułów wszystkich książek, jest to ilość właściwie nieskończona. Co za tym idzie, tworząc tabelę, gdzie każdy tytuł odpowiadałby osobnemu wymiarowi, a nabycie książki równałoby się przypisaniu wartości (tak/nie) w każdym wymiarze, to finalna tabela wielodzielcza okazałby się gigantyczna, a w niej znalazłyby się w większości puste komórki. Alternatywą mogłoby być stworzenie tabel każdej potencjalnej dychotomii, dla każdego z produktów w asortymencie, co pokazałoby nam asocjacje par produktów. Aczkolwiek w takim wypadku, liczba powstałych tabel byłaby stanowczo zbyt wielka, a informacje z nich płynące mało skondensowane. Co jeszcze gorsze, wszelkie ewentualne potrójne asocjacje nie będą dla nas widoczne. Algorytm a priori, używany w analizie koszykowej, nie dość że wyłapie automatycznie związki („tabele wielodzielcze”), które są istotne, (tabele wielodzielcze wypełnione treścią, a nie pustymi komórkami), ale również zdefiniuje stopień podziału dla tabel zawierających znaczące reguły asocjacji.

Konkludując: analizę koszykową stosujemy aby odkryć reguły takie jak: jeśli X to raczej także Y, gdzie X i Y to pojedyncze wartości (kategorie), pozycje, słowa itp., lub być może związki wartości, słów itp. (np. jeżeli (zarost=wąsik i rozrywka=komputer) to (mag=level potężny i częstotliwość sexu=znikoma)). Program znajduje zastosowanie w analizie prostych zmiennych kategorialnych, zmiennych dychotomicznych, jak i zmiennych wielokrotnych odpowiedzi. Algorytm określi zasady asocjacji, bez konieczności wcześniejszego wpisania liczby kategorii obecnych w danych ani maksymalnego poziomu faktoryzacji, czy też złożoności ważnych asocjacji. Algorytm stworzy tabele wielodzielcze nie zmuszając nas do wstępnego określenia liczby jej wymiarów i liczby kategorii dla każdego wymiaru. Z tego powodu algorytm ten jest adekwatny dla data i text miningu w bardzo dużych bazach danych.

Reguły asocjacji: Jeżeli A to B.

Algorytm a priori określa, według danych, reguły asocjacji, wyglądające tak: Jeżeli A to B (ang. If Body then Head), gdzie A (poprzednik) i B (następnik) są kodami (wartościami tekstowymi) lub związkami kodów. Przykładowo: Jeżeli (auto=Lamborghini i płeć=facet i wiek<21) to (ryzyko=wysokie i składka ubezpieczeniowa=horrendalna). W tym wypadku A=(auto=Lamborghini i płeć=facet i wiek<21), B=(ryzyko=wysokie i składka ubezpieczeniowa=horrendalna).

INTERPRETACJE I PORÓWNANIE WYNIKÓW

Kiedy zestawimy rezultaty z poszukiwań reguł asocjacji z tymi uzyskanymi w zwyczajnych tabelach liczności i wielodzielczych, zobaczymy, że niekiedy kody o wysokich częstościach nie będą uwzględnione w regułach asocjacji. To może się jawić jako zaskakujące.

Żeby zobrazować taki przypadek, posłużymy się przykładem amerykańskich ubezpieczeń komunikacyjnych. Tabela częstości niewątpliwie pokazałby, że przeważająca część amerykańskiego społeczeństwa korzysta z wehikułów Forda, GM i Chryslera. Jednakowoż prawdopodobne jest, że żadna z tych marek nie zostanie jednoznacznie skojarzona z konkretnym typem ubezpieczenia, czyli w języku statystyki, nie posiądzie wysokiego zaufania ani korelacji w regule asocjacji. Natomiast, stosunkowo rzadkie samochody (np. Ferrari), mogą cechować się wyczuwalną asocjacją (np. z ubezpieczeniem o wysokim ryzyku). Z tego mogłaby wyniknąć reguła asocjacji Jeśli Auto=Ferrari to Składka=Bardzo duża. Przyglądając się zwykłej tabeli rozdzielczej, skojarzenie o wysokim stopniu prawdopodobieństwa, w tym stylu właśnie (Auto wg Składka), moglibyśmy stosunkowo prosto przeoczyć.

Analiza koszykowa