ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Statystyczna aplikacja scoringu kredytowego. Modelowanie i informacje ogólne.

Metodolog - statystyczna analiza data minig

Statystyczna aplikacja scoringu kredytowego

 

Informacje ogólne

 

Scoring kredytowy jest być może jedną z najbardziej „klasycznych” aplikacji do predyktywnego modelingu, przewidującą czy przedłużenie kredytu aplikującemu zakończy się zyskiem czy stratą dla instytucji pożyczającej. Jest wiele wariacji i zawiłości względem tego jak kredyt jest przedłużany dla jednostek indywidualnych, biznesów i innych organizacji na różne cele (zakup sprzętu, nieruchomości, wyrobów konsumpcyjnych itd.) i wykorzystuje się zróżnicowane metody kredytowe (karty kredytowe, pożyczki, plan opóźnionej płatności). Ale we wszystkich przypadkach, podmiot pożyczający zapewnia pieniądze dla jednostki albo instytucji, oczekując bycia spłaconym w odpowiednim czasie, z uwzględnieniem rekompensaty w zamian za poniesione ryzyko.

Scoring kredytowy jest zestawem modeli decyzyjnych i leżących u ich podłoża technik, które wspomagają podmioty pożyczające przy udzielaniu kredytów konsumenckich. Te techniki określają kto dostanie kredyt, jak duży powinien on być i jakie strategie operacyjne będą zwiększały rentowność biorącego pożyczkę od kredytodawcy. Ponadto, pomagają one oszacować ryzyko pożyczki. Scoring kredytowy jest oszacowaniem zależnym od posiadanej przez kredytobiorcę wiarygodności gdyż opiera się na rzeczywistych danych.

Kredytodawca zasadniczo podejmuje dwa typy decyzji: po pierwsze, czy udzielić kredytu nowemu aplikantowi, i po drugie, jak obchodzić się z dotychczasowymi aplikantami, łącznie z decyzjami o zwiększaniu ich limitów kredytowych. W obu przypadkach, niezależnie od użytej techniki, kluczowym jest aby była duża próbka poprzednich klientów z ich szczegółowymi aplikacjami, wzorami zachowań i dostępną historią kredytową. Większość technik wykorzystuję próbkę do rozpoznania związków pomiędzy charakterystyką klienta (roczny przychód, wiek, liczba lat zatrudnienia u obecnego pracodawcy itd.) i jego dalszą historią.

Typowe obszary aplikacyjne na rynku konsumenckim zawierają: karty kredytowe, kredyty samochodowe, kredyty hipoteczne, pożyczki hipoteczne, pocztowe zamówienia z katalogów i szeroki wachlarz osobistych pożyczek na produkty.

„Klasyczny” scoring kredytowy, karty scoringu kredytowego

 

Klasyczne i ciągle szeroko stosowane (z powodzeniem) podejście oceny zdolności kredytowej i ryzyka bazując na budowie „karty skoringowej”; typowa karta scoringowa może wyglądać tak:

Dla każdej predykcyjnej zmiennej, są zapewnione specjalne zakresy danych lub kategorii (np. Okres kredytowy), a dla każdej kategorii (np. okres kredytowy pomiędzy 9 a 15 latami), wynik jest prognozowany w ostatniej kolumnie. Dla każdego aplikującego o kredyt, wyniki mogą być przetwarzane przez wszystkie predykcyjne zmienne i kategorie, i w oparciu o całkowity wynik kredytowy, można podejmować decyzje o ewentualnym udzieleniu kredytu.

Niektóre właściwości klasycznych kredytowych kart scoringowych; modele

 

Są różne aspekty poszczególnego przepływu pracy w modelingu w czasie tworzenia karty skoringowej, a także jej efektywnego używania.

Toporne kodowanie („dyskretyzujące”) predyktory

 

Po pierwsze, chcąc stworzyć efektywną kartę skoringową, musimy zadbać by była ona prosta w obsłudze. Nierzadko decyzja u udzieleniu kredytu musi zostać podjęta bardzo szybko aby nie narażać na niebezpieczeństwo danej „transakcji” (np. sprzedaż samochodu). Jeżeli decyzja o udzieleniu kredytu trwa zbyt długo, kredytobiorca może zwrócić się gdzieś indziej w poszukiwaniu finansowych usług. Dlatego, w przypadku braku możliwości użycia automatycznych rozwiązań scoringowych chociażby za pomocą strony internetowej, karty skoringowe muszą być łatwo zapewnić użytkownikowi możliwość ustalenia indywidualnych komponentów składających się na całościowy wynik i decyzję kredytową, a aby to osiągnąć, warto podzielić wartości każdą ciągłą i kategorialną predykcyjną zmienną na stosunkowo małą liczbę kategorii tak aby aplikant mógł zostać szybko podliczony. Na przykład, zmienna Wiek aplikanta może być szybko zakodowana w 4 kategoriach (20-30, 30-40, 50-60, 60+) i właściwe wyniki powiązane z każdą kategorią będą wpisane w arkusz kalkulacyjny w celu obliczenia końcowego wyniku.

Jest wiele metod i postępowań, które są brane pod uwagę w procesie decyzji o tym jak rekodować zmienne wartości na mniejszą liczbę klas. W skrócie, pożądanym jest (znowu, z perspektywy upraszczania) by wynik kredytowy i ryzyko kredytowe wśród zakodowanych klas było predyktorem pod postacią rosnącej lub malejącej funkcji. Tak więc na przykład, im więcej aplikant obecnie posiada długów tym większe ryzyko niespłacania kiedy zostanie mu udzielony kolejny kredyt.

Zwykle, podczas procesu tworzenia karty scoringowej, toporne-kodowanie predyktorów jest ręczną procedurą, w której predyktory są rozważane jeden po drugim w oparciu o treningowy zestaw danych stworzony z poprzednich aplikantów ze znaną już jakością ich charakterystyk (np. czy kredyt był spłacany czy nie). Wynikiem tego procesu jest zestaw zmiennych, który wchodzi kolejny predykcyjny modeling, jako zrekodowane (topornie-zakodowane) predyktory.

Budowanie modelu

Kiedy treningowy zestaw danych, na którym opiera się modeling zawiera binarny wskaźnik zmiennej „spłacony” vs „niespłacony” albo „dobry kredyt” vs „zły kredyt”, wtedy modele regresji logistycznej są dobrze dobrane do kolejnego predykcyjnego modelingu. Regresja logistyczna owocuje przewidywaniami możliwości na wystąpienie potencjalnego zysku. Co więcej, modele regresji logistycznej są liniowe, w tym logarytmicznie-przetransformowana prognoza prawdopodobieństwa jest funkcją liniową predyktora zmiennej wartości. A zatem, końcowy model karty scoringowej podzielony w ten sposób ma oczekiwaną jakość, tak że końcowy wynik kredytowy (ryzyko kredytowe) jest liniową funkcją predyktorów, i z kilkoma dodatkowymi zmianami, zastosowanymi do parametrów modelu, zwykła liniowa funkcja wyników może być połączona z każdą predykcyjną klasą wartości po topornym kodowaniu. Tak więc ostateczny wynik kredytowy jest prostą sumą indywidualnych wartości wyników, które można wziąć z karty skoringowej.

Uwaga na odrzucanie wniosków

 

Termin „odrzucenie wniosku” opisuje zagadnienie radzenia sobie z nieodłączną stronniczością kiedy modeling jest oparty na treningowym zestawie danych składającym się tylko z tych poprzednich aplikantów dla których właściwe zachowanie (dobry kredyt vs zły kredyt) został zaobserwowany; jednakże, jest najpewniej inna istotna liczba poprzednich aplikantów, która została odrzucona i dla której ostateczne „zachowanie kredytowe” nigdy nie zostało zapisane. Pytanie brzmi, jak zawrzeć tych poprzednich aplikantów w modelingu, tak aby uczynić model bardziej precyzyjnym i silnym (mniej stronniczym) i przystosowanym również do tych jednostek.

Jest to szczególnie ważne kiedy kryteria decyzji o przyznaniu kredytu muszą być trochę luźniejsze, tak aby zainteresować więcej kredytobiorców. Może to wystąpić na przykład podczas ekonomicznego pogorszenia koniunktury, dotykającego wielu ludzi i plasującego ich ogólną sytuację finansową w takich ramach, które byłby niewystarczające do udzielenia kredytu według starych kryteriów. Krótko mówiąc, jeżeli nikt nie byłby w stanie zakwalifikować się do udzielenia mu kredytu, instytucje z tego żyjące straciły by rację bytu i wypadły z interesu. Dlatego często, szczególnie ważnym jest tworzenie predykcji o obserwacjach ze specjalnym predyktorem wartości, które były istotnie poza zakresem tego co było wcześniej rozważane, i w konsekwencji jest niedostępne, bo nie było zauważone w treningowych danych, gdzie zapisywane są rzeczywiste wyniki.

Jest sporo podejść sugerujących jak zawrzeć wcześniej odrzuconych aplikantów kredytowych w budowanym modelu, tak by zrobić model o jak najszerszym zastosowaniu (również w stosunku do tych aplikantów). Krótko mówiąc, te metody sprowadzają się do systematycznej ekstrapolacji z rzeczywistych zaobserwowanych w statystycznej analizie danych, często przez celowe wprowadzanie uprzedzeń i założeń o oczekiwanym zysku z pożyczki, jaki jest w przypadku (w rzeczywistości nieobserwowanego) kredytobiorcy.

Model ewaluacji

 

Kiedy już (regresja logistyczna) model zostanie zbudowany na treningowym zestawie danych, jego ważność musi zostać oszacowana przez niezależną odmowę albo próbkę testową, z dokładnie tych samych powodów, i takimi samymi metodami jak to się zwykle robi przy predykcyjnym modelingu. Każda z tych metod, grafy i statystyki, które zwykle wyliczane do tego celu lepiej oszacowują szanse na rozróżnienie aplikantów z dobrym kredytem od tych ze złym kredytem we wstrzymanej próbce, w porównaniu ze zwykłym zgadywaniem albo jakimiś innych metodami na podjęcie decyzji o udzieleniu bądź wstrzymaniu kredytu.

Do przydatnych grafów zaliczają się wykres dźwigniowy, wykres Kolmogorova-Smirnova i inne sposoby na oszacowanie mocy predykcyjnej modelu. Na przykład, poniższy obrazek pokazuje wykres Kolmogorova-Smirnova (KS) dla modelu kredytowej karty scoringowej.

 

Na tym wykresie, oś X pokazuje wartości wyniku kredytowego (sumy), a oś Y oznacza łączne proporcje obserwacji z każdej klasy wyników (dobry kredyt vs zły kredyt) oferowanej próby. W dalszej części są dwie linie, większa jest stopniem zróżnicowania pomiędzy dobrym kredytem a złym kredytem próby i dlatego, model jest lepszy (bardziej precyzyjny).

Ustalanie bezpieczników/punktów odcięcia wyniku

Kiedy dobry (regresja logistyczna) model został ukończony i oceniony, należy podjąć decyzję gdzie wsadzić bezpiecznikowe wartości dla udzielenia bądź nieudzielenia kredytu (albo gdzie powinno się uzyskać więcej informacji od aplikanta by ulepszyć aplikację). Najbardziej bezpośrednim sposobem by to zrobić jest wzięcie jako bezpiecznika punktu, w którym największa różnica pomiędzy dobrym kredytem i złym kredytem została zaobserwowana w próbce i dlatego nie jest zaskakująca. Jednakże, wiele innych względów zwykle również składa się na tę decyzję.

Przede wszystkim, niespłacenie wielkiego kredytu jest dużo gorsze niż małego kredytu. Generalnie, zyski i straty są związane z 4 prawdopodobnymi możliwościami (prawidłowe przewidzenie dobrego kredytu, prawidłowe przewidzenie złego kredytu; i analogicznie nieprawidłowe złego i dobrego), które muszą być brane pod rozwagę, a bezpiecznik powinien być dobrany w taki sposób by maksymalizować zysk oparty na modelu prognozującym ryzyko. Jest sporo metod i specjalnych wykresów, które zostały opracowane po to by decydować o ostatecznym wyniku bezpieczników, wszystkie radzą sobie z oszacowaniem oczekiwanych zysków i strat z różnymi bezpiecznikowymi wartościami.

Monitorowanie karty scoringowej, stabilność populacji, działanie karty scoringowej i analizy vintage (raporty wykroczeń)

 

Wreszcie, kiedy karta scoringowa została ukończona i jest w użyciu przy udzielaniu kredytu, musi być oczywiście uważnie monitorowana by zweryfikować jej oczekiwane działanie. Zasadniczo, 3 rzeczy mogą się zmienić:

Po pierwsze, populacja aplikantów może się zmienić w odniesieniu do ważnych (wykorzystanych w karcie wyników) predyktorów. Na przykład, wiek aplikanta może się obniżyć, albo aplikant może posiadać mniejszy majątek niż to zostało opisane w danych treningowych, z których powstała karta scoringowa. To oczywiście zmieni proporcje aplikantów, którzy uzyskają akceptację na otrzymanie kredytu (z wykorzystaniem obecnej karty scoringowej), i to może również zmienić sposób w jaki powinien być ustawiony bezpiecznik. Tak zwane raporty stabilności w populacji są używane do wyłapywania i śledzenia zmian w populacji aplikacji (kompozycja danych aplikanta w odniesieniu predyktorów).

Po drugie, predykcje z karty scoringowej mogą stawać się coraz bardziej nieprecyzyjne. Dlatego, precyzja predykcji z modelu musi być śledzona, tak by wyłapać moment gdy model powinien zostać zaktualizowany albo odrzucony (i należałoby stworzyć nowy).

Po trzecie, rzeczywiste obserwowane stawki niespłacania (złego kredytu) mogą się zmieniać w czasie (np. w związku z warunkami ekonomicznymi). Takie zmiany wymuszą korekty w wartościach bezpieczników, a także być może w modelu karty scoringowej również. Metody i raporty, które zwykle służą do śledzenia zaległych pożyczek i porównań z oczekiwanymi zaległościami, są nazywane analizami vintage albo raportami zaległościowymi.

Inne metody na budowanie kart skoringowych

 

Tradycyjna metoda budowania kart skoringowych, zwięźle zarysowana powyżej, jest cały czas szeroko stosowana, ponieważ ma mnóstwo zalet w odniesieniu do możliwości interpretacji modeli (i dlatego łatwo można wyjaśnić decyzję o udzieleniu bądź odmowie udzielenia kredytu aplikantom i organom regulacyjnym); poza tym zapewnia wystarczającą precyzję predykcyjności sprawiając, że tworzenie alternatywnych i bardziej kompleksowych kart scoringowych okazuje się zbyt drogie i zwyczajnie niepotrzebne (i.e. nie ma wystarczającego ROI do wykorzystania bardziej kompleksowych metod).

Jednak w ostatnich latach, generalnie powszechność metod predykcyjnego modelingu rośnie i zastępują one tradycyjną regresję logistyczną opartą na liniowych sumach wyników kart scoringowych.

Model proporcjonalnego hazardu Coxa

 

Po pierwsze, modyfikacja tradycyjnego podejścia, która zyskała popularność, zastępuje krok modelingu regresji logistycznej modelu, modelem proporcjonalnego hazardu Coxa. By streścić, model Coxa (w skrócie) przewiduje prawdopodobieństwo porażki, niespłacalności albo „rozwiązania” wyniku w specjalnym przedziale czasowym. Szczegóły dotyczące modelu Coxa (założenia o prawdopodobieństwie ryzyka i jak je testować) można znaleźć czytając o analizie przeżycia. Jednak efektywnie tę metodę można rozpatrywać jako alternatywę i udoskonalenie regresji logistycznej szczególnie kiedy w grę wchodzą „dożywotnie” kredyty (aż do niespłacenia, wcześniejszej wypłaty itd.) w danych treningowych. Model Coxa jest jednak wciąż modelem liniowym (względnej stawki ryzyka), i.e. jest liniowy w predyktorach, a prognozy są liniową kombinacją wartości predyktorów. Dlatego opisana powyżej wstępna obróbka predyktorów jest cały czas użyteczna i adekwatna (np.  toporne kodowanie predyktorów), tak jak kolejne kroki modelu ewaluacji, selekcja bezpieczników i tak dalej.

Algorytmy modelingu predykcyjnego (np. stochastic gradient boosting)

 

Jeżeli precyzja prognozy ryzyka jest najważniejszą do rozważenia rzeczą przy budowie karty scoringowych (i jest związana głównie z oczekiwanym ROI tworzącym rezultaty z projektu), wtedy metody predykcyjnego modelingu i ogólne aproksymatory takie jak Stochastic Gradient Boosting zapewniają lepsze wyniki niż modele liniowe. Rozwój zaawansowanych data-miningowych algorytmów predykcyjnego modelingu jest generalnie napędzany pragnieniem wykrywania kompleksowych skomplikowanych interakcji, nieliniowości, nieciągłości i tak dalej, pośród predyktorów i ich związków z wynikiem zainteresowania, w celu napędzenia precyzji prognozowania.

Zauważ, że automatyczne (komputerowe) silniki scoringowe potrafią dostarczyć feedback dla aplikanta niemal natychmiast dlatego negują zalety tradycyjnych metod tworzenia kart scoringowych (jak opisano powyżej). Poza tym, cały czas jest możliwe automatyczne przeprowadzenie kolejnych analiz do decyzji kredytowej by zdecydować jakie są predyktory zmiennej/zmiennych i wartości najbardziej wpływające na prognozę ryzyka, i w następnej kolejności odmowę kredytu (chociaż te metody są mniej bezpośrednie) i by zapewnić ten feedback aplikantom (który jest zwykle wymagany przez prawo traktujące o biznesie kredytowym).

Właściwy proces tworzenia kart skoringowych modeli z użyciem data-miningowych algorytmów takich jak ‘stochastic gradient boosting’ zwykle okazuje się być prostszy niż tradycyjne techniki. Jako że większość algorytmów to generalnie aproksymatory zdolne by reprezentować każdy związek między predyktorami a wynikami, będąc stosunkowo silne względem odstających, nie jest niezbędnym wykonywanie wielu kroków przygotowujących predyktory, takich jak toporne-kodowanie itd. Wszystkie kolejne kroki w budowaniu modelu ciągle występują, z wyjątkiem tego, że zamiast oceniania modelu i rozpoznawania wartości bezpieczników na podstawie (sum) wyników, wykresy i tabele, które są zwykle sporządzane by wspomóc te analizy mogę być stworzone w oparciu o prognozę prawdopodobieństw z poszczególnego data-miningowego modelu predykcyjnego (albo całokształtu modeli).

Podobnie, większość typowych kroków po implementacji (w „produkcję”) karty skoringowej  także ciągle jest obecne i jest potrzebne by ocenić działanie systemu scoringowego (tak samo jak stabilność populacji, stopnie wykroczeń i precyzję).

Cele biznesowe

Aplikacja modeli scoringowych w dzisiejszym środowisku biznesowym pokrywa duży obszar celów. Oryginalne śledzenie i ocenianie ryzyka niespłacenia poszerzone zostało przez modele scoringu kredytowego o inne aspekty zarządzania ryzykiem kredytowym: jeszcze przed aplikacją (identyfikacja potencjalnych aplikantów), w momencie aplikacji (identyfikacja aplikantów, których należy zaakceptować), i na poziomie działania (identyfikacja możliwych zachowań obecnych klientów). Modele scoringowe z różnymi celami rozwinięto. Obecnie mogą zostać podzielone na 4 kategorie, jak opisano poniżej.

  1. ASPEKT MARKETINGOWY

 

Cele:

Przykłady

  • Scoring odpowiedzi: modele, które szacują z jakim prawdopodobieństwem konsument odpowie na bezpośredniego maila z ofertą nowego produktu.
  • Scoring utrzymywania: modele przewidujące z jakim prawdopodobieństwem konsument dalej będzie używał produktu albo pójdzie do innego kredytodawcy, gdy jego umowa dobiegnie końca.
  1. ASPEKT APLIKACYJNY

 

Cele:

  • Decydowanie o tym jak duży i czy w ogóle kredyt powinien zostać udzielony.
  • Prognoza przyszłych zachowań nowego kredytobiorcy przez przewidywanie szans na niespłacanie pożyczki albo nieodpowiednie zachowania w czasie spłacania w momencie przyznawania kredytu.

Przykład:

  • Scoring aplikacyjny: modele szacujące jaka jest szansa, że nowy kredytobiorca stanie się niewypłacalny.

 

  1. ASPEKT WYKONAWCZY

 

Cel:

  • Przewidzieć przyszłe zachowanie względem płatności obecnych dłużników by rozpoznać/izolować złych klientów i poświęcić im więcej uwagi, redukując prawdopodobieństwo, że ci dłużnicy później urosną do rangi większego problemu.

Przykład:

  • Scoring zachowania: model, który szacuje poziom zagrożenia obecnych dłużników.
  1. ZARZĄDZANIE ZŁYM DŁUGIEM

 

Cel:

  • Optymalny wybór polityki egzekwowania należności by zmniejszyć koszty administrowania nią albo zwiększyć ilość odzyskanych, zaległych aktywów z danych kont.

 

Przykład:

  • Scoringowy model decyzji o egzekwowaniu: modele, które determinują kiedy podjąć akcję na koncie dłużnika i która z kilku alternatywnych technik egzekwowania może być bardziej adekwatna i skuteczna.

Dlatego, ogólny cel scoringu kredytowego jest nie tylko taki by zdecydować czy kredytu należy udzielić, ale także by zachęcić wysokiej jakości kredytobiorców, których następnie można będzie zatrzymać i kontrolować, utrzymując plusiki w teczce z zyskami.

analiza statystyczna w nauce

Jak projektować badanie i analizować statystyki zebranych danych?

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Jak projektować ankiety i analizować statystyki z przeprowadzonego badania?

Błędne dane  mogą prowadzić nawet największych przywódców do niewłaściwych wniosków. Gdy sukces wisi na włosku, trzeba mieć pewność, że masz zgromadzone odpowiednie dane  odpowiednimi metodami.

Stworzyliśmy poradnik o tym, jak zabrać się za zbieranie i analizowanie danych. Jak projektować badania? Dowiesz się, jak napisać pytania, dystrybuować je i robić syntezy odpowiedzi.

Badania mogą mieć istotny wpływ na kierunek firmy, zwłaszcza jeśli masz wiarygodne wyniki.

Niezależnie od tego, czy wpływ ten jest dodatni czy ujemny zależy to od jakości badania. Projektowanie i analiza badania można dać światło na nowe możliwości; wadliwa konstrukcja pozostawia zespół w ciemności.

Widzieliśmy, jak dane mogą być wykorzystywane jako narzędzie, aby pomóc zespołowi w podejmowaniu trafnych wyborów. W tym rozdziale nauczymy Cię kilkunastu technik, które używamy aby zbudować skuteczne badanie za pierwszym razem.

Zanim zaczniemy

Ważne jest, aby pamiętać, że istnieje wiele kontrowersji wśród badaczy społecznych na temat projektu badania, ze sprzecznymi sugestiami na temat metod. Statystyki takie jak „margines błędu” są nadal szeroko stosowane, ale są rzadko spotykane w badaniach on-line. Starszy naukowiec danych Huffington Post i starszy redaktor wyborczy, na przykład, uważają je za „etyczną pomyłkę”. Konwencjonalna wiedza o tym, co się liczy, nie zawsze jest uziemiona w naukach statystycznych. Aby poradzić sobie z tym, niniejszy rozdział odnosi się do prostych wypróbowanych i prawdziwych metod. Mam nadzieję, że się przydadzą.

  1. Jak zaprojektować ankietę
  2. Najlepsze pytania badawcze i style odpowiedzi
  3. Jak napisać pytania i odpowiedzi w badaniu
  4. Jak wybrać respondentów
  5. Jak obliczyć liczbę respondentów, której potrzebujesz
  6. Jak analizować wyniki ankiety
  7. Jak interpretować wyniki ankiety
  1. Jak zaprojektować ankietę

Przed utworzeniem badania, ważne jest, aby myśleć o swoim celu. Wspólne cele obejmują:

  • Kompilacja badania rynku
  • Nakłanianie do feedbacku
  • Monitorowanie wydajności

Zanotuj specyficzną wiedzę, którą chcesz uzyskać z badania, wraz z kilkoma prostymi pytaniami, na które Twoim zdaniem może odpowiedzieć Twoja hipoteza (w tym zestaw możliwych odpowiedzi).

Obok odpowiedzi, zapisz odsetek odpowiedzi jakich można się spodziewać w każdym porównaniu wyników przyszłych, a  wobec tych domysłów ujawni się gdzie intuicja jest silna i gdzie istnieją ślepe domysły.

Takie wstępne badanie pomoże również syntetyzować ważne aspekty badania i poprowadzi Twój proces projektowania. Pamiętaj: Prostota jest prawdopodobnie najważniejszą i najbardziej funkcjonalną konstrukcja badania.

  1. Najlepsze pytania badawcze i style odpowiedzi

Sposób, w jaki struktura pytania i odpowiedzi będą określać granice analizy, które są dostępne dla Ciebie podsumowując rezultaty. Ograniczenia te mogą złamać lub mieć zdolność do zyskania wglądu do kluczowych pytań. Dlatego ważne jest, aby zastanowić się, jakie będzie podsumowanie odpowiedzi na pytania, jak można je zaprojektować.

Istnieją cztery główne pytania i style odpowiedzi, a więc cztery główne typy danych odpowiedzi:

  • Kategoryczne – nieuporządkowane etykiety, takie jak kolory lub nazwy handlowe; znana również jako „nominalna”
  • Porządkowe – Skala Likerta jak „zdecydowanie się nie zgadzam, zdecydowanie zgadzam się” lub „nigdy, często”
  • Interwałowe – Zakresy jak „liczba pracowników”
  • Wskaźnikowe – Numery takie jak cale

Aplikacje  do badań dostarczają szeroką gamę narzędzi gromadzenia danych, ale każdy typ danych spadnie do co najmniej jednego z tych czterech grup.

Dane kategoryczne

Kategorialny typ danych używa konkretnych nazw lub etykiet jako możliwego zestawu odpowiedzi. Na przykład:

Co lubisz (najbardziej / najmniej) o swoim produkcie?

  • Szybka obsługa klienta
  • Łatwość użycia
  • Jakość
  • Ilość

Kategoryczne dane są czasami określane jako „nominalne” dane, a to popularna droga dla pytań ankietowych. Kategoryczne dane to najprostszy rodzaj danych do analizy, bo jesteś ograniczony do obliczania udziału odpowiedzi w każdej kategorii. Zebrać, policzyć, podzielić i gotowe.

Jednak na dane kategoryczne nie można odpowiedzieć: „Ile?” pytania typu: „Ile cenisz szybkość obsługi klienta?”

Jeśli nie jesteś pewien, które wymiary są ważne (na przykład obsługa klienta, łatwość obsługi, itp), zacznij od kategorycznego zapytania – one są bardziej zwarte niż inne rodzaje pytań. Następnie, w badaniu można zapytać: „Ile?” Lepiej wysłać kilka rund poprawy badań niż doświadczyć ogromnego wybuchu, że brakuje zaznaczonych odpowiedzi.

Pobieranie próbek jest twoim przyjacielem. Rozważ podzielenie grupy próbek, aby można było wysłać wiele kolejnych badań, żeby dowiedzieć się więcej o swoich respondentach.

Dane porządkowe

Po zidentyfikowaniu kategorii, stawianie pytań w stylu porządkowym mogą pomóc ocenić, „Ile?”. Porządkowy typ reakcji przedstawia odpowiedzi, które mają sens jako zlecenie.

Never Rarely Sometimes Often Always
Strongly Disagree Disagree Neutral Agree Strongly Agree
Not important Somewhat important Neutral Important Very Important

Naukowcy z University of Michigan Institute for Social Research odkryli, że kolejność w jakiej odpowiedzi były odczytywane respondentom określa w jaki sposób odpowiedzieć.

Jeśli jest to możliwe, losowo odwrócić kolejność odpowiedzi porządkowych pytań dla każdego uczestnika. Pamiętaj, aby zachować kolejność spójną w całym badaniu, bo możesz pomylić respondentów i zbierać dane, które nie reprezentują swoich prawdziwych uczuć.

Alternatywnie, można osiągnąć ten sam efekt poprzez podział respondentów losowo na dwie grupy i administrowanie dwóch badań: jedno z kolejnością pytań płynących od strony lewej do prawej, a drugie od prawej do lewej.

Interwały danych

Dane muszą spełniać dwa wymogi, które można nazwać „odstęp”: muszą być uporządkowane, a odległość między wartościami musi być miarodajna.

Na przykład, z góry określony zestaw dochodów jak „$ 20k, 30k $, $ 40k” pasuje do przedziału modelu danych. Innym przykładem może być: „1-50 pracowników, 51-100 pracowników, 100-150 pracowników.”

Odstępy w danych są przydatne do gromadzenia danych segmentów (to znaczy, że jest przydatna do klasyfikowania innych kwestii). Na przykład, można zadać kolejne pytanie o plany respondenta, czy zamierza kupić dany produkt. Mógłbyś przyporządkować do segmentu to pytanie na podstawie ich odpowiedzi na poprzednie pytanie.

Jeśli to możliwe, to najlepiej używać równych wielkości interwałów. Pozwoli to na przejrzystość podsumowując wizualizacje wyników, a także na stosowanie średnich. Jeśli odstępy nie są równych wielkości, należy traktować te dane jako dane kategoryczne.

Dane na skali stosunkowej

Stosunek danych jest najbogatszym zbiorem danych ankietowych. Reprezentuje on dokładne pomiary. Kluczową cechą stosunku danych jest to, że zawiera pewną ilość, która może być określana jako „brak jakiejś ilości” -gdy wartość „0” lub „brak” jest tak samo ważną odpowiedzią jak „45” lub „987,123” lub inna wartość.

Oto przykład stosunku danych: Można zapytać respondentów o ich poziom dochodów z pola wprowadzania danych, które pozwala odpowiadać liczbami, jak $ 24315, $ 48.630 lub nawet 0 $.

Cechą charakterystyczną jest to, że stosunek danych jest możliwy do reprezentowania odpowiedzi jako ułamki, jak „$ 24.315 / $ 48,630 = 1/2”. Oznacza to, że zbiorcze dane statystyczne, takie jak średnie i odchylenia są ważne dla współczynnika przetwarzania danych i nie byłoby z danymi z wcześniej wymienionych rodzajów odpowiedzi.

Jeśli chcesz obliczyć średnie oraz miary zmienności jak odchylenie standardowe, prosząc o konkretną liczbę jako odpowiedź jest dobrym pomysłem.

  1. Najlepsze pytania badawcze i style odpowiedzi

Unikać wiodących pytań

Łatwo jest przypadkowo zasugerować pewną odpowiedź na swoje pytanie, podobnie jak sugestia psychologiczna: „Hej, wybierz tamto!”

Wyobraź sobie, że wypełniasz ankietę na stronie internetowej lokalnej gazety. Jest pytanie: „Wspierałbyś centrum gospodarki odpadów gdyby jego budowa obok placu publicznego była finansowana prywatnie czy publicznie?”

  1. finansowane ze środków prywatnych
  2. finansowane ze środków publicznych

Ale co, jeśli nie chcą budować centrum gospodarki odpadami obok placu? Zapach śmieci przez powietrze prawdopodobnie nie będzie zachęcać ludzi do odwiedzenia miasta. Badanie daje nam tylko dwie możliwości: zbudować go z prywatnych funduszy, lub zbudować go ze środków publicznych.

Bez opcji „wcale”, nie można powiedzieć się co każdy respondent naprawdę czuje. Pytanie w tym przykładzie przyjmuje założenie że pytany nie zgadza się. Określeniem na to jest „założenie”.

To perfekcyjnie pasuje do zadawania pytań typu: „Jak przydatny uważasz że jest produkt XYZ?”, tak długo, jak odpowiedź „wcale” jest dołączona jako opcja. Kluczową sprawą jest, aby uniknąć pewnego „założenia” w stosunku do odpowiedzi.

Założenia są artefaktem własnego kręgu kulturowego; prawdopodobnie nie zauważysz kiedy zawrzesz je w pytaniu. Najlepszym sposobem na uniknięcie tego jest, wysłanie ankiety do kilku osób w grupie docelowej, która uważasz, że nie zgadza się ze sobą w kwestii danego tematu. Nakłanianie zwrotne od zróżnicowanej publiczności może pomóc zweryfikować założenia i uniknąć tworzenia pętli sprzężenia zwrotnego w wynikach.

Pozwól na neutralne lub braki odpowiedzi

Trudno wpaść na wszystkie możliwe sposoby odpowiedzi jakie mogłaby wybrać dana osoba. Kiedy zmuszasz respondenta aby dał odpowiedź, może to zakrzywić Twoje dane. Na początku może się to wydawać niepożądane by pozwolić na to respondentom,

Unikaj złożonych pytań

Gdybym zapytał:

W skali 1-100  proszę ocenić następujący tekst:

– Metodolog i jego blog pomoże mi wykonać moją pracę.

Użytkownik będzie zmuszony dać odpowiedź odzwierciedlającą uczucia. To  może spowodować że respondenci będą wybierać przedmiot do którego mają najsilniejsze uczucia. Przypadki te mogą prowadzić do fałszywie interpretowanych wyników. Może być również możliwe, że respondenci mają przeciwstawne poglądy na temat obu przedmiotów. W takim przypadku na pewno zbierzesz mylące wyniki.

Podziel pytania na wiele pytań. Pamiętaj: pytania powinny być tak krótkie i bezpośrednie, jak to możliwe.

Używaj prostego języka

Spryt, humor i biznesowy żargon może zmylić respondentów, zwłaszcza jeśli powoduje to błędne rozumienie pytania które zadajesz. Celowo czy nie, mamy tendencję do pisania pytania używając naszych doświadczeń kulturowych jako wartości odniesienia, co może prowadzić do słabo sformułowanej kopii, które mogą zmylić ludzi. Używając prostego języka możesz zmniejszyć ryzyko, że dane które gromadzisz nie odzwierciedlają znaczenia respondenta.

Losowe odpowiedzi

Załóżmy, że chcesz zapytać, który z trzech produktów cenią użytkownicy najbardziej (po uwzględniając braki danych i „żadne”!). To wspólne dla respondentów, aby wybrać pierwszą odpowiedź, po prostu dlatego, że jest najprostsza i najbardziej dostępna. Randomizacja kategorii odpowiedzi może pomóc uniknąć stronniczości w odpowiedziach.

Uważaj jednak: jeśli pytanie dotyczy uporządkowanej odpowiedzi (na przykład: Zdecydowanie nie zgadzam się, zdecydowanie zgadzam się), należy zachować kolejność odpowiedzi w całym badaniu, aby uniknąć nieporozumień.

  1. Jak wybrać respondentów

Większość badań, przesyłanych jest do niewielkiej części większej populacji. Korzystanie z takich próbek do ogólnych stwierdzeń o ludności nazywa się wnioskowaniem. Statystykami opisowymi są wypowiedzi na temat tylko próbki; Wnioskowaniem statystycznym są wypowiedzi na temat populacji przy użyciu próbki.

Warto zauważyć, że wnioskowanie statystyczne z badań jest trudne, a często niemożliwe, nawet dla ekspertów. Czasami po prostu nie można uogólniać próbki na populację w sposób wiarygodny – zatrzymujesz się przygotowując sprawozdania na temat ludzi, którzy właściwie wypełnili ankietę.

Gdy próbka nie jest odbiciem społeczeństwa, którym jesteś zainteresowany. Unikanie stronniczości próbkowania jest szczególnie ważne, jeśli zamierzamy analizować wyniki w podziale na segmenty.

Jednym z najbardziej znanych przykładów tego problemu miał miejsce w wyborach prezydenckich w USA w 1948 roku.

Ankieterzy w trakcie tego okresu stosują techniki zwane próbkowaniem. Do badania zostało przypisanych kilak osób. Łatwiej badało się republikanów niż demokratów, według Arthur Aron, Elaine N. Aron i Elliot J. Coups w statystykach behawioralnych i Nauk Społecznych. To spowodowało, że większą część stanowili republikanie. System kwot faktycznie próbował uniknąć tego problemu jak stwierdził CBS News – poprzez podział badanych według płci, wieku i statusu społecznego, aczkolwiek przeoczył, to że segment (partia polityczna) był związany z trybem badania.

Przesłanie jest jasne: Jeśli respondenci nie pasują do populacji musisz złożyć oświadczenie o  tym, żeby twoje statystyki badania nie były mylące. Więc co można zrobić?

W przypadku wysłania ankiety pocztą elektroniczną, zastanowić się, jak badani przez e-mail mogą różnić się od populacji, o której chcesz złożyć oświadczenie.

Należy pamiętać, że respondenci, którym przesyłasz badanie e-mailem mogą nie być reprezentatywni dla tych, którzy wykorzystują Twoją stronę. Jest odwrotnie: jeśli umieścisz ankietę na swojej stronie internetowej, próbka może nie odzwierciedlać tych, którzy współpracują z organizacją za pomocą innych metod.

Aby temu przeciwdziałać, spróbuj wysyłać tę samą ankietę za pośrednictwem każdego z kanałów, które organizacja używa do interakcji z klientami (e-mail, strony internetowej, telefonicznie, osobiście, etc.).

Jeśli można użyć tylko jednego trybu, trzeba starannie rozważyć, czy ten tryb jest związany z segmentami, które chcesz analizować (np. czy są stałymi klientami bardziej skłonnymi do odpowiedzi?). Celem jest wykorzystanie trybu, który przyniesie rozmiary segmentów, które są reprezentatywne dla całej populacji. Może to oznaczać, że należy rozprowadzić ankietę za pośrednictwem różnych kanałów.

  1. Jak obliczyć liczbę respondentów jaka jest potrzebna?

Krótka odpowiedź brzmi: tyle, ile osiąga użyteczny poziom zmienności w odpowiedziach.  Jeśli zadajesz normalne, porządkowe lub interwałowe pytania, przeprowadź kilka badań bazowych i porównaj wyniki.

Jeśli zmienność od badania do badania jest wystarczająco niska dla celów badania, znalazłeś odpowiednią liczbę osób do przebadania. Jeśli twój cel wymaga mniejszej zmienności, zwiększ wielkość swojej próby w stosunku do populacji.

Inną techniką jest losowe podzielenie grupy próbek na kilka grup o jednakowych rozmiarach, administrowanie badania, analizy wyników, a następnie porównanie wyników całej grupy. Wyniki będą równoważne statystycznie, a różnica pomiędzy grupami będzie zależeć od tego co statystycy nazywają błędem próbkowania. Jeżeli różnice są mniejsze niż te, które byłyby wystarczająco ważne, aby zmienić wielkość grupy, jest ona wystarczająco duża dla przyszłych badań. Jednakże, jeżeli różnice pomiędzy grupami są duże, Twoim zdaniem, zwiększ wielkość swojej próby, powtórz te czynności, aż różnica między przypadkowymi grupami była mniejsza niż ta jaka mogłaby się przyczynić do prowadzenia dalszych działań.

Jeśli nie jesteś ekspertem w badaniach, wdrażanie dobrowolnej ankiety w sposób, który zapewnia prawidłowy pomiar margines błędu nie będzie możliwy, jedynym sposobem, dobrania wielkości próby jest zgadywanie i sprawdzanie.

Potrzebujesz więcej precyzji? Zwiększ wielkość próby.

  1. Jak analizować wyniki ankiety?

Łatwo jest zbudować ankietę i wysłać je do klientów, ale analizowanie wyników jest skomplikowaną częścią.

Jak już wcześniej wspomniano w sekcji projektowania badania, istnieją cztery główne sposoby, aby zebrać odpowiedzi na każde pytanie, a tym samym cztery główne typy danych, które można poddać konfrontacji podczas analizy wyników badania.

  • dane kategoryczne
  • dane porządkowe
  • Interwał danych
  • dane współczynnika

Dane kategoryczne

Obliczenie całkowitej liczby odpowiedzi, a następnie podzielenie liczby w każdej kategorii przez ogół. Są to tak zwane względne statystyki częstotliwości. Wiele po prostu nazywa je procentem udziałów, ale ważnym aspektem jest to, że suma powinna wynosić 100%. Na przykład:

CO NAJBARDZIEJ LUBISZ W NASZYM PRODUKCIE?

(Względna) Tabela częstotliwości

Answer Responses Share
Fast customer service 30 30 / 100 = 30%
Ease of use 40 40 / 100 = 40%
Quality 16 16 / 100 = 16%
Quantity 14 14 / 100 = 14%
Total 100 100%

Dane kategoryczne mogą być bardziej przydatne gdy pogrupujesz wyniki według segmentu klientów. Na przykład, możesz chcieć wiedzieć, czy nowi klienci odpowiedzieli inaczej niż długoletni klienci. Inne popularne kategorie to:

  • Segmenty produktów typu „low-end”, „średniego szczebla” i „high-end”
  • Segmenty geograficzne, takie jak kody pocztowe, powiat, kraj
  • Nowy klient kontra stały klient

Ważną rzeczą jest, aby dokładnie zastanowić się, które kategorie mają prawdopodobnie największe znaczenie dla organizacji. Najgorszą rzeczą, jaką możesz zrobić, to ślepo wybrać kategorie, które nie mają znaczenia dla firmy. Grupy wiekowe i zróżnicowanie ze względu na płeć są powszechną segmentacją rynku, ale co można rzeczywiście zrobić z tą informacją?

Po kategoryzacji grup, stwórz tabelę lub wykres do zapisania danych. Na przykład rozkład wyników w podzbiorach (zwany także tabulacją lub tabelą krzyżową) co jest macierzą liczby odpowiedzi lub udziałów z jednego segmentu skonstruowanego jako wiersze, a drugiego jako kolumny – to może być bardzo użyteczne.

TABELA KRZYŻOWA

Tabela podsumowuje fikcyjny zestaw 100 odpowiedzi. Po pierwsze, podzielono badania na dwie grupy, które znajdują się w 2 wierszach tabeli krzyżowej: tych, którzy byli nowymi klientami i tych, którzy byli stałymi klientami. Grupy wzajemnie się wykluczają (nie pokrywają) i wyczerpują (suma do 100%).

Następnie policzono liczbę odpowiedzi od odpowiedzi na pytanie: Co lubisz najbardziej w naszym produkcie? Wreszcie podzielono każdą liczbę w każdej komórce przez całkowitą liczbę odpowiedzi na to pytanie (uwzględniając obie grupy).

Tabele krzyżowe pokazują jak reakcje różnią się w poszczególnych kategoriach.  Ciekawe, że  w fikcyjnym zestawie danych jest to, że nowi klienci najbardziej lubią szybką obsługę klienta. Ponadto, klienci wybrali ustalone ilości i jakości najbardziej lubianych cech 2- i 4,5-krotnie częściej niż nowi klienci.

Dane porządkowe

Pytania porządkowe są bardzo popularne, ale wielu ludzi popełnia błąd krytyczny, jeśli chodzi o analizę danych. Najgorszą rzeczą, jaką możesz zrobić, to przekształcić odpowiedzi do liczb, a następnie obliczyć średnią z tych liczb. Powodem jest to, że średnia arytmetyczna (najczęstszy typ średniej, a jest ich wiele), jak (1 + 2 + 3 + 4 + 5) / 5 = 3 oznacza, że jest jakaś miara odległości między wartościami.

Jednak nie ma sensu mówić, że uczucie neutralne jest trzykrotnie mocniejsze niż uczucie silnego sporu, lub uczucie, że coś jest ważne, jest dwukrotnie większe niż poczucie, że coś jest dość ważne. Są to proste wskazówki, które w konwersji liczb porządkowych etykiet mogą powodować błędne wyniki.

Zamiast tego, najlepszą rzeczą do zrobienia jest stworzenie prostego wskaźnika mającego względną częstotliwość lub krzyżowje tabeli jak te powyżej dla danych kategorycznych.

Jak bardzo źle może to naprawdę iść? Cóż, kontrowersyjne pytanie, gdzie większość ludzi jest w silnym sporze lub silnym porozumieniu. W tym przypadku, średnia wskazuje, że dane są w środku kategorii neutralnej. To skrajny przykład, ale to samo może się zdarzyć, jeśli największe koszyki są powiedzmy, „neutralne” i „bardzo ważne”. Załóżmy, że odpowiedzi były podobne:

Średnia z 2,96 wydaje się sugerować, że respondenci mieli uczucia neutralne, podczas gdy w rzeczywistości większość poczuła że przedmiot był „dość ważny” (60%), a kolejna duża grupa (30%) uważa, że przedmiot badania był „bardzo ważny”. W związku z tym, nawet etykieta „neutralne” jest nie na miejscu.

Zamiast tego, pozostaw dane w postaci tabeli częstotliwości i pozwalać użytkownikowi końcowemu, aby zobaczył rozkład wyników bezpośrednio. Unikaj wpływania na interesariuszy pokazując średnią. Ludzie kochają średnie i skupiają się na nich, zamiast na prawdziwej historii. Celowo unikaj średniej i zamiast tego opisuj dane.

Większość respondentów stwierdziło że przedmiot badania był tylko nieco ważny, ale kolejna duża grupa poczuła że był bardzo ważne. Istnieją dwie główne grupy klientów tutaj, więc powinniśmy spróbować dowiedzieć się, jakie mogą być te segmenty. To może dać nam skoncentrowanie środków na tych, którzy czują że przedmiot jest ważny i pomoże uniknąć marnowania zasobów na tych, którzy czują że przedmiot jest tylko nieco ważny.

JAK NARYSOWAĆ ZWYKŁY WYKRES DANYCH

Rozbieżne wykresy słupkowe są doskonałym sposobem na wizualizację danych porządkowych. Elementem charakterystycznym jest linia, która pozwala na oko bardzo szybko zmierzyć długość każdego słupka. Te wykresy są idealne do porównań między segmentami.

Co roku (od 2010) Bank Rezerwy Federalnej w Nowym Jorku publikuje badania małych przedsiębiorstw (zgodnie z definicją firmy z mniej niż 500 pracowników) pokryte przez rezerwy Banków Cleveland, Atlancie, Nowym Jorku i Filadelfii. Głównym celem tego badania jest określenie, które małe firmy ubiegają się i odbierają kredyty.

Przez wykresy danych o wspólnym początku badania, porównanie strat, wychodzenie na czysto, a zysk jest wygenerowany jasno w całej kategorii.

W pierwszej połowie 2014 roku, czy Twoja firma osiągnęła  zysk, próg rentowności czy  straty?

Przedsiębiorstwa handlu detalicznego miały słabe wyniki w pierwszej połowie 2014. Wybrani kandydaci na kredyt byli Ci, którzy więcej zarabiali. Ponadto, im większa firma tym bardziej prawdopodobne że jest opłacalna.  Oznacza to, że w zakresie, w jakim firma jest opłacalna staje się ona duża. Może być tak, że mniejsze firmy są bardziej skłonne ponosić straty. Albo, może okazać się, że większe firmy amerykańskie szybciej podnoszą się z kryzysu finansowego, który rozpoczął się pod koniec 2007 roku.

Jeśli stwierdzisz że ten styl wykresu jest przydatny, stworzyłem szablon który można wykorzystać. Aby uzyskać więcej informacji na temat tego stylu graficznego, koniecznie zapoznaj się z Naomi B. Robbins i Richarda. artykuł M. Heiberger za „kreślenie Likerta i inne Skale Ocen”.

Interwał danych

Przydatnym i bezpieczny sposobem aby podsumować przedział danych są dane porządkowe.

Podsumowanie danych interwałowych ze średnimi i odchyleniami standardowymi (patrz rozdział „Stosunek danych” poniżej w przewodniku) jest możliwe, ale tylko wtedy, gdy odległość między przerwami jest parzysta. Dla przykładu, pytania typu „w skali od 1-10” z odpowiedziami 1, 2, …. 9, 10 są w równych odstępach czasu. Jednakże, istnieją pewne kontrowersje do tego.

Ludzie mają tendencję do unikania skrajności, więc może nie być dokładne powiedzenie, że przedział 5-6 jest 11 razy większy od 0-1. Pomyśl o pomiarze bólu, na przykład: jest to odległość od 5-6 taka sama jak między 0-1 lub 9-10? Zakładam że nie.

Moja sugestia jest taka, aby traktować dane porządkowe tak jak normalne dane, jeśli przerwy są równe, w innym przypadku traktować je jak dane nominalne i wykorzystać tabelę awaryjną dla podsumowania.

Poniżej znajduje się przykład sposobu, w jaki dane z nierównym interwałem mogą błędnie wskazywać dane. Ten przykład pochodzi bezpośrednio od kogoś kogo uważam za wielkiego wizualizera informacji: Stephen Few. Gorąco polecam stronę Stefana o wizualizacji, zwłaszcza w swoim artykule o wyborze odpowiedniego wykresu dla danych.

Można również skorzystać z bezpłatnego szablonu Google.

Współczynnik danych

Jest jeszcze jedna duża zaleta przy użyciu współczynnika danych: jest na tyle bogaty, aby wspierać średnie. Podobnie jak wcześniej, w naszym rozumieniu, kiedy mówię „średnio” Szczególnie odnoszę się do popularnego arytmetycznego znaczenia na przykład (1 + 2) / 2 = 1,5.

Jest to całkowicie poprawne wziąć zestaw współczynników danych  i obliczyć średnią arytmetyczną jak ($ 38500 + 65214 $) / 2 = $ 51,857.

Średnie dają Ci inspekcje, miary, na których dane są skupione. Są one także użyteczne do pomiaru rozprzestrzeniania się reakcji, w szczególności przy użyciu standardowego odchylenia. Intuicyjnie można traktować to jako średnią odległość od śrdniej. Obliczanie odchylenia standardowego wymaga procesu dwuetapowego.

  1. Obliczenie statystyki wariancji
  2. Wzięcie pierwiastka kwadratowego z wariancji statystyki
  3. Statystyka odchylenia jest określona jako: suma ([każda wartość – średnia^ 2) / N – 1

Na podstawie tych danych ankietowych, chcielibyśmy zapisać, „średnia liczba sesji udziałów wynosi 5 +/- 2,64 sesje”. Współczynnik danych ten jest szczególny, ponieważ pozwala on użyć miar tendencji centralnej (średnia) oraz dyspersji (odchylenie standardowe) w odróżnieniu od nominalnej, porządkowej, a nie samych danych przedziałowych.

  1. Jak interpretować wyniki ankiety

Wizualizacja danych jest jednym z najważniejszych działań. Jest to moja pasja, ponieważ wykresy mogą wywoływać różnorodne reakcje emocjonalne. Ludzie mają bardzo różne reakcje na dane oparte na tym jak jest to przedstawiona na wykresie, dlatego tak ważne jest, aby być rozsądnym podczas tworzenia wizualizacji.

Po pierwsze trzeba skupić się na trendach i uniknąć zbyt dużej ilości małych różnic w danych. Patrząc na statystyki i wykresy ważne jest, aby pamiętać, że istnieje jakiś błąd w każdej metodzie.

Przy interpretacji wyników, należy rozpocząć od największych różnic. Jeśli zauważysz niezwykły wynik, bądź sceptyczny i sprawdź, czy wynik może być powielony w innym badaniu.

Zbierz Kilka linii bazowych ankiet przed podjęciem dużej zmiany.

Jeśli jest to praktyczne, spróbuj powtórzyć i podsumować ankiety kilka razy przed podjęciem dużej zmiany produktu lub firmy. Zorientuj się, co jest normalne, a ile odpowiedzi odchyla się od badania z badania. Jest to możliwe, aby wpaść w pułapkę błędu próbkowania i efektu, który nie jest powtarzalny. Replikacja (powtarzane badania) jest najlepszym sposobem, aby dowiedzieć się, co sygnał reprezentuje.

Po powtórzeniu tego samego badania, może się okazać, że odpowiedzi różnią się znacznie w tej samej kwestii, chociaż nie została dokonana wielka zmiana (patrz rozdział zatytułowany „Jak wielu ludzi mam badać?”). W tym przypadku, dowiesz się, że pytanie nie jest wiarygodną metryką definiowania sukcesu. Albo, możesz mieć szczęście i okaże się, że reakcje są na ogół podobne przed dokonaniem dużej zmiany.

Po dokonaniu zmian, będziesz miał lepszy pomysł, czy zmiany w odpowiedzi na pytanie ankietowe są wynikiem decyzji, czy też nie. Chodzi o to, aby dowiedzieć się trochę o tym, jak użytkownicy reagują na badania przed użyciem go do podejmowania dużych decyzji.

Szanuj limit precyzji swojego badania.

Ważne jest, aby zrozumieć, limity dokładności dla każdego zbioru danych. Ponieważ większość badań stanowi jedynie niewielką część grupy interesów, przy podejmowaniu wnioskowanie na populacji występuje błąd. Jeżeli pomiar rzeczywiście następuje poprzez przesyłane badania kilku grupom w tym samym czasie, wynik względnej częstotliwości (w procentach) nie może się różnić o więcej niż 1%. Oznacza to, że numery takie jak 25.67% będą komunikować fałszywy stopień precyzji.

Przedstawiając swoje wyniki badań, okrągłe numerom jak 25%, aby uniknąć przekazywania fałszywego stopnia precyzji ile należy zaokrąglić? Zależy to od zmienności próbkowania ankiety (patrz rozdział zatytułowany „Ile osób powinienem badać?”).

Tabela lub wykres?

Tabele są najbardziej użyteczne, gdy patrzysz na dokładne liczby, lub gdy istnieje kilka porównań. Duże tabele sprawiają, że trudno zrozumieć temat dystrybucji wyników, i w tych przypadkach wizualizacje są bardziej korzystne.

Wniosek

Sondaże są bardzo skutecznym narzędziem do zbierania informacji zwrotnych od klientów i zmniejszenia niepewności wokół podejmowania ważnych decyzji. Pisząc o celu ankiety i hipotez, będzie można dowiedzieć się, gdzie intuicja jest silna i znaleźć organizacyjne martwe pole.

Badania są ciężkie i uprzedzenia mogą pojawić się przez słabą próbę ankietowych i słabą konstrukcję pytań. Ważne jest, aby myśleć o tym, jaki rodzaj danych będzie najbardziej przydatny, aby odpowiedzieć na pytania, na wyciągnięcie ręki. Najbardziej jest prawdopodobne ze skoncentrowane badania przyniosą zaskarżone wyniki.

 Proces polega na znalezieniu właściwych pytań, tak samo jak na znalezieniu właściwych odpowiedzi.

Gdy czujesz się pewnie ze swoim projektem, możesz wysłać jedno duże badanie końcowe. Należy pamiętać, że najlepiej zaprojektowane badanie na świecie jest bezużyteczne, jeśli jego wyniki nie są skutecznie przekazane zainteresowanym stronom. Nie zakrzywiaj danych kategorycznych lub porządkowych poprzez średnie, tylko podsumowuj je przez względne częstotliwości. Nie bombarduj czytelników wynikami które są niemożliwe do strawienia. Stwórz rozbieżny wykres słupkowy. W przypadku korzystania z danych przedziałowych pamiętaj o przydatności segmentacji i nie oszukuj czytelników poprzez wizualizację nierównych odstępów czasu.

Wreszcie, badania nie są miejscem, aby uzyskać wyniki fantazyjne. Spraw żeby były proste, a przekonasz się, że bez względu na wyniki nauczysz się czegoś użytecznego.

Zrobiłeś to. Nauczyłeś się różnicy między formularzami, ankietami i sondażami, odkryłeś najlepsze aplikacje formularzy i ankiet, dowiedziałeś się, jak zintegrować formularze do swojej pracy, a teraz masz narzędzia potrzebne do analizy danych. Ale jest coś więcej. Czasem trzeba nieco więcej mocy niż tylko standardowe badania. Może chcesz w łatwy sposób analizować dane bezpośrednio z bazy danych, lub chcesz zbudować formy na narzędzia w domu, które będą działać razem z pozostałymi danymi.

Na to i wiele więcej, istnieją aplikacje opierające się na bazach danych. W przypadku niektórych aplikacji bonusowych, które pomogą Ci zrobić jeszcze więcej z formularzy i ankiet, znajdziesz najlepsze aplikacje do budowania własnych narzędzi w domu bez większej ilości pracy, której niż większość aplikacji wymaga.

Analiza koszykowa apriori analiza zachowań zakupowych klienta

Rynkowa analiza koszykowa – Metoda Assosiation i algorytm a priori w kontekście statystycznej analizy klienta

Metodolog - statystyczna analiza data minig

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Rynkowa analiza koszykowa: rozpoznawanie produktów i treści, które dobrze ze sobą współgrają

 

Analiza koligacji i dziedzina reguł asocjacyjnych obejmuje rozległy zestaw technik analitycznych mających na celu odkrywanie związków i stosunków pomiędzy konkretnymi obiektami: mogą być nimi odwiedzający twoją stronę internetową (klienci albo goście), produkty w twoim sklepie albo treść różnych pozycji na twoim portalu społecznościowym. Z w/w, najpopularniejszym chyba przykładem jest właśnie „rynkowa analiza koszykowa”. W niej właśnie sprawdzasz czy występują kombinacje produktów, które często współwystępują w transakcjach. Na przykład, być może ludzie, którzy kupują mąkę i cukier są także skłonni być kupić jajka (ponieważ wielu z nich planuje pieczenie ciasta). Detalista może wykorzystać taką informację by poinstruować:

  • Rozmieszczających produkty na półkach (by ułożyli współgrające ze sobą koło siebie, tak aby jeszcze ułatwić klientowi robienie zakupów)
  • Dział marketingu (np. wcelować w klientów kupujących mąkę promocję na jajka, tak aby zachęcić ich by wydali więcej)

Internetowi detaliści i wydawcy mogą wykorzystać taki typ analizy do:

  • Lepszego rozmieszczenia treści na swoich portalach społecznościowych albo katalogach produktów
  • Uruchomienia systemów rekomendacyjnych (jak w Amazonie: klienci, którzy kupili ten produkt, również kupowali te produkty…)
  • Usprawnić marketing (np. poprzez uściślenie do jakich klientów warto wysyłać maile z jakimi ofertami produktów tak aby zwiększyć szansę zainteresowania ich)

Jest szeroki wachlarz algorytmów, dostępny na szerokiej gamie platform, do przeprowadzania rynkowej analizy koszykowej.

RYNKOWA ANALIZA KOSZYKOWA: PODSTAWY

 

Terminologia

 

Pozycje są obiektami między którymi rozpoznajemy związki. Dla internetowego detalisty, każda pozycja jest produktem w sklepie. Dla wydawcy, każda pozycja może być artykułem, blogiem, postem, video itd. Grupa pozycji jest zestawem pozycji.

I = {i1, i2, …, in}

 

Transakcje są przypadkami grup pozycji współwystępujących ze sobą. Dla internetowego detalisty, transakcja to, mówiąc wprost, transakcja. Dla wydawcy, transakcja może być grupą artykułów przeczytanych podczas jednej wizyty na stronie (to nawet pomaga analitykowi ustalić ponad jaki okres zmierzyć transakcję).

tn = {ii, ij, …, ik}

 

Zasady są stwierdzeniami formy

{i1, i2, …} à {ik}

Np. jeżeli masz pozycje w zestawie pozycji (po lewej stronie (LHS z ang. Left hand side) zasady np. {i_1, i_2, …}), wtedy jest prawdopodobne, że odwiedzający będzie zainteresowany pozycją po prawej stronie (RHS right hand side) np. {i_k}. W naszym przykładzie zasada byłaby taka:

{mąka, cukier} à {jajka}

 

Wydajność rynkowej analizy koszykowej jest generalnie zestawem zasad, które możemy wykorzystać przy podejmowaniu decyzji biznesowych (związanych przykładowo z marketingiem albo lokowaniem produktu).

Wsparcie pozycji albo zestawu pozycji jest ułamkiem transakcji w naszym zbiorze danych, który zawiera tę pozycję albo zestaw pozycji. Generalnie fajnie jest identyfikować zasady, które mają wysokie wsparcie, jako że takie będą pasować do dużej liczby transakcji. Dla detalistów z supermarketów, jest prawdopodobne że będą to produkty popularne dla całego przekroju użytkowników (np. chleb, mleko). Sprzedawcy nabojów do drukarek, na przykład, mogą nie mieć produktów z wysokim wsparciem, ponieważ każdy klient kupuje tylko takie naboje jakie pasują do jej/jego drukarki.

Ufność zasady jest prawdopodobieństwem tego, że prawdą jest dla nowej transakcji, że zawiera pozycje na LHS tej zasady. (i.e. jest to prawdopodobieństwo, że transakcja zawiera także pozycje na RHS). Formalnie wygląda tak:

ufność(im à in) = wsparcie(im ᴗ in) / wsparcie(im)

Podnośnik zasady jest stosunkiem wsparcia pozycji na LHS zasady współwystępującej z pozycjami na LHS zasady współwystępowania z pozycjami na RHS podzielonym przez prawdopodobieństwo tego, że LHS i RHS współwystępują jeżeli oba są niezależne.

podnośnik(im à in) = wsparcie(im ᴗ in) / wsparcie(im) x wsparcie(in))

Jeżeli podnośnik jest większy niż 1, sugeruje to, że obecność pozycji na LHS zwiększyła prawdopodobieństwo tego, że pozycje na prawej stronie wystąpią w tej transakcji. Jeżeli podnośnik jest poniżej 1, sugeruje to, że obecność pozycji na LHS tworzy prawdopodobieństwo tego, że pozycje na RHS będą częścią transakcji niżej. Jeżeli podnośnik wyniesie 1, sugeruje to, że obecność pozycji na LHS i RHS jest od siebie naprawdę niezależna: wiedząc, że pozycje na LHS są obecne nie robi żadnej różnicy w prawdopodobieństwie, że pozycje wystąpią w RHS.

Kiedy przeprowadzamy rynkową analizę koszykową, szukamy zasad z podnośnikiem większym niż jeden. Zasady z większą ufnością są tymi gdzie prawdopodobieństwo pozycji pojawiających się na RHS jest wysokie biorąc pod uwagę obecność pozycji na LHS. Jest także preferowane (wyższa wartość) do zasad akcji, które mają wysokie wsparcie – jako, że te nadadzą się do większej liczby transakcji. Jednakże, w przypadku sprzedawców długoterminowych, może to nie być możliwe.

DZIAŁANIE RYNKOWEJ ANALIZY KOSZYKOWEJ Z UŻYCIEM ALOGRYTMU APRIORI WYKORZYSTUJĄC R I PAKIET ARULES

 

Gwoli ścisłości: celem tej analizy jest stworzenie zestawu zasad, który łączy dwa lub więcej produktów. Każda z tych zasad powinna mieć podnośnik większy niż 1. Dodatkowo, jesteśmy zainteresowani wsparciem i ufnością tych zasad: zasady o wyższej ufności to te, w których występuje większe prawdopodobieństwo, że pozycje na RHS będą częścią transakcji biorąc pod uwagę obecność pozycji na LHS. Oczekujemy rekomendacji opartych na tych zasadach by napędzić, przykładowo, wyższy wskaźnik odpowiedzi. Także jesteśmy za wprowadzeniem najpierw do akcji zasad o wyższym wsparciu, jako że te mogą być użyte w szerszym wachlarzu przypadków.

W tym przykładzie, mamy zamiar przeprowadzić analizę dla internetowego sprzedawcy prowadzącego firmę „Pług śnieżny”. Zrobimy klasyczną rynkową analizę koszykową: przez to rozumiem, że poszukamy zasad opartych na rzeczywistych transakcjach (później w tym tekście pochylimy się nad plusami i minusami ustalania naszego „pola”).

Użyjemy R (interpretowany język programowania oraz środowisko do obliczeń statystycznych i wizualizacji wyników) by wykonać rynkową analizę koszykową. R jest świetnym statystycznym narzędziem, dobrym też analiz graficznych, w sam raz skrojonym do zaawansowanych analiz. Użyjemy pakietu arules, który implementuje algorytm apriori, jeden z najpowszechniej używanych algorytmów do znajdowania powiązań między pozycjami.

By rozpocząć, musimy wydobyć dane transakcyjne z „Pługu śnieżnego”, które identyfikują grupy pozycji przez transakcje. Następujące polecenia SQL wydobywają je bezpośrednio: to przywraca linijkę danych dla każdej linijki pozycji z każdej transakcji, z id transakcji i nazwą pozycji:

/* PostgreSQL / Redshift */SELECT”ti_orderid” AS „transaction_id”,”ti_name” AS „sku”FROM”events”WHERE”event” = ‚transaction_item’

Możemy przeciągnąć te dane bezpośrednio w R z R. Najpierw, ładujemy R i łączymy go z tabelką z naszego „Pługu śnieżnego” w Redshitcie poprzez wprowadzenie do wiersza poleceń w R następującego:

library(„RPostgreSQL”)con <- dbConnect(drv, host=”<<REDSHIFT ENDPOINT>>”, port=”<<PORT NUMBER>>”, dbname=”<<DBNAME>>”, user=”<<USERNAME>>”, password=”<<PASSWORD>>”)

Upewnij się, że wstawiłeś odpowiednie wartości dla <<REDSHIFT ENDPOINT>>  <<PORT NUMBER>>  , <<DBNAM>>  I   <<USERNAME>> .

Następnie egzekwujemy nasze poniższe polecenia SQL, wydobywające dane jako ramka danych w R:

t <- dbGetQuery(con, „SELECT\”ti_orderid\” AS \”transaction_id\”,\”ti_name\” AS \”sku\”FROM\”events\”WHERE\”event\” = ‚transaction_item'”)

Możemy wrócić na samą górę do pierwszych pięciu rekordów naszej ramki danych komendą „head(t)”.

Teraz każda linijka danych reprezentuje pojedynczą linijkę pozycji, tak więc pierwsza transakcja (zawierająca dwie pozycje) ma rozpiętość dwóch linijek.

Teraz musimy uporządkować linijki według id transakcji, tak aby pojedyncze produkty, który należą do każdej transakcji były zespolone przez rekordy w pojedynczy rekord jako szereg produktów. Wykonuje się to poprzez wpisanie następującej komendy do wiersza poleceń R:

i <- split(t$sku, t$transaction_id)

Znowu, w taki sam sposób jak poprzednio wędrujemy na samą górę:

Teraz przekształcamy dane w „transakcję” obiektu zoptymalizowanego do algorytmu alures:

library(„arules”)txn <- as(i, „transactions”)

W końcu, możemy uruchomić nasz algorytm:

basket_rules <- apriori(txn, parameter = list(sup = 0.005, conf = 0.01, target=”rules”))

Uruchamiając zasadę ustawiamy minimalne progi ufności i wsparcia, poniżej których R ignoruje każdą zasadę. Są one wykorzystane do optymalizacji działania algorytmu: rozpracowywanie związków zasad może być obliczeniowo kosztowne, ponieważ dla firmy z dużym katalogiem pozycji, liczba kombinacji pozycja jest gigantyczna (rośnie gwałtownie wraz ze wzrostem liczby pozycji). Dlatego wszystko co dajemy algorytmowi by zmniejszyć obciążenie obliczeniowe jest mile widziane.

W naszym przypadku, bierzemy pod uwagę niskie liczby dla wsparcia i ufności. To dlatego, że nasz przykładowy test jest oparty na sprzedaży długoterminowej, detalista oferuje ponad 10 tys. pozycji katalogowych i ma za sobą 90 tys. transakcji. Maksymalne wsparcie każdego z produktów jest bardzo niskie: to może zostać potwierdzone przez nakreślenie względnej częstotliwości dla każdej pozycji (i.e. ułamek transakcji) dla topowych 25 pozycji przez częstotliwość pozycji (i.e. ułamek transakcji, w których występuje poszczególna pozycja). To może zostać zrobione używając:

itemFrequencyPlot(txn, topN = 25)

Zauważ, że najczęściej pojawiająca się pozycja występuje w mniej niż 2% zapisanych transakcji.

W twoim przypadku rozkład pozycji według transakcji może wyglądać zupełnie inaczej, i zupełnie różne wartości wsparcia i ufności mogą się okazać dobre do zastosowania. By ustalić co działa najlepiej, musisz poeksperymentować z różnymi parametrami: zobaczysz, że jeśli je zredukujesz, liczba generowanych zasad wzrośnie, co da ci więcej materiału do pracy. Jednakże, będziesz musiał uważniej przesiewać zasady żeby zidentyfikować te bardziej wpływające na twój biznes. Jeszcze do tego wrócimy.

Zbadajmy w końcu właściwe zasady wygenerowane przez algorytm:

inspect(basket_rules)

W naszym przypadku, algorytm rozpoznał 9 zasad. Pierwsze 7 nie jest pomocne: nie ma pozycji na LHS (dla tych siedmiu zasad, zauważ jak z powodu braku pozycji na LHS, wsparcie = ufność i podnośnik = 1).

Ostatnie dwie zasady są za to interesujące: sugerują, że ludzie, którzy kupują „Memo Block Apple” z większym prawdopodobieństwem kupią „Memo Block Pear” i vice-versa. Co więcej, nie tyle kupią to prawdopodobniej, co kupią znacznie prawdopodobniej: ufność wynosi 66 – to sugeruje, że te zakupy są ze sobą mocno związane.

OPEROWANIE NA BARDZO DUŻYCH ZESTAWACH WYNIKÓW: WIZUALIZACJA ZASAD Z WYKORZYSTANIEM PAKIETU ARULESVIZ

 

W poprzednim przykładzie tak ustaliliśmy parametry dla wsparcia i ufności, że tylko mały zestaw zasad został wypluty. Jak wspomniano, często lepiej jest jednak otrzymać większe zestawy, by zwiększyć szanse, że wygenerujemy więcej istotnych zasad dla naszego biznesu.

Powróćmy do algorytmu, tym razem zmniejszymy parametry dla wsparcia i ufności, i zapiszemy zestaw wyników jako inny obiekt.

basket_rules_broad <- apriori(txn, parameter = list(sup = 0.001, conf = 0.001, target=”rules”))

W naszym przypadku zwrócone zostało 3,2 miliona zasad. To o wiele za dużo, żeby wizualnie je zbadać – możemy jednak przyjrzeć się 20 najlepszym według podnośnika:

 

Możemy rozrysować nasze zasady przez ufność, wsparcie i podnośnik, wykorzystując pakiet arulesViz:

library(„arulesViz”)plot(basket_rules_broad)

Wykres pokazuje, że zasady z wysokim podnośnikiem zwykle mają słabe wsparcie (nie jest to matematycznie zaskakujące). Możemy użyć wykresu, jak ten powyższy, do rozpoznania zasad z zarówno wysoką ufnością jak i wsparciem: pakiet arulesViz pozwala nam wyrysować graf w interaktywnym trybie, tak że możemy klikać na pojedyncze punkty i eksplorować związane z nimi dane.

Jak wiele zasad uda się wytworzyć i jaki im nadamy priorytet, zależy od tego na jakie pytania biznesowe chcemy odpowiedzieć naszą analizą. Jest to omówione w dalszej części.

PODEJMOWANIE DECYZJI BIZNESOWYCH W OPARCIU O ANALIZY

 

Zanim użyjemy danych do podjęcia jakiekolwiek decyzji biznesowej, ważnym jest aby cofnąć się o krok i pamiętać o czymś ważnym:

To co wydobyliśmy z analizy pokazuje jak często pozycje współwystępują w transakcjach. Jest to funkcja zarówno siły związku pomiędzy pozycjami jak i sposobu w jaki właściciel strony je zaprezentował.

Innymi słowy: pozycje mogą współwystępować nie dlatego, że są „naturalnie” ze sobą związane, ale dlatego, że my, ludzie zarządzający tą stroną, zaprezentowaliśmy je razem.

To jest przykład bardziej ogólnego problemu w analityce internetowej: nasze dane odzwierciedlają sposób zachowania użytkowników jak również sposób w jaki zachęciliśmy ich do danego zachowania, poprzez podjęte przez nas decyzje o designie naszej strony. Musimy być tego świadomi, ponieważ, jak wcześniej sugerowaliśmy w tym tekście, używamy wyników by informować gdzie są umiejscowione pozycje zbliżone jedna do drugiej, musimy kontrolować jak blisko są one umieszczone dziś na stronie internetowej, tak abyśmy nie wylądowali przypadkiem potwierdzając to co wcześniej założyliśmy. Zatem jeśli pozycje k i l pokazują silny związek, ale już znajdują się obok siebie na stronie, to nie jest to specjalnie interesujące. Jeżeli są daleko do siebie, wtedy owszem – może powinniśmy ustawić je blisko siebie. Jeżeli pozycje są blisko siebie, ale analiza pokazuje, że nie ma między nimi silnego związku, wtedy, wydaje się, powinniśmy je rozdzielić: nasze poprzednie założenie, że powinny być umiejscowione razem raczej było błędne.

Wykorzystanie danych do zarządzania organizacją strony

 

Jest kilka sposobów by wykorzystać dane do zarządzania organizacją strony:

  • Duże grupy współwystępujących pozycji powinny prawdopodobnie posiadać własną kategorię.
  • Pary pozycji, które powszechnie współwystępują powinny być umieszczone razem wewnątrz granic kategorii na stronie. Jest to wyjątkowo ważne gdy jedna pozycja z pary jest bardzo popularna, a druga ma bardzo duże rezerwy.
  • Długa lista zasad (licząc te z niskim wsparciem i ufnością) może być użyta przy umieszczaniu rekomendacji na dole strony z produktami albo na stronach kart produktu. Jedyne co jest ważne dla tych zasad to by podnośnik był większy od jeden (i to żebyśmy wybierali te zasady, które mają zastosowanie do danego produktu z wysokim podnośnikiem gdzie produkt rekomendowany ma duże rezerwy).
  • W sytuacji gdy zrobimy powyższe (3) i da to istotny wzrost profitu, wzmocni to wniosek by zainwestować w system rekomendacyjny, który używa podobnego algorytmu w kontekście operacyjnym by wzmocnić automatyczny system rekomendacji na twojej stronie.

Wykorzystanie danych do ukierunkowania kampanii marketingowej

 

Te same dane mogą zostać użyte do zarządzania kampanią marketingową. Dla każdego użytkownika, bierzemy garść produktów opartych na produktach, które wcześniej kupił, a które oba mają wysokie współczynniki i wysyłamy je np. spersonalizowanym mailem albo pokazową reklamą itd.

Jak używamy analizy mającej znaczące implikacje dla analizy samej w sobie: jeżeli karmimy analizą automatyczny system dostarczający rekomendacje, jesteśmy dużo bardziej zainteresowani wygenerowaniem kosztownych zestawów zasad. Jeśli jednak eksperymentujemy z kampanią marketingową po raz pierwszy, dużo sensowniejsze jest wybranie garści zasad o szczególnie wysokiej wartości i posługiwanie się tylko nimi, przed wywnioskowaniem czy inwestować w wysiłek zbudowania zasobów potrzebnych do zarządzania znacznie szerszym i bardziej skomplikowanym zestawem zasad.

POSZERZENIE ANALIZY: ODDALENIE SIĘ OD KOSZYKA BY PRZYJRZEĆ SIĘ ZACHOWANIU KLIENTA W DŁUŻSZYM OKRESIE CZASU I INNYCH WYDARZENIACH

 

W powyższym przykładzie użyliśmy rzeczywistej transakcji zdarzeń do rozpoznania związków pomiędzy produktami dla internetowego sprzedawcy.

Trzymając się przykładu naszego sprzedawcy, jednakże, moglibyśmy poszerzyć obszar naszej definicji transakcji. Zamiast tylko patrzeć na koszyk z zakończonymi sukcesem transakcjami, moglibyśmy spojrzeć na całościowe koszyki użytkowników (niezależnie czy chcą kupować czy nie). Kolejne kroki analizy byłby niemal identyczne, jednakże, zamiast użycia danych transakcji z „Pługu śnieżnego”, wyciągnęlibyśmy dodane-do-koszyka dane na zewnątrz, używając następujących komend:

/* PostgreSQL / Redshift */

SELECT

„domain_userid” + ‚-‚ + „domain_sessionidx” AS „transaction_id”,

„ev_property” AS „sku”

FROM

„events”

WHERE

„ev_action” = ‚add-to-basket’

Moglibyśmy dalej powiększać obszar, więc zamiast patrzeć na dodane-do-koszyka-zdarzenia, spójrzmy na każdy produkt, który został obejrzany przez danego odwiedzającego, i połączmy grupy produktów, które oglądali pojedynczy użytkownicy w trakcie jednej sesji:

/* PostgreSQL / Redshift */

SELECT

„domain_userid” + ‚-‚ + „domain_sessionidx” AS „transaction_id”,

„page_urlpath”

FROM

„events”

WHERE

„event” = ‚page_view’

Zauważ jak tym razem każdy produkt jest identyfikowany przez URL zamiast SKU. Być może dobrze by było przefiltrować URL-e, które nie odpowiadają stronom z produktami.

Wreszcie, możemy rozszerzyć nasze okno jeszcze dalej, tak że zamiast ograniczać się do jednej sesji, możemy przyjrzeć się temu samemu użytkownikowi podczas wielokrotnych sesji, i.e.:

/* PostgreSQL / Redshift */

SELECT

„domain_userid” AS „transaction_id”,

„page_urlpath”

FROM

„events”

WHERE

„event” = ‚page_view’

Zauważ, że są to prawie takie same komendy jak wtedy gdy nasz obszar był pre-sesją, tylko pozbyliśmy się domain_sessionidx (tak jak gdy szeregujemy przez „transaction_id”), szeregujemy przez użytkownika i całą jego aktywność, a nie każdego po prostu w czasie danej sesji.

Te końcowe, szersze przykłady obszaru, są bardziej naturalne dla wydawców i właścicieli mediów społecznościowych, którzy chcą zidentyfikować związki pomiędzy artykułami, autorami, producentami i kategoriami zawartości niż dla produktów w sklepie.

 

 

 

statystyka medyczna, biostatystyka

Big Data w naukach medycznych

założenia regresji logistycznej

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Big Data w naukach medycznych

W dzisiejszych czasach możemy śmiało stwierdzić, że Big Data zmienia świat i najlepszym tego przykładem jest medycyna. W ostatniej dekadzie odnotowano ogromny postęp w ilości danych i zdolności do wykorzystania technologii aby te dane analizować i zrozumieć a to pomaga firmom w każdej branży, aby stać się bardziej skuteczne i produktywne. Tak samo dzieje się w medycynie. Oprócz poprawy zysków Big Data jest stosowany do przewidywania epidemii, leczenia chorób, poprawy jakości życia i uniknięcia zgonów, którym można zapobiec. Liczba ludności na świecie cały czas rośnie a długość życia się zwiększa przez co sposoby leczenia gwałtownie się zmieniają a wiele tych decyzji jest dyktowana przez dane. Celem dzisiejszej medycyny jest zdobyć jak najwięcej informacji o pacjencie i jak najszybciej wykryć chorobę ponieważ leczenie groźnej choroby na wczesnym etapie jest dużo prostsze  i tańsze niż gdyby została zauważona później.

Nowe technologie i analiza danych

Wejście smartfonów na rynek nowej technologii był dopiero początkiem. Dzięki aplikacją, które mogą być wykorzystane do wszystkiego: od krokomierza, który zmierzy ile kilometrów przeszliśmy danego dnia po liczniki kalorii  pomagające zaplanować dietę. Miliony z nas używa technologii mobilnych aby zmienić swój styl życia na lepszy. W ostatnim czasie pojawia się coraz więcej urządzeń przenośnych (np. do noszenia na ręku), które pozwalają śledzić  nasze postępy i przesyłają dane aby mogły być porównane z innymi.  W niedalekiej przyszłości będzie można dzielić te dane z lekarzem dzięki czemu powiększy się jego  zestaw narzędzi diagnostycznych. Nawet jeśli jesteśmy zdrowi, dostęp do obszernej i wciąż rosnącej bazy danych informacji i stanie zdrowia ogółu społeczeństwa pozwoli przewidzieć problemy, zanim one wystąpią a co za tym idzie przygotować środki zaradcze (lecznicze lub edukacyjne) z wyprzedzeniem. Przenośne urządzenia połączone z centralnymi bazami danych są znakomitym sposobem na gromadzenie informacji o przebiegu choroby pacjenta. Przykładem takiego zastosowania jest specjalna nakładka dla astmatyków. Inhalatory, które są w nią wyposażone łączą się ze smartfonami przez Bluetooth i monitorują stosowanie leku za pomocą aplikacji. Dzięki temu pacjent automatycznie aktualizuje historię zażywania lekarstwa, a lekarz dostaje wiarygodne dane o przebiegu choroby, na podstawie których może skuteczniej prowadzić terapię.

Sposób, w jaki  lekarz będzie współpracował z pacjentem może się zmienić w najbliższej przyszłości. Opieka medyczna chce skupić się na trzymaniu pacjenta w domu z dala od szpitala. Telemedycyna staje się coraz popularniejsza, oznacza formę świadczenia usług medycznych i opieki zdrowotnej za pomocą komputera i Internetu. Ściśle mówiąc ta metoda może odnosić się do czegoś tak prostego jak odwiedzenie strony internetowej i autodiagnostyki albo odbędzie się jako usługa jeden-na-jeden z wykwalifikowanym specjalistą. Komunikacja ta będzie oczywiście zostawić za sobą dane, które będą mogły być analizowane, aby dostarczyć cennych informacji do ogólnych trendów w dziedzinie zdrowia publicznego i sposobu w dostępie do opieki zdrowotnej. Dla chorych korzystanie z takich usług to wygoda obserwowania przebiegu leczenia on-line, zaoszczędzony czas, lepiej dobrane leczenie i szybszy powrót do zdrowia.

Badania Naukowe i statystyka

Jednym z głównych ograniczeń dzisiejszej medycyny w przemyśle farmaceutycznym jest zrozumienie biologii choroby. Big Data ma swój udział w badaniach klinicznych zdobywając coraz więcej danych na temat choroby zaczynając od badania DNA i komórek kończąc na tkankach i organach. Jeżeli lekarz oferuje lekarstwo i zapewnia jego skuteczność na dane dolegliwości to prawdopodobnie lek ten został stworzony przy użyciu Big Data. Ogromne ilości danych pozwalają naukowcom wybrać najlepsze substancje. W ostatnim czasie, udostępnianie danych pomiędzy firmami farmaceutycznymi doprowadziło do przełomu, odkryto że dezypramina, powszechnie używana jako lek anty -depresyjny, ma potencjalne zastosowanie w leczeniu nowotworów płuc.

Nie zapominajmy o największym problemie dzisiejszej medycyny- nowotworze. Zabieg, który polega na wykonaniu pełnej analizy genomu daje nadzieję osobom chorym na raka. Wykrycie nieprawidłowości w kodzie DNA umożliwia wcześniejsze rozpoczęcie skutecznej terapii. Metoda ta przez nie była wcześniej popularna ponieważ wiązała się z ogromnymi kosztami oraz miała długi czas realizacji. Dziś zabieg dużo tańszy, a nowoczesne rozwiązania serwerowe zapewniają wysoką wydajność.

Big Data również pomaga również w walce z rozprzestrzenianiem się epidemii. W Afryce, dane dotyczące lokalizacji telefonu okazały się bardzo cenne w śledzeniu ruchów ludności, co pomogło przewidzieć rozprzestrzenianie się wirusa Ebola. Strategie te były też kluczowe po trzęsieniu ziemi na Haiti 2010 , gdzie zostały one użyte w celu pomocy ofiarom katastrofy.

Prywatność i Bezpieczeństwo danych

Oczywiście, żadne dane nie są bardziej osobiste niż dane medyczne, więc bardzo ważne jest aby zostały wprowadzone najskuteczniejsze systemy zabezpieczające, aby upewnić się, że informacje dostaną się tylko do tych, do których powinny. Pomimo, to cyber-przestępcy systematycznie wykradają dokumentacje medyczną i zarabiają na nich więcej pieniędzy niż z kradzieży danych karty kredytowej. Miedzy innymi z tego powodu kompletna informatyzacja opieki medycznej to trudne wyzwanie. Danych przybywa coraz więcej, a to wymaga inwestycji w infrastrukturę informatyczną. Dane potrzebują miejsca na przechowywanie, więc placówki medyczne albo będą musiały rozbudować swoją serwerownię, albo zdecydować się na outsourcing.

Pomimo niebezpieczeństw jakie niesie za sobą wprowadzenie nowych technologii do opieki zdrowia korzyści jakie może przynieść Big Data są dużo większe. Informatyzacja danych medycznych może budzić obawy ale dopóki bezpieczeństwo jest utrzymywane na wysokim poziomie jest pewne, że przyczynia się do rozwoju nowych metod leczenia i pomaga nam coraz lepiej zrozumieć jak działa nasz organizm.