Porównanie występowania wartości empirycznych z hipotetycznymi

Porównanie występowania wartości empirycznych z hipotetycznymi – Jest to porównanie wartości uzyskanych z próby ze znanym rozkładem. Np. test dwumianowy weryfikuje hipotezę o proporcji dwóch zdarzeń (0/1), a test Chi Kwadrat sprawdza to dla zmiennych o kategoriach więcej niż 2. Test Kołmogorowa Smirnowa weryfikuje hipotezę o zgodności rozkładu z próby z teoretycznym rozkładem np. Gaussa lub Poissona.

Odległość euklidesowa (miara odległości)

Odległość euklidesowa (miara odległości) – miara ta jest odległością wyrażoną w linii prostej między skupieniami. Dedykowana jest tylko dla zmiennych ilościowych.

Logarytm wiarygodności (miara odległości)

Logarytm wiarygodności (miara odległości) – miara ta stosuje rozkład prawdopodobieństwa do zmiennych. W tej metryce zakłada się że zmienne ilościowe mają rozkład normalny, a zmienne jakościowe mają rozkład wielomianowy. Zmienne powinny być niezależne.

Analiza skupień metodą K – Średnich ( K – Means )

Analiza skupień metodą K – Średnich ( K – Means ) – Metoda ta bazuje tylko na  wyliczaniu skupień opartych na pomiarach ilościowych (najlepiej je wcześniej wystandaryzować, bez tego analiza może dawać zniekształcone wyniki ze względu na różne jednostki pomiaru). W tej procedurze trzeba ustalić ilość skupień lub ich zakres. Można dzięki temu obserwować odległość obserwacji od centrów skupień. Np. Można dzięki niej dokonać segmentacji klientów w celach marketingowych, można dokonać klasyfikacji klientów banku pod względem częstości korzystania z danych ofert lub usług bankowych. Zaleca się w celach opisowych zastosować po wyliczeniach analizę wariancji w celu oszacowania siły różnic pomiędzy profilami pod względem danych wejściowych do analizy skupień k – średnich.  Procedura ta jest bardzo uniwersalna można ją stosować w BIG DATA i DATA MINING, biostatyce, biometrii i psychometrii.

Hierarchiczna analiza skupień

Hierarchiczna analiza skupień – Hierarchiczne rozwiązanie skupień ma zastosowanie do mniejszych wolumenów danych. Można dzięki tej procedurze można klasyfikować zmienne (podobnie jak w analizie czynnikowej) oraz obserwacje. Ma możliwość zapisu minimalnej i maksymalnej ilości skupień oraz zapisania informacji o przynależności. Metoda ta jest bogata w metody formowania skupień, przekształceń zmiennych oraz pomiaru podobieństwa/niepodobieństwa pomiędzy skupieniami. Niestety mankamentem hierarchicznej analizy skupień jest to, że wymaga ona jednolitego typu danych (liczebności, ilościowych i zmiennych jakościowych) oraz zastosowania odpowiednich miar odległości lub podobieństwa dla rodzaju analizowanych danych. Analiza hierarchiczna jest metodą eksploracyjną, wyniki analizy powinny być poddawane bardziej formalnym procedurom. Dla zmiennych ilościowych dedykowane są odległości : euklidesowe, kwadrat odległości euklidesowej, korelacja Pearsona, odległość miejska (prostokątna), odległość Mińkowskiego-Harabasza, odległość Czybyszewa. Dla zmiennych porządkowych dedykowana jest odległość chi kwadrat i phi kwadrat. W przypadku zmiennych binarnych są dedykowane odległości: euklidesowa, kwadrat odległości euklidesowej,  różnica wielkości, lambda, miara Dice’a, miara Kulczyńskiego, miara Ochiai oraz Q Yule’a. Procedura ta jest bardzo uniwersalna można ją stosować w postępowaniu eksploracyjnym BIG DATA, drążeniu danych, biostatyce, biometrii i psychometrii. Ta procedura analityczna jest dostępna w większości pakietów statystycznych (analiza SPSS, analiza SAS, analiza Statistica, analiza GNU R, analiza Orange Canvas ).