Analizy statystyczne – 5 ważnych elementów podczas przetwarzania danych

Analizy statystyczne – 5 ważnych elementów podczas analizy danych

Analizy statystyczne – 5 ważnych elementów podczas analizy danych

Analizy statystyczne – 5 ważnych elementów podczas analizy danych. W dobie informacji, dane nie są rzadkością, są raczej wszechobecne i przygniatają ilością. Kluczowe staje się przesiewanie ogromnej ilości danych dostępnych w organizacjach i przedsiębiorstwach oraz prawidłowa ich interpretacja i zastosowanie. W celu uporządkować informacje zawarte w danych koniecznie są potrzebne narzędzia i odpowiednie analizy statystyczne.

Dzięki obecnej obsesji na punkcie „Big Data” analitycy, matematycy i statystycy stworzyli wiele wyrafinowanych narzędzi i technik dostępnych dla dużych przedsiębiorstw. Niemniej istnieje jednak kilka podstawowych narzędzi do analizy danych z których większość firm, czy organizacji, nie korzysta… na swoją niekorzyść.

Zachęcamy do prac nad analizami statystycznymi z następującymi pięcioma elementami, które mają swoje zalety, ale też i nie są pozbawione wad. Przed przejściem do bardziej zaawansowanych technik statystycznych warto zapoznać się z podstawami, które uformowały świat w którym żyjemy i nadały kierunek w którym idziemy.

1 element ważny w wykonywaniu analiz statystycznych – Średnia Arytmetyczna.

Średnia arytmetyczna jest sumą elementów podzieloną przez ich ilość. Średnia jest użyteczna w determinowaniu ogólnych trendów w zbiorze lub dostarczaniem szybkiego oglądu danych. Ważną zaletą średniej w wykonywaniu analiz statystycznych jest łatwość jej interpretacji i szybkość wyliczenia.

Pułapka zastawiona przez średnią w analizach statystycznych.

Pozostawiona sama sobie średnia jest niebezpiecznym narzędziem. W dużych zbiorach danych średnia jest często blisko związana z medianą i modaną. Niemniej w takich zbiorach często znajdują się obserwację odstające lub rozkłady danych są skośne. W takich okolicznościach średnia arytmetyczna nie dostarcza dokładności potrzebnej w podejmowaniu decyzji.

2 element ważny w wykonywaniu analiz statystycznych – Odchylenie Standardowe.

Odchylenie standardowe jest pomiarem odchylenia danych od wartości średniej i często jest reprezentowane Grecką literką SIGMA. Wysokie odchylenie standardowe znaczy, że dane odchylają się daleko od średniej, podczas gdy niskie odchylenie standardowe oznacza, że dane są bliskie średniej. Odchylenie standardowe w zdecydowanej większości analiz dostarcza informacji o rozrzucie danych.

Gdzie w analizie statystycznej odchylenie standardowe może namieszać?

Podobnie jak średnia, odchylenie standardowe może nieźle namieszać w interpretacji wyników i wynikach analiz statystycznych. Np. W przypadku kiedy rozkład badanych wyników nie jest normalny (np. liczba posiadanych dzieci w populacji) lub zbiór zawiera bardzo dużo obserwacji odstających od średniej. To wszystko sprawia, że odchylenie standardowe nie daje nam informacji jakiej potrzebujemy.

3 element analiz statystycznych – Analiza Regresji

Można powiedzieć, że statystyczna analiza regresji ukształtowała myślenie o danych i wyznaczyła kierunek rozwoju analiz statystycznych i metod obliczeniowych opartych o algorytmy statystyczne. Analiza regresji jest modelem który przewiduje wartości zmiennej zależnej na podstawie zmiennych ją wyjaśniających. Model regresji ocenia wpływ poszczególnych czynników pod kątem siły wpływu oraz istotności. Analiza regresji jest wykorzystywana najczęściej do budowy prostych modeli predykcyjnych, również modeli przewidujących zmiany w czasie.

Czy analizy statystyczne wykonane analizą regresji są wspaniałe?

I tak, i nie. Analiza regresji nie jest wyszukaną analizą. Jest szczególnie podatna na obserwacje odstające, a te potrafią nieźle namieszać w przewidywaniach opracowanych na podstawie tej analizy. Zwykle w analizie regresji ocenia się również współliniowość zmiennych wyjaśniających, rozkład zmiennych, rozkład reszt modelu oraz równość wariancji na całej długości linii regresji. Brak weryfikacji tych założeń zwykle sprawia, że model regresji niezbyt przystaje do obserwowanej lub przewidywanej rzeczywistości (Iacobucci, 2010).

4 element bez których analizy statystyczne znaczą tyle co nic, to ustalenie minimalnej wielkości badanej próby

Kiedy badamy zbiór danych lub populacji np. zasoby ludzkie, to nie potrzebujemy badać informacji o każdym badanym zatrudnionym w firmie, potrzebujemy do tego niezbędnej najmniejszej próby. Najmniejsza wymagana próba obserwacji jest wystarczająca do tego, by oszacować wartość relacji lub wielkości parametru który nas interesuje. By ustalić taką próbę musimy znać wielkość badanego efektu, proporcje lub odchylenie standardowe. Dzięki wykorzystaniu odpowiednich obliczeń np. w programie G*Power (Faul, Erdfelder, Land, & Buchner, 2007). P.S. Wyliczanie wielkości próby do modelowania równań strukturalnych w podejściu PLS tutaj KLIK

Kiedy szacowanie wielkości próbki może nas pogrążyć?

Kiedy badany nową, nietestowaną zmienną w populacji lub nigdy wcześniej niebadane relacje. Oszacowania dotyczące wielkości danego efektu w takich przypadkach mogą być niezbyt dokładne, co prowadzi do błędnego wnioskowania o badanym zjawisku. Błąd ten jest niewykrywalny przez analizy statystyczne i przechodzi niezauważony. Może to skutkować przyjęciem prawdy kiedy ta jest prawdziwie fałszywa lub przyjęciem fałszu kiedy ten jest prawdziwie fałszywy.

5 element – Testowanie Hipotez

Testowanie hipotez ocenia czy pewna przesłanka jest prawdziwa dla próby lub populacji. W analizie danych i analizie statystycznej to użytkownik rozważa rezultaty testu statystycznego pod kątem tego, czy wyniki mogły zajść przez przypadek. Testowanie hipotez jest używane wszędzie od nauki i badań do biznesu i ekonomii.

O błędach wynikających z testowania hipotez mówi poniższy rysunek

błąd pierwszego i drugiego rodzaju przy statystycznej weryfikacji hipotez

Referencje:

Faul, F., Erdfelder, E., Land, Al.-G., & Buchner, A. (2007). G*Power 3: A flexible statistical power analysis program for the social, behavioral, and biomedical sciences. Behavior Research Methods, 39(2), 175–191. https://doi.org/10.3758/BF03193146

Iacobucci, D. (2010). Structural equations modeling: Fit Indices, sample size, and advanced topics. Journal of Consumer Psychology, 20(1), 90–98. https://doi.org/10.1016/j.jcps.2009.09.003

Analizy statystyczne – 5 ważnych elementów podczas analizy danych