Analiza danych

Analiza danych

Analiza danych – Rozwój techniczny wyeliminował z pracy statystyka ogromną część żmudnej dłubaniny. Dawniej wielu statystyków poświęcało pokaźną część swego życia na mozolną robotę arytmetyczną. W wię­kszości dotyczyła ona spraw elementarnych. Wiele metod wymyślonych po to, by skrócić czas przeznaczony na obliczenia, jest już przestarzałych.

Tempo i łatwość, z jaką można dziś przeprowadzać obliczenia statystyczne, sprawiły, że coraz częściej stosuje się skomplikowane metody statystyczne, z których wiele znano wcześniej, ale nieczęsto używano, z powodu mozolnych obliczeń, jakich wymagały. W tym kontekście warto wspomnieć o metodach statystyki wielozmiennowej. Są to metody wymagające analizy danych obejmujących kilka bądź kilka­naście, na ogół wiele, zmiennych. W psychologii, pedagogice i innych dziedzinach próby wyjaśnienia lub przewidzenia konkretnego zjawiska mogą pociągać za sobą konieczność badania procesów, które są bardzo złożone i które łączą się z funkcjonowaniem zbiorów wzajemnie powiązanych ze sobą zmiennych. Analiza danych współczesnej literatury naukowej wskazuje, że częstość posługiwania się metodami  wielozmiennowymi gwałtownie rośnie.

Analiza danych – Powszechna dostępność małych komputerów o znacznej mocy obliczeniowej i  zwiększyła, a nie pomniejszyła znaczenie należytego rozumienia pojęć statystycz­nych.

Podobnie rozwój technik obliczeniowych sprawił, że wzrosło znaczenie nale­żytego rozumienia zadań, do których wykonania przeznaczone są konkretne metody, zagadnień, które mają one rozwiązywać, oraz założeń, jakich przyjęcia wymagają. Wszystkie te sprawy może student w wielu przypadkach zrozumieć bez poważniej­szego zagłębiania się w aparat matematyczny leżący u podłoża danej metody ani też w szczegóły zastosowanych procedur obliczeniowych. Dawniejsi statystycy, po­sługujący się prostymi urządzeniami do obliczeń, poświęcali mnóstwo czasu i żmudnej pracy na badanie — przy użyciu rozmaitych metod, graficznych i innych informacji zawartych w zbiorach analiza danych. Włożony wysiłek nierzadko prowadził do pożytecznego intuicyjnego rozumienia tego, co dane te mogą powiedzieć. Obecnie, gdy dostępne są urządzenia o dużej mocy obliczeniowej, badacz często nie osiąga tego intuicyjnego poziomu rozumienia. Dane wprowadza się do komputerów, po czym otrzymuje się gotowy wynik. Nierzadko badacz tylko czę­ściowo rozumie dane.Można by przytoczyć wiele znakomitych przykładów naiw­nego podejścia do wstępnej analizy danych.

Przy badaniu wielu zbiorów danych prosty, wstępny wgląd w to, co dane te mogą powiedzieć, jest bardzo przydatny dla dobrania dalszych form analizy.

Tukey (1977) podkreśla znaczenie wstępnej analizy danych. Van Dantzig (1978) daje proste i łatwe w odbiorze omówienie tego zagadnienia. Wstępna ana­liza danych ma charakter opisowy, obejmuje proste operacje, metody sporządzania wyciągów i przedstawień graficznych. Ma ona na celu zrozumienie przez badacza charakteru i struktury danych, a w konsekwencji dobranie odpowiednich modelów statystycznych. Tukey porównuje wstępną analizę danych do pracy detektywa. Mo­że ona zmuszać badacza do zwracania uwagi na takie aspekty danych, których nie oczekiwał. Wszyscy naukowcy wiedzą, że staranna analiza wstępna zbiorów da­nych prowadzi czasami do odkryć, których nie przewidywali. Znaczenie ekspery­mentu może wykraczać daleko poza pierwotne intencje badacza.

Tukey wprowadza rozróżnienie między wstępną analizą danych a analizą po­twierdzającą. Przez analizę potwierdzająca rozumie on postępowanie zmierzające do potwierdzenia bądź niepotwierdzenia pierwotnej hipotezy, która dała asumpt do przeprowadzenia eksperymentu. Zdaniem Tukeya wstępna i potwierdzająca analiza danych uzupełniają się wzajemnie.

Jestem zwolennikiem poglądu, że przy analizie każdego zbioru danych osiągnięcie pewnego wstępnego poziomu ich rozumienia, uzyskane na przykład przez obliczenie kilku prostych statystyk, powinno koniecznie poprze­dzać zaplanowanie bardziej złożonych analiz. Analizy takie często wiążą się z przyjęciem skomplikowanych modelów i założeń.

Dostępność komputerów o dużej mocy obliczeniowej, automatycznie stosujących gotowe programy, zwiększa zna­czenie prostych metod, pomocnych badaczowi w należytym poznaniu informacji zawartych w danych (zaawansowana analiza danych).

Podstawowe terminy i pojęcia

Populacja (population)

Populacja: skończona, nieskończona {population: finite, infinite)

Próba (sample)

Statystyka opisowa (descriptive statistics)

Statystyka próby (,sampling statistics)

Parametr (parameter)

Estymator (estimate)

Zmienna (yariable)

Zmienna: zależna, niezależną (yariable: dependent, independent)

Zmienna: ciągła, dyskretna (nieciągła) (yariable: continuous, discrete) .

Zmienna: nominalna, porządkowa, przedziałowa, stosunkowa (yańable: nominał, ordinal, interval, ratió)

Badanie korelacyjne (correlational study)

Eksperyment (experiment)