analizy statystyczne w nauce, analizy do prac magisterskich

Pytania badawcze i rodzaje hipotez. Czego możemy się spodziewać i jak określać nasze przewidywania ?

 

„Być ciekawym – to wychodzić z pewnego nieruchomego centrum, to usiłować uchwycić, ująć przedmiot, o którym miało się jedynie niejasne lub schematyczne wyobrażenie. W tym znaczeniu wszelka ciekawość skierowana jest ku peryferiom.”

Gabriel Marcel „Homo viator”

Pytanie badawcze jest jak fundament, punkt wyjścia dla badania naukowego. Od tego jak precyzyjnie zostanie ono sformułowane zależy cały dalszy proces. Co więcej, dobre pytanie pozwala na wyodrębnienie istotnych zmiennych, co znacząco ułatwia dalszą pracę nad interesującym nas zagadnieniem.

Ze względu na potrzeby obliczeń statystycznych, uwzględnia się dwa podziały: dotyczący podstawowej decyzji przy wyborze problematyki badawczej oraz ogólnego kształtu przewidywanych zależności. W przypadku pierwszego podziału rozróżnia się pytania o różnice i pytania o związek. Pytania o różnice dotyczą przeważnie porównań między grupami osób. Przykład: „Czy kobiety różnią się od mężczyzn pod względem tolerancji na ból?”. Natomiast pytania o związek dotyczą korelacji zmiennych, np. „czy osiągnięcia sportowe są związane z poziomem motywacji wewnętrznej?”.

  Drugi podział rozróżnia pytania kierunkowe i niekierunkowe. Gdy mamy przesłanki dotyczące zależności w postaci wcześniejszych badań, możemy postawić pytanie kierunkowe. Wskazuje ono jaki przewidujemy kierunek zależności. Za przykład może posłużyć: „ Czy kobiety są bardziej odporne na ból niż mężczyźni?”. W przypadku pytania niekierunkowego nie określamy kierunku zależności, lecz tylko przewidujemy, że pojawiają się jakieś różnice pomiędzy badanymi grupami.

Przy zadawaniu pytania badawczego warto zastanowić się nad hipotezą badawczą, która precyzuje, jaki układ wyników możemy przewidywać na podstawie istniejących koncepcji teoretycznych i wyników dotychczasowych badań. Utworzenie i rozważenie każdej możliwej hipotezy znacznie ułatwia późniejsze zrozumienie otrzymanych wyników.

Wszystkie badane zjawiska charakteryzuje jakiś poziom zmienności, a celem wykonywanych badań jest wyjaśnienie owej zmienności. Zmienną nazywamy właściwość (cechę), która może przyjmować co najmniej dwie różne wartości w danym zbiorze elementów.

Ze względu na obserwowalność wskaźników, zmienne możemy podzielić na latentne (teoretyczne) i obserwowalne (wskaźniki zmiennych teoretycznych). Zmienne latentne to takie, które występują tylko teoretycznie np. inteligencja. Nie możemy ich zobaczyć, ale możemy zobaczyć ich przejawy (manifestacje). Na podstawie wartości zmiennych obserwowalnych wnioskujemy o wartości zmiennej latentnej. (zachęcamy do zapoznania się z metodą modelowania równań strukturalnych w kontekście pomiaru cech latentnych)

W przypadku gdy badane są różnice między dwoma grupami w zakresie określonej zmiennej, zmienne podzielić można pod kątem ich roli w badaniu. W ten sposób otrzymujemy zmienne wyjaśniane (w badaniach eksperymentalnych zależne) i zmienne wyjaśniające ( w badaniach eksperymentalnych niezależne).  Zmienną niezależna jest np. płeć. W przypadku badania dotyczącego różnic w poziomie optymizmu między kobietami a mężczyznami, to właśnie poziom optymizmu będzie zmienną, którą będziemy chcieli wyjaśnić, przy pomocy zmiennej wyjaśniającej/niezależnej czyli płci. Ze zmiennymi współwystępującymi mamy do czynienia gdy interesuje nas związek pomiędzy zmiennymi. Czy przy danej wartości cechy A, możemy przewidywać określony poziom cechy B. Jeżeli taka zależność istnieje to zmienne niezależne nazywamy w tym przypadku predyktorami.

Zmienne podzielić jeszcze można w związku z ich rolą w schemacie badania i konstruowaniu teorii psychologicznych. Podział ten wyróżnia moderatory  i mediatory. Moderator określa warunki konieczne do wystąpienie efektu i odpowiada na pytania „kto?”, „kiedy” i „w jakich warunkach?”. Mediator określa dlaczego obserwujemy relacje między zmienną zależną i niezależną. Innymi słowy definiuje, dlaczego dane zjawisko działa.

Autorem tekstu jest Martyna Kuligowska

kpt kuligov 3

Władzą jest wiedza o źródłach zmienności Metodolog.pl motto

Metodologia badań naukowych

Metodologia badań naukowych – z czym to się je ?

Metodologia badań naukowych.

Badania naukowe wymuszają zwięzłego określenia celu badań oraz ich przedmiotu.

Procedury te stanowią pierwszy i podstawowy krok w dowodzeniu badawczym. Określenie przedmiotu badania i pokazanie głównych problemów badawczych ma na celu wyrażenie intencji badacza.

Badanie naukowe to długi proces podejmowania różnorodnych działań polegających na zapewnieniu obiektywnego, szczegółowego i zwięzłego poznania wycinka badanego uniwersum przyrody, społeczności lub kultury, za to wynikiem badania naukowego jest poznanie obrazu danej rzeczywistości.

Przedmiotem badań jest ściśle zdefiniowana rzeczywistość przyrodniczo społeczna, która stanowi obiekt zainteresowania każdej dyscypliny naukowej.

Jak uchwycić pozornie niedającą się chwycić przyrodę lub zachowania ludzkie ? Jak to sprawdzić ? Czego użyć do opisania jakiegoś uniwersum zachowań społecznych lub ludzkich ? Od tego mamy metodologię badań naukowych. Naukę bardzo trudną, która jest podstawą zimnego poznania naukowego. Nauka metodologii i jej poznawanie buduje silny badawczy charakter, jest dobrym narzędziem do poznawania otaczającego nas świata oraz pomaga odsiać od nauki miernej jakości, naukę dobrą i cenną.

Metodologia badań to nauka zajmująca się problematyką sposobu zbierania danych o bytach, które badacz chce poddać opisowi. Metodologia to porady i reguły mające na celu zmaksymalizowanie powodzenia badania oraz dające ocenić się korzyści i ograniczenia wynikające z zastosowania w badaniu danych metod lub procedur metodologicznych.

Sukcesem naukowym jest opisanie pewnego zjawiska. To właśnie od doboru odpowiednich technik metodologicznych ten sukces zależy. Każda dyscyplina naukowa wypracowała swoje metodologie badawcze, które są rozwijane i dają największy wgląd w badane zjawiska.

Metodologia istnieje w każdej dyscyplinie naukowej gdzie przeprowadzane są eksperymenty i badania. Oczywiście są to odmienne metody, choć w swej logice pomagają w tym samym uniwersum problemów, czyli ? Pomagają i sugerują co zrobić by jak najlepiej zmierzyć dane zjawisko by błąd pomiaru był jak najmniejszy, sugerują co robić, aby wyniki z badań były proste w interpretacji oraz aby badania odzwierciadlały lub były podobne do rzeczywistych sytuacji.

Autorem tekstu jest Konrad Hryniewicz

cv

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Budowa ankiet on – line oraz badanie ankietowe i jego analiza statystyczna.

 

Budowa ankiet on line, przeprowadzenie badania ankietowego oraz analiza statystyczna zebranych wyników.

W swojej ofercie Metodolog ma dla Was możliwość utworzenia formularza ankietowego w zaawansowanej formie jaką jest ankieta on – line w systemie Lime (Ponad to jesteśmy w stanie przeprowadzić badanie ankietowe) Lime jest badawczym kombajnem jeśli chodzi o możliwości badawcze. Dla przykładu możemy dzięki takiej ankiecie zbierać informacje na pytania jakościowe oraz pytania z różnorodną skalą odpowiedzi, ponad to możemy prosić badanych o umieszczenie pliku np. ze zdjęciem, dźwiękiem lub czymkolwiek, możemy prosić badanych o wskazanie swojego miejsca położenia na mapie. W najnowszej edycji ów oprogramowania do tworzenia internetowych badań jest możliwość podłączenia pod ankietę systemu Google Analitics przez co możemy śledzić naszą ankietę poprzez wgląd w geolokalizację.

Ankiety on line (badania ankietowe) są wygodną formą przeprowadzania badań szczególnie w dziedzinie psychologii, a konkretnie w psychometrii, gdzie ilość badanych obserwacji przekłada się na jakość oszacowań wynikających z dokładności pomiarowej badanych skal oraz zróżnicowanie wyników.

Oczywiście są pewne ograniczenia i dodatkowe błędy wynikające z testowania on – line. Niemniej jednak tego typu ankieta oraz możliwość badania bardzo różnorodnych prób badawczych daje wielkie pole do badań. Prawdopodobnie wraz ze wzrostem popularności testowania on – line będą opracowywane specjalne metodologie pozwalające na zminimalizowanie błędów wynikających z różnorodności warunków w których odbywa się zbieranie danych od internautów.

Bardzo wielką korzyścią przy korzystaniu z systemów ankiet internetowych jest to, że badacz może zaoszczędzić czas na wpisywaniu wyników z ankiet do bazy danych. W przypadku systemów informatycznych oferujących badania internetowe (w tym używany przez Metodolog system Lime) jest możliwość eksportu bazy danych z serwera do wielu formatów baz danych takich jak xls, txt, tab, sav, xlsx itp. Takie rozwiązanie oszczędza czas i nerwy 🙂

Po zebraniu wyników przez system internetowej ankiety może je poddawać analizie statystycznej. Niektóre systemy ankietowe posiadają w swym potencjale podstawowe analizy statystyczne i algorytmy liczące wyniki zebranych danych w internecie. Niemniej jednak statystyki te i testy statystyczne są mało zaawansowane. Choć bardzo to pomaga na etapie linkowania ankiety. Badacz może zaglądać do wyników i strategicznie planować rozmieszczenie linków i dobór obserwacji do badania.

Z całego serca polecamy możliwość badania ankietowego on line w Metodologu przy czym oferujemy oczywiście statystyczną (mniej lub bardziej zaawansowaną) analizę danych z ów ankiety.

Oczywiście, przestrzegamy przed projektowaniem ankiety internetowej samemu. Narzędzia do badań on line mają ogromy potencjał (nieznany większości) i dzięki temu cennemu aspektowi można zebrać o wiele więcej cennych danych widzianych z perspektywy badawczo naukowej.


Autorem tekstu jest Konrad Hryniewicz

cv

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Analiza ryzyka kredytowego. Czym jest ryzyko kredytowe/ Credit Scoring / analiza ryzyka kredytowego ?

Analiza ryzyka kredytowego. Czym jest ryzyko kredytowe/ Credit Scoring / analiza ryzyka kredytowego?


Czym jest ryzyko?


Ryzyko to pojęcie często używane potocznie jak  i w kontekście naukowym. Opisać je można w skrócie jako szansa na to, że podjęta przez nas decyzja nie przyniesie pożądanych przez nas efektów i będzie pewnego rodzaju obciążeniem. Ryzyko mocno daje o sobie znać w kontekście działalności gospodarczej, gdzie decyzje i działania podejmuje się przy niepełnej informacji lub braku czasu na przetworzenie wszystkich dostępnych danych. Dlatego zdolność do trafnej oceny ryzyka ma kolosalny wpływ na powodzenie podejmowanych działań. Przykładem idealnym, który ma bardzo bliski i poważny styk z ryzykiem jest firma pożyczkowa.


Czym jest ryzyko kredytowe?


Ryzyko kredytowe jest sytuacją w której kredytobiorca nie dotrzymuje zobowiązania wynikającego z podpisanej umowy z kredytodawcą. Świadomie, nieświadomie lub z powodów czysto losowych nie jest w stanie uregulować swoich zobowiązań z kredytodawcą przez co naraża jego firmę pożyczkową na deficyt. Co by nie było, nawet najdoskonalsze podejścia i metody statystyczne nie są w stanie wyeliminować strat związanych z ryzykiem. To po stronie firmy pożyczkowej jest regulowanie i zarządzanie portfelem pożyczek. W zależności od sytuacji rynkowej danej firmy pożyczkowej może ona regulować swoją strategię pożyczania pieniędzy. Niemniej jednak ponad strategiami i sytuacją rynkową jest bardzo ważna trafna oceny poziomu ryzyka. Dlatego firmy pożyczkowe mają szereg procedur, które mają charakter zarządzania ryzykiem pożyczkowym. Działania te sprawiają, że przyszłość, a konkretniej sytuacja takiej firmy jest mniej lub bardziej przewidywalna


Procedury te to:


wykrycie czynników wpływających na ryzyko i ich ewaluacja


– kontrola przyznanych pożyczek i kredytów wraz z procedurami kompensującymi skutki udzielenia złych pożyczek


W tekście tym głównie zajmiemy się możliwością oceny zdolności kredytowej i oceny ryzyka kredytowego poprzez statystyczną analizę danych. Pod pojęciem oceny ryzyka kredytowego rozumiemy terminową spłatę zobowiązania, a co za tym idzie wywiązanie się z umowy między klientem, a firmą pożyczkową.


Ocena ryzyka kredytowego/ ocena wyników karty SCORINGOWEJ osoby ubiegającej się o pożyczkę jest zawsze badana pod względem dwóch aspektów:


– prawnym

– praktycznym


W pierwszym etapie przyznania pożyczki bada się prawny potencjał pożyczkobiorcy do zaciągnięcia zobowiązania kredytowego. W drugim etapie ocenia się praktyczne aspekty czyli:


– osobowość

– stan cywilny

– majątek

– przebieg kariery zawodowej

– poziom zamożności

– aktywów

– pasywów


Metodologia ewaluacji ryzyka kredytowego/pożyczkowego.


W czasie swej historii istnienia firmy pożyczkowy wytworzyły metody oceny ewaluacji ryzyka kredytowego.

– metody polegające na ewaluacji finansów i zamożności klienta

metody algorytmiczne (statystyczne, metodologiczne, logiczne lub matematyczne) dzięki, którym przewiduje się na podstawie historii zachowań i charakterystyk starych klientów,  zachowania  klientów nowych.


Trochę więcej o pojęciu algorytmicznym.


Dla analityka danych najbardziej interesującą rzeczą jest oszacowanie ryzyka kredytowego nowych klientów na podstawie historii (zapisanych zachowań i cech w bazie danych) przeszłych klientów. Bazuje to wszystko na prostej zasadzie „Przyszłość będzie taka jak przeszłość”. Zadaniem statystyka jest wykrycie tego, które cechy pod postacią zmiennych z bazy danych wpływają istotnie na sytuację spłaty pożyczki  lub jej braku. Ważne jest też to, że tego typu metody najlepiej działają w krótkich etapach czasu lub kiedy są często aktualizowane.


Modele oceny ryzyka pożyczkowego scoringowego / kredytowego najczęściej używane w praktyce firm pożyczkowych i banów.


Procedura konstruowania statystycznego modelu przewidującego składa się z kilku procesów. Pierwszy z nich to dostosowanie odpowiedniego modelu (silnika statystycznego) a drugi (ściśle powiązany z pierwszym) przygotowanie danych w taki sposób by dawały najlepsze przewidywania (pamiętając o złotej zasadzie dotyczącej tego, że jeśli słabo zajmiemy się danymi wejściowymi to będziemy mieć słabe rezultaty opisujące nasze zjawisko). Wybór modelu statystycznego jest dowolny. Zazwyczaj wybiera się kilka modeli, a następnie porównuje się ich skuteczność. Do tych metod należy analiza regresji logistycznej, analiza drzew decyzyjnych, analiza dyskryminacyjna, sieć neuronowa, metoda SVM (support vector machines). Różne metody zwracają podobne wyniki, choć zazwyczaj młodsze metody (np. wielowarstwowy perceptron) nie mają wielu założeń co do „stanu danych” więc zdarza się, że zwracają trochę lepsze wyniki niż metody klasyczne (drzewa decyzyjne).

Chcesz dowiedzieć się więcej? Chciałbyś mieć system oceny scoringowej w swojej firmie? W Metodolog znajdziesz coś dla siebie.


Więcej o statystyce, kredytach i podejmowaniu decyzji na:


Sieci neuronowe w ryzyku kredytowym


Drzewa C&RT, Drzewa decyzyjne – statystyczna analiza klasyfikacyjna


Liniowa analiza dyskryminacyjna


Analiza regresji logistycznej


Analiza statystyczna danych warszawa wrocław kraków poznań gdansk


Metody oceny zdolności kredytowej


 

problemy klasyfikacyjne

Propensity score matching – Statystyczny wpływ netto zmiennej niezależnej na zmienną zależną.

meto1

Metodolog.pl – Analiza Statystyczna w nauce

Firma statystyczna METODOLOG

Metoda PSM to perfekcyjny przykład poznawania prawdziwych źródeł zmienności!

Propensity score matching – Statystyczny wpływ netto.

Czyli jak do obserwacji z grupy eksperymentalnej wybrać obserwacje podobne, ale jednocześnie będące grupą odniesienia ? Jak uzyskać czysty wpływ zmiennej niezależnej na zmienną zależną.

Propensity Score Matching to procedura polegająca na statystycznym utworzeniu podobieństwa między grupą kontrolną i eksperymentalną pod względem zmiennych balansujących. Pierwszy krok tej procedury polega na utworzeniu wektora balansującego wskazującego prawdopodobieństwo przynależności do grupy kontrolnej i eksperymentalnej (zazwyczaj wykonuje się to dzięki oszacowaniom regresji logistycznej). Drugi krok polega tym aby przyporządkować obserwacje podobne do siebie pod względem wartości wektora balansującego. Najczęściej przyporządkowuje się obserwacje z grupy eksperymentalnej do grupy kontrolnej za pośrednictwem metody najbliższego sąsiada. Metoda ta pozwala na przyporządkowania obserwacji z grupy eksperymentalnej do osoby z grupy kontrolnej pod względem bliskości wartości wektora balansującego. Do wykonania tej procedury można wykorzystać popularny pakiet „MatchIt” z repozytorium CRAN [1] w programie R.

[1] https://cran.r-project.org/web/packages/MatchIt/index.html


Procedura PSM jest pewnego rodzaju połączeniem statystycznej analizy danych z pewną logiką metodologiczną. O co chodzi ? W metodzie tej chodzi o to aby obserwacje w grupie eksperymentalnej były podobne do osób z grupy kontrolnej pod względem cech, które są powiązane ze zmienną niezależną oraz zmienną zależną. Chodzi o wyrównanie różnic pomiędzy grupami.


Wyobraźmy sobie sytuację kiedy badamy wpływ cukrzycy na czas trwania życia (  np. analizą przeżycia/survival analysis lub porównywaniem krzywych na wykresie Kaplana Mayera ). Kiedy zanalizujemy statystycznie ten wpływ może się okazać, że skracający życie czynnik jakim jest cukrzyca może tylko pozornie wpływać na śmiertelność. Może być tak, że grupa eksperymentalna (cukrzyków) jest inna pod względem wielu cech oraz jest inaczej traktowana w procesie długofalowego leczenia niż grupa kontrolna (zdrowych ludzi) *Niestety ze względów etycznych nie możemy losowo wybierać obserwacji i wywoływać w jednej grupie cukrzycy a w drugiej nie. Losowy dobór do grup badawczych jest oczywiście uczciwy i jak najbardziej pożądany. Wywołanie cukrzycy już takie nie jest. Niemniej jednak jest coś co możemy zrobić. Możemy wykorzystać metodę PSM. Czyli wybrać grupę kontrolną, która pod względem wielu czynników będzie podobna do grupy eksperymentalnej. Jak to zrobić ? W przypadku kiedy sytuacja wygląda na taką w której mamy 2 grupy badawcze możemy użyć regresji logistycznej ( dla problemów w których jest większa ilość grup eksperymentalnych można zastosować inne statystyczne metody klasyfikacyjne). Jako zmienne wejściowe wybieramy czynniki, które są powiązane z cukrzycą  oraz z przedwczesnymi zgonami, które chcemy wyjaśnić wpływem cukrzycy. Ów cukrzyca na potrzeby analizy regresji logistycznej jest naszą zmienną zależną ( ale tylko na chwilę). Dzięki regresji logistycznej uzyskujemy przewidywane prawdopodobieństwo przynależenia obserwacji do danej grupy ( cukrzyca – zdrowy ). Dzięki temu powiedzmy, że uzyskujemy wektor balansujący obie grupy. Jak to ? Każdy uzyskany wynik w grupie kontrolnej i eksperymentalnej możemy interpretować jako pewnego rodzaju poziom podobieństwa względnego. Dzięki takiemu zabiegowi uzyskujemy wartości identyfikacyjne na podstawie których możemy wyodrębnić jednostki w grupie kontrolnej i eksperymentalnej podobne do siebie pod względem wcześniej wyodrębnionych cech. Takie dopasowanie najlepiej wykonać analizą skupień metodą najbliższego sąsiada. Dzięki takiemu zabiegowi dobieramy do grupy eksperymentalnej bardzo podobne osoby  z grupy kontrolnej. Obie grupy są do siebie podobne pod względem różnych cech np. BMI, płci, grupy krwi, wieku, parametru Logistic Euroscore, rodzaju leczenia, ilości odbytych operacji lub hospitalizacji. Gdybyśmy planowali dobór osób do grupy kontrolnej szansa na dopasowanie do grupy eksperymentalnej osób podobnych była by prawie niemożliwa.

Koniec końców w przypadku kiedy mamy wybalansowane różnice pomiędzy grupami pod względem cech, które są powiązane z cukrzycą i zgonami możemy określić wpływ netto cukrzycy na śmiertelność.


Przyszłość tej metody.

Metoda propensity score matching zdobywa coraz większą popularność i jest coraz częściej wymagana przy projektach badań ilościowych w których losowy dobór jednostek do badania, a następnie do grup badawczych jest niemożliwy. Można powiedzieć, że metoda propensity score matching może się stać standardem przy badaniach, tak jak podwójna randomizacja w badaniach eksperymentalnych.


Etapy procedury Propensity score matching.

– znalezienie zmiennych powiązanych ze zmienną nieznależną i zależną

– zbudowanie wektora balansującego ( np. użycie do tego regresji logistycznej, naiwnego klasyfikatora Bayesa, analizy dyskryminacyjnej lub sieci neuronowej )

– dokonnać powiązania (matchingu) obserwacji z grupy eksperymentalnej i kontrolnej przy użyciu wektora balansującego ( najlepiej użyć do tego algorytmu KNN – analizy skupień najbliższego sąsiada )

– porównać różnice pomiędzy grupą kontrolną a eksperymentalną pod względem cech budujących wektor balancujący przed i po procedurze propensity score matching

– zweryfikować różnice statystyczne netto pomiędzy wybalansowanymi grupami  (zmienną niezależną) pod względem interesującej nas zmiennej zależnej


Jak ocenić skuteczność wykonanych kroków ?

– w pierwszym etapie (przed matchingiem) analizy statystycznej powinny być wyraźne różnice pomiędzy grupami pod względem czynników budujących wektor balansujący

– obie grupy po zbudowaniu wektora balansującego powinny różnić się pod względem jego wyniku

– po dopasowaniu (matchingu) różnice istotne statystycznie pod względem czynników budujących wektor balansujący powinny zniknąć

– istotna statystycznie różnica między grupami (zmienną niezależną) pod względem wektora balansującego powinna zniknąć


Jak ocenić wpływ netto zmiennej niezależnej na zmienną zależną ?

Po procedurze propensity score matching przeprowadzamy analizę statystyczną, która ma zakwestionować losowość wyników np. test t Studenta lub analizę wariancji. W naszym przypadku była to analiza Log – Rank (Logarytmicznych Rang). Zmienną niezależną była zmienna  cukrzyca lub jej brak, a zmienną zależną był czas życia po operacji.


Gdzie procedura propensity score matching może mieć zastosowanie ?

Najczęściej procedura ta może mieć zastosowanie w badaniach ewaluacyjnych przy interwencjach społecznych (np. w Projekcie Alternatywa II), w projektach badawczych przy, których manipulowanie zmienną niezależną jest nieetyczne lub niemożliwe. W badaniach w których nie można stworzyć grupy kontrolnej ze względu na koszt badań lub brak możliwości znalezienia jednostek podobnych do grupy eksperymentalnej.

Autorem tekstu jest Konrad Hryniewicz.