problemy klasyfikacyjne

Analiza regresji logistycznej.

meto1

 

Analiza regresji logistycznej

Analiza dyskryminacyjna i regresji liniowej, przy odpowiednich założeniach wyjściowych mogą dać podobne rezultaty, jednak częściej stosowana jest metoda regresji. Przemawia za tym m.in. jej lepsza znajomość, mniejsza ilość problemów z jej zastosowaniem, większa dostępność i jasność oraz większa ilość możliwych do zastosowania informacji. Metoda ta bada wpływ zmiennych niezależnych (X) na zmienną zależną (Y ). Jest wyrazem przyporządkowania średnich wartości zmiennej zależnej wartościom zmiennych niezależnych. Chociaż regresja liniowa stanowi dobrą technikę scoringową to mimo wszystko częściej wykorzystywana jest regresja logistyczna. Wynika to głównie z możliwości zastosowania jej w sytuacjach, kiedy posiadane dane nie spełniają założeń regresji liniowej. Regresja logistyczna może dotyczyć zarówno prawdopodobieństwa spłaty kredytu, jak i określenia przynależności badanego podmiotu do jednej z dwóch grup – ’dobrych’ lub ’złych’ klientów.

Tutaj skupimy się na regresji logistycznej, ponieważ w przypadku klasyfikacji zmiennych do dwóch grup analiza logitowa jest równoważna analizie regresji logistycznej. Korzystną cechą tego rodzaju modeli jest:

brak założenia o normalności rozkładu poszczególnych zmiennych

brak założenia o równości macierzy kowariancji poszczególnych grup

W przypadku regresji logistycznej, wynik każdej z obserwacji Y1, …, Yn może być interpretowany jako sukces lub porażka. Wtedy Y1, …, Yn nazywamy obserwacjami binarnymi. Przyjmuje się więc, że Yi (i = 1, 2, …, n) ma rozkład Bernoulliego B(1, pi). Parametr pi tego rozkładu można interpretować jako prawdopodobieństwo niespłacenia kredytu dla i-tego klienta. Rozkład obserwacji Yi określony jest przez funkcję prawdopodobieństwa

f(yi; pi) = piyi (1 − pi)1−yi (6)

Przy danym wektorze zmiennych objaśniających x, prawdopodobieństwo niespłacenia kredytu pi jest powiązane z wektorem x w następujący sposób:

logit[θ_i (x)]= log p_i/(1-p_i )= a_0+∑_(j=1)^N▒〖a_j log⁡〖x_j 〗 〗

Po przekształceniach otrzymujemy wzór na prawdopodobieństwo niespłacenia kredytu:

p_i=e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗)/(1+e^(a_0+∑_(j=1)^N▒〖a_j logx_j 〗) )=1/(1+e^(-(a_0+∑_(j=1)^N▒〖a_j logx_j)〗) )

W przypadku gdy mamy do czynienia z regresją liniową estymacji wektora a w równaniu:

Y= a_0+ ∑_(i=1)^N▒〖a_i x_i 〗

dokonujemy oczywiście za pomocą metody najmniejszych kwadratów. Niestety w przypadku regresji logistycznej nie możemy zastosować tej metody ze względu na to, że zmienne niezależne posiadają różne wariancje. Zamiast niej używa się wówczas metody największej wiarogodności. Metoda ta polega na maksymalizacji funkcji wiarogodności (częściej aby uprościć rachunki minimalizuje się ujemny algorytm funkcji wiarogodności). Funkcja wiarogodności dla modelu logistycznego przyjmuje następującą postać:

L= ∏_(y_i=1)▒〖p_i 〗 ∏_(y_i=0)▒〖〖(1-p〗_i) 〗

gdzie: yi – wartości obserwowane dla i-tego przypadku, pi – oczekiwane prawdopodobieństwo dla i-tego przypadku.

Logarytm funkcji wiarogodności przyjmuje postać:

ln⁡(L)= ∑_(i=1)^N▒〖[y_i ln⁡(p_i )+(1-y_i ) ln⁡(1-p_i )]〗

Oznaczmy dodatkowo:

DEV = -2 ln(L)

Wielkość tę nazywamy dewiancją i jest ona tym mniejsza im lepsze dopasowanie modelu.

Dla modelu zerowego (L0) czyli takiego, który zawiera tylko wyraz wolny (stosunek liczby sukcesów do liczby porażek jest stały), logarytm wiarogodności oblicza się jako:

ln(L0) = ni ln n1 + n0 ln n0 (13)
n n

gdzie n0 jest liczbą obserwacji o wartości 0, n1 jest liczbą obserwacji o wartości 1, n jest całkowitą liczbą obserwacji. W celu określenia statystycznej istotności zaobserwowanej różnicy pomiędzy dwoma modelami wykorzystać można statystykę χ2. Typowym podejściem w tym przypadku jest wykonanie testu statystycznego. Niech hipoteza zerowa będzie postaci:

H_o: logit[θ_0 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗

Hipoteza alternatywna ma wtedy postać:

H_1: logit[θ_1 (x)]= a_0+∑_(j=1)^m▒〖a_j logx_j 〗+a_(m+1) x_(m+1)+ …+a_k x_k

Statystyką testową jest test ilorazu wiarogodności:

Λ= (L(H_0))/(L(H_1))

Statystyka ta może być zmodyfikowana w ten sposób, aby miała rozkład χ2:

-2 ln⁡(Λ)= -2[ln⁡L(H_0 )-ln⁡〖L(H_1 )= -2 ln⁡L(H_0 )- (-2 ln⁡L(H_1 ))〗

We wzorze tym wyraz -2 ln⁡L(H_0 ) oznacza dewiancję dla hipotezy zerowej, a -2 ln⁡L(H_1 ) dewiancję dla hipotezy alternatywnej. Statystyka taka ma rozkład χ2 z k-m stopniami swobody. Używając tego testu można określić istotność statystyczną spadku dewiancji spowodowanego dodaniem parametrów xm+1, …, xk, na wybranym poziomie istotności.

http://www.statsoft.pl/textbook

Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56: 3-4.
Magiera R. (2007) Modele i metody statystyki matematycznej. Wnioskowanie statystyczne – Część II, 395-396, 422. GIS, Wrocław.

Autorem tekstu jest Marta Mrozek.

Więcej na:

Analiza statystyczna danych Warszawa Wrocław Kraków Poznań Gdańsk

Logika modeli przewidujących

Czym jest analiza ryzyka kredytowego?

Regresja logistyczna jako analiza klasyfikacyjna

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Metody oceny zdolnosci kredytowej

meto

 

Metody oceny zdolności kredytowej

Pojęcie zdolności kredytowej
Ustawa z dnia 29 sierpnia 1997 roku — Prawo bankowe (Dz. U. z 1997 r. Nr 140, poz. 939, art. 70.1.)
definiuje zdolność kredytowa następujaco: Przez zdolność kredytowa rozumie się zdolność do spłaty zaciągniętego
kredytu wraz z odsetkami w terminach określonych w umowie. Kredytodawca, biorąc pod
uwagę sytuację majątkową jednostki gospodarczej, której udziela kredytu oraz zewnętrzne uwarunkowania
ekonomiczne w danym momencie, próbuje oszacować ryzyko niespłacenia kredytu. Bardzo ważne jest,
aby zdolność kredytowa kredytobiorcy dobrze określić przed podpisaniem umowy. Jednak w momencie
przyznania kredytu nie kończy się okres obserwowania kredytobiorcy, wręcz przeciwnie – przez cały czas
trwania stosunku kredytowego banki dokonują oceny zdolności kredytowej jednostek gospodarczych korzystających
z kredytu. Bank musi umieć stwierdzić, czy kredytobiorca będzie w stanie spłacić całą kwotę
w terminie zawartym w umowie.
Podmiot gospodarczy posiada zdolność kredytowa wtedy, gdy jest wypłacalny, czyli na tyle efektywnie
gospodaruje pieniędzmi, że jest w stanie regulować na bieżąco wszystkie swoje zobowiązania, a w razie
czego mieć możliwość upłynnienia swojego majątku. Badanie zdolności kredytowej ma na celu określenie
w każdym postępowaniu o przyznaniu kredytu stopnia ryzyka, na jakie narażony jest bank.

Bank przy udzielaniu kredytu narażony jest na dwa rodzaje ryzyka:

1. aktywne:
(a) straty
(b) utraty płynności
(c) utraty ubezpieczenia

2. pasywne:
(a) zmiany procentu
(b) zmiany kursu walutowego
(c) zmiany wartości pieniądza
Główna różnica miedzy tymi dwoma rodzajami ryzyka jest to, ze o ile bank jest jeszcze w stanie
kontrolować ryzyko aktywne i je chociaż w pewnym stopniu przewidywać, tak nie ma prawie żadnego
wpływu na to na jakim poziomie będzie się utrzymywało ryzyko pasywne. Ryzyko pasywne jest niezależne
od kredytodawców, dlatego też starają się oni za wszelka cenę minimalizować poziom ryzyka aktywnego.

Metody scoringowe – idea

Metody scoringowe oceny zdolności kredytowej są obecnie najpowszechniejsze i najbardziej rozwijane,
dają również najlepsze rezultaty. Odpowiedzmy sobie zatem na pytanie ’czym jest scoring?’. Najprościej
mówiąc, jest to ocena punktowa reprezentująca wiarygodność kredytową kredytobiorcy. Jednak obecnie
banki oraz różne inne instytucje finansowe wykorzystują metody scoringowe do tworzenia rozbudowanych
modeli statystycznych prognozujących różnego rodzaju prawdopodobieństwa, które w praktyce wykorzystywane
sa jako element procesu decyzyjnego.
Metody scoringowe powstały ponad 50 lat temu. Pierwsza firma, która zaczęła je stosować była Fair Isaac
Corporation (obecnie FICO), utworzona w 1956 roku przez inżyniera Billa Faira oraz matematyka Earla
Judsona Isaaca. Założyciele FICO rozpoczęli budowę metod scoringowych od sporządzania prostych tablic
aplikacyjnych. Dopiero w 1975 roku wprowadzony został system scoringu behawioralnego do oceny
ryzyka kredytowego związanego z obsługa dotychczasowego klienta.
Oczywiście z postępem technologii informatycznych metody te były coraz bardziej rozwijane i doskonalone.
Dla scoringu było to tak bardzo istotne ze względu na możliwość przechowywania i obróbki dużych
ilości danych (m.in. socjodemograficznych i transakcyjnych). Oprócz danych o klientach, które banki
same zbierają głównie na podstawie wywiadu, w Polsce mogą one również korzystać z baz danych różnych
instytucji takich jak Biuro Informacji Kredytowej, Związek Banków Polskich czy biura informacji
gospodarczej. Wiedza zebrana w ten sposób umożliwia ograniczenie ryzyka współpracy z nieuczciwymi
klientami.
Główna idea scoringu kredytowego opiera się na badaniu ryzyka poniesienia kosztów związanych z prawdopodobieństwem
spłaty kredytu. Dla uproszczenia przyjmijmy, ze populacja kredytobiorców składa się
z dwóch grup G i B, oznaczających dobrych i złych klientów, odpowiednio. Dobry kredytobiorca spłaca
kredyt w całości i na czas. Natomiast zły kredytobiorca zależy od stopnia niewywiązania się z umowy.
Zazwyczaj wielkości obu grup są bardzo zróżnicowane. Oznaczmy przez pG prawdopodobieństwo tego, ze
losowo wybrana osoba jest dobrym kredytobiorca, podobnie pB – prawdopodobieństwo wybrania złego
kredytobiorcy. Przy losowo wybranej populacji nie zdarza się, żeby zachodziła równość pG = pB. Niech x
będzie wektorem niezależnych zmiennych wykorzystywanym w procesie podejmowania decyzji, do której
grupy zaliczyć rozpatrywanego klienta. Niech prawdopodobieństwo tego, ze dany klient z opisującym go
wektorem x należy do grupy G wynosi p(G|x), a gdy nalezy do grupy B – p(B|x). Niech prawdopodobieństwo
p(x|G) oznacza, ze dobry kredytobiorca posiada wektor opisujących go cech równy x. Podobnie
dla złego kredytobiorcy prawdopodobieństwo to wynosi p(x|B). Zadaniem jest estymacja prawdopodobieństwa
p(.|x) na podstawie posiadanego zbioru danych dotyczących kredytobiorców, o których wiemy
w jakim stopniu spłacili kredyt. Dodatkowo chcemy znaleźć zasadę podziału przestrzeni X wszystkich
wektorów mierzalnych x na dwie grupy AG i AB, takie ze w grupie AG znalazłyby się jedynie wektory
opisujące dobrych kredytobiorców, natomiast w grupie AB – wektory opisujące wyłącznie złych kredytobiorców.
Niestety w większości przypadków nie jesteśmy w stanie znaleźć idealnego podziału przestrzeni
X, ponieważ może się zdarzyć, ze dwóch kredytobiorców z różnych grup posiada identyczny wektor cech
x. Dlatego tez niezbędne jest znalezienie reguły, która będzie minimalizowała koszty błędnej klasyfikacji
kredytobiorcy. Oznaczmy przez cG koszt związany z zaklasyfikowaniem dobrego kredytobiorcy jako złego,
oraz przez cB – koszt związany z zaklasyfikowaniem złego kredytobiorcy jako dobrego. Zazwyczaj cB > cG
ponieważ koszty związane z błędną klasyfikacją złego kredytobiorcy są dużo wyższe niż jakiekolwiek inne
koszty.
Jeśli klient z opisującym go wektorem x zostanie zaklasyfikowany do grupy G oczekiwane koszty bądą
wynosić cBp(B|x) i wtedy oczekiwana strata dla całej próbki wynosi
cB
X
x2AG
p(B|x)p(x) + cG
X
x2AB
p(G|x)p(x)
gdzie p(x) oznacza prawdopodobieństwo tego, ze rozpatrywany wektor wynosi x. Wielkość ta jest minimalizowana
wtedy, gdy do grupy AG należą kredytobiorcy których wektor x należy do zbioru:
AG = {x|cBp(B|x) ¬ cGp(G|x)} (1)
Po przekształceniach dostajemy:
AG = {x|p(G|x) ­
cB

cB + cG} (2)
Bez straty ogólności możemy znormalizować poniesione koszty i przyjąć, że cB + cG = 1. Zatem reguła
klasyfikacji będzie polegała na tym, ze kredytobiorcę o wektorze zmiennych x przypiszemy do zbioru AG
wtedy, gdy p(G|x) ­ cB. W przeciwnym razie będziemy go zaliczać do grupy AB.
Patrząc na powyższe widzimy, że najważniejszym zadaniem jest ustalenie wysokości kosztów granicznych,
czyli oszacowanie optymalnego punktu odcięcia. Bank musi ustalić czy bardziej zależy mu na uniknięciu
ryzyka czy na dużych dochodach i w zależności od tego ustalić najlepszą dla niego granice kosztów.

Literatura
[1] http://www.statsoft.pl/textbook
[2] Matysiak S. (2011) Zarzadzanie ryzykiem kredytowym w banku.
[3] Vojtek M., Kocenda E. (2006) Credit Scoring Methods. Czech Journal of Economics and Finance 56:
3-4.

Autorem tekstu jest Marta Mrozek.

Zobacz więcej na:

Modelowanie ryzyka kredytowego czym jest ryzyko kredytowe credit scoring analiza ryzyka kredytowego

Ryzyko kredytowe

Metody oceny zdolności kredytowej
Ryzyko kredytowe i ocena zdolności kredytowej na podstawie cech osobowości

Analizy statystyczne / analiza badań / metody statystyczne

Analizy statystyczne / analiza badań / metody statystyczne

Analizy statystyczne, usługi i kompleksowa pomoc naukowa w Metodolog.pl

Przeprowadzamy wszystkie elementy procesu przetwarzania informacji  w formie analiz danych dla firm oraz  wykonujemy analizy statystyczne i usługi dla naukowców piszących:

  • Prace statystyczno analityczne (badania statystyczne)
  • Pomoc statystyczna w pracach akademickich (prace magisterskie i doktorskie)
  • Projekty i granty badawcze (złożone projekty badawcze)
  • Artykuły naukowe do czasopism i jouranli (z każdej dziedziny nauki)
  • Projekty komercyjne (usprawnienia i optymalizacje procesów w firmach dotyczących zarządzania, produkcji i sprzedaży)
  • Rozwiązania statystyczne dla problemów biznesowych (redukcja kosztów i zwiększanie zysków osiąganych przez firmy)
  • Opracowania statystyczne, coroczne raporty i zestawiania w formie tego czym są obliczenia statystyczne na biurku szefa o 9 rano w piątek

Analizy statystyczne

Dzięki naszej pomocy i tym jakie doradztwo oraz usługi statystyczne możemy Ci zaoferować, osiągniesz wysoki poziom naukowości Twojego projektu

Wszelkie działania przeprowadzamy z głową -> Zobacz jaka jest nasza filozofia współpracy z klientem (klik)

Konsultacje statystyczne i doradztwo

  • Staramy się znaleźć wiedzę i informacje o zasadnym podejściu do zastanego problemu badawczego.
  • Omówiamy projekt analizy statystycznej. Ma to na celu przyjęcie odpowiedniej metodologii analitycznej.
  • Przekładamy problem naukowy/biznesowy na rozwiązanie wytłumaczone językiem jakim jest analiza statystyczna ze wszystkimi możliwymi lub potencjalnymi scenariuszami kroków i postępowań weryfikacyjnych.
  • Niemniej niektóre procedury analityczne czy usługi statystyczne są wysoce wystandaryzowanymi działaniami (szczególnie w nauce).
  • Dlatego współpraca, zależnie od szacowanych gabarytów projektu może różnić się programem realizacji. Nasza praktyka nauczyła nas, że w 80% projektów z zakresu statystycznej analizy danych w nauce i biznesie ma charakter rutynowy.
  • W przypadku dużych projektów analitycznych warto jest wypróbować się nawzajem i dokonać próby sił zleceniodawcy i zleceniobiorcy. Szczególnie preferowaną opcją jest wykonanie projektu alfa/pokazowego lub małych analiz statystycznych usprawniając lub pomagając podjąć niezbędne decyzje, które nie mają kosztownych konsekwencji.
  • Niemniej jednak pozostałe 20% niestandardowych zleceń wzmacnia nas w przekonaniu, że czujność i skrupulatność przy wymianie informacji na temat badanego problemu, ściśle wiąże się z sukcesem projektu wykonywania takich działań jak analiza statystyczna i opracowania statystyczne.

Analizy statystyczne – czym jest sukces ich realizacji?

Sukces projektu polegającego na przedsięwzięciu jakim jest analiza statystyczna w nauce lub analityce biznesowej jest w Metodolog.pl mierzony pod względem trzech aspektów:

  • zadowolenia klienta
  • realizacji celów klienta
  • wykonania prac w zakładanym budżecie
  • zakończenia projektu w ustalonym czasie

Będąc ekspertem w swojej dziedzinie nie koniecznie musisz być jednocześnie specjalistą w statystyce. Dlatego oferujujemy Ci profesjonalizm, czym jest nasza wiedza statystyczna i znajomość metodologii badań. Wszystkim studentom, badaczom, naukowcom i eksperymentatorom oraz innym osobom zainteresowanym analizami statystycznymi proponujemy wszechstronne usługi statystyczne w analizie danych do wszelkich prac naukowych i cenzusowych (m.in. prac naukowych, licencjackich, magisterskich, doktorskich, grantów, raportów i innych).

Wszelkie analizy statystyczne wykonywane są za pomocą dowolnego oprogramowania statystycznego.

Prowadzimy usługi statystyczne drogą elektroniczną dla klientów z całego kraju.

Modelowa sytuacja działania z nami w projektach statystycznych wygląda następująco:

Poniżej przedstawiamy tok pracy z klientami i ich projektami. Nie zawsze realizujemy taki program działań, ale najczęściej tak on wygląda. Zmienia się on najczęściej w zależności o wymiarów i gabarytów zleceń.

  • poznajemy się
  • zarysowujemy stan pożądany w którym Ty, Twoja hipoteza, problem badawczy lub Twój biznes ma się znaleźć.
  • myślimy nad elementarnymi krokami które przybliżą Ciebie lub biznes choć trochę do pożądanej perspektywy
  • poznajemy potencjał, charakter i cel Twojego biznesu lub problemu badawczego oraz szacujemy cenę i czas realizacji
  • tworzymy umowę
  • wystawiamy rachunek
  • zabieramy się do pracy.
  • jeśli napotkamy jakieś problemy bądź jeżeli będziemy potrzebować więcej informacji o czymś, to skontaktujemy się z Tobą
  • w momencie napotkania ciekawych, podejrzanych lub niejednoznacznych wyników kontaktujemy się i dyskutujemy co dalej (nie podejmujemy ważnych decyzji (mogących zmienić kierunek wydobycia wiedzy z danych) bez świadomości klienta)
  • na każdym z zaplanowanych etapów wysyłamy wyniki, sugestie, rekomendacje.
  • kończymy pracę w postaci sprawozdania w formie raportu z procesu.

Zakres usług:

W Metodolog realizujemy pomoc statystyczną przy wielu skomplikowanych projektów z zakresu statystyki oraz metodologii badań. Jesteśmy na bieżąco w tym co się dzieje na świecie w kontekście tego czym się zajmujemy na co dzień przy pracy z klientami. Stosujemy tradycyjne podejście do problemów, ale jesteśmy w stanie dostarczyć niestandardowe i nowe rozwiązania. Poniżej przedstawiamy zagadnienia którymi zajmujemy się w codziennej praktyce zawodowej. Poza tym zawsze realizujemy to na co umówimy się z klientem.

  • Tworzenie i praca na różnych bazach/zbiorach danych (różne formaty), kodowanie i przygotowanie danych do analizy, ocena jakości danych
  • Statystyka opisowa
  • Analiza zależności zmiennych
  • Wizualizacje danych (w tym badanie współzależności przy pomocy statystycznych technik graficznych)
  • Testowanie hipotez statystycznych
  • Tworzenie i analiza rzetelności oraz jednowymiarowości skal
  • Analizy wielowymiarowe
  • Predykcja i badanie zależności – regresja liniowa i logistyczna, analiza dyskryminacyjna
  • Redukcja danych – analiza czynnikowa i PCA (w tym też konfirmacyjna analiza czynnikowa)
  • Klasyfikacja i grupowanie – techniki drzew decyzyjnych, analizy skupień, wyznaczanie odległości między obiektami
  • Niepełne techniki taksonomiczne – analiza korespondencji i skalowanie wielowymiarowe
  • Analiza statystyczna  badań własnych
  • Modelowanie równań strukturalnych – SEM (w tym modelowanie równań strukturalnych metodą PLS)

Wszystkie usługi statystyczne obejmują:

Zazwyczaj staramy się dostarczać pełen pakiet końcowy dla klientów. Niemniej zdarza się, że klienci niektórych rzeczy nie chcą lub nie potrzebują. W takich wypadkach stosujemy spersonalizowane realizacje. Niemniej uśredniając to najczęściej naszym klientom dostarczamy poniższych zbiór usług i dóbr.

  • raport z wynikami oraz ich interpretacją
  • plik z danymi (różne formaty)
  • dodatkowe elementy na życzenie (prezentacje itp.)
  • analizy dla nauk społecznych, psychologii, nauk ekonomicznych, medycznych, technicznych i wielu innych… (możemy przetwarzać wszystkie informacje, które są wyrażone w liczbach i symbolach)
  • długoterminowy serwis obliczeń i doradztwa

Metodolog.pl jest dostawcą analiz statystycznych i rozwiązań naukowych, a zarazem rzetelną i długo działającą firmą na rynku.

Praktyka i doświadczenie dużo nas nauczyło. Wiele pytań badawczych i przewidywań jest zależna od tego jaki kształt ma przyjąć szacowany wynik. Dlatego wiele hipotez i problemów badawczych może być weryfikowana wieloma typami metod statystycznych. Metodolog ma na swoim zapleczu badawczym testy i algorytmy odpowiadające na wymagania 99% problemów. Zapewniając w ten sposób nawet bardzo wysublimowane wyniki. Poniżej przedstawiamy spektrum wykonywanych testów statystycznych. W zależności od wymagań projektu jesteśmy dowolnie manipulować testami statystycznymi i procedurami obliczeniowymi by uzyskiwać pożądane rezultaty (widziane z perspektywy stawianych przewidywań lub celu analizy). Oczywiście służymy pomocą statystyczną / naukową i dobrymi radami w kwestii doboru testów statystycznych i metod służących do estymacji pożądanych wyników. Niekiedy ze względu na skomplikowany charakter wykonywanych przez nas usług przeszukujemy literaturę dotyczącą obliczeń i metod statystyki współczesnej (oraz tej najświeższej) by jak najlepiej dopasować techniki obliczeniowe do problemów naukowych badacza zlecającego nam projekt.

Do wykorzystywanych przez nas metod statystycznych należą między innymi testy i modele realizujące skomplikowane zadania.

Są to między innymi metody weryfikacyjne:

  • analiza wariancji (analizy wykorzystywane najczęściej w estymacji wyników planów eksperymentalnych)
  • testy t studenta (procedury weryfikujące hipotezy o równości dwóch średnich)
  • analizy korelacji (analiza związków pomiędzy zmiennymi)
  • analizy regresji (liniowa, krzywoliniowa, logistyczna)
  • analiza równań strukturalnych (testowanie zaawansowanych modeli regresji i modelowanie układów teoretycznych)
  • konfirmacyjna analiza czynnikowa CFA (potwierdzanie układów czynnikowych cech latantnych i odzwierciedlenie pełnych układów pomiarowych)
  • modelowanie równan strukturalnych metodą PLS
  • analiza dyskryminacyjna (metoda pozwalająca uchwycić wpływ zmiennych ilościowych na zmienne jakościowe)
  • drzewa decyzjyne (rodzina procedur stosowana do ustalania w sposób statystyczny scenariuszy postępowania w różnych sytuacjach)
  • mapy percepcyjne lub mapy odległości wykonywane metodą ALSCAL lub PROXCAL (weryfikacja podobieństw między produktami)
  • analizy mediacji (weryfikacja osłabiającego wpływu trzeciej zmiennej w relacji dwóch zmiennych)
  • analizy supresji (weryfikacja wzmacniającego wpływu trzeciej zmiennej w relacji dwóch zmiennych)
  • statystyka Bayesowska (analizowanie krotności prawdopodobieństwa hipotezy zerowej lub alternatywnej)
  • analiza CONJOINT i wiele wiele innych…
  • analiza czynnikowa wyższego rzędu oraz odzwierciedlone układy pomiarowe cech latentnych
  • analizy moderowanej układów mediacyjnych dzięki SEM
  • na specjalne życzenie możemy wykonać wyszukane analizy statystyczne w MPLUS

I eksploracyjne analizy statystyczne:

  • analiza skupień (wykrywanie skupisk obserwacji lub zmiennych do siebie podobnych)
  • analiza czynnikowa PCA (redukcja danych i wykrywanie wymiarowości danych)
  • analiza koszykowa (analiza asocjacji w zbiorze danych)
  • analiza korespondencji (eksploracyjne okno na dane)
  • sieci neuronowe
  • text mining
  • sieci Cohonena
  • mix analiz wchodzących w skład metod wykorzystywanych przy weryfikacji hipotez i problemów badawczych

Nie jesteśmy w stanie wymienić wszystkich narzędzi, technik i procedur statystycznych bo jest ich zbyt wiele. Na co dzień  wykorzystujemy różnorodne techniki, wskaźniki oraz metodologie analityczne, by realizować dla Was w odpowiedni sposób przewidywania i modele wyjaśniające. Czasem wykorzystujemy łączone analizy, modelujemy dane oraz zjawiska (np. modelowaniem równań strukturalnych). O to wszystko możesz nas podpytać.

Mailowo bądź telefonicznie odpowiemy na Twoje wszystkie pytania związane z analizami statystycznymi i metodologią badań naukowych kilk

mgr Konrad Hryniewicz

mgr Konrad hryniewicz

***

Wyjaśnienie definicji dotyczących takich kwestii jak analiza statystyczna, usługi statystyczne i pomoc statystyczna:

Analiza statystyczna

  • procedura matematyczna podsumowująca dane ilościowe w sposób pozwalający na wyciąganie wniosków lub podejmowanie decyzji

Usługi statystyczne

  • czynności realizowane przez zleceniodawcę na rzecz zleceniobiorcy polegająca na rozwiązaniu problemu naukowego lub biznesowego za pomocą technik obliczeniowych przy zachowaniu najwyższej staranności i współczesnych standardów

Techniki statystyczne

  • procedury lub zbiory kroków pozwalających na utworzenie odpowiednich konstrukcji statystycznych pozwalających na realizowanie bardziej złożonych operacji lub wyciągania wniosków

Metody statystyczne eksploracji danych

  • są to techniki pozwalające na przeszukiwanie danych w celu odnalezienia istotnych związków lub selekcji danych do dalszej obróbki

Procedury weryfikacyjne

  •  są formalne analizy statystyczne pozwalające na wyciąganie wniosków na podstawie jednoznacznego odrzucenia lub pozostania przy hipotezie zerowej (przy szczególnych typach analiz np. Analizach Bayesowskich analiza taka ma nieco inny charakter, ale nadal pozostaje ona formalną procedurą weryfikacyjną)

Analiza statystyczna w biznesie

  •  polega na wykrywaniu tendencji i wzorców w zbiorach danych (najczęściej tego typu analizy  mają przynieść ekonomiczne korzyści związane z redukcją kosztów lub zwiększeniem zarobków firmy)

Analiza statystyczna danych w nauce

  •   jest to pomoc statystyczna i polega na matematycznej weryfikacji hipotez, przewidywań, problemów badawczych oraz określeniu siły badanych zależności lub wzajemnych wpływów zjawisk na siebie (w tego typu postępowaniach analitycznych dąży się do poznania prawdy naukowej).

Sukces projektu analitycznego jest to uwieńczenie współpracy między klientem a analitykiem polegającej na:

  • 1) realizacji wszystkich oczekiwań klienta w ustalonym terminie
  • 2) wykonaniu wszelkich prac i działań w umówionej na początku prac kwocie
  • 3) wykonanie wszelkich starań by projekt końcowy był bliski oczekiwaniom badawczym lub biznesowym klienta
  • 4) zadowoleniu klienta ze współpracy z usługodawcą statystycznym

Metodologia prac w specjalistycznej firmie zajmującej się przetwarzaniem danych ilościowych

  •  jest to modus operandi pracy z klientem z małymi wyjątkami i odchyleniami od standardowego toku pracy (najczęściej przy konsultacji tego ze zleceniodawcą)

Analizy statystyczne badań

  •  jest to statystyczne przetwarzanie zebranych informacji pod kątem odpowiedzi na pytania naukowe lub w kierunku realizacji jakiegoś celu np. utworzeniu modelu wyjaśniającego,  właściwości pomiarowych kwestionariusza badawczego lub utworzeniu scenariusza postępowania w różnych sytuacjach.

Opracowania statystyczne lub opracowanie statystyczne

  • polega to na opisaniu podjętych czynności obliczeniowych w kierunku uzyskania pożądanych efektów statystycznych użytecznych w wyciąganiu wniosków

Podstawowe rodzaje schematów badań w nauce i biznesie

meto1

 

Planując badanie statystyczne mamy wiele schematów do wyboru.

W zależności od charakteru zmiennych musimy dostosować formę prowadzenia badania tak, by uzyskać najbardziej wiarygodne wyniki. I tak mamy schemat eksperymentalny, który jest najbardziej „naukowy” lecz co za tym idzie, najtrudniejszy do przeprowadzenia.

Zaletą schematu eksperymentalnego

jest to, że za jego pomocą można wyciągać wnioski przyczynowo-skutkowe. Pozwala on na udzielenie odpowiedzi na pytania o różnicę. Wyodrębniając w sposób losowy (w najprostszej postaci) grupę eksperymentalną i grupę kontrolną porównujemy zachowanie jednostek ze względu na oddziaływanie eksperymentalne. W grupie eksperymentalnej wprowadzamy owo oddziaływanie, natomiast w grupie kontrolnej – nie (lub w dużo mniejszym natężeniu). Przedmiotem manipulacji eksperymentalnej są zmienne niezależne, a pomiaru dokonujemy zmiennych zależnych. Należy pamiętać by przy wprowadzaniu manipulacji eksperymentalnej wziąć pod uwagę względy etyczne. Proces badawczy nie może mieć negatywnych skutków dla jednostek biorących w tym badaniu udział, ponieważ wartość nadrzędną dla badaczy powinno stanowić zawsze dobro człowieka. Znacznie bardziej efektywne od nie wprowadzania w ogóle oddziaływania w grupie kontrolnej, jest wprowadzenie go, lecz pozbawionego elementów wywołujących wzrost poziomu zmiennej niezależnej. Taka grupa kontrolna pozwala spełnić kanon jedynej różnicy, który zakłada, że aby móc stwierdzić relację przyczynowo-skutkową, grupa kontrolna powinna różnić się od eksperymentalnej jedynie natężeniem zmiennej niezależnej, przy braku różnic w innych aspektach. Z tym zagadnieniem wiąże się kontrola zmiennych niezależnych ubocznych, które mogą mieć wpływ na zmienną zależną będącą przedmiotem badania. Podczas projektowania badania, należy zastanowić się nad tym co w danym przypadku może być taką właśnie zmienną niezależną uboczną, by móc później kontrolować jej wpływ, by nie zniekształcała wyników badania. W przypadku schematu eksperymentalnego wszystko powinno się odbywać w sposób losowy, zarówno dobór do badania (randomizacja I stopnia), jak i późniejszy dobór do poszczególnych grup (randomizacja II stopnia).

Ze względu na to, że wieloma zmiennymi nie da się manipulować bo są np. zmiennymi klasyfikacyjnymi (np. płeć) lub jest to niezgodne z przyjętymi normami etycznymi, znacznie częściej przeprowadza się badania schematem quasi-eksperymentalnym. W przeciwieństwie do poprzedniego schematu, ten nie pozwala na wnioskowanie przyczynowo-skutkowe. Dobór do takiego rodzaju badania nie jest przeprowadzany losowo. Obserwujemy takie grupy, które  funkcjonują w sposób naturalny  w rzeczywistości. Otrzymujemy informację o istniejących między nimi różnicach i podejmujemy się analizy. W obu przypadkach porównujemy grupy, tylko sposób ich wyodrębniania jest różny.

Badania polegające na porównywaniu grup, w których są inne osoby określa się mianem schematów między osobami (pomiary lub grupy niezależne).

Gdy grupy wyróżniamy na podstawie jednej zmiennej niezależnej, mamy do czynienia z prostym schematem badawczym. Jednak nie musimy się ograniczać do jednej zmiennej. Rozbudowując schemat poprzez dodanie kolejnej zmiennej niezależnej uzyskujemy złożony schemat badawczy. W tym przypadku możemy uwzględniać samodzielne oddziaływanie każdej ze zmiennych, jak i wzajemny wpływ tych zmiennych, czyli badać ewentualnie zachodzące interakcje. Ze względu na to, że rozbudowując badanie zwiększa się liczba osób potrzebnych do jego przeprowadzenia, warto rozważyć  (o ile to możliwe) schemat wewnątrz osób (inaczej grupy zależne albo powtarzany pomiar). W takiej metodzie przeprowadzania badań osoby badane uczestniczą we wszystkich warunkach badawczych, czyli jest jedna grupa, tylko za każdym razem zmienia się oddziaływanie eksperymentalne. Ta forma znacznie zmniejsza koszty badania, niestety nie jest ona możliwa do przeprowadzenia w każdym badaniu, głównie ze względu na zmienne klasyfikacyjne.

Gdy chcemy dokonać pomiaru dwóch lub więcej zmiennych i przeanalizować relacje między nimi, z pomocą przychodzi nam schemat korelacyjny. Tak jak quasi-eksperyment nie umożliwia on nam wnioskowania o związku przyczynowo-skutkowym, lecz tylko pozwala obserwować relacje między zmiennymi. W tym schemacie nie występują grupy, badamy tylko czy np. wraz ze wzrostem wartości zmiennej A wzrastają wartości zmiennej B.

Autorem tekstu jest Martyna Kuligowska

kpt kuligov 3

ryzyko kredytowe analiza statystyczna ryzyka kredytowego

Budowa ankiet on – line oraz badanie ankietowe i jego analiza statystyczna.

 

Budowa ankiet on line, przeprowadzenie badania ankietowego oraz analiza statystyczna zebranych wyników.

W swojej ofercie Metodolog ma dla Was możliwość utworzenia formularza ankietowego w zaawansowanej formie jaką jest ankieta on – line w systemie Lime (Ponad to jesteśmy w stanie przeprowadzić badanie ankietowe) Lime jest badawczym kombajnem jeśli chodzi o możliwości badawcze. Dla przykładu możemy dzięki takiej ankiecie zbierać informacje na pytania jakościowe oraz pytania z różnorodną skalą odpowiedzi, ponad to możemy prosić badanych o umieszczenie pliku np. ze zdjęciem, dźwiękiem lub czymkolwiek, możemy prosić badanych o wskazanie swojego miejsca położenia na mapie. W najnowszej edycji ów oprogramowania do tworzenia internetowych badań jest możliwość podłączenia pod ankietę systemu Google Analitics przez co możemy śledzić naszą ankietę poprzez wgląd w geolokalizację.

Ankiety on line (badania ankietowe) są wygodną formą przeprowadzania badań szczególnie w dziedzinie psychologii, a konkretnie w psychometrii, gdzie ilość badanych obserwacji przekłada się na jakość oszacowań wynikających z dokładności pomiarowej badanych skal oraz zróżnicowanie wyników.

Oczywiście są pewne ograniczenia i dodatkowe błędy wynikające z testowania on – line. Niemniej jednak tego typu ankieta oraz możliwość badania bardzo różnorodnych prób badawczych daje wielkie pole do badań. Prawdopodobnie wraz ze wzrostem popularności testowania on – line będą opracowywane specjalne metodologie pozwalające na zminimalizowanie błędów wynikających z różnorodności warunków w których odbywa się zbieranie danych od internautów.

Bardzo wielką korzyścią przy korzystaniu z systemów ankiet internetowych jest to, że badacz może zaoszczędzić czas na wpisywaniu wyników z ankiet do bazy danych. W przypadku systemów informatycznych oferujących badania internetowe (w tym używany przez Metodolog system Lime) jest możliwość eksportu bazy danych z serwera do wielu formatów baz danych takich jak xls, txt, tab, sav, xlsx itp. Takie rozwiązanie oszczędza czas i nerwy 🙂

Po zebraniu wyników przez system internetowej ankiety może je poddawać analizie statystycznej. Niektóre systemy ankietowe posiadają w swym potencjale podstawowe analizy statystyczne i algorytmy liczące wyniki zebranych danych w internecie. Niemniej jednak statystyki te i testy statystyczne są mało zaawansowane. Choć bardzo to pomaga na etapie linkowania ankiety. Badacz może zaglądać do wyników i strategicznie planować rozmieszczenie linków i dobór obserwacji do badania.

Z całego serca polecamy możliwość badania ankietowego on line w Metodologu przy czym oferujemy oczywiście statystyczną (mniej lub bardziej zaawansowaną) analizę danych z ów ankiety.

Oczywiście, przestrzegamy przed projektowaniem ankiety internetowej samemu. Narzędzia do badań on line mają ogromy potencjał (nieznany większości) i dzięki temu cennemu aspektowi można zebrać o wiele więcej cennych danych widzianych z perspektywy badawczo naukowej.


Autorem tekstu jest Konrad Hryniewicz

cv