Działanie przy projektach analitycznych

Podstawy regresji do analiz biznesowych. Statystyczna analiza danych w biznesie.

Podstawy regresji do analiz biznesowych. Statystyczna analiza danych w biznesie.

 

Podstawy regresji do statystycznych analiz biznesowych

 Jeśli kiedykolwiek zastanawiałeś się jak dwie lubi więcej rzeczy wpływa na siebie, albo jeśli kiedykolwiek twój szef kazał ci stworzyć prognozę lub analizę związków pomiędzy zmiennymi, to nauka regresji będzie warta poświęcenia twojego czasu. W tym artykule, nauczysz się podstaw prostej regresji liniowej – narzędzia powszechnie stosowanego w prognozach i analizach finansowych. Rozpoczniemy od nauczenia się kluczowych zasad regresji, najpierw dowiemy się co nieco o kowariancji i korelacji, a potem przejdziemy do budowania i interpretowania wyników regresji. Liczne oprogramowania takie jak Microsoft Excel mogą zrobić za ciebie wszystkie obliczenia regresji, ale wciąż ważnym jest aby poznać ich zasadnicze mechanizmy.

Zmienne

W centrum regresji jest związek pomiędzy dwoma zmiennymi, nazywanymi zmienną zależną i niezależną. Na przykład, wyobraź sobie, że prognozujesz sprzedaż dla swojej firmy i doszedłeś do wniosku, że sprzedaż w twojej firmie rośnie i maleje w zależności od zmian PKB. Sprzedaż, którą prognozujesz, będzie zmienną zależną, ponieważ jej wartości „zależą” od wartości PKB, a PKB będzie zmienną niezależną. Teraz powinieneś ustalić siłę związku pomiędzy tymi dwoma zmiennymi i na tej podstawie stworzyć prognozę sprzedaży. Jeżeli PKB wzrośnie/zmaleje o 1% to jak to wpłynie na twoją sprzedaż, o ile ona wzrośnie lub zmaleje?

Kowariancja

Wzór by obliczyć związek pomiędzy dwoma zmiennymi nazywa się kowariancją. Te wyliczenia pokazują ci zarówno kierunek związku jak i jego względną siłę. Jeżeli jedna zmienna wzrasta, a druga również ma tendencję wzrostową, wtedy kowariancja jest pozytywna. Jeżeli jedna zmienna idzie do góry, a druga w tym czasie w dół, wtedy kowariancja będzie negatywna. Właściwa liczba jaką uzyskasz z tego wyliczenia może być trudna w interpretacji ponieważ nie jest wystandaryzowana. Kowariancja wynosząca 5, na przykład, może być zinterpretowana jako pozytywny związek, ale o sile można powiedzieć tylko tyle, że jest silniejsza niż gdyby było to 4, a słabsza niż gdyby liczba kowariancji wyniosła 6.

Współczynnik korelacji

Powinniśmy znormalizować kowariancję by pozwoliła nam lepiej interpretować i prognozować, a wynik jest wyliczeniem korelacji. Wyliczenie korelacji to po prostu wzięcie kowariancji i podzielenie jej przez wynik błędu standardowego z obu zmiennych. To umieści korelację pomiędzy wartościami 1 i -1. Korelacja dla 1 może być interpretowana jako sugerująca, że obie zmienne poruszają się idealnie pozytywnie względem siebie, a -1 oznacza, że są skorelowane idealnie negatywnie. W naszym poprzednim przykładzie, jeśli korelacja wynosi 1 a PKB wzrasta o 1%, wtedy sprzedaż również wzrośnie o 1%. Jeżeli korelacja wyniesie -1, a PKB podskoczy o 1% do góry, wtedy sprzedaż spadnie o 1% – dokładnie odwrotnie.

Równanie regresji

Teraz kiedy wiemy już jak wyliczany jest stosunkowy związek pomiędzy zmiennymi, możemy rozpisać równanie regresji by przewidywać zmienne jakich pragniemy. Poniżej znajduje się wzór na prostą regresję liniową. „y” jest wartością, którą próbujemy przewidzieć, „b” jest nachyleniem regresji, „x” jest wartością naszej zmiennej niezależnej, natomiast „a” reprezentuje oś y. Równanie regresji po prostu opisuje związek pomiędzy zmienną zależną (y) i zmienną niezależną (x).

Oś, albo „a”, jest wartością y (zmiennej zależnej) jeżeli wartość x (zmienna niezależna) wynosi zero. Zatem jeśli nie ma zmian w PKB, twoja firma w dalszym ciągu coś sprzeda – ta wartość, kiedy zmiany w PKB wynoszą zero, jest osią. Spójrz na graf poniżej by zobaczyć graficzny opis równania regresji. W tym grafie jest tylko pięć punktów danych reprezentowanych przez pięć kropek na grafie. Regresja liniowa próbuje oszacować jak przebiegnie linia by najlepiej dopasować się do danych, a równanie tej linii jest właśnie równaniem regresji.

Excel

Teraz, gdy znasz już nieco kulis analizy regresji, zróbmy prosty przykład użycia excelowskich narzędzi regresji. Wykorzystamy poprzedni przykład próbując przewidzieć przyszłoroczną sprzedaż, bazując na zmianach w PKB. Następna tabela zawiera nieprawdziwe dane, ale takie liczby mogłyby spokojnie wystąpić w prawdziwym życiu.

Rok Sprzedaż PKB
2005 100 1.00%
2006 250 1.90%
2007 275 2.40%
2008 200 2.60%
2009 300 2.90%

Po jednym spojrzeniu na tabelę, można zauważyć, że wystąpi tam pozytywna korelacja pomiędzy sprzedażą a PKB. Oba razem wzrastają. Korzystając z Excela, wszystko co musisz zrobić to kliknąć narzędzia, wybrać analizę danych, a następnie regresję. Okienko, które się pojawi jest proste do wypełnienia, twoim Zakresem Wejściowym Y jest twoja kolumna „sprzedaży” a twoim Zakresem Wejściowym X jest kolumna ze zmianami PKB; wybierz zakres wyjściowy tam skąd chcesz by dane pokazały się na twoim arkuszu i wciśnij OK. Powinieneś zobaczyć coś zbliżonego z tym co widać poniżej.

Regression Statistics Coefficients
Multiple R 0.8292243 Intercept 34.58409
R2 0.687613 PKB 88.15552
Adjusted

R Square

0.583484
Standard Error 51.021807
Observations 5

Interpretacja

Głównymi wynikami, którymi musisz się martwić przy prostej regresji liniowej są R2, intercept i współczynnik PKB. Liczba R2 w tym przykładzie wynosi 68,7% – to pokazuje jak dobrze nasz model przewiduje lub prognozuje przyszłą sprzedaż. Następnie mamy intercept wynoszący 34.58, co mówi nam, że jeśli zmiany w PKB będą prognozowane na zero, nasza sprzedaż będzie na poziomie około 35 jednostek. I na koniec, współczynnik korelacji PKB wynoszący 88.15 pokazuje nam, że jeśli PKB wzrośnie o 1%, sprzedaż prawdopodobnie pójdzie w górę o 88 jednostek.

Więc jak użyć tego prostego modelu w twoim biznesie? Cóż, jeśli twoje badania prowadzą do wniosku, że następna zmiana PKB wyniesie określony procent, możesz wstawić ten procent do tego modelu i wygenerować prognozę sprzedaży. To może pomóc w rozwijaniu bardziej precyzyjnego planu i budżetu na nadchodzący rok. Oczywiście, to jest tylko prosta regresja i istnieją modele, które możesz budować, zawierające wiele różnych zmiennych niezależnych zwane wielokrotną regresją liniową. Ale wielokrotne regresje są bardziej skomplikowane i mają kilka założeń wymagających kolejnego artykułu by o nich podyskutować.