Do czego służy regresja liniowa?

Regresja liniowa jest to metoda statystyczna pozwalająca ocenić wpływ wielu różnych cech (nazywanych zmiennymi niezależnymi lub objaśniającymi) na pewną cechę, która szczególnie nas interesuje (nazywaną zmienną zależną lub objaśnianą). Ważne jest, że zmienna objaśniana powinna być typu ilościowego (czyli powinna być wyrażona liczbą, jak np. wysokość zarobków czy poziom cholesterolu we krwi).

Przykład

Powiedzmy, że chcemy zbadać wpływ stażu pracy, liczby ukończonych kursów podyplomowych, wzrostu, wykształcenia i miejsca zamieszkania na wysokość zarobków pielęgniarek. Zarobki będą naszą zmienną objaśnianą (zależną) a pozostałe cechy będą zmiennymi objaśniającymi (niezależnymi). Zmienna objaśniana jest ilościowa, a więc możemy zastosować regresję liniową. Przykładowe wyniki wyglądają tak:

Zmienna Parametr regresji 95% CI p
Staż pracy (lata) 62,41 31,22 93,60 <0,001
Liczba kursów podyplomowych 48,33 14,11 82,44 0,023
Wzrost (cm) 1,83 -12,01 13,84 0,486
Wykształcenie Średnie medyczne poz. ref.
Licencjat 13,20 -2,33 15,53 0,137
Magisterium 458,63 141,41 775,85 0,016
Miejsce zamieszkania Miasto poz. ref.
Wieś -372,78 -684,22 -61,34 0,038

Zasady interpretacji wyników

Zacznijmy od stażu pracy. Parametr regresji wynosi dla niego 62,41. Oznacza to, że każdy dodatkowy rok pracy, przy niezmienionych pozostałych cechach ujętych w analizie, zwiększa pensję średnio o 62,41 zł. Obok mamy 95-procentowy przedział ufności dla parametru regresji (CI = Confidence Interval). W ostatniej kolumnie mamy wartość p, mówiącą nam, czy nasza zmienna objaśniająca (staż pracy) ma istotny wpływ na zmienną objaśnianą (zarobki). p mniejsze od 0,050 oznacza, że wpływ jest istotny, p większe od 0,050 oznacza, że istotnego wpływu nie udało nam się pokazać. U nas p dla stażu pracy jest mniejsze od 0,001 (czyli również mniejsze niż 0,050), a więc staż pracy istotnie wpływa na pensję pielęgniarki.

Podsumowując: staż pracy ma istotny wpływ na zarobki. Każdy dodatkowy rok pracy (przy niezmienionych: liczbie kursów, wzroście, wykształceniu i miejscu zamieszkania), zwiększa pensję średnio o 62,41 zł (95% CI = 31,22-93,60).

Rozumując analogicznie widzimy, że liczba ukończonych kursów podyplomowych ma istotny wpływ na zarobki. Każdy dodatkowy kurs (przy niezmienionych: stażu pracy, wzroście, wykształceniu i miejscu zamieszkania), zwiększa pensję średnio o 48,33 zł (95% CI = 14,11-82,44).

Z kolei wzrost nie ma istotnego wpływu na pensję (bo p jest dla niego większe niż 0,050).

Popatrzmy teraz na wykształcenie. Jest to zmienna jakościowa (tzn. jest wyrażona opisem, a nie liczbą). W takim przypadku należy ustalić wartość referencyjną. Jest do wartość, do której będą porównywane pozostałe wartości tej zmiennej. Jest wiele szkół: jedni radzą wziąć tą wartość, która występuje najczęściej, inni mówią, żeby brać pierwszą z brzegu. Większość programów statystycznych, jeśli nie każe im się inaczej, bierze jako wartość referencyjną pierwszą wartość w kolejności alfabetycznej. Często jednak wartość referencyjna “narzuca się sama”. W przypadku wykształcenia warto wziąć wykształcenie średnie medyczne jako referencyjne i porównywać do niego licencjat i magisterium. Dzięki temu będziemy mogli pokazać, jak kończenie kolejnych stopni studiów wpływa na pensję.

Wpływ ukończenia licencjatu okazuje się nie zmieniać istotnie pensji (p powyżej 0,050). Zaś zdobycie tytułu magistra podnosi ją (przy niezmienionych: stażu pracy, liczbie kursów, wzroście i miejscu zamieszkania) średnio o 458,63 zł (95% CI 141,41-775,85). Jest to wzrost w stosunku do poziomu referencyjnego, a więc wykształcenia średniego medycznego, a nie w stosunku do licencjatu!

Na koniec miejsce zamieszkania. To jest także zmienna jakościowa więc potrzebuje poziomu referencyjnego (tu zostało nim miasto). Jej wpływ na zarobki jest istotny (p poniżej 0,050). Parametr regresji wynosi -372,78. Można więc stwierdzić, że mieszkanie na wsi obniża pensję (przy niezmienionych: stażu pracy, liczbie kursów, wzroście i wykształceniu) średnio o 372,78 zł (95% CI 61,34-684,22). Lub, “bardziej po polsku”, że pielęgniarki mieszkające na wsi zarabiają średnio o 372,78 zł (95% CI 61,34-684,22) mniej niż ich mieszkające w miastach koleżanki, które mają ten sam staż pracy, wzrost, taką samą liczbą ukończonych kursów i takie samo wykształcenie.

Czy regresja jest “dobra”?

Współczynnik determinacji \(R^2\) (cz?sto nazywany w skrócie po prostu współczynnikiem “er-kwadrat”) mówi jaki odsetek zmienności zmiennej objaśnianej został wyjaśniony przez zmienne objaśniające. Ile powinno wynosić \(R^2\), żeby model był dobry? Nie ma na to żadnej jednoznacznej odpowiedzi. W różnych dziedzinach nauki różne poziomy \(R^2\) są uznawane za wysokie. W naukach ścisłych (chemia, fizyka, astronomia) będzie to 95% i więcej, w naukach medycznych i przyrodniczych 60-80% jest uznawane za dobry wynik, w psychologii zaś często wystarczy 30%.

Dla analizy zaprezentowanej powyżej \(R^2\) wynosi 32%. Tyle więc ze zmienności płac pielęgniarek udało nam się wyjaśnić za pomocą ich stażu pracy, ukończonych kursów, wzrostu, wykształcenia i miejsca zamieszkania. Pozostała, niewyjaśniona część zmienności, czyli u nas 68%, zależy od zmiennych w modelu nie ujętych (stanowisko?, rodzaj placówki?, typ oddziału?) oraz od czynnik?w losowych.

Co zrobić z niskim \(R^2\)? Niskie \(R^2\) oznacza, że zmienne wzięte do modelu nie wyjaśniają wiele z naszego zjawiska. Trzeba więc postarać się o inne zmienne (rozszerzyć bazę danych) lub przedyskutować przyczyny takiego stanu rzeczy. Np. w psychologii często mówi się o ogromnym wpływie “cech osobniczych”. Z niskiego \(R^2\) można też wyciągnąć wniosek, że potrzebne są dalsze badania nad opisywanym zjawiskiem, mające na celu identyfikację zmiennych, które wyjaśniają je lepiej niż te wzięte do aktualnego modelu.