Przykład 1

Wyobraźmy sobie, że chcemy zbadać wpływ płci i długości włosów w dniu 40. urodzin na długość życia człowieka. Robiąc analizy jednoczynnikowe, czyli sprawdzając oddzielnie wpływ długości włosów i płci, dojedziemy zapewne do wniosku, że płeć ma wpływ na długość życia (co oczywiste) i że długość włosów też ma wpływ. To drugie już nie jest takie oczywiste, ale łatwe do udowodnienia: jeśli ktoś ma długie włosy w dniu 40. urodzin, to raczej jest kobietą, a więc raczej pożyje dłużej, niż ktoś kto ma krótkie włosy (bo ten ktoś to raczej mężczyzna). Włosy mają więc wpływ, choć nie bezpośredni.

W analizie wieloczynnikowej, zapewne długość włosów okaże się nie mieć istotnego wpływu. Dlaczego? Gdyż analizując naraz wpływ zmiennych X i Y, analizujemy tak naprawdę wpływ zmiennej X po usunięciu wpływu zmiennej Y i wpływ zmiennej Y po usunięciu wpływu zmiennej X. A więc, w naszym przykładzie, analizujemy wpływ długości włosów po usunięciu wpływu płci. Lub innymi słowy: sprawdzamy, czy długość życia jest powiązana z długością włosów, ale u osób tej samej płci. Oczywiście nie jest, a więc włosy nie mają tu nic do rzeczy.

Przykład 2

Może się więc zdarzyć, że pewna zmienna w analizie jednoczynnikowej okaże się istotna, a wieloczynnikowej nie, jak w przykładzie z włosami. Taką zmienną nazywa się zwykle predyktorem pośrednim. Może też zdarzyć się sytuacja przeciwna: zmienna w analizie jednoczynnikowej okaże się nieistotna, a w wieloczynnikowej istotna.

Wyobraźmy sobie, że trenujemy lokalną drużynę siatkarską i szukamy nowego “narybku”. Idziemy więc do 8-klasowej podstawówki i oceniamy potencjał siatkarski chłopców. Pytanie brzmi: czy wzrost chłopców ma wpływ na ocenę potencjału siatkarskiego? W analizie jednoczynnikowej wzrost zapewne nie będzie miał wpływu. W naszej szkole są bowiem zarówno zdolni 1-klasiści jak i mało utalentowani 8-klasiści. No i ci pierwsi są na pewno niżsi od tych drugich. Widzimy więc, że wiek zadziałał jak “zaburzacz” (ang. confounder): różnice w wieku chłopców zaburzyły relację pomiędzy wzrostem a potencjałem siatkarskim. Może więc warto dodać do analizy wiek chłopców? Jeśli uwzględnimy go, wraz ze wzrostem, w analizie wieloczynnikowej, to uzyskamy odpowiedź na pytanie czy wzrost wpływa na potencjał siatkarski u chłopców w takim samym wieku. Oczywiście, wpływa: wyżsi chłopcy rokują lepiej niż ich niżsi rówieśnicy. W analizie wieloczynnikowej wzrost powinien więc wyjść istotny statystycznie.

Na co można się natknąć w praktyce

Ogólnie mamy 4 sytuacje, które mogą się “przydarzyć” zmiennej X:

Analiza jednoczynnikowa Analiza wieloczynnikowa Przyczyna takiego stanu rzeczy Przykład
X nieistotne X nieistotne X nie ma wpływu na badane zjawisko Znak zodiaku nie ma wpływu na szanse zrobienia doktoratu
X nieistotne X istotne X ma wpływ, ale pewne czynniki ten wpływ “zaburzają” stąd brak istotności w analizie jednoczynnikowej; po uwzględnieniu wpływu tych “zaburzaczy”, w analizie wieloczynnikowej pojawia się istotność Wzrost ucznia podstawówki i jego wpływ na ocenę potencjału siatkarskiego
X istotne X nieistotne X ma wpływ ale tylko pośredni, stąd brak istotności w analizie wieloczynnikowej (tj. po uwzględnieniu czynników wpływających bezpośrednio) Długość włosów w wieku 40 lat i jej wpływ na długość życia
X istotne X istotne X ma bezpośredni i niezaburzony wpływ na badane zjawisko Wpływ płci na długość życia

Bardzo popularna strategia…

Bardzo popularna strategia wyboru zmiennych do analiz wieloczynnikowych mówi “weź do analizy wieloczynnikowej tylko zmienne, które w analizach jednoczynnikowych wyszły istotne”. Taki wybór zmiennych pominie, oczywiście, zmienne takie jak opisane w Przykładzie 2: nieistotne w analizie jednoczynnikowej, ale istotne w wieloczynnikowej. Stosując tą strategię nie dowiemy się więc o owej “wieloczynnikowej istotności” tego typu zmiennych, gdyż zwyczajnie nie zostaną one w analizie wieloczynnikowej uwzględnione.

Czy więc oznacza to, że nie należy stosować zasady “weź do analizy wieloczynnikowej tylko zmienne, które w analizach jednoczynnikowych wyszły istotne”? Na szczęście nie - wystarczy ją tylko nieco zmodyfikować. W praktyce bowiem zmienne takie jak opisane w Przykładzie 2 (nieistotne w analizie jednoczynnikowej, ale istotne w wieloczynnikowej) pojawiają się niemal wyłącznie w sytuacji gdy wynik analizy jednoczynnikowej jest bliski istotności (np. p-value w granicach 0,051-0,1). Wynika to zapewne z faktu, że zmiana “mocno nieistotnego” wyniku analizy jednoczynnikowej na istotny wynik analizy wieloczynnikowej wymagałaby istnienia bardzo silnego “zaburzacza/zaburzaczy”. A o takim/takich autor analizy, ekspert w swojej dziedzinie, powinien wiedzieć i ich istnienie w jakiś sposób uwzględnić przy planowaniu analizy lub zbieraniu danych. Wracając do Przykładu 2, nasz trener siatkówki, powinien wiedzieć, że należy zupełnie osobno popatrzeć na 1-klasistów i 8-klasistów, np. przeprowadzić zupełnie osobne analizy w tych podgrupach. A jeśli o tym zawczasu nie pomyślał, to “zdecydowana” nieistotność wzrostu w analizie jednoczynnikowej i istotność w wieloczynnikowej powinny dać mu mocno do myślenia.

Podsumowując, sytuacja opisana w drugim wierszu tabeli i w Przykładzie 2 dotyczy zwykle zmiennych, którym do istotności w analizie jednoczynnikowej niewiele brakowało. Reguła “weź do analizy wieloczynnikowej tylko zmienne, które w analizach jednoczynnikowych wyszły istotne” może być więc zastąpiona następującą: “weź do analizy wieloczynnikowej tylko zmienne, które w analizach jednoczynnikowych wyszły istotne lub bliskie istotności”.

Natychmiast nasuwa się pytanie, co to znaczy “bliskie istotności”. Czy p-value równe 0,1 jest “bliskie istotności”? A może p-value=0,25 też jest “bliskie istotności”? To jest jednak zupełnie osobna opowieść… :)