Co to jest p-value?

Testów statystycznych jest setki, jeśli nie tysiące. Jedne są proste, inne skomplikowane. Jedne są stosowane często, inne rzadko. Wszystkie są jednak interpretowane podobnie: jeśli p-value (nazywane po polsku “wartością p” lub, rzadziej, “prawdopodobieństwem testowym”) uzyskane w teście jest poniżej założonego poziomu istotności (zwykle wynoszącego 0,05), to potocznie mówimy, że “wynik jest istotny statystycznie”. W przeciwnym wypadku “istotny” nie jest.

Bardziej formalna definicja testu mówi, że stawiamy w nim tzw. hipotezę zerową i sprawdzamy, czy można ją odrzucić na korzyść tzw. hipotezy alternatywnej. Jeśli uzyskamy p<0,05, to odpowiedź brzmi: tak, można. Hipotezy zerowe zwykle opisują sytuacje “nie będące odkryciami”, czyli np. brak różnic pomiędzy nowym a starym lekiem, brak zależności pomiędzy stażem pracy a zarobkami, brak zmian w obwodzie talii po zastosowaniu diety. Hipotezy alternatywne zaś zwykle opisują “odkrycia”, np. szybszy powrót do zdrowia po zastosowaniu nowego leku niż po zastosowaniu starego, wzrost zarobków wraz ze stażem pracy, spadek obwodu talii po zastosowaniu diety. Odrzucenie hipotezy zerowej na korzyść alternatywnej (czyli p<0,05) to więc zwykle “odkrycie”, a nieodrzucenie hipotezy zerowej (p>0,05) to “brak odkrycia”.

Testy statystyczne przeprowadzane są zawsze na danych zebranych w pewnym “eksperymencie”. Nie musi to być eksperyment prowadzony w laboratorium. Zwykła ankieta też jest swego rodzaju eksperymentem. Dane, na których oparte są wyliczenia statystyczne są więc wynikami “eksperymentów”. I to dość szczególnych “eksperymentów”. Takich mianowicie, które powtórzone (np. na nieco innej populacji), dadzą nieco inne rezultaty.

Gdybyśmy, chcąc sprawdzić naszą hipotezę zerową, przeprowadzili kilka eksperymentów, dostalibyśmy kilka zbiorów danych. Jedne wspierałyby hipotezę zerową mocniej inne słabiej. Na przykład, jeśli chcemy wiedzieć, czy płeć wpływa na wielkość zarobków, możemy policzyć średnie zarobki kobiet i mężczyzn w różnych firmach. To będą nasze “eksperymenty”. Hipoteza zerowa (czyli “nie-odkrycie”) będzie mówiła w takim badaniu, że różnic w płacach nie ma, a alternatywna (“odkrycie”), że są. Jeśli teraz w jednej z firm dysproporcje są duże, to znaczy, że wynik tego konkretnego “eksperymentu” wspiera hipotezę alternatywną. Jeśli z kolei w innej firmie dysproporcje są niewielkie, to znaczy, że wynik tego konkretnego “eksperymentu” wspiera hipotezę zerową.

To jednak jest sytuacja czysto teoretyczna, bo w praktyce, “eksperyment” robimy jeden. Uzyskujemy z niego pewne dane. Ponieważ hipoteza alternatywna jest “odkryciem”, to interesuje nas czy owe dane wspierają ją mocno czy słabo. Do oceny tego służy właśnie p-value. A dokładnie: p-value to prawdopodobieństwo, że w powtórzonym eksperymencie uzyskalibyśmy dane mocniej wspierające hipotezę alternatywną niż te uzyskane w “oryginalnym eksperymencie”.

Istnieje również druga interpretacja p-value: jest to prawdopodobieństwo, że ogłaszając światu wyniki naszego “eksperymentu” jako “odkrycie” - popełnimy błąd.

Niskie p-value

Niskie p-value oznacza więc, że trudno byłoby uzyskać dane jeszcze bardziej wspierające hipotezę alternatywną (tj. jeszcze bardziej potwierdzające nasze “odkrycie”) niż te, którymi już dysponujemy. Innymi słowy: zebrane przez nas dane stanowią tak silny dowód prawdziwości “odkrycia”, że trudno o dowód jeszcze silniejszy.

Lub, idąc za drugą z podanych interpretacji, niskie p-value oznacza niskie ryzyko, że nasze “odkrycie” jest jednak nieprawdziwe.

Potocznie mówimy w takiej sytuacji, że “wynik jest istotny statystycznie” albo “zależność jest istotna statystycznie”.

Wysokie p-value

Wysokie p-value, jako przeciwieństwo niskiego, oznacza więc, że zebrane przez nas dane nie stanowią silnego dowodu prawdziwości “odkrycia” lub, że z dużym prawdopodobieństwem nasze “odkrycie” nie jest prawdą.

To, oczywiście, wcale nie oznacza, że badana przez nas zależność nie istnieje! Oznacza to tylko, że nie znaleźliśmy na jej istnienie wystarczająco silnych dowodów (“z dużym prawdopodobieństwem” nie oznacza “na pewno”). Dlatego też, interpretując wyniki testów statystycznych z wysokim p-value, należy się wystrzegać stwierdzeń typu “nie wypływa”, “nie różni się”, “nie koreluje”. Lepiej pisać, że “nie potwierdzono wpływu” czy “nie znaleziono różnic”.

Istotność a siła zależności

Zauważmy, że statystyczna istotność zależności nie ma nic wspólnego z oceną jej siły. “Zależność jest istotna statystycznie” nie oznacza zależności silnej, a tylko taką, na której istnienie mamy silne dowody.

Czy w takim razie silna zależność może być nieistotna statystycznie? Tak, jeśli jest pokazana na próbce o małej liczebności. Wtedy widzimy silny związek między badanymi cechami, ale nasze dowody są słabe, bo pokazaliśmy je na bardzo niewielu przypadkach. Nie mamy więc żadnej “gwarancji”, że to co widzimy nie jest szczęśliwym zbiegiem okoliczności (o który zawsze tym łatwiej im mniejsza próbka), i że przy powtórce tego eksperymentu znów zaobserwujemy silną zależność.

A czy słaba zależność może być istotna statystycznie? Łatwo zgadnąć, że tak i że potrzebna jest do tego liczna próbka. Wtedy nawet jeśli zaobserwowane zależności są delikatne, dowody ich istnienia są mocne.

Dobra analogia pochodzi z sądownictwa. Silna ale nieistotna zależność to ciężkie przestępstwo, na które nie mamy dobrych dowodów. Słaba ale istotna zależność to przestępstwo lekkie, na które dowody są przekonujące.

Dlaczego wyniki są istotne statystycznie przy p<0,05? Skąd to 0,05?

Poziom p=0,05 funkcjonuje często jako pewien cel dla badaczy. Bywa, że uzyskanie statystycznej istotności skutkuje “odfajkowaniem” tematu. Pokazaliśmy istotność jakiejś zależności, mamy więc sukces, publikujemy nasz wynik i zajmujemy się kolejną ciekawą zależnością. Przypomnijmy jednak, że p=0,05 oznacza, że mamy dokładnie pięcioprocentowe prawdopodobieństwo uzyskania wyników jeszcze mocniej potwierdzających nasze “odkrycie”, niż te, które do tej pory uzyskaliśmy. Dlaczego więc uznajemy, że nie warto się trudzić, gdy prawdopodobieństwo “poprawienia wyniku” to 5%. Dlaczego nie 10%? Albo 1%?

A może zapytajmy jeszcze bardziej zuchwale: czy w ogóle jakakolwiek definicja “istotności statystycznej” jest potrzebna? Czy nie wystarczy pokazywać po prostu p-value bez interpretowania jej jako statystycznie istotnej lub nie? Oczywiście, że wystarczy. Przecież znamy definicję i interpretację p-value.

Wyobraźmy sobie artykuł porównujący nowy lek ze starym i zawierający stwierdzenie, że nowy lek działa lepiej od starego i zamiast sformułowania, że działa “istotnie lepiej” mamy jedynie podane, iż p-value jest równe 0,04. Jak możemy przeczytać taki wynik? Wiemy, że jest 4% szans eksperyment w którym nowy lek będzie miał jeszcze większą przewagę nad starym. Możemy teraz samodzielnie dokonać interpretacji: czy jest to “tylko” 4% szans na lepszy wynik, a więc uznajemy, że przewaga nowego leku została dowiedziona (i zaczynamy go stosować u naszych pacjentów); czy może jest to “aż” 4% i uznajemy, że ten wynik jeszcze nas nie przekonuje i czekamy na lepszy? Niektórzy z nas zapewne zaczną stosować ten lek, inni, bardziej ostrożni poczekają jeszcze. Każdy samodzielnie podejmie swoją decyzję (i samodzielnie za nią odpowie).

Tak właśnie możemy zrobić, my którzy doskonale się orientujemy czym jest p-value. Niestety, jeśli wynik ma trafić do szerszej publiczności, przydatny jest konkretniejszy przekaz: nowy lek jest lepszy od starego albo nie jest. Stąd konieczność ustalenia jakiegoś punktu odcięcia od którego będziemy mówić o “odkryciu”.

Dlaczego więc tym punktem odcięcia miałoby być 0,05? Dlaczego pięcioprocentowe ryzyko błędu jest akceptowalne? p=0,05, jak każdy porządny superbohater ma ciekawą origin story. Ta rozgrywa się w pierwszej połowie XX wieku. Brak komputerów oznaczał w tamtych czasach brak możliwości dokładnego wyliczenia p-value. Podręczniki statystyki kończyły się wtedy (a niektóre nadal się kończą!) tabelami, z których można było odczytać tzw. wartości krytyczne pozwalające oszacować p-value. Np. wartość krytyczna dla poziomu 0,05 pozwoliła stwierdzić, czy p-value jest powyżej czy poniżej 0,05. Analogicznie było dla innych poziomów (np. 0,01; 0,02; 0,1). Jeśli taka tablica zawierała wartości krytyczne dla wielu różnych poziomów, wartość p-value dawało się dość precyzyjnie ustalać. Wadą tablic była, oczywiście ich objętość. Nie nadawały się więc do publikacji w krótkich rozprawach i artykułach naukowych.

Przed problemem skrócenia tablic stanął jeden z najbardziej “wpływowych” w dziedzinie metod statystycznych, naukowców w historii, Sir Ronald A. Fisher. Na potrzeby jednego ze swych artykułów potrzebował on skrócić tablice oryginalnie opublikowane przez Karla Pearsona, jednego z “ojców statystyki”, z którym Fisher, delikatnie mówiąc, się nie lubił. Pearson nie chciał więc pozwolić na publikację pełnych tablic a swoje dorzuciło też wydawnictwo, któremu długie tabele również były nie w smak. Fisher musiał więc zdecydować, jaki poziom p-value musi koniecznie w tablicach się pojawić. Padło na 0,05 właśnie.1 Argumentował on, że w jego dziedzinie badań (a była nią genetyka, którą dość niechlubnie dla siebie łączył z ideami eugenicznymi), w której eksperymenty prowadzone są na relatywnie niewielkich próbkach, schodzenie z ryzykiem błędu poniżej 5% jest już niepotrzebne.2 Tym co przesądziło o sukcesie poziomu p=0,05 był, poza rekomendacją samego Fishera, szczęśliwy zbieg okoliczności, albo raczej zbieg okrągłych liczb. Okazuje się powiem, że taki poziom p-value odpowiada mniej więcej dwóm odchyleniom standardowym różnicy między średnimi (przy założeniu normalności rozkładu). Mamy więc parę liczb łatwych do zapamiętania i “okrągłych” (a więc ułatwiających obliczenia - łatwiej bowiem mnożyć odchylenia standardowe przez 2 niż przez np. 1,64, co jest konieczne przy p=0,1). Koniec końców, Fisher rekomendował używanie 0,05 jako punktu odcięcia dla p-value wszędzie tam, gdzie musi być podjęta konkretna decyzja i gdzie odbiorcami analiz nie są eksperci w dziedzinie statystyki. 3


  1. Di Leo, G., Sardanelli, F. Statistical significance: p value, 0.05 threshold, and applications to radiomics—reasons for a conservative approach. Eur Radiol Exp 4, 18 (2020).↩︎

  2. Quinn, Geoffrey R.; Keough, Michael J. (2002). Experimental Design and Data Analysis for Biologists (1st ed.). Cambridge, UK: Cambridge University Press. pp. 46–69. ISBN 978-0-521-00976-8.↩︎

  3. Fisher RA (1956) Statistical methods for research workers. Hafner, New York, p 44↩︎