Kilka podstawowych informacji

Pytanie “Jak liczna powinna być moja próbka?” ma bardzo wiele wspólnego z pytaniem “Jakie buty powinienem kupić?”. Podstawową cechą wspólną obu tych pytań jest ich niedoprecyzowanie. Sprzedawca poproszony o pomoc w wyborze butów zapyta zapewne, do czego klient chciałby tych butów używać. Do biegania? Do chodzenia po domu? Do zrobienia wrażenia na eleganckim przyjęciu? Podobnie, aby wyliczyć potrzebną liczebność próbki, musimy wiedzieć do czego ma ona posłużyć. Do porównania jakichś grup? Do wyliczenia współczynnika korelacji?

Brnąc dalej w tą analogię możemy zauważyć, że biega się w zupełnie innych butach niż chadza na przyjęcia. Inna też będzie liczebność próbki potrzebna do porównania zarobków lekarzy i lekarek a inna do porównania ich stażu pracy. Jeśli więc przyjdziemy do sklepu po buty, które mają służyć pięciu różnym celom, to wyjdziemy zapewne z pięcioma parami butów. I, jeśli chcemy użyć naszej próbki do sprawdzenia pięciu różnych zależności, otrzymamy pięć różnych oszacowań liczebności.

Tu, na szczęście, analogia się załamuje, bo widząc pięć oszacowań liczebności próbki, możemy przyjąć najwyższe, zaś kupując pięć par butów, musimy zapłacić za każdą, nie wystarczy zapłacić za najdroższą. Powód tego jest dość prozaiczny: jeśli do sprawdzenia jednej zależności wystarczy 20-elementowa próbka, a do sprawdzenia drugiej potrzeba próbki 50-elementowej, to owa 50-elementowa próbka tym bardziej wystarczy do sprawdzenia pierwszej zależności.

W praktyce, wyliczanie liczebności próbki zaczyna się więc od wypisania celów, którym ma ona posłużyć (np. zależności, które chcemy sprawdzić). Gdy jest ich bardzo dużo warto ograniczyć się tylko do tych najważniejszych, np. tych które planujemy pokazać w abstrakcie artykułu, czy w streszczeniu jakiejś szerszej rozprawy. Następnie, należy policzyć liczebność próbki wymaganą dla osiągnięcia każdego z celów i ostatecznie wziąć największą z nich.

Cztery żywioły

Każdy z celów analizy realizowany jest zwykle przez przeprowadzenie pojedynczego testu statystycznego, lub zastosowanie jakiejś metody wieloczynnikowej (np. regresji liniowej), o której też możemy, na użytek wyliczania liczebności próbki, pomyśleć jak o rozbudowanym teście statystycznym.

W każdym teście statystycznym współzależą od siebie 4 elementy:1

  • poziom istotności testu,
  • moc testu,
  • miara efektu (effect size),
  • liczebność próby.

“Współzależą” oznacza, między innymi, że aby wyliczyć jeden z elementów, trzeba znać pozostałe trzy. Dwa pierwsze, zazwyczaj nie są kłopotliwe. Ogromną większość testów wykonuje się bowiem na poziomie istotności 5% (czyli za istotne uznaje się p-value poniżej 0,05), a o mocy zakłada się, że powinna wynosić 80%. Te “domyślne ustawienia” są stosowane tak często, że każde odstępstwo od nich powinno mieć swoje uzasadnienie. Przyjmijmy więc, że żadnych specjalnych powodów by zmieniać te “ustawienia” nie mamy. Być może powinienem nieco szerzej napisać czym jest moc testu, ale na ten moment nie jest to ważne. Niech wynosi 80%, czymkolwiek jest (zainteresowani mogą o niej poczytać tutaj).

Aby wyliczyć liczebność próbki musimy więc znać effect size. Effect size to liczba mówiąca o tym jak silna jest badana w teście zależność. Dla każdego testu statystycznego istnieje wzór na effect size (czasem nawet kilka różnych). Najprostsza sytuacja jest przy badaniu korelacji: effect size to po prostu współczynnik korelacji. W przypadku testów t-Studenta czy chi-kwadrat, sytuacja jest nieco bardziej skomplikowana. Wrócimy do niej, tymczasem skupmy się na korelacjach.

Skoro miarą efektu jest współczynnik korelacji, to aby wyliczyć liczebność próbki, należy podać poziom istotności (zwykle 5%), moc testu (zwykle 80%) i współczynnik korelacji, którego istotność chcemy pokazać. Innymi słowy, zamiast pytać “Jak liczna powinna być moja próbka?”, musimy zapytać “Jak liczna powinna być moja próbka, aby współczynnik korelacji równy (na przykład) 0,6 był istotny statystycznie?” Lub ogólniej: “Jak liczna powinna być moja próbka, aby effect size równy \(x\) był istotny statystycznie?”

Przykład

Np. aby pokazać, na poziomie istotności 5% i z mocą 80%, istotność współczynnika korelacji równego 0,3, potrzebujemy 85-elementowej próbki. Dla współczynnika wynoszącego 0,1, potrzebna liczebność próbki to już 782, a dla współczynnika korelacji 0,5 wystarczy próbka 29-elementowa.

Wzory, z których otrzymuje się powyższe oszacowania nie są bardzo skomplikowane, ale mocno techniczne. Nie będę ich więc przedstawiał. Szczególnie, że i tak ich wyliczanie pozostawiamy komputerom. Ogólnie, im silniejszy efekt (większy effect size), tym łatwiej go zaobserwować, czyli do obserwacji wystarczy mniejsza próbka.

Skąd wziąć oczekiwane miary efektu

Jak widzieliśmy w poprzednim przykładzie, potrzebna liczebność próbki może zmieniać się bardzo gwałtownie w zależności od miary efektu. Jaką więc miarę efektu przyjąć do obliczeń? Ogólna reguła mówi, że powinna to być wartość, którą spodziewamy się uzyskać w naszej próbce. Zwykle jednak nasze badania są bardzo oryginalne i innowacyjne, a wręcz pionierskie, a w takiej sytuacji trudno o snucie przypuszczeń.

Najlepsza metoda to przeprowadzić badanie pilotażowe i po prostu wyliczyć miarę efektu z danych zebranych w pilotażu. Takie badanie prowadzi się zwykle ma relatywnie małej próbce. Istnieje wiele róznych rekomendacji co do liczebności próbki pilotażowej. Wydaje się jednak, że 20-30 pomiarów (pacjentów, klientów, śrubek) w każdej z porównywanych w badaniu grup powinno być wystarczającą liczbą. 2

Można też poszukać w literaturze publikacji, w której badano zależność podobną do tej, którą sami chcemy zbadać (ale np. na pacjentach z nieco inną chorobą, albo na klientach firm z nieco innej branży). Ta metoda często prowadzi do znalezienia kilku “kandydatów” na effect size. W takiej sytuacji warto policzyć liczebność próbki dla najmniejszego effect size (wtedy uzyskamy największą liczebność próbki), a jeśli taka liczebność okaże się poza naszym zasięgiem (finansowym, czasowym lub jakimkolwiek innym), spróbować z drugim z kolei “kandydatem”. Głównym zagrożeniem jest tu, oczywiście, wybór nieodpowiednich publikacji. “Nieodpowiednich” czyli takich w których badana grupa, warunki eksperymentu lub definicje kluczowych pojęć różniły się diametralnie od naszego, projektowanego, badania. Np. poziom stresu mógł być mierzony innym narzędziem, “znajomość marki” mogła być definiowana zupełnie inaczej niż my mamy zamiar to zrobić, nasilenie bólu mierzone było po 6 godzinach od zabiegu, podczas gdy my chcemy mierzyć po godzinie, itp. itd.

Bardzo ważna, być może najważniejsza, kwestia

Wyliczenie liczebności próbki bazuje zwykle na bardzo dużej liczbie założeń, które na szerokiej próbce, nie muszą być spełnione (przykładem jest normalność rozkładu, bez której wyliczenia stają się mocno skomplikowane). Często też w obliczeniach korzysta się z formuł przybliżonych. Wszystko to sprawia, że uzyskanej liczebności próbki nie należy traktować “dosłownie”, ale jako mocno “zgrubne” oszacowanie. Np. wyliczona liczebność próbki równa 70 nie oznacza, że musimy do naszego badania zrekrutować dokładnie 70 osoby. Oznacza raczej że powinno ich być “około 70, a najlepiej trochę więcej”. Dodatkowo, można też uwzględnić fakt, że niektórzy uczestnicy badania zrezygnują z udziału w jego trakcie i dodać nieco (zwykle 10-20%) do liczebności próbki.

Effect size w testach innych niż korelacja

W przypadku badania korelacji miarą efektu jest sam współczynnik korelacji. W innych testach wzory bywają skomplikowane. Ich znajomość nie jest konieczna (znów, liczą to komputery). Konieczna jest jednak wiedza, jakie wartości do tych wzorów się wstawia. Czyli innymi słowy, co należy wyliczyć z badania pilotażowego lub wypisać ze znalezionych publikacji, aby możliwe było wyliczenie effect size i, w kolejnym kroku, liczebności próbki.

Porównywanie dwóch grup - cecha ilościowa

Aby wyliczyć effect size dla eksperymentu porównującego w dwóch grupach jakąś cechę ilościową (czyli wyrażoną liczbą, jak np. zarobki, poziom cholesterolu) musimy znać:

  • oczekiwane średnie wartości tej cechy w obu grupach, lub różnicę między nimi,
  • oczekiwane odchylenie standardowe (SD) tej cechy w obu grupach osobno lub w połączonych grupach.

Ewentualnie, zamiast odchylenia standardowego można wziąć wartość minimalną i maksymalną tej cechy.

Przykład: chcemy porównać IQ u chłopców i dziewcząt kończących liceum. Znaleźliśmy amerykańskie badanie, w którym chłopcy rozpoczynający college mieli średnio IQ 98 z SD=10, a dziewczęta 103 z SD=11. Mamy więc średnie poziomy naszej cechy w grupach dość podobnych do tych, które chcemy badać. Z odpowiednich wzorów wyliczamy effect size. W tym przypadku nazywa się on d Cohena i wynosi około 0,5, ale to tak naprawdę to jest tylko techniczny szczegół. Ów effect size wstawiamy bowiem do kolejnego wzoru i ostatecznie okazuje się, że do takiego badania potrzeba po około 70 chłopców i dziewcząt.

Lub, pisząc “ładniej” i bardziej formalnie: aby, przy poziomie istotności 5% i mocy 80%, pokazać istotność różnic w IQ identycznych z tymi uzyskanymi w badaniu amerykańskim, potrzeba po około 70 chłopców i dziewcząt.

Porównywanie więcej niż dwóch grup - cecha ilościowa

Sytuacja jest bardzo podobna do poprzedniej. Aby wyliczyć effect size dla eksperymentu porównującego w więcej niż grupach jakąś cechę ilościową musimy znać:

  • oczekiwane średnie wartości tej cechy w każdej z grup,
  • oczekiwane odchylenie standardowe (SD) tej cechy w każdej z grup osobno lub w połączonych grupach.

Ewentualnie, zamiast odchylenia standardowego można wziąć wartość minimalną i maksymalną tej cechy.

Porównywanie grup (dowolnej ich liczby) - cecha jakościowa

Aby wyliczyć effect size dla eksperymentu porównującego w grupach jakąś cechę jakościową (czyli nie wyrażoną liczbą, jak np. kolor oczu czy umiejscowienie zmiany nowotworowej) musimy znać:

  • oczekiwany procentowy rozkład interesującej nas cechy w każdej z grup,
  • oczekiwany procentowy udział każdej z grup w naszej próbce.

Przykład: chcemy porównać ulubiony rodzaj muzyki u studentów i studentek informatyki naszej Alma Mater. Z podobnego badania, ale na fińskich matematykach wiemy, że 50% studentów matematyki w Finlandii słucha heavy metalu, 30% disco, 10% muzyki klasycznej, a reszta innych rodzajów muzyki. Z kolei 40% przyszłych matematyczek słucha tam muzyki klasycznej, 20% disco, 15% metalu a reszta innych rodzajów muzyki. Mamy więc procentowy rozkład interesującej nas cechy w każdej z grup. Pozostaje określić oczekiwany udział kobiet i mężczyzn w naszej próbce. Sięgamy więc do archiwum naszej uczelni i dowiadujemy się, że w ostatnich 10 latach 80% studentów informatyki było płci męskiej. Możemy też z góry założyć, że do badania zaprosimy po tyle samo kobiet i mężczyzn.

Powyższy przykład pokazuje, że dane do wyliczenia oczekiwanego effect size mogą pochodzić z kilku źródeł. Ważne, by były to źródła opisujące populację możliwie zbliżoną do tej, którą chcemy badać. Możemy też nieco dostosować znalezione w literaturze wartości. Np. możemy mieć badanie, z którego wynika, że Polacy kochają disco bardziej niż jakikolwiek inny naród na świecie, więc możemy dodać po 10% do odsetka studentów i studentek słuchających disco, np. kosztem najczęściej słuchanej w tych grupach muzyki. Takie manipulacje trzeba jednak bardzo mocno poprzeć literaturą.

Porównywanie odsetków w dowolnej liczbie grup

Aby wyliczyć effect size dla eksperymentu porównującego w grupach jakiś odsetek (np. odsetek wyleczonych pacjentów albo zepsutych w okresie gwarancyjnym pralek) musimy znać:

  • oczekiwany odsetek w każdej z grup,
  • oczekiwany procentowy udział każdej z grup w naszej próbce.

Przykład: chcemy wiedzieć porównać odsetek osób dojeżdżających do pracy komunikacją miejską wśród krakowskich urzędników, nauczycieli i dentystów. Z podobnego badania przeprowadzonego we Wrocławiu wiemy, że z komunikacji zbiorowej korzysta tam 50% urzędników, 70% nauczycieli i 20% dentystów. Mamy więc oczekiwany odsetek w każdej z grup. Pozostaje określić oczekiwany udział każdej z grup zawodowych w naszej próbce. Możemy np. ustalić, że będą reprezentowani po równo.

Powtarzany pomiar cechy ilościowej

Przez “powtarzany pomiar” rozumiemy zbadanie tej samej cechy dwukrotnie na tej samej próbce (np. zbadanie masy ciała przed i po zastosowaniu nowej diety) i przetestowanie czy zmiany są istotne statystycznie. Aby wyliczyć effect size dla eksperymentu z dwoma powtarzanymi pomiarami musimy znać:

  • oczekiwaną średnią zmianę (lub oczekiwane wartości obu pomiarów),
  • oczekiwane odchylenie standardowe zmian.

Ewentualnie, zamiast odchylenia standardowego zmian można wziąć odchylenia standardowe lub wartość minimalną i maksymalną pojedynczego pomiaru.

Przykład: Chcemy wiedzieć, czy przyjmowanie przez 3 miesiące nowego leku obniża poziom cholesterolu we krwi. Z badań na najpowszechniej stosowanym obecnie leku wynika, że spadek cholesterolu po 3-miesięcznej kuracji tym lekiem to średnio 20 mg/dl z SD=10 mg/dl. Mamy więc wszystkie potrzebne informacje.

Jeśli powtarzanych pomiarów jest więcej niż dwa (np. chcemy porównywać masę ciała przed rozpoczęciem diety, po miesiącu i po dwóch miesiącach), to każde interesujące nas porównanie musimy potraktować osobno. Tj. musimy znać oczekiwaną średnią i odchylenie standardowe zmian pomiędzy stanem “przed” i po miesiącu, stanem “przed” i po 2 miesiącach oraz stanem po miesiącu i po dwóch.

Może się też zdarzyć, że przy więcej niż dwóch powtarzanych pomiarach, nie interesuje nas porównywanie każdego pomiaru z każdym, a tylko np. porównywanie pierwszego pomiaru do wszystkich kolejnych albo tzw. porównania sekwencyjne (pierwszy pomiar z drugim, drugi z trzecim itd.). Wtedy, oczywiście, potrzebne są oczekiwane średnie i odchylenia jedynie zmian pomiędzy interesującymi nas pomiarami.

Powtarzany pomiar cechy jakościowej

Powtarzany pomiar może też dotyczyć cechy jakościowej, np. możemy chcieć sprawdzić czy obejrzenie debaty prezydenckiej zmienia cokolwiek w preferencjach widzów. W tym celu pytamy ich przed i po debacie czy chcą głosować na kandydata X, Y czy Z.

Aby wyliczyć effect size dla takiego eksperymentu musimy znać:

  • oczekiwany procentowy rozkład drugiego pomiaru w każdej z grup “zdefiniowanych” przez pierwszy pomiar,
  • oczekiwany procentowy wynik pierwszego pomiaru.

Przykład: Jeśli kandydat X jest liberałem, Y konserwatystą, a Z centrowcem, możemy poszukać podobnego badania w innym kraju. Możemy się z niego dowiedzieć, że np. wśród osób, które przed debatą chciały głosować na liberała, 5% zmieniło zdanie i po debacie chciało głosować na centrowca, 1% na konserwatystę a reszta pozostała przy swoim kandydacie. Możemy mieć też analogiczne odsetki dla osób, które przed debatą chciały głosować na konserwatystę i centrowca. To nam daje oczekiwany procentowy rozkład drugiego pomiaru w każdej z grup “zdefiniowanych” przez pierwszy pomiar. Oczekiwany procentowy wynik pierwszego pomiaru możemy uzyskać z sondaży przedwyborczych pokazujących 10-, 40- i 50-procentowe poparcie dla poszczególnych kandydatów przed debatą.

Jeśli powtarzanych pomiarów jest więcej niż dwa, obowiązują te same zasady, co przy cesze ilościowej: musimy znać odpowiednie rozkłady dla każdego z interesujących nas porównań.


  1. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum Associates.↩︎

  2. Whitehead AL, Julious SA, Cooper CL, Campbell MJ. Estimating the sample size for a pilot randomised trial to minimise the overall trial sample size for the external pilot and main trial for a continuous outcome variable. Stat Methods Med Res. 2016;25(3):1057-1073. doi:10.1177/0962280215588241↩︎