Co to jest propensity score matching?

Powiedzmy, że planujemy eksperyment, w którym porównać chcemy dwie grupy ale rekrutacja do jednej z tych grup jest łatwa, a do drugiej trudna, np.:

  • chcemy porównać nasilenie depresji pacjentów z pewną rzadką chorobą i pacjentów z jej znacznie częstszą odmianą (np. cukrzyca typu I i typu II),

  • chcemy porównać zadowolenie klientów, którzy wybrali mocno niestandardową ofertę z tymi, którzy wybrali ofertę standardową,

  • chcemy sprawdzić czy start-upy z Uzbekistanu odnoszą sukces częściej niż start-upy z Unii Europejskiej.

Najczęściej sytuacja wygląda tak, że do tej “trudniejszej” grupy (nazwijmy ją “grupą badaną”) rekrutujemy wszystkich pacjentów/klientów/firmy spełniające kryteria włączenia do niej. Z kolei kandydatów do grupy “łatwiejszej” (nazwijmy ją “grupą kontrolną”) mamy bardzo wielu. Zadanie polega na tym, aby z owych “kandydatów” wybrać grupę kontrolną tak by była ona możliwie podobna do grupy badanej.

“Podobna” to jednak dość subiektywna kategoria, dlatego też należy określić pod względem jakich cech grupa kontrolna ma być podobna do badanej. Zwykle są to:

  • cechy “metryczkowe” (wiek pacjenta, płeć klienta, wielkość firmy);

  • cechy, o których wiemy, że mają wpływ na badane przez nas zjawisko lub taki wpływ podejrzewamy (np. czas trwania choroby przy badaniu nasilenia depresji u pacjentów lub wielkość dofinansowania w badaniu sukcesów start-upów).

Cechy, pod względem których nasze grupy mają być podobne, nazywamy cechami kontrolowanymi (bo staramy się kontrolować ich rozkład w grupach).

Najpopularniejszą metodą wyboru, spośród dostępnych “kandydatów”, grupy kontrolnej “podobnej” do z góry zadanej grupy badanej jest propensity score matching.1 Pozwolę sobie nie tłumaczyć tej nazwy na polski, gdyż tłumaczenie widziałem tylko w jednym miejscu i jest ono niezbyt przekonujące…

Jak to działa

Na początku, dla każdej obserwacji, zarówno z grupy badanej jak i dla “kandydatek” do grupy kontrolnej, określany jest propensity score. Jest to prawdopodobieństwo przynależności do grupy badanej szacowane w regresji logistycznej, w której przynależność do grupy jest zmienną zależną a cechy kontrolowane są zmiennymi niezależnymi. Intuicja jest taka, że obserwacja jest dobrą “kandydatką” do grupy kontrolnej wtedy gdy jest podobna do obserwacji z grupy badanej, a więc wtedy gdy regresja wskazuje dla niej duże prawdopodobieństwo przynależności do grupy badanej właśnie.

Następnie, obserwacje z grupy badanej “wybierają” sobie po kolei po jednej obserwacji “kandydującej” do grupy kontrolnej tak aby różnica w propensity scores w parze była możliwie jak najmniejsza. Najpierw, parę “wybiera” ta obserwacja z grupy badanej, która ma najwyższy propensity score, gdyż podejrzewamy, że najtrudniej będzie znaleźć dla niej odpowiednią parę. Potem kolejna i tak dalej aż do obserwacji z grupy badanej, która ma najniższy propensity score. Oczywiście, nie można wybrać dwa razy tej samej “kandydatki” do grupy kontrolnej!

Wybrana w ten sposób grupa kontrolna ma, oczywiście, tą samą liczebność co badana oraz okazuje się mieć szereg innych pożądanych cech.23

Dodatkowe możliwości

Jak, być może, widać z powyższego opisu, algorytm przypisujący obserwacjom z grupy badanej, “kandydatki” do grupy kontrolnej można łatwo wzbogacić o kilka dodatkowych restrykcji.

Podstawową jest wymuszenie idealnej zgodności pewnych zmiennych. Możemy na przykład chcieć by rozkład płci był identyczny (a nie tylko zbliżony) w obu grupach. Trzeba tu jednak być ostrożnym, bo w razie nieznalezienia idealnej pary, obserwacje z grupy badanej są z niej usuwane. Na przykład jeśli w grupie badanej mamy dziesięciu mężczyzn, a wśród “kandydatów” do grupy kontrolnej jest ich tylko 7, to trzech mężczyzn z grupy badanej nie znajdzie dla siebie pary i będą musieli być z grupy badanej usunięci.

Co więcej, jeśli chcemy wymusić zgodność dla więcej niż jednej zmiennej (np. płci, wykształceniu i miejscu zamieszkania), to automatycznie musimy poszukiwać par zgadzających się jednocześnie na wszystkich tych zmiennych (np. kobieta z wykształceniem średnim mieszkająca na wsi może być połączona w parę tylko z inną kobietą z wykształceniem średnim mieszkającą na wsi). Taki wymóg sprawia, że liczba obserwacji z grupy badanej, które “nie znajdą” dla siebie pary może być znacząca. Z wymuszaniem idealnej zgodności należy więc mocno uważać.

Na pewno byłaby ona trudna lub wręcz niemożliwa do osiągnięcia dla cech ilościowych (wyrażonych liczbą) i niepodzielonych na przedziały, jak np. wiek, czy poziom cholesterolu. W takiej sytuacji można jednak zażądać by połączone w parę obserwacje nie różniły na danej cesze o więcej niż jakiś zadany próg tolerancji (np. by nie różniły się o więcej niż 10 lat).

Nadal pamiętać trzeba oczywiście, że zbyt dużo restrykcji może spowodować usunięcie znaczącej liczby obserwacji z grupy badanej.

Warto też wspomnieć, że stosunek wielkości grup wcale nie musi wynosić 1:1. Jeśli tylko mamy odpowiednią liczbę “kandydatów” do grupy kontrolnej, może być ona 2-krotnie, 3-krotnie i “więcej-krotnie” większa od badanej.

Algorytm wyboru obserwacji do grupy kontrolnej jest wtedy taki, że najpierw wszystkie obserwacje z grupy badanej “wybierają” kolejno po jednym, najlepszym, “towarzyszu”. Potem “wybierają” po drugim towarzyszu, potem po trzecim itd. Kolejni “towarzysze” są już więc co raz mniej podobni do “wybierających” je obserwacji z grupy badanej. Nie należy więc przesadzać z konstruowaniem grup kontrolnych wielokrotnie większych od grupy badanej.

Czy grupy wyszły nam podobne?

To, że dzięki propensity score matching potrafimy dobrać grupę kontrolną możliwie podobną do badanej nie znaczy wcale, że tak dobrane grupy nie będą się znacząco różnić. Może się bowiem zdarzyć tak, że w grupie badanej są obserwacje, dla których trudno znaleźć “towarzyszy” wśród “kandydatów” do grupy kontrolnej. W takiej sytuacji, mimo iż algorytm “stara się jak może”, to grupy nadal pozostają dość niepodobne do siebie. Lekarstwem na to jest usunięcie kilku obserwacji z grupy badanej. Najlepiej to zrobić w sposób systematyczny, wykorzystując jedną z opisanych wyżej “dodatkowych możliwości”.

Skąd jednak możemy wiedzieć, że takie działania są potrzebne? Lub, innymi słowy, jak zmierzyć podobieństwo grup? Nasuwającym się pomysłem jest po prostu porównanie grup za pomocą popularnych testów statystycznych (np. testu chi-kwadrat, t-Studenta czy testu Manna-Whitney’a). Pomysł ten ma jednak podstawową wadę: wyniki testów mocno zależą od liczebności grup. Na dużych grupach, nawet niewielkie różnice okazują się istotne statystycznie, podczas gdy na mniejszych grupach te same różnice istotne statystycznie już nie są.

Aby więc nie “zaniżać standardów” przy małych grupach, ani nie śrubować ich nadmiernie przy grupach dużych, potrzebujemy metody oceny podobieństwa grup niezależnej od ich liczebności. W literaturze spotkać można kilka propozycji, jednak zdecydowanie najczęściej wykorzystywane są dwa współczynniki.

  • Standaryzowana różnica średnich (SMD, Standardized Mean Difference) to różnica pomiędzy średnimi z obu grup podzielona przez odchylenie standardowe z grupy badanej. Im mniejsze SMD, tym bardziej podobne są grupy. Najczęściej stosowanymi punktami odcięcia są wartości 0,05 i 0,1. SMD poniżej nich może być traktowane jak wskaźnik dobrego zbalansowania grup.4

  • Stosunek wariancji (Variance Ratio) to iloraz wariancji w obu grupach. Tu z kolei wartość 1 oznacza idealnie dobrane grupy. Najczęściej przyjmuje się, że Variance Ratio z przedziału od 0,5 do 2 wskazuje na rozsądne podobieństwo grup.5

Oba opisane wskaźniki wyliczane są osobno dla każdej cechy kontrolowanej. Z jednej strony jest to wada: mamy bowiem wiele wskaźników, z których każdy powinien spełniać jakiś warunek by grupy móc uznać za podobne. Z drugiej strony jednak jest to zaleta: możemy od razu zobaczyć, który wskaźnik nie spełnia “swojego” warunku i nałożyć restrykcje na odpowiednią cechę (tak jak w “dodatkowych możliwościach”).


  1. Stuart, Elizabeth A. 2008. “Developing Practical Recommendations for the Use of Propensity Scores: Discussion of ‘A Critical Appraisal of Propensity Score Matching in the Medical Literature Between 1996 and 2003’ by Peter Austin,Statistics in Medicine.” Statistics in Medicine 27 (12): 2062–65. https://doi.org/10.1002/sim.3207↩︎

  2. Thoemmes, Felix J., and Eun Sook Kim. 2011. “A Systematic Review of Propensity Score Methods in the Social Sciences.” Multivariate Behavioral Research 46 (1): 90–118. https://doi.org/10.1080/00273171.2011.540475.↩︎

  3. Zakrison, T. L., Peter C. Austin, and V. A. McCredie. 2018. “A Systematic Review of Propensity Score Methods in the Acute Care Surgery Literature: Avoiding the Pitfalls and Proposing a Set of Reporting Guidelines.” European Journal of Trauma and Emergency Surgery 44 (3): 385–95. https://doi.org/10.1007/s00068-017-0786-6.↩︎

  4. Belitser, Svetlana V., Edwin P. Martens, Wiebe R. Pestman, Rolf H.H. Groenwold, Anthonius de Boer, and Olaf H. Klungel. 2011. “Measuring Balance and Model Selection in Propensity Score Methods.” Pharmacoepidemiology and Drug Safety 20 (11): 1115–29. https://doi.org/10.1002/pds.2188.↩︎

  5. Austin, Peter C. 2009. “Balance Diagnostics for Comparing the Distribution of Baseline Covariates Between Treatment Groups in Propensity-Score Matched Samples.” Statistics in Medicine 28 (25): 3083–3107. https://doi.org/10.1002/sim.3697.↩︎