Co to jest kappa Cohena?

Kappa Cohena (Cohen’s kappa, oznaczana grecką literką κ) to współczynnik, który pozwala na ocenę zgodności dwóch pomiarów zmiennej jakościowej (tj. nie wyrażonej liczbą). 1 Wyobraźmy sobie na przykład, że mamy dwie metody diagnozowania jakiejś choroby u pacjenta: metodę starą i bardzo skuteczną, ale drogą oraz nową i tanią. Pytanie brzmi, czy wyniki obu tych metod są ze sobą zgodne, bo jeśli tak, to nowa i tania może zastąpić starą i drogą. Innym przykładem może być sprawdzenie, czy ojcowie i matki tak samo oceniają place zabaw pod względem bezpieczeństwa (powiedzmy, że możliwe oceny to “bardzo bezpieczny”, “bezpieczny” i “niezbyt bezpieczny”).

Ogólnie mówiąc, kappy Cohena można użyć wszędzie tam, gdzie jakaś nieliczbowa wartość jest mierzona (lub oceniana) dwa razy na tych samych obiektach i chcemy powiedzieć, do jakiego stopnia te pomiary (oceny) zgadzają się ze sobą. Jeśli owa wartość jest liczbą, należy zastosować inną miarę oceny zgodności, np. ICC.

Jeśli zaś mamy cechę nieliczbową ale pomiarów jest więcej niż dwa, należy zastosować kappę Fleissa. 2

Interpretacja kappy Cohena i kappy Fleissa

Wyższe kappy oznaczają większą zgodność pomiarów. Największa możliwa wartość każdej z nich wynosi 1. Najniższą zaś wcale nie jest 0. Kappy mogą być ujemne. Taka sytuacja oznacza, że pomiary mają zgodność mniejszą niż “losowa”. Np. gdy mamy dwa pomiary cechy, która przyjmuje 4 możliwe wartości, to nawet jeśli pomiary te są zupełnie losowe, powinny się zgadzać w około 25% przypadków. Zgodność niższa od takiej zgodności “losowej” objawiać się będzie w postaci ujemnej kappy.

Aktualnie funkcjonują dwa zestawy wytycznych jak interpretować kappę. Sam jej twórca, Jacob Cohen, zaproponował pewne wytyczne. Jednak są one obecnie dość rzadko stosowane, gdyż są bardzo „luźne”. Najczęściej stosuje się bardziej restrykcyjne kryteria McHugh:

  • Do 0,20 – brak zgodności,
  • 0,21 - 0,39 – minimalna zgodność,
  • 0,40 - 0,59 – słaba zgodność,
  • 0,60 - 0,79 - umiarkowana zgodność,
  • 0,80 - 0,90 – duża zgodność,
  • Ponad 0,90 – niemal idealna zgodność.3

Wylicza się też zgodność procentową, czyli odsetek obserwacji na których wszystkie oceny są takie same. Kappa = 1 oznacza zgodność idealną, tj. sytuację gdy oceny są zawsze zgodne (100% zgodności).

Dlaczego nie zrobić po prostu testu statystycznego?

Idea zastąpienia kappy testem statystycznym, w którym sprawdzimy czy są istotne różnice pomiędzy pomiarami jest kusząca. Istnieją nawet testy w tym celu stworzone. Przypomnijmy jednak, że test statystyczny może albo znaleźć dowody na istnienie różnic pomiędzy pomiarami (gdy da p<0,05) lub takich dowodów nie znaleźć (przy p>0,05). Pierwsza sytuacja oznacza potwierdzenie braku zgodności pomiędzy pomiarami. Druga zaś oznacza, że na ową niezgodność dowodów nie mamy, co nie oznacza wcale, że pomiary są zgodne, a tylko, że nie wykryliśmy istotnej niezgodności (może próbka była za mała?). Innymi słowy, test statystyczny nigdy nie da nam dowodu na zgodność pomiarów, może co najwyżej dać dowody na ich niezgodność. Stąd też konieczność stosowania innych metod oceny zgodności, takich jak kappa Cohena.


  1. Cohen, Jacob (1960). “A coefficient of agreement for nominal scales”. Educational and Psychological Measurement. 20 (1): 37–46↩︎

  2. Fleiss, J.L. (1971). “Measuring nominal scale agreement among many raters”. Psychological Bulletin, 76, 378-382.↩︎

  3. McHugh, Mary. (2012). “Interrater Reliability: The Kappa Statistic”. Biochemia Medica : Časopis Hrvatskoga Društva Medicinskih Biokemičara / HDMB 22 (October): 276–82.↩︎