Co to jest ICC?

Współczynnik korelacji międzyklasowej (ICC, Intraclass Correlation Coefficient) jest miarą zgodności dwóch lub więcej pomiarów zmiennej ilościowej (tj. wyrażonej liczbą). Możemy więc ocenić czy pięciu sędziów jest zgodnych w ocenach stylu skoków narciarskich, czy trzy serwisy pogodowe są zgodne w prognozach temperatury na kolejne dni, czy dwie metody pomiaru wielkości zmiany nowotworowej dają zgodne wyniki itp. ICC działa dla dowolnej liczby porównywanych pomiarów. Ważne jest tylko to by wyniki owych pomiarów były liczbami. Jeśli liczbami nie są, należy wykorzystać inne miary zgodności, takie jak kappa Cohena.

Interpretacja ICC

Wyższe wartości ICC oznaczają większą zgodność pomiarów. Największa możliwa wartość ICC wynosi 1. Najniższą zaś wcale nie jest 0. ICC może być ujemny. Oznacza to zwykle, że przynajmniej dwa pomiary są ujemnie ze sobą skorelowane, tj. tam gdzie jeden z nich jest wysoki, drugi jest zwykle niski. Aktualnie funkcjonują dwa zestawy wytycznych jak interpretować wartość ICC.

Starsze (“klasyczne”), autorstwa D. Cicchettiego: 1

  • Poniżej 0,4 - słaba zgodność,
  • 0,4-0,6 - średnia zgodność,
  • 0,6-0,75 - duża zgodność,
  • 0,75-1 - bardzo duża zgodność.

Nowsze, bardziej restrykcyjne, autorstwa T. K. Koo i M. Y. Li: 2

  • Poniżej 0,5 - słaba zgodność,
  • 0,5-0,75 - średnia zgodność,
  • 0,75-0,9 - duża zgodność,
  • 0,9-1 - bardzo duża zgodność.

Rodzaje ICC

Warto mieć świadomość, że istnieje co najmniej sześć rodzajów ICC i zawsze podawać, który z nich został użyty w obliczeniach. Sklasyfikowane zostały one przez Shrouta i Fleissa. 3 W praktyce, najczęściej stosuje się dwa rodzaje: ICC2 i ICC3. ICC3 stosowany jest gdy interesuje nas zgodność tylko pomiędzy tymi pomiarami, które mamy w danych i nie chcemy jej uogólniać na inne potencjalne źródła pomiarów. ICC2 stosowany jest gdy interesuje nas uogólnienie wyników zgodności na inne źródła pomiarów.

Przykład 1. Chcemy sprawdzić, czy wielkość zmiany nowotworowej oceniona w USG zgadza się z wielkością ocenioną podczas tomografii komputerowej. Ponieważ chcemy znać zgodność tylko tych dwóch metod (i nie interesują nas inne metody), wybieramy ICC3.

Przykład 2. Chcemy zobaczyć, czy postrzeganie czytelności napisów jest obiektywne. Prosimy więc kilka osób by oceniły, na skali 1-10, jak bardzo czytelne są różne napisy. Jeśli ich oceny będą zgodne (dadzą wysoki ICC), będziemy mogli stwierdzić, że czytelność jest obiektywną cechą napisów. Ale nie interesuje nas tylko zgodność tych kilku wybranych do eksperymentu osób, interesuje nas zgodność wszystkich potencjalnych oceniających. Dlatego powinniśmy wybrać ICC2.

Wspomnę jeszcze o nazewnictwie typów ICC wg McGrawa i Wonga. 4 Niektórzy nie lubią bowiem nazw “ICC2” i “ICC3”, gdyż “nie niosą ze sobą żadnej informacji”. Wolą oni właśnie nomenklaturę McGrawa i Wonga, w której:

  • ICC2 nazywa się modelem absolute agreement with two-way random effects,
  • ICC3 nazywa się modelem consistency with two-way mixed effects.

A może zrobić po prostu test statystyczny?

Lepiej nie, choć na pierwszy rzut oka, test t-Studenta, czy ANOVA wydają się być rozsądnym wyborem. Dlaczego jednak lepiej nie badać zgodności testami statystycznymi opisałem w tekście o kappie Cohena (w ostatnim akapicie).


  1. Cicchetti, Domenic V. (1994). “Guidelines, criteria, and rules of thumb for evaluating normed and standardized assessment instruments in psychology”. Psychological Assessment. 6 (4): 284–290.↩︎

  2. Koo, T. K., & Li, M. Y. (2016). A Guideline of Selecting and Reporting Intraclass Correlation Coefficients for Reliability Research. Journal of chiropractic medicine, 15(2), 155–163.↩︎

  3. Shrout, Patrick E. and Fleiss, Joseph L. Intraclass correlations: uses in assessing rater reliability. Psychological Bulletin, 1979, 86, 420-428↩︎

  4. McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996; 1:30–46↩︎