Continuous Agreement: ICC, SEM, SDC และ Bland–Altman

บทคัดย่อ

เมื่อแพทย์และนักวิจัยทางคลินิกประเมินคุณภาพของเครื่องมือวัดที่ให้ผลลัพธ์แบบ continuous พวกเขาไม่สามารถพึ่งพาสถิติสำหรับการจัดหมวดหมู่เช่น Cohen's kappa ได้ แต่จำเป็นต้องใช้เครื่องมือทางสถิติเฉพาะเพื่อหาปริมาณความแปรปรวนที่แท้จริงของผู้ป่วยและ error ของการวัด ICC ทำหน้าที่เป็นตัวชี้วัด reliability หลัก โดยคำนวณสัดส่วนของ variance ที่แท้จริงระหว่างผู้ถูกวัดซึ่งมีค่าตั้งแต่ 0 ถึง 1 อย่างไรก็ตาม ผู้วิจัยจะต้องระบุ model, definition และ type ให้ชัดเจนเสมอ เนื่องจากการเปลี่ยนแปลงพารามิเตอร์เหล่านี้จะส่งผลให้คะแนนที่ได้แตกต่างกันอย่างมากแม้จะใช้ข้อมูลชุดเดียวกัน นอกจากนี้ เนื่องจาก ICC เป็นตัวเลขที่ไม่มีหน่วย คะแนนที่ดูสูงจึงอาจบดบังความคลาดเคลื่อนทางคลินิกที่สำคัญได้อย่างง่ายดาย ดังนั้น นักวิจัยจึงห้ามรายงานเพียงค่า ICC เดี่ยวๆ แต่ต้องรายงานคู่กับสถิติ agreement ในหน่วยเดิมของเครื่องมือวัดเสมอ เช่น SEM, SDC หรือ Limits of Agreement ที่แสดงบน Bland-Altman plot บทความนี้อธิบายรายละเอียดของชุดเครื่องมือสถิติสำหรับการประเมินข้อมูลแบบ continuous เพื่อสอนนักวิจัยถึงวิธีการเลือกใช้ ICC ที่เหมาะสมและคำนวณสถิติ agreement ที่สอดคล้องกันเพื่อแยกแยะการเปลี่ยนแปลงทางคลินิกที่แท้จริงออกจาก noise ของการวัดอย่างแน่ชัด

Introduction

เมื่อ outcome ของคุณเป็นข้อมูลแบบ continuous เช่น ค่า peak-flow หน่วย L/min, มุมจาก goniometer หน่วยองศา, หรือคะแนนจาก questionnaire คุณจะอธิบาย agreement ด้วยตาราง 2×2 ไม่ได้ และใช้ Cohen's Kappa ไม่ได้ ต้องเปลี่ยนกล่องเครื่องมือใหม่ทั้งชุด บทความนี้จะสอนกล่องเครื่องมือนั้น ทีละขั้น ได้แก่ Intraclass Correlation Coefficient (ICC) ในฐานะสถิติของ reliability และกลุ่มของ agreement statistics ได้แก่ SEM, SDC, CV, Limits of Agreement (LoA) และ Bland–Altman plot ซึ่งเป็นวิธีบอกขนาดของ measurement error ใน หน่วยเดียวกัน กับที่แพทย์ใช้จริง

ความผิดพลาดที่ใหญ่ที่สุดของ continuous reliability คือการรายงานว่า "ICC = 0.85" แล้วจบ ค่า ICC ไม่มีความหมายเลยจนกว่าคุณจะบอกว่าเป็น ICC แบบไหน เพราะมีถึง 6 รูปแบบ (Shrout–Fleiss) หรือ 10 รูปแบบ (McGraw–Wong) ที่มีชื่อเรียก และค่าที่ได้บนข้อมูลชุดเดียวกันอาจต่างกันมาก วินัยของเรื่องนี้จึงเป็น เลือกชนิดของ ICC อย่างตั้งใจ แล้ว เสริมด้วย agreement statistic ในหน่วยจริง เพื่อให้ผู้อ่านรู้ว่าค่าที่เปลี่ยนไป 7 หน่วยในคนไข้คนหนึ่งเป็นสัญญาณจริงหรือเป็น noise

คำถามหลักของบทความนี้: สำหรับการวัดแบบ continuous เราควรใช้ ICC แบบไหนให้ตรงกับ design — และ measurement error ในหน่วยของเครื่องมือมีค่าเท่าไร?

นี่คือ part 5 ของ series นี้ Part 1–4 ได้วาง conceptual scaffold ไว้แล้ว (performance vs agreement; agreement vs reliability; reliability designs; categorical kappa) ส่วนบทนี้จะลงรายละเอียดกับข้อมูล continuous

ICC: สัดส่วนของ true variance

ICC เช่นเดียวกันกับสถิติของ reliability ตัวอื่น ๆ ถามสิ่งเดียวกันคือ จาก variability ทั้งหมดที่เราวัดได้ มีสัดส่วนเท่าไรที่เป็นของ จริง (ความแตกต่างที่แท้จริงระหว่าง subject) แทนที่จะเป็น measurement error สถิติตัวนี้มีพื้นฐานมาจาก analysis of variance (ANOVA) ซึ่งเป็นสิ่งที่ทำให้เราแยก spread ทั้งหมดออกเป็นองค์ประกอบ และอ่านค่า variance ที่มาจาก subject เทียบกับ variance ที่มาจาก error ได้

เขียนเป็นคำพูด:

\[ \text{ICC} = \frac{\text{True difference between study subjects}}{\text{Total variability}} = \frac{\text{Between-subject variance} - \text{Residual error variance}}{\text{Total variance}} \]

ตัวเศษคือ "signal จริง" คือ subject ต่างกันจริง ๆ มากแค่ไหน ตัวส่วนคือทุกอย่างที่เราเห็นคือ signal บวก noise อัตราส่วนนี้มีค่าตั้งแต่ 0 ถึง 1 โดย ICC เท่ากับ 0 หมายถึงเครื่องมือไม่มีความน่าเชื่อถือ (ไม่มี reliable information เลย) และ ICC เท่ากับ 1 หมายถึงเครื่องมือ ปราศจาก error variance (perfectly reliable)

ปัญหา และเป็นเหตุผลที่บทความนี้ยาว คือไม่มี "ICC ตัวเดียว" คำถามวิจัยที่ต่างกันจะเปลี่ยนว่าอะไรนับเป็น "error" และอะไรนับเป็น "total variance" จึงให้ค่าที่ต่างกันบนข้อมูล ชุดเดียวกัน คุณต้องตัดสินใจ สามอย่างอย่างชัดเจน และแต่ละอย่างมีผลโดยตรงกับการคิด residual error variance และ total variance

กล่องแนวคิด (concept callout) แต่ละกล่องด้านล่างจะปักหมุดหนึ่งในสามการเลือก ได้แก่ MODEL, DEFINITION และ TYPE

Choice 1 — การเลือก MODEL (one-way random / two-way random / two-way mixed)

Choice 1: การเลือก model ของ ANOVA

Model บอกว่า rater ถูก assign ให้ subject อย่างไร และ เราต้องการขยายผลไปหา rater คนอื่นหรือไม่ one-way random = subject แต่ละคนถูกวัดด้วยชุด rater (สุ่ม) คนละกัน two-way random = rater กลุ่มเดียวกันวัดทุก subject และเราต้องการขยายผลไปหาประชากร rater ที่คล้ายกัน two-way mixed = rater กลุ่มเดียวกันวัดทุก subject แต่เราสนใจเฉพาะ rater กลุ่มนี้ และจะไม่ขยายผล

ไล่ดูทั้งสามแบบ:

One-way random-effect model ใช้ในกรณีที่ subject แต่ละคนถูกวัดด้วย ผู้วัดคนละกัน เช่น ผู้ป่วย A ถูกวัดด้วย rater 1 และ 2 แต่ผู้ป่วย B ถูกวัดด้วย rater 3 และ 4 model นี้ไม่ค่อยถูกนำมาใช้ในทาง clinic เพราะมี assumption สำคัญคือ การคำนวณ residual error variance ไม่พิจารณาความแตกต่างที่เกิดจาก rater (เพราะ rater เป็นคนละคนกัน) ทำให้ residual error variance ใหญ่กว่า และทำให้ค่า ICC ต่ำลง เมื่อเทียบกับ model อื่น
Two-way random-effect model ใช้ในกรณีที่ผู้วัดในการศึกษาถูกเลือกมาโดยคาดหวังให้เป็น ตัวแทนของประชากรผู้วัดในภาพรวม หรืออีกนัยหนึ่งคือผู้วิจัยต้องการขยายผลลัพธ์ไปหากลุ่มผู้วัดที่มีประสบการณ์และคุณลักษณะเหมือนกับผู้วัดในงานวิจัย model นี้จึงเหมาะกับเครื่องมือที่ใช้ใน routine clinical practice ที่มีผู้วัดอย่างกว้างขวาง เช่น passive range of motion โดย inter-rater reliability เป็น design ที่ใช้ model นี้บ่อยที่สุด
Two-way mixed-effect model ใช้ในกรณีที่ผู้วิจัยสนใจ เพียงความสอดคล้องภายในผู้วัดกลุ่มนี้เท่านั้น และ ไม่ต้องการ ขยายผลลัพธ์ไปหากลุ่มผู้วัดในประชากร จึงไม่ค่อยเห็น model นี้ใน inter-rater reliability แต่มักถูกใช้ใน intra-rater reliability และ test–retest reliability เพราะทั้งสอง design สนใจความแปรปรวนภายในคนเดียวกันหรือเครื่องมือเดียวกันในช่วงเวลาที่ต่างกัน จึงไม่เหมาะที่จะขยายผลไปหา rater คนอื่น

Choice 2 — การเลือก DEFINITION (absolute agreement vs consistency)

การเลือกระหว่าง absolute และ consistency ขึ้นอยู่กับระดับความสอดคล้องที่ผู้วิจัยต้องการจริง ๆ:

หากให้ความสำคัญที่ ผู้วัดทั้งสองคนต้องให้คะแนนเหมือนกัน (\( X_1 = X_2 \)) ควรเลือก absolute agreement
หากสนใจเพียงความไปด้วยกัน / การ rank ที่ตรงกันของคะแนนในผู้วัดแต่ละคน (\( X_1 = X_2 + \text{error} \)) ควรเลือก consistency agreement

พีชคณิตทำให้ความต่างชัดเจน absolute agreement บวก term ของ adjusted systematic-error variance เข้าไปในตัวส่วน (คือการ penalize) ในขณะที่ consistency ไม่บวก:

\[ \text{ICC}_{\text{absolute}} = \frac{\text{Between-subject variance} - \text{Residual error variance}}{\text{Between-subject variance} + \text{Residual error variance} + \text{adjusted Systematic-error variance}} \]

\[ \text{ICC}_{\text{consistency}} = \frac{\text{Between-subject variance} - \text{Residual error variance}}{\text{Between-subject variance} + \text{Residual error variance}} \]

เพราะสูตร absolute มีตัวส่วนใหญ่กว่า absolute agreement จึงให้ค่า ICC ที่ต่ำกว่า (conservative กว่า) เสมอเมื่อมี systematic difference

Choice 3 — การเลือก TYPE (single vs average; average ≥ single)

เราจำเป็นต้องเลือกว่าเครื่องมือที่นำมาทดสอบนี้จะถูกใช้อย่างไรใน routine clinical practice:

หากผู้วิจัยวางแผนจะใช้เครื่องมือนี้โดยอ้างอิงผลจากการวัดด้วย rater ทั้ง (เช่น) 3 คน ควรเลือก Average ICC (ค่าที่พิจารณาค่าเฉลี่ยของ rater ทั้งหมดในการศึกษา)
ในทางตรงกันข้าม หากในความเป็นจริงใช้ rater เพียงคนเดียว ควรเลือก single/individual ICC

ทั้งสองพิจารณา total variance ต่างกัน โดย single/individual ICC ยังคง residual error variance ไว้ในตัวส่วน ในขณะที่ average ICC ไม่พิจารณา ดังนั้น:

\[ \text{ICC}_{\text{single}} = \frac{\text{Between-subject variance} - \text{Residual error variance}}{\text{Between-subject variance} + \text{Residual error variance}} \]

\[ \text{ICC}_{\text{average}} = \frac{\text{Between-subject variance} - \text{Residual error variance}}{\text{Between-subject variance}} \]

ดังนั้น Average ICC จะมากกว่า single/individual ICC เสมอ เพราะการเฉลี่ย k การวัดช่วยเฉลี่ย error ออกไปบางส่วน

⤢ click to enlarge

Figure. ICC selection cascade: เลือก MODEL (one-way random / two-way random / two-way mixed) ก่อน แล้วเลือก DEFINITION (absolute vs consistency) แล้วจึงเลือก TYPE (single vs average) ก่อนอ่านค่า ICC.

รูปแบบ Shrout–Fleiss และตาราง objective → model

Shrout and Fleiss (1979) แบ่ง ICC ออกเป็น 6 ชนิด เขียนเป็น ICC(model, type): ICC(1,1), ICC(1,k), ICC(2,1), ICC(2,k), ICC(3,1), ICC(3,k) ในระบบของเขาความแตกต่างระหว่าง two-way random-effect model (ICC 2,1 และ ICC 2,k) กับ two-way mixed-effect model (ICC 3,1 และ ICC 3,k) อยู่ที่การพิจารณา penalized systematic difference ใน total variance หรือไม่ พูดง่าย ๆ คือ Shrout and Fleiss ผูก absolute agreement ไว้กับ two-way random model และ ผูก consistency ไว้กับ two-way mixed model

ต่อมา McGraw and Wong (1996) แบ่ง ICC ออกเป็น 10 แบบ โดยพิจารณา model, definition และ type เป็นแกนอิสระต่อกัน สิ่งสำคัญคือเขาแสดงให้เห็นว่า two-way random-effect model และ two-way mixed-effect model แท้จริงแล้วมีหน้าตาสมการที่เหมือนกัน การเลือกใช้ wording ระหว่าง "random" และ "mixed" จึงขึ้นอยู่กับ study design และวัตถุประสงค์ของงานวิจัย เป็นหลัก ไม่ได้มาจากการคำนวณที่ต่างกัน

สำหรับ design แบบ intra-rater และ test–retest model ค่อนข้างตายตัวคือ two-way mixed-effect, absolute, single rater เหตุผล: ทั้งสอง design ไม่ได้มีวัตถุประสงค์เพื่อขยายผลไปหาประชากร rater กลุ่มใหญ่ (เพราะวัดภายใน rater หรือกลุ่ม rater เดิม) และทั้งสองเป็น repeated measure ที่สนใจ perfect reliable ดังนั้นควรเลือก absolute agreement เสมอ

ตาราง objective → model อ่านทีละแถว:

Objective	Measurement tool	Type of reliability	Protocol / การใช้งานจริง	Appropriate model
Reliability between raters	Imaging technique (with unit)	Inter-rater	ใช้ single rater เป็นฐาน; ใช้กว้างขวางในกลุ่ม GP	Two-way random-effect, absolute, single rater
Reliability between raters	Imaging technique (with unit)	Inter-rater	ใช้ single rater เป็นฐาน; ใช้เฉพาะใน specialist	Two-way mixed-effect, absolute, single rater
Reliability between raters	Score-based questionnaire (no unit)	Inter-rater	ใช้ค่าเฉลี่ยของ raters เป็นฐาน; ใช้เฉพาะใน specialist	Two-way mixed-effect, consistency, average rater
Reliability within rater	Score-based questionnaire (no unit)	Intra-rater	ใช้ single rater เป็นฐาน; ใช้กว้างขวางในกลุ่ม GP	Two-way mixed-effect, absolute, single rater
Reliability within rater	Imaging technique (with unit)	Intra-rater	ใช้ single rater เป็นฐาน; ใช้เฉพาะใน specialist	Two-way mixed-effect, absolute, single rater
Reliability between time points	Imaging technique (with unit)	Test–retest	ใช้ single rater เป็นฐาน; ใช้เฉพาะใน specialist	Two-way mixed-effect, absolute, single rater

"ICC is good but needs to specify model assumptions." รายงาน triplet เสมอ คือ model, definition, type ทุกครั้ง

ตัวอย่าง ICC ใน Stata แบบทีละขั้น

วิธีที่ชัดที่สุดที่จะเห็นผลของการเลือกคือคำนวณด้วยมือจากตาราง ANOVA แล้วยืนยันด้วยคำสั่ง icc เราใช้ชุดข้อมูล judges ที่มากับ Stata: subject (target) 6 คน ถูกวัดด้วย rater (judge) 4 คน เป็น design แบบ inter-rater reliability

One-way model — ICC(1,1) และ ICC(1,k)

สูตร one-way ใช้แค่ mean square between subjects และ within subjects:

\[ \text{ICC}_{1,1} = \frac{MS_B - MS_W}{MS_B + (k-1)\,MS_W} \]

\[ \text{ICC}_{1,k} = \frac{MS_B - MS_W}{MS_B} \]

โดย \( MS_B \) คือ Mean Square Between Subjects และ \( MS_W \) คือ Mean Square Within Subjects (error) ซึ่งเทียบเท่ากับ residual error variance

webuse judges
anova rating target

จาก ANOVA ได้ \( MS_B = 11.241667 \) และ \( MS_W = 6.2638889 \) โดยมี \( k = 4 \) raters แทนค่า:

\[ \text{ICC}_{1,1} = \frac{11.241667 - 6.2638889}{11.241667 + (4-1)\times 6.2638889} = 0.1657 \]

\[ \text{ICC}_{1,k} = \frac{11.241667 - 6.2638889}{11.241667} = 0.4428 \]

ยืนยันด้วยคำสั่ง:

icc rating target

สังเกตว่าค่า single-rater ต่ำมาก (0.1657) ขณะที่ค่า average-of-4 สูงกว่ามาก (0.4428) ตรงตามกฎ "average ≥ single" พอดี และตรงตามผลของ one-way ที่ฝัง rater effect ไว้ใน error term

Two-way model — ICC(2,1) และ ICC(2,k), absolute

ตอนนี้เราเพิ่ม rater (judge) เข้าไปเป็น factor ที่สอง สูตร two-way แบบ absolute agreement คือ:

\[ \text{ICC}_{2,1} = \frac{MS_B - MS_E}{MS_B + (k-1)\,MS_E + \frac{k}{n}(MS_R - MS_E)} \]

\[ \text{ICC}_{2,k} = \frac{MS_B - MS_E}{MS_B + \frac{MS_R - MS_E}{n}} \]

โดย \( MS_B \) = Mean Square Between subjects, \( MS_E \) = Mean Square error, และ \( MS_R \) = Mean Square for rater

anova rating target judge

เมื่อเพิ่มตัวแปร judge (rater) เข้าไป variance ที่ได้จาก ANOVA จะ ไม่เหมือน กับที่คำนวณใน one-way model: error ที่อยู่ภายใน subject ถูกแยกออกเป็นส่วนของ rater และส่วนของ pure error

ด้วย \( MS_B = 11.241667 \), \( MS_E = 1.0194444 \), \( MS_R = 32.486111 \), \( n = 6 \) subjects และ \( k = 4 \) raters:

\[ \text{ICC}_{2,1} = \frac{11.241667 - 1.0194444}{11.241667 + (4-1)\times 1.0194444 + \frac{4}{6}(32.486111 - 1.0194444)} = 0.2897 \]

\[ \text{ICC}_{2,k} = \frac{11.241667 - 1.0194444}{11.241667 + \frac{(32.486111 - 1.0194444)}{6}} = 0.6201 \]

ยืนยันด้วย:

icc rating target judge, absolute

เปรียบเทียบสองการวิเคราะห์บนข้อมูล ชุดเดียวกัน: one-way ICC(1,1) ได้ 0.1657 แต่ two-way ICC(2,1) ได้ 0.2897 เพราะการดึง systematic rater effect ออกจาก error term ทำให้ reliability สูงขึ้น นี่คือผลในทางปฏิบัติของการเลือก model อย่างตั้งใจ

เพื่อความครบถ้วน รูปแบบ two-way แบบ consistency จะตัด term ของ rater ออกจากตัวส่วน:

\[ \text{ICC}_{3,1} = \frac{MS_B - MS_E}{MS_B + (k-1)\,MS_E} \]

\[ \text{ICC}_{3,k} = \frac{MS_B - MS_E}{MS_B + \frac{MS_R - MS_E}{n}} \]

Intra-device (intra-rater) — ICC(2,1) สำหรับข้อมูล PEFR

สำหรับ design แบบ intra-device เราใช้ข้อมูล pefr: subject 17 คน ถูกวัด 2 ครั้ง ด้วย Mini Wright flow meter (wm1, wm2) และ 2 ครั้ง ด้วย Wright peak-flow meter (wp1, wp2) design นี้ (เครื่องเดียวกัน วัดสอง occasion) ตายตัวเป็น two-way mixed-effect, absolute, single rater เริ่มด้วยการ reshape ข้อมูลให้อยู่ในรูป long-form เพื่อให้แต่ละการวัดเป็นหนึ่งแถว:

reshape long wm wp, i(id) j(occasion)

ในที่นี้ factor ที่สองคือ occasion ดังนั้น \( MS_R \) จึงถูกแทนด้วย \( MS_T \) (Mean Square for repeated time) และ \( k \) คือจำนวน occasion:

\[ \text{ICC}_{2,1} = \frac{MS_B - MS_E}{MS_B + (k-1)\,MS_E + \frac{k}{n}(MS_T - MS_E)} \]

Objective 1 — Mini Wright flow meter:

anova wm id occasion
icc wm id occasion, mixed absolute

\[ \text{ICC}_{2,1} = \frac{24771.452 - 416.80515}{24771.452 + (2-1)\times 416.80515 + \frac{2}{17}(70.617647 - 416.80515)} = 0.96847076 \]

Objective 2 — Wright peak-flow meter:

anova wp id occasion
icc wp id occasion, mixed absolute

\[ \text{ICC}_{2,1} = \frac{27599.908 - 235.96691}{27599.908 + (2-1)\times 235.96691 + \frac{2}{17}(207.52941 - 235.96691)} = 0.98316401 \]

ทั้งสองเครื่องมือแสดง intra-device reliability ที่ดีเยี่ยม (≈ 0.9685 และ ≈ 0.9832) ซึ่งเป็นไปตามที่คาดสำหรับ physical meter ที่วัดสองครั้งในเวลาใกล้กัน

Agreement statistics: error ในหน่วยจริง

ICC บอก สัดส่วน ของ variance ที่เป็นของจริง แต่มันเป็นค่า ไม่มีหน่วย และขึ้นกับประชากร ค่า ICC ที่สูงอาจซ่อน error ที่ใหญ่ทางคลินิกไว้ได้ถ้า subject แตกต่างกันมาก COSMIN จึงขอให้รายงาน agreement statistics ด้วย ซึ่งบอก measurement error ในหน่วย ดั้งเดิม ของเครื่องมือ รูปด้านล่างคือ decision tree สำหรับเลือกใช้สถิติเหล่านี้

⤢ click to enlarge

Figure. Agreement / clinimetric statistic-selection tree: จาก design เลือก SEM, SDC, CV หรือ Limits of Agreement และอ่าน Bland–Altman plot.

Mean difference และ SD difference (ไม่แนะนำให้ใช้เดี่ยว ๆ)

Mean difference และ SD difference ระหว่างสอง rater/device บ่งบอก ค่ากลาง และ การกระจาย ของ systematic error แต่มีข้อจำกัดจริง: ไม่ได้พิจารณา residual error และต้องสมมติว่า systematic error เป็น normal distribution ด้วยเหตุนี้ COSMIN guideline จึงไม่แนะนำให้ report สถิตินี้เดี่ยว ๆ ใน manuscript

Standard Error of Measurement (SEM)

SEM คือขนาดของความแปรปรวนเฉพาะส่วนที่เป็น error โดยพิจารณา ทั้ง residual error และ systematic error ในหน่วยของเครื่องมือ COSMIN guideline แนะนำวิธีคำนวณ 2 วิธี

วิธีที่ 1 — คำนวณตรงจาก mean square ของ ANOVA (variance component ต้องตรงกับ study design เช่น test–retest design ต้องพิจารณา term \( MS_T \) จาก time ด้วย):

\[ \text{SEM} = \sqrt{MS_R + MS_E + MS_T} \]

วิธีที่ 2 — คำนวณจาก SD และ ICC (ใช้บ่อยกว่า): นำ SD pooled (observe variance ของทั้งสอง rater/device) คูณด้วยรากที่สองของสัดส่วน error variance \( (1 - \text{ICC}) \):

\[ \text{SEM} = SD\sqrt{1 - \text{ICC}} \]

Smallest Detectable Change (SDC)

เมื่อทราบ SEM แล้ว SDC จะบอก ค่าจริงที่น้อยที่สุด ที่ทำให้เรา มั่นใจ 95% ว่าเกิดจากการเปลี่ยนแปลงของ subject (true value) มากกว่าจะมาจาก error มักใช้เมื่อมีการติดตามคนไข้ไปอีกช่วงเวลาหนึ่งเทียบกับ baseline:

\[ \text{SDC} = 1.96\sqrt{2}\;\text{SEM} \]

ตัวอย่างที่คำนวณจริง: สมมติเครื่องมือ T มี \( \text{SEM} = 4.5 \) จะได้

\[ \text{SDC} = 1.96 \times \sqrt{2} \times 4.5 = 12.5 \]

ดังนั้นหากค่าจริงของคนไข้ในช่วงเวลาต่อมามีค่าแตกต่างจาก baseline เท่ากับ 7 ซึ่ง น้อยกว่า SDC ที่ 12.5 เรา ไม่สามารถ บอกได้ว่าค่านั้นเกิดจากการเปลี่ยนของคนไข้จริง มันยังอยู่ในแถบของ measurement error ของเครื่องมือ T

Coefficient of Variation (CV)

CV เทียบ measurement error (SEM) กับค่าเฉลี่ยของการวัด (observed mean) ของทั้งสอง rater/device ในรูป เปอร์เซ็นต์:

\[ \text{CV} = 100 \times \frac{\text{SEM}}{\bar{x}} \]

มีประโยชน์เพราะหลายครั้ง error จะ สูงขึ้นเมื่อ observed value สูงขึ้น CV ช่วยให้เห็นว่า SD ของ error เป็นกี่ % ของค่าที่วัดได้โดยเฉลี่ย เช่น \( \text{CV} = 2\% \) หมายถึง measurement error มีค่าเป็น 2% ของค่าที่วัดได้ ข้อเสียคือสมมติว่าอัตราส่วนนี้ คงที่ตลอดช่วง: ถ้า mean เท่ากับ 10, 100, 1000 ค่า CV คงที่จะหมายถึง SD เท่ากับ 0.2, 2, 20 ตามลำดับ

Limits of Agreement และ Bland–Altman plot

Limits of Agreement (LoA) บอก ขอบเขต ของ systematic error และเมื่อใช้คู่กับ Bland–Altman plot ก็บอก pattern ของมันด้วย ค่า LoA จากวิธี Bland–Altman ให้ 95% confidence interval ของ systematic error:

\[ \text{LoA} = \bar{d} \pm 1.96\, s_d \]

โดย \( \bar{d} \) คือค่าเฉลี่ยของ difference (mean error/bias) และ \( s_d \) คือ SD ของ difference

Modified Bland–Altman plot วางค่า เฉลี่ยระหว่างทั้งสอง rater/device บนแกน X (ใน original Bland–Altman plot แกน X จะเป็นค่า true value ซึ่งยึดจากเครื่องมือ gold standard) และวางค่า difference ระหว่างทั้งสอง rater/device บนแกน Y (systematic error) plot นี้ ไม่ได้ฟันธง ว่า agreement เพียงพอแล้วหรือไม่ นั่นเป็น clinical judgement: ผู้วิจัยมีหน้าที่กำหนด maximal acceptable difference ไว้ล่วงหน้า แล้วพิจารณาว่า range ของ LoA กว้างเกินไปหรือไม่

อ่าน Bland–Altman plot ได้ใน 3 ขั้น:

Mean error/bias เข้าใกล้ line of equality (zero error) มากน้อยแค่ไหน? เพื่อประเมินขนาดของ systematic error
ดูการกระจายของ scatter dot ว่ามี pattern อย่างไร? ดูว่า spread เปลี่ยนไปอย่างไรตลอดช่วง
เปรียบเทียบ absolute scale กับ percentage scale เพื่อจำแนก pattern (ด้านล่าง)

pattern ที่ต้องจดจำ:

Pattern	บน absolute scale	บน percentage scale
Random difference	scatter ดู symmetrical เช่น LoA จาก 46.4 ถึง −60.5 error limit ที่กว้างขนาดนี้อาจสำคัญเมื่อค่าจริง 200–300 แต่อาจไม่มีนัยสำคัญมากนักเมื่อค่าจริง 3,000–4,000	percentage error ลดลง เมื่อ concentration สูงขึ้น (เผยให้เห็น unproportional pattern)
Constant difference (absence of variability)	systematic error มีขนาด เท่ากันตลอดช่วง; scatter symmetrical ตลอดช่วงของค่า mean	percentage ของ error เล็กลง เมื่อ concentration สูงขึ้น (คล้าย random difference)
Proportional difference	scatter กระจาย กว้างขึ้นเมื่อ concentration สูงขึ้น เป็นสัดส่วนกัน (constant coefficient of variation)	scatter กลายเป็น symmetrical distribution
Proportional constant difference	มี slope ของ difference ร่วมกับ constant variability	—

Key takeaways

ICC = สัดส่วนของ true (between-subject) variance ใน total variance มีพื้นฐานจาก ANOVA มีค่าตั้งแต่ 0 (ไม่มี reliability) ถึง 1 (ปราศจาก error)
ต้องระบุ สามการเลือก เสมอ: MODEL (one-way random / two-way random / two-way mixed), DEFINITION (absolute vs consistency), TYPE (single vs average) โดย Average ICC ≥ single ICC และ absolute ≤ consistency เมื่อมี systematic difference
Shrout–Fleiss กำหนด 6 รูปแบบ ICC(1,1)…ICC(3,k); McGraw–Wong แสดงว่า two-way random และ two-way mixed มีสมการเดียวกัน ดังนั้น "random vs mixed" เป็นการประกาศ เจตนาในการขยายผล ไม่ใช่การคำนวณที่ต่างกัน
design แบบ intra-rater และ test–retest ใช้ค่าตั้งต้นเป็น two-way mixed-effect, absolute, single rater
ตัวอย่างข้อมูล judges: one-way ICC(1,1) = 0.1657, ICC(1,k) = 0.4428; two-way absolute ICC(2,1) = 0.2897, ICC(2,k) = 0.6201 ข้อมูล intra-device pefr: ICC(2,1) ≈ 0.9685 (Mini Wright) และ ≈ 0.9832 (Wright peak-flow)
เสริม ICC ด้วย agreement statistics ในหน่วยจริง: \( \text{SEM} = SD\sqrt{1-\text{ICC}} \) (absolute ICC) หรือ \( \sqrt{MS_R + MS_E + MS_T} \); \( \text{SDC} = 1.96\sqrt{2}\,\text{SEM} \) (SEM = 4.5 → SDC = 12.5 ดังนั้นค่าที่เปลี่ยนไป 7 ยังอยู่ใน measurement error); \( \text{CV} = 100\,\text{SEM}/\bar{x} \); \( \text{LoA} = \bar{d} \pm 1.96\, s_d \)
COSMIN ไม่แนะนำ ให้ใช้ mean/SD ของ difference เดี่ยว ๆ อ่าน Bland–Altman plot ใน 3 ขั้น และจำแนก pattern เป็น random, constant หรือ proportional difference

References

de Vet HCW, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003;56:1137–41.
Mokkink LB, Terwee CB, Patrick DL, et al. The COSMIN checklist. Qual Life Res. 2010;19:539–49.
Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37–46.
Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159–74.
Shrout PE, Fleiss JL. Intraclass correlations. Psychol Bull. 1979;86:420–28.
McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996;1:30–46.
Koo TK, Li MY. A guideline of selecting and reporting ICC. J Chiropr Med. 2016;15:155–63.
Bland JM, Altman DG. Statistical methods for assessing agreement. Lancet. 1986;1:307–10.
Gwet KL. Computing inter-rater reliability in the presence of high agreement. Br J Math Stat Psychol. 2008;61:29–48.
Parmar M, Naqvi SAA, et al. Collaborative large language models for screening in systematic reviews. medRxiv. 2026.

From Sensitivity to Kappa (5-part series): (1) Performance vs Agreement [01_performance_vs_agreement] · (2) Agreement vs Reliability [02_agreement_vs_reliability] · (3) Reliability designs [03_reliability_designs] · (4) Categorical — kappa [04_categorical_kappa] · (5) Continuous — ICC & agreement [05_continuous_icc_agreement]