Categorical Agreement: % Agreement, Specific Agreement และ Kappa

บทคัดย่อ

เมื่อแพทย์และนักวิจัยทางคลินิกจำแนกผลลัพธ์ออกเป็นหมวดหมู่ การประเมินความสอดคล้องระหว่างผู้ประเมินมีความจำเป็นอย่างยิ่งเพื่อยืนยันคุณภาพของเครื่องมือวินิจฉัย แม้ว่าสถิติพื้นฐานอย่าง percent agreement จะเข้าใจง่าย แต่มันมักประเมิน reliability ของเครื่องมือสูงเกินจริงเนื่องจากไม่ได้หักลบความน่าจะเป็นที่ผู้ประเมินมี agreement ตรงกันด้วยความบังเอิญ เพื่อค้นหาจุดอ่อนเฉพาะกลุ่ม percent specific agreement จะแยกประเมินความสอดคล้องในแต่ละหมวดหมู่ สำหรับการประเมินข้อมูลที่รัดกุม Cohen's kappa จะหักลบความบังเอิญออกจาก observed agreement เพื่อแสดงค่า agreement ที่แท้จริง อย่างไรก็ตาม การจำแนกทางคลินิกบางประเภทอยู่ในรูปแบบ ordinal scale ที่ความผิดพลาดมีความรุนแรงต่างกัน ในกรณีนี้ weighted kappa จะใช้การถ่วงน้ำหนักแบบ linear เมื่อความเสียหายเพิ่มขึ้นตามสัดส่วน หรือแบบ quadratic เมื่อความผิดพลาดขั้นรุนแรงสร้างความเสียหายอย่างไม่ได้สัดส่วน เพื่อให้คะแนนความสอดคล้องบางส่วนสำหรับความคลาดเคลื่อนเพียงเล็กน้อย นอกจากนี้ ICC ยังสามารถนำมาใช้แทน weighted kappa ได้สำหรับมาตรวัดที่มีหลายระดับเพื่อหลีกเลี่ยงการใช้เกณฑ์กำหนดน้ำหนักที่ไม่มีมาตรฐานตายตัว บทความนี้อธิบายชุดเครื่องมือสถิติสำหรับการจำแนกหมวดหมู่ เพื่อสอนวิธีคำนวณและแปลผลตัวชี้วัดที่แก้ไขเรื่องความบังเอิญให้บุคลากรทางการแพทย์สามารถตรวจสอบความถูกต้องของเครื่องมือวินิจฉัยได้อย่างเหมาะสม

Introduction

เมื่อผู้วัดสองคนต้องจัดสิ่งเดียวกันเข้าสู่ categories เช่น รังสีแพทย์สองคนอ่านภาพเอกซเรย์ว่า normal หรือ abnormal, ผู้คัดกรองสองคนตัดสิน abstract ว่า include หรือ exclude, หรือพยาบาลสองคนให้คะแนนความปวดเป็น mild / moderate / severe เราต้องการตัวเลขที่บอกว่า ทั้งสองคนเห็นตรงกันดีแค่ไหน คำตอบที่ตรงสัญชาตญาณที่สุดคือ "นับว่ากี่ครั้งที่ตอบเหมือนกัน แล้วหารด้วยจำนวนทั้งหมด" นั่นคือ percent agreement (% agreement) ซึ่งเป็นสถิติที่มีจริงและมีประโยชน์ แต่มีจุดบอดที่โด่งดัง คือ แม้แต่คนสองคนที่ตอบแบบสุ่มก็ยังบังเอิญตอบตรงกันได้ในบางครั้งด้วยโชคล้วน ๆ สถิติที่ไม่ได้หักลบโชคออกไป จะ "ยกยอ" เครื่องมือที่แย่ให้ดูดีเกินจริง

บทความนี้ ซึ่งเป็นตอนที่ 4 ของซีรีส์ From Sensitivity to Kappa จะสอนชุดเครื่องมือสำหรับ categorical agreement ทีละขั้น ได้แก่ % agreement, % specific agreement, Cohen's Kappa (และ เหตุผล ว่าทำไมต้องแก้เรื่องความบังเอิญ) และ Weighted Kappa สำหรับ ordinal scale ทุกตัวเลขด้านล่างคำนวณด้วยมือทีละขั้น เพื่อให้คุณทำตามได้

คำถามหลัก: เมื่อผู้วัดสองคนให้คำตอบเหมือนกัน ความสอดคล้องนั้นเป็นของจริงเท่าไร และเป็นเพียงความบังเอิญเท่าไร?

ก่อนอื่น ขอพูดถึงว่า ควรเลือกใช้สถิติตัวไหน แม้ Reliability และ Agreement จะคล้ายกัน แต่มี concept ที่ต่างกัน Agreement พูดถึง ปริมาณของความคลาดเคลื่อน (error variance) จึงแสดงออกในลักษณะค่าสัมบูรณ์ (absolute scale) และจำเป็นต้องมีหน่วย (unit) ในขณะที่ Reliability สนใจเพียงว่าเครื่องมือ จำแนกหรือเรียงลำดับสิ่งที่แตกต่างกันได้สม่ำเสมอ หรือไม่ จึงนำเสนอเป็นสัดส่วน (relative scale) ของ true variance/total observed variance และไม่จำเป็นต้องมีหน่วย สำหรับข้อมูลประเภทแบ่งกลุ่ม (categorical) เส้นแบ่งนี้พร่าเลือน เพราะข้อมูลประเภทนี้มักไม่มีหน่วย และการจัดประเภทสำคัญกว่าระยะที่วัดได้ การศึกษาส่วนใหญ่จึงนำเสนอทั้งสถิติ Agreement และ Reliability พร้อม ๆ กัน ทำให้สองคำนี้ถูกใช้แทนกันอยู่บ่อยครั้ง

⤢ click to enlarge

Figure. การเลือกสถิติ agreement/reliability ตามชนิดของข้อมูล

แผนผังการเลือกสถิติสั้นพอที่จะอ่านตรง ๆ ได้:

ชนิดของ outcome	Agreement (measurement error)	Reliability
Binary / Nominal	% Agreement, % Specific agreement	Cohen's Kappa
Ordinal	% Agreement, % Specific agreement	Weighted Kappa; ICC (ordinal outcome ที่มี rater มากกว่า 2 คน)

COSMIN guideline จัด % Agreement และ % Specific agreement ไว้ในกลุ่ม Agreement และจัด Cohen's Kappa / Weighted Kappa ไว้ในกลุ่ม Reliability แม้ว่า (ดังที่จะเห็นต่อไป) สูตรและการแปลผลของ Kappa จะพูดด้วยภาษาของ Agreement แทบทั้งหมด

Binary / Nominal data: percent agreement

% Agreement เป็นสถิติเชิงพรรณนาที่แสดงสัดส่วนของกรณีที่ผู้วัดสองคนให้คำตอบ เหมือนกัน โดยไม่ได้สนใจความบังเอิญ สำหรับตาราง 2×2 ที่มี cell คือ \(a, b, c, d\) (โดย \(a\) และ \(d\) คือ cell ที่ตอบตรงกัน และ \(n\) คือจำนวนทั้งหมด) คำนวณได้ง่าย ๆ ว่า:

\[ p_o = \%\text{ agreement} = \frac{a + d}{n} \times 100 \]

เท่านั้นเอง มันซื่อตรง โปร่งใส และเป็นตัวเลขที่สัญชาตญาณของแพทย์มักนึกถึงพอดี จุดอ่อนของมันคือ ความบังเอิญถูกนับรวมเข้าไปด้วย ซึ่งเป็นสิ่งที่ Cohen's Kappa เกิดมาเพื่อแก้

Binary / Nominal data: percent specific agreement

% Agreement ยุบทั้งสอง category รวมเป็นตัวเลขเดียว ซึ่งอาจซ่อนปัญหาที่เกิดเฉพาะใน category ใด category หนึ่งได้ % Specific agreement จะถามว่า ภายใน category เดียว นั้น เมื่อมีการใช้ category นี้ ผู้วัดเห็นตรงกันในสัดส่วนเท่าไร มันยังคงไม่สนใจความบังเอิญ แต่ให้ข้อมูลเชิงวินิจฉัย คือ ถ้า specific agreement ของ category ใดต่ำกว่า % agreement โดยรวมอย่างมีนัยสำคัญ category นั้นอาจมีความน่าเชื่อถือไม่ดี (อาจยากเกินไป) หรืออาจเกิดจากการเลือก subject ที่ไม่เหมาะกับการประเมินใน category นี้

สำหรับ category "Yes" และ category "No":

\[ p_{\text{yes}} = \frac{2a}{(a+c) + (a+b)} \times 100 \]

\[ p_{\text{no}} = \frac{2d}{(d+c) + (d+b)} \times 100 \]

หลักคิดคือ observed agreement ใน category นั้น หารด้วยจำนวนครั้งทั้งหมดที่ผู้วัดคนใดคนหนึ่งกำหนด category นั้น ตัวเศษนับ cell ที่ตอบตรงกันสองครั้ง (ครั้งละหนึ่งคน) ตัวส่วนคือผลรวม marginal total ของแต่ละผู้วัดสำหรับ category นั้น นี่คือเหตุผลที่ specific agreement ต่างจาก % agreement ตรงที่ค่าของสอง category อาจไม่เท่ากัน

ทำไมต้องแก้เรื่องความบังเอิญ

ผู้วัดสองคนที่ตอบแบบสุ่มล้วน ๆ ก็ยังบังเอิญตอบตรงกันในบางกรณีด้วยโชค ตัวเศษของ Kappa คือ observed agreement ลบด้วย expected agreement by chance ซึ่งเป็นส่วนของความสอดคล้องที่ ไม่ได้ เกิดจากความบังเอิญ หรือ "true agreement" ส่วนตัวส่วน \(1 - p_e\) คือ agreement สูงสุดที่ยังเป็นไปได้เหนือความบังเอิญ (เพื่อให้ความสอดคล้องสมบูรณ์ได้ค่า \(\kappa = 1\)) Kappa จึงตอบคำถามที่คมกว่า % agreement คือ ผู้วัดเห็นตรงกันมากแค่ไหน เหนือไปจากโชค?

Cohen's Kappa

Cohen's Kappa (มีชื่อเรียกหลายชื่อ เช่น Kappa statistic หรือ K index) รายงานสัดส่วนของกรณีที่ตอบตรงกัน หลังจากคำนึงถึงความน่าจะเป็นที่ผู้วัดบังเอิญตอบตรงกัน ความบังเอิญนี้อาจมาจากเครื่องมือที่ง่ายหรือยากเกินไป COSMIN จัดให้เป็นสถิติ reliability แต่สูตรและการแปลผลพูดถึง agreement เป็นส่วนใหญ่ นิยามคือ:

\[ \kappa = \frac{p_o - p_e}{1 - p_e} \]

โดย \(p_o\) คือ observed agreement \((a+d)/n\) และ \(p_e\) คือ agreement ที่คาดว่าจะเกิดจากความบังเอิญ:

\[ p_e = \frac{(a+b)(a+c)}{n^2} + \frac{(b+d)(c+d)}{n^2} \]

อ่านสูตรเชิงโครงสร้าง: ตัวเศษ \(p_o - p_e\) ดึงความสอดคล้องจากความบังเอิญ ("error" agreement) ออกจาก observed agreement เหลือไว้แต่ true agreement ส่วน ตัวส่วน \(1 - p_e\) คือความสอดคล้องสูงสุดที่ยังเป็นไปได้เมื่อหักความบังเอิญออก (total probability not by chance) ซึ่งทำให้ \(\kappa\) ไม่เกิน 1 และโปรดสังเกตผลที่ปลายล่าง: ค่า Kappa สามารถติดลบได้ เมื่อ observed agreement น้อยกว่า chance agreement

ตัวอย่างที่ 1: รังสีแพทย์สองคน, ภาพเอกซเรย์ 100 ภาพ

รังสีแพทย์สองคนอ่านภาพเอกซเรย์ทั้งหมด 100 ภาพ และรายงานแต่ละภาพเป็น normal หรือ abnormal ตารางไขว้ (cross-tabulation) เป็นดังนี้:

	B: Normal	B: Abnormal	Row totals
A: Normal	40	10	50
A: Abnormal	5	45	50
Totals	45	55	100

ในที่นี้ \(a = 40\), \(b = 10\), \(c = 5\), \(d = 45\), \(n = 100\) มาคำนวณแต่ละสถิติทีละขั้น

ขั้นที่ 1 — % Agreement. ทั้งคู่ตอบ normal เหมือนกัน 40 ภาพ และตอบ abnormal เหมือนกัน 45 ภาพ:

\[ p_o = \frac{40 + 45}{100} = \frac{85}{100} = 0.85 = 85\% \]

ขั้นที่ 2 — % Normal specific agreement. หมอ A ตอบ normal ทั้งหมด 50 ภาพ, หมอ B ตอบ normal ทั้งหมด 45 ภาพ, ทั้งคู่ตอบ normal ตรงกัน 40 ภาพ:

\[ p_{\text{normal}} = \frac{40 + 40}{50 + 45} = \frac{80}{95} = 0.84 = 84\% \]

ขั้นที่ 3 — % Abnormal specific agreement. หมอ A ตอบ abnormal ทั้งหมด 50 ภาพ, หมอ B ตอบ abnormal ทั้งหมด 55 ภาพ, ทั้งคู่ตอบ abnormal ตรงกัน 45 ภาพ:

\[ p_{\text{abnormal}} = \frac{45 + 45}{50 + 55} = \frac{90}{105} = 0.86 = 86\% \]

ค่า specific agreement ทั้งสอง (84% และ 86%) อยู่ใกล้กับ 85% โดยรวม บอกเราว่าทั้งสอง category มีความยากง่ายไม่แตกต่างกันมาก

ขั้นที่ 4 — Expected (chance) agreement. โอกาสที่ ทั้งคู่ ตอบ normal คือ (อัตรา normal ของ A)×(อัตรา normal ของ B); โอกาสที่ทั้งคู่ตอบ abnormal คือ (อัตรา abnormal ของ A)×(อัตรา abnormal ของ B) บวกกัน:

\[ p_e = \frac{50}{100} \times \frac{45}{100} + \frac{50}{100} \times \frac{55}{100} = 0.225 + 0.275 = 0.5 \]

ขั้นที่ 5 — Cohen's Kappa. แทนค่าในนิยาม:

\[ \kappa = \frac{p_o - p_e}{1 - p_e} = \frac{0.85 - 0.5}{1 - 0.5} = \frac{0.35}{0.5} = 0.70 \]

การอ่านผลลัพธ์. แม้ % agreement ดิบจะอยู่ที่ 85% และทั้งสอง category มีความยากง่ายไม่แตกต่างกัน แต่โอกาสที่รังสีแพทย์สองคนจะตอบตรงกัน โดยปราศจากความบังเอิญ อยู่ที่เพียง 70% ส่วนต่าง 15 จุดนั้นคือโชคที่ % agreement นับรวมว่าเป็นฝีมือไปอย่างเงียบ ๆ

การแปลผล Kappa และข้อควรระวัง

มาตรวัดเชิงคำพูดที่ถูกอ้างถึงบ่อย (Landis & Koch) จับคู่ค่า Kappa กับ label เช่น slight, fair, moderate, substantial, และ almost perfect ให้ใช้อย่างระมัดระวัง เพราะ interpretation bands เหล่านี้เป็นจุดตัดที่กำหนดขึ้นโดยพลการ (arbitrary) ไม่ใช่กฎธรรมชาติ และค่า Kappa ที่ "moderate" ในบริบทคลินิกหนึ่งอาจยอมรับไม่ได้ในอีกบริบทหนึ่ง จงรายงานตัวเลข ตารางที่มา และบริบท อย่ารายงานเพียง label เชิงคำพูดอย่างเดียว

Kappa	label เชิงคำพูดที่นิยม (Landis–Koch)
< 0.00	Poor (แย่กว่าความบังเอิญ)
0.00–0.20	Slight
0.21–0.40	Fair
0.41–0.60	Moderate
0.61–0.80	Substantial
0.81–1.00	Almost perfect

Ordinal data: weighted Kappa

สำหรับ category แบบ ordinal เช่น normal / borderline / abnormal หรือ mild / moderate / severe การคลาดเคลื่อนไม่ได้มีน้ำหนักเท่ากันทั้งหมด ผู้วัดที่ต่างกัน 1 ลำดับ (normal กับ borderline) ใกล้กันมากกว่าผู้ที่ต่างกัน 2 ลำดับ (normal กับ abnormal) Cohen's Kappa ธรรมดามองว่าการคลาดเคลื่อนทุกแบบคือพลาดทั้งหมด Weighted Kappa ใช้กลไกแก้ความบังเอิญแบบเดียวกัน แต่ ให้คะแนนบางส่วนสำหรับความสอดคล้องที่ใกล้เคียง คือ คลาดเคลื่อน 1 ลำดับได้น้ำหนักบางส่วน, คลาดเคลื่อนมากที่สุดได้ศูนย์ (ต่างจาก Cohen's Kappa ตรงที่ weighted kappa พิจารณา weight ทั้งในส่วน observed และส่วน chance ไม่ใช่แค่ observed)

น้ำหนัก \(w\) ของ cell ที่ทั้งสอง label ต่างกัน \(i\) ลำดับ บน scale ที่มี \(k\) ลำดับทั้งหมด มีรูปแบบที่นิยมสองชนิด:

\[ \text{Linear weight: } w = 1 - \frac{i}{k-1} \]

\[ \text{Quadratic weight: } w = 1 - \frac{i^2}{(k-1)^2} \]

สำหรับ scale 3 ระดับ (\(k = 3\)) น้ำหนักจะออกมาดังนี้:

การคลาดเคลื่อน	\(i\)	Linear \(1 - \frac{i}{k-1}\)	Quadratic \(1 - \frac{i^2}{(k-1)^2}\)
ตอบตรงกัน (0 ลำดับ)	0	1.0	1.0
คลาดเคลื่อน 1 ลำดับ	1	\(1-\frac{1}{2}=0.5\)	\(1-\frac{1}{4}=0.25\)
คลาดเคลื่อน 2 ลำดับ	2	\(1-\frac{2}{2}=0.0\)	\(1-\frac{4}{4}=0.0\)

วิธีเลือกระหว่าง linear กับ quadratic

ระบบน้ำหนักเข้ารหัส ว่าความเสียหายจากความผิดพลาดเพิ่มขึ้นตามขนาดของมันอย่างไร

Linear weight — เลือกเมื่อความเสียหายจากความคลาดเคลื่อนสองลำดับเป็น สองเท่า ของความคลาดเคลื่อนหนึ่งลำดับ (ความเสียหายโตตามระยะแบบเชิงเส้น) ตัวอย่าง: การให้คะแนนความปวด mild / moderate / severe พยาบาลผู้ประเมินอาจเชื่อว่าการคลาดเคลื่อนจาก mild ไป severe ร้ายแรงเป็นสองเท่าของการคลาดเคลื่อนจาก mild ไป moderate พอดี
Quadratic weight — เลือกเมื่อความคลาดเคลื่อนเล็ก ๆ แทบไม่สำคัญ แต่ความเสียหาย เพิ่มขึ้นเป็นทวีคูณ (มากกว่าเชิงเส้น) เมื่อช่องว่างกว้างขึ้น คลาดเคลื่อน 1 ลำดับยังคงเก็บคะแนนไว้ได้เกือบเต็ม ส่วนคลาดเคลื่อน 2 ลำดับยุบเหลือศูนย์

ในตัวอย่างถัดไป สมมติว่า management ของการเป็น borderline กับ normal แตกต่างกันเพียงเล็กน้อย ในขณะที่การเป็น abnormal จริง ๆ ต้องผ่านกระบวนการทางการแพทย์หลายขั้นตอน ความเสียหายของการพลาดครั้งใหญ่จึงสูงเกินสัดส่วน การเลือก quadratic weighting จึงเหมาะสมกว่า และน้ำหนักในแต่ละ cell คือ 1 → 0.75 → 0 สำหรับการคลาดเคลื่อน 0, 1, และ 2 ลำดับตามลำดับ

หมายเหตุเรื่อง quadratic weight ที่ใช้ด้านล่าง: ด้วยข้อตกลงที่เขียนน้ำหนักเป็น \(1, 0.75, 0\) สำหรับคลาดเคลื่อน 0, 1, 2 ลำดับ การคลาดเคลื่อน 1 ลำดับยังคงเก็บคะแนนไว้สามในสี่ ซึ่งให้อภัยความผิดพลาดเล็ก ๆ อย่างมาก พร้อมตัดคะแนนการพลาดที่แย่ที่สุดให้เป็นศูนย์

ตัวอย่างที่ 2: scale 3 ระดับ, ภาพเอกซเรย์ 30 ภาพ

รังสีแพทย์สองคนอ่านภาพ 30 ภาพ และรายงานแต่ละภาพเป็น normal, borderline หรือ abnormal:

	B = normal	B = borderline	B = abnormal	Row totals
A = normal	8	1	1	10
A = borderline	2	9	3	14
A = abnormal	0	2	4	6
Totals	10	12	8	30

Unweighted % Agreement (เส้นทแยงมุม ที่ตอบตรงกันเป๊ะ):

\[ p_o = \frac{8 + 9 + 4}{30} = \frac{21}{30} = 0.70 = 70\% \]

% Specific agreement ของแต่ละ category:

\[ p_{\text{normal}} = \frac{8+8}{10+10} = \frac{16}{20} = 0.80 = 80\% \] \[ p_{\text{borderline}} = \frac{9+9}{14+12} = \frac{18}{26} = 0.69 = 69\% \] \[ p_{\text{abnormal}} = \frac{4+4}{6+8} = \frac{8}{14} = 0.57 = 57\% \]

category abnormal (57%) คือจุดอ่อน ต่ำกว่า 70% โดยรวมอย่างมาก บ่งชี้ว่าผู้วัดทั้งสองมีปัญหามากที่สุดตรงจุดที่เดิมพันสูงที่สุด

ขั้นที่ 1 — Weighted observed agreement. ด้วย quadratic weight 1 / 0.75 / 0 จัดกลุ่ม 30 กรณีตามระยะที่ผู้วัดต่างกัน:

ตอบตรงกันเป๊ะ (0 ลำดับ): \(8 + 9 + 4 = 21\) กรณี, weight 1 → \((21 \times 1)/30 = 0.7\)
คลาดเคลื่อน 1 ลำดับ: \(1 + 2 + 3 + 2 = 8\) กรณี, weight 0.75 → \((8 \times 0.75)/30 = 0.2\)
คลาดเคลื่อน 2 ลำดับ: \(1 + 0 = 1\) กรณี, weight 0 → \((1 \times 0)/30 = 0\)

\[ p_{o(w)} = 0.7 + 0.2 + 0 = 0.90 = 90\% \]

สังเกตว่า weighted observed agreement (90%) สูงกว่า unweighted 70% เพราะตอนนี้ได้คะแนนบางส่วนสำหรับการเฉียดพลาด ซึ่งเป็นเหตุผลพอดีว่า การเลือก weight ที่เหมาะสมในบริบทคลินิกที่ถูกต้องส่งผลต่อข้อสรุปอย่างมีนัยสำคัญ

ขั้นที่ 2 — Weighted chance agreement. เริ่มจาก marginal probability ของแต่ละผู้วัด:

Probability	หมอ A	หมอ B
Normal	10/30 = 0.3333	10/30 = 0.3333
Borderline	14/30 = 0.4667	12/30 = 0.4000
Abnormal	6/30 = 0.2000	8/30 = 0.2667

สำหรับทุกชุดจาก 9 คู่ผสม A×B ให้นำความน่าจะเป็นของ A คูณความน่าจะเป็นของ B ได้ chance joint probability แล้วคูณด้วย weight ของ cell นั้น:

A	B	Weight	P(A)	P(B)	Joint P(A)·P(B)	Weighted probability
Normal	Normal	1.00	0.3333	0.3333	0.11111	0.11111
Normal	Borderline	0.75	0.3333	0.4000	0.13333	0.10000
Normal	Abnormal	0.00	0.3333	0.2667	0.08889	0.00000
Borderline	Normal	0.75	0.4667	0.3333	0.15556	0.11667
Borderline	Borderline	1.00	0.4667	0.4000	0.18667	0.18667
Borderline	Abnormal	0.75	0.4667	0.2667	0.12444	0.09333
Abnormal	Normal	0.00	0.2000	0.3333	0.06667	0.00000
Abnormal	Borderline	0.75	0.2000	0.4000	0.08000	0.06000
Abnormal	Abnormal	1.00	0.2000	0.2667	0.05333	0.05333

รวมคอลัมน์สุดท้าย:

\[ p_{e(w)} = 0.72 \]

ขั้นที่ 3 — Quadratic weighted Kappa. ใช้สูตรแก้ความบังเอิญแบบเดียวกัน เพียงแต่ตอนนี้ใช้พจน์ที่ถ่วงน้ำหนักแล้ว:

\[ \kappa_w = \frac{p_{o(w)} - p_{e(w)}}{1 - p_{e(w)}} = \frac{0.90 - 0.72}{1 - 0.72} = \frac{0.18}{0.28} = 0.64 \]

ดังนั้น แม้คะแนนบางส่วนที่ใจกว้างจะยก observed agreement ขึ้นไปถึง 90% แต่ค่า weighted Kappa ที่แก้ความบังเอิญแล้วอยู่ที่ 0.64 ซึ่งเป็นตัวเลขที่ซื่อตรง เมื่อเราตัดโชคที่ระบบ weight อันให้อภัยช่วยขยายในพจน์ chance ออกไปด้วย

เมื่อ ICC แทนที่ weighted Kappa

Intraclass Correlation Coefficient (ICC) ซึ่งจะกล่าวถึงเต็มในตอนที่ 5 ของซีรีส์ (continuous data) มักถูกหยิบมาใช้กับ ordinal data ที่มีจำนวนกลุ่มหลายลำดับ ข้อดีของ ICC ในที่นี้คือเชิงปฏิบัติ: ICC หลบเลี่ยงปัญหาทั้งหมดของ การเลือก weight ที่เหมาะสม ซึ่งยุ่งยากขึ้นเรื่อย ๆ เมื่อจำนวนลำดับเพิ่มขึ้น สำหรับ ordinal scale สั้น ๆ weighted Kappa พร้อม weight ที่เลือกอย่างจงใจนั้นโปร่งใสและปกป้องได้ ส่วน ordinal scale ยาว ๆ (โดยเฉพาะเมื่อมี rater มากกว่าสองคน) ให้หันไปใช้ ICC แทน

แนวคิดเดียวที่ต้องจำ

ทุกสถิติในบทความนี้คือการดัดแปลงจากการเคลื่อนไหวเดียว: หยิบ observed agreement ลบด้วย agreement ที่ได้จากความบังเอิญ แล้วปรับสเกลด้วย พื้นที่ที่เหลือเหนือความบังเอิญ % agreement ทำเพียงขั้นแรก; Cohen's Kappa เพิ่มการแก้ความบังเอิญ; weighted Kappa เพิ่มการแก้ความบังเอิญ และ คะแนนบางส่วนสำหรับการเฉียดพลาด; ICC ทำให้มันใช้ได้กับหลายลำดับโดยไม่ต้องเลือก weight

Key takeaways

% Agreement \(= (a+d)/n\) ซื่อตรงและตรงสัญชาตญาณ แต่นับความบังเอิญเป็นฝีมือ จึงประเมินความเก่งของผู้วัดสูงเกินจริงเสมอ
% Specific agreement (Yes: \(2a/((a+c)+(a+b))\); No: \(2d/((d+c)+(d+b))\)) เผยว่า category เฉพาะ ใดเป็นจุดอ่อน แม้ความสอดคล้องโดยรวมจะดูดี
Cohen's Kappa \(= (p_o - p_e)/(1 - p_e)\) แก้เรื่องความบังเอิญ; ในตัวอย่างเอกซเรย์ agreement ดิบ 85% กลายเป็น \(\kappa = 0.70\) ค่า Kappa ติดลบได้ (observed < chance) และ interpretation bands ของ Landis–Koch เป็น arbitrary จงรายงานตัวเลขและบริบท
Weighted Kappa ให้คะแนนบางส่วนบน ordinal scale เลือก linear เมื่อความเสียหายโตตามขนาดความคลาดเคลื่อนแบบสัดส่วน, quadratic เมื่อความคลาดเคลื่อนเล็กแทบไม่สำคัญแต่การพลาดครั้งใหญ่เสียหายเกินสัดส่วน ในตัวอย่าง 3 ระดับ quadratic weighting ให้ \(p_{o(w)} = 0.90\), \(p_{e(w)} = 0.72\) จึงได้ \(\kappa_w = 0.64\)
ICC แทนที่ weighted Kappa ได้สำหรับ ordinal outcome ที่มีหลายลำดับ (หรือมี rater มากกว่าสองคน) โดยไม่ต้องเลือก weight scheme

References

de Vet HCW, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003;56:1137–41.
Mokkink LB, Terwee CB, Patrick DL, et al. The COSMIN checklist. Qual Life Res. 2010;19:539–49.
Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37–46.
Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159–74.
Shrout PE, Fleiss JL. Intraclass correlations. Psychol Bull. 1979;86:420–28.
McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996;1:30–46.
Koo TK, Li MY. A guideline of selecting and reporting ICC. J Chiropr Med. 2016;15:155–63.
Bland JM, Altman DG. Statistical methods for assessing agreement. Lancet. 1986;1:307–10.
Gwet KL. Computing inter-rater reliability in the presence of high agreement. Br J Math Stat Psychol. 2008;61:29–48.
Parmar M, Naqvi SAA, et al. Collaborative large language models for screening in systematic reviews. medRxiv. 2026.

From Sensitivity to Kappa (5-part series): (1) Performance vs Agreement [01_performance_vs_agreement] · (2) Agreement vs Reliability [02_agreement_vs_reliability] · (3) Reliability designs [03_reliability_designs] · (4) Categorical — kappa [04_categorical_kappa] · (5) Continuous — ICC & agreement [05_continuous_icc_agreement]