ทำไม Sensitivity จึงไม่ใช่ Kappa: Performance vs Agreement

บทคัดย่อ

โมเดลภาษาขนาดใหญ่ถูกนำมาใช้คัดกรองบทคัดย่อสำหรับการทบทวนวรรณกรรมอย่างเป็นระบบมากขึ้นเรื่อยๆ ทำให้เกิดคำถามว่าควรประเมินความถูกต้องของเครื่องมือเหล่านี้อย่างไรให้ดีที่สุด แพทย์และนักวิจัยทางคลินิกต้องแยกแยะอย่างเคร่งครัดระหว่าง performance ที่วัดเทียบกับมาตรฐานอ้างอิง และ agreement ระหว่างผู้ประเมินที่เป็นอิสระต่อกัน เนื่องจากความชุกของการศึกษาที่เกี่ยวข้องนั้นต่ำมาก การพึ่งพา agreement แบบดิบจึงนำไปสู่ prevalence trap ที่อันตราย ตัวอย่างเช่น ปัญญาประดิษฐ์ที่หลับหูหลับตาคัดออกทั้ง 1,000 บทคัดย่อซึ่งมีการคัดเข้าที่แท้จริงเพียง 20 บทคัดย่อ อาจได้คะแนน agreement ถึง 98% ในขณะที่ให้ค่า recall เป็น 0% เนื่องจากการพลาดการศึกษาที่สำคัญเป็นข้อผิดพลาดที่ยอมรับไม่ได้ เครื่องมือคัดกรองจึงต้องถูกประเมินเบื้องต้นด้วยตัวชี้วัด performance เช่น recall ซึ่งในปัจจุบันโมเดลแบบ collaborative สามารถทำได้สูงถึงประมาณ 99% แม้ว่าสถิติ inter-rater agreement จะทำหน้าที่เป็นมาตรวัด reliability รองลงมา แต่นักวิจัยก็ควรให้ความสำคัญกับ Gwet's AC1 มากกว่า Cohen's kappa เพื่อหลีกเลี่ยงคะแนนที่ต่ำอย่างขัดแย้งจากเหตุการณ์ที่เกิดขึ้นยาก บทความนี้อธิบายความแตกต่างพื้นฐานระหว่างตัวชี้วัด performance และ agreement พร้อมทั้งแสดงให้เห็นว่าเหตุใดจึงต้องให้ความสำคัญกับ recall เป็นอันดับแรกเมื่อประเมินเครื่องมือคัดกรองอัตโนมัติ

Introduction

ลองนึกภาพว่าคุณกำลังนำเสนองานในเซมินาร์ทาง clinical epidemiology คุณสร้าง pipeline ที่ให้ large language model (LLM) ทำหน้าที่ screen abstract สำหรับ systematic review ควบคู่ไปกับ human reviewer ทั้งสองฝ่ายทำงานที่มองเห็นได้เหมือนกันทุกอย่าง คือดู abstract แต่ละชิ้นแล้วตีตราว่า Include หรือ Exclude ดังนั้นคำถามคม ๆ จึงโผล่ขึ้นมาในห้อง เป็นคำถามที่นัก clinical epidemiology ตัวจริงจะถามคุณแน่นอน

ถ้าสุดท้ายทั้งคนและ AI ก็แค่ label study เหมือนกัน แล้วทำไมไม่รายงาน inter-rater agreement (ค่า kappa) ระหว่างทั้งสองไปเลยให้จบ?

มันฟังดูแทบจะเป็นเรื่องธรรมดา มี rater สองคน ใช้ label เดียวกัน การสรุปที่เป็นธรรมชาติที่สุดก็น่าจะเป็น "ทั้งสองเห็นตรงกันบ่อยแค่ไหน" บทความนี้คือคำตอบอย่างละเอียดว่าทำไม intuition นั้น แม้จะดูสมเหตุสมผล กลับเป็นการตอบ คำถามผิด สำหรับงาน screening เราจะแยกสอง concept ที่หน้าตาเหมือนกันเป๊ะแต่ต่างกันโดยเนื้อแท้ออกจากกัน นั่นคือ performance (rater เก่งแค่ไหน วัดเทียบกับความจริง) กับ agreement / reliability (rater สองคนเหมือนกันแค่ไหน โดยไม่มีความจริงเข้ามาเกี่ยว) การเข้าใจความต่างนี้ให้ถูกต้องคือรากฐานทั้งหมดของซีรีส์ 5 ตอนนี้ เราจึงจะค่อย ๆ ก่อร่างมันขึ้นมาพร้อมตัวเลขที่คำนวณให้เห็นจริง

เรื่องนี้สำคัญในทางปฏิบัติ เพราะ paper สำคัญด้าน LLM-screening ทั้งงาน collaborative-LLM ของ Parmar และคณะ และงานประเมินคู่ขนานของ Laignelot ต่างจงใจรายงาน performance (sensitivity/recall, specificity, precision) ไม่ใช่ค่า kappa เมื่ออ่านจบ คุณจะอธิบายได้อย่างที่กรรมการสอบพอใจว่าทำไมจึงเป็นเช่นนั้น

⤢ click to enlarge

Figure. Agreement (rater สองคนเหมือนกันแค่ไหน โดยไม่มี external truth) เทียบกับ reliability และ performance (rater เทียบกับ reference standard) — สะพานเชิงแนวคิดของทั้งซีรีส์

ปริศนาเปิดเรื่อง: สองคำถามที่ซ่อนอยู่ใต้งานเดียวกัน

นี่คือกับดัก งาน (task) คือการ label study เป็น Include/Exclude ซึ่งเหมือนกันทุกประการไม่ว่าคุณจะวัด performance หรือ agreement แต่สิ่งที่กำหนดว่าสถิติตัวไหนถูกต้อง คือ คำถามที่คุณถามเกี่ยวกับงานนั้น ต่างหาก Parmar และ Laignelot ไม่ได้ถามคำถามเรื่อง agreement เป็นหลักเลย เขาถามคำถามเรื่อง performance และนั่นเปลี่ยนทุกอย่าง

มาทำให้สองคำถามนี้ชัดเจน

คำถาม A — คำถามเรื่อง performance ใช้ sensitivity / PPA (positive percent agreement) เมื่อคุณอยากรู้ว่า

"AI สามารถแทน human reviewer คนหนึ่งได้ไหม?"

ให้เห็นเป็นรูปธรรม สมมติ human reviewer เดิม include ได้ 100 paper และ AI include study ที่ควร include ได้ 95 จาก 100 นั้น

\[ \text{Recall} = \frac{95}{100} = 95\% \]

นี่คือคำพูดเกี่ยวกับ performance ว่า AI ดึง study ที่ ควร ดึงกลับมาได้ดีแค่ไหน วัดเทียบกับ reference standard (ในที่นี้คือ study ที่ควร include จริง ๆ) ไม่ใช่คำพูดเรื่อง agreement

คำถาม B — คำถามเรื่อง agreement ใช้สถิติ inter-rater (Cohen's kappa, Fleiss' kappa, Gwet's AC1) เมื่อคุณอยากรู้ว่า

"AI กับคนตัดสินตรงกันบ่อยแค่ไหน?"

ตรงนี้คุณสร้างตารางไขว้ของ raw label จาก rater ทั้งสอง เช่น

Study	Human	AI
1	Include	Include
2	Include	Exclude
3	Exclude	Exclude

…แล้วคำนวณ kappa จากความถี่ที่ช่องตรงกัน สังเกตว่าในคำถาม B ไม่มีอะไรอ้างถึง ความจริง เลย ไม่มี reference standard มีแต่ความเห็นสองชุดที่เอามาเทียบกันเอง

ตาราง vocabulary ที่ต้องจำให้ขึ้นใจ

ความสับสนครึ่งหนึ่งในเรื่องนี้มาจาก vocabulary คือ concept เดียวกันแต่มีหลายชื่อข้ามสาย diagnostic-testing, machine-learning และ clinimetrics ตรึงมันไว้ให้แน่นเสียทีเดียว

Term	ชื่อพ้อง / synonyms	วัดอะไร	ต้องมี reference (ความจริง) ไหม	หมวด
Sensitivity	Recall, PPA (positive percent agreement), true-positive rate	ในบรรดา study ที่ควร include rater include ได้กี่ส่วน	ต้องมี	Performance
Specificity	NPA (negative percent agreement), true-negative rate	ในบรรดา study ที่ควร exclude rater exclude ได้กี่ส่วน	ต้องมี	Performance
Precision	PPV (positive predictive value)	ในบรรดา study ที่ rater บอกว่า include มีกี่ส่วนที่ควร include จริง	ต้องมี	Performance
NPV	Negative predictive value	ในบรรดา study ที่ rater บอกว่า exclude มีกี่ส่วนที่ควร exclude จริง	ต้องมี	Performance
Cohen's kappa	κ (สอง rater)	agreement ระหว่าง rater สองคน หลังแก้ค่า chance	ไม่ต้อง	Agreement / reliability
Fleiss' kappa	(≥ 3 rater)	agreement หลังแก้ chance ในกลุ่ม rater หลายคน	ไม่ต้อง	Agreement / reliability
Gwet's AC1	AC1	agreement หลังแก้ chance ทนทานต่อ category ที่หายาก	ไม่ต้อง	Agreement / reliability
ICC	Intraclass correlation coefficient	reliability ของการให้คะแนนแบบ continuous/ordinal	ไม่ต้อง	Reliability / agreement

อ่านคอลัมน์ที่สามกับสี่คู่กัน ทุกตัวในตระกูล performance วัดเทียบกับความจริง ส่วนทุกตัวในตระกูล agreement/reliability เทียบ rater กันเองโดย ไม่มีความจริง เลย คอลัมน์เดียวนั้น คือ "ต้องมี reference ไหม" เป็นวิธีที่สะอาดที่สุดในการแยกสองโลกออกจากกัน

กับดัก prevalence: ตัวอย่างที่คำนวณให้เห็นเต็ม ๆ

ตอนนี้เราจะแสดงให้เห็นว่า ทำไม สถิติ agreement จึงทำให้เข้าใจผิดได้อย่างอันตรายในงาน screening ตัวร้ายคือ low prevalence นั่นคือข้อเท็จจริงที่ว่าใน systematic review จริง abstract ส่วนใหญ่ล้นหลามเป็นของที่ต้อง exclude มีเพียงส่วนน้อยนิดเท่านั้นที่เป็น include จริง

มาไล่ทีละขั้น

ตั้ง pool ของ screening คุณมี 1,000 abstract ความจริงคือมีเพียง 20 ชิ้นเท่านั้นที่ควร include จริง ส่วนอีก 980 ควร exclude ซึ่งสมจริงมาก เพราะอัตรา include 1–3% เป็นเรื่องปกติในขั้น title/abstract screening
ใส่ AI ขี้เกียจเข้าไป นึกถึง AI ที่ใช้กลยุทธ์เสื่อม คือ label ทุกอย่าง เป็น "Exclude" ไม่ include อะไรเลย
ให้คะแนน human เทียบกับ AI (มุมมอง agreement) human (ทำงานอย่างถูกต้อง) exclude 980 ชิ้นที่ควร exclude ส่วน AI ก็ exclude ทั้ง 1,000 ดังนั้นบน 980 ชิ้นที่เป็น true exclude ทั้งสองเห็นตรงกันเป๊ะ ต่างกันแค่บน 20 ชิ้นที่เป็น true include ค่า raw observed agreement คือ

\[ \text{Agreement} = \frac{980}{1000} = 98\% \]

agreement 98% ดูตระการตา คุณเอาขึ้นสไลด์แล้วภูมิใจได้เลย

คราวนี้ให้คะแนน AI เทียบกับความจริง (มุมมอง performance) ในบรรดา study ที่ควร include จริง 20 ชิ้น AI include ได้กี่ชิ้น? ศูนย์ ดังนั้น

\[ \text{Recall} = \frac{0}{20} = 0\% \]

AI จับ study ที่สำคัญได้ ศูนย์ชิ้น ค่า "agreement 98%" ของมันเป็นภาพลวงตาที่ปั้นขึ้นมาทั้งหมดจาก 980 ชิ้นที่ exclude ง่าย ๆ

Metric	ค่า	สิ่งที่มันซ่อน / เปิดเผย
Observed agreement (Human vs AI)	98%	ถูกพองด้วย 980 true-exclude ที่ง่าย
Recall / sensitivity (AI vs ความจริง)	0%	AI พลาด study ที่ควร include ทุกชิ้น

สถิติที่อ่านได้ว่า agreement 98% ขณะที่ recall เป็น 0% ไม่ได้กำลังวัดความเก่ง แต่กำลังวัดว่า positive หายากแค่ไหนต่างหาก agreement สูง ไม่ได้ แปลว่า "เก่ง"

ทำไม screening จึงเป็น recall-first

กับดัก prevalence อธิบายกฎทางวัฒนธรรมของ screening ใน systematic review ว่า recall ต้องมาก่อน เพราะ error สองแบบที่เป็นไปได้นั้น ไม่สมมาตร กัน

false exclude (โยน study ที่ควร include ทิ้ง) อาจถึงตายต่อ review เพราะ trial ที่พลาดไปสามารถเปลี่ยน pooled effect ได้ และมันแทบมองไม่เห็น คุณไม่มีวันรู้ว่าทิ้งอะไรไป
false include (ปล่อย study ที่ควร exclude ผ่านไป) แค่กวนใจ เพราะมันจะถูกจับและคัดออกในขั้น full-text screening เสียเวลานิดหน่อย

จึงเกิดเป็นคติว่า

Missing a study is the unacceptable error. (การพลาด study คือ error ที่ยอมรับไม่ได้)

เพราะต้นทุนของ error สองแบบนี้เอียงข้างกันมาก เราจึงปรับและตัดสินเครื่องมือ screening จากความสามารถใน การไม่พลาด นั่นคือ recall (sensitivity) ก่อนจะไปสนใจอย่างอื่น สถิติ agreement ไม่ได้เข้ารหัสความไม่สมมาตรนี้ไว้เลย ค่า kappa มอง missed include กับ wrongly-kept exclude ว่าเป็น disagreement ชนิดเดียวกัน นี่คือเหตุผลที่สองว่าทำไม agreement จึงเป็นตัวเลขพาดหัวที่ผิดสำหรับ screening

นี่ยังเป็นเหตุผลที่วงการ LLM-screening รายงานตัวเลขแบบที่มันรายงานด้วย model เดี่ยว ๆ ก็ทำ recall-for-inclusion ได้สูงอยู่แล้ว ในงานของ Parmar และคณะ GPT-4 ได้ 95.5%, Claude-3 Sonnet 96.6% และ Gemini 85.7% เมื่อนำ model มารวมกันเป็น ensemble แบบ collaborative recall ยิ่งสูงขึ้น ขึ้นไปได้ราว ~99% ขณะที่ precision-for-exclusion อยู่ราว ~99.7% ทุกตัวที่ว่ามาเป็นตัวเลข performance วัดเทียบกับ reference ที่มนุษย์กำหนดไว้ว่าอะไรคือ true include และ true exclude ไม่มีตัวไหนเป็น kappa เลย และนั่นเป็นความตั้งใจ

inter-rater agreement มีที่ทางที่ชอบธรรมตรงไหน

ทั้งหมดนี้ไม่ได้แปลว่าสถิติ agreement ไร้ประโยชน์ เพียงแต่มันตอบคำถามที่ ต่างออกไป และเป็นคำถามรอง มีที่ทางที่เหมาะสมอยู่จริง และ reviewer ที่คิดรอบคอบของ paper Parmar อาจถามหามันด้วยซ้ำ ลองพิจารณาคำถาม agreement ที่ชอบธรรมเหล่านี้

AI vs AI "What is the agreement between GPT-4 and Claude?" ตรงนี้ไม่มี reference standard ที่คุณยกให้สูงกว่าจริง ๆ คุณแค่อยากรู้ว่า model สองตัวใช้แทนกันได้แค่ไหน kappa หรือ AC1 เหมาะเป๊ะ
AI vs human ในฐานะ reliability ไม่ใช่ performance "What is the agreement between AI reviewers and human reviewers?" ถ้าความสนใจทางวิทยาศาสตร์ของคุณคือ reliability คือ AI จะยืนแทน human reviewer คนที่สองใน workflow แบบ dual-screening ได้ไหม สถิติ inter-rater ก็เหมาะสม ในฐานะ secondary analysis ควบคู่ไปกับ recall (ไม่ใช่แทนที่ recall)

นี่เป็น secondary analysis ที่มีคุณค่า แต่ตรงนี้ kappa paradox กลับมากัดเราอีกครั้ง ภายใต้ low prevalence ตัวเดียวกับที่สร้างกับดัก prevalence ค่า Cohen's kappa สามารถดิ่งลงเหลือค่า ต่ำ ได้ แม้ raw agreement จะสูงมาก เพราะพจน์ chance-correction ของ kappa จะไม่เสถียรเมื่อ category หนึ่งหายาก คุณอาจได้ raw agreement 98% แต่ kappa ที่ดูแย่อย่างน่าอาย ซึ่งเป็นภาพกระจกสะท้อนของปัญหา inflation นี่คือพฤติกรรมที่มีบันทึกชัดเจนและเป็นสิ่งที่ Gwet ตั้งใจแก้

ดังนั้นจุดยืนที่ซื่อตรงจึงเป็นแบบเป็นชั้น - คำถามหลัก = performance → รายงาน recall/sensitivity (PPA) และ specificity (NPA) เทียบ reference นี่คือสิ่งที่ Parmar และ Laignelot ทำ - คำถามรอง = reliability → รายงาน agreement ได้ แต่ภายใต้ low prevalence ควรเลือก Gwet's AC1 แทน Cohen's kappa เพื่อเลี่ยง paradox

วิธีตอบเมื่ออาจารย์ถาม

รวบทั้งหมดเป็นย่อหน้าเดียวที่ลื่นไหล พร้อมพูดได้ทันทีเมื่อโดนซัก

"Parmar และ Laignelot สนใจ performance ของ LLM ในฐานะ reviewer replacement จึงรายงาน PPA/NPA คือ recall และ specificity เทียบกับ reference standard ที่มนุษย์กำหนด การรายงาน kappa แทนจะเป็นการตอบคนละคำถาม และภายใต้ include-prevalence ที่ต่ำมากของ screening ค่าจะบิดเบี้ยว เพราะ raw agreement ถูกพองด้วย category 'Exclude' ที่ครองสัดส่วน ขณะที่ Cohen's kappa อาจดิ่งลงอย่างย้อนแย้ง แต่หากคำถามเปลี่ยนเป็นเรื่อง reliability ระหว่าง AI กับมนุษย์ หรือระหว่าง AI สองตัว การวิเคราะห์ inter-rater เช่น Cohen's kappa หรือที่ดีกว่าภายใต้ rare event คือ Gwet's AC1 ก็จะเป็น secondary analysis ที่เหมาะสม"

คำตอบนี้ทำให้กรรมการพยักหน้า เพราะมันทำสิ่งที่สำคัญที่สุดข้อเดียว คือแยก performance ออกจาก agreement ได้อย่างสะอาด เรียกชื่อกับดัก prevalence และ kappa paradox ได้ และวางสถิติแต่ละตัวไว้บนคำถามที่ถูกต้อง

Key takeaways

Performance (sensitivity/recall = PPA, specificity = NPA, precision/PPV, NPV) วัด เทียบกับ reference standard ส่วน agreement / reliability (Cohen's & Fleiss' kappa, Gwet's AC1, ICC) เทียบ rater กันเองโดยไม่มีความจริง คอลัมน์ "ต้องมี reference ไหม" คือเส้นแบ่ง
กับดัก prevalence: ด้วย 1,000 abstract และ true include เพียง 20 ชิ้น AI ที่ exclude ทุกอย่างได้ agreement 98% แต่ recall 0% agreement สูงไม่ใช่ความเก่ง
screening เป็น recall-first เพราะ missing a study is the unacceptable error false exclude มองไม่เห็นและอาจถึงตาย ส่วน false include ถูกจับได้ภายหลัง
paper ด้าน LLM-screening รายงาน performance ไม่ใช่ kappa: GPT-4 recall 95.5%, Claude-3S 96.6%, Gemini 85.7%, collaborative recall สูงถึง ~99%, precision-for-exclusion ~99.7%
inter-rater agreement เป็น secondary analysis ที่ชอบธรรม (AI vs AI, AI vs human ในฐานะ reliability) ภายใต้ low prevalence ควรเลือก Gwet's AC1 เพื่อเลี่ยง kappa paradox
คำตอบระดับสอบได้แยก performance ออกจาก agreement และจับคู่สถิติแต่ละตัวกับคำถามที่ถูกต้อง

References

de Vet HCW, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003;56:1137–41.
Mokkink LB, Terwee CB, Patrick DL, et al. The COSMIN checklist. Qual Life Res. 2010;19:539–49.
Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37–46.
Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159–74.
Shrout PE, Fleiss JL. Intraclass correlations. Psychol Bull. 1979;86:420–28.
McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996;1:30–46.
Koo TK, Li MY. A guideline of selecting and reporting ICC. J Chiropr Med. 2016;15:155–63.
Bland JM, Altman DG. Statistical methods for assessing agreement. Lancet. 1986;1:307–10.
Gwet KL. Computing inter-rater reliability in the presence of high agreement. Br J Math Stat Psychol. 2008;61:29–48.
Parmar M, Naqvi SAA, et al. Collaborative large language models for screening in systematic reviews. medRxiv. 2026.

From Sensitivity to Kappa (5-part series): (1) Performance vs Agreement [01_performance_vs_agreement] · (2) Agreement vs Reliability [02_agreement_vs_reliability] · (3) Reliability designs [03_reliability_designs] · (4) Categorical — kappa [04_categorical_kappa] · (5) Continuous — ICC & agreement [05_continuous_icc_agreement]