← All posts

AUPRC: ทำไม AUROC เพียงอย่างเดียวจึงไม่เพียงพอสำหรับข้อมูลที่ไม่สมดุล

Clinical Epidemiology ResearchData Analytics or Statistics
AUPRC: ทำไม AUROC เพียงอย่างเดียวจึงไม่เพียงพอสำหรับข้อมูลที่ไม่สมดุล

บทนำ

ในการพัฒนาแบบจำลองพยากรณ์ทางคลินิก การประเมินสมรรถนะของแบบจำลองเป็นขั้นตอนสำคัญเพื่อพิจารณาว่าแบบจำลองนั้นมีประโยชน์ต่อการใช้งานจริงหรือไม่ ตัวชี้วัดที่นิยมใช้กันอย่างแพร่หลายคือ Area Under the Receiver Operating Characteristic Curve (AUROC) ซึ่งใช้ประเมินความสามารถในการจำแนกผู้ที่มีและไม่มีผลลัพธ์ อย่างไรก็ตาม ในกรณีที่ผลลัพธ์ที่สนใจเกิดขึ้นได้น้อยหรือเป็นเหตุการณ์หายาก AUROC อาจให้ภาพที่ดีเกินจริงเกี่ยวกับสมรรถนะของแบบจำลอง

ในสถานการณ์เช่นนี้ Area Under the Precision–Recall Curve (AUPRC) เป็นตัวชี้วัดที่เหมาะสมกว่า เพราะเน้นเฉพาะความสามารถของแบบจำลองในการระบุผู้ที่เกิดผลลัพธ์จริง หรือ positive class ดังนั้น AUPRC จึงมีความสำคัญอย่างยิ่งในข้อมูลที่มีความไม่สมดุลของผลลัพธ์ เช่น การพยากรณ์ภาวะแทรกซ้อนรุนแรงที่พบได้น้อยในห้องฉุกเฉินหรือหอผู้ป่วยวิกฤต


กรอบแนวคิดของ AUPRC

Precision–Recall Curve สร้างจากความสัมพันธ์ระหว่างตัวชี้วัด 2 ค่า ได้แก่

AUPRC สรุปความสัมพันธ์ระหว่าง precision และ recall ตลอดทุกค่าของ threshold จึงสะท้อนความสามารถของแบบจำลองในการระบุผู้ป่วยกลุ่มที่เกิดเหตุการณ์ได้โดยตรง


ค่าพื้นฐานของ AUPRC

ลักษณะสำคัญของ AUPRC คือ ค่าพื้นฐานของมันไม่คงที่ แต่ขึ้นอยู่กับ ความชุกของผลลัพธ์ ในข้อมูล

ต่างจาก AUROC ซึ่งแบบจำลองที่ไม่มีความสามารถในการพยากรณ์จะมีค่าใกล้ 0.5 เสมอ แบบจำลองที่ไม่มีข้อมูลเชิงพยากรณ์ใน AUPRC จะมีค่าใกล้กับความชุกของผลลัพธ์นั้นเอง ดังนั้น การตีความ AUPRC จึงต้องพิจารณาร่วมกับ prevalence เสมอ


เหตุใด AUROC จึงอาจทำให้เข้าใจผิดในข้อมูลที่ไม่สมดุล

พิจารณาตัวอย่างทางคลินิกดังนี้

สถานการณ์ทางคลินิก

มีการพัฒนาแบบจำลองเพื่อพยากรณ์ภาวะ septic shock ในห้องฉุกเฉิน

นี่เป็นตัวอย่างของข้อมูลที่มีความไม่สมดุลอย่างชัดเจน เพราะผู้ที่ไม่เกิดเหตุการณ์มีจำนวนมากกว่ามาก


ตัวอย่างผลการประเมินแบบจำลอง

แบบจำลอง A

เมื่อดูเพียง AUROC อาจสรุปได้ว่าแบบจำลองนี้มีสมรรถนะดีมาก เพราะสามารถแยกผู้ที่เกิดและไม่เกิดผลลัพธ์ได้ดี อย่างไรก็ตาม ข้อสรุปนี้อาจทำให้เข้าใจผิด


ที่มาของความคลาดเคลื่อนในการตีความ

AUROC ประเมินความสามารถในการจำแนกระหว่างผู้ที่เกิดและไม่เกิดผลลัพธ์โดยรวม ในข้อมูลนี้ ผู้ป่วยส่วนใหญ่ 9,900 รายไม่ได้เกิด septic shock ดังนั้น แบบจำลองจะได้รับ “เครดิต” มากจากการจำแนกผู้ที่ไม่เกิดเหตุการณ์ได้ถูกต้อง แม้ว่าจะยังตรวจจับผู้ป่วยที่เกิดเหตุการณ์จริงได้ไม่ดีนักก็ตาม

แต่ในทางคลินิก สิ่งที่สำคัญกว่าคือการระบุผู้ป่วย 100 รายที่เกิด septic shock ให้ได้อย่างแม่นยำ


ตัวอย่างการทำนายในระดับ threshold

สมมติว่าเมื่อกำหนด threshold หนึ่ง แบบจำลอง A ทำนายว่ามีผู้ป่วยความเสี่ยงสูง 200 ราย โดยในจำนวนนี้

จึงคำนวณได้ว่า

Recall=20/100=0.20
Precision=20/200=0.10

ผลลัพธ์นี้หมายความว่าแบบจำลองตรวจพบผู้ป่วยจริงได้เพียง 20% และในบรรดาผู้ที่ถูกทำนายว่าเสี่ยงสูง มีเพียง 10% เท่านั้นที่เป็นผู้ป่วยจริง

ในเชิงคลินิก แบบจำลองลักษณะนี้จะก่อให้เกิดสัญญาณเตือนเกินความจำเป็นจำนวนมาก ขณะเดียวกันก็พลาดผู้ป่วยจริงส่วนใหญ่


AUPRC ช่วยสะท้อนข้อจำกัดนี้อย่างไร

ในข้อมูลนี้ ค่าพื้นฐานของ AUPRC เท่ากับความชุกของผลลัพธ์ คือ

Baseline=0.01

ส่วนค่าที่ได้จากแบบจำลอง A คือ

AUPRC=0.08

แม้ค่า 0.08 จะสูงกว่าค่าพื้นฐาน 0.01 แต่ยังถือว่าต่ำในเชิงคลินิก เพราะแสดงว่าแบบจำลองยังมีข้อจำกัดมากในการระบุผู้ป่วยที่เกิดเหตุการณ์จริงอย่างแม่นยำ

กล่าวอีกนัยหนึ่ง แบบจำลองนี้ดูดีเมื่อประเมินด้วย AUROC แต่เมื่อพิจารณาด้วย AUPRC จะพบว่าความสามารถในการใช้จริงเพื่อค้นหาผู้ป่วยกลุ่มเสี่ยงยังไม่ดีพอ


ตัวอย่างแบบจำลองที่ดีขึ้น

แบบจำลอง B

แม้ค่า AUROC จะใกล้เคียงกับแบบจำลอง A แต่ AUPRC สูงขึ้นอย่างชัดเจน

เมื่อเทียบกับค่าพื้นฐาน 0.01 ค่า AUPRC เท่ากับ 0.40 หมายถึงแบบจำลองมีสมรรถนะดีกว่าการเดาสุ่มประมาณ 40 เท่า สะท้อนว่าแบบจำลองสามารถระบุผู้ป่วยที่เกิดเหตุการณ์จริงได้ดีขึ้น และลดผลบวกลวงลงได้มากกว่าเดิม

ในเชิงคลินิก แบบจำลอง B จึงมีประโยชน์มากกว่า แม้ค่า AUROC จะไม่ได้แตกต่างจากแบบจำลอง A มากนัก


ความแตกต่างระหว่าง AUROC และ AUPRC

AUROC และ AUPRC ตอบคำถามคนละแบบ

ในข้อมูลที่ผลลัพธ์เกิดได้น้อย AUPRC จึงสะท้อนประโยชน์ทางคลินิกได้ตรงกว่า


ข้อเสนอแนะในการรายงานผล

เมื่อรายงาน AUPRC ในงานวิจัย ควรรายงานองค์ประกอบต่อไปนี้ร่วมกัน

  1. ค่า AUPRC ที่ได้
  2. ความชุกของผลลัพธ์ เพื่อใช้เป็นค่าพื้นฐานในการตีความ
  3. ช่วงความเชื่อมั่น หากมี
  4. ค่าที่ผ่านการ internal validation เช่น optimism-corrected AUPRC จาก bootstrapping หรือ cross-validation

การรายงานองค์ประกอบเหล่านี้จะช่วยให้การตีความมีความโปร่งใสและน่าเชื่อถือมากขึ้น


บทสรุป

AUPRC เป็นตัวชี้วัดที่มีความสำคัญมากในการประเมินแบบจำลองพยากรณ์เมื่อข้อมูลมีความไม่สมดุลของผลลัพธ์ โดยเฉพาะในกรณีที่เหตุการณ์ที่สนใจเกิดขึ้นได้น้อย แม้ AUROC จะยังมีประโยชน์ในการประเมิน discrimination โดยรวม แต่ก็อาจให้ภาพที่ดีเกินจริงได้ในข้อมูลลักษณะนี้

ในทางตรงกันข้าม AUPRC ช่วยสะท้อนโดยตรงว่าแบบจำลองสามารถระบุผู้ป่วยที่เกิดเหตุการณ์จริงได้ดีเพียงใด ดังนั้น สำหรับผลลัพธ์หายาก การตีความสมรรถนะของแบบจำลองควรพิจารณา AUPRC ร่วมกับ AUROC และเปรียบเทียบกับค่าความชุกของผลลัพธ์เสมอ


ประเด็นสำคัญ