การประเมิน Calibration ของ Logistic Regression Model ด้วย Hosmer–Lemeshow Test และ Calibration Plot

Mayta
6ชั่วโมง
ยาว 3 นาที

บทนำ

ในการพัฒนา prediction model ทางคลินิก โดยเฉพาะ logistic regression model การประเมินประสิทธิภาพของโมเดลไม่ได้พิจารณาเฉพาะความสามารถในการแยกผู้ที่เกิดและไม่เกิดเหตุการณ์เท่านั้น แต่ยังต้องพิจารณาความสอดคล้องระหว่างความน่าจะเป็นที่โมเดลทำนายกับเหตุการณ์ที่เกิดขึ้นจริง หรือที่เรียกว่า calibration ด้วย

ตัวอย่างเช่น หากโมเดลทำนายว่ากลุ่มผู้ป่วยกลุ่มหนึ่งมีความเสี่ยงเสียชีวิตภายใน 30 วันเท่ากับ 20% เมื่อพิจารณาในความเป็นจริง ผู้ป่วยในกลุ่มนั้นก็ควรมีอัตราการเสียชีวิตใกล้เคียง 20% จึงจะถือว่าโมเดลมี calibration ที่ดี หากโมเดลทำนายสูงหรือต่ำกว่าความเป็นจริงอย่างเป็นระบบ อาจนำไปสู่การตัดสินใจทางคลินิกที่ไม่เหมาะสม เช่น การให้การรักษาเข้มข้นเกินจำเป็น หรือการประเมินความเสี่ยงต่ำเกินจริง

เครื่องมือที่ใช้ประเมิน calibration อย่างแพร่หลาย ได้แก่ Hosmer–Lemeshow test และ calibration plot ซึ่งทั้งสองวิธีมีเป้าหมายเดียวกัน คือประเมินว่า predicted probability จากโมเดลสอดคล้องกับ observed probability มากน้อยเพียงใด แต่มีวิธีนำเสนอข้อมูลและข้อจำกัดต่างกัน

ความหมายของ Calibration

Calibration หมายถึงระดับความสอดคล้องระหว่างค่าความน่าจะเป็นที่โมเดลทำนายกับความน่าจะเป็นที่เกิดขึ้นจริงในข้อมูล หากโมเดลมี calibration ดี ความเสี่ยงที่โมเดลรายงานจะใกล้เคียงกับความเสี่ยงที่สังเกตได้จริงในผู้ป่วยที่มีระดับความเสี่ยงใกล้เคียงกัน

กล่าวอีกแบบหนึ่ง calibration ตอบคำถามว่า

"โมเดลทำนายความเสี่ยงได้ตรงกับโลกจริงหรือไม่"

ตัวอย่างเช่น หากผู้ป่วย 100 คนถูกโมเดลทำนายว่ามีความเสี่ยงเกิดเหตุการณ์เท่ากับ 30% เราคาดหวังว่าควรมีผู้ป่วยประมาณ 30 คนที่เกิดเหตุการณ์นั้นจริง หากเกิดขึ้นจริงเพียง 10 คน แสดงว่าโมเดล overestimate risk แต่หากเกิดขึ้นจริง 50 คน แสดงว่าโมเดล underestimate risk

แนวคิดนี้มีความสำคัญอย่างยิ่งใน clinical prediction model เพราะแพทย์ไม่ได้ใช้เพียงการจัดอันดับความเสี่ยง แต่ใช้ค่าความเสี่ยงเชิงปริมาณในการสื่อสารกับผู้ป่วย วางแผนการรักษา และตัดสินใจเลือก intervention ต่าง ๆ

Hosmer–Lemeshow Test คืออะไร

Hosmer–Lemeshow test เป็น goodness-of-fit test สำหรับ logistic regression model ที่ใช้ประเมิน calibration ของโมเดล โดยตรวจสอบว่าจำนวนเหตุการณ์ที่โมเดลคาดการณ์ไว้ใกล้เคียงกับจำนวนเหตุการณ์ที่เกิดขึ้นจริงหรือไม่ในกลุ่มที่มีระดับ predicted risk ต่างกัน

โดยทั่วไป วิธีการทำงานของการทดสอบนี้ประกอบด้วยขั้นตอนหลักดังนี้

ใช้โมเดลคำนวณ predicted probability สำหรับผู้ป่วยแต่ละราย
เรียงลำดับผู้ป่วยจาก predicted probability ต่ำไปสูง
แบ่งผู้ป่วยออกเป็นหลายกลุ่ม โดยนิยมแบ่งเป็น 10 กลุ่ม หรือ deciles of risk
เปรียบเทียบจำนวน observed events และ expected events ในแต่ละกลุ่ม
คำนวณค่า chi-square statistic เพื่อประเมินความแตกต่างระหว่างค่าที่ทำนายกับค่าที่เกิดขึ้นจริง

หลักการสำคัญคือ หากโมเดลมี calibration ดี จำนวนเหตุการณ์ที่คาดการณ์ไว้ในแต่ละกลุ่มควรใกล้เคียงกับจำนวนเหตุการณ์ที่สังเกตได้จริง แต่หากต่างกันมาก ค่า test statistic จะสูงขึ้น และอาจให้ค่า p-value ต่ำจนสรุปว่าโมเดลไม่สอดคล้องกับข้อมูล

การแปลผล Hosmer–Lemeshow Test

การทดสอบนี้มี null hypothesis ว่า

โมเดลมี calibration ที่ดี หรือ predicted probability ไม่แตกต่างจาก observed probability อย่างมีนัยสำคัญ

ดังนั้นการแปลผลโดยทั่วไปคือ

p-value > 0.05 — ยังไม่มีหลักฐานเพียงพอที่จะสรุปว่าโมเดลไม่ fit กับข้อมูล จึงมักตีความว่า calibration ของโมเดล "ยอมรับได้"
p-value < 0.05 — มีหลักฐานว่าค่าที่โมเดลทำนายแตกต่างจากค่าที่สังเกตได้จริง จึงบ่งชี้ว่าโมเดลอาจมี lack of fit หรือ calibration ไม่ดี

อย่างไรก็ตาม การแปลผลควรระมัดระวัง เพราะค่า p-value ไม่ได้บอกขนาดหรือทิศทางของความคลาดเคลื่อน และไม่สามารถบอกได้ว่าโมเดลผิดพลาดในช่วงความเสี่ยงต่ำ กลาง หรือสูง

ข้อจำกัดของ Hosmer–Lemeshow Test

แม้ Hosmer–Lemeshow test จะถูกใช้มานานและเข้าใจได้ง่าย แต่มีข้อจำกัดสำคัญหลายประการ โดยเฉพาะเรื่องความสัมพันธ์กับ sample size และวิธีการแบ่งกลุ่มข้อมูล

1. ไวต่อ sample size

ข้อจำกัดสำคัญของ Hosmer–Lemeshow test คือผลการทดสอบมีความไวต่อขนาดตัวอย่างอย่างมาก

เมื่อ sample size มีขนาดใหญ่ แม้ความแตกต่างระหว่าง predicted probability กับ observed probability จะมีขนาดเล็กมาก และอาจไม่มีความสำคัญทางคลินิก การทดสอบก็อาจให้ค่า p-value < 0.05 ได้ ทำให้ผู้วิจัยสรุปว่าโมเดลมี lack of fit ทั้งที่ในทางปฏิบัติ โมเดลอาจยังใช้งานได้ดี

ในทางกลับกัน เมื่อ sample size มีขนาดเล็ก แม้โมเดลจะมีปัญหา calibration ค่อนข้างชัด การทดสอบอาจให้ค่า p-value > 0.05 ได้ เนื่องจากมีพลังในการทดสอบไม่เพียงพอ หรือมี low statistical power ส่งผลให้ไม่สามารถตรวจจับความคลาดเคลื่อนของโมเดลได้

กล่าวอย่างง่ายคือ

sample size ใหญ่ → มีโอกาส "จับผิด" โมเดลมากเกินไป
sample size เล็ก → มีโอกาส "มองไม่เห็น" ปัญหาของโมเดล

ดังนั้น การสรุปคุณภาพของ calibration โดยอาศัย Hosmer–Lemeshow test เพียงอย่างเดียวจึงไม่เพียงพอ

2. ขึ้นกับวิธีแบ่งกลุ่มความเสี่ยง

Hosmer–Lemeshow test อาศัยการแบ่ง predicted probability ออกเป็นกลุ่ม เช่น 10 กลุ่ม แต่ผลการทดสอบอาจเปลี่ยนได้ตามจำนวนกลุ่มหรือรูปแบบการจัดกลุ่ม ทำให้ผลมีความไม่เสถียรในบางสถานการณ์

3. ไม่บอกตำแหน่งของปัญหา

ถึงแม้ผลการทดสอบจะบอกว่าโมเดล fit หรือไม่ fit แต่ไม่ได้บอกว่าโมเดลผิดพลาดในช่วงใด เช่น

underestimate risk ในกลุ่มเสี่ยงสูง
overestimate risk ในกลุ่มเสี่ยงต่ำ
มีปัญหาเฉพาะช่วงกลางของความเสี่ยง

ข้อจำกัดนี้ทำให้ผู้วิจัยยังต้องใช้วิธีการประเมินเชิงภาพร่วมด้วย

Calibration Plot คืออะไร

Calibration plot เป็นการประเมิน calibration ในรูปแบบกราฟ โดยนำ predicted probability ไปเปรียบเทียบกับ observed probability เพื่อดูว่าโมเดลทำนายความเสี่ยงได้ใกล้เคียงความเป็นจริงเพียงใด

หลักการของกราฟนี้คือ หากโมเดลมี calibration สมบูรณ์ จุดหรือเส้นของข้อมูลควรอยู่ใกล้เส้นทแยงมุม 45 องศา ซึ่งแทนสมการ

เส้นนี้มักเรียกว่า line of perfect calibration

การดู calibration plot ช่วยให้เห็นลักษณะของความคลาดเคลื่อนของโมเดลได้ชัดเจน เช่น

โมเดลทำนายสูงเกินจริงในผู้ป่วยความเสี่ยงต่ำ
โมเดลทำนายต่ำเกินจริงในผู้ป่วยความเสี่ยงสูง
โมเดล fit ดีเฉพาะบางช่วงของความเสี่ยง

จุดเด่นของ calibration plot คือสามารถแสดง "รูปแบบ" ของ miscalibration ได้ ในขณะที่ค่า p-value จาก Hosmer–Lemeshow test ให้เพียงข้อสรุปเชิงสถิติแบบกว้าง ๆ

ความสัมพันธ์ระหว่าง Hosmer–Lemeshow Test และ Calibration Plot

ทั้ง Hosmer–Lemeshow test และ calibration plot เป็นเครื่องมือที่ใช้ประเมิน calibration ของโมเดลเหมือนกัน แต่ต่างกันในเชิงหน้าที่

Hosmer–Lemeshow test เป็นการประเมินเชิงสถิติ ให้ผลเป็นค่า p-value
Calibration plot เป็นการประเมินเชิงภาพ ช่วยให้เห็นลักษณะและทิศทางของความคลาดเคลื่อน

กล่าวได้ว่า Hosmer–Lemeshow test ตอบคำถามว่า

"มีหลักฐานทางสถิติหรือไม่ว่าโมเดลไม่ fit"

ส่วน calibration plot ตอบคำถามว่า

"โมเดล fit หรือไม่ fit อย่างไร และผิดพลาดตรงช่วงไหน"

ดังนั้นทั้งสองวิธีจึงสัมพันธ์กันในฐานะเครื่องมือประเมินแนวคิดเดียวกัน แต่ calibration plot มักให้ข้อมูลเชิงตีความได้มากกว่า โดยเฉพาะเมื่อต้องพิจารณาความเหมาะสมของโมเดลสำหรับการใช้งานจริงทางคลินิก

เหตุใดจึงไม่ควรใช้ Hosmer–Lemeshow Test เพียงอย่างเดียว

ในงานประเมิน clinical prediction model สมัยใหม่ ไม่แนะนำให้ใช้ Hosmer–Lemeshow test เป็นเกณฑ์เดียวในการตัดสินคุณภาพของ calibration เพราะเหตุผลสำคัญคือ

ค่า p-value ได้รับอิทธิพลจาก sample size มาก
ผลการทดสอบขึ้นกับการแบ่งกลุ่มข้อมูล
ไม่สามารถแสดงทิศทางและขนาดของ miscalibration
อาจทำให้ผู้วิจัยตีความโมเดลผิด ทั้งในกรณี sample size ใหญ่และเล็ก

ด้วยเหตุนี้ การประเมินโมเดลจึงควรพิจารณาร่วมกันหลายมิติ เช่น

discrimination เช่น AUROC หรือ c-statistic
calibration plot
calibration intercept
calibration slope

แนวคิดนี้สอดคล้องกับหลักการประเมิน clinical prediction models ที่เน้นว่า calibration เป็นองค์ประกอบสำคัญของคุณภาพโมเดล และไม่ควรถูกแทนที่ด้วย statistical significance เพียงอย่างเดียว

ความสำคัญของ Calibration ในการใช้งานทางคลินิก

ในทางปฏิบัติ โมเดลที่มี discrimination ดี ไม่ได้หมายความว่าจะมี calibration ดีเสมอไป ตัวอย่างเช่น โมเดลอาจจัดลำดับความเสี่ยงของผู้ป่วยได้ถูกต้องว่าใครเสี่ยงมากกว่าใคร แต่ค่าความเสี่ยงที่รายงานอาจสูงหรือต่ำเกินจริงทั้งหมด

สถานการณ์นี้มีผลต่อการตัดสินใจทางคลินิกอย่างมาก เช่น หากโมเดลทำนายความเสี่ยงสูงเกินจริง แพทย์อาจสั่งตรวจเพิ่มเติมหรือให้การรักษาที่ไม่จำเป็น ในทางตรงกันข้าม หากโมเดลทำนายต่ำเกินจริง อาจทำให้ผู้ป่วยที่ควรได้รับการดูแลใกล้ชิดไม่ได้รับการประเมินความเสี่ยงอย่างเหมาะสม

ดังนั้น calibration จึงมีบทบาทสำคัญโดยเฉพาะในโมเดลที่ถูกใช้เพื่อ

คัดกรองผู้ป่วยเข้าสู่ intervention
ให้คำปรึกษาด้านความเสี่ยง
สนับสนุน shared decision-making
วางแผนการติดตามผล

สรุป

Hosmer–Lemeshow test เป็นเครื่องมือสำหรับประเมิน goodness-of-fit ของ logistic regression model โดยตรวจสอบความสอดคล้องระหว่าง predicted probability และ observed probability ในกลุ่มผู้ป่วยที่มีระดับความเสี่ยงต่างกัน ขณะที่ calibration plot เป็นเครื่องมือเชิงกราฟที่ช่วยแสดงลักษณะของ calibration และรูปแบบของ miscalibration ได้อย่างชัดเจนกว่า

แม้ Hosmer–Lemeshow test จะยังมีประโยชน์ในเชิงรายงานผล แต่ไม่ควรใช้เป็นเกณฑ์ตัดสินเพียงอย่างเดียว เนื่องจากมีความไวต่อ sample size อย่างมาก กล่าวคือ ในกลุ่มตัวอย่างขนาดใหญ่ อาจตรวจพบความแตกต่างเล็กน้อยที่ไม่มีความสำคัญทางคลินิก ส่วนในกลุ่มตัวอย่างขนาดเล็ก อาจไม่สามารถตรวจพบปัญหา calibration ที่มีอยู่จริงได้

ด้วยเหตุนี้ การประเมินโมเดลที่เหมาะสมควรใช้ calibration plot ร่วมกับตัวชี้วัดอื่น ๆ เช่น calibration intercept, calibration slope และ discrimination metrics เพื่อให้การประเมินโมเดลมีความครบถ้วน ถูกต้อง และเหมาะสมต่อการนำไปใช้ในงานวิจัยและการตัดสินใจทางคลินิก