Classical MAPE internal validation เทียบกับ Modified MAPE instability สำหรับการประเมินความไม่เสถียรของการพยากรณ์ในโมเดลทางคลินิก

บทคัดย่อ
คำว่า Mean Absolute Prediction Error (MAPE) ถูกใช้ในหลายสาขาวิชา แต่ไม่ได้มีความหมายเหมือนกันเสมอไป ในวรรณกรรมสถิติและการพยากรณ์แบบดั้งเดิม MAPE ใช้เพื่อวัดความคลาดเคลื่อนระหว่างค่าที่พยากรณ์กับค่าที่สังเกตได้จริง ขณะที่ในบางแนวทางของการสร้างโมเดลพยากรณ์ทางคลินิก มีการใช้ MAPE ในความหมายที่ดัดแปลงไป เพื่อประเมินความเสถียรของค่าพยากรณ์เมื่อมีการสร้างโมเดลใหม่จากข้อมูล bootstrap หลายชุด บทความนี้มีจุดประสงค์เพื่ออธิบายความแตกต่างเชิงแนวคิด เชิงคณิตศาสตร์ และเชิงระเบียบวิธีของ MAPE ทั้งสองรูปแบบ พร้อมทั้งชี้ให้เห็นว่าความแตกต่างดังกล่าวเกิดจากวัตถุประสงค์การใช้งานที่ไม่เหมือนกัน

1. บทนำ
การประเมินคุณภาพของโมเดลพยากรณ์จำเป็นต้องเลือกตัวชี้วัดให้สอดคล้องกับคำถามทางวิทยาศาสตร์ที่ต้องการตอบ ใน clinical epidemiology ตัวชี้วัดที่ใช้กันทั่วไป ได้แก่
- Discrimination เช่น AUROC
- Calibration เช่น calibration slope และ calibration intercept
- Overall accuracy เช่น Brier score
อย่างไรก็ตาม คำว่า MAPE มักปรากฏในบริบทของการประเมินโมเดลเช่นกัน แต่ความหมายของคำนี้อาจแตกต่างกันอย่างมีนัยสำคัญตามสำนักหรือบริบทการใช้งาน หากไม่แยกความหมายให้ชัดเจน อาจนำไปสู่ความสับสนทั้งในเชิงแนวคิดและการตีความผลลัพธ์
บทความนี้แบ่ง MAPE ออกเป็น 2 แนวคิดหลัก ได้แก่
- Classical MAPE — ใช้วัดความคลาดเคลื่อนระหว่างค่าที่พยากรณ์กับ outcome จริง
- Modified MAPE — ใช้วัดความไม่เสถียรของค่าพยากรณ์ระหว่าง final model กับ bootstrap-refitted models
2. Classical MAPE: นิยามที่เน้นความแม่นยำ
2.1 นิยาม
Classical MAPE นิยามได้ดังนี้
โดยที่
- yi คือค่าที่สังเกตได้จริง
- y^i คือค่าที่โมเดลพยากรณ์
2.2 ความหมายเชิงแนวคิด
Classical MAPE ใช้ตอบคำถามว่า
“ค่าที่โมเดลพยากรณ์คลาดจากค่าจริงมากน้อยเพียงใด”
ดังนั้นจึงเป็นตัวชี้วัดของ prediction accuracy หรือความแม่นยำของการพยากรณ์
2.3 สาขาที่มักใช้
Classical MAPE พบบ่อยในสาขา เช่น
- การพยากรณ์อนุกรมเวลา
- เศรษฐมิติ
- วิศวกรรม
- ธุรกิจและการวิเคราะห์เชิงคาดการณ์
2.4 ข้อจำกัดในงานวิจัยทางคลินิก
สำหรับโมเดลทางคลินิกที่ outcome เป็น binary เช่น (0/1)
- เมื่อ yi=0 ตัวหารในสูตรจะเป็นศูนย์
- ทำให้ค่า MAPE ไม่สามารถคำนวณได้หรือมีความไม่เสถียรสูง
ด้วยเหตุนี้ Classical MAPE จึงไม่เหมาะกับการประเมินโมเดลทำนาย outcome แบบทวิภาคในทางคลินิก

3. Modified MAPE: นิยามที่เน้นความเสถียรของการพยากรณ์
3.1 นิยาม
ในกรอบแนวคิดที่ดัดแปลงนี้ MAPE นิยามเป็น
โดยที่
- p^iorig คือค่าพยากรณ์จาก final model
- p^iboot(b) คือค่าพยากรณ์จาก bootstrap model รอบที่ b
- Sb คือกลุ่มผู้ป่วยที่ปรากฏใน bootstrap sample รอบที่ b
- B คือจำนวน bootstrap iterations ทั้งหมด
3.2 ความหมายเชิงแนวคิด
Modified MAPE ใช้ตอบคำถามที่แตกต่างไปโดยสิ้นเชิง คือ
“ถ้าเราสร้างโมเดลใหม่จากข้อมูลที่ถูกสุ่มซ้ำ ค่าพยากรณ์ของผู้ป่วยจะเปลี่ยนไปมากเพียงใดเมื่อเทียบกับ final model”
ดังนั้น MAPE แบบนี้จึงเป็นตัวชี้วัดของ
- prediction stability
- model reproducibility
- sensitivity to sampling variation
3.3 การตีความ
- ค่า MAPE ต่ำ หมายถึง ค่าพยากรณ์จาก bootstrap models ใกล้เคียงกับ final model แสดงว่าโมเดลมีความเสถียร
- ค่า MAPE สูง หมายถึง ค่าพยากรณ์เปลี่ยนแปลงมากเมื่อมีการ bootstrap แสดงว่าโมเดลอาจมีความไม่เสถียรหรือไวต่อการเปลี่ยนแปลงของ sample
3.4 คุณสมบัติสำคัญ
Modified MAPE มีลักษณะสำคัญดังนี้
- ไม่ต้องใช้ outcome จริง
- ไม่ได้วัด accuracy โดยตรง
- ไม่มี apparent version
- ไม่มี optimism correction
- อาศัย bootstrap resampling เป็นองค์ประกอบหลักของนิยาม

4. ความแตกต่างเชิงแนวคิดระหว่าง MAPE ทั้งสองแบบ
4.1 สิ่งที่ถูกนำมาเปรียบเทียบ
4.2 คำถามทางวิทยาศาสตร์ที่ต้องการตอบ
4.3 บทบาทในการประเมินโมเดล

5. เหตุใดจึงใช้ชื่อเดียวกันแต่มีความหมายต่างกัน
สาเหตุที่ทั้งสองแนวคิดใช้ชื่อว่า MAPE เหมือนกัน มาจากการมีโครงสร้างทางคณิตศาสตร์คล้ายกัน คืออยู่บนพื้นฐานของ
อย่างไรก็ตาม ความหมายของ metric ไม่ได้ขึ้นกับรูปสมการเพียงอย่างเดียว แต่ขึ้นกับว่า A และ B แทนอะไร
ใน Classical MAPE
- A=y
- B=y^
ใน Modified MAPE
- A=p^orig
- B=p^boot
ดังนั้น แม้รูปแบบคณิตศาสตร์จะคล้ายกัน แต่เมื่อ “วัตถุที่นำมาเปรียบเทียบ” เปลี่ยนไป ความหมายของตัวชี้วัดก็เปลี่ยนตามไปด้วย

6. นัยสำคัญต่อการวิจัยทางคลินิก
Modified MAPE ให้ข้อมูลในมิติที่ตัวชี้วัดมาตรฐานอย่าง AUROC หรือ Brier score ไม่สามารถอธิบายได้โดยตรง กล่าวคือ มันไม่ได้ตอบว่าโมเดล “แม่นยำแค่ไหน” แต่ตอบว่าโมเดล “เสถียรแค่ไหน” เมื่อลองสร้างใหม่จากข้อมูลที่เปลี่ยนไป
จึงอาจกล่าวได้ว่า Modified MAPE มีประโยชน์ในการประเมิน
- robustness ของโมเดล
- reproducibility ของค่าพยากรณ์
- ความไวของโมเดลต่อ sampling variation
อย่างไรก็ตาม เนื่องจากเป็นการใช้คำว่า MAPE ในความหมายที่ไม่เป็นมาตรฐาน จึงควรนิยาม metric นี้ให้ชัดเจนทุกครั้งในรายงานหรือบทความวิจัย
7. ข้อเสนอแนะในการเขียนรายงาน
เพื่อหลีกเลี่ยงความกำกวม ไม่ควรเขียนเพียงคำว่า “MAPE” โดยไม่มีคำอธิบาย แต่ควรเขียนในลักษณะดังนี้
“Prediction stability was assessed using a bootstrap-based Mean Absolute Prediction Error (MAPE), defined as the mean absolute difference between predicted probabilities from the final model and those from bootstrap-refitted models across overlapping individuals.”
ข้อความลักษณะนี้ช่วยให้ผู้อ่านเข้าใจทันทีว่า MAPE ที่ใช้ในงานวิจัยนี้ไม่ใช่ MAPE แบบดั้งเดิมที่เทียบ prediction กับ truth

8. บทสรุป
แม้จะใช้ชื่อเดียวกัน แต่ Classical MAPE และ Modified MAPE เป็นตัวชี้วัดที่มีรากฐานเชิงแนวคิดต่างกันอย่างชัดเจน
- Classical MAPE ใช้วัดความแม่นยำของการพยากรณ์เมื่อเทียบกับ outcome จริง
- Modified MAPE ใช้วัดความเสถียรของค่าพยากรณ์เมื่อมีการสร้างโมเดลใหม่จาก bootstrap samples
ดังนั้น ความแตกต่างของทั้งสองไม่ได้เกิดจากความขัดแย้งทางคณิตศาสตร์ แต่เกิดจากการถูกพัฒนาขึ้นเพื่อตอบคำถามทางวิทยาศาสตร์คนละข้อ กล่าวคือ
- แบบแรกถามว่า “โมเดลพยากรณ์ถูกหรือไม่”
- แบบหลังถามว่า “โมเดลให้ค่าพยากรณ์เสถียรหรือไม่”
การแยกความแตกต่างนี้ให้ชัดเจนเป็นสิ่งสำคัญอย่างยิ่งสำหรับการตีความผลลัพธ์อย่างถูกต้อง และสำหรับการสื่อสารงานวิจัยให้ผู้อ่านหรือผู้ประเมินเข้าใจตรงกัน