Classical MAPE internal validation เทียบกับ Modified MAPE instability สำหรับการประเมินความไม่เสถียรของการพยากรณ์ในโมเดลทางคลินิก

บทคัดย่อ

คำว่า Mean Absolute Prediction Error (MAPE) ถูกใช้ในหลายสาขาวิชา แต่ไม่ได้มีความหมายเหมือนกันเสมอไป ในวรรณกรรมสถิติและการพยากรณ์แบบดั้งเดิม MAPE ใช้เพื่อวัดความคลาดเคลื่อนระหว่างค่าที่พยากรณ์กับค่าที่สังเกตได้จริง ขณะที่ในบางแนวทางของการสร้างโมเดลพยากรณ์ทางคลินิก มีการใช้ MAPE ในความหมายที่ดัดแปลงไป เพื่อประเมินความเสถียรของค่าพยากรณ์เมื่อมีการสร้างโมเดลใหม่จากข้อมูล bootstrap หลายชุด บทความนี้มีจุดประสงค์เพื่ออธิบายความแตกต่างเชิงแนวคิด เชิงคณิตศาสตร์ และเชิงระเบียบวิธีของ MAPE ทั้งสองรูปแบบ พร้อมทั้งชี้ให้เห็นว่าความแตกต่างดังกล่าวเกิดจากวัตถุประสงค์การใช้งานที่ไม่เหมือนกัน

1. บทนำ

การประเมินคุณภาพของโมเดลพยากรณ์จำเป็นต้องเลือกตัวชี้วัดให้สอดคล้องกับคำถามทางวิทยาศาสตร์ที่ต้องการตอบ ใน clinical epidemiology ตัวชี้วัดที่ใช้กันทั่วไป ได้แก่

Discrimination เช่น AUROC
Calibration เช่น calibration slope และ calibration intercept
Overall accuracy เช่น Brier score

อย่างไรก็ตาม คำว่า MAPE มักปรากฏในบริบทของการประเมินโมเดลเช่นกัน แต่ความหมายของคำนี้อาจแตกต่างกันอย่างมีนัยสำคัญตามสำนักหรือบริบทการใช้งาน หากไม่แยกความหมายให้ชัดเจน อาจนำไปสู่ความสับสนทั้งในเชิงแนวคิดและการตีความผลลัพธ์

บทความนี้แบ่ง MAPE ออกเป็น 2 แนวคิดหลัก ได้แก่

Classical MAPE — ใช้วัดความคลาดเคลื่อนระหว่างค่าที่พยากรณ์กับ outcome จริง
Modified MAPE — ใช้วัดความไม่เสถียรของค่าพยากรณ์ระหว่าง final model กับ bootstrap-refitted models

2. Classical MAPE: นิยามที่เน้นความแม่นยำ

2.1 นิยาม

Classical MAPE นิยามได้ดังนี้

MAPE = \frac{1}{n} \sum_{i = 1}^{n} | \frac{y_{i} - {\hat{y}}_{i}}{y_{i}} |

โดยที่

yi คือค่าที่สังเกตได้จริง
y^i คือค่าที่โมเดลพยากรณ์

2.2 ความหมายเชิงแนวคิด

Classical MAPE ใช้ตอบคำถามว่า

“ค่าที่โมเดลพยากรณ์คลาดจากค่าจริงมากน้อยเพียงใด”

ดังนั้นจึงเป็นตัวชี้วัดของ prediction accuracy หรือความแม่นยำของการพยากรณ์

2.3 สาขาที่มักใช้

Classical MAPE พบบ่อยในสาขา เช่น

การพยากรณ์อนุกรมเวลา
เศรษฐมิติ
วิศวกรรม
ธุรกิจและการวิเคราะห์เชิงคาดการณ์

2.4 ข้อจำกัดในงานวิจัยทางคลินิก

สำหรับโมเดลทางคลินิกที่ outcome เป็น binary เช่น (0/1)

เมื่อ yi=0 ตัวหารในสูตรจะเป็นศูนย์
ทำให้ค่า MAPE ไม่สามารถคำนวณได้หรือมีความไม่เสถียรสูง

ด้วยเหตุนี้ Classical MAPE จึงไม่เหมาะกับการประเมินโมเดลทำนาย outcome แบบทวิภาคในทางคลินิก

3. Modified MAPE: นิยามที่เน้นความเสถียรของการพยากรณ์

3.1 นิยาม

ในกรอบแนวคิดที่ดัดแปลงนี้ MAPE นิยามเป็น

MAPE = \frac{1}{B} \sum_{b = 1}^{B} (\frac{1}{| S_{b} |} \sum_{i \in S_{b}} | {\hat{p}}_{i}^{o r i g} - {\hat{p}}_{i}^{b o o t (b)} |)

โดยที่

p^iorig คือค่าพยากรณ์จาก final model
p^iboot(b) คือค่าพยากรณ์จาก bootstrap model รอบที่ b
Sb คือกลุ่มผู้ป่วยที่ปรากฏใน bootstrap sample รอบที่ b
B คือจำนวน bootstrap iterations ทั้งหมด

3.2 ความหมายเชิงแนวคิด

Modified MAPE ใช้ตอบคำถามที่แตกต่างไปโดยสิ้นเชิง คือ

“ถ้าเราสร้างโมเดลใหม่จากข้อมูลที่ถูกสุ่มซ้ำ ค่าพยากรณ์ของผู้ป่วยจะเปลี่ยนไปมากเพียงใดเมื่อเทียบกับ final model”

ดังนั้น MAPE แบบนี้จึงเป็นตัวชี้วัดของ

prediction stability
model reproducibility
sensitivity to sampling variation

3.3 การตีความ

ค่า MAPE ต่ำ หมายถึง ค่าพยากรณ์จาก bootstrap models ใกล้เคียงกับ final model แสดงว่าโมเดลมีความเสถียร
ค่า MAPE สูง หมายถึง ค่าพยากรณ์เปลี่ยนแปลงมากเมื่อมีการ bootstrap แสดงว่าโมเดลอาจมีความไม่เสถียรหรือไวต่อการเปลี่ยนแปลงของ sample

3.4 คุณสมบัติสำคัญ

Modified MAPE มีลักษณะสำคัญดังนี้

ไม่ต้องใช้ outcome จริง
ไม่ได้วัด accuracy โดยตรง
ไม่มี apparent version
ไม่มี optimism correction
อาศัย bootstrap resampling เป็นองค์ประกอบหลักของนิยาม

4. ความแตกต่างเชิงแนวคิดระหว่าง MAPE ทั้งสองแบบ

4.1 สิ่งที่ถูกนำมาเปรียบเทียบ

ชนิดของ MAPE	สิ่งที่เปรียบเทียบ
Classical MAPE	ค่าพยากรณ์ เทียบกับ outcome จริง
Modified MAPE	ค่าพยากรณ์จากโมเดลหนึ่ง เทียบกับค่าพยากรณ์จากอีกโมเดลหนึ่ง

4.2 คำถามทางวิทยาศาสตร์ที่ต้องการตอบ

ชนิดของ MAPE	คำถามหลัก
Classical MAPE	โมเดลพยากรณ์ได้ถูกต้องหรือไม่
Modified MAPE	โมเดลให้ค่าพยากรณ์เสถียรหรือไม่เมื่อสร้างใหม่จากข้อมูลที่เปลี่ยนไป

4.3 บทบาทในการประเมินโมเดล

มิติของคุณภาพโมเดล	ตัวชี้วัด
Discrimination	AUROC
Calibration	Slope, Intercept
Overall accuracy	Brier score
Prediction stability	Modified MAPE

5. เหตุใดจึงใช้ชื่อเดียวกันแต่มีความหมายต่างกัน

สาเหตุที่ทั้งสองแนวคิดใช้ชื่อว่า MAPE เหมือนกัน มาจากการมีโครงสร้างทางคณิตศาสตร์คล้ายกัน คืออยู่บนพื้นฐานของ

mean (| A - B |)

อย่างไรก็ตาม ความหมายของ metric ไม่ได้ขึ้นกับรูปสมการเพียงอย่างเดียว แต่ขึ้นกับว่า A และ B แทนอะไร

ใน Classical MAPE

A=y
B=y^

ใน Modified MAPE

A=p^orig
B=p^boot

ดังนั้น แม้รูปแบบคณิตศาสตร์จะคล้ายกัน แต่เมื่อ “วัตถุที่นำมาเปรียบเทียบ” เปลี่ยนไป ความหมายของตัวชี้วัดก็เปลี่ยนตามไปด้วย

6. นัยสำคัญต่อการวิจัยทางคลินิก

Modified MAPE ให้ข้อมูลในมิติที่ตัวชี้วัดมาตรฐานอย่าง AUROC หรือ Brier score ไม่สามารถอธิบายได้โดยตรง กล่าวคือ มันไม่ได้ตอบว่าโมเดล “แม่นยำแค่ไหน” แต่ตอบว่าโมเดล “เสถียรแค่ไหน” เมื่อลองสร้างใหม่จากข้อมูลที่เปลี่ยนไป

จึงอาจกล่าวได้ว่า Modified MAPE มีประโยชน์ในการประเมิน

robustness ของโมเดล
reproducibility ของค่าพยากรณ์
ความไวของโมเดลต่อ sampling variation

อย่างไรก็ตาม เนื่องจากเป็นการใช้คำว่า MAPE ในความหมายที่ไม่เป็นมาตรฐาน จึงควรนิยาม metric นี้ให้ชัดเจนทุกครั้งในรายงานหรือบทความวิจัย

7. ข้อเสนอแนะในการเขียนรายงาน

เพื่อหลีกเลี่ยงความกำกวม ไม่ควรเขียนเพียงคำว่า “MAPE” โดยไม่มีคำอธิบาย แต่ควรเขียนในลักษณะดังนี้

“Prediction stability was assessed using a bootstrap-based Mean Absolute Prediction Error (MAPE), defined as the mean absolute difference between predicted probabilities from the final model and those from bootstrap-refitted models across overlapping individuals.”

ข้อความลักษณะนี้ช่วยให้ผู้อ่านเข้าใจทันทีว่า MAPE ที่ใช้ในงานวิจัยนี้ไม่ใช่ MAPE แบบดั้งเดิมที่เทียบ prediction กับ truth

8. บทสรุป

แม้จะใช้ชื่อเดียวกัน แต่ Classical MAPE และ Modified MAPE เป็นตัวชี้วัดที่มีรากฐานเชิงแนวคิดต่างกันอย่างชัดเจน

Classical MAPE ใช้วัดความแม่นยำของการพยากรณ์เมื่อเทียบกับ outcome จริง
Modified MAPE ใช้วัดความเสถียรของค่าพยากรณ์เมื่อมีการสร้างโมเดลใหม่จาก bootstrap samples

ดังนั้น ความแตกต่างของทั้งสองไม่ได้เกิดจากความขัดแย้งทางคณิตศาสตร์ แต่เกิดจากการถูกพัฒนาขึ้นเพื่อตอบคำถามทางวิทยาศาสตร์คนละข้อ กล่าวคือ

แบบแรกถามว่า “โมเดลพยากรณ์ถูกหรือไม่”
แบบหลังถามว่า “โมเดลให้ค่าพยากรณ์เสถียรหรือไม่”

การแยกความแตกต่างนี้ให้ชัดเจนเป็นสิ่งสำคัญอย่างยิ่งสำหรับการตีความผลลัพธ์อย่างถูกต้อง และสำหรับการสื่อสารงานวิจัยให้ผู้อ่านหรือผู้ประเมินเข้าใจตรงกัน