MAPE แบบปรับนิยาม: Mean Absolute Prediction Error ในฐานะตัวชี้วัดความไม่เสถียรของการพยากรณ์

Mayta
27 มี.ค.
ยาว 2 นาที

การประเมินความทำซ้ำได้ของการพยากรณ์ด้วย Bootstrap

1. ภาพรวมของแนวคิด

ในกรอบแนวคิดนี้ MAPE ไม่ใช่ตัวชี้วัด performance ของโมเดล

กล่าวคือ MAPE ในที่นี้ ไม่ได้เปรียบเทียบค่าที่โมเดลพยากรณ์กับ outcome จริง

แต่ใช้เพื่อวัดว่า

เมื่อเราสร้างโมเดลใหม่จาก bootstrap samples หลาย ๆ ชุดแล้ว ค่าพยากรณ์ของผู้ป่วยแต่ละรายเปลี่ยนไปมากน้อยเพียงใด เมื่อเทียบกับค่าพยากรณ์จาก final model

ดังนั้น MAPE ในที่นี้จึงสะท้อน

prediction stability
model reproducibility
sampling sensitivity

มากกว่าความแม่นยำเชิง performance แบบ AUROC หรือ Brier score

2. แนวคิดหลัก

เรามีค่าพยากรณ์ 2 ชุด

2.1 Original prediction

ได้จาก final model ที่ fit บนข้อมูลทั้งหมด

ให้ค่าพยากรณ์ของผู้ป่วยรายที่ (i) เป็น

ซึ่งคำนวณได้สำหรับผู้ป่วยทุกคนในฐานข้อมูล

2.2 Bootstrap prediction

สำหรับ bootstrap iteration ที่ (b)

สุ่มข้อมูลแบบ replacement
fit โมเดลใหม่บน bootstrap sample
ใช้ bootstrap model นี้พยากรณ์

ให้ค่าพยากรณ์ของผู้ป่วยรายที่ (i) จาก bootstrap model รอบที่ (b) เป็น

3. วัตถุประสงค์ของ MAPE ในแนวคิดนี้

MAPE ในที่นี้ต้องการตอบคำถามว่า

“ถ้าเราเปลี่ยนชุดข้อมูลที่ใช้สร้างโมเดลเล็กน้อยโดยการ bootstrap ค่าพยากรณ์ของผู้ป่วยจะเปลี่ยนไปมากแค่ไหนเมื่อเทียบกับ final model?”

ดังนั้น MAPE จึงเป็นการเปรียบเทียบ

ไม่ใช่การเปรียบเทียบกับ outcome

4. ขั้นตอนการคำนวณ

Step 1: สร้าง Final Model

fit final model บนข้อมูลทั้งหมด (n = 3{,}134)

จากนั้นคำนวณค่าพยากรณ์ของผู้ป่วยทุกคน

Step 2: ทำ Bootstrap 500 ครั้ง

สำหรับ bootstrap iteration ที่ (b = 1,\dots,500)

2.1 สุ่ม bootstrap sample

สุ่มข้อมูลจากชุดเดิมแบบ replacement

2.2 fit bootstrap model

สร้างโมเดลใหม่จาก bootstrap sample นั้น

2.3 คำนวณ bootstrap prediction

ใช้ bootstrap model พยากรณ์และได้

5. การเลือกผู้ป่วยที่ใช้คำนวณในแต่ละ Bootstrap

ใน bootstrap sample แต่ละรอบ จะมีผู้ป่วยบางรายถูกเลือกเข้ามา และบางรายไม่ถูกเลือก

ให้

แทนเซตของผู้ป่วยที่ปรากฏอยู่ใน bootstrap sample รอบที่ (b)

โดยทั่วไปจำนวนผู้ป่วยที่ไม่ซ้ำกันใน bootstrap sample จะประมาณ 63% ของข้อมูลทั้งหมด

เช่น ถ้าข้อมูลมี 500 ราย อาจมีผู้ป่วยที่ปรากฏจริงประมาณ 360 รายใน bootstrap รอบหนึ่ง

6. นิยาม MAPE ใน Bootstrap รอบที่ (b)

สำหรับ bootstrap รอบที่ (b) เราจะใช้เฉพาะผู้ป่วยที่อยู่ใน (S_b) เท่านั้น

คำนวณดังนี้

ความหมายคือ

ค่าเฉลี่ยของความต่างสัมบูรณ์ระหว่างค่าพยากรณ์จาก final model และค่าพยากรณ์จาก bootstrap model สำหรับผู้ป่วยที่มีอยู่ใน bootstrap sample รอบนั้น

7. การคำนวณค่า MAPE สุดท้าย

เมื่อทำครบ 500 bootstrap iterations แล้ว จะได้ค่า MAPE ทั้งหมด 500 ค่า

จากนั้นนำมาเฉลี่ยกัน

ค่านี้คือ MAPE สุดท้ายของโมเดล

8. การตีความ

ถ้า MAPE ต่ำ

หมายความว่า

ค่าพยากรณ์จาก bootstrap models ใกล้เคียงกับ final model
โมเดลมีความเสถียร
ผลการพยากรณ์ไม่ไวต่อความผันผวนของการสุ่มตัวอย่างมากนัก

ถ้า MAPE สูง

หมายความว่า

ค่าพยากรณ์เปลี่ยนไปมากเมื่อสร้างโมเดลใหม่จาก bootstrap samples
โมเดลมีความไม่เสถียร
ผลการพยากรณ์ไวต่อ sampling variation

ดังนั้น

MAPE ต่ำ = โมเดลเสถียร

MAPE สูง = โมเดลไม่เสถียร

9. เหตุใด MAPE นี้จึงไม่ใช่ MAPE แบบมาตรฐาน

MAPE แบบที่ใช้กันทั่วไปมักเป็นการเปรียบเทียบ

หรือในบางบริบทเป็น percentage error เทียบกับค่าจริง

แต่ MAPE ในแนวคิดของคุณเป็นการเปรียบเทียบ

ดังนั้นสิ่งที่วัดคือ

prediction-to-prediction difference
ไม่ใช่ prediction-to-truth difference

จึงเป็นคนละแนวคิดกับ performance metrics แบบดั้งเดิม

10. เหตุใดจึงไม่มี Apparent MAPE ในแนวคิดนี้

ในนิยามนี้ ไม่มี apparent MAPE

เพราะ apparent metric โดยหลักต้องหมายถึง

การประเมิน performance ของโมเดลบนข้อมูลที่ใช้ train โมเดลนั้นเอง

แต่ใน MAPE แบบนี้ เราไม่ได้ประเมินเทียบกับ outcome เลย เรากำลังเปรียบเทียบค่าพยากรณ์จาก สองโมเดล

ดังนั้นจึงไม่มีแนวคิดของ

apparent
test
optimism
optimism correction

ในความหมายเดียวกับ AUROC, calibration slope หรือ Brier score

11. ความสัมพันธ์กับตัวชี้วัดอื่นของโมเดล

MAPE แบบนี้ควรมองว่าเป็นตัวชี้วัดอีกมิติหนึ่งของคุณภาพโมเดล

ดังนั้น MAPE ในที่นี้ไม่ได้มาแทน AUROC แต่ช่วยเพิ่มข้อมูลอีกด้านว่า

“แม้โมเดลจะ discrimination ดี แต่ค่าพยากรณ์มีเสถียรภาพเพียงใดเมื่อลองสร้างโมเดลใหม่จากข้อมูลที่สุ่มต่างออกไป”

12. ความหมายเชิงระเบียบวิธี

ในเชิงระเบียบวิธี MAPE นี้สามารถมองได้ว่าเป็น

ค่าเฉลี่ยของระยะห่างแบบ absolute ระหว่าง prediction function ของ final model กับ bootstrap-refitted models

หรือกล่าวอีกแบบหนึ่งคือ

ตัวชี้วัดความไวของการพยากรณ์ต่อการเปลี่ยนแปลงของ sample

ซึ่งมีประโยชน์โดยเฉพาะเมื่อผู้วิจัยสนใจความเสถียรของโมเดลในกระบวนการสร้างแบบจำลอง

13. ตัวอย่างข้อความสำหรับเขียนในบทความ

Methods

“Prediction stability was assessed using a bootstrap-based Mean Absolute Prediction Error (MAPE). First, the final model was fitted on the full dataset to obtain original predicted probabilities for all individuals. Then, 500 bootstrap samples were drawn, and a new model was fitted in each sample. For each bootstrap iteration, MAPE was calculated as the mean absolute difference between the original predicted probabilities and the bootstrap-model predicted probabilities among individuals included in that bootstrap sample. The final MAPE was obtained by averaging these values across all bootstrap iterations.”

Interpretation

“Lower MAPE values indicate greater stability of model predictions across bootstrap resampling, whereas higher values suggest greater sensitivity of predictions to sampling variation.”

14. สรุป

MAPE ในกรอบแนวคิดนี้หมายถึง

ค่าเฉลี่ยของความต่างสัมบูรณ์ระหว่างค่าพยากรณ์จาก final model และค่าพยากรณ์จาก bootstrap models

โดยใช้เพื่อวัด

ความเสถียรของการพยากรณ์
ความทำซ้ำได้ของโมเดล
ความไวต่อการสุ่มตัวอย่าง

MAPE นี้

ไม่ใช่ performance metric เทียบ outcome
ไม่มี apparent version
ไม่มี optimism correction
เป็นตัวชี้วัดด้าน prediction stability