MAPE แบบคลาสสิก: Mean Absolute Prediction Error และ Bootstrap Internal Validation

Apparent Performance และ Internal Validation ด้วย Bootstrap

1. บทนำ
ในการพัฒนาแบบจำลองพยากรณ์ทางคลินิก เรามักประเมินสมรรถนะของโมเดลด้วยตัวชี้วัด เช่น
- AUROC → ความสามารถในการจำแนกหรือจัดอันดับความเสี่ยง
- Calibration slope และ intercept → ความสอดคล้องระหว่างความเสี่ยงที่ทำนายกับความเสี่ยงที่พบจริง
- Brier score → ความแม่นยำโดยรวมของแบบจำลอง
อย่างไรก็ตาม ยังมีอีกตัวชี้วัดหนึ่งที่เข้าใจง่ายและตีความได้ตรงไปตรงมา คือ
Mean Absolute Prediction Error (MAPE)
ตัวชี้วัดนี้ใช้บอกโดยตรงว่า ความน่าจะเป็นที่โมเดลทำนายไว้นั้นห่างจากผลลัพธ์จริงมากน้อยเพียงใด
2. นิยามของ MAPE (รูปแบบคลาสสิก / มาตรฐาน)
ในที่นี้ MAPE หมายถึง ค่าเฉลี่ยของความคลาดเคลื่อนสัมบูรณ์ระหว่างความน่าจะเป็นที่ทำนายกับผลลัพธ์ dichotomous ที่สังเกตได้ บน มาตราส่วนความน่าจะเป็น (0–1) ไม่ใช่สูตร “percentage error” แบบตำราเรียนที่มักถูกเรียกว่า MAPE ในบริบทอื่น
โดยที่
- p^i = ความน่าจะเป็นที่โมเดลทำนายสำหรับผู้ป่วยรายที่ i
- yi = ผลลัพธ์ที่สังเกตได้จริง ซึ่งมีค่าเป็น 0 หรือ 1
กล่าวอีกแบบหนึ่ง MAPE คือค่าเฉลี่ยของความคลาดเคลื่อนสัมบูรณ์ระหว่างค่าที่โมเดลทำนายกับผลลัพธ์จริง

3. MAPE วัดอะไร
MAPE วัด
ระยะห่างเฉลี่ยระหว่างความเสี่ยงที่ทำนายกับผลลัพธ์จริง
ตัวอย่าง
- ผู้ป่วยรายที่ 1: โมเดลทำนาย = 0.65, outcome จริง = 1 → error = |0.65 − 1| = 0.35
- ผู้ป่วยรายที่ 2: โมเดลทำนาย = 0.20, outcome จริง = 0 → error = |0.20 − 0| = 0.20
ถ้าเฉลี่ยทุกคนแล้วได้ MAPE = 0.25 หมายความว่า โดยเฉลี่ยค่าที่โมเดลทำนายห่างจากความจริงประมาณ 0.25 หรือ 25 จุดเปอร์เซ็นต์
4. Apparent MAPE
นิยาม
Apparent MAPE คือค่า MAPE ที่คำนวณจาก
- โมเดลสุดท้ายที่พัฒนาขึ้น
- แล้วนำไปประเมินบนชุดข้อมูลเดิมที่ใช้สร้างโมเดลนั้น
เขียนได้เป็น
ประเด็นสำคัญ
แม้จะประเมินบน training data ค่า MAPE ก็ยัง
ไม่จำเป็นต้องเท่ากับ 0
เหตุผลคือ
- logistic regression ทำนายเป็น probability ไม่ใช่ทำนาย outcome ของแต่ละคนแบบตรงตัว
- ผู้ป่วยที่มีลักษณะคล้ายกันอาจมี outcome ต่างกันได้
- โมเดลจึงประมาณ “ความเสี่ยงเฉลี่ย” มากกว่าจะทำนายผลลัพธ์ของแต่ละบุคคลอย่างสมบูรณ์
ดังนั้น ต่อให้ประเมินบนข้อมูลที่ใช้สร้างโมเดลเอง ก็ยังคงมี error ได้เป็นเรื่องปกติ
การตีความ
Apparent MAPE มักจะต่ำเกินจริง หรือมีความเป็น optimistic เพราะ
- โมเดลถูกประเมินบนข้อมูลที่ตัวเองใช้เรียนรู้มาแล้ว
- จึงมีแนวโน้มให้ผลดูดีกว่าการนำไปใช้กับข้อมูลใหม่

5. การทำ Internal Validation ด้วย Bootstrap
เพื่อแก้ปัญหา optimism เราสามารถใช้ bootstrap resampling ในการทำ internal validation
ขั้นตอนของ bootstrap เช่น 500 รอบ
สำหรับ bootstrap รอบที่ b
Step 1 – Resample
สุ่ม bootstrap sample จากข้อมูลต้นฉบับแบบใส่คืน
Step 2 – Fit model
สร้าง logistic regression model ใหม่บน bootstrap sample นั้น
Step 3 – Apparent performance
ใช้ bootstrap model ทำนายบน bootstrap sample เดิม แล้วคำนวณ
ค่านี้มักดูดีเกินจริง เพราะเป็นการประเมินบนข้อมูลที่โมเดลเพิ่งใช้ฝึก
Step 4 – Test performance
ใช้ bootstrap model เดิมนั้นไปทำนายบนข้อมูลต้นฉบับทั้งหมด แล้วคำนวณ
ค่านี้สะท้อนสมรรถนะที่สมจริงมากกว่า
Step 5 – Optimism
คำนวณ
โดยทั่วไป เนื่องจาก error บน training data ต่ำกว่า error บนข้อมูลทดสอบ ค่าดังกล่าวจึงมักเป็น ค่าลบ
6. Optimism-corrected MAPE
เมื่อทำครบทุก bootstrap iteration แล้ว ให้คำนวณค่าเฉลี่ยของ optimism
จากนั้นคำนวณ
คุณสมบัติสำคัญ
เพราะโดยทั่วไป
- apparent MAPE < test MAPE
- ดังนั้น optimism < 0
จึงทำให้
Corrected MAPE สูงกว่า Apparent MAPE
การตีความ
Optimism-corrected MAPE คือค่าประมาณของ
prediction error ที่คาดว่าจะเกิดขึ้นเมื่อใช้โมเดลกับผู้ป่วยใหม่ที่มาจากประชากรเดียวกัน
ดังนั้นจึงมีความเหมาะสมกว่าค่า apparent MAPE ในการสะท้อนสมรรถนะที่คาดว่าจะพบจริง

7. การเปรียบเทียบกับ AUROC
ประเด็นสำคัญ
โมเดลหนึ่งอาจมี
- AUROC สูง → จัดอันดับความเสี่ยงได้ดี
- แต่ MAPE สูง → ค่าความน่าจะเป็นที่ทำนายยังห่างจากความจริงมาก
ดังนั้น MAPE จึงให้ข้อมูลคนละมุมกับ AUROC และถือเป็นข้อมูลเสริมที่มีประโยชน์

8. บทบาทของ MAPE ในงานวิจัยทางคลินิก
MAPE เหมาะในกรณีที่
- ต้องการประเมินว่า ค่าความเสี่ยงที่ทำนายมีความใกล้เคียงความจริงแค่ไหน
- ต้องการตัวชี้วัดที่ เข้าใจง่ายและตีความง่าย
อย่างไรก็ตาม MAPE ไม่ควรใช้แทนตัวชี้วัดมาตรฐานทั้งหมด แต่ควรใช้เป็นตัวเสริมร่วมกับตัวชี้วัดหลักอื่น
การรายงานที่แนะนำ
- AUROC
- Calibration slope และ intercept
- Brier score
- MAPE เป็นตัวชี้วัดเสริม
9. สรุปสาระสำคัญ
- MAPE คือค่าเฉลี่ยของความแตกต่างสัมบูรณ์ระหว่าง predicted probability กับ observed outcome
- Apparent MAPE เป็นค่าที่ได้จากการประเมินบนข้อมูลเดิมที่ใช้สร้างโมเดล จึงมัก optimistic
- Bootstrap internal validation ใช้เพื่อประเมินและปรับแก้ optimism นี้
- Corrected MAPE สะท้อนค่าความคลาดเคลื่อนที่คาดว่าจะพบเมื่อใช้กับข้อมูลใหม่ได้ดีกว่า
- MAPE ช่วยเสริม AUROC แต่ไม่ได้ใช้แทน AUROC
