MAPE แบบคลาสสิก: Mean Absolute Prediction Error และ Bootstrap Internal Validation

Apparent Performance และ Internal Validation ด้วย Bootstrap

1. บทนำ

ในการพัฒนาแบบจำลองพยากรณ์ทางคลินิก เรามักประเมินสมรรถนะของโมเดลด้วยตัวชี้วัด เช่น

AUROC → ความสามารถในการจำแนกหรือจัดอันดับความเสี่ยง
Calibration slope และ intercept → ความสอดคล้องระหว่างความเสี่ยงที่ทำนายกับความเสี่ยงที่พบจริง
Brier score → ความแม่นยำโดยรวมของแบบจำลอง

อย่างไรก็ตาม ยังมีอีกตัวชี้วัดหนึ่งที่เข้าใจง่ายและตีความได้ตรงไปตรงมา คือ

Mean Absolute Prediction Error (MAPE)

ตัวชี้วัดนี้ใช้บอกโดยตรงว่า ความน่าจะเป็นที่โมเดลทำนายไว้นั้นห่างจากผลลัพธ์จริงมากน้อยเพียงใด

2. นิยามของ MAPE (รูปแบบคลาสสิก / มาตรฐาน)

ในที่นี้ MAPE หมายถึง ค่าเฉลี่ยของความคลาดเคลื่อนสัมบูรณ์ระหว่างความน่าจะเป็นที่ทำนายกับผลลัพธ์ dichotomous ที่สังเกตได้ บน มาตราส่วนความน่าจะเป็น (0–1) ไม่ใช่สูตร “percentage error” แบบตำราเรียนที่มักถูกเรียกว่า MAPE ในบริบทอื่น

MAPE = \frac{1}{n} \sum_{i = 1}^{n} | {\hat{p}}_{i} - y_{i} |

โดยที่

p^i = ความน่าจะเป็นที่โมเดลทำนายสำหรับผู้ป่วยรายที่ i
yi = ผลลัพธ์ที่สังเกตได้จริง ซึ่งมีค่าเป็น 0 หรือ 1

กล่าวอีกแบบหนึ่ง MAPE คือค่าเฉลี่ยของความคลาดเคลื่อนสัมบูรณ์ระหว่างค่าที่โมเดลทำนายกับผลลัพธ์จริง

3. MAPE วัดอะไร

MAPE วัด

ระยะห่างเฉลี่ยระหว่างความเสี่ยงที่ทำนายกับผลลัพธ์จริง

ตัวอย่าง

ผู้ป่วยรายที่ 1: โมเดลทำนาย = 0.65, outcome จริง = 1 → error = |0.65 − 1| = 0.35
ผู้ป่วยรายที่ 2: โมเดลทำนาย = 0.20, outcome จริง = 0 → error = |0.20 − 0| = 0.20

ถ้าเฉลี่ยทุกคนแล้วได้ MAPE = 0.25 หมายความว่า โดยเฉลี่ยค่าที่โมเดลทำนายห่างจากความจริงประมาณ 0.25 หรือ 25 จุดเปอร์เซ็นต์

4. Apparent MAPE

นิยาม

Apparent MAPE คือค่า MAPE ที่คำนวณจาก

โมเดลสุดท้ายที่พัฒนาขึ้น
แล้วนำไปประเมินบนชุดข้อมูลเดิมที่ใช้สร้างโมเดลนั้น

เขียนได้เป็น

{MAPE}_{a p p a r e n t} = \frac{1}{n} \sum | {\hat{p}}_{i}^{m o d e l} - y_{i} |

ประเด็นสำคัญ

แม้จะประเมินบน training data ค่า MAPE ก็ยัง

ไม่จำเป็นต้องเท่ากับ 0

เหตุผลคือ

logistic regression ทำนายเป็น probability ไม่ใช่ทำนาย outcome ของแต่ละคนแบบตรงตัว
ผู้ป่วยที่มีลักษณะคล้ายกันอาจมี outcome ต่างกันได้
โมเดลจึงประมาณ “ความเสี่ยงเฉลี่ย” มากกว่าจะทำนายผลลัพธ์ของแต่ละบุคคลอย่างสมบูรณ์

ดังนั้น ต่อให้ประเมินบนข้อมูลที่ใช้สร้างโมเดลเอง ก็ยังคงมี error ได้เป็นเรื่องปกติ

การตีความ

Apparent MAPE มักจะต่ำเกินจริง หรือมีความเป็น optimistic เพราะ

โมเดลถูกประเมินบนข้อมูลที่ตัวเองใช้เรียนรู้มาแล้ว
จึงมีแนวโน้มให้ผลดูดีกว่าการนำไปใช้กับข้อมูลใหม่

5. การทำ Internal Validation ด้วย Bootstrap

เพื่อแก้ปัญหา optimism เราสามารถใช้ bootstrap resampling ในการทำ internal validation

ขั้นตอนของ bootstrap เช่น 500 รอบ

สำหรับ bootstrap รอบที่ b

Step 1 – Resample

สุ่ม bootstrap sample จากข้อมูลต้นฉบับแบบใส่คืน

Step 2 – Fit model

สร้าง logistic regression model ใหม่บน bootstrap sample นั้น

Step 3 – Apparent performance

ใช้ bootstrap model ทำนายบน bootstrap sample เดิม แล้วคำนวณ

{MAPE}_{a p p} (b)

ค่านี้มักดูดีเกินจริง เพราะเป็นการประเมินบนข้อมูลที่โมเดลเพิ่งใช้ฝึก

Step 4 – Test performance

ใช้ bootstrap model เดิมนั้นไปทำนายบนข้อมูลต้นฉบับทั้งหมด แล้วคำนวณ

{MAPE}_{t e s t} (b)

ค่านี้สะท้อนสมรรถนะที่สมจริงมากกว่า

Step 5 – Optimism

คำนวณ

optimism (b) = {MAPE}_{app} (b) - {MAPE}_{test} (b)

โดยทั่วไป เนื่องจาก error บน training data ต่ำกว่า error บนข้อมูลทดสอบ ค่าดังกล่าวจึงมักเป็น ค่าลบ

6. Optimism-corrected MAPE

เมื่อทำครบทุก bootstrap iteration แล้ว ให้คำนวณค่าเฉลี่ยของ optimism

Meanoptimism = \frac{1}{B} \sum optimism (b)

จากนั้นคำนวณ

{MAPE}_{corrected} = {MAPE}_{apparent} - Meanoptimism

คุณสมบัติสำคัญ

เพราะโดยทั่วไป

apparent MAPE < test MAPE
ดังนั้น optimism < 0

จึงทำให้

Corrected MAPE สูงกว่า Apparent MAPE

การตีความ

Optimism-corrected MAPE คือค่าประมาณของ

prediction error ที่คาดว่าจะเกิดขึ้นเมื่อใช้โมเดลกับผู้ป่วยใหม่ที่มาจากประชากรเดียวกัน

ดังนั้นจึงมีความเหมาะสมกว่าค่า apparent MAPE ในการสะท้อนสมรรถนะที่คาดว่าจะพบจริง

7. การเปรียบเทียบกับ AUROC

ตัวชี้วัด	วัดอะไร	ความหมายทางคลินิก
AUROC	การจำแนก/จัดอันดับ	โมเดลแยกผู้ที่มีความเสี่ยงสูงออกจากความเสี่ยงต่ำได้ดีหรือไม่
MAPE	ความคลาดเคลื่อนสัมบูรณ์	ความเสี่ยงที่ทำนายใกล้เคียงผลจริงเพียงใด

ประเด็นสำคัญ

โมเดลหนึ่งอาจมี

AUROC สูง → จัดอันดับความเสี่ยงได้ดี
แต่ MAPE สูง → ค่าความน่าจะเป็นที่ทำนายยังห่างจากความจริงมาก

ดังนั้น MAPE จึงให้ข้อมูลคนละมุมกับ AUROC และถือเป็นข้อมูลเสริมที่มีประโยชน์

8. บทบาทของ MAPE ในงานวิจัยทางคลินิก

MAPE เหมาะในกรณีที่

ต้องการประเมินว่า ค่าความเสี่ยงที่ทำนายมีความใกล้เคียงความจริงแค่ไหน
ต้องการตัวชี้วัดที่ เข้าใจง่ายและตีความง่าย

อย่างไรก็ตาม MAPE ไม่ควรใช้แทนตัวชี้วัดมาตรฐานทั้งหมด แต่ควรใช้เป็นตัวเสริมร่วมกับตัวชี้วัดหลักอื่น

การรายงานที่แนะนำ

AUROC
Calibration slope และ intercept
Brier score
MAPE เป็นตัวชี้วัดเสริม

9. สรุปสาระสำคัญ

MAPE คือค่าเฉลี่ยของความแตกต่างสัมบูรณ์ระหว่าง predicted probability กับ observed outcome
Apparent MAPE เป็นค่าที่ได้จากการประเมินบนข้อมูลเดิมที่ใช้สร้างโมเดล จึงมัก optimistic
Bootstrap internal validation ใช้เพื่อประเมินและปรับแก้ optimism นี้
Corrected MAPE สะท้อนค่าความคลาดเคลื่อนที่คาดว่าจะพบเมื่อใช้กับข้อมูลใหม่ได้ดีกว่า
MAPE ช่วยเสริม AUROC แต่ไม่ได้ใช้แทน AUROC

MAPE แบบคลาสสิก: Mean Absolute Prediction Error และ Bootstrap Internal Validation

Apparent Performance และ Internal Validation ด้วย Bootstrap

1. บทนำ

2. นิยามของ MAPE (รูปแบบคลาสสิก / มาตรฐาน)

3. MAPE วัดอะไร

ตัวอย่าง

4. Apparent MAPE

นิยาม

ประเด็นสำคัญ

การตีความ

5. การทำ Internal Validation ด้วย Bootstrap

ขั้นตอนของ bootstrap เช่น 500 รอบ

Step 1 – Resample

Step 2 – Fit model

Step 3 – Apparent performance

Step 4 – Test performance

Step 5 – Optimism

6. Optimism-corrected MAPE

คุณสมบัติสำคัญ

การตีความ

7. การเปรียบเทียบกับ AUROC

ประเด็นสำคัญ

8. บทบาทของ MAPE ในงานวิจัยทางคลินิก

การรายงานที่แนะนำ

9. สรุปสาระสำคัญ

ความคิดเห็น