top of page

Classical MAPE internal validation เทียบกับ Modified MAPE instability สำหรับการประเมินความไม่เสถียรของการพยากรณ์ในโมเดลทางคลินิก

  • รูปภาพนักเขียน: Mayta
    Mayta
  • 27 มี.ค.
  • ยาว 2 นาที

บทคัดย่อ

คำว่า Mean Absolute Prediction Error (MAPE) ถูกใช้ในหลายสาขาวิชา แต่ไม่ได้มีความหมายเหมือนกันเสมอไป ในวรรณกรรมสถิติและการพยากรณ์แบบดั้งเดิม MAPE ใช้เพื่อวัดความคลาดเคลื่อนระหว่างค่าที่พยากรณ์กับค่าที่สังเกตได้จริง ขณะที่ในบางแนวทางของการสร้างโมเดลพยากรณ์ทางคลินิก มีการใช้ MAPE ในความหมายที่ดัดแปลงไป เพื่อประเมินความเสถียรของค่าพยากรณ์เมื่อมีการสร้างโมเดลใหม่จากข้อมูล bootstrap หลายชุด บทความนี้มีจุดประสงค์เพื่ออธิบายความแตกต่างเชิงแนวคิด เชิงคณิตศาสตร์ และเชิงระเบียบวิธีของ MAPE ทั้งสองรูปแบบ พร้อมทั้งชี้ให้เห็นว่าความแตกต่างดังกล่าวเกิดจากวัตถุประสงค์การใช้งานที่ไม่เหมือนกัน


1. บทนำ

การประเมินคุณภาพของโมเดลพยากรณ์จำเป็นต้องเลือกตัวชี้วัดให้สอดคล้องกับคำถามทางวิทยาศาสตร์ที่ต้องการตอบ ใน clinical epidemiology ตัวชี้วัดที่ใช้กันทั่วไป ได้แก่

  • Discrimination เช่น AUROC

  • Calibration เช่น calibration slope และ calibration intercept

  • Overall accuracy เช่น Brier score

อย่างไรก็ตาม คำว่า MAPE มักปรากฏในบริบทของการประเมินโมเดลเช่นกัน แต่ความหมายของคำนี้อาจแตกต่างกันอย่างมีนัยสำคัญตามสำนักหรือบริบทการใช้งาน หากไม่แยกความหมายให้ชัดเจน อาจนำไปสู่ความสับสนทั้งในเชิงแนวคิดและการตีความผลลัพธ์

บทความนี้แบ่ง MAPE ออกเป็น 2 แนวคิดหลัก ได้แก่

  1. Classical MAPE — ใช้วัดความคลาดเคลื่อนระหว่างค่าที่พยากรณ์กับ outcome จริง

  2. Modified MAPE — ใช้วัดความไม่เสถียรของค่าพยากรณ์ระหว่าง final model กับ bootstrap-refitted models


2. Classical MAPE: นิยามที่เน้นความแม่นยำ

2.1 นิยาม

Classical MAPE นิยามได้ดังนี้

โดยที่

  • yi คือค่าที่สังเกตได้จริง

  • y^i คือค่าที่โมเดลพยากรณ์


2.2 ความหมายเชิงแนวคิด

Classical MAPE ใช้ตอบคำถามว่า

“ค่าที่โมเดลพยากรณ์คลาดจากค่าจริงมากน้อยเพียงใด”

ดังนั้นจึงเป็นตัวชี้วัดของ prediction accuracy หรือความแม่นยำของการพยากรณ์


2.3 สาขาที่มักใช้

Classical MAPE พบบ่อยในสาขา เช่น

  • การพยากรณ์อนุกรมเวลา

  • เศรษฐมิติ

  • วิศวกรรม

  • ธุรกิจและการวิเคราะห์เชิงคาดการณ์


2.4 ข้อจำกัดในงานวิจัยทางคลินิก

สำหรับโมเดลทางคลินิกที่ outcome เป็น binary เช่น (0/1)

  • เมื่อ yi=0 ตัวหารในสูตรจะเป็นศูนย์

  • ทำให้ค่า MAPE ไม่สามารถคำนวณได้หรือมีความไม่เสถียรสูง

ด้วยเหตุนี้ Classical MAPE จึงไม่เหมาะกับการประเมินโมเดลทำนาย outcome แบบทวิภาคในทางคลินิก


3. Modified MAPE: นิยามที่เน้นความเสถียรของการพยากรณ์

3.1 นิยาม

ในกรอบแนวคิดที่ดัดแปลงนี้ MAPE นิยามเป็น

โดยที่

  • p^iorig คือค่าพยากรณ์จาก final model

  • p^iboot(b) คือค่าพยากรณ์จาก bootstrap model รอบที่ b

  • Sb คือกลุ่มผู้ป่วยที่ปรากฏใน bootstrap sample รอบที่ b

  • B คือจำนวน bootstrap iterations ทั้งหมด


3.2 ความหมายเชิงแนวคิด

Modified MAPE ใช้ตอบคำถามที่แตกต่างไปโดยสิ้นเชิง คือ

“ถ้าเราสร้างโมเดลใหม่จากข้อมูลที่ถูกสุ่มซ้ำ ค่าพยากรณ์ของผู้ป่วยจะเปลี่ยนไปมากเพียงใดเมื่อเทียบกับ final model”

ดังนั้น MAPE แบบนี้จึงเป็นตัวชี้วัดของ

  • prediction stability

  • model reproducibility

  • sensitivity to sampling variation


3.3 การตีความ

  • ค่า MAPE ต่ำ หมายถึง ค่าพยากรณ์จาก bootstrap models ใกล้เคียงกับ final model แสดงว่าโมเดลมีความเสถียร

  • ค่า MAPE สูง หมายถึง ค่าพยากรณ์เปลี่ยนแปลงมากเมื่อมีการ bootstrap แสดงว่าโมเดลอาจมีความไม่เสถียรหรือไวต่อการเปลี่ยนแปลงของ sample


3.4 คุณสมบัติสำคัญ

Modified MAPE มีลักษณะสำคัญดังนี้

  • ไม่ต้องใช้ outcome จริง

  • ไม่ได้วัด accuracy โดยตรง

  • ไม่มี apparent version

  • ไม่มี optimism correction

  • อาศัย bootstrap resampling เป็นองค์ประกอบหลักของนิยาม


4. ความแตกต่างเชิงแนวคิดระหว่าง MAPE ทั้งสองแบบ

4.1 สิ่งที่ถูกนำมาเปรียบเทียบ


4.2 คำถามทางวิทยาศาสตร์ที่ต้องการตอบ


4.3 บทบาทในการประเมินโมเดล


5. เหตุใดจึงใช้ชื่อเดียวกันแต่มีความหมายต่างกัน

สาเหตุที่ทั้งสองแนวคิดใช้ชื่อว่า MAPE เหมือนกัน มาจากการมีโครงสร้างทางคณิตศาสตร์คล้ายกัน คืออยู่บนพื้นฐานของ

อย่างไรก็ตาม ความหมายของ metric ไม่ได้ขึ้นกับรูปสมการเพียงอย่างเดียว แต่ขึ้นกับว่า A และ B แทนอะไร

ใน Classical MAPE

  • A=y

  • B=y^

ใน Modified MAPE

  • A=p^orig

  • B=p^boot

ดังนั้น แม้รูปแบบคณิตศาสตร์จะคล้ายกัน แต่เมื่อ “วัตถุที่นำมาเปรียบเทียบ” เปลี่ยนไป ความหมายของตัวชี้วัดก็เปลี่ยนตามไปด้วย


6. นัยสำคัญต่อการวิจัยทางคลินิก

Modified MAPE ให้ข้อมูลในมิติที่ตัวชี้วัดมาตรฐานอย่าง AUROC หรือ Brier score ไม่สามารถอธิบายได้โดยตรง กล่าวคือ มันไม่ได้ตอบว่าโมเดล “แม่นยำแค่ไหน” แต่ตอบว่าโมเดล “เสถียรแค่ไหน” เมื่อลองสร้างใหม่จากข้อมูลที่เปลี่ยนไป

จึงอาจกล่าวได้ว่า Modified MAPE มีประโยชน์ในการประเมิน

  • robustness ของโมเดล

  • reproducibility ของค่าพยากรณ์

  • ความไวของโมเดลต่อ sampling variation

อย่างไรก็ตาม เนื่องจากเป็นการใช้คำว่า MAPE ในความหมายที่ไม่เป็นมาตรฐาน จึงควรนิยาม metric นี้ให้ชัดเจนทุกครั้งในรายงานหรือบทความวิจัย


7. ข้อเสนอแนะในการเขียนรายงาน

เพื่อหลีกเลี่ยงความกำกวม ไม่ควรเขียนเพียงคำว่า “MAPE” โดยไม่มีคำอธิบาย แต่ควรเขียนในลักษณะดังนี้

“Prediction stability was assessed using a bootstrap-based Mean Absolute Prediction Error (MAPE), defined as the mean absolute difference between predicted probabilities from the final model and those from bootstrap-refitted models across overlapping individuals.”

ข้อความลักษณะนี้ช่วยให้ผู้อ่านเข้าใจทันทีว่า MAPE ที่ใช้ในงานวิจัยนี้ไม่ใช่ MAPE แบบดั้งเดิมที่เทียบ prediction กับ truth


8. บทสรุป

แม้จะใช้ชื่อเดียวกัน แต่ Classical MAPE และ Modified MAPE เป็นตัวชี้วัดที่มีรากฐานเชิงแนวคิดต่างกันอย่างชัดเจน

  • Classical MAPE ใช้วัดความแม่นยำของการพยากรณ์เมื่อเทียบกับ outcome จริง

  • Modified MAPE ใช้วัดความเสถียรของค่าพยากรณ์เมื่อมีการสร้างโมเดลใหม่จาก bootstrap samples

ดังนั้น ความแตกต่างของทั้งสองไม่ได้เกิดจากความขัดแย้งทางคณิตศาสตร์ แต่เกิดจากการถูกพัฒนาขึ้นเพื่อตอบคำถามทางวิทยาศาสตร์คนละข้อ กล่าวคือ

  • แบบแรกถามว่า “โมเดลพยากรณ์ถูกหรือไม่”

  • แบบหลังถามว่า “โมเดลให้ค่าพยากรณ์เสถียรหรือไม่”

การแยกความแตกต่างนี้ให้ชัดเจนเป็นสิ่งสำคัญอย่างยิ่งสำหรับการตีความผลลัพธ์อย่างถูกต้อง และสำหรับการสื่อสารงานวิจัยให้ผู้อ่านหรือผู้ประเมินเข้าใจตรงกัน

 
 
 

ความคิดเห็น

ได้รับ 0 เต็ม 5 ดาว
ยังไม่มีการให้คะแนน

ให้คะแนน
Post: Blog2_Post

​Message for International and Thai Readers Understanding My Medical Context in Thailand

Message for International and Thai Readers Understanding My Broader Content Beyond Medicine

bottom of page