← All posts

Machine learn Model Development Pipeline — Tuning, Final Model, and Internal Validation

Clinical Epidemiology ResearchData Analytics or StatisticsUniqcret doctor knowledges TH
Machine learn Model Development Pipeline — Tuning, Final Model, and Internal Validation

การสร้าง prediction model ที่ดี จำเป็นต้องแยก 3 ขั้นตอนสำคัญ ออกจากกันอย่างชัดเจน เพราะแต่ละขั้นตอบคำถามทางระเบียบวิธีคนละข้อ

ขั้นตอน เป้าหมาย คำถามหลัก
1. การปรับจูนพารามิเตอร์ (Hyperparameter tuning) การคัดเลือกโมเดล โมเดลแบบใด generalize ได้ดีที่สุด
2. การฟิตโมเดลสุดท้าย (Final model fitting) การประมาณโมเดล โมเดลสุดท้ายคืออะไร
3. การตรวจสอบความตรงภายใน (Internal validation) การประเมินสมรรถนะ เรากำลังประเมินสมรรถนะสูงเกินจริงอยู่มากแค่ไหน

หากไม่แยกทั้ง 3 ขั้นตอนนี้ออกจากกัน ผลลัพธ์ที่ได้มักจะ มีอคติและทำซ้ำได้ยาก


1. การปรับจูนพารามิเตอร์

วัตถุประสงค์

เลือกชุดพารามิเตอร์ของโมเดลที่ทำให้สมรรถนะบนข้อมูลใหม่ดีที่สุด

Best model = arg maxλ [Cross-validated performance]

วิธีที่แนะนำ: Cross-validation

กลไก


ความหมายเชิงระเบียบวิธี

คุณสมบัติ ความหมาย
การแยกระหว่าง train/test เลียนแบบ external validation
อคติของการประมาณ มักออกไปทาง pessimistic เล็กน้อย
ข้อดี ลดโอกาส overfitting ระหว่างการเลือกโมเดล

ทำไมขั้นตอนนี้จึงสำคัญ

การปรับจูนพารามิเตอร์เป็นปัญหาแบบ model selection ไม่ใช่การสรุปสมรรถนะสุดท้ายของโมเดล

คำถามจริงของขั้นตอนนี้คือ

“โมเดลแบบไหนจะทำงานได้ดีที่สุดกับผู้ป่วยใหม่”

Cross-validation จึงเหมาะ เพราะประเมินความสามารถในการ generalize ได้โดยตรง

แนวคิดนี้สอดคล้องกับหลักการพัฒนา prediction model ที่เน้น generalizability ระหว่างการสร้างโมเดล


สิ่งที่ไม่ควรทำ

เหตุผลคือ


2. การฟิตโมเดลสุดท้าย

วัตถุประสงค์

เมื่อเลือก hyperparameters ที่ดีที่สุดแล้ว ขั้นตอนถัดไปคือ

ฟิตโมเดลสุดท้ายด้วย ข้อมูลทั้งหมดที่มี


เหตุผลที่ต้องใช้ข้อมูลทั้งหมด

วิธี ผลตามมา
ใช้ข้อมูลทั้งหมด ได้พลังทางสถิติสูงสุด
ใช้เพียงบางส่วนของข้อมูล สูญเสียข้อมูลโดยไม่จำเป็น

บทบาทเชิงแนวคิด

ขั้นตอนนี้คือการนิยามว่า final prediction model ของคุณคืออะไร เช่น


ข้อชี้แจงสำคัญ

แม้จะฟิต final model แล้ว แต่โมเดลนี้ ยังไม่ถือว่าผ่านการตรวจสอบความตรง

สมรรถนะที่เห็นจากข้อมูลเดิมยังคงเป็น

Apparentperformance=Trueperformance+Optimism

กล่าวคือ ผลที่เห็นยังปนด้วย optimism อยู่


3. การตรวจสอบความตรงภายใน

วัตถุประสงค์

ประเมินและแก้ไขผลของ overfitting

Trueperformance=Apparentperformance-Optimism

มีอยู่ 2 วิธีที่ใช้ได้


ทางเลือก A: Cross-validation

กลไก


คุณสมบัติ

คุณสมบัติ ความหมาย
อคติของการประมาณ มัก pessimistic เล็กน้อย
การใช้ข้อมูล มีประสิทธิภาพน้อยกว่า เพราะแต่ละครั้งไม่ได้ใช้ข้อมูลครบทั้งหมด
ความง่ายในการใช้ ทำได้ง่าย

ทางเลือก B: Bootstrap (นิยมกว่าใน CPM)

กลไกแบบ optimism correction

  1. ฟิตโมเดลบนข้อมูลทั้งหมด แล้วได้ apparent performance
  2. สุ่ม bootstrap sample ขึ้นมา
  3. ฟิตโมเดลบน bootstrap sample นั้น
  4. ประเมินสมรรถนะ 2 จุด
    • บน bootstrap sample เอง (training performance)
    • บนข้อมูลต้นฉบับ (testing performance)
  5. คำนวณ optimism
Optimism=Performancetrain-Performancetest
  1. ทำซ้ำหลายรอบ
  2. แก้ไขค่าที่ได้
Correctedperformance=Apparent-Meanoptimism

คุณสมบัติ

คุณสมบัติ ความหมาย
การใช้ข้อมูล ใช้ข้อมูลเต็มชุด
การแก้อคติ ประเมิน optimism ได้โดยตรง
ผลลัพธ์ ได้ optimism-corrected performance

ทำไม bootstrap จึงมีพลัง

Bootstrap ตอบคำถามนี้ได้ตรงที่สุด

“ฉันกำลังประเมินสมรรถนะของโมเดลในข้อมูลของตัวเองสูงเกินจริงอยู่เท่าไร”

นี่สอดคล้องกับหลักการสำคัญในการทำโมเดล คือ

ต้องแยก signal ออกจาก bias และ random error


เมื่อนำทั้ง 3 ขั้นมารวมกัน

กระบวนการที่สมบูรณ์

ขั้นที่ 1 — Hyperparameter tuning


ขั้นที่ 2 — Fit final model


ขั้นที่ 3 — Internal validation


การแยกเชิงแนวคิดที่สำคัญมาก

ขั้น สิ่งที่กำลังประมาณ
Tuning ความสามารถในการ generalize ของโมเดลแต่ละแบบ
Final model รูปแบบโมเดลที่ดีที่สุด
Validation ระดับ optimism หรือ bias ของ performance

ประเด็นสำคัญ

ถ้าไม่แยก 3 ขั้นตอนนี้ให้ชัด


ความหมายทางคลินิก

ขั้นตอน ความหมายทางคลินิก
Tuning “โมเดลไหนจะทำงานได้ดีที่สุดกับผู้ป่วยใหม่”
Final model “นี่คือโมเดลที่ฉันจะใช้จริง”
Validation “ฉันกำลังประเมินสมรรถนะของมันสูงเกินจริงอยู่มากแค่ไหน”

สรุปสาระสำคัญ