Bootstrap, Cross-Validation และบทบาทของ Out-of-Bag Error ใน Random Forest


1. บทนำ
ในการพัฒนาโมเดลทำนายทางคลินิก การท้าทายสำคัญเชิงระเบียบวิธีคือ การตรวจสอบความตรงภายใน (internal validation) ซึ่งหมายถึงการประเมินว่าโมเดลจะทำงานได้ดีเพียงใดเมื่อใช้กับผู้ป่วยรายใหม่ที่มีลักษณะคล้ายกับข้อมูลเดิม
หากเราประเมินจากข้อมูลชุดเดิมที่ใช้สร้างโมเดลโดยตรง ค่าประสิทธิภาพที่ได้มัก ดูดีกว่าความเป็นจริง เพราะมีอคติจากการฟิตข้อมูลมากเกินไป หรือ optimism โดยเขียนได้ว่า
ดังนั้น เป้าหมายของ internal validation คือ การวัดและแก้ไข optimism นี้ วิธีมาตรฐานที่นิยมใช้คือ cross-validation (CV) และ bootstrap resampling ส่วนใน Random Forest จะมีตัวช่วยที่ฝังอยู่ในตัวอัลกอริทึมคือ Out-of-Bag (OOB) error

2. กรอบแนวคิด
ในเชิงระเบียบวิธี internal validation มีเป้าหมายเพื่อประมาณว่า
หรือกล่าวง่าย ๆ คือ ต้องการรู้ว่าโมเดลจะมีประสิทธิภาพอย่างไรในข้อมูลใหม่ ไม่ใช่แค่ข้อมูลที่ใช้สร้างโมเดลเดิม แนวคิดนี้สอดคล้องกับงาน prediction modeling ซึ่งสนใจความสามารถในการใช้ได้จริงกับข้อมูลใหม่ มากกว่าการตีความเชิงเหตุและผล
3. Cross-Validation (CV)
วิธีการ
- แบ่งข้อมูลออกเป็น (K) ส่วน หรือ (K) folds
- ฝึกโมเดลด้วย (K-1) folds
- ทดสอบด้วย fold ที่เหลือ
- ทำซ้ำจนครบทุก fold
คุณสมบัติ
จุดแข็ง
- เป็นมาตรฐานที่ยอมรับกันอย่างกว้างขวาง
- ใช้เปรียบเทียบโมเดลคนละชนิดได้อย่างเป็นธรรม
ข้อจำกัด
- ใช้เวลาในการคำนวณมากกว่า
- ไม่ได้ประเมิน optimism โดยตรง

4. Bootstrap Internal Validation
วิธีการแบบ optimism correction
- ฟิตโมเดลบนข้อมูลต้นฉบับ → ได้ apparent performance
- สุ่ม bootstrap sample จากข้อมูลเดิมแบบใส่คืน
- ฟิตโมเดลบน bootstrap sample
- ประเมินประสิทธิภาพบน
- bootstrap sample เอง (training performance)
- ข้อมูลต้นฉบับ (test performance)
- คำนวณ optimism
- ทำซ้ำหลายรอบแล้วเฉลี่ย จากนั้นคำนวณ corrected performance
คุณสมบัติ
จุดแข็ง
- มีประสิทธิภาพทางสถิติสูง
- เป็นวิธีที่แนะนำบ่อยในวรรณกรรมด้าน clinical prediction models
ข้อจำกัด
- อธิบายยากกว่า CV เล็กน้อย
- การนำเสนอให้ผู้อ่านทั่วไปเข้าใจอาจซับซ้อนกว่า

5. Out-of-Bag (OOB) Error ใน Random Forest
กลไก
Random Forest ใช้ bootstrap sampling ภายในอยู่แล้ว:
- ต้นไม้แต่ละต้นถูกฝึกด้วยข้อมูลประมาณ 63.2%
- ข้อมูลที่เหลือประมาณ 36.8% ของแต่ละรอบจะเป็น Out-of-Bag observations
สำหรับแต่ละ observation:
- โมเดลจะรวบรวมคำทำนายเฉพาะจากต้นไม้ที่ ไม่เคยเห็น observation นั้นระหว่างการฝึก
การตีความ
กล่าวคือ OOB เป็นการประเมินแบบ “ข้อมูลที่ต้นไม้นั้นไม่เคยเห็น” โดยไม่ต้องทำ resampling loop เพิ่มภายนอก

6. เปรียบเทียบ OOB, CV และ Bootstrap
7. บทบาทของ OOB: “Quick Internal Check”
OOB error เป็นตัวประมาณประสิทธิภาพที่ รวดเร็วและประหยัดการคำนวณ เพราะ
- แต่ละ observation ถูกทำนายโดยต้นไม้ที่ไม่ได้ใช้ observation นั้นในการฝึก
- ไม่จำเป็นต้องทำ CV หรือ bootstrap เพิ่มในทุกครั้ง
อย่างไรก็ตาม OOB มีข้อจำกัดสำคัญ
ข้อจำกัด
- ใช้เปรียบเทียบข้ามชนิดโมเดลได้ไม่ดี
- อาจ optimistic เล็กน้อยจากโครงสร้างการพึ่งพากันของต้นไม้
- ไม่ได้ให้ optimism correction แบบชัดเจนเหมือน bootstrap
8. กลยุทธ์ที่แนะนำสำหรับ Random Forest
Workflow ที่เหมาะสม
ขั้นที่ 1: Hyperparameter tuning
- ใช้ cross-validation เช่น 10-fold CV
ขั้นที่ 2: Fit final model
- ฝึก Random Forest ด้วยข้อมูลเต็มชุด โดยใช้ hyperparameters ที่ดีที่สุด
ขั้นที่ 3: Internal validation
- ใช้ bootstrap optimism correction
ขั้นที่ 4: Supplementary check
- รายงาน OOB error เป็นข้อมูลสนับสนุนว่าผลลัพธ์สอดคล้องกัน

9. การตีความในบริบทคลินิก
- Cross-validation ตอบคำถามว่า → “โมเดลไหนน่าจะ generalize ได้ดีที่สุด?”
- Bootstrap ตอบคำถามว่า → “ฉันกำลังประเมินประสิทธิภาพดีเกินจริงอยู่เท่าไร?”
- OOB error ตอบคำถามว่า → “Random Forest ของฉันดูสมเหตุสมผลไหม โดยไม่ต้องคำนวณเพิ่มมาก?”
ข้อสังเกตสำคัญ
OOB มักถูกเข้าใจผิดว่าเป็น internal validation แบบสมบูรณ์
แต่ในความจริง:
OOB เป็นผลพลอยได้จากอัลกอริทึม Random Forest ขณะที่ bootstrap และ CV เป็นกรอบการตรวจสอบความตรงที่ถูกออกแบบมาโดยตรง
10. สรุป
การตรวจสอบความตรงภายในเป็นขั้นตอนจำเป็นเพื่อให้โมเดลทำนายมีความน่าเชื่อถือ แม้ว่า cross-validation และ bootstrap จะยังคงเป็นวิธีมาตรฐานทางระเบียบวิธี แต่ OOB error ใน Random Forest ก็มีประโยชน์มากในฐานะตัวชี้วัดเสริมที่รวดเร็วและใช้งานง่าย
สำหรับงานวิจัยทางคลินิกที่ต้องการความเข้มงวด ควรใช้แนวทางดังนี้
- ใช้ CV สำหรับ tuning
- ใช้ bootstrap สำหรับ final validation
- ใช้ OOB เป็น quick internal check เสริม
สรุปสั้น ๆ
- Internal validation มีเป้าหมายเพื่อแก้ optimism ของโมเดล
- Bootstrap มีประสิทธิภาพสูงสำหรับการประเมิน optimism-corrected performance
- CV เหมาะมากสำหรับ tuning และเปรียบเทียบโมเดล
- OOB เป็นตัวประมาณเฉพาะของ Random Forest ที่เร็วและสะดวก
- OOB ควรใช้เป็นตัวเสริม ไม่ใช่ตัวแทน bootstrap หรือ CV ทั้งหมด