← All posts

Bootstrap, Cross-Validation และบทบาทของ Out-of-Bag Error ใน Random Forest

Clinical Epidemiology ResearchData Analytics or StatisticsUniqcret doctor knowledges TH
Bootstrap, Cross-Validation และบทบาทของ Out-of-Bag Error ใน Random Forest

1. บทนำ

ในการพัฒนาโมเดลทำนายทางคลินิก การท้าทายสำคัญเชิงระเบียบวิธีคือ การตรวจสอบความตรงภายใน (internal validation) ซึ่งหมายถึงการประเมินว่าโมเดลจะทำงานได้ดีเพียงใดเมื่อใช้กับผู้ป่วยรายใหม่ที่มีลักษณะคล้ายกับข้อมูลเดิม

หากเราประเมินจากข้อมูลชุดเดิมที่ใช้สร้างโมเดลโดยตรง ค่าประสิทธิภาพที่ได้มัก ดูดีกว่าความเป็นจริง เพราะมีอคติจากการฟิตข้อมูลมากเกินไป หรือ optimism โดยเขียนได้ว่า

Observedperformance=Trueperformance+Overfitting(optimism)

ดังนั้น เป้าหมายของ internal validation คือ การวัดและแก้ไข optimism นี้ วิธีมาตรฐานที่นิยมใช้คือ cross-validation (CV) และ bootstrap resampling ส่วนใน Random Forest จะมีตัวช่วยที่ฝังอยู่ในตัวอัลกอริทึมคือ Out-of-Bag (OOB) error


2. กรอบแนวคิด

ในเชิงระเบียบวิธี internal validation มีเป้าหมายเพื่อประมาณว่า

Enew data [Model performance]

หรือกล่าวง่าย ๆ คือ ต้องการรู้ว่าโมเดลจะมีประสิทธิภาพอย่างไรในข้อมูลใหม่ ไม่ใช่แค่ข้อมูลที่ใช้สร้างโมเดลเดิม แนวคิดนี้สอดคล้องกับงาน prediction modeling ซึ่งสนใจความสามารถในการใช้ได้จริงกับข้อมูลใหม่ มากกว่าการตีความเชิงเหตุและผล


3. Cross-Validation (CV)

วิธีการ

คุณสมบัติ

คุณลักษณะ ความหมาย
Bias มีแนวโน้ม pessimistic เล็กน้อย เพราะแต่ละรอบใช้ข้อมูลฝึกไม่ครบทั้งหมด
Variance ปานกลาง
Transparency สูง อธิบายง่าย

จุดแข็ง

ข้อจำกัด


4. Bootstrap Internal Validation

วิธีการแบบ optimism correction

  1. ฟิตโมเดลบนข้อมูลต้นฉบับ → ได้ apparent performance
  2. สุ่ม bootstrap sample จากข้อมูลเดิมแบบใส่คืน
  3. ฟิตโมเดลบน bootstrap sample
  4. ประเมินประสิทธิภาพบน
    • bootstrap sample เอง (training performance)
    • ข้อมูลต้นฉบับ (test performance)
  5. คำนวณ optimism
Optimism=Perfboot,train-Perfboot,test
  1. ทำซ้ำหลายรอบแล้วเฉลี่ย จากนั้นคำนวณ corrected performance
Correctedperformance=Apparent-Meanoptimism

คุณสมบัติ

คุณลักษณะ ความหมาย
Bias ต่ำ เพราะใช้ข้อมูลได้เต็มประสิทธิภาพ
Variance ต่ำ
Output ให้ค่าประมาณ optimism โดยตรง

จุดแข็ง

ข้อจำกัด


5. Out-of-Bag (OOB) Error ใน Random Forest

กลไก

Random Forest ใช้ bootstrap sampling ภายในอยู่แล้ว:

สำหรับแต่ละ observation:

การตีความ

OOB error ≈ Internal validation using unseen data subsets

กล่าวคือ OOB เป็นการประเมินแบบ “ข้อมูลที่ต้นไม้นั้นไม่เคยเห็น” โดยไม่ต้องทำ resampling loop เพิ่มภายนอก


6. เปรียบเทียบ OOB, CV และ Bootstrap

คุณลักษณะ OOB Cross-Validation Bootstrap
ขอบเขตการใช้ ใช้ได้เฉพาะ RF ใช้ได้ทุกโมเดล ใช้ได้ทุกโมเดล
การคำนวณ เร็วมาก เพราะมีอยู่แล้ว ปานกลางถึงสูง ปานกลาง
Bias optimistic เล็กน้อย pessimistic เล็กน้อย bias ต่ำที่สุด
วัตถุประสงค์หลัก quick internal check เปรียบเทียบโมเดล / tuning final validation / optimism correction

7. บทบาทของ OOB: “Quick Internal Check”

OOB error เป็นตัวประมาณประสิทธิภาพที่ รวดเร็วและประหยัดการคำนวณ เพราะ

อย่างไรก็ตาม OOB มีข้อจำกัดสำคัญ

ข้อจำกัด


8. กลยุทธ์ที่แนะนำสำหรับ Random Forest

Workflow ที่เหมาะสม

ขั้นที่ 1: Hyperparameter tuning

ขั้นที่ 2: Fit final model

ขั้นที่ 3: Internal validation

ขั้นที่ 4: Supplementary check


9. การตีความในบริบทคลินิก


ข้อสังเกตสำคัญ

OOB มักถูกเข้าใจผิดว่าเป็น internal validation แบบสมบูรณ์

แต่ในความจริง:

OOB เป็นผลพลอยได้จากอัลกอริทึม Random Forest ขณะที่ bootstrap และ CV เป็นกรอบการตรวจสอบความตรงที่ถูกออกแบบมาโดยตรง


10. สรุป

การตรวจสอบความตรงภายในเป็นขั้นตอนจำเป็นเพื่อให้โมเดลทำนายมีความน่าเชื่อถือ แม้ว่า cross-validation และ bootstrap จะยังคงเป็นวิธีมาตรฐานทางระเบียบวิธี แต่ OOB error ใน Random Forest ก็มีประโยชน์มากในฐานะตัวชี้วัดเสริมที่รวดเร็วและใช้งานง่าย

สำหรับงานวิจัยทางคลินิกที่ต้องการความเข้มงวด ควรใช้แนวทางดังนี้


สรุปสั้น ๆ