← All posts

ทำไม Confidence Interval ในกราฟ Calibration ถึงต่างกัน: Wald vs Wilson และ Parametric GLM vs LOESS

Clinical Epidemiology ResearchData Analytics or StatisticsUniqcret doctor knowledges TH
ทำไม Confidence Interval ในกราฟ Calibration ถึงต่างกัน: Wald vs Wilson และ Parametric GLM vs LOESS

บทคัดย่อ

การประเมิน calibration เป็นองค์ประกอบสำคัญของการประเมินแบบจำลองพยากรณ์ทางคลินิก อย่างไรก็ตาม ช่วงความเชื่อมั่น (confidence intervals; CIs) ในกราฟ calibration มักแตกต่างกันอย่างมากตามวิธีทางสถิติที่ใช้ ความแตกต่างนี้ไม่ใช่เพียงเรื่องของหน้าตากราฟ แต่สะท้อนสมมติฐานที่แตกต่างกันเกี่ยวกับความไม่แน่นอนทางสถิติ บทความนี้อธิบายแหล่งสำคัญ 2 ประการของความแตกต่างดังกล่าว ได้แก่ (1) การประมาณค่า CI ของสัดส่วนแบบทวินามด้วยวิธี Wald เทียบกับ Wilson และ (2) การประมาณเส้น calibration ด้วย logistic regression แบบพาราเมตริก เทียบกับ LOESS แบบไม่อาศัยรูปแบบจำลองตายตัว พร้อมเสนอแนวทางเชิงปฏิบัติว่าในเงื่อนไขใดควรเลือกใช้แต่ละวิธี


1. บทนำ

Calibration คือการประเมินว่าความน่าจะเป็นที่แบบจำลองทำนายไว้ สอดคล้องกับความเสี่ยงที่สังเกตได้จริงมากน้อยเพียงใด โดยมักแสดงผลผ่าน

อย่างไรก็ตาม องค์ประกอบเหล่านี้ไม่ได้เป็นกลางทางระเบียบวิธี การเลือกวิธีทางสถิติที่ต่างกันสามารถทำให้ช่วงความเชื่อมั่นแคบหรือกว้างต่างกันอย่างเป็นระบบ และอาจนำไปสู่การตีความที่มั่นใจเกินจริงหรือคลาดเคลื่อน

ในเชิง clinimetrics การประเมิน calibration คือปัญหาของการประมาณค่า โดยสามารถมองได้ว่า

Observed Risk = f(Predicted Risk | sampling error + model assumptions)

ดังนั้น ความน่าเชื่อถือของ calibration จึงขึ้นกับวิธีที่เราใช้วัดความไม่แน่นอนโดยตรง


2. ช่วงความเชื่อมั่นของสัดส่วนแบบทวินาม: Wald เทียบกับ Wilson

2.1 Wald Interval

Wald interval อาศัยการประมาณแบบปกติ โดยมีรูปแบบ

p^±1.96p^(1-p^)n

สมมติฐาน

ข้อจำกัด

ปัญหาเหล่านี้เกิดจากการที่ข้อมูลแบบทวินามในหลายสถานการณ์จริงไม่สามารถประมาณได้ดีด้วยการแจกแจงปกติ


2.2 Wilson Interval

Wilson interval เป็นวิธีที่ปรับแก้ความไม่สมมาตรของข้อมูลแบบทวินามและคำนึงถึงข้อจำกัดของขอบเขตที่ต้องอยู่ระหว่าง 0 ถึง 1

คุณสมบัติ

ความหมายเชิงตีความ

Wilson method สะท้อนโครงสร้างข้อมูลแบบทวินามได้ดีกว่า จึงเหมาะกว่าในการประมาณความเสี่ยงที่สังเกตได้ในกราฟ calibration


2.3 ควรใช้เมื่อใด

สถานการณ์ วิธีที่แนะนำ
จำนวนตัวอย่างต่อกลุ่มน้อย Wilson
สัดส่วนใกล้ 0 หรือ 1 Wilson
ใช้ใน calibration plot สำหรับรายงานวิชาการ Wilson
ตัวอย่างใหญ่มาก และสัดส่วนอยู่ช่วงกลาง Wald พอใช้ได้ แต่ไม่ใช่ตัวเลือกที่ควรเลือกก่อน

3. การประมาณเส้น Calibration: Parametric GLM เทียบกับ LOESS

3.1 Parametric Logistic Regression (GLM)

แบบจำลอง calibration แบบพาราเมตริกมักเขียนในรูป

logit(Y)=β0+β1LP

โดยที่ LP คือ linear predictor จากแบบจำลองเดิม

คุณสมบัติ

ลักษณะของช่วงความเชื่อมั่น

ข้อจำกัด

หากความสัมพันธ์จริงของ calibration ไม่ได้เป็นเชิงเส้น วิธีนี้อาจประเมินความไม่แน่นอนต่ำเกินไป และซ่อนปัญหา miscalibration เฉพาะตำแหน่งได้


3.2 LOESS

LOESS เป็นวิธี smoothing แบบไม่พาราเมตริกที่ใช้การถดถอยเฉพาะบริเวณ

คุณสมบัติ

ลักษณะของช่วงความเชื่อมั่น

ข้อจำกัด


3.3 ความต่างในเชิงแนวคิด

ดังนั้น ทั้งสองวิธีจึงไม่ได้ประมาณสิ่งเดียวกันอย่างแท้จริง แต่เป็นคนละเป้าหมายเชิงอนุมาน


3.4 ควรใช้เมื่อใด

สถานการณ์ วิธีที่แนะนำ
ต้องการประเมิน calibration อย่างตรงไปตรงมา LOESS
ต้องการตรวจจับ local miscalibration LOESS
ข้อมูลมีขนาดเล็กหรือบางช่วงมีข้อมูลเบาบางมาก GLM ใช้ได้ด้วยความระมัดระวัง
ต้องการรายงาน calibration intercept และ slope GLM
ต้องการกราฟสำหรับรายงานวิชาการ LOESS หรือ spline แบบยืดหยุ่น

4. ผลของการจับคู่วิธีต่าง ๆ ในกราฟ Calibration

เมื่อนำวิธีเหล่านี้มาใช้ร่วมกัน จะเกิดรูปแบบดังนี้

องค์ประกอบ วิธีที่มักให้ CI กว้างกว่า วิธีที่มักให้ CI แคบกว่า
Error bars ของ grouped observed risk Wilson Wald
การประมาณเส้น calibration LOESS Parametric GLM

การใช้ Wald ร่วมกับ GLM แบบพาราเมตริกมักทำให้ช่วงความเชื่อมั่นแคบลงทั้งสองชั้น และอาจสร้างภาพลวงตาว่าแบบจำลองมี calibration ดีและมีความแน่นอนสูงกว่าความจริง


5. นัยสำคัญทางคลินิกและระเบียบวิธี

Calibration มีผลโดยตรงต่อการตัดสินใจทางคลินิก หากช่วงความเชื่อมั่นแคบเกินจริง ย่อมสื่อว่าระดับความมั่นใจในความเสี่ยงที่แบบจำลองให้มานั้นสูง ทั้งที่อาจไม่เป็นเช่นนั้นจริง ผลที่ตามมาอาจได้แก่

สำหรับแบบจำลองพยากรณ์ทางคลินิก การสะท้อนความไม่แน่นอนอย่างถูกต้องจึงเป็นเงื่อนไขสำคัญของการใช้งานอย่างปลอดภัยและน่าเชื่อถือ


6. ข้อเสนอแนะในการปฏิบัติ

สำหรับการประเมิน calibration ที่มีความเข้มงวดทางระเบียบวิธี

ความเสี่ยงที่สังเกตได้ในข้อมูลแบบ grouped

เส้น Calibration

หลักทั่วไป

ควรเลือกวิธีที่สะท้อนความไม่แน่นอนของข้อมูลจริง มากกว่าวิธีที่ทำให้กราฟดูเรียบหรือดูมั่นใจสวยงาม


7. สรุป

ความแตกต่างของช่วงความเชื่อมั่นในกราฟ calibration เกิดจากการเลือกวิธีทางสถิติ ไม่ได้เกิดจากสมรรถนะของแบบจำลองเพียงอย่างเดียว วิธี Wald และ parametric GLM มีแนวโน้มประเมินความไม่แน่นอนต่ำเกินไป ขณะที่ Wilson interval และ LOESS ให้ภาพของความแปรปรวนที่น่าเชื่อถือกว่า

การเลือกวิธีอย่างรอบคอบจึงจำเป็น เพื่อหลีกเลี่ยงข้อสรุปที่ทำให้เข้าใจผิดเกี่ยวกับคุณภาพของแบบจำลอง และเพื่อรักษาความเที่ยงตรงของการตัดสินใจทางคลินิก


เงื่อนไขที่ควรเลือกใช้แต่ละวิธีแบบสั้นและชัด

Wald

ใช้ได้เมื่อ

ไม่ควรใช้เมื่อ

Wilson

ควรใช้เมื่อ

Parametric GLM

ควรใช้เมื่อ

LOESS

ควรใช้เมื่อ


ประเด็นสำคัญ