ทำไม Confidence Interval ในกราฟ Calibration ถึงต่างกัน: Wald vs Wilson และ Parametric GLM vs LOESS

Mayta
6 วันที่ผ่านมา
ยาว 2 นาที

อัปเดตเมื่อ 4 วันที่ผ่านมา

บทคัดย่อ

การประเมิน calibration เป็นองค์ประกอบสำคัญของการประเมินแบบจำลองพยากรณ์ทางคลินิก อย่างไรก็ตาม ช่วงความเชื่อมั่น (confidence intervals; CIs) ในกราฟ calibration มักแตกต่างกันอย่างมากตามวิธีทางสถิติที่ใช้ ความแตกต่างนี้ไม่ใช่เพียงเรื่องของหน้าตากราฟ แต่สะท้อนสมมติฐานที่แตกต่างกันเกี่ยวกับความไม่แน่นอนทางสถิติ บทความนี้อธิบายแหล่งสำคัญ 2 ประการของความแตกต่างดังกล่าว ได้แก่ (1) การประมาณค่า CI ของสัดส่วนแบบทวินามด้วยวิธี Wald เทียบกับ Wilson และ (2) การประมาณเส้น calibration ด้วย logistic regression แบบพาราเมตริก เทียบกับ LOESS แบบไม่อาศัยรูปแบบจำลองตายตัว พร้อมเสนอแนวทางเชิงปฏิบัติว่าในเงื่อนไขใดควรเลือกใช้แต่ละวิธี

1. บทนำ

Calibration คือการประเมินว่าความน่าจะเป็นที่แบบจำลองทำนายไว้ สอดคล้องกับความเสี่ยงที่สังเกตได้จริงมากน้อยเพียงใด โดยมักแสดงผลผ่าน

ความเสี่ยงที่สังเกตได้ในแต่ละกลุ่มย่อย เช่น deciles พร้อมแถบความคลาดเคลื่อน
เส้น calibration แบบ smooth พร้อมช่วงความเชื่อมั่น

อย่างไรก็ตาม องค์ประกอบเหล่านี้ไม่ได้เป็นกลางทางระเบียบวิธี การเลือกวิธีทางสถิติที่ต่างกันสามารถทำให้ช่วงความเชื่อมั่นแคบหรือกว้างต่างกันอย่างเป็นระบบ และอาจนำไปสู่การตีความที่มั่นใจเกินจริงหรือคลาดเคลื่อน

ในเชิง clinimetrics การประเมิน calibration คือปัญหาของการประมาณค่า โดยสามารถมองได้ว่า

ดังนั้น ความน่าเชื่อถือของ calibration จึงขึ้นกับวิธีที่เราใช้วัดความไม่แน่นอนโดยตรง

2. ช่วงความเชื่อมั่นของสัดส่วนแบบทวินาม: Wald เทียบกับ Wilson

2.1 Wald Interval

Wald interval อาศัยการประมาณแบบปกติ โดยมีรูปแบบ

สมมติฐาน

ขนาดตัวอย่างมีมากพอ
การแจกแจงของค่าประมาณมีลักษณะสมมาตรรอบค่ากลาง

ข้อจำกัด

ทำงานได้ไม่ดีเมื่อจำนวนตัวอย่างในแต่ละกลุ่มมีน้อย
ไม่น่าเชื่อถือเมื่อสัดส่วนอยู่ใกล้ 0 หรือ 1
อาจให้ค่าขอบเขตต่ำกว่า 0 หรือสูงกว่า 1 ซึ่งเป็นไปไม่ได้ในทางปฏิบัติ
มีแนวโน้มประเมินความไม่แน่นอนต่ำเกินจริง

ปัญหาเหล่านี้เกิดจากการที่ข้อมูลแบบทวินามในหลายสถานการณ์จริงไม่สามารถประมาณได้ดีด้วยการแจกแจงปกติ

2.2 Wilson Interval

Wilson interval เป็นวิธีที่ปรับแก้ความไม่สมมาตรของข้อมูลแบบทวินามและคำนึงถึงข้อจำกัดของขอบเขตที่ต้องอยู่ระหว่าง 0 ถึง 1

คุณสมบัติ

ให้ coverage probability ดีกว่า กล่าวคือมีโอกาสครอบคลุมค่าจริงใกล้เคียง 95% มากกว่า
ช่วงความเชื่อมั่นอยู่ภายใน [0,1] อย่างเป็นธรรมชาติ
มีความแม่นยำมากกว่าในกรณีตัวอย่างขนาดเล็กหรือสัดส่วนที่ใกล้ขอบเขต

ความหมายเชิงตีความ

Wilson method สะท้อนโครงสร้างข้อมูลแบบทวินามได้ดีกว่า จึงเหมาะกว่าในการประมาณความเสี่ยงที่สังเกตได้ในกราฟ calibration

2.3 ควรใช้เมื่อใด

3. การประมาณเส้น Calibration: Parametric GLM เทียบกับ LOESS

3.1 Parametric Logistic Regression (GLM)

แบบจำลอง calibration แบบพาราเมตริกมักเขียนในรูป

โดยที่ LP คือ linear predictor จากแบบจำลองเดิม

คุณสมบัติ

มีสมมติฐานเชิงโครงสร้างชัดเจน คือความสัมพันธ์เป็นเส้นตรงบนสเกล log-odds
มีพารามิเตอร์เพียง 2 ตัว คือ intercept และ slope
ให้เส้นที่เรียบและเสถียร

ลักษณะของช่วงความเชื่อมั่น

มักให้ช่วงความเชื่อมั่นแคบ
สะท้อนเฉพาะความไม่แน่นอนจากการประมาณค่าสัมประสิทธิ์ของเส้นถดถอย
ไม่สามารถสะท้อนความแปรปรวนเฉพาะจุดหรือความเบี่ยงเบนเฉพาะบริเวณได้ดี

ข้อจำกัด

หากความสัมพันธ์จริงของ calibration ไม่ได้เป็นเชิงเส้น วิธีนี้อาจประเมินความไม่แน่นอนต่ำเกินไป และซ่อนปัญหา miscalibration เฉพาะตำแหน่งได้

3.2 LOESS

LOESS เป็นวิธี smoothing แบบไม่พาราเมตริกที่ใช้การถดถอยเฉพาะบริเวณ

คุณสมบัติ

ยืดหยุ่น
ขับเคลื่อนด้วยข้อมูลจริง
ไม่บังคับให้ข้อมูลต้องเป็นไปตามรูปแบบสมการทั่วทั้งช่วง

ลักษณะของช่วงความเชื่อมั่น

มักกว้างขึ้นในบริเวณที่ข้อมูลเบาบาง
สะท้อนทั้ง sampling variability และความไม่เสถียรเชิงพื้นที่
ตรวจจับรูปแบบที่ไม่สม่ำเสมอของข้อมูลได้ดีกว่า

ข้อจำกัด

อาจไม่เสถียรบริเวณปลายช่วงที่มีข้อมูลน้อยมาก
ต้องมีความหนาแน่นของข้อมูลเพียงพอในแต่ละช่วงของ predicted risk

3.3 ความต่างในเชิงแนวคิด

Parametric GLM ตอบคำถามว่า “เส้น calibration แบบรวมทั้งช่วงที่เหมาะสมที่สุดคืออะไร”
LOESS ตอบคำถามว่า “ข้อมูลจริงในแต่ละบริเวณมีรูปแบบอย่างไร”

ดังนั้น ทั้งสองวิธีจึงไม่ได้ประมาณสิ่งเดียวกันอย่างแท้จริง แต่เป็นคนละเป้าหมายเชิงอนุมาน

3.4 ควรใช้เมื่อใด

4. ผลของการจับคู่วิธีต่าง ๆ ในกราฟ Calibration

เมื่อนำวิธีเหล่านี้มาใช้ร่วมกัน จะเกิดรูปแบบดังนี้

การใช้ Wald ร่วมกับ GLM แบบพาราเมตริกมักทำให้ช่วงความเชื่อมั่นแคบลงทั้งสองชั้น และอาจสร้างภาพลวงตาว่าแบบจำลองมี calibration ดีและมีความแน่นอนสูงกว่าความจริง

5. นัยสำคัญทางคลินิกและระเบียบวิธี

Calibration มีผลโดยตรงต่อการตัดสินใจทางคลินิก หากช่วงความเชื่อมั่นแคบเกินจริง ย่อมสื่อว่าระดับความมั่นใจในความเสี่ยงที่แบบจำลองให้มานั้นสูง ทั้งที่อาจไม่เป็นเช่นนั้นจริง ผลที่ตามมาอาจได้แก่

การจัดกลุ่มความเสี่ยงของผู้ป่วยผิดพลาด
การตัดสินใจรักษาที่ไม่เหมาะสม
ความมั่นใจเกินควรในแบบจำลองพยากรณ์

สำหรับแบบจำลองพยากรณ์ทางคลินิก การสะท้อนความไม่แน่นอนอย่างถูกต้องจึงเป็นเงื่อนไขสำคัญของการใช้งานอย่างปลอดภัยและน่าเชื่อถือ

6. ข้อเสนอแนะในการปฏิบัติ

สำหรับการประเมิน calibration ที่มีความเข้มงวดทางระเบียบวิธี

ความเสี่ยงที่สังเกตได้ในข้อมูลแบบ grouped

ควรใช้ Wilson confidence intervals

เส้น Calibration

ควรใช้ LOESS หรือวิธีที่ยืดหยุ่น เช่น splines หากเป้าหมายคือการแสดงภาพ
ใช้ parametric GLM เมื่อต้องการรายงาน calibration intercept และ slope

หลักทั่วไป

ควรเลือกวิธีที่สะท้อนความไม่แน่นอนของข้อมูลจริง มากกว่าวิธีที่ทำให้กราฟดูเรียบหรือดูมั่นใจสวยงาม

7. สรุป

ความแตกต่างของช่วงความเชื่อมั่นในกราฟ calibration เกิดจากการเลือกวิธีทางสถิติ ไม่ได้เกิดจากสมรรถนะของแบบจำลองเพียงอย่างเดียว วิธี Wald และ parametric GLM มีแนวโน้มประเมินความไม่แน่นอนต่ำเกินไป ขณะที่ Wilson interval และ LOESS ให้ภาพของความแปรปรวนที่น่าเชื่อถือกว่า

การเลือกวิธีอย่างรอบคอบจึงจำเป็น เพื่อหลีกเลี่ยงข้อสรุปที่ทำให้เข้าใจผิดเกี่ยวกับคุณภาพของแบบจำลอง และเพื่อรักษาความเที่ยงตรงของการตัดสินใจทางคลินิก

เงื่อนไขที่ควรเลือกใช้แต่ละวิธีแบบสั้นและชัด

Wald

ใช้ได้เมื่อ

กลุ่มย่อยมีขนาดใหญ่
observed proportion ไม่ใกล้ 0 หรือ 1 มาก
ใช้เพื่อการสำรวจเบื้องต้น ไม่ใช่งานรายงานหลัก

ไม่ควรใช้เมื่อ

จำนวนเหตุการณ์น้อย
กลุ่มเล็ก
ค่าความเสี่ยงอยู่ใกล้ขอบ 0 หรือ 1
ต้องการงานระดับตีพิมพ์

Wilson

ควรใช้เมื่อ

เป็น binomial proportion ใน calibration plot
กลุ่มย่อยขนาดเล็กหรือปานกลาง
event rate ต่ำหรือสูงมาก
ต้องการช่วงความเชื่อมั่นที่น่าเชื่อถือกว่า

Parametric GLM

ควรใช้เมื่อ

ต้องการสรุป calibration intercept และ slope
เชื่อว่าความสัมพันธ์โดยรวมสมเหตุสมผลในรูปเส้นตรงบน logit scale
ข้อมูลไม่มาก และต้องการแบบจำลองที่เสถียร
เป้าหมายคือการสรุปเชิงพารามิเตอร์มากกว่าการสำรวจรูปแบบเฉพาะจุด

LOESS

ควรใช้เมื่อ

ต้องการดูรูปแบบ calibration จริงจากข้อมูล
ต้องการตรวจจับ nonlinearity หรือ local miscalibration
มีข้อมูลเพียงพอครอบคลุมตลอดช่วง predicted risk
เป้าหมายคือการแสดงภาพอย่างซื่อสัตย์ต่อข้อมูล

ประเด็นสำคัญ

Wald มักทำให้ความไม่แน่นอนดูน้อยกว่าความจริง
Wilson เหมาะกว่าสำหรับช่วงความเชื่อมั่นของสัดส่วนแบบทวินาม
Parametric GLM ให้แถบความเชื่อมั่นแคบเพราะอิงสมมติฐานของแบบจำลอง
LOESS แสดงความแปรปรวนของข้อมูลได้ตรงกว่า โดยเฉพาะเมื่อมี miscalibration เฉพาะช่วง
การเลือกวิธีมีผลโดยตรงต่อการตีความคุณภาพของแบบจำลองทางคลินิก

ทำไม Confidence Interval ในกราฟ Calibration ถึงต่างกัน: Wald vs Wilson และ Parametric GLM vs LOESS

บทคัดย่อ

1. บทนำ

2. ช่วงความเชื่อมั่นของสัดส่วนแบบทวินาม: Wald เทียบกับ Wilson

2.1 Wald Interval

สมมติฐาน

ข้อจำกัด

2.2 Wilson Interval

คุณสมบัติ

ความหมายเชิงตีความ

2.3 ควรใช้เมื่อใด

3. การประมาณเส้น Calibration: Parametric GLM เทียบกับ LOESS

3.1 Parametric Logistic Regression (GLM)

คุณสมบัติ

ลักษณะของช่วงความเชื่อมั่น

ข้อจำกัด

3.2 LOESS

คุณสมบัติ

ลักษณะของช่วงความเชื่อมั่น

ข้อจำกัด

3.3 ความต่างในเชิงแนวคิด

3.4 ควรใช้เมื่อใด

4. ผลของการจับคู่วิธีต่าง ๆ ในกราฟ Calibration

5. นัยสำคัญทางคลินิกและระเบียบวิธี

6. ข้อเสนอแนะในการปฏิบัติ

ความเสี่ยงที่สังเกตได้ในข้อมูลแบบ grouped

เส้น Calibration

หลักทั่วไป

7. สรุป

เงื่อนไขที่ควรเลือกใช้แต่ละวิธีแบบสั้นและชัด

Wald

Wilson

Parametric GLM

LOESS

ประเด็นสำคัญ

โพสต์ล่าสุด

ความคิดเห็น