Risk Score Calibration Plot กับ Decile Calibration Plot คืออะไร ต่างกันอย่างไร

เวลาเราอ่านงานวิจัยเกี่ยวกับ clinical prediction model หรือ risk model เรามักจะเจอคำว่า calibration อยู่บ่อยมาก แต่พอเปิดรูปกราฟจริงขึ้นมา หลายคนจะเริ่มงง เพราะบาง paper ใช้แกน X เป็น score 0–5 ในขณะที่บาง paper ใช้แกน X เป็น predicted probability แล้วแบ่งออกเป็น 10 กลุ่ม

ทั้งสองแบบนี้เป็น calibration plot เหมือนกัน แต่เป็นคนละลักษณะการนำเสนอ และเหมาะกับ model คนละแบบ

บทความนี้จะอธิบายว่า

Risk score calibration plot คืออะไร
Decile calibration plot คืออะไร
ต่างกันอย่างไร
ทำไม decile calibration plot ต้องแบ่งเป็น 10 กลุ่ม
ควรอ่านและตีความแต่ละแบบอย่างไร

Calibration คืออะไร

Calibration คือการดูว่า

ค่าความเสี่ยงที่ model ทำนายไว้ ตรงกับสิ่งที่เกิดขึ้นจริงหรือไม่

พูดง่าย ๆ คือ ถ้า model บอกว่ากลุ่มนี้มีโอกาสเกิดโรค 70% ในโลกความจริง กลุ่มนั้นเกิดโรคใกล้เคียง 70% จริงไหม

นี่ต่างจากคำว่า discrimination

Discrimination = model แยกคนเป็นโรคกับไม่เป็นโรคได้ดีแค่ไหน
Calibration = model ทำนาย “ความน่าจะเป็น” ได้แม่นแค่ไหน

ดังนั้น model หนึ่งอาจมี discrimination ดีมาก แต่ calibration แย่ก็ได้ เช่น เรียงลำดับคนเสี่ยงมากกับเสี่ยงน้อยได้ถูก แต่ตัวเลข probability ที่ให้มาสูงเกินจริงหรือต่ำเกินจริง

1) Risk Score Calibration Plot

คืออะไร

Risk score calibration plot คือ calibration plot ที่ใช้กับ model ที่ถูกแปลงให้อยู่ในรูปของ point-based score หรือ clinical score

เช่น model เดิมอาจสร้างจาก logistic regression แต่สุดท้ายถูกแปลงให้แพทย์ใช้ง่ายขึ้นเป็นคะแนนรวม เช่น

0 คะแนน
1 คะแนน
2 คะแนน
3 คะแนน
4 คะแนน
5 คะแนน

ดังนั้นแทนที่จะ plot ตาม predicted probability ของผู้ป่วยแต่ละคน ก็เปลี่ยนมา plot ตาม score category แทน

โครงสร้างของกราฟ

แกน X

เป็น total score เช่น 0, 1, 2, 3, 4, 5

แกน Y

เป็น observed risk หรือ observed proportion of outcome เช่น สัดส่วนของคนที่เกิดโรคจริงในแต่ละ score

สิ่งที่มักเห็นในกราฟ

เส้นของ predicted risk
จุดหรือวงกลมของ observed risk

ความหมายของกราฟ

แนวคิดคือ ในแต่ละ score เราจะดูว่า

model คาดว่าความเสี่ยงเท่าไร
ข้อมูลจริงเกิด outcome เท่าไร

ถ้าค่าทั้งสองใกล้กัน แสดงว่า score นี้ calibrated ดี

ตัวอย่างเช่น

score 0 → predicted risk 5%, observed risk 4%
score 1 → predicted risk 20%, observed risk 18%
score 2 → predicted risk 60%, observed risk 63%

แบบนี้ถือว่า calibration ดี เพราะ risk ที่ model ผูกกับ score แต่ละระดับใกล้เคียงกับที่เกิดขึ้นจริง

รูปที่ 1 ตัวอย่างของ risk score calibration plot แสดง predicted risk และ observed risk ในแต่ละ score category

ทำไมกราฟแบบนี้ถึงมีประโยชน์

เพราะในงาน clinical practice แพทย์มักไม่ได้ใช้สมการ regression ตรง ๆ แต่ใช้ score แทน

ตัวอย่าง

แทนที่จะพูดว่า

predicted probability = 0.82

แพทย์มักจะใช้ว่า

total score = 4

แล้วค่อยแปล score นี้เป็นระดับความเสี่ยง

ดังนั้นการทำ calibration plot ตาม score จึงตรงกับวิธีใช้งานจริงของเครื่องมือชนิดนี้

จุดเด่น

อ่านง่ายในมุมมอง clinician
สอดคล้องกับการใช้ bedside score จริง
แต่ละ score เป็น group ที่มีความหมายทางคลินิกอยู่แล้ว
เหมาะกับ paper ที่พัฒนา score สำหรับใช้งานจริง

ข้อจำกัด

ใช้ได้ดีกับ model ที่ถูกแปลงเป็น score แล้ว
อาจซ่อนความแปรปรวนภายใน score เดียวกัน
รายละเอียดน้อยกว่าการดู calibration จาก predicted probability โดยตรง
ถ้าบาง score มีจำนวนคนต่ำ observed risk อาจไม่นิ่ง

2) Decile Calibration Plot

คืออะไร

Decile calibration plot คือ calibration plot ที่เริ่มจาก predicted probability ของผู้ป่วยแต่ละคน แล้วเอาคนทั้งหมดมาเรียงจาก probability ต่ำไปสูง จากนั้นแบ่งออกเป็น 10 กลุ่มเท่า ๆ กัน แล้วค่อยเปรียบเทียบ predicted risk กับ observed risk ในแต่ละกลุ่ม

คำว่า decile หมายถึง 1 ใน 10 ส่วน

ดังนั้น decile calibration plot ก็คือ calibration plot ที่ประเมิน model ผ่าน 10 กลุ่มของ predicted risk

โครงสร้างของกราฟ

แกน X

เป็น predicted probability โดยมากใช้ค่าเฉลี่ย predicted probability ของแต่ละ decile

แกน Y

เป็น observed probability หรือ event rate ที่เกิดขึ้นจริงใน decile นั้น

สิ่งที่มักเห็นในกราฟ

เส้นทแยง 45 องศา ซึ่งแทน perfect calibration
จุด 10 จุด ตาม decile ทั้ง 10 กลุ่ม
บางกราฟมีเส้นเชื่อมจุด

ทำอย่างไรถึงได้ decile calibration plot

ขั้นที่ 1

ให้ model ทำนาย predicted probability ของผู้ป่วยทุกคนก่อน

ตัวอย่างเช่น

คนที่ 1 ได้ 0.03
คนที่ 2 ได้ 0.08
คนที่ 3 ได้ 0.12
คนที่ 4 ได้ 0.18
...
คนสุดท้ายได้ 0.94

ขั้นที่ 2

เรียง predicted probability จากน้อยไปมาก

ขั้นที่ 3

แบ่งผู้ป่วยออกเป็น 10 กลุ่มเท่า ๆ กัน แต่ละกลุ่มมีจำนวนคนประมาณ 10% ของ dataset

ขั้นที่ 4

ในแต่ละกลุ่ม คำนวณ 2 ค่า

Mean predicted probability
Observed event rate

ขั้นที่ 5

นำ 2 ค่านี้มา plot เทียบกัน

ถ้าจุดอยู่ใกล้เส้น 45 องศา แสดงว่า calibration ดี

รูปที่ 2 ตัวอย่างของ decile calibration plot แสดง observed risk เทียบกับ predicted risk across deciles of predicted probability ปกติเราไม่ทำรูปแบบนี้

รูปที่ 3 ตัวอย่างของ calibration plot ที่ใช้ pmcalplot ใน Stata ทำ รูปแสดง observed risk เทียบกับ predicted risk across deciles of predicted probability

ทำไมต้องแบ่งเป็น 10 กลุ่ม

นี่เป็นคำถามสำคัญมาก

เหตุผลคือ predicted probability เป็นข้อมูลแบบ continuous ถ้า plot ทุกคนลงไปเลย กราฟจะดู noisy มากและตีความยาก

ดังนั้นนักวิจัยจึงนิยม group ข้อมูลก่อนเพื่อให้เห็นภาพรวมง่ายขึ้น

การใช้ 10 กลุ่ม กลายเป็นธรรมเนียมทางสถิติ เพราะเป็นจุดสมดุลระหว่าง

ถ้ากลุ่มน้อยเกินไป → กราฟหยาบเกิน
ถ้ากลุ่มมากเกินไป → กราฟไม่นิ่งและ noisy

จึงนิยมใช้ decile หรือ 10 กลุ่ม เพื่อสรุป calibration ในลักษณะที่อ่านง่ายและยังพอมีรายละเอียด

ความสัมพันธ์กับ Hosmer–Lemeshow test

Decile calibration plot มีแนวคิดใกล้กับ Hosmer–Lemeshow goodness-of-fit test

เพราะ Hosmer–Lemeshow test ก็ใช้หลักการคล้ายกัน คือ

เอา predicted probability มาแบ่งเป็น 10 กลุ่ม
เปรียบเทียบ observed กับ expected ในแต่ละกลุ่ม
แล้วคำนวณ test statistic

ดังนั้นเวลาเห็นคำว่า deciles of predicted risk ใน paper มักจะเชื่อมโยงกับ logic แบบเดียวกับ Hosmer–Lemeshow

ความแตกต่างที่สำคัญที่สุดระหว่างสองกราฟ

ความต่างหลักจริง ๆ คือ ความหมายของแกน X

Risk score calibration plot

แกน X คือ score ซึ่งเป็นกลุ่มที่มีอยู่แล้วในเครื่องมือทางคลินิก

Decile calibration plot

แกน X คือ predicted probability แต่ถูกนำมาจัดกลุ่มใหม่เป็น 10 กลุ่มด้วยวิธีทางสถิติ

ดังนั้นสองกราฟนี้ไม่ใช่แค่หน้าตาไม่เหมือนกัน แต่ตั้งคำถามคนละระดับ

Risk score calibration plot = ประเมิน calibration ตาม score category
Decile calibration plot = ประเมิน calibration ตาม กลุ่มของ predicted risk

ตารางเปรียบเทียบแบบสั้น

คุณสมบัติ	Risk Score Calibration Plot	Decile Calibration Plot
แกน X	Total score	Predicted probability
การแบ่งกลุ่ม	ใช้ score เป็นกลุ่มตามธรรมชาติ	แบ่งเป็น 10 กลุ่มเท่า ๆ กัน
เหมาะกับ	Clinical score	Regression / prediction model
มุมมอง	clinical มากกว่า	statistical มากกว่า
ความเข้าใจง่าย	ง่ายสำหรับ clinician	ง่ายสำหรับงาน model evaluation
การใช้งาน	bedside tool	model performance paper

การตีความ Risk Score Calibration Plot

เวลามองกราฟแบบนี้ ให้ถามว่า

สำหรับแต่ละ score, observed risk ใกล้ predicted risk หรือไม่

ถ้าจุด observed risk อยู่ใกล้เส้น predicted risk แสดงว่า calibrated ดี

ตัวอย่าง

ถ้า score 3

predicted risk = 85%
observed risk = 82%

แปลว่า score 3 ให้ค่าความเสี่ยงได้แม่นพอสมควร

แต่ถ้า

predicted risk = 85%
observed risk = 45%

แปลว่า model overestimate risk ใน score นี้

การตีความ Decile Calibration Plot

เวลามองกราฟแบบนี้ ให้ดูความสัมพันธ์ระหว่างจุดกับเส้น 45 องศา

จุดอยู่บนเส้น → calibration ดี
จุดอยู่เหนือเส้น → model underestimate risk
จุดอยู่ใต้เส้น → model overestimate risk

ตัวอย่าง

ถ้า decile หนึ่งมี

predicted risk = 0.40
observed risk = 0.60

แปลว่า model ประเมินต่ำกว่าความจริงในช่วง risk นี้

ทำไมปัจจุบันบาง paper ไม่ใช้ decile plot อย่างเดียว

ในงานสมัยใหม่ นักสถิติบางคนชอบใช้ smooth calibration curve มากกว่า เพราะ decile plot มีข้อจำกัดจากการ group ข้อมูล

เมื่อเราเอาคนหลายคนมารวมเป็นกลุ่มเดียว รายละเอียดข้างในกลุ่มจะหายไป จึงมีการใช้วิธีเช่น

LOESS smoothing
spline-based calibration curve

เพื่อดู calibration ตลอดช่วง probability แบบต่อเนื่อง

อย่างไรก็ตาม decile calibration plot ก็ยังใช้กันเยอะ เพราะ

เข้าใจง่าย
แสดงผลสะอาด
เหมาะกับการอธิบายใน paper ทั่วไป

ข้อผิดพลาดที่พบบ่อยเวลาอ่าน calibration plot

1. สับสนระหว่าง calibration กับ discrimination

AUC สูง ไม่ได้แปลว่า calibration ดีเสมอไป

2. คิดว่า grouped plot แสดงทุกอย่าง

จริง ๆ ทั้ง risk score plot และ decile plot ต่างก็ซ่อนรายละเอียดบางส่วน

3. ลืมดูจำนวนคนในแต่ละกลุ่ม

ถ้าบาง score หรือบาง decile มีคนน้อย observed risk จะไม่นิ่ง

4. คิดว่าทุก calibration plot เป็นแบบเดียวกัน

จริง ๆ แล้ว risk score calibration plot กับ decile calibration plot ใช้ logic คล้ายกัน แต่ไม่เหมือนกัน

ควรใช้กราฟแบบไหนเมื่อไร

ใช้ Risk Score Calibration Plot เมื่อ

model สุดท้ายออกมาเป็น point score
เครื่องมือถูกใช้เป็น score ในทางคลินิก
ต้องการสื่อสารกับ clinician เป็นหลัก

ใช้ Decile Calibration Plot เมื่อ

model ให้ predicted probability แบบต่อเนื่อง
ต้องการประเมิน calibration แบบ grouped probability
เป็นงาน regression model หรือ prediction model paper

สรุปให้จำง่าย

Risk score calibration plot คือ การดู calibration โดยใช้ score category เป็นแกน X

Decile calibration plot คือ การดู calibration โดยใช้ predicted probability แล้วแบ่งเป็น 10 กลุ่ม

ทั้งสองแบบมีเป้าหมายเหมือนกันคือดูว่า

model ทำนาย risk ตรงกับที่เกิดขึ้นจริงหรือไม่

แต่ต่างกันที่ระดับของ output ที่นำมาแสดง

ถ้า output ของ model เป็น score → ใช้ risk score calibration plot
ถ้า output ของ model เป็น probability → ใช้ decile calibration plot หรือ smooth calibration curve

ประโยคสั้นสำหรับใส่ท้ายบทความ

Calibration คือความแม่นของ “ตัวเลขความเสี่ยง” ไม่ใช่แค่ความสามารถในการแยกโรค Risk score calibration plot เหมาะกับเครื่องมือที่รายงานผลเป็นคะแนน ส่วน decile calibration plot เหมาะกับ model ที่ให้ predicted probability และต้องการสรุปผลเป็น 10 กลุ่มของ risk

Memory aid สั้น ๆ

Score plot = calibration by score Decile plot = calibration by grouped probability

Risk Score Calibration Plot กับ Decile Calibration Plot คืออะไร ต่างกันอย่างไร

Risk Score Calibration Plot กับ Decile Calibration Plot คืออะไร ต่างกันอย่างไร

Calibration คืออะไร

1) Risk Score Calibration Plot

คืออะไร

โครงสร้างของกราฟ

แกน X

แกน Y

สิ่งที่มักเห็นในกราฟ

ความหมายของกราฟ

ทำไมกราฟแบบนี้ถึงมีประโยชน์

จุดเด่น

ข้อจำกัด

2) Decile Calibration Plot

คืออะไร

โครงสร้างของกราฟ

แกน X

แกน Y

สิ่งที่มักเห็นในกราฟ

ทำอย่างไรถึงได้ decile calibration plot

ขั้นที่ 1

ขั้นที่ 2

ขั้นที่ 3

ขั้นที่ 4

ขั้นที่ 5

ทำไมต้องแบ่งเป็น 10 กลุ่ม

ความสัมพันธ์กับ Hosmer–Lemeshow test

ความแตกต่างที่สำคัญที่สุดระหว่างสองกราฟ

Risk score calibration plot

Decile calibration plot

ตารางเปรียบเทียบแบบสั้น

การตีความ Risk Score Calibration Plot

ตัวอย่าง

การตีความ Decile Calibration Plot

ตัวอย่าง

ทำไมปัจจุบันบาง paper ไม่ใช้ decile plot อย่างเดียว

ข้อผิดพลาดที่พบบ่อยเวลาอ่าน calibration plot

1. สับสนระหว่าง calibration กับ discrimination

2. คิดว่า grouped plot แสดงทุกอย่าง

3. ลืมดูจำนวนคนในแต่ละกลุ่ม

4. คิดว่าทุก calibration plot เป็นแบบเดียวกัน

ควรใช้กราฟแบบไหนเมื่อไร

ใช้ Risk Score Calibration Plot เมื่อ

ใช้ Decile Calibration Plot เมื่อ

สรุปให้จำง่าย

ประโยคสั้นสำหรับใส่ท้ายบทความ

Memory aid สั้น ๆ

ความคิดเห็น