← All posts

Risk Score Calibration Plot กับ Decile Calibration Plot คืออะไร ต่างกันอย่างไร

Clinical Epidemiology ResearchData Analytics or Statistics
Risk Score Calibration Plot กับ Decile Calibration Plot คืออะไร ต่างกันอย่างไร

Risk Score Calibration Plot กับ Decile Calibration Plot คืออะไร ต่างกันอย่างไร

เวลาเราอ่านงานวิจัยเกี่ยวกับ clinical prediction model หรือ risk model เรามักจะเจอคำว่า calibration อยู่บ่อยมาก แต่พอเปิดรูปกราฟจริงขึ้นมา หลายคนจะเริ่มงง เพราะบาง paper ใช้แกน X เป็น score 0–5 ในขณะที่บาง paper ใช้แกน X เป็น predicted probability แล้วแบ่งออกเป็น 10 กลุ่ม

ทั้งสองแบบนี้เป็น calibration plot เหมือนกัน แต่เป็นคนละลักษณะการนำเสนอ และเหมาะกับ model คนละแบบ

บทความนี้จะอธิบายว่า


Calibration คืออะไร

Calibration คือการดูว่า

ค่าความเสี่ยงที่ model ทำนายไว้ ตรงกับสิ่งที่เกิดขึ้นจริงหรือไม่

พูดง่าย ๆ คือ ถ้า model บอกว่ากลุ่มนี้มีโอกาสเกิดโรค 70% ในโลกความจริง กลุ่มนั้นเกิดโรคใกล้เคียง 70% จริงไหม

นี่ต่างจากคำว่า discrimination

ดังนั้น model หนึ่งอาจมี discrimination ดีมาก แต่ calibration แย่ก็ได้ เช่น เรียงลำดับคนเสี่ยงมากกับเสี่ยงน้อยได้ถูก แต่ตัวเลข probability ที่ให้มาสูงเกินจริงหรือต่ำเกินจริง


1) Risk Score Calibration Plot

คืออะไร

Risk score calibration plot คือ calibration plot ที่ใช้กับ model ที่ถูกแปลงให้อยู่ในรูปของ point-based score หรือ clinical score

เช่น model เดิมอาจสร้างจาก logistic regression แต่สุดท้ายถูกแปลงให้แพทย์ใช้ง่ายขึ้นเป็นคะแนนรวม เช่น

ดังนั้นแทนที่จะ plot ตาม predicted probability ของผู้ป่วยแต่ละคน ก็เปลี่ยนมา plot ตาม score category แทน


โครงสร้างของกราฟ

แกน X

เป็น total score เช่น 0, 1, 2, 3, 4, 5

แกน Y

เป็น observed risk หรือ observed proportion of outcome เช่น สัดส่วนของคนที่เกิดโรคจริงในแต่ละ score

สิ่งที่มักเห็นในกราฟ


ความหมายของกราฟ

แนวคิดคือ ในแต่ละ score เราจะดูว่า

ถ้าค่าทั้งสองใกล้กัน แสดงว่า score นี้ calibrated ดี

ตัวอย่างเช่น

แบบนี้ถือว่า calibration ดี เพราะ risk ที่ model ผูกกับ score แต่ละระดับใกล้เคียงกับที่เกิดขึ้นจริง

รูปที่ 1 ตัวอย่างของ risk score calibration plot แสดง predicted risk และ observed risk ในแต่ละ score category


ทำไมกราฟแบบนี้ถึงมีประโยชน์

เพราะในงาน clinical practice แพทย์มักไม่ได้ใช้สมการ regression ตรง ๆ แต่ใช้ score แทน

ตัวอย่าง

แทนที่จะพูดว่า

predicted probability = 0.82

แพทย์มักจะใช้ว่า

total score = 4

แล้วค่อยแปล score นี้เป็นระดับความเสี่ยง

ดังนั้นการทำ calibration plot ตาม score จึงตรงกับวิธีใช้งานจริงของเครื่องมือชนิดนี้


จุดเด่น


ข้อจำกัด


2) Decile Calibration Plot

คืออะไร

Decile calibration plot คือ calibration plot ที่เริ่มจาก predicted probability ของผู้ป่วยแต่ละคน แล้วเอาคนทั้งหมดมาเรียงจาก probability ต่ำไปสูง จากนั้นแบ่งออกเป็น 10 กลุ่มเท่า ๆ กัน แล้วค่อยเปรียบเทียบ predicted risk กับ observed risk ในแต่ละกลุ่ม

คำว่า decile หมายถึง 1 ใน 10 ส่วน

ดังนั้น decile calibration plot ก็คือ calibration plot ที่ประเมิน model ผ่าน 10 กลุ่มของ predicted risk


โครงสร้างของกราฟ

แกน X

เป็น predicted probability โดยมากใช้ค่าเฉลี่ย predicted probability ของแต่ละ decile

แกน Y

เป็น observed probability หรือ event rate ที่เกิดขึ้นจริงใน decile นั้น

สิ่งที่มักเห็นในกราฟ


ทำอย่างไรถึงได้ decile calibration plot

ขั้นที่ 1

ให้ model ทำนาย predicted probability ของผู้ป่วยทุกคนก่อน

ตัวอย่างเช่น

ขั้นที่ 2

เรียง predicted probability จากน้อยไปมาก

ขั้นที่ 3

แบ่งผู้ป่วยออกเป็น 10 กลุ่มเท่า ๆ กัน แต่ละกลุ่มมีจำนวนคนประมาณ 10% ของ dataset

ขั้นที่ 4

ในแต่ละกลุ่ม คำนวณ 2 ค่า

  1. Mean predicted probability
  2. Observed event rate

ขั้นที่ 5

นำ 2 ค่านี้มา plot เทียบกัน

ถ้าจุดอยู่ใกล้เส้น 45 องศา แสดงว่า calibration ดี

รูปที่ 2 ตัวอย่างของ decile calibration plot แสดง observed risk เทียบกับ predicted risk across deciles of predicted probability ปกติเราไม่ทำรูปแบบนี้

รูปที่ 3 ตัวอย่างของ calibration plot ที่ใช้ pmcalplot ใน Stata ทำ รูปแสดง observed risk เทียบกับ predicted risk across deciles of predicted probability


ทำไมต้องแบ่งเป็น 10 กลุ่ม

นี่เป็นคำถามสำคัญมาก

เหตุผลคือ predicted probability เป็นข้อมูลแบบ continuous ถ้า plot ทุกคนลงไปเลย กราฟจะดู noisy มากและตีความยาก

ดังนั้นนักวิจัยจึงนิยม group ข้อมูลก่อนเพื่อให้เห็นภาพรวมง่ายขึ้น

การใช้ 10 กลุ่ม กลายเป็นธรรมเนียมทางสถิติ เพราะเป็นจุดสมดุลระหว่าง

จึงนิยมใช้ decile หรือ 10 กลุ่ม เพื่อสรุป calibration ในลักษณะที่อ่านง่ายและยังพอมีรายละเอียด


ความสัมพันธ์กับ Hosmer–Lemeshow test

Decile calibration plot มีแนวคิดใกล้กับ Hosmer–Lemeshow goodness-of-fit test

เพราะ Hosmer–Lemeshow test ก็ใช้หลักการคล้ายกัน คือ

ดังนั้นเวลาเห็นคำว่า deciles of predicted risk ใน paper มักจะเชื่อมโยงกับ logic แบบเดียวกับ Hosmer–Lemeshow


ความแตกต่างที่สำคัญที่สุดระหว่างสองกราฟ

ความต่างหลักจริง ๆ คือ ความหมายของแกน X

Risk score calibration plot

แกน X คือ score ซึ่งเป็นกลุ่มที่มีอยู่แล้วในเครื่องมือทางคลินิก

Decile calibration plot

แกน X คือ predicted probability แต่ถูกนำมาจัดกลุ่มใหม่เป็น 10 กลุ่มด้วยวิธีทางสถิติ

ดังนั้นสองกราฟนี้ไม่ใช่แค่หน้าตาไม่เหมือนกัน แต่ตั้งคำถามคนละระดับ


ตารางเปรียบเทียบแบบสั้น

คุณสมบัติ Risk Score Calibration Plot Decile Calibration Plot
แกน X Total score Predicted probability
การแบ่งกลุ่ม ใช้ score เป็นกลุ่มตามธรรมชาติ แบ่งเป็น 10 กลุ่มเท่า ๆ กัน
เหมาะกับ Clinical score Regression / prediction model
มุมมอง clinical มากกว่า statistical มากกว่า
ความเข้าใจง่าย ง่ายสำหรับ clinician ง่ายสำหรับงาน model evaluation
การใช้งาน bedside tool model performance paper

การตีความ Risk Score Calibration Plot

เวลามองกราฟแบบนี้ ให้ถามว่า

สำหรับแต่ละ score, observed risk ใกล้ predicted risk หรือไม่

ถ้าจุด observed risk อยู่ใกล้เส้น predicted risk แสดงว่า calibrated ดี

ตัวอย่าง

ถ้า score 3

แปลว่า score 3 ให้ค่าความเสี่ยงได้แม่นพอสมควร

แต่ถ้า

แปลว่า model overestimate risk ใน score นี้


การตีความ Decile Calibration Plot

เวลามองกราฟแบบนี้ ให้ดูความสัมพันธ์ระหว่างจุดกับเส้น 45 องศา

ตัวอย่าง

ถ้า decile หนึ่งมี

แปลว่า model ประเมินต่ำกว่าความจริงในช่วง risk นี้


ทำไมปัจจุบันบาง paper ไม่ใช้ decile plot อย่างเดียว

ในงานสมัยใหม่ นักสถิติบางคนชอบใช้ smooth calibration curve มากกว่า เพราะ decile plot มีข้อจำกัดจากการ group ข้อมูล

เมื่อเราเอาคนหลายคนมารวมเป็นกลุ่มเดียว รายละเอียดข้างในกลุ่มจะหายไป จึงมีการใช้วิธีเช่น

เพื่อดู calibration ตลอดช่วง probability แบบต่อเนื่อง

อย่างไรก็ตาม decile calibration plot ก็ยังใช้กันเยอะ เพราะ


ข้อผิดพลาดที่พบบ่อยเวลาอ่าน calibration plot

1. สับสนระหว่าง calibration กับ discrimination

AUC สูง ไม่ได้แปลว่า calibration ดีเสมอไป

2. คิดว่า grouped plot แสดงทุกอย่าง

จริง ๆ ทั้ง risk score plot และ decile plot ต่างก็ซ่อนรายละเอียดบางส่วน

3. ลืมดูจำนวนคนในแต่ละกลุ่ม

ถ้าบาง score หรือบาง decile มีคนน้อย observed risk จะไม่นิ่ง

4. คิดว่าทุก calibration plot เป็นแบบเดียวกัน

จริง ๆ แล้ว risk score calibration plot กับ decile calibration plot ใช้ logic คล้ายกัน แต่ไม่เหมือนกัน


ควรใช้กราฟแบบไหนเมื่อไร

ใช้ Risk Score Calibration Plot เมื่อ

ใช้ Decile Calibration Plot เมื่อ


สรุปให้จำง่าย

Risk score calibration plot คือ การดู calibration โดยใช้ score category เป็นแกน X

Decile calibration plot คือ การดู calibration โดยใช้ predicted probability แล้วแบ่งเป็น 10 กลุ่ม

ทั้งสองแบบมีเป้าหมายเหมือนกันคือดูว่า

model ทำนาย risk ตรงกับที่เกิดขึ้นจริงหรือไม่

แต่ต่างกันที่ระดับของ output ที่นำมาแสดง


ประโยคสั้นสำหรับใส่ท้ายบทความ

Calibration คือความแม่นของ “ตัวเลขความเสี่ยง” ไม่ใช่แค่ความสามารถในการแยกโรค Risk score calibration plot เหมาะกับเครื่องมือที่รายงานผลเป็นคะแนน ส่วน decile calibration plot เหมาะกับ model ที่ให้ predicted probability และต้องการสรุปผลเป็น 10 กลุ่มของ risk


Memory aid สั้น ๆ

Score plot = calibration by score Decile plot = calibration by grouped probability