Agreement vs Reliability: Variance ชุดเดียว สองคำถาม

บทคัดย่อ

การตัดสินใจทางการแพทย์แทบทุกขั้นตอนล้วนพึ่งพาการวัดผลทางคลินิก ทำให้การประเมินคุณภาพของเครื่องมือเหล่านี้เป็นรากฐานสำคัญของการดูแลผู้ป่วย เมื่อพิจารณาความสอดคล้องของเครื่องมือ แพทย์และนักวิจัยทางคลินิกต้องแยกแยะแนวคิดสองประการที่มักสร้างความสับสนให้ชัดเจน ได้แก่ agreement และ reliability แม้ว่าทั้งสองแนวคิดนี้จะประเมินจากความแปรปรวนเดียวกัน ซึ่งเกิดจากค่าความจริงรวมกับ measurement error แต่ทั้งคู่กลับตอบคำถามที่ต่างกัน agreement จะประเมินขนาดสัมบูรณ์ของ error โดยคงหน่วยวัดทางคลินิกไว้ ซึ่งจำเป็นอย่างยิ่งเมื่อค่าที่แน่นอนมีผลต่อการรักษา เช่น การเทียบระดับน้ำตาลในเลือดที่เตียงผู้ป่วยกับค่าจากห้องปฏิบัติการ ในทางกลับกัน reliability จะวัดสัดส่วนสัมพัทธ์ของสัญญาณจริงที่อยู่ภายในความแปรปรวนทั้งหมด ออกมาเป็นสัดส่วนที่ไม่มีหน่วยตั้งแต่ 0 ถึง 1 เพื่อประเมินความสอดคล้องในการจัดลำดับหรือจำแนกประเภท ซึ่งมีความสำคัญเมื่อต้องการประเมินความสอดคล้องของผู้อ่านผลสองคนในการแปลผลภาพรังสี บทความนี้อธิบายความแตกต่างพื้นฐานระหว่าง agreement และ reliability เพื่อสอนให้บุคลากรทางการแพทย์สามารถระบุเป้าหมายของการวัดได้อย่างถูกต้องและเลือกใช้สถิติได้อย่างเหมาะสม

Introduction

แทบทุกการตัดสินใจในเวชปฏิบัติตั้งอยู่บนการ วัด (measurement) อย่างใดอย่างหนึ่งเสมอ ผู้ป่วยรายนี้เป็นโรคหรือไม่? โรคกำลังรุนแรงขึ้นหรือดีขึ้นหลังการรักษา? ตัวโรคกำลังก้าวหน้า (progression) หรือถดถอย (regression) เมื่อเวลาผ่านไป? คำถามเหล่านี้ตอบด้วยความรู้สึกเพียงอย่างเดียวไม่ได้ ทุกข้อต้องอาศัยเครื่องมือทางคลินิก (clinimetric) ซึ่งก็คือกระบวนการที่นิยามไว้ชัดเจนและทำซ้ำได้ เพื่อแปลงปรากฏการณ์ทางคลินิกให้เป็นตัวเลขหรือหมวดหมู่ และเพราะการตัดสินใจวางอยู่บนเครื่องมือเหล่านี้ คุณภาพ ของเครื่องมือจึงไม่ใช่เรื่องปลีกย่อยทางเทคนิค แต่เป็นรากฐานของการตัดสินใจที่สร้างทับอยู่ข้างบน

บทความนี้เป็นบทที่สองในซีรีส์ห้าตอน และมีหน้าที่เดียวคือ แยกสองแนวคิดที่มักถูกสับสนปนกันอยู่เสมอในการปฏิบัติจริง นั่นคือ agreement กับ reliability ทั้งสองไม่ใช่คำพ้องความหมาย ตอบคนละคำถาม และอย่างที่เราจะได้เห็นต่อไป มันคือสองวิธีในการ "ตัด" variance ชุดเดียวกัน เมื่อจบบทความนี้ คุณควรมองโจทย์การวัดใด ๆ แล้วบอกได้ทันทีว่า "นี่คือคำถามเรื่อง agreement" หรือ "นี่คือคำถามเรื่อง reliability" และเลือกใช้สถิติให้ถูกต้องตามนั้น

หัวใจของทั้งบทความนี้คือ variance ชุดเดียว สองคำถาม โดย agreement ถามว่า ความคลาดเคลื่อนมีขนาดเท่าไร? ส่วน reliability ถามว่า สิ่งที่เราเห็นเป็นสัญญาณจริงสักเท่าไร?

ทำไมเรื่อง clinimetrics จึงสำคัญ: คุณภาพสามมิติ

ก่อนจะเปรียบเทียบ agreement กับ reliability เราต้องวางทั้งคู่ไว้ในภาพใหญ่ของคุณภาพเครื่องมือเสียก่อน เมื่อคุณถามว่า "เครื่องมือทางคลินิกชิ้นนี้ดีพอจะนำมาใช้หรือยัง?" จริง ๆ แล้วคุณกำลังถามสามคำถามที่แยกขาดจากกัน และคุ้มค่าที่จะแยกให้ชัด

ความถูกต้อง (validity) — เครื่องมือวัดสิ่งที่มันอ้างว่าจะวัดจริงหรือไม่? นี่คือเรื่องของ เป้าหมาย เครื่องมือหนึ่งอาจให้ผลสม่ำเสมอเป๊ะ แต่กลับวัดผิด construct ก็ได้
ความสามารถในการทำซ้ำ (reproducibility) — กระบวนการชัดเจนและโปร่งใสพอที่คนอื่นในบริบทของเขาเองจะนำไปใช้ได้แบบเดียวกันหรือไม่? นี่คือเรื่องของ เกณฑ์/โปรโตคอล ไม่ใช่เรื่องผลลัพธ์ คือถามว่าเกณฑ์การประเมินชัดเจน ไม่กำกวม และนำไปใช้ในบริบทใหม่ได้หรือเปล่า
ความน่าเชื่อถือ (reliability) — เมื่อใช้เครื่องมือเดิมในสถานการณ์ต่าง ๆ (ผู้ประเมินต่างคน เวลาต่างกัน) ผลที่ได้ยังสอดคล้องกันและมีความคลาดเคลื่อนต่ำหรือไม่? นี่คือเรื่องของ พฤติกรรมของค่าที่วัดได้ ในโลกจริง

ตัวอย่างคลาสสิกที่ใช้สอนคือ Medical Research Council (MRC) scale สำหรับประเมินแรงกล้ามเนื้อ ให้คะแนนตั้งแต่ 0 (ไม่พบการหดตัวของกล้ามเนื้อเมื่อสังเกตด้วยสายตา) ถึง 5 (กล้ามเนื้อมีแรงต้านปกติตามสัดส่วนของผู้ป่วย) สังเกตว่าเครื่องมือเดียวกันนี้ถูกตั้งคำถามต่างกันโดยทั้งสามมิติ

หากพิจารณา validity เราถามว่าคะแนน 0–5 จับ ภาวะกล้ามเนื้ออ่อนแรง ได้จริงหรือไม่ มันวัด construct ของแรงกล้ามเนื้อจริงไหม
หากพิจารณา reproducibility เราตรวจสอบที่ตัวเกณฑ์การให้คะแนนเอง ว่าชัดเจนและโปร่งใสพอที่แพทย์ที่อื่นจะใช้ anchor เดียวกันแล้วทำซ้ำกระบวนการได้หรือไม่
หากพิจารณา reliability เราถามว่าการให้คะแนนซ้ำ ๆ นั้น สอดคล้องและคลาดเคลื่อนต่ำ หรือไม่ จุดละเอียดอ่อนสำคัญอยู่ตรงนี้ ลองนึกถึงผู้ประเมินที่มีแรงกล้ามเนื้อมากกว่าผู้ป่วยมาก แม้ผู้ป่วยจะมีแรงกล้ามเนื้อปกติจริง ผู้ประเมินคนนั้นอาจเอาชนะแขนขาของผู้ป่วยได้และบันทึกเป็น 4 ในขณะที่ผู้ประเมินซึ่งมีแรงเท่ากับหรือน้อยกว่าผู้ป่วยอาจวัดได้ 5 ผู้ป่วยคนเดียวกัน แรงจริงเท่าเดิม แต่ค่าที่วัดได้ขยับเพราะ "ใคร" เป็นคนจับแขนขา ช่องว่างนี้แหละคือสิ่งที่การประเมิน reliability ถูกออกแบบมาเพื่อตรวจจับ

ชนิดของเครื่องมือ: ใคร (หรืออะไร) เป็นคนวัด?

reliability ไม่ได้หน้าตาเหมือนกันสำหรับเครื่องมือทุกชนิด ดังนั้นขั้นปฏิบัติแรกคือต้องจำแนกก่อนว่า คุณกำลังจัดการกับเครื่องมือชนิดใด กรอบ COSMIN จำแนกเครื่องมือออกเป็นสี่กลุ่มใหญ่ โดยแบ่งตาม ว่าใครหรืออะไรเป็นผู้ให้คะแนน

ชนิดเครื่องมือ	อักษรย่อ	ใคร/อะไรเป็นคนรายงาน	ตัวอย่างทางคลินิก
Clinician-reported outcome measure	ClinROM	บุคลากรทางการแพทย์	Hamilton Anxiety Rating Scale; การตรวจร่างกาย (ภาวะข้อบวม, ภาวะกล้ามเนื้ออ่อนแรงด้วย MRC); การใช้อุปกรณ์ช่วยอ่านผล เช่น ultrasound Doppler เพื่อประเมิน cardiac stricture
Patient-reported outcome measure	PROM	ตัวผู้ป่วยเองโดยตรง	แบบสอบถามคุณภาพชีวิต, สมุดบันทึกอาการ, pain scale
Performance-based outcome measure	PerFOM	ความสามารถ/ประสิทธิภาพของผู้ป่วยที่วัดได้จากการทำภารกิจ	timed walk, การวัดแรงบีบมือด้วย dynamometer, การทดสอบ functional capacity
Biomarker / laboratory value	Biomarker / lab	ห้องปฏิบัติการหรือชุดตรวจ	blood glucose, HbA1c, serum biomarker

ทำไมกลุ่มจึงสำคัญ? เพราะ แหล่งของความคลาดเคลื่อน (source of error) ต่างกัน ClinROM มี error จาก ผู้ประเมิน (rater) (อย่างกรณี MRC ข้างต้น) PROM มี error จากการระลึกและการตีความของผู้ป่วย ส่วน lab value มี error จากชุดตรวจและเครื่องมือ การรู้ว่าคุณอยู่กลุ่มไหนจะบอกว่าคุณต้องใช้ design ของการประเมิน reliability แบบใด ซึ่งเป็นเนื้อหาของบทที่ 3 ในซีรีส์นี้

COSMIN: เก้าคุณสมบัติในสามมิติ

เพื่อจัดระเบียบทั้งหมดนี้ องค์กร COSMIN (COnsensus-based Standards for the selection of health Measurement INstruments) ได้จัดแบ่งคุณสมบัติของเครื่องมือที่มีคุณภาพออกเป็น 9 ด้านภายใต้ 3 มิติหลัก ได้แก่

ความถูกต้อง (validity) — วัด construct ที่ถูกต้องหรือไม่?
ความน่าเชื่อถือ (reliability) — การวัดสอดคล้องและคลาดเคลื่อนต่ำหรือไม่?
ความไวต่อการเปลี่ยนแปลง (responsiveness) — ตรวจจับการเปลี่ยนแปลงที่แท้จริงตามเวลาได้หรือไม่?

ซีรีส์นี้แทบทั้งหมดอยู่ในมิติที่สอง

หมายเหตุเรื่องคำศัพท์

คำว่า reliability ถูกใช้ในสองระดับ ซึ่งเป็นต้นตอของความสับสนส่วนใหญ่ ในระดับ domain มันคือคุณภาพร่ม "ความน่าเชื่อถือ" และภายในมิตินั้นมันยังแตกเป็นองค์ประกอบย่อย ซึ่งหนึ่งในองค์ประกอบนั้น ก็เรียกว่า reliability ("ความสอดคล้อง") เช่นกัน ตลอดบทความนี้เราจะแยกให้ชัด: ความน่าเชื่อถือ = ทั้ง domain; ส่วน ความเที่ยงตรง (agreement) กับ ความสอดคล้อง (reliability) = สององค์ประกอบที่เรากำลังจะนำมาเปรียบเทียบ (ยังมีองค์ประกอบที่สาม คือ internal consistency ซึ่งไม่กล่าวถึงในที่นี้)

การแยกองค์ประกอบหลัก: observed = true + error

ทุกอย่างที่ตามมาแขวนอยู่บนโมเดลง่าย ๆ หนึ่งเดียว ค่าใด ๆ ที่คุณบันทึกได้จริง คือ observed value เท่ากับผลรวมของปริมาณจริงที่คุณต้องการจับ (true value) บวกกับความคลาดเคลื่อน (measurement error)

\[ \text{Observed} = \text{True} + \text{Error} \]

หากไม่มี error เลย ค่าที่วัดได้ (observed) จะเท่ากับค่าจริง (true) เสมอ error ก็คือช่องว่างระหว่างสิ่งที่คุณจดกับสิ่งที่เป็นจริง

ทีนี้ขยายจากการวัดครั้งเดียวไปสู่ กลุ่มของ subject หากคุณวัดหลาย subject ค่า observed จะแตกต่างกัน เพราะผู้ป่วยบางรายหนักกว่า อ่อนแรงกว่า หรือป่วยมากกว่ารายอื่นจริง ๆ เราวัดการกระจายตัวนั้นได้เป็น observed variance หรือ \( \sigma^2_{obs} \) และเพราะทุกค่า observed แตกออกเป็น true + error ตัว variance ก็แตกในแบบเดียวกัน

\[ \sigma^2_{obs} = \sigma^2_{true} + \sigma^2_{error} \]

พูดเป็นภาษาคน: การกระจายตัวทั้งหมดที่คุณเห็น ประกอบด้วยสองส่วน คือการกระจายตัวจริงระหว่าง subject (true variance) กับสัญญาณรบกวนที่เกิดจากการวัดที่ไม่สมบูรณ์ (error variance) สมการเดียวนี้คือบานพับของทั้งบทความ agreement กับ reliability เป็นเพียงสองสิ่งที่คุณถามเกี่ยวกับฝั่งขวาของสมการนี้

⤢ click to enlarge

Figure. Agreement vs reliability — variance ชุดเดียว สองคำถาม ค่า observed ใด ๆ แยกได้เป็น observed = true + error ดังนั้น observed variance จึงแตกเป็น true variance (ความแตกต่างจริงระหว่าง subject) และ error variance (ความคลาดเคลื่อนจากการวัด) reliability ถามว่าสัดส่วนของ variance นั้นเป็น true เท่าใด — อัตราส่วนไร้หน่วยระหว่าง 0 ถึง 1 (ICC, Cohen's / weighted kappa); agreement ถามว่า error มีขนาดเท่าใดบน scale เดิมที่มีหน่วย (SEM, SDC, limits of agreement, % agreement) แถวล่างบอกว่าควรเลือกใช้อันใดเมื่อใด

Agreement กับ Reliability: variance ชุดเดียว สองคำถาม

นี่คือหัวใจในเชิงหลักการ ทั้งสองแนวคิดอาศัยอยู่บนฝั่งขวาของ \( \sigma^2_{obs} = \sigma^2_{true} + \sigma^2_{error} \) แต่ตั้งคำถามกับมันคนละแบบ

Agreement (ความเที่ยงตรง) สนใจ เพียงขนาดของ error เท่านั้น มันถามคำถามเชิงสัมบูรณ์ (absolute)

"ค่าที่วัดได้คลาดเคลื่อนจากค่าจริงมากน้อยเพียงใด?"

agreement ศึกษา ขนาดของ measurement error เอง หากการวัดซ้ำกระจายเพียงเล็กน้อย แสดงว่า error เล็ก เราจึงกล่าวว่าเครื่องมือมี good agreement จุดสำคัญคือ agreement เป็นเชิง absolute และ มีหน่วย (carries units) เช่น กิโลกรัม, mmol/L, mmHg มันสนใจ \( \sigma^2_{error} \) ในแบบของมันเอง

ตัวอย่างที่คำนวณ — ตราชั่งเครื่องใหม่ (วัด agreement) สมมติคุณกำลังทดสอบตราชั่งน้ำหนักเครื่องใหม่กับผู้ป่วยสองราย โดยชั่งแต่ละราย สี่ครั้ง การชั่งแต่ละครั้งจะพลาดจากน้ำหนักจริงไปในขนาดต่าง ๆ หากคุณวิเคราะห์ค่าเฉลี่ยและการกระจายตัวของ error เหล่านี้ คุณบอกได้โดยตรงว่าตราชั่งแม่นยำแค่ไหน ในหน่วยกิโลกรัม เมื่อเทียบกับค่าจริง ตัวเลขนั้น คือขนาดทั่วไปของ error คือ agreement

Reliability (ความสอดคล้อง) สนใจว่า การกระจายตัวที่สังเกตได้นั้นเป็นของจริงสักเท่าไร มันถามคำถามเชิงสัมพัทธ์ (relative)

"เครื่องมือสามารถจำแนกสิ่งที่แตกต่างกันและจัดลำดับได้อย่างคงเส้นคงวาหรือไม่ โดยไม่สนว่า error จะใหญ่แค่ไหน?"

reliability ศึกษา ความสม่ำเสมอของการจัดลำดับ/จำแนก (consistency of ordering / classification) ภายใต้การวัดซ้ำ ในเชิงรูปแบบมันคือ สัดส่วนของ observed variance ที่เป็น true variance

\[ \text{Reliability} = \frac{\sigma^2_{true}}{\sigma^2_{obs}} = \frac{\sigma^2_{true}}{\sigma^2_{true} + \sigma^2_{error}} \]

สิ่งนี้ทำให้ reliability เป็นเชิง relative, ไม่มีหน่วย (unitless) และมีขอบเขตอยู่ระหว่าง 0 ถึง 1 ค่า reliability ใกล้ 1 หมายความว่าเกือบทั้งหมดของการกระจายตัวที่เห็นเป็นความแตกต่างจริงระหว่าง subject ส่วนค่าใกล้ 0 หมายความว่าส่วนใหญ่เป็นสัญญาณรบกวน

ตัวอย่างที่คำนวณ — จัดลำดับผู้ป่วยสองราย (วัด reliability) ทดสอบตราชั่งเดิมกับผู้ป่วยสองราย โดยกำหนดให้ผู้ป่วย สีฟ้า เบากว่าผู้ป่วย สีเขียว จริง ชั่งแต่ละรายสี่ครั้ง พบว่าในครั้งที่ 1, 2, และ 4 ตราชั่งแสดงผลถูกต้องว่า สีฟ้า < สีเขียว แต่ในครั้งที่ 3 ลำดับสลับกัน เครื่องมือจัดลำดับถูกต้อง 3 ใน 4 ครั้ง = 75% สังเกตว่าเราไม่เคยถามว่ามันผิดไป กี่กิโลกรัม ถามเพียงว่ามันรักษา ลำดับ ไว้ได้หรือไม่ นั่นคือ reliability

variance ชุดเดียว สองคำถาม

Agreement แยก \( \sigma^2_{error} \) ออกมา: วัด ขนาด ของ error เป็นเชิง absolute และ มีหน่วย ส่วน Reliability คือ อัตราส่วน \( \sigma^2_{true} / \sigma^2_{obs} \): วัด สัดส่วนของสัญญาณจริง เป็นเชิง relative และ ไม่มีหน่วย (0–1) ทั้งคู่ไม่ใช่คำตอบที่แข่งกันต่อคำถามเดียว แต่เป็นคำตอบของสองคำถามที่ต่างกันเกี่ยวกับการแยกองค์ประกอบชุดเดียวกัน

ลองดูการเปรียบเทียบเดียวกันแบบวางคู่กัน

ประเด็น	Agreement (ความเที่ยงตรง)	Reliability (ความสอดคล้อง)
คำถามหลัก	measurement error มีขนาดเท่าไร?	variance ที่เป็นสัญญาณจริงมีสัดส่วนเท่าไร?
เล็งไปที่เทอมใด	\( \sigma^2_{error} \) (ขนาดของ error)	\( \sigma^2_{true} / \sigma^2_{obs} \) (อัตราส่วน)
Absolute หรือ relative	Absolute	Relative
หน่วย	มีหน่วย (kg, mmol/L, …)	ไม่มีหน่วย
ช่วงค่า	0 ถึง ∞ (ในหน่วยที่วัด)	0 ถึง 1
"ดี" หน้าตาเป็นอย่างไร	error เล็กและเกาะกลุ่มแน่น	สัดส่วน true variance สูง; จัดลำดับ/จำแนกสม่ำเสมอ
สถิติที่ใช้ทั่วไป	standard error of measurement, limits of agreement (Bland–Altman)	Cohen's Kappa, ICC

เมื่อไหร่ใช้แบบไหน: สองการตัดสินใจทางคลินิกพร้อมตัวอย่าง

สองตัวอย่างด้านล่างมาจากเวชปฏิบัติจริงโดยตรง และแสดงให้เห็นว่า วัตถุประสงค์ของการวัด ไม่ใช่ตัวเครื่องมือ ต่างหากที่เป็นตัวกำหนดว่าต้องใช้สถิติตัวใด ที่สำคัญคือคุณ ไม่จำเป็น ต้องประเมินทุกองค์ประกอบพร้อมกัน การเลือกที่ถูกขึ้นอยู่กับว่าคุณจะนำผลไปทำอะไรต่อ

ตัวอย่างที่ 1 — DTX เทียบกับ glucose จากห้องปฏิบัติการ → Agreement คุณต้องการรู้ว่าค่าน้ำตาลในเลือดจากเครื่อง Dextrostix (DTX) ข้างเตียงสามารถใช้แทนค่า glucose จากห้องปฏิบัติการได้หรือไม่ คำถามที่เกี่ยวข้องทางคลินิกคือ "ค่าจาก DTX ต่างจากค่าจริงในห้องปฏิบัติการกี่ mmol/L?" เพราะหาก DTX อ่านสูงเกินไป 2 mmol/L อาจส่งผู้ป่วยไปสู่แนวทางการรักษาที่ผิด นี่คือคำถามเชิง absolute ที่อิงหน่วยและเกี่ยวกับ ขนาด ของ error ดังนั้นจึง ประเมิน agreement และในบริบทนี้ การประเมิน agreement เพียงอย่างเดียวก็เพียงพอแล้ว

ตัวอย่างที่ 2 — ผู้ประเมินสองคนกับ sign ทางรังสี → Reliability คุณต้องการทดสอบ reliability ของ sign ทางรังสี ที่ใช้ในการวินิจฉัย โดยให้ผู้อ่านสองคน A และ B ประเมินภาพทางรังสีอย่างอิสระทั้งหมด 10 ภาพว่า มี sign หรือ ไม่มี sign สิ่งที่คุณสนใจคือ A และ B ให้คำตอบเหมือนกันบ่อยแค่ไหน (ตอบ "มี" ทั้งคู่ หรือ "ไม่มี" ทั้งคู่) และคุณต้องการให้วัดความสอดคล้องนั้น เกินกว่าที่ความบังเอิญ (chance) เพียงอย่างเดียวจะสร้างได้ ขนาดของ "error" ไม่มีความหมายในที่นี้ ไม่มีกิโลกรัม มีแค่ตรงกัน/ไม่ตรงกัน ดังนั้นจึง ประเมิน reliability (และเพราะต้องหักความสอดคล้องจากความบังเอิญออกไป นี่เองคือจุดที่ Cohen's Kappa เข้ามา ซึ่งเป็นเนื้อหาของบทที่ 4)

กฎง่าย ๆ ที่สะอาดหมดจด: ถ้าคำถามของคุณมีหน่วย คุณต้องการ agreement; ถ้าคำถามเกี่ยวกับการจัดลำดับหรือจำแนก คุณต้องการ reliability

Key takeaways

การตัดสินใจทางคลินิกตั้งอยู่บนการวัด คุณภาพเครื่องมือจึงเป็นรากฐาน โดยแยกเป็น validity (วัด construct ถูก), reproducibility (โปรโตคอลชัดเจนและนำไปใช้ที่อื่นได้), และ reliability (สอดคล้องและคลาดเคลื่อนต่ำเมื่อใช้งาน) ดังตัวอย่าง MRC 0–5 สำหรับแรงกล้ามเนื้อ
เครื่องมือมีสี่กลุ่ม — ClinROM, PROM, PerFOM, และ biomarker/lab — และกลุ่มเป็นตัวกำหนดแหล่ง error หลักและ design ของการประเมิน reliability ที่ต้องใช้
COSMIN จัดคุณภาพเครื่องมือเป็นเก้าคุณสมบัติใน 3 มิติ (validity, reliability, responsiveness) ซีรีส์นี้เน้นที่ reliability
โมเดลหลักคือ \( \text{Observed} = \text{True} + \text{Error} \) ซึ่งขยายเป็น \( \sigma^2_{obs} = \sigma^2_{true} + \sigma^2_{error} \)
Agreement = ขนาด ของ error (absolute, มีหน่วย); Reliability = \( \sigma^2_{true} / \sigma^2_{obs} \) คือ สัดส่วนของ true variance (relative, ไม่มีหน่วย, 0–1) variance ชุดเดียว สองคำถาม
เลือกตามวัตถุประสงค์: DTX เทียบ lab glucose → agreement (หน่วยสำคัญ); ผู้ประเมินสองคนกับ sign ทางรังสี → reliability (จัดลำดับ/จำแนกเกินความบังเอิญ) ในรูปตัวอย่างที่คำนวณ ตราชั่งจัดลำดับผู้ป่วยสองรายถูกต้อง 3 ใน 4 ครั้ง = 75%

References

de Vet HCW, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003;56:1137–41.
Mokkink LB, Terwee CB, Patrick DL, et al. The COSMIN checklist. Qual Life Res. 2010;19:539–49.
Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37–46.
Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159–74.
Shrout PE, Fleiss JL. Intraclass correlations. Psychol Bull. 1979;86:420–28.
McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996;1:30–46.
Koo TK, Li MY. A guideline of selecting and reporting ICC. J Chiropr Med. 2016;15:155–63.
Bland JM, Altman DG. Statistical methods for assessing agreement. Lancet. 1986;1:307–10.
Gwet KL. Computing inter-rater reliability in the presence of high agreement. Br J Math Stat Psychol. 2008;61:29–48.
Parmar M, Naqvi SAA, et al. Collaborative large language models for screening in systematic reviews. medRxiv. 2026.

From Sensitivity to Kappa (5-part series): (1) Performance vs Agreement [01_performance_vs_agreement] · (2) Agreement vs Reliability [02_agreement_vs_reliability] · (3) Reliability designs [03_reliability_designs] · (4) Categorical — kappa [04_categorical_kappa] · (5) Continuous — ICC & agreement [05_continuous_icc_agreement]