Inter-rater, Intra-rater, Test–retest: การออกแบบการศึกษา Reliability

บทคัดย่อ

การประเมิน reliability ของเครื่องมือวัดเป็นขั้นตอนที่สำคัญสำหรับแพทย์และนักวิจัยทางคลินิกเพื่อยืนยันว่าเครื่องมือสามารถจัดลำดับหรือจำแนกผู้ป่วยได้อย่างสอดคล้องกัน เนื่องจากการวัดทั่วไปแสดงเพียงความแปรปรวนรวม ผู้วิจัยจึงต้องใช้รูปแบบการศึกษาแบบวัดซ้ำเพื่อแยกความแปรปรวนจริงออกจาก measurement error สิ่งสำคัญที่สุดในทุกรูปแบบการศึกษาคือสิ่งที่ถูกวัดต้องคงที่อย่างสมบูรณ์ตลอดช่วงเวลาการศึกษา หากผู้ป่วยมีการเปลี่ยนแปลงจริง ความเปลี่ยนแปลงนั้นจะถูกเข้าใจผิดว่าเป็น error และทำให้ค่า reliability ถูกประเมินต่ำกว่าความเป็นจริง การศึกษาแบบวัดซ้ำสามารถแยกแยะความคลาดเคลื่อนได้ 3 รูปแบบ ได้แก่ inter-rater ที่แยกความแตกต่างระหว่างผู้ประเมิน intra-rater ที่ติดตามผู้ประเมินคนเดิมโดยต้องรักษาสมดุลกับระยะเวลาเพื่อหลีกเลี่ยง recall bias และ test-retest ที่ประเมินผลกระทบของเวลาที่ผ่านไป ผู้วิจัยสามารถประเมิน reliability ทั้งสามมิติพร้อมกันได้อย่างมีประสิทธิภาพผ่านการทดสอบเพียงชุดเดียวแบบข้ามสลับ เช่น การใช้ผู้ประเมิน 2 คนใน 2 วัน นอกจากนี้ การวิเคราะห์แยกแยะแหล่งที่มาของ systematic error จะช่วยเปิดเผยว่าความผิดพลาดเกิดขึ้นจากมนุษย์ในขั้นตอนใดของการวัด บทความนี้อธิบายรูปแบบการศึกษา reliability พื้นฐานทั้งสามประเภท แสดงวิธีการประเมินผลทุกมิติไปพร้อมกันในการศึกษาเดียว และสอนนักวิจัยถึงวิธีระบุขั้นตอนเจาะจงที่มนุษย์นำ systematic error เข้าสู่กระบวนการวัด

Introduction

เมื่อเราบอกว่าเครื่องมือวัดมีความน่าเชื่อถือ (reliability) เรากำลังกล่าวอ้างสิ่งที่เฉพาะเจาะจงมาก นั่นคือ เครื่องมือสามารถจัดลำดับหรือจำแนก subject ที่แตกต่างกันได้อย่าง "คงเส้นคงวา (consistent)" เมื่อมีการวัดซ้ำหลายครั้ง พูดในเชิงสถิติ reliability คือสัดส่วนของความแปรปรวนในข้อมูลที่สะท้อนความแตกต่าง "จริง" ระหว่าง subject มากกว่าจะเป็น noise แต่ปัญหาในทางปฏิบัติคือ ในการวัดปกติเราสังเกตได้เพียงความแปรปรวน "รวม" เท่านั้น เราไม่มีทางเห็นโดยตรงว่าส่วนใดเป็น "ค่าจริง (true)" และส่วนใดเป็น "ความคลาดเคลื่อน (error)" การจะแยกของผสมนี้ออกจากกัน เราต้อง ออกแบบ การศึกษาที่จงใจวัดซ้ำภายใต้เงื่อนไขที่ควบคุมไว้

บทความนี้ว่าด้วยขั้นตอนการออกแบบนั้น เราจะไล่ดูการออกแบบ reliability คลาสสิกสามแบบ ได้แก่ inter-rater, intra-rater และ test–retest ว่าแต่ละแบบวัดซ้ำในเรื่องอะไร แยก error variance ส่วนไหนออกมา และมีกับดักอะไรติดมาด้วย จากนั้นเราจะเดินผ่านงานวิจัยจริงที่ออกแบบได้สวยงามชิ้นหนึ่ง (instrumented Timed Up and Go (iTUG) ในผู้ป่วย Parkinson, van Lummel et al.) ซึ่งครอบคลุมทั้งสามมิติพร้อมกัน สุดท้ายเราจะเปิดกล่อง "error" ออกดูว่า systematic error มาจากไหน และมันแทรกเข้ามาที่จุดใดบ้างในกระบวนการวัด 4 ขั้นตอน

คำถามหลักของการออกแบบ: ถ้าการวัดสอง subject เดียวกันได้ผลไม่ตรงกัน เราจะมั่นใจได้อย่างไรว่าความไม่ตรงนั้นมาจากเครื่องมือหรือผู้วัด ไม่ใช่จากตัว subject ที่เปลี่ยนไปเองระหว่างทาง?

⤢ click to enlarge

Figure. การออกแบบ reliability สามแบบ — inter-rater, intra-rater และ test–retest — และวิธีที่โปรโตคอลแบบสองผู้วัดสองวันเดียวจับครบทั้งสามมิติพร้อมกัน

เงื่อนไขที่ทุกการออกแบบต้องมีร่วมกัน: subject ต้องคงที่ (STABLE)

ก่อนจะแยกการออกแบบสามแบบ เราต้องวางสมมติฐานที่ทุกแบบยืนอยู่บนนั้นก่อน นั่นคือ ไม่ว่าจะศึกษา reliability ในมิติใด สิ่งที่ถูกวัด (subject) ต้องมีความคงที่ (stable) และไม่เปลี่ยนแปลงในช่วงเวลาที่ทำการศึกษา ข้อนี้ต่อรองไม่ได้ และเป็นจุดที่การศึกษา reliability ผิดพลาดบ่อยที่สุด

ตรรกะนั้นง่ายมาก reliability ถามว่า "เมื่อผลการวัดสองครั้งต่างกัน ความต่างนั้นมาจากไหน?" เรา อยาก ให้คำตอบคือ "เครื่องมือหรือผู้วัด" เพราะนั่นคือสิ่งที่เราพยายามจะอธิบาย แต่ถ้าตัว subject เองเปลี่ยนไประหว่างการวัดสองครั้ง เช่น ก้อนเนื้องอกโตขึ้น ผู้ป่วยเหนื่อยล้า หรือแผลหายดีขึ้น ความต่างนั้นก็คือ การเปลี่ยนแปลงจริงของ subject ไม่ใช่ measurement error สถิติแยกสองสิ่งนี้ออกจากกันโดยอัตโนมัติไม่ได้ มันจะโยนความผิดให้เครื่องมือทันที

เมื่อยอมรับเงื่อนไข stability แล้ว การวัดซ้ำจะช่วยให้เราระบุได้ว่าความแปรปรวนมาจากแหล่งใด ซึ่งนั่นคือสิ่งที่การออกแบบแต่ละแบบถูกสร้างขึ้นมาเพื่อทำ

การออกแบบสามแบบ เทียบเคียงกัน

ทั้งสามแบบมีการ "วัดซ้ำ" เหมือนกัน แต่ต่างกันที่ วัดซ้ำเรื่องอะไร และจึงต่างกันที่ แยก error variance ส่วนไหน ออกมาได้ ขอให้อ่านตารางนี้เป็นหัวใจของบทความ ส่วนที่เหลือคือคำอธิบายขยายความตารางนี้

มิติของ reliability	วัดซ้ำอะไร	Error variance ที่แยกออกมา	ข้อควรระวังหลัก	คำถามที่ตอบ	เครื่องมือในอุดมคติ
1. Inter-rater / device reliability	คนหลายคนวัดสิ่งเดียวกัน	ความคลาดเคลื่อน ระหว่าง ผู้วัด	สิ่งที่วัดต้องไม่เปลี่ยนแปลง	เครื่องมือน่าเชื่อถือหรือไม่ เมื่อ เปลี่ยนผู้ประเมิน	ผู้วัดทุกคนเข้าใจเครื่องมือได้เหมือน ๆ กัน
2. Intra-rater / device reliability	วัดสิ่งเดียวกัน ในเวลาต่างกัน (ผู้วัดคนเดิม)	ความคลาดเคลื่อน ภายใน ผู้วัด	สิ่งที่วัดต้องไม่เปลี่ยนแปลงตามเวลา	น่าเชื่อถือหรือไม่ เมื่อ เวลาเปลี่ยน และผู้วัดยังเป็นคนเดิม	ผู้วัดคนเดิมเข้าใจเครื่องมือเหมือนเดิมทุกครั้ง
3. Test–retest reliability	วัดสิ่งเดียวกัน ในเวลาต่างกัน โดยคำนึงถึงความต่างของการวัดด้วยคนหลายคน	ความคลาดเคลื่อน ระหว่างช่วงเวลา	สิ่งที่วัดต้องไม่เปลี่ยนแปลงตามเวลา	น่าเชื่อถือหรือไม่ เมื่อเวลาเปลี่ยน	เวลาไม่ส่งผลต่อการวัดของเครื่องมือ

มาเดินทีละแถว เพราะความต่างนั้นละเอียดอ่อน

1. Inter-rater reliability — เปลี่ยนผู้ประเมิน

Inter-rater reliability ถามว่า กลุ่มผู้วัด (raters) หรือ กลุ่มอุปกรณ์ (devices) ให้ค่าใกล้เคียงกันหรือไม่ เมื่อวัดสิ่ง เดียวกัน error ที่มันแยกออกมาคือ ความคลาดเคลื่อน ระหว่างผู้วัด (between-rater) ซึ่งคือความไม่ตรงกันที่เกิดขึ้นเพียงเพราะเปลี่ยนคนที่ถือเครื่องมือ

มีคุณสมบัติที่สะดวกอยู่ตรงนี้ หากสิ่งที่ถูกวัดไม่เปลี่ยนแปลงตามเวลา เช่น ภาพถ่ายรังสี (radiograph) หรือสไลด์พยาธิวิทยา (pathology slide) ซึ่งเป็นวัตถุที่ตรึงอยู่กับที่ ผู้วัดแต่ละคนก็ ไม่จำเป็น ต้องอ่านในเวลาเดียวกัน ผู้วัด A อาจอ่านสไลด์ทั้งหมดวันจันทร์ และผู้วัด B อ่านวันศุกร์ การออกแบบก็ยังสะอาด เพราะวัตถุเหมือนเดิมทั้งสองวัน เครื่องมือในอุดมคติของมิตินี้คือเครื่องมือที่ ผู้วัดทุกคนตีความเหมือนกัน

2. Intra-rater reliability — ผู้วัดคนเดิม เวลาผ่านไป

Intra-rater reliability ถามว่า เมื่อ ผู้วัดคนเดิม (หรือ อุปกรณ์เดิม) วัดสิ่ง เดียวกัน ซ้ำ จะได้ค่าสอดคล้องกันหรือไม่ error ที่แยกออกมาคือความคลาดเคลื่อน ภายในผู้วัด (within-rater)

การออกแบบนี้แบกการได้-อย่าง-เสีย-อย่าง (trade-off) เรื่องเวลาที่ละเอียดอ่อนที่สุดใน clinimetrics ทั้งหมด

ระยะห่างระหว่างการวัดสองครั้งต้อง "ยาวพอ" ที่จะหลีกเลี่ยง recall bias หากผู้วัดยังจำผลครั้งแรกได้ ผลครั้งที่สองก็ไม่เป็นอิสระจากครั้งแรก และเราจะประเมิน reliability สูงเกินจริง
แต่ระยะห่างต้อง "สั้นพอ" ที่ subject จะยังไม่เปลี่ยน มิฉะนั้นการเปลี่ยนแปลงจริงจะรั่วเข้ามาเป็น error และเราจะประเมิน reliability ต่ำเกินจริง

3. Test–retest reliability — เวลามีผลในตัวมันเองหรือไม่?

Test–retest reliability ดูเหมือน intra-rater reliability แทบทุกประการ คือผู้วัดหรืออุปกรณ์เดิมวัด subject เดิมซ้ำ ด้วยข้อควรระวังเรื่องเวลา "ยาวพอแต่สั้นพอ" แบบเดียวกัน ความต่างเชิงแนวคิดอยู่ที่ วิธีวิเคราะห์ทางสถิติ ไม่ใช่ที่โปรโตคอล

ใน test–retest เราจงใจ พิจารณาและปรับผล (adjust) ของความคลาดเคลื่อนระหว่างผู้วัดหรืออุปกรณ์ภายในช่วงเวลาเดียวกันออก เพื่อให้สิ่งที่เหลืออยู่คือ True variance ที่สะท้อนความคงที่ของผลการวัดเมื่อเวลาผ่านไปอย่างแท้จริง พูดอีกอย่างคือ test–retest กำลังถามคำถามเวอร์ชันที่สะอาดที่สุดว่า "การที่เวลาผ่านไป โดยตัวมันเอง เปลี่ยนคำตอบหรือไม่" หลังจากกำจัดการปนเปื้อนจากความต่างระหว่างผู้วัดออกไปแล้ว เครื่องมือในอุดมคติของมิตินี้คือเครื่องมือที่ เวลาไม่มีผลต่อค่าที่อ่านได้

เดินผ่านการออกแบบจริง: จับครบทั้งสามมิติในคราวเดียว (งาน iTUG)

นี่คือส่วนที่งดงาม เราไม่จำเป็นต้องทำการศึกษาแยกสามครั้ง โดยทั่วไปผู้วิจัยมักออกแบบโปรโตคอลเดียวที่ประเมินได้ทั้งสามมิติพร้อมกัน ตรรกะ (อ่านจากรูป) คือ

จะศึกษา inter-rater ได้ ต้องมีผู้วัด มากกว่าหนึ่งคน
จะศึกษา intra-rater ได้ ต้องให้ ผู้วัดคนเดิม วัดซ้ำใน เวลาต่างกัน
หากเก็บข้อมูลครบสองข้อข้างต้น เราก็คำนวณ test–retest ได้ "แถมฟรี" (โดยอัตโนมัติ) จากชุดข้อมูลเดียวกัน

ตัวอย่างคลาสสิกคืองาน "Intra-Rater, Inter-Rater and Test–Retest Reliability of an Instrumented Timed Up and Go (iTUG) Test in Patients with Parkinson's Disease" โดย Rob C. van Lummel et al. วัตถุประสงค์คือประเมินความน่าเชื่อถือของ instrumented Timed Up and Go (iTUG) test ในผู้ป่วย Parkinson ในเชิงวิธีการ ผู้วัดนำอุปกรณ์ไปติดตั้งที่ผู้ป่วย (elastic belt ที่มีอุปกรณ์รับสัญญาณ electronic) จัดท่าผู้ป่วยให้พร้อม ให้สัญญาณเริ่มต้น และจับเวลาผู้ป่วยด้วย stopwatch

การออกแบบ — ผู้วัดสองคน (A และ B) วัดผู้ป่วยแต่ละคนข้ามสองวัน (Day 1 และ Day 2) — ให้ครบทั้งสามมิติในคราวเดียว

มิติของ reliability	งาน iTUG ทำอย่างไร	ข้อสังเกต / ข้อควรระวัง
Inter-rater / device	ประเมินโดยใช้ ผู้วัดสองคน A และ B ในผู้ป่วยคนเดียวกัน	เนื่องจากผู้ป่วยคนเดิมต้องถูกวัดซ้ำ 5 ครั้ง และมีโอกาสเกิด ความเหนื่อยล้า ในการวัดครั้งหลัง ๆ จึงมีการ สลับ sequence ของผู้วัด ที่ต่างกันในผู้ป่วยแต่ละคน ในทั้งสองช่วงเวลา เพื่อไม่ให้ความเหนื่อยล้าเอื้อประโยชน์ต่อผู้วัดคนใดอย่างเป็นระบบ
Intra-rater / device	ผู้วัด (A และ B) แต่ละคนประเมินผู้ป่วยทั้งหมด สองช่วงเวลา (Day 1 และ Day 2)	ผู้วิจัยต้องยอมรับเงื่อนไขว่า ผู้ป่วย Parkinson มีสมรรถนะคงที่ ตลอดช่วงการศึกษา หากสมรรถนะของผู้ป่วยเปลี่ยนแปลง จะทำให้ error variance สูงกว่าความเป็นจริง
Test–retest	ผู้ป่วยทั้งหมดถูกวัดซ้ำใน สองช่วงเวลา (Day 1 และ Day 2) โดยแต่ละช่วงเวลามีการวัดซ้ำด้วย ผู้วัดสองคน	เพราะการออกแบบรองรับการประเมิน intra-rater และ inter-rater อยู่แล้ว จึงทำให้ ประเมิน test–retest reliability ได้โดยอัตโนมัติ

สังเกตว่า ข้อควรระวังเรื่อง stability กลายเป็นรูปธรรมตรงนี้ Parkinson's disease ผันผวนจริง (on/off states, ความเหนื่อยล้าข้ามการวัดซ้ำ) ผู้วิจัยต้อง สมมติ ว่าผู้ป่วยคงที่ตลอดโปรโตคอล หากสมมติฐานนี้ล้มเหลว การออกแบบจะแยกความผันผวนทางคลินิกจริงออกจาก error ของเครื่องมือไม่ได้ และ reliability จะถูกประเมินต่ำเกินจริง นี่คือกฎทั่วไปที่ถูกทำให้เป็นรูปธรรม

แหล่งที่มาของความแปรปรวน: True กับ Error

เพื่อเข้าใจว่า การออกแบบเหล่านี้กำลังประเมินอะไร ให้เปิดความแปรปรวนในข้อมูลออกดู จากแบบจำลองการวัดพื้นฐาน ค่าที่วัดได้ (Observed value) ทุกค่าคือผลรวมของค่าจริง (True value) และความคลาดเคลื่อน (Measurement error)

\[ \text{Observed value} = \text{True value} + \text{Measurement error} \]

เมื่อวัดหลาย ๆ subject การแยกส่วนเดียวกันนี้ก็ใช้ได้กับ ความแปรปรวน (variance)

\[ \sigma^2_{\text{observed}} = \sigma^2_{\text{true}} + \sigma^2_{\text{error}} \]

นี่คือแก่นของทั้งสาขานี้ Agreement สนใจเพียง ขนาด ของ \( \sigma^2_{\text{error}} \) (ในหน่วยจริง) ส่วน Reliability สนใจ สัดส่วน ของ true variance ภายในยอดรวม ในเชิงแนวคิดคือ

\[ \text{Reliability} = \frac{\sigma^2_{\text{true}}}{\sigma^2_{\text{true}} + \sigma^2_{\text{error}}} = \frac{\sigma^2_{\text{true}}}{\sigma^2_{\text{observed}}} \]

ในการวัดปกติเราคำนวณ \( \sigma^2_{\text{observed}} \) ได้ แต่คำนวณ \( \sigma^2_{\text{true}} \) หรือ \( \sigma^2_{\text{error}} \) แยกกัน ไม่ได้ ซึ่งนี่คือเหตุผลพอดิบพอดีว่าทำไมเราจึงต้องมี การออกแบบที่วัดซ้ำ เพื่อกู้คืนค่าเหล่านั้น

ทีนี้แยกตัว error เองออก error variance ไม่ใช่ของชิ้นเดียว มันมีสองชนิด

Systematic error — ความคลาดเคลื่อนที่ อธิบายได้ มักเกิดจากการวัดซ้ำโดยผู้วัด (rater) ต่างคนกัน หรือใน ช่วงเวลาที่แตกต่างกัน มันมีโครงสร้าง คือมันแปรไปตามปัจจัยที่ระบุได้ (ใครวัด เมื่อไร)
Unexplained / residual error — ความคลาดเคลื่อนที่ อธิบายไม่ได้ เช่น ความผันผวนของสภาพแวดล้อมที่ควบคุมไม่ได้ คือ noise ที่เหลืออยู่หลังจากหักส่วน systematic ออกแล้ว

ผลตอบแทนในทางปฏิบัติคือ หากผู้วิจัยระบุได้ว่าการวัดซ้ำเกิดขึ้นใน ขั้นตอนใดของกระบวนการวัด ก็จะชี้ชัดถึงแหล่งที่มาของ error ที่อธิบายได้ (systematic) และ นำไปปรับปรุงเครื่องมือ ได้ ซึ่งพาเรามาสู่กายวิภาคของกระบวนการวัด 4 ขั้นตอน

systematic error แทรกเข้ามาที่ไหน: องค์ประกอบของกระบวนการวัด 4 ส่วน

กระบวนการวัดใด ๆ สามารถจำแนกออกได้เป็น 4 องค์ประกอบ systematic error สามารถถูกแทรกเข้ามาที่องค์ประกอบใดก็ได้ และที่สำคัญคือ ในบางขั้นตอน error จะเข้ามาได้ ก็ต่อเมื่อ ผ่านผู้ปฏิบัติงานที่เป็นมนุษย์เท่านั้น ดังนั้นหากผู้ปฏิบัติไม่เกี่ยวข้อง ขั้นตอนนั้นก็ไม่ก่อ systematic error เลย

กระบวนการเตรียมเครื่องมือ (Equipment and preparation) — Equipment คืออุปกรณ์ทั้งหมดที่จำเป็นในการเตรียม ใช้งาน และรายงานผลของเครื่องมือ ส่วน Preparation คือทุกขั้นตอนที่ทำให้เครื่องมือพร้อมใช้งาน ทั้งการเตรียมทั่วไป (ความเชี่ยวชาญหรือการฝึกอบรมที่บุคลากรต้องมี) และการเตรียมเฉพาะแต่ละการวัด (การเตรียมอุปกรณ์ สภาพแวดล้อม การจัดเก็บ และการเตรียมตัวผู้ป่วยโดยบุคลากร)
กระบวนการเก็บข้อมูลดิบ (Collecting of raw data) — การดำเนินการทั้งหมดโดยผู้ป่วยและบุคลากรเพื่อเก็บข้อมูล ก่อน ที่จะมีการประมวลผลใด ๆ
กระบวนการประมวลผล (Data processing) — การดำเนินการทั้งหมดบนข้อมูลดิบ (เช่น ข้อมูลสัญญาณ ข้อมูลรูปภาพ) เพื่อจัดเก็บให้อยู่ในรูปแบบที่ใช้งานได้ (เช่น อิเล็กทรอนิกส์) สำหรับใช้ต่อไป
การประมวลคะแนนและรายงานผล (Assignment of the score / value) — การคำนวณหรือแปลงข้อมูลที่ประมวลผลแล้วให้กลายเป็น คะแนนหรือค่า ซึ่งเป็นส่วนหนึ่งของผลลัพธ์

ต่อไปนี้คือการ map แต่ละองค์ประกอบลงบนงาน iTUG และจุดที่ความแปรปรวนเข้ามา

องค์ประกอบของกระบวนการ	การทำในงาน iTUG	วัดซ้ำโดย	ความแปรปรวน
Equipment & preparation	Equipment: inertial sensor system (DynaPort Hybrid, McRoberts), elastic belt, stopwatch, remote control, computer software (MoveTest) Preparation: ผู้ป่วยนั่งบนเก้าอี้สูง 43–46 ซม. โดยไม่มีที่วางแขน เท้าวางห่างกัน 43 ซม. หลังพิงพนัก ติดตั้งเซนเซอร์ที่หลังส่วนล่างด้วยสายรัด ใช้สัญญาณเริ่มต้นจากผู้วัด กำหนดระยะทางเดิน 3 เมตรด้วยกรวย	ผู้วัด 2 คน (A, B) คนละสองครั้งในเวลาไล่เลี่ยกัน (inter-rater); ถูกวัดซ้ำในลักษณะเดียวกันทั้งหมดสองวัน (Day 1, Day 2) → intra-rater / test–retest	True variance: ตัวผู้ป่วย (เช่น สรีระเมื่ออยู่ในท่าพร้อมวัด) Systematic error variance: ผู้วัด (เช่น ตำแหน่งการติด sensor โดยใช้ elastic belt, การเตรียมผู้ป่วยให้อยู่ในท่าพร้อม)
Collecting raw data	ผู้ป่วยลุกจากเก้าอี้ เดิน 3 เมตรรอบกรวย และกลับมานั่ง เซนเซอร์วัดอัตราเร่งและความเร็วเชิงมุมใน 3 ทิศทาง ด้วยอัตรา 100 samples/s และระยะเวลาที่ใช้แต่ละ step; ผู้วัด (Rater) ใช้ stopwatch	การวัดซ้ำแบบสองผู้วัด สองวัน เช่นเดียวกัน	True variance: ตัวผู้ป่วย (ความเร็วในการตอบสนองต่อสัญญาณเริ่ม ความเหนื่อยล้าของกล้ามเนื้อในการวัดครั้งถัดไป หรือความผันผวนของตัวโรค Parkinson) Systematic error variance: ตัวผู้วัด (ความช้าเร็วในการตอบสนองเมื่อผู้ป่วยไปยังจุดต่าง ๆ ที่ต้องบันทึกเวลาด้วย stopwatch)
Data processing	ใช้ซอฟต์แวร์ MoveTest วิเคราะห์ข้อมูลจากเซนเซอร์และคำนวณเวลา, มุม, ความเร็วเชิงมุม และเหตุการณ์ต่าง ๆ ของการเคลื่อนไหว	— (ไม่มีมนุษย์เกี่ยวข้อง)	ไม่ผันแปร ตราบที่ผู้ประเมินไม่มีส่วนเกี่ยวข้องในขั้นตอนนี้ ความคลาดเคลื่อนที่เกิดขึ้นเป็น Unexplained (residual) error variance จากซอฟต์แวร์ที่ใช้แปลงข้อมูล
Assignment of score / value	คำนวณเวลาแต่ละช่วง (ลุกจากเก้าอี้, เดิน, หมุน, นั่ง), มุมการงอ-เหยียด, ความเร็วเชิงมุมขณะหมุนรอบกรวย, การแยก event จาก signal เพื่อระบุจุดเริ่ม-จบของเฟส	— (ไม่มีมนุษย์เกี่ยวข้อง)	ไม่ผันแปร ตราบที่ผู้ประเมินไม่มีส่วนเกี่ยวข้อง ความคลาดเคลื่อนที่เกิดขึ้นเป็น Unexplained (residual) error variance จากซอฟต์แวร์ที่ใช้คำนวณ

รูปแบบนี้ให้ความกระจ่าง ใน equipment/preparation และ การเก็บข้อมูลดิบ มี ผู้วัดเกี่ยวข้อง ขั้นตอนเหล่านี้จึงแบก systematic (rater) error ซึ่งเป็นจุดที่เราจะเข้าไปแก้ไขเพื่อให้เครื่องมือน่าเชื่อถือมากขึ้นได้พอดี (เช่น มาตรฐานการติด belt, การฝึกเทคนิคจับ stopwatch) ส่วนใน data processing และ การให้คะแนน ผู้วัด ไม่ เกี่ยวข้อง ขั้นตอนเหล่านี้จึงไม่มี systematic rater error มีเพียง residual error จากซอฟต์แวร์ การระบุว่าการวัดซ้ำตกลงที่องค์ประกอบใด จึงบอกเราทั้ง ว่า systematic error อยู่ที่ไหน และ เราทำอะไรกับมันได้บ้าง

Key takeaways

Reliability คือสัดส่วนของ observed variance ที่เป็น true variance: \( \sigma^2_{\text{true}} / \sigma^2_{\text{observed}} \) เราเห็น true variance กับ error variance โดยตรงไม่ได้ ต้องอาศัย การออกแบบที่วัดซ้ำ (repeated-measurement design) เพื่อกู้คืนค่ามา
การออกแบบ reliability ทุกแบบ ยืนอยู่บนสมมติฐานเดียว: subject ต้องคงที่ (stable) ตลอดช่วงการศึกษา หาก subject เปลี่ยน การเปลี่ยนแปลงจริงจะถูกติดป้ายผิดว่าเป็น error และ reliability จะถูกประเมินต่ำเกินจริง
การออกแบบสามแบบ แยก error คนละส่วน: inter-rater (ระหว่างผู้วัด — เปลี่ยนผู้ประเมิน), intra-rater (ภายในผู้วัดเมื่อเวลาผ่านไป), และ test–retest (ระหว่างช่วงเวลา หลังหักความต่างระหว่างผู้วัดออก)
Intra-rater แบกปมเรื่องเวลา: ช่วงห่างต้อง ยาวพอที่จะเลี่ยง recall bias แต่ สั้นพอที่จะให้ subject คงที่
โปรโตคอลเดียวแบบ สองผู้วัด × สองวัน — คือการออกแบบ iTUG / van Lummel พอดี — จับครบ ทั้งสามมิติ ในคราวเดียว โดย test–retest ออกมาให้โดยอัตโนมัติ
Error variance แยกเป็น systematic (อธิบายได้: rater, time) และ residual/unexplained
systematic error แทรกเข้ามาผ่าน องค์ประกอบของกระบวนการวัด 4 ส่วน — equipment & preparation, collecting raw data, data processing, assignment of score จุดที่ ผู้วัดเกี่ยวข้อง (preparation, การเก็บข้อมูลดิบ) จะมี systematic error ที่เราแก้ไขได้ ส่วนจุดที่ผู้วัดไม่เกี่ยวข้อง (processing, scoring) มีเพียง residual error จากซอฟต์แวร์

References

de Vet HCW, Terwee CB, Bouter LM. Current challenges in clinimetrics. J Clin Epidemiol. 2003;56:1137–41.
Mokkink LB, Terwee CB, Patrick DL, et al. The COSMIN checklist. Qual Life Res. 2010;19:539–49.
Cohen J. A coefficient of agreement for nominal scales. Educ Psychol Meas. 1960;20:37–46.
Landis JR, Koch GG. The measurement of observer agreement for categorical data. Biometrics. 1977;33:159–74.
Shrout PE, Fleiss JL. Intraclass correlations. Psychol Bull. 1979;86:420–28.
McGraw KO, Wong SP. Forming inferences about some intraclass correlation coefficients. Psychol Methods. 1996;1:30–46.
Koo TK, Li MY. A guideline of selecting and reporting ICC. J Chiropr Med. 2016;15:155–63.
Bland JM, Altman DG. Statistical methods for assessing agreement. Lancet. 1986;1:307–10.
Gwet KL. Computing inter-rater reliability in the presence of high agreement. Br J Math Stat Psychol. 2008;61:29–48.
Parmar M, Naqvi SAA, et al. Collaborative large language models for screening in systematic reviews. medRxiv. 2026.

From Sensitivity to Kappa (5-part series): (1) Performance vs Agreement [01_performance_vs_agreement] · (2) Agreement vs Reliability [02_agreement_vs_reliability] · (3) Reliability designs [03_reliability_designs] · (4) Categorical — kappa [04_categorical_kappa] · (5) Continuous — ICC & agreement [05_continuous_icc_agreement]