หลักการคำนวณ N ขนาดตัวอย่างในการวิจัยทางคลินิก

บทนำ

การกำหนดขนาดการศึกษา หรือขนาดตัวอย่าง เป็นองค์ประกอบสำคัญของการออกแบบงานวิจัยทางคลินิก เพราะช่วยให้การศึกษานั้นสามารถตอบคำถามวิจัยหลักได้อย่างมีความน่าเชื่อถือ มีความแม่นยำ และมีความเหมาะสมในเชิงจริยธรรม ในระบาดวิทยาคลินิกสมัยใหม่ การคำนวณขนาดตัวอย่างไม่ใช่เพียงการแทนค่าลงสูตรเชิงกล แต่เป็น การตัดสินใจที่ขึ้นกับวัตถุประสงค์ของการศึกษา และต้องสอดคล้องกับคำถามวิจัย ชนิดของผลลัพธ์ และกรอบการวิเคราะห์

ทำไมต้องคำนวณขนาดตัวอย่าง

การคำนวณขนาดตัวอย่างมีบทบาทสำคัญหลายด้านในกระบวนการวิจัยทางคลินิก

1. ความตรงและความเชื่อถือได้

ขนาดตัวอย่างที่เพียงพอช่วยให้ค่าประมาณที่ได้สะท้อนลักษณะที่แท้จริงของประชากร และสามารถทำซ้ำได้อย่างสม่ำเสมอในการศึกษาครั้งอื่น

2. ความแม่นยำ

เมื่อขนาดตัวอย่างมากขึ้น ความคลาดเคลื่อนจากความบังเอิญจะลดลง ทำให้ช่วงความเชื่อมั่นแคบลง และผลการศึกษามีความชัดเจนมากขึ้น

3. อำนาจการทดสอบทางสถิติ

ขนาดตัวอย่างเป็นตัวกำหนดความน่าจะเป็นที่จะตรวจพบผลที่แท้จริง หากผลนั้นมีอยู่จริง โดยทั่วไปนิยามว่า

Power = (1 - β)
ช่วยลดโอกาสพลาดการตรวจพบผลที่มีความสำคัญทางคลินิก

4. ความรับผิดชอบทางจริยธรรม

หากการศึกษามีขนาดตัวอย่าง

น้อยเกินไป → ทำให้ผู้เข้าร่วมถูกนำเข้าสู่การศึกษาแต่ไม่ก่อให้เกิดองค์ความรู้ที่มีประโยชน์
มากเกินไป → ทำให้มีคนจำนวนมากเกินความจำเป็นต้องรับความเสี่ยงจากงานวิจัย

หลักจริยธรรมจึงกำหนดให้ต้องสร้างสมดุลระหว่างประโยชน์และความเสี่ยง สอดคล้องกับหลัก beneficence และ justice

5. ความเป็นไปได้ในการดำเนินงาน

ข้อจำกัดในโลกจริง เช่น เวลา งบประมาณ และจำนวนผู้ป่วยที่เข้าถึงได้ ต้องนำมาพิจารณาร่วมกับข้อกำหนดทางวิทยาศาสตร์ แต่ ต้องไม่ลดทอนความถูกต้องของการออกแบบวิจัย

ประเด็นถกเถียงระหว่าง RCT และ Observational

การทดลองแบบสุ่มมีกลุ่มควบคุม (RCT)

การคำนวณขนาดตัวอย่างถือเป็น สิ่งจำเป็น เพราะว่า

การทดสอบสมมติฐานเป็นแกนหลัก
ต้องกำหนด power ล่วงหน้า
การสุ่มตัวอย่างต้องอาศัยจำนวนตัวอย่างที่เพียงพอเพื่อให้กลุ่มมีความสมดุล

การศึกษาเชิงสังเกต Observational

ในงานวิจัยประเภทนี้ยังมีข้อถกเถียงอยู่บ้าง เช่น

หากเป็นข้อมูลย้อนหลัง อาจใช้ข้อมูลทั้งหมดที่มีอยู่ โดยไม่ได้ “คำนวณ” ขนาดตัวอย่างล่วงหน้า
อย่างไรก็ตาม
- power ยังสำคัญต่อการ ตีความผลที่ไม่พบความแตกต่าง
- ความแม่นยำและเสถียรภาพของแบบจำลองก็ยังขึ้นกับขนาดตัวอย่างเช่นกัน

🔍 ข้อคิดสำคัญ แม้คุณจะใช้ “ข้อมูลทั้งหมดที่มีอยู่” คุณก็ยังยอมรับขนาดตัวอย่างนั้นโดยปริยาย ดังนั้นยังต้องประเมินอยู่ดีว่า จำนวนดังกล่าวเพียงพอต่อวัตถุประสงค์ของการศึกษาหรือไม่

หลักการสำคัญที่สุด: คำนวณจาก “วัตถุประสงค์หลักของการศึกษา”

กฎพื้นฐานที่สุดคือ

ขนาดตัวอย่างต้องถูกกำหนดจากวัตถุประสงค์หลักของการวิจัย ไม่ใช่กำหนดจากความอยากให้ผลมีนัยสำคัญทางสถิติ

แนวคิดนี้สอดคล้องกับ Design Triad ของ CECS ได้แก่

Object design → เรากำลังตอบคำถามอะไร
Method design → เราจะศึกษาเรื่องนั้นอย่างไร
Analysis design → ตัวชี้วัดใดคือสิ่งที่บ่งบอกความสำเร็จ

แทนที่จะถามว่า

“ต้องใช้กี่คนจึงจะมีนัยสำคัญทางสถิติ”

ควรถามว่า

“ต้องใช้กี่คนจึงจะบรรลุเป้าหมายวิจัยเฉพาะของเรา”

สามกรอบหลักของการคำนวณขนาดตัวอย่างตามวัตถุประสงค์

ประเภท	เป้าหมายหลัก	จุดเน้นทางสถิติ	ปัจจัยที่ใช้กำหนดขนาดตัวอย่าง
เชิงพรรณนา	ประมาณค่าพารามิเตอร์	ความแม่นยำ	ความกว้างของช่วงความเชื่อมั่น, ความแปรปรวน
เชิงเปรียบเทียบ (Explain)	ตรวจจับความแตกต่าง	การทดสอบสมมติฐาน	power, alpha, effect size
เชิงพยากรณ์	สร้างแบบจำลอง	ความสามารถใช้กับข้อมูลใหม่	จำนวนเหตุการณ์, จำนวนตัวแปร, overfitting

1. การศึกษาเชิงพรรณนา (Descriptive Studies)

เป้าหมายคือการประมาณค่าพารามิเตอร์ของประชากร เช่น ความชุก

เน้นที่ ความแม่นยำ ไม่ใช่การทดสอบสมมติฐาน
ปัจจัยสำคัญ ได้แก่
- ค่าคลาดเคลื่อนที่ยอมรับได้ (margin of error)
- ความแปรปรวน หรือสัดส่วนที่คาดไว้
- ระดับความเชื่อมั่น

ตัวอย่าง

“ความชุกของภาวะ AKI ในผู้ป่วย ICU คือเท่าใด”

2. การศึกษาเชิงเปรียบเทียบ (Comparative / Explain)

เป้าหมายคือเปรียบเทียบกลุ่ม หรือทดสอบสมมติฐานเชิงสาเหตุ

สอดคล้องกับตรรกะการวิจัยแบบ อธิบาย (Explain)/เชิงเหตุผล
การคำนวณขึ้นกับ
- ขนาดผลที่มีความหมายทางคลินิก
- Alpha (Type I error)
- Power (Type II error)
- ความแปรปรวนของข้อมูล

สามารถเขียนกรอบผลลัพธ์ได้เป็น

Y = f(X | confounders + bias + random error)

ซึ่งสะท้อนหลัก causal inference ที่ให้ความสำคัญกับการประมาณผล มากกว่าการดูแค่ว่ามีนัยสำคัญหรือไม่

ตัวอย่าง

“ยา A ลดอัตราตายได้ดีกว่ายา B หรือไม่”

3. การศึกษาเชิงพยากรณ์ (Predictive Studies)

เป้าหมายคือสร้างแบบจำลองที่สามารถทำนายผลลัพธ์ในผู้ป่วยรายใหม่ได้

จุดเน้นอยู่ที่
- Discrimination เช่น AUROC
- Calibration
- การควบคุม overfitting

หลักสำคัญคือ

ขนาดตัวอย่างขึ้นกับ
- จำนวนตัวแปรทำนาย
- อัตราการเกิดเหตุการณ์
- ความซับซ้อนของแบบจำลอง

แนวทางสมัยใหม่แนะนำว่า

ไม่ควรใช้กฎ “10 events per variable” แบบตายตัว เพราะล้าสมัยแล้ว
ควรใช้การคำนวณเชิงแบบจำลอง เช่น shrinkage target

ตัวอย่าง

“เราสามารถพยากรณ์การเสียชีวิตภายใน 30 วันในผู้ป่วย sepsis ได้หรือไม่”

กลยุทธ์การวิเคราะห์: Universe กับ Subset

จุดนี้เป็นจุดที่นักวิจัยจำนวนมากสับสน

1. Descriptive = วิเคราะห์ภาพรวมของทั้งหมด

ใช้ข้อมูลทั้งหมดที่มี
ไม่มีการเปรียบเทียบ
ไม่เน้นการทดสอบสมมติฐาน

2. Comparative = วิเคราะห์เป็นกลุ่มย่อยเพื่ออธิบาย (Explain)

เปรียบเทียบระหว่างกลุ่มสัมผัสและไม่สัมผัส หรือกลุ่มรักษา
ต้องควบคุม confounding
ต้องมีการออกแบบที่เหมาะสม เช่น RCT หรือ observational study ที่มีการปรับแก้

3. Predictive = วิเคราะห์เพื่อทำนาย

มุ่งหา pattern มากกว่าหาเหตุและผล
เน้นประสิทธิภาพของการทำนาย ไม่ใช่ causal validity

🔍 ข้อคิดสำคัญ การสับสนระหว่าง prediction กับ explanation เป็นข้อผิดพลาดที่พบบ่อยมากในระดับปริญญาเอก เพราะแต่ละแนวทางต้องใช้ตรรกะการวิเคราะห์และตรรกะการคำนวณขนาดตัวอย่างที่ต่างกันโดยสิ้นเชิง

ความเข้าใจผิดที่พบบ่อย 6 ประการ

1. “เลขมหัศจรรย์” เช่น 30 / 100 / 400

ตัวเลขเหล่านี้มีที่มาจากบริบทเฉพาะ ไม่ใช่ใช้ได้กับทุกงานวิจัย

(n=30): มักเกี่ยวกับการประมาณ normality ตาม Central Limit Theorem
(n=400): มักสัมพันธ์กับค่าคลาดเคลื่อน ±5% ในการสำรวจ prevalence

❌ ไม่ควรนำไปใช้ข้ามประเภทการศึกษา

2. การใช้สูตร Yamane อย่างไม่เหมาะสม

สูตรนี้เหมาะกับ

การสำรวจในประชากรจำกัด
ผลลัพธ์แบบbinary

❌ ไม่เหมาะสำหรับงานวิจัยคลินิกแบบเปรียบเทียบหรือพยากรณ์

3. ใช้ incidence/prevalence กับทุกอย่าง

prevalence และ incidence เป็นพารามิเตอร์เชิงพรรณนา

❌ จึงไม่ควรใช้เป็นฐานในการคำนวณขนาดตัวอย่างของงานวิจัยเชิงเปรียบเทียบหรือ predictive

4. ให้ feasibility มาก่อนวิทยาศาสตร์เสมอ

ถ้าขนาดตัวอย่างที่คำนวณได้มากเกินความเป็นไปได้ ควร

ปรับแบบวิจัย
ทำหลายศูนย์
ขยายเวลาเก็บข้อมูล

❌ ไม่ควรลดจำนวนตัวอย่างลงเพียงเพราะ “เก็บไม่ไหว”

5. คิดว่าขนาดตัวอย่างเดียวตอบได้ทุกคำถาม

การศึกษาหนึ่งอาจมี power เพียงพอสำหรับผลลัพธ์หลัก แต่ไม่เพียงพอสำหรับ

ผลลัพธ์รอง
subgroup analysis

6. คิดว่าสูตรสมการเป็นวิธีเดียว

ปัจจุบันยังมีวิธีอื่น เช่น

simulation
bootstrap-based planning
model-based estimation

โดยเฉพาะในงาน predictive model

บทสรุป

การคำนวณขนาดตัวอย่างไม่ใช่พิธีกรรมทางสถิติ แต่เป็น การตัดสินใจเชิงการออกแบบที่ต้องยึดโยงกับเป้าหมายทางคลินิก วิธีที่ถูกต้องต้องเริ่มจากวัตถุประสงค์หลักของงานวิจัย จากนั้นจึงเลือกกรอบการวิเคราะห์ที่เหมาะสม ไม่ว่าจะเป็นเชิงพรรณนา เชิงอธิบาย (Explain) หรือเชิงพยากรณ์ พร้อมทั้งพิจารณาประเด็นด้านจริยธรรมและความเป็นไปได้ในการดำเนินงานร่วมกัน

ท้ายที่สุด ขนาดตัวอย่างที่เหมาะสมจะทำให้งานวิจัยมีคุณสมบัติครบทั้ง

ถูกต้องทางวิทยาศาสตร์
มีความหมายทางคลินิก
สมเหตุสมผลทางจริยธรรม

🔑 สรุปประเด็นสำคัญ

ขนาดตัวอย่างต้องขับเคลื่อนโดย วัตถุประสงค์ของการศึกษา ไม่ใช่ขับเคลื่อนโดยสูตรเพียงอย่างเดียว
ต้องแยกให้ชัดระหว่าง
- เชิงพรรณนา
- เชิงเปรียบเทียบเชิงสาเหตุ
- เชิงพยากรณ์
- power ไม่ใช่ทุกอย่าง ยังต้องคำนึงถึง precision และ model validity ด้วย
- หลีกเลี่ยงการใช้ rule of thumb แบบตายตัว เพราะมักนำไปสู่การออกแบบที่ผิดพลาด
- ต้องทำให้ sample size ↔ outcome ↔ analysis strategy สอดคล้องกันเสมอ