ทำไม Regression จึงใช้ Wald Test และ P-value ของตัวแปรหมายความว่าอะไร
- Mayta

- 3 ชั่วโมงที่ผ่านมา
- ยาว 1 นาที
บทนำ
เวลานักวิจัยอ่านผลลัพธ์จาก regression model เช่น logistic regression หรือ Cox regression เรามักจะเห็นตารางแบบนี้
คำถามที่มักเกิดขึ้นคือ
P-value เหล่านี้มาจากอะไร และมันหมายความว่าเรากำลัง "ทดสอบตัวแปรทีละตัวโดยไม่สนใจตัวอื่นหรือไม่"
คำตอบคือ ไม่ใช่
P-value เหล่านี้มาจาก Wald test ซึ่งเป็นการทดสอบว่า ค่าสัมประสิทธิ์ (coefficient) ของตัวแปรในสมการ regression แตกต่างจากศูนย์หรือไม่ หลังจากที่โมเดลได้ปรับตัวแปรอื่นทั้งหมดแล้ว
โครงสร้างพื้นฐานของ Regression Model
สมมติเราศึกษาความสัมพันธ์ระหว่างการสูบบุหรี่กับมะเร็งปอด โดยใช้ logistic regression
โดยที่
Y = การเกิดมะเร็งปอด
Smoking = สูบบุหรี่
Age = อายุ
Sex = เพศ
เมื่อ software ทำการประมาณค่า (estimation) โมเดลนี้ มันจะ คำนวณค่า β ทุกตัวพร้อมกัน
กล่าวคือ
ถูกคำนวณจาก สมการเดียวกัน
ดังนั้น
ไม่ได้หมายถึง
ผลของ smoking ต่อ outcome แบบดิบ
แต่หมายถึง
ผลของ smoking ต่อ outcome หลังจากปรับ age และ sex แล้ว
นี่คือสิ่งที่เรียกว่า adjusted effect
Wald Test คืออะไร
หลังจากโมเดลประมาณค่า coefficient แล้ว เราต้องการทดสอบสมมติฐานว่า
กล่าวคือ
ตัวแปรนี้ไม่มีผลต่อ outcome
Wald test ใช้สูตร
โดยที่
β^ = ค่าสัมประสิทธิ์ที่ประมาณได้
SE = standard error
ค่าที่ได้จะถูกนำไปคำนวณ p-value
ซึ่งบอกว่า
หลักฐานทางสถิติมีมากพอที่จะปฏิเสธสมมติฐานว่า coefficient = 0 หรือไม่
การตีความ P-value ใน Regression
ถ้าในตาราง regression เราเห็น
ความหมายที่ถูกต้องคือ
หลังจากปรับ age และ sex แล้ว การสูบบุหรี่ยังมีความสัมพันธ์กับมะเร็งปอดอย่างมีนัยสำคัญทางสถิติ
ดังนั้น Wald test ไม่ได้ทดสอบ
Smoking vs outcomeแต่ทดสอบ
Smoking vs outcome | age, sexเครื่องหมาย | หมายถึง conditional on หรือ "ภายใต้เงื่อนไขว่าตัวแปรอื่นอยู่ในโมเดล"
Wald Test ทดสอบตัวแปรทีละตัวหรือทั้งหมด
โดยทั่วไป software จะรายงาน
partial Wald test
ซึ่งทดสอบสมมติฐาน
แยกกันทีละตัว
แต่ในบางกรณีเราสามารถทดสอบหลายตัวพร้อมกันได้ เช่น
ซึ่งเรียกว่า joint Wald test
Wald Test ต่างจาก t-test และ Chi-square test อย่างไร
t-test และ Chi-square test มักใช้ในสถานการณ์ที่ง่ายกว่า เช่น
แต่เมื่อเราใช้ regression model
เรากำลังประมาณค่า พารามิเตอร์ของสมการ
ดังนั้นจึงใช้
Wald test
เพื่อทดสอบ coefficient ของสมการ
ความจริงที่น่าสนใจ: หลาย Test เป็นเพียงกรณีพิเศษของ Regression
ในทางคณิตศาสตร์
หลาย test ที่เราคุ้นเคยสามารถเขียนเป็น regression ได้ เช่น
t-test
เทียบเท่ากับ
Chi-square test
เทียบเท่ากับ
ดังนั้นใน regression
Wald test จึงกลายเป็นเครื่องมือมาตรฐานในการทดสอบ coefficient
ข้อควรระวังในการใช้ Wald Test
แม้ Wald test จะถูกใช้บ่อยมาก แต่ก็มีข้อจำกัด เช่น
sample size เล็ก
coefficient ใหญ่มาก
ข้อมูล sparse
ในสถานการณ์เหล่านี้ นักสถิติบางคนแนะนำให้ใช้
Likelihood Ratio Test (LRT)
ซึ่งมีความเสถียรกว่า
สรุป
Wald test เป็นเครื่องมือทางสถิติที่ใช้ทดสอบว่า ค่าสัมประสิทธิ์ของตัวแปรใน regression model แตกต่างจากศูนย์หรือไม่
จุดสำคัญคือ
regression จะ ประมาณค่าตัวแปรทั้งหมดพร้อมกัน
Wald test จะทดสอบ effect ของตัวแปรหนึ่งหลังจากปรับตัวแปรอื่นแล้ว
p-value ใน regression จึงเป็น conditional inference
ดังนั้นการตีความ P-value ของตัวแปรใน regression ไม่ได้หมายความว่าเรามองตัวแปรนั้นแบบแยกเดี่ยว แต่หมายถึง
ตัวแปรนั้นยังมีผลต่อ outcome หลังจากควบคุมตัวแปรอื่นในโมเดลแล้ว
ความคิดเห็น