← All posts

ทำไม Regression จึงใช้ Wald Test และ P-value ของตัวแปรหมายความว่าอะไร

Clinical Epidemiology ResearchData Analytics or Statistics
ทำไม Regression จึงใช้ Wald Test และ P-value ของตัวแปรหมายความว่าอะไร

บทนำ

เวลานักวิจัยอ่านผลลัพธ์จาก regression model เช่น logistic regression หรือ Cox regression เรามักจะเห็นตารางแบบนี้

Variable Coefficient SE P-value
Smoking 1.25 0.32 0.001
Age 0.04 0.01 0.003
Sex 0.20 0.27 0.42

คำถามที่มักเกิดขึ้นคือ

P-value เหล่านี้มาจากอะไร และมันหมายความว่าเรากำลัง "ทดสอบตัวแปรทีละตัวโดยไม่สนใจตัวอื่นหรือไม่"

คำตอบคือ ไม่ใช่

P-value เหล่านี้มาจาก Wald test ซึ่งเป็นการทดสอบว่า ค่าสัมประสิทธิ์ (coefficient) ของตัวแปรในสมการ regression แตกต่างจากศูนย์หรือไม่ หลังจากที่โมเดลได้ปรับตัวแปรอื่นทั้งหมดแล้ว


โครงสร้างพื้นฐานของ Regression Model

สมมติเราศึกษาความสัมพันธ์ระหว่างการสูบบุหรี่กับมะเร็งปอด โดยใช้ logistic regression

logit(P(Y=1))=β0+β1Smoking+β2Age+β3Sex

โดยที่

เมื่อ software ทำการประมาณค่า (estimation) โมเดลนี้ มันจะ คำนวณค่า β ทุกตัวพร้อมกัน

กล่าวคือ

β1^,β2^,β3^

ถูกคำนวณจาก สมการเดียวกัน

ดังนั้น

β1^

ไม่ได้หมายถึง

ผลของ smoking ต่อ outcome แบบดิบ

แต่หมายถึง

ผลของ smoking ต่อ outcome หลังจากปรับ age และ sex แล้ว

นี่คือสิ่งที่เรียกว่า adjusted effect


Wald Test คืออะไร

หลังจากโมเดลประมาณค่า coefficient แล้ว เราต้องการทดสอบสมมติฐานว่า

H0:β=0

กล่าวคือ

ตัวแปรนี้ไม่มีผลต่อ outcome

Wald test ใช้สูตร

W=β^SE(β^)

โดยที่

ค่าที่ได้จะถูกนำไปคำนวณ p-value

ซึ่งบอกว่า

หลักฐานทางสถิติมีมากพอที่จะปฏิเสธสมมติฐานว่า coefficient = 0 หรือไม่


การตีความ P-value ใน Regression

ถ้าในตาราง regression เราเห็น

Variable P-value
Smoking 0.001

ความหมายที่ถูกต้องคือ

หลังจากปรับ age และ sex แล้ว การสูบบุหรี่ยังมีความสัมพันธ์กับมะเร็งปอดอย่างมีนัยสำคัญทางสถิติ

ดังนั้น Wald test ไม่ได้ทดสอบ

Smoking vs outcome

แต่ทดสอบ

Smoking vs outcome | age, sex

เครื่องหมาย | หมายถึง conditional on หรือ "ภายใต้เงื่อนไขว่าตัวแปรอื่นอยู่ในโมเดล"


Wald Test ทดสอบตัวแปรทีละตัวหรือทั้งหมด

โดยทั่วไป software จะรายงาน

partial Wald test

ซึ่งทดสอบสมมติฐาน

H0:β1=0
H0:β2=0
H0:β3=0

แยกกันทีละตัว

แต่ในบางกรณีเราสามารถทดสอบหลายตัวพร้อมกันได้ เช่น

H0:β2=β3=0

ซึ่งเรียกว่า joint Wald test


Wald Test ต่างจาก t-test และ Chi-square test อย่างไร

t-test และ Chi-square test มักใช้ในสถานการณ์ที่ง่ายกว่า เช่น

คำถามวิจัย Test
เปรียบเทียบค่าเฉลี่ยระหว่าง 2 กลุ่ม t-test
เปรียบเทียบสัดส่วนระหว่างกลุ่ม Chi-square test

แต่เมื่อเราใช้ regression model

เรากำลังประมาณค่า พารามิเตอร์ของสมการ

ดังนั้นจึงใช้

Wald test

เพื่อทดสอบ coefficient ของสมการ


ความจริงที่น่าสนใจ: หลาย Test เป็นเพียงกรณีพิเศษของ Regression

ในทางคณิตศาสตร์

หลาย test ที่เราคุ้นเคยสามารถเขียนเป็น regression ได้ เช่น

t-test

เทียบเท่ากับ

Y=β0+β1Group

Chi-square test

เทียบเท่ากับ

logit(P(Y))=β0+β1Group

ดังนั้นใน regression

Wald test จึงกลายเป็นเครื่องมือมาตรฐานในการทดสอบ coefficient


ข้อควรระวังในการใช้ Wald Test

แม้ Wald test จะถูกใช้บ่อยมาก แต่ก็มีข้อจำกัด เช่น

ในสถานการณ์เหล่านี้ นักสถิติบางคนแนะนำให้ใช้

Likelihood Ratio Test (LRT)

ซึ่งมีความเสถียรกว่า


สรุป

Wald test เป็นเครื่องมือทางสถิติที่ใช้ทดสอบว่า ค่าสัมประสิทธิ์ของตัวแปรใน regression model แตกต่างจากศูนย์หรือไม่

จุดสำคัญคือ

ดังนั้นการตีความ P-value ของตัวแปรใน regression ไม่ได้หมายความว่าเรามองตัวแปรนั้นแบบแยกเดี่ยว แต่หมายถึง

ตัวแปรนั้นยังมีผลต่อ outcome หลังจากควบคุมตัวแปรอื่นในโมเดลแล้ว