인과추론을 위한 회귀분석

https://theeffectbook.net/ch-StatisticalAdjustment.html?panelset=python-code&panelset1=python-code2&panelset2=python-code3

해당 내용은 위 링크를 참고하여 작성했습니다.

상호작용항

:Y와 X의 관계가 X가 아닌 Z에 의해 변화한다면?

$Y = \beta_0 + \beta_1X + \beta_2Z + \beta_3XZ + \epsilon$

Y에 대한 X의 derivative: Y에 대한 X의 효과
- Y에 대한 X의 효과에는 X의 단일 효과는 포함되지 않음
- 주어진 Z 값에서 X의 효과를 파악해야 함
- e.g. Z = 0일 때 X의 효과: $\beta_1$, Z = 16일 때 X의 효과: $\beta_1+16\beta_3$
- → $\beta_1$을 “Y에 대한 X의 효과”라고 볼 수 없음

$\beta_3$(Z의 계수)에 대한 해석: Y에 대한 X의 derivative에서 확인할 수 있듯이 ($dY/dX = \beta_1 + \beta_3Z$), “Z가 한단계 변화할 때 Y에 대한 X의 효과가 얼마나 강력한 지”로 해석할 수 있음

Z가 이진변수일 때

$Y = \beta_0 + \beta_1X + \beta_2Child + \beta_3XChild + \epsilon$

$Child$: binary variable
Y에 대한 X의 효과 = $\beta_1 + \beta_3Child$
- $Child = 0 → \beta_1$
- $Child = 1 → \beta_1 + \beta_3$
- $\beta_3$: $Child$ 여부에 따른 Y에 대한 X의 효과의 차이. 즉, “NonChild에 비해 Child일 때 Y에 대한 X의 효과가 얼마나 강력한 지”로 해석 가능 → NonChild와 Child 사이의 Y에 대한 X의 효과

model 1: Inspection Score = Number of Locations + Weekend + Year of Inspection
model 2: Inspection Score = Number of Locations + Weekend + Year of Inspection + Number of Locations * Year of Inspection
model 3: Inspection Score = Number of Locations + Weekend + Year of I nspection +Number of Locations * Weekend

모델 해석

model 2
- Number of Locations: Inspection of Year = 2008일 때 Number of Location이 1단위 늘어나면 Inspection Score이 -1.466 + 0.001 * 2008 = 0.542만큼 평균적으로 상승함.
- Number of Locations의 coefficient는 -1.466으로 음수이지만, 결과적으로는 Y에 대해 양의 상관관계를 가진다.
model 3
- non-weekend일 때 Number of Location이 1단위 늘어나면 Inspection Score이 -0.019만큼 평균적으로 감소함
- weekend일 때 Number of Location이 1단위 늘어나면 Inspection Score이 -0.019 - 0.010 = -0.029만큼 평균적으로 감소함

(1) 상호작용항을 왜 사용하려는지 목적을 분명히 하라
- 상호작용항을 추가했을 때 유의미한 결과가 나오더라도, 그건 subgroup에게만 해당되는 내용일 수도 있음. 그리고 그 subgroup은 아주 specific 할 수 있기에, 데이터를 면밀히 확인하기 전에 상호작용항을 추가하는 것은 좋지 못한 선택임.
(2) 상호작용항이 생기면 그렇지 않을 때에 비해 (통계적 검정력을 갖기 위한) 데이터가 훨씬 많이 필요함
- 상호작용항의 유의성이 단순히 sampling variation 때문일 수도 있음

인과추론을 위한 회귀분석 - Standard Error을 어떻게 고치면 되는가? (1)	2022.09.25
인과추론을 위한 회귀분석 - Standard Error의 정의와 가정 (1)	2022.09.25
인과추론을 위한 회귀분석 - 변수 변환 (1)	2022.09.21
인과추론을 위한 회귀분석 - Polynomials (1)	2022.09.21
인과추론을 위한 회귀분석 - Discrete Variable (2)	2022.09.21