본문 바로가기

계량경제학/인과추론의 데이터과학

인과추론을 위한 회귀분석 - Discrete Variable

https://www.notion.so/Regression-263a1a5f472c49189a8e7ceb6d8f623d

 

해당 내용은 위 사이트를 참고하여 작성했습니다. 


Discrete Variable이 model에 포함되어 있을 때의 주의사항

  • $Y = \beta_0 + \beta_1X+\beta_2Z + \epsilon$에서 Z가 discrete variable(e.g. hair color: black, blonde, red) 일 때 $\beta_2$를 어떻게 해석해야 하는가?
  • discrete variable의 변수 변환을 어떻게 수행해야 하는가?
  • interaction variable을 어떻게 만드는가? 

(1) Binary Variable의 Coefficient를 해석하는 방법

$Sales = \beta_0 + \beta_1Winter+\epsilon$의 모델이 있다고 해보자.

  • $Winter$: 이진변수 (겨울 = 1 or not = 0)
  • $\beta_1$: $Winter$일 때 $Winter$이 아닐 때에 비해 평균적인 $Sales$의 차이
    • ($Winter = 1$일때 $Sales$의 평균) - ($Winter = 0$일 때 $Sales$의 평균)
  • $\beta_0$: 모든 변수가 0일 때 ($Winter = 0$일 때) 예상 $Sales$의 평균

$Sales = \beta_0 + \beta_1Winter+ \beta_2NotWinter + \epsilon$으로 모델을 설정하지 않는 이유

  • $\beta_0$과 $\beta_1$의 의미가 동일하기 때문
  • multicollinearity의 문제가 발생함: $Winter + NotWinter = 1$이라는 변수사이의 상관관계 (linear combination)가 발생함
    • OLS가 parameter를 추정할 수 없게 됨 - 가능한 $\beta_0$, $\beta_1$, $\beta_2$의 조합이 무한대

(2) Categorical Variable의 Coefficient를 해석하는 방법

  • n개의 category를 가진 categorical variables를 n-1개의 binary variable로 쪼개어 모델에 넣어야 함
  • $Income = \beta_0 + \beta_1Country + \epsilon$의 모델을
  • $Income = \beta_0 + \beta_1France + \beta_2Korea + \beta_3Japan + …$ 와 같이 수정한다.
  • 이 때 reference category는 변수에서 제거해야 함
    • 위에서 Winter과 NotWinter을 하나의 모델에 변수로 넣지 않았던 것처럼, 하나의 변수는 모델에 포함해서는 안됨
  • 변수 해석: This Category와 Reference Category의 평균적인 차이
    • reference category를 $NewZealand$로 설정, $\hat{\beta_1} = 3$ 일 때, $France$의 평균 $Income$은 $NewZealand$의 평균 $Income$ 비해 5만큼 높다고 해석함
    • $\beta_0$: 다른 변수값이 0일 때, 즉 reference category인 NewZealand의 평균 Income

Categorical Variable이 significant effect가 있는 지 검정하는 방법

  • individual coefficient를 보면 안됨 → 전체 categorical variables의 coefficient를 한번에 확인하기 위해 joint F test를 수행해야 함
    • Categorical variable이 모델이 포함되었을 때의 predictive power
    • vs Categorical variable이 모델에서 모두 제거되었을 때의 predictive power