https://www.notion.so/Regression-263a1a5f472c49189a8e7ceb6d8f623d
해당 내용은 위 사이트를 참고하여 작성했습니다.
Discrete Variable이 model에 포함되어 있을 때의 주의사항
- $Y = \beta_0 + \beta_1X+\beta_2Z + \epsilon$에서 Z가 discrete variable(e.g. hair color: black, blonde, red) 일 때 $\beta_2$를 어떻게 해석해야 하는가?
- discrete variable의 변수 변환을 어떻게 수행해야 하는가?
- interaction variable을 어떻게 만드는가?
(1) Binary Variable의 Coefficient를 해석하는 방법
$Sales = \beta_0 + \beta_1Winter+\epsilon$의 모델이 있다고 해보자.
- $Winter$: 이진변수 (겨울 = 1 or not = 0)
- $\beta_1$: $Winter$일 때 $Winter$이 아닐 때에 비해 평균적인 $Sales$의 차이
- ($Winter = 1$일때 $Sales$의 평균) - ($Winter = 0$일 때 $Sales$의 평균)
- $\beta_0$: 모든 변수가 0일 때 ($Winter = 0$일 때) 예상 $Sales$의 평균
$Sales = \beta_0 + \beta_1Winter+ \beta_2NotWinter + \epsilon$으로 모델을 설정하지 않는 이유
- $\beta_0$과 $\beta_1$의 의미가 동일하기 때문
- multicollinearity의 문제가 발생함: $Winter + NotWinter = 1$이라는 변수사이의 상관관계 (linear combination)가 발생함
- OLS가 parameter를 추정할 수 없게 됨 - 가능한 $\beta_0$, $\beta_1$, $\beta_2$의 조합이 무한대
(2) Categorical Variable의 Coefficient를 해석하는 방법
- n개의 category를 가진 categorical variables를 n-1개의 binary variable로 쪼개어 모델에 넣어야 함
- $Income = \beta_0 + \beta_1Country + \epsilon$의 모델을
- $Income = \beta_0 + \beta_1France + \beta_2Korea + \beta_3Japan + …$ 와 같이 수정한다.
- 이 때 reference category는 변수에서 제거해야 함
- 위에서 Winter과 NotWinter을 하나의 모델에 변수로 넣지 않았던 것처럼, 하나의 변수는 모델에 포함해서는 안됨
- 변수 해석: This Category와 Reference Category의 평균적인 차이
- reference category를 $NewZealand$로 설정, $\hat{\beta_1} = 3$ 일 때, $France$의 평균 $Income$은 $NewZealand$의 평균 $Income$ 비해 5만큼 높다고 해석함
- $\beta_0$: 다른 변수값이 0일 때, 즉 reference category인 NewZealand의 평균 Income
Categorical Variable이 significant effect가 있는 지 검정하는 방법
- individual coefficient를 보면 안됨 → 전체 categorical variables의 coefficient를 한번에 확인하기 위해 joint F test를 수행해야 함
- Categorical variable이 모델이 포함되었을 때의 predictive power
- vs Categorical variable이 모델에서 모두 제거되었을 때의 predictive power
'계량경제학 > 인과추론의 데이터과학' 카테고리의 다른 글
인과추론을 위한 회귀분석 - 변수 변환 (1) | 2022.09.21 |
---|---|
인과추론을 위한 회귀분석 - Polynomials (1) | 2022.09.21 |
인과추론을 위한 회귀분석 - 회귀분석의 개요 (0) | 2022.09.21 |
Causal Diagram (1) | 2022.07.30 |
Instrumental Variable, Control Variable, Selection Model (0) | 2022.07.30 |