본문 바로가기

계량경제학/인과추론의 데이터과학

Gauss-Markov Assumptions

Gauss-Markov Theorem이란? 

  • 회귀분석에서 Gauss-Markov Assumptions을 만족하면 Ordinary Least Squares로 추정한 coefficient가 BLUE(Best Linear Unbiased Estimator)를 만족한다. 
    • Ordinary Least Squares (OLS): Least Square Method라고도 불리며, 오차의 제곱의 합이 최소가 되는 회귀계수를 추정하는 방법 
    • BLUE(Best Linear Unbiased Estimator): 선형이고 불편성을 만족하는 추정량 중 BLUE 추정량의 분산이 가장 작음
  • 다시 말해서, Gauss-Markov Theorem은 회귀계수를 OLS로 추정할 때의 유효성을 보장함. Gauss-Markov Assumption이 만족되지 않을 때, OLS로 추정한 회귀계수가 부정확함 

Gauss-Markov Assumptions 

(1) Linearity

  • X와 Y는 선형성을 띈다. 

(2) Random Sampling 

  • X는 확률적이지 않고 모집단 내에서 무작위로 sampling 되어야 함 
  • X는 우리가 관측한 값으로, 실제로 알고 있는 값에 해당하여 오차가 없는 값 
  • 반면 Y는 오차를 수반하는 확률 변수(Random Variable)임 

(3) No-Collinearity 

  • X는 full rank으로, X(shape: n*k)를 이루는 컬럼들이 lineary independent 하다. 즉, 회귀변수끼리 큰 상관관계가 없어야 함.  

(4) Exogeneity 

  • Zero Conditional Mean Assumption이라고도 하며, error term은 X에 영향을 받지 않는다. 
  • E(ε|X) = 0 
  • -> E(ε_1),E(ε_2), ..., E(ε_n) = 0  
  • -> E(y|X) = E(βX + ε|X) = βX

(5) Homoskedasticity

  • X의 값에 상관 없이 error term의 분산은 등분산이다. 
  • Var(ε_i|X) = σ^2 (≠ σ_i^2)

(+) (4), (5)로부터 ε ~ N(0, σ^2)를 가정할 수 있음 

 

=> 위의 5가지 가정을 아래 3가지 식으로 다시 정리할 수 있다.

 

(1) E(e) = 0 
(2) Var(e_i) = Var(y_i) = σ^2

(3) cov(e_i, e_j) = cov(y_i, y_j) = 0

 


해당 글은 아래 링크를 참고하여 작성했습니다. 

https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=gdpresent&logNo=221138157186

https://web.stanford.edu/~mrosenfe/soc_meth_proj3/matrix_OLS_NYU_notes.pdf