본문 바로가기

계량경제학/인과추론의 데이터과학

인과추론을 위한 회귀분석 - Measurement Error

해당 글은 아래 링크를 참고하여 작성했습니다.
https://theeffectbook.net/ch-StatisticalAdjustment.html?panelset5=python-code6&panelset6=python-code7&panelset7=python-code8&panelset8=python-code9#additional-regression-concerns


Measurement Error (Errors in Variables): 데이터를 잘못 측정한 경우

(1) Imprecision

  • 반올림을 해서 정보가 손실된 경우
  • 데이터의 실제 값을 다시 추정하기가 어려운 경우 등

(2) Proxy

  • Proxy: 실제로 원하는 변수가 없기 때문에 다른 변수 대신 사용되는 변수
  • 원하는 변수가 proxy 변수를 제대로 나타내지 못하는 경우에 Measurement Error가 발생함
  • e.g.) 랩탑 사용이 학생들의 수학 능력을 증대하는지 확인하고 싶을 때, '수학 능력' 대신 '수학 시험 점수'를 프록시 변수로 사용할 수 있음. 같은 수학 능력을 가진 학생들이 서로 다른 수학 시험 점수를 보일 때 measurement error가 있다고 할 수 있음
  • Measurement Error의 컨셉: model 안의 variable은 실제 잠재값 (X*)에 error term이 포함된 형태임
    • X: 변수
    • X*: latent variable, 잠재적인, 관측되지 않는 변수 

Measurement Error가 있을 때 나타날 수 있는 문제점

  • Measurement Error가 있을 때 추정치가 완전히 빗나갈 수 있기에 문제가 생김

(1) classical measurement error

: error term이 실제 값과 관련이 없는 경우

1) X에서 나타나는 경우 *

  • hat(b1)이 0에 가까워지는 경향이 생기기 때문에 shrink towards zero, attenutation이라고도 함
  • Y = b0 + b1X에서 X에 classical measurement error가 있을 때, hat(b1)이 0에 가까워질 수 있음 -> X가 Y에 영향을 미치는 정도(b1)가 0이라고 잘못 판단하는 오류

2) Y에서 나타나는 경우

  • R^2이 줄어듦 (R^2 = SSR / SST에서 SSR이 줄어들기 때문)
  • 하지만, coefficient에는 영향을 미치지 않아서 모델에 큰 영향을 미치지는 않고, noise는 회귀 모형의 error term에 흡수됨

(2) non-classical measurement error

: 오류가 실제 값과 관련이 있는 경우

1) categorical variable에서 나타나는 경우

  • e.g.) X*가 binary variable일 때 -> X도 binary variable임 
  • X = X* + error term
    • X* = 1: error term = 0 or -1
    • X* = 0: error term = 0 or 1
    • => X*와 error term이 서로 관련이 생김 

(2) continuous variable에서 나타나는 경우

  • e.g.) 세금 데이터로 소득을 측정하는 경우 
    • 세금을 덜 내기 위해 소득을 잘못 표시하는 사람들이 있는데, 이들은 대부분 현금 기반 사업임. 현금 기반 사업을 하는 사람들은 소득이 낮은 경향이 있음 
    • -> 고소득 기업보다 저소득 기업에서 더 많은 non-classical measurement error가 나타남 
    • -> error가 실제 값과 관련이 있음  
  • e.g.) 운동하는 시간을 변수로 넣어야 하는 경우 
    • 운동을 많이 하는 사람들보다 적게 하는 사람들에서 수치를 제대로 표기하지 않아, 운동을 적게하는 사람들에게서 더 많은 non-classical measurement error가 나타남 
  • non-classical measurement error는 (classical measurement error와 달리) hat(b)가 0 이외에도 예상할 수 없는 다른 값으로 튈 수 있기에 더 문제가 됨
  • non-classical measurement error는 (classical measurement error와 달리) X에서 나타날 때 뿐아니라 Y에서 나타날 때에도 문제가 됨