이 글은 "행동 데이터 분석 - 플로랑 뷔송" 책의 Part1 - 행동의 이해 부분을을 참고하여 작성했습니다.
# 적절한 교란변수를 찾아보자
데이터 출처: https://github.com/BuissonFlorent/BehavioralDataAnalysis.git
가판대 데이터
- 컬럼 순서대로 아이스크림 매출, 아이스커피 매출, 여름 여부 (이진형 변수), 매장 내 평균 기온
- 아이스크림 매출에 영향을 주는 요인을 ols로 찾기 위함
(1) icecream_sales ~ temps
print(ols("icecream_sales ~ temps", data = stand_data).fit().summary())
- 아이스크림 판매량에 영향을 주는 요인이 오직 기온뿐이라고 가정할 때
- 기온이 1도 오를 때 아이스크림 판매량이 1171$만큼 증가함
- 기온이 0도일 때 아이스크림 판매량은 -6169$ 임 (말이 되지 않는 수치)
- 위 회귀식이 참이라고 가정했을 때, 기온과 아이스크림 판매량의 scatter plot과 회귀식을 적합한 plot이다. 온도가 올라갈 수록 회귀선과 실제 데이터 간 차이가 나는 것을 확인할 수 있다. -> 기온과 아이스크림 판매량 사이 교란 변수가 있을 수 있음
- x축: temps 변수의 10의자리 숫자를 나타낸 것 (temp 변수가 50 ~ 60 사이라면 5로 표기)
- y축: 동일 temp 내 아이스크림 평균 판매량
- hue: 여름 여부 (7,8월일 때 1, 나머지 달은 0)
- -> 동일한 온도일 때, summer_months = 1일 때가 0일 때에 비해 아이스크림 판매량이 높다. 온도가 똑같이 높더라도 여름철에는 방학이 있어서 아이스크림을 더 많이 사먹는다는 가정이 있음. 즉, 여름 여부가 교란 변수이다!
(2) icecream_sales ~ temps + summer_months
- 여름 여부가 아이스크림 판매량에 미치는 영향이 매우 큼 (coefficient가 19560으로 매우 큰 편)
- (1) 회귀식에 비해 R-squared가 약 0.07 증가함
# Berkson's Paradox
설문조사 데이터
- 컬럼 순서대로 바닐라맛 선호도, 초콜릿맛 선호도, 매장에서 구매 이력이 있는지 여부
왼쪽 plot
- 전체 데이터를 가지고 바닐라맛과 초콜릿 맛 간 scatter plot을 그린 경우
- 바닐라맛과 초콜릿맛 간 선호도에는 상관관계가 없음 (상관관계 = 0.0048)
오른쪽 plot
- 아이스크림 구매 이력이 있는 데이터만을 대상으로 scatter plot을 그린 경우
- 바닐라맛과 초콜릿맛 간 선호도는 음의 상관관계를 가짐 (상관관계 = -0.3937)
- 아이스크림을 산 이력이 있는 사람 중 바닐라맛을 싫어하는 사람은 초콜릿 맛을 좋아해서 구매했을 것이고, 초콜릿 맛을 싫어하는 사람은 바닐라 맛을 좋아해서 구매했을 것이다.
- 즉, 상관관계의 결과 그대로 "바닐라 맛을 좋아하는 사람은 초콜릿 맛을 싫어한다"는 결과를 낼 수 없음. 이 상관관계는 단순히 특정 데이터를 분석 대상에서 제외해서 생긴 허위 관계이고, 이를 Berkson's paradox, explain-away effect라고 한다
결론: 데이터 수집 방법에 따라 데이터에 편향이 생길 수 있음
'계량경제학 > 인과추론의 데이터과학' 카테고리의 다른 글
Research Design의 중요성 (0) | 2024.03.16 |
---|---|
행동 데이터 분석 - 인과관계 다이어그램 이해하기 (chain, fork, collider + cycle) (1) | 2024.01.07 |
Logistic Regression - Quasi Separation problem (1) | 2023.11.25 |
Matching 예시 (0) | 2023.11.21 |
인과추론의 다양한 접근법 (0) | 2023.11.21 |