본문 바로가기

계량경제학/인과추론의 데이터과학

행동 데이터 분석 - 인과관계 다이어그램 이해하기 (chain, fork, collider + cycle)

이 글은 "행동 데이터 분석 - 플로랑 뷔송" 책의 Part2- 인과관계 다이어그램과 교란 해소 부분을을 참고하여 작성했습니다.

 

그 외 같이 보면 좋은 내용: https://hul980.tistory.com/121

이전에 "인과추론을 위한 데이터과학" 유튜브를 참고하여 Casual Diagram에 대해 정리한 내용 

 

Causal Diagram

아래 동영상을 참고하여 작성했습니다. https://www.youtube.com/watch?v=ZAdr7TB1bF4 https://www.youtube.com/watch?v=nMweRDcooXI https://www.youtube.com/watch?v=rbZ4ebZCHMY 인과 그래프(Casual Diagram) Directed Acyclic Graph (DAG) 구성

hul980.tistory.com


몇가지 예외를 존재하면 상관관계는 인과관계를 의미한다. 두 변수 사이의 체계적인 관계를 관찰하고 그 관계가 우연의 일치때문에 생길 가능성을 배제한다면 이 관계를 유발하는 요인이 반드시 존재해야 한다. 단순한 상관관계는 해결되지 않은 인과관계를 나타낸다. -빌 쉬플리-

 

# Causal Diagram 요약

keyword: # chain (mediator) # fork (confounder) # collider (immorality) 

Causal Diagram에는 chain, fork, collider의 세가지 기본 구조가 있으며, 모든 Diagram은 이 기본 구조의 조합으로 이루어진다. 

Chain Fork Collider

 

# (1) Chain

지난 게시물의 아이스크림 가판대 예제를 다시 생각해보자. 

기온이 높아져서 아이스 커피 매출이 증가하고, 도넛 매출이 증가하는 상황. 아이스 커피가 매진되어 재고가 생길 때 까지 기온의 변화가 도넛 매출에 영향을 주지 않는다면 위와 같은 chain 형태라고 유추할 수 있음

(위 인과 그래프가 참이라는 가정 하에) 인과 그래프를 따르지 않는 경우는 어떻게 해석하면 좋을까?: 기온이 상승했지만 도넛 매출은 증가하지 않았을 때

  • 기온이 상승했으나 아이스 커피 매출은 상승하지 않은 경우 - 매장 내 에어컨을 틀어서 외부 기온은 높으나 매장 내 온도가 낮아져서, 첫번째 화살표가 약해진 경우 
  • 아이스커피 매출이 상승했으나 도넛 매출이 상승하지 않은 경우 - 쿠키 신제품이 나와서 두번째 화살표가 약해진 경우 

 

chain 형태 그래프는 보고자 하는 인사이트에 따라 중간의 사슬을 생략하거나 추가하는 사슬의 축소(collapsing) 또는 확장(expanding)이 가능함

 

# Fork

두 변수 사이에 직접적인 인과관계는 없지만, 두 변수 사이의 상관 관계가 있는 경우는 위와 같이 fork 형태로 표현한다. 아이스 커피 매출과 아이스크림 매출은 '기온'이라는 공통 요인 (confounder)를 가지고 있다. 

공통 요인을 알 수 없을 땐 오른쪽 다이어그램처럼 양방향 화살표로 표시함

양방향 화살표의 해석 (A <-> B)

  • A -> B 이거나 B -> A이다 
  • A와 B가 공통 요인 (confounder)를 공유하지만 어떤 것인지 알 수 없는 경우이다 

fork는 여러 인구 통계학적 변수를 다룰 때 용이하다! 

  • 나이, 성별, 거주지 등은 서로 직접적인 인과관계가 없으나, 동일한 인과 관계를 가짐
  • 나이와 성별을 인구통계학적 특성으로 집계(aggregating: 다이어그램 변환방법)하여 다이어그램을 단순화 할 수 있음 

fork(confounder)는 control 해야 한다

# Collider

2개 이상의 변수가 동일한 결과를 낳을 때 

 

Collider은 control 하지 않아야 한다

 

# Cycle (순환 관계)

서로가 서로에게 인과적으로 영향을 미치는 경우 

cycle의 원인 

(1) 대체 효과 (substitution effect) 

  • ex. 출근할 때 버스, 지하철의 선택지가 있는데 버스 요금만 상승하면 대체제로 지하철을 타게 됨 
  • 두 변수 간 음의 관계를 가진다는 특성이 있음 

(2) 피드백 루프 (feedback loop)

사람이 환경의 변화에 반응하여 행동을 수정하게 되는 경우 

=> 시간에 대한 차원을 추가하여 cycle을 끊을 수 있음