본문 바로가기

계량경제학/인과추론의 데이터과학

[Canonical DID 논문 읽기] Converting Pirates Without Cannibalizing Purchasers

Converting Pirates Without Cannibalizing Purchasers: The Impact of Digital Distribution on Physical Sales and Internet Piracy

논문 링크: https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=d824238f8331c9cf4691e45c80134b3bbf46b83a

Abstract

문제 상황

  • 2007년 12월에 Apple의 Itunes 스토어에서 NBC 컨텐츠가 제거된 뒤 2008년 9월에 복원됨

분석 주제 

  • 이 시간 동안 NBC의 컨텐츠가 디지털 불법 복제 채널에서의 수요가 어떻게 변하는가?
  • (더 일반적인 주제로 나아간다면) 디지털 채널을 통한 미디어의 배급이 불법 디지털 채널의 영향력을 어떻게 변화시키는가?
  • -> 해당 기간동안 NBC 컨텐츠의 BitTorrent (불법) 채널, Amazon DVD 스토어 (합법) 각각에서의 수요를 분석함 

분석 방법

  • NBC 컨텐츠를 Treatment group으로, non-NBC (ABC, CBS, Fox 등 ITunes에서 컨텐츠를 계속 제공하는 네트워크) 컨텐츠를 Control group으로 하여 불법 채널과 합법 채널에서의 컨텐츠 수요 수준의 effect 차이를 DID으로 분석함 

분석 결과 

  • 2007년 12월에 NBC 컨텐츠가 Itunes에서 제거된 뒤 불법 채널에서 NBC 컨텐츠의 수요가 11.4% 증가함 
  • 불법 사이트에서 NBC 하루 평균 다운로드가 48,000건 증가함 (이는 동일한 컨텐츠에 대한 ITunes에서의 하루 평균 다운로드 수의 2배에 달함)
  • 2008년 9월에 ITunes 스토어에서 NBC 컨텐츠가 복원되었을 때 동일한 컨텐츠의 불법 다운로드 수가 미미하게 감소함  
  • non-NBC 채널에서는 불법 다운로드 수에 차이가 없었음 

piracy data

BitTorrent 일일 다운로드 수 

= 불법 복제에 대한 proxy (가장 인기 많은 불법 복제 다운로드 소스였기 때문) 

ABC, CBS, Fox 등 다른 주요 텔레비전 네트워크의 텔레비전 프로그램에 대한 불법 복제를 Contorl group으로 분석 

 NBC 콘텐츠 제거 효과를 가장 잘 분리하기 위해 2007년 12월 1일 전후 2주(및 2008년 9월 9일 전후 2주) 기간에 초점을 맞췄습니다. (2007년 12월에 Apple의 Itunes 스토어에서 NBC 컨텐츠가 제거된 뒤 2008년 9월에 복원됨) 

 12월 1일 이후 NBC 콘텐츠의 불법 복제 변화를 비 NBC 콘텐츠의 불법 복제 변화와 비교

 

 

DVD Sales Data

 DVD 판매에 미치는 영향을 분석하기 위해 동일한 기간(2008년 11월 18일~12월 15일) 동안 Amazon.com에서 DVD 시즌 박스 세트 판매 순위에 대한 패널 데이터를 사용함 

4.3. Summary Statistics

 

  • Treatment 시점 (ITunes에서 NBC 컨텐츠가 제외된 시점) 전후의 NBC network와 non-NBC network의 데이터 통계량을 비교함
  • 불법 사이트에서 해당 network 컨텐츠의 다운로드 수, 다운로드 된 에피소드의 수를 비교했을 때 두 통계량 모두 NBC networks에서 더 많이 증가함
  • but.. 통계량으로 결과 해석 시 한계점이 있음
  • 중요한 에피소드 수준의 이질성을 통제하지 못하며 디지털 배포와 불법 복제 간의 실제 관계에 대한 적절한 모델을 반영하지 않기 때문에 부분적인 이야기만 전달할 뿐임 

 

Analysis

DID 분석 모델 

  • NBCi: 에피소드 i가 NBC에서 방송되는지 여부 (0 또는 1) 
  • Dt: 각 날짜(11월 15일부터 12월 24일까지 데이터의 첫 번째 날짜)에 대한 fixed effect 
  • αi: 에피소드에 대한 fixed effect 
  • Downloads_it: t 시점에 에피소드 i의 불법 복제된 다운로드의 총 수 (종속변수) 
  • γt: t 시점에 NBC 불법 복제 수와 NBC 불법 복제 수의 차이 
    • Dt가 동일하고 NBC_i가 달라질 때 종속효과의 차이로, NBC와 non-NBC의 downlods 차이라고 할 수 있음 

t를 고정했을 때 모형 = Canonical DID with TWFE 

  • Canonical DID with TWFE에서 정의한 아래 식과 본질적으로 동일한 식이다!

참고: Canonical DID with TWFE

 

regression 적합을 위한 수식 변형 

해석의 용이성을 위해 식을 아래와 같이 변형한다고 해보자 

regression 적합이 가능하도록 변형한 수식은 아래와 같다. 

 

Parallel trend assumption 확인 

pre-treatment 시점에 γt = 0 이라면 non-NBC episode가 NBC episode의 적절한 control group임 

  • γt: t 시점에 NBC 불법 복제 수와 NBC 불법 복제 수의 차이 
  • -> 11월 15일부터 11월 30일까지 (pre-treatment 시점) 모든 t에 대해 γt = 0인지 테스트

x축: 날짜, y축: log(downloads_it)

 

Wald test으로 통계 검정 

  • 모든 pre-treatment 시점 (11월 18일 ~ 11월 30일) 에서 γt = 0임을 검증 -> 유의수준 5, 10, 20% 하에서 참 
  • 모든 post-treatment 시점 (12월 1일 ~ 12월 15일)에서 γt != 0임을 검증 -> 유의수준 5, 10, 20% 하에서 참

+) 플랏을 통해서도 pre-treatment assumption이 만족하는 것을 확인함 

=> 결론: 디지털 배포 채널의 삭제는 piracy를 증가시킨다. 

 

종속 변수에 대한 log transformation

종속변수를 log 변환 했을 때의 장점 

  • download 데이터가 skew가 심하기 때문에 log 변환이 더 잘 fit 함  
  • treatment effect의 비선형성을 설명할 수 있음 

 

robust standard errors

series 내의 에피소드 다운로드가 서로 연관되어 있을 수 있음 (ex. Heroes 시즌1의 에피소드1의 불법 다운로드 수의 증가 ~ Heroes 시즌2의 에피소드 12의 불법 다운로드 수의 증가는 서로 상관관계가 있음) 

-> standard error를 series level에서 clustering 함 

regression 결과 해석 

 

모델 설명 

(i), (iii)의 모델
(ii), (iv)의 모델

모델 (i), (ii): 2007년 11월 18일 ~ 12월 15일 

모델 (iii), (iv): 2008년 11월 18일 ~ 12월 15일 

모델 해석 

(i), (ii): non-NBC 불법 복제는 5.8% 증가, NBC 불법 복제는 11.4% 더 증가함

-> 모델을 어떻게 뒀길래 이 해석이 따로 나와?? ;; γ에 대한 추정치는 하나만 나와야 하는게 아니야? 

(iii), (iv): γ<0이고 통계적으로 유의하지 않음. 즉, 이 시기에 NBC,non-NBC 불법 복제 수에 통계적인 차이가 없음 

-> 2007년에는 NBC 불법 복제 수 > non-NBC 불법 복제수 였지만, 2008년에는 그렇지 않음 (iTunes에서 NBC 컨텐츠의 삭제가 불법 다운로드 수와 인과관계가 있음의 추가 증거) 

 

Spillover Effect의 가능성

  • NBC 채널의 삭제가 non-NBC 채널의 불법 복제에 spillover effect (파급효과)를 일으켰을 수 있다 
  • (NBC 채널의 삭제로 NBC 채널의 컨텐츠를 불법 복제 하면서 non-NBC 채널의 컨텐츠까지 불법복제 했을 가능성이 있음)
  • -> non-NBC 채널의 불법 복제 수의 증가 (모델(i) 결과 5.8%)는 (일반적인 time trend) + (NBC 채널 컨텐츠를 불법복제 하면서 non-NBC 채널 컨텐츠까지 불법복제 하는 파급효과)
  • -> NBC 채널의 불법복제에 대한 효과가 과소평가 된 걸 수도 있음! (실제 효과는 5.8% 이상)