대조군 설정이 불가능한 상황에서 마케팅(처치)에 대한 성과 측정 - 마케팅 전체 성과 측정
WHY?
최근 데이터를 근거로한 디지털 마케팅 시장이 커짐에 따라 광고와 같은 마케팅 처치가 기업에 얼만큼의 이익을 가져다주는지 정량화하기 위한 움직임이 커지고 있습니다. 저희 팀에서는 이러한 경우 보통 RCT를 기반으로 한 A/B test를 이용하고 있었습니다.
본래 마케팅 효과를 측정하기 위해서는 동일 고객에 대해서 마케팅 캠페인에 노출 되었을 경우와 그렇지 않을 경우의 구매력 차이를 “인과 효과”라고 부르며 이를 측정해야 합니다. 하지만, 현실에서는 이러한 상황이 불가능합니다. 영화적 표현을 빌린다면 현재 세계의 고객 A에게는 마케팅을 진행하고 다른 평행 세계의 고객 A에게는 마케팅을 진행하지 않은 후, 이 둘의 구매 차이를 관찰하는 것 입니다.
이 때 이용하는 것이 A/B 테스트 입니다. 고객 A와 거의 모든 것이 유사한 고객 B가 있다면, 이 둘을 같은 고객이라고 가정한 후에 A에게는 마케팅을 진행하고 B에게는 마케팅을 진행하지 않은 후 둘의 구매력 차이를 관찰하는 것 입니다. 이 때, 마케팅에 노출되는 고객 A를 타겟군, 노출되지 않는 고객 B를 대조군이라고 부르게 됩니다.
하지만 현실에서는 대조군 설정이 불가능하여 A/B test가 불가능한 경우가 존재합니다. 아래는 그 예시 입니다.
- 불특정 다수에게 광고를 집행하는 매체인 경우
- 성과 달성을 위해 특정 고객에게 마케팅을 집행하지 않는 것이 어려운 경우
- 타겟군과 대조군의 동질성을 보장하기 어려운 경우
이러한 문제를 해결하기 위한 여러가지 방법이 있는데 저희 팀에서 선택한 방법은 인과 효과 모형을 사용한 방법이었습니다.
Concept Summary
인과 효과 모형을 이용한 성과 측정의 아이디어 자체는 정말 간단합니다. 핵심은 다음과 같습니다.
마케팅에 노출되지 않았을 때의 구매를 예측하여 대조군으로 이용하는 것
이를 위해서는 성과라고 인정할만한 KPI 지표에 대한 시계열 예측이 필요합니다. 또한, 단순히 시계열 예측만이 아니라 결과를 인과적(Causation, not Correlation)으로 해석할 수 있는 것도 중요합니다. 다행히도 2015년 구글에서는 이러한 상황에서 이용할 수 있는 모델인 Causal Impact를 공개하였고 이를 이용하기로 하였습니다.
What is Causal-Impact?
Causal-Impact 모형은 Bayesian Structured Time-series Model입니다. 즉, 예측해야하는 시계열 종속 변수 Y를 수학적인 구조식으로 각각의 component를 정의하고, 이를 Bayesian 추론을 통해 적합하는 방법입니다. KH Brodersen(2015)에 따르면 해당 모형에서 구조화한 부분은 크게 세 가지 부분입니다.
- Local Linear Trend
- Seasonality
- Contemporaneous coefficient
component들을 정의하고 난 후에는 MCMC를 이용하여 적합을 진행합니다. 이 페이지에서 수식적인 부분은 설명하지 않겠지만 논문에 아주 자세하고 친절한 설명이 나와있으니 참고해보시면 큰 도움이 될 것입니다.
Select Instrumental Variable
인과 추론에서 가장 핵심적인 부분이면서도 가장 어려운 부분입니다. RCT와 Quasi Experiment가 불가능한 상황에서 인과 효과를 추정하기 위해 사용할 수 있는 것은 Regression 방법 밖에 남지 않게 되고, 이 방법에서 인과 효과라고 주장을 하기 위해서는 올바른 도구 변수(Instrumental Variable)를 선정하는 것으로 Back-door Path를 제거해야 하는 것이 필수입니다.
좋은 도구 변수를 선정하기 위해서 해당 분야의 대가분들이 게재한 Swanson, S.A. and Herman, M.A(2013)에 아래와 같은 규칙을 제시되어 있습니다.
하지만 해당 규칙이 절대적인 기준이 될 수 없는 이유는 step1.에서 언급한 Stock-Yogo나,Sargan-Hansen J와 같은 통계적 검정은 인과 추론을 위한 가정 일부분을 검정해줄 뿐, 그 자체로 도구 변수를 선택할 수 있는 기준이 되지는 못합니다.
또한, Step2.에서 도메인 지식에 의한 검증을 강조하고 있기 때문에 도구 변수라는 것은 연구자와 도메인 지식을 갖고 있는 사람과의 협의가 중요하다는 사실을 알 수 있습니다.
해당 프로젝트를 진행하면서 가장 어려웠던 점은 이론적인 부분을 모두 세세하게 만족시키면서 설정한 KPI 변수를 충분히 설명할 수 있는 도구 변수들을 찾는 것이었습니다. 현재까지도 현실의 조건에 어느 정도까지 타협할 수 있는 것인지에 대한 부분은 아직 고민거리로 남아 있습니다.
Case Study
도구 변수의 선정
넥슨에서 서비스하고 있는 MMORPG 서비스 중 하나를 선택하여 광고가 복귀 유저의 변화에 미치는 영향에 대해 분석을 진행하였습니다. 통제 변수와 충돌 변수들을 고려하면서 복귀 유저의 변화를 최대한 설명할 수 있는 도구 변수들을 선택했고 이에 대한 Causal Diagram은 다음과 같습니다.
우선 복귀 유저의 변화에 영향을 미치면서 설명력이 충분히 높은 변수들을 통제 변수로 설정하였습니다.
도구 변수에서 첫 번째로 신경을 많이 쓴 부분은 이벤트 발생에 대한 효과를 통제하는 것이었습니다. 서비스 운영 팀에서는 방학이나 연휴 등의 시즌에 맞추어 유저들의 복귀를 위한 이벤트를 진행하고, 해당 이벤트의 보상으로 인해 유저들이 복귀하게 됩니다. 이러한 변수를 넣지 않는다면 이벤트에 대한 효과까지 모두 광고의 효과로 잡힐 수 있기 때문에 이벤트 효과를 통제하는 것이 무엇보다 중요한 문제였습니다. 이를 위해서 이벤트 기간 동안 이벤트 아이템의 변화를 나타낼 수 있는 변수를 만들어서 통제 변수로 이용하였습니다.
두 번째는 서비스 내의 변동과는 관련이 없이 전체 산업의 전반적인 추세를 반영할 수 있는 control 변수를 선정하였습니다.
새 번째는 광고에는 영향을 받지만 이벤트에는 영향을 받지 않는 변수였습니다.
결과
구글이 제공한 패키지를 이용하면 위의 세 가지 그래프를 제공해줍니다.
첫 번째 그래프는 세로 점선으로 처치에 대한 시점이 표현이 되며 실선으로 실제 Y값이, 가로 점선으로 예측값이 표현이 됩니다. 두 번째 그래프는 Y - Predicted의 값을 표현해 줍니다. 세 번째 그래프는 처치 이후의 실제값과 예측값을 누적으로 표현해 줍니다.
이를 바탕으로 그래프를 살펴보면 처치 즉, 광고 전에는 예측값이 실제 복귀 유저 수의 추이를 어느정도 잘 따라가다가 광고 이후 차이가 약간 벌어지게 되는데, 하향 추세를 보이고 있던 복귀 유저 수가 광고로 인해 하락 기울기를 상쇄한 것으로 보입니다.
두 번째 그래프를 보면 광고 전에는 실제값과 예측값의 차이가 0근처에서 머물고 있다가 광고 이후 점차 증가하고 있는 것을 확인할 수 있으며 세 번째 그래프는 이를 누적하여 표현해주고 있습니다.
위의 결과는 모형 적합의 결과를 수치적으로 나타내주고 있습니다. 실제값과 예측값의 전체 차이는 약 800정도 되며 95%의 신용 구간이 약 400 ~ 1240으로 확인되고 있습니다. 예측에 대한 오차는 약 5%이고 사후 분포의 끝 부분이 상당히 작은 것으로 보아 통계적인 유의성도 확보하고 있음을 확인할 수 있습니다.
한계점
특정 서비스의 이벤트에 대한 광고는 다양한 팀에서 다양한 매체를 통해 집행되게 됩니다. 즉, 위에 제시한 결과는 이러한 다양한 마케팅 활동들이 모두 합쳐서 나타난 효과입니다. 하지만 저희 팀에서 집행한 광고에 대한 성과를 평가해야 할 니즈가 있었고, 또한 저희 팀에서도 다양한 매체를 이용하여 광고를 집행하기 떄문에 Causal-Impact 모형을 사용해서 이러한 요구들을 모두 총족시키는 것은 거의 불가능하다고 생각하였습니다.
여러 마케팅 수단과 특정 광고 매체의 성과는 Media Mix Modeling(MMM)을 이용하면 해결할 수 있을 것이라 생각하였습니다. 따라서, 전반적인 마케팅에 대한 성과는 Causal-Impact를 비롯한 인과 효과 추정 모델을 이용하고 개별 종목에 대한 평가는 MMM을 통해 진행하려는 계획을 세웠습니다.
다음 포스팅에서는 위의 문제를 해결하기 위한 MMM에 대한 간단한 설명과 실제로 어떻게 실무에 적용하여 문제를 해결했는지 다루어보도록 하겠습니다.