CodeStates_/[Essay]

프로덕트 오너 4주차

Jieon_ 2022. 10. 9. 23:46

효과적인 고객 경험 제공을 위한 가설 검증의 방법앞서 많은 이야기를 건너오면서 PO/PM이 가장 기억해야 할 것은 바로 '고객은 자신이 원하는 것을 바로 알아차리지 못한다.' 이다. 그러므로 PO/PM은 끊임없는 실험의 정신으로 서비스를 기획하고 실제 그 서비스가 효용성이 있는지를 파악해야 할 것이다.그렇다면 우리는 어떤 자료를 근거로 하여 우리가 기획한 '무언가'가 고객들에게 큰 감동을 주고, 더 나아가 우리 서비스에 대한 충성도를 높였다고 말을 할 수 있을까?기획자를 지망하는 사람들이라면 흔히 많이 들어봤을 테고, 또 앞으로도 무척 중요하게 여길 'A/B 테스트'를 통해 확인할 수 있을 것이다.그렇다면 A/B 테스트를 어떻게 준비할 수 있을까?가장 많이 테스트를 준비한다는 넷플릭스의 사례로 한번 알아보도록 하자.아무래도 요새 테크 블로그가 무척 잘 되어 있다보니, 넷플릭스의 테스 블로그에서 What is an A/B Test?라는 글로 기고가 된 것을 확인할 수 있었다. (참고)

 

What is an A/B Test?

This is the second post in a multi-part series on how Netflix uses A/B tests to inform decisions and continuously innovate on our products.

netflixtechblog.com

 

넷플릭스는 A/B Test를 하기에 앞서 먼저 무엇을 알아볼 것인지를 결정한다. 이 글에는 TV UI에서 모든 박스아트를 거꾸로 뒤집는 제품 경험이 고객들에게 어떤 영향을 끼치는지를 확인해보고자 한다.

위의 그림을 통해 넷플릿스가 어떤 것을 알아보려고 하는지 확인할 수 있는데, 아마 영화 또는 드라마를 알려주는 포스트를 위아래로 뒤집었을 때 고객들이 어떤 반응을 보이는지를 확인하려고 하는 듯 하다.

실험을 진행하기 위해서는 먼저 표본 집단이 필요하다. 즉, A그룹과 B그룹에게 각각의 Product A와 B를 보여주는 것이다. 이때 표본 집단은 어디에 치우쳐짐이 없어야 하기 때문에 일반적으로 무작위 할당을 사용하여 두 그룹으로 나눈다고 한다.

이때, 글의 내용에 따르면 원래 넷플릭스가 제공하고 있는 UI를 경험하는 그룹을 "control group", 그리고 새롭게 실험하고자 하는 그룹을 "treatment group"이라고 명한다고 한다.

그리고 이렇게 무작위로 나눈 집단에게 각각의 Product를 일정 기간 보여준 후 group A가 보여준 다양한 metrics와 group B의 값들을 비교한다. 

 

이때 측정항목에 대해 깊이 생각을 한다고 하는데, 제목을 클릭한 각 경험의 고객 비율을 측정하여 클릭률을 살펴본다고 한다. 특히, 회원들이 단순히 더 쉽게 읽기 위하여 Upside Down 프로덕트 경험에서 제목을 클릭할 수 있기 때문에 단순히 클릭률만으로만 판단하면 해당 새로운 UI의 성공 여부를 잘못 판단할 수도 있다고 한다. 이 경우에는 해당 영상을 보는 것과 비교하여 지속적으로 탐색하는 고객들의 비율을 계산해야 한다고 말한다.

이 실험을 지속하는데 있어 더더욱 중요한 것은 하나의 변수만을 제외하고서는 모든 것들을 일정하게 유지해야 한다는 점이다. 고객의 경험에 영향을 주는 요인은 굉장히 다양하기 때문에 만일 고객 유형군이 다른 고객들을 대상으로 Group A와 B를 나누게 되면 해당 가설 검증은 이후에 쓰기도 힘들 것이다. 그런 의미에서 Netflix에서는 무작위적인 그룹 할당임에도 멤버십의 평균 기간이나 콘텐츠 선호도, 기본 언어 선택 등 여러 측면에서 유사한 고객군으로만 A/B 테스트를 진행한다고 한다. 

그렇다면 한번 넷플릭스에서 제공해준 A/B의 경험에 대한 가상 데이터를 확인해보자. 이들은 16일부터 변화된 UI를 제공하는 테스트를 진행했다고 가정하였다. 먼저 테스트의 결과를 보기 이전에 잠시 가정을 해보면, 아무래도 포스트를 위아래로 뒤집어서 고객들에게 제공하는 것은 고객들이 바로 영상에 대한 제목 정보를 확인할 수 없기 때문에 그리 좋은 경험을 주지 못할 것이라 생각이 든다. 그러므로 데이터 상으로 오히려 더 저조해야 할 것이다.

하지만 넷플릭스에서 제공한 가상 데이터에 따르면 오히려 Upside down UI를 제공했을 때 비교적 더 좋은 경험 데이터가 쌓인 것을 확인할 수 있다. 그렇다면 정말 우리의 기존 지식과는 다르게 Upside down이 더 좋은 경험을 제공하는 것일까?

여기에서 PO/PM이라면 또 생각해야 할 점이 있다. 바로 그 외에 다른 이벤트 적인 측면에서 변화가 생기지 않았는가? 이다.

넷플릭스의 사례로 들자면, 16일에 굉장히 인기있는 드라마 시리즈인 Briderton의 새 시즌과 같은 히트작이나 Army of the Dead와 같은 히트 영화를 출시했다면 어떨까? 그렇다면 저 데이터는 정말 Product B의 프로덕트 경험이 제공한 상승 효과라고 말을 할 수 있을까?답은 알 수 없다. 이다. 실제로 Upside down UI가 저렇게 좋은 경험 데이터를 제공했을 수도 있다. 하지만 Product B는 오히려 나쁜 영향을 주었지만, 새로운 히트작이 개봉됨으로써 좋은 데이터가 나왔을 수도 있다. 아니면 둘 다 일수도 있는 것이다. PO/PM이라면 이런 상황들을 모두 가정해야 한다. 진실로 고객들에게 좋은 경험을 제공하기 위해서라면 이에 영향을 줄 수 있는 어떤 한 가지의 단서라도 그냥 넘어가는 안된다는 것이다.실제로 넷플릭스의 글에서도 위와 같이 설명하며, 대신 한 그룹에는 A 프로덕트의 UI만 그리고 다른 그룹에는 B 프로덕트의 그룹만 보여준다면 어떤 결과를 초래할까? 라는 질문으로 데이터를 추출하였다. 

이에 대하여 넷플릭스가 제공한 가상 데이터는 위와 같다. 보시다시피 우리가 예상한 바와 다름 없이 프로덕트 B를 본 그룹이 오히려 더 낮은 만족도의 경험 데이터를 보이고 있음을 확인할 수 있다. 그리고 Day 16에 들어서면서 모두 큰 타이틀 출시와 동시에 참여도가 증가하고 있음을 확인할 수 있다.

이처럼 A/B 테스트는 인과관계의 진술을 가능하게 한다. Upside Down 프로덕트 경험을 B 그룹에만 도입을 하였고, 이때 A와 B는 유사한 고객군의 특성을 가지고 있기 때문에 B그룹에서만 낮은 참여도가 보인다는 것은 Upside Down 프로덕트가 참여 감소를 일으켰을 가능성이 높다고 결론 지을 수 있다.

넷플릭스의 글에 따르면 이러한 가상의 예는 매우 극단적이지만 광범위하게 줄 수 있는 교훈으로는 '항상 우리가 통제할 수 없는 무언가가 있다.' 라는 것이다. 모든 사람의 경험을 A/B 테스트 기간에 일정하게 유지시키고 싶지만, 새로운 시즌의 발매 또는 새로운 이벤트의 도입과 같은 것들은 PO/PM이 통제할 수 없는 것들이다. 

그러므로 PO/PM은 A/B 테스트를 진행함에 있어 항상 모든 경우의 수를 염두에 두어야 하며 하나의 데이터 자료만 보고서 섣불리 결정을 해서는 안된다.