그로스 실험 설계 방식이 달라지면 같은 예산으로 전혀 다른 결과가 나온다. 대부분의 팀이 실험 자체보다 실험을 어떻게 구성하느냐에서 이미 승패가 갈린다는 사실을 간과한다.
왜 실험을 많이 해도 CAC는 줄지 않는가
실험 횟수와 고객 획득 비용(CAC) 감소 사이에는 자동적인 상관관계가 없다. 실험을 분기당 20회 돌리는 팀이 5회 돌리는 팀보다 CAC가 높은 경우는 실제 현장에서 드물지 않다.
문제는 두 가지 지점에서 발생한다.
첫째, 실험의 목적이 "검증"이 아니라 "확인"에 머문다. 이미 답을 정해놓고 실험으로 근거를 만드는 구조다. 이 경우 실험은 학습 도구가 아니라 의사결정 면피 수단이 된다.
둘째, 실험 단위가 너무 크다. 랜딩 페이지 전체를 바꾸는 실험은 어떤 요소가 결과를 만들었는지 알 수 없게 만든다. 변수를 좁히지 않으면 다음 실험에 쓸 수 있는 인사이트가 남지 않는다.
결국 실험이 쌓여도 학습이 쌓이지 않는 구조가 된다. CAC는 학습이 누적될 때 낮아진다.
실험 설계에서 놓치는 세 가지 구조적 결함
가설이 아니라 아이디어로 실험을 시작한다
"CTA 문구를 바꾸면 어떨까"는 아이디어다. "현재 CTA가 행동 유인보다 기능 설명에 치우쳐 있어 클릭률이 낮다"는 가설이다. 가설에는 원인 추정이 포함된다. 아이디어에는 없다.
원인 추정이 없는 실험은 결과가 나와도 다음 실험 방향을 알려주지 않는다. B안이 A안보다 클릭률이 12% 높게 나왔다면, 그 이유를 모르는 팀은 다음에 또 감으로 실험을 설계한다.
성공 지표를 실험 후에 정한다
실험 전에 "이 수치가 X% 이상 움직이면 성공"이라는 기준을 명시하지 않으면, 결과를 보고 나서 유리한 지표를 선택하게 된다. 이를 p-hacking이라 부른다. 실험 결과의 신뢰도가 무너지고, 잘못된 실험을 확장하는 데 예산을 쓰게 된다.
B2B SaaS 환경을 예로 들면, 무료 체험 전환율 실험에서 가입 완료율만 보다가 실제 유료 전환율이 오히려 낮아지는 경우가 발생할 수 있다. 성공 지표는 반드시 실험 시작 전에 단일 지표로 확정해야 한다.
샘플 크기를 계산하지 않고 기간으로 실험을 끊는다
"2주 돌려보자"는 기간 기반 종료는 통계적 유의성과 무관하다. 방문자 수가 적은 서비스에서 2주 실험은 표본이 수백 명에 불과할 수 있다. 이 데이터로 내린 결론은 다음 의사결정을 잘못된 방향으로 이끈다.
실험 전 필요 샘플 크기를 계산하는 것은 선택이 아니다. 통계적 검정력(power) 80% 기준, 유의수준 0.05를 기본값으로 설정하고 샘플 계산기를 활용하는 것이 표준 절차다.
그로스 실험 설계 프레임워크: LHSM
실험 설계를 구조화하는 데 쓸 수 있는 4단계 프레임워크다.
L - Learn(학습 목표 정의): 이 실험에서 무엇을 알고 싶은가. 결과가 어떻게 나오든 다음 실험에 반영할 수 있는 질문인가.
H - Hypothesis(인과 가설 작성): "우리는 [변수]를 바꾸면 [대상]이 [행동]을 더 많이/적게 할 것이라고 예상한다. 왜냐하면 [근거]."
S - Success Metric(단일 성공 지표 사전 확정): 보조 지표는 최대 2개까지 허용하되, 의사결정은 단일 지표로만 한다.
M - Minimum Sample(최소 샘플 사전 계산): 샘플 크기가 확보되기 전에는 실험을 종료하지 않는다.
이 구조를 따르면 실험 결과가 "이겼다/졌다"가 아니라 "배웠다/배우지 못했다"로 평가된다. 장기적으로 이 차이가 CAC 구조를 바꾼다.
업종별 적용 사례
헬스케어 예약 서비스의 경우
특정 헬스케어 예약 플랫폼이 신규 예약 전환율을 높이기 위한 실험을 설계한다고 가정하면, 기존 방식은 "예약 버튼 색상 변경"이었다. LHSM 프레임워크를 적용하면 가설이 달라진다. "첫 예약 시 불안감이 전환을 막는다"는 학습 목표 아래, "의사 프로필에 실제 후기 수를 노출하면 첫 예약 완료율이 높아질 것이다. 왜냐하면 의료 서비스 선택에서 사회적 증거가 불안을 낮추기 때문이다"로 가설을 구성한다. 이 경우 실험 결과가 어떻게 나오든 다음 실험 방향이 명확해진다.
구독형 교육 플랫폼의 경우
무료 체험 후 유료 전환율이 정체된 구독형 교육 서비스가 있다고 가정하면, 흔한 실수는 가격 페이지 레이아웃 실험을 먼저 돌리는 것이다. LHSM 구조로 접근하면 먼저 "어느 시점에서 이탈이 집중되는가"를 학습 목표로 설정하고, 체험 3일차 이탈 집중 현상을 발견한 뒤 그 시점 개입 실험을 설계한다. 실험 순서 자체가 달라진다.
물류 스타트업의 B2B 영업 퍼널 경우
B2B 물류 서비스에서 리드 → 데모 신청 전환율을 높이는 실험을 설계한다고 가정하면, 단순히 폼 필드 수를 줄이는 실험보다 "의사결정자가 데모 신청 전에 어떤 정보를 먼저 확인하는가"를 학습 목표로 잡는 것이 구조적으로 다른 결과를 만들 수 있다. 이 경우 ROI 계산기 노출 실험이 폼 최적화보다 전환에 더 직접적으로 작용할 수 있다는 가설로 이어진다.
실험 설계 전에 점검할 체크리스트
- 이 실험의 학습 목표를 한 문장으로 쓸 수 있는가
- 가설에 원인 추정이 포함되어 있는가
- 성공 지표를 실험 시작 전에 단일 지표로 확정했는가
- 최소 샘플 크기를 계산했는가
- 실험이 실패해도 다음 실험 방향을 알 수 있는 구조인가
다섯 가지 중 하나라도 "아니오"라면 실험을 시작하기 전에 설계를 다시 검토해야 한다.
FAQ
Q. 트래픽이 적은 초기 스타트업은 그로스 실험 설계를 어떻게 해야 하나요?
트래픽이 적을수록 실험 단위를 작게 잡아야 한다. 전체 퍼널 실험 대신 단일 페이지, 단일 요소 실험으로 범위를 좁히고, 정량 실험이 어려운 경우 사용자 인터뷰를 가설 검증 도구로 먼저 활용한다. 샘플이 부족한 상태에서 A/B 테스트를 강행하면 잘못된 결론을 확장하는 비용이 더 커진다.
Q. 그로스 실험에서 통계적 유의성이 나오지 않으면 실험을 실패로 봐야 하나요?
통계적 유의성이 없다는 결과도 학습이다. "이 변수는 이 지표에 영향을 주지 않는다"는 정보는 다음 실험의 범위를 좁혀준다. 실험 실패는 학습 목표 없이 설계된 실험, 또는 샘플이 부족한 상태에서 조기 종료된 실험이다.
Q. 그로스 실험 결과를 팀 전체가 공유하고 축적하는 좋은 방법이 있나요?
실험 로그를 별도 문서로 관리하는 것이 기본이다. 실험명, 가설, 성공 지표, 결과, 다음 실험 방향을 필드로 고정하고, 실험이 종료될 때마다 반드시 업데이트하는 프로세스를 만든다. 이 로그가 쌓이면 팀의 그로스 판단 기준이 된다. 개인의 직관이 아니라 누적된 실험 데이터가 다음 의사결정을 이끄는 구조로 전환된다.
다음 글에서는 실험 우선순위를 결정하는 ICE 스코어링의 한계와 이를 보완하는 실전 방법을 다룬다.