A/B 테스트와 실험 설계
가설 수립, 실험 설계, 샘플 사이즈 계산, 유의성 검정, 실험 포트폴리오
실험 문화의 중요성
마케팅에서 "감"에 의존하는 의사결정은 비용이 큽니다. 체계적인 실험을 통해 데이터 기반으로 의사결정하면 리스크를 줄이고 성과를 높일 수 있습니다.
| 접근 | 위험 | 결과 |
|---|---|---|
| 감에 의존 | HiPPO(가장 높은 직급의 의견) 편향 | 불확실성 높음 |
| 데이터 참고 | 상관관계를 인과관계로 오해 | 중간 수준 |
| 실험 기반 | 인과관계 확인 | 확실한 의사결정 |
실험 프로세스
가설 수립
좋은 가설의 구조
만약 [변경 사항]을 하면,
[측정 지표]가 [방향]할 것이다.
왜냐하면 [근거]이기 때문이다.예시
만약 랜딩 페이지의 CTA 버튼을 "무료 체험 시작"에서 "지금 시작하기"로 변경하면,
클릭률이 10% 이상 증가할 것이다.
왜냐하면 "무료"라는 단어가 품질 의심을 유발할 수 있고,
행동 지향적 CTA가 더 높은 전환을 보이는 사례가 많기 때문이다.가설 우선순위 프레임워크 — ICE
| 요소 | 설명 | 점수 |
|---|---|---|
| Impact | 성공 시 예상 효과 | 1~10 |
| Confidence | 성공 확률에 대한 확신 | 1~10 |
| Ease | 실행 용이성 | 1~10 |
ICE 공식 변형 안내
위 공식은 I×C×E를 100으로 나누어 0~10 범위로 정규화합니다. Sean Ellis가 처음 제안한 원래 ICE는 세 점수의 단순 평균 을 사용합니다. 두 방식 모두 실무에서 사용되며, 팀 내에서 일관된 방식을 선택하면 됩니다. 중요한 것은 점수 자체보다 상대적 우선순위입니다.
experiment-designer 에이전트
당신은 실험 설계 에이전트입니다.
## 입력
- 가설: [가설 문장]
- 현재 전환율: [현재 수치]
- 기대 개선: [최소 감지 가능한 차이]
- 일간 트래픽: [일 평균 방문자 수]
## 작업
1. 실험 변수(독립/종속/통제)를 정의하세요.
2. 필요한 샘플 사이즈를 계산하세요 (유의수준 5%, 검정력 80%).
3. 예상 실험 기간을 산출하세요.
4. 잠재적 교란 변수와 대응 방안을 제시하세요.
5. 성공/실패 판단 기준을 명확히 정의하세요.샘플 사이즈 계산
공식
| 변수 | 설명 | 일반적 값 |
|---|---|---|
| 유의수준 (양측검정) | 1.96 (5%) | |
| 검정력 | 0.84 (80%) | |
| 대조군 전환율 | 현재 전환율 | |
| 실험군 기대 전환율 |
실무 참조표
| 현재 전환율 | 최소 감지 차이 | 그룹당 샘플 | 총 샘플 |
|---|---|---|---|
| 2% | 20% 상대적 개선 | ~16,000 | ~32,000 |
| 5% | 20% 상대적 개선 | ~6,000 | ~12,000 |
| 10% | 10% 상대적 개선 | ~14,000 | ~28,000 |
| 10% | 20% 상대적 개선 | ~3,600 | ~7,200 |
간편 샘플 사이즈 계산기
기본 전환율과 최소 감지 변화량(MDE)만 입력하면 필요 샘플 사이즈를 계산합니다.
확장 샘플 사이즈 참조표
| 기본 전환율 | MDE ±0.5%p | MDE ±1%p | MDE ±2%p | MDE ±5%p |
|---|---|---|---|---|
| 1% | 12,530 | 3,150 | 800 | 130 |
| 2% | 24,560 | 6,160 | 1,550 | 250 |
| 3% | 36,090 | 9,060 | 2,280 | 370 |
| 5% | 58,660 | 14,720 | 3,700 | 600 |
| 10% | 110,800 | 27,800 | 6,980 | 1,130 |
| 15% | 156,300 | 39,200 | 9,840 | 1,600 |
| 20% | 195,200 | 49,000 | 12,300 | 2,000 |
| 30% | 258,000 | 64,700 | 16,240 | 2,640 |
α = 0.05 (95% 신뢰수준), β = 0.20 (80% 검정력) 기준. 양측 검정(two-tailed), 그룹당 필요 인원.
MDE (Minimum Detectable Effect) 실무 해석
**최소 감지 효과(MDE)**는 실험으로 통계적으로 감지할 수 있는 최소한의 변화입니다.
예시: 현재 전환율 2%, MDE 20% 상대적 개선
→ 감지 가능한 절대 변화: 2% × 20% = 0.4%p
→ 즉, 전환율이 2.0% → 2.4% 이상 변해야 유의미하게 감지 가능실무에서 MDE 설정 기준:
| 상황 | 권장 MDE | 이유 |
|---|---|---|
| 소규모 변경 (버튼 색상, 문구) | 10~20% 상대적 | 작은 효과를 기대하므로 큰 샘플 필요 |
| 중규모 변경 (페이지 레이아웃) | 15~25% 상대적 | 균형적 접근 |
| 대규모 변경 (가격, 퍼널 구조) | 20~50% 상대적 | 큰 효과를 기대하므로 적은 샘플로 충분 |
MDE와 트래픽의 관계
MDE를 작게 설정할수록 더 미세한 차이를 감지할 수 있지만, 그만큼 더 많은 샘플(=더 긴 실험 기간)이 필요합니다. 트래픽이 적다면 MDE를 크게 설정하여 실험 기간을 합리적으로 유지하세요.
샘플 부족 주의
트래픽이 적으면 실험 기간이 길어지거나 큰 차이만 감지할 수 있습니다. 일 방문자 1,000명 미만이면 한 번에 1개 실험만 진행하세요.
stat-significance-agent — 유의성 검정
결과 해석
| p-value | 해석 | 권장 조치 |
|---|---|---|
| p < 0.01 | 매우 유의미 | 승자 적용 |
| p < 0.05 | 유의미 | 승자 적용 (추가 검증 권장) |
| p < 0.10 | 약한 유의미 | 추가 데이터 수집 or 재실험 |
| p ≥ 0.10 | 유의미하지 않음 | 실험 종료, 가설 재검토 |
실험 결과 해석 플로우차트
흔한 실수와 주의점
| 실수 | 설명 | 해결 |
|---|---|---|
| 피킹(Peeking) | 실험 중간에 결과를 보고 조기 종료 | 사전 정의한 샘플까지 대기 |
| 다중 비교 | 여러 지표를 동시에 검정 | Bonferroni 보정 적용 |
| 뉴벨리 효과 | 새로움 자체가 클릭을 유발 | 2주 이상 실험 지속 |
| 시즌 효과 | 주중/주말, 공휴일 영향 | 최소 1~2주(7의 배수) |
| 무작위화 편향 | 그룹 간 불균형 | 사전 층화 or 확인 |
Bonferroni 보정 설명
다중 비교 문제: 하나의 실험에서 여러 지표(CTR, 전환율, 매출 등)를 동시에 검정하면 우연히 유의미한 결과가 나올 확률이 높아집니다. 유의수준 5%로 10개 지표를 검정하면 하나 이상이 우연히 유의미할 확률은 약 40%입니다.
Bonferroni 보정: 유의수준 를 비교 횟수 으로 나누어 보정합니다.
예시: 유의수준 5%에서 3개 지표를 동시 검정
→ 보정 유의수준: 0.05 / 3 = 0.0167
→ p-value가 0.0167 미만이어야 유의미Bonferroni는 보수적인 방법으로, 비교 횟수가 많아지면 지나치게 엄격해질 수 있습니다. 실무에서는 주요 지표(Primary Metric) 1개를 사전 정의하고, 나머지는 탐색적 분석으로 구분하는 것이 권장됩니다.
실험 유형
A/B 테스트
가장 기본적인 실험. 두 가지 변형을 비교합니다.
대조군 (A): 현재 버전
실험군 (B): 변경 버전
트래픽 분배: 50:50다변량 테스트 (MVT)
여러 요소를 동시에 변형합니다.
요소 1: 헤드라인 (A1, A2)
요소 2: 이미지 (B1, B2)
요소 3: CTA (C1, C2)
조합 수: 2 × 2 × 2 = 8가지밴딧 알고리즘
탐색과 활용을 동시에 수행합니다. 성과가 좋은 변형에 점진적으로 더 많은 트래픽을 배분합니다.
| 방식 | 장점 | 단점 |
|---|---|---|
| A/B | 통계적 엄밀성 | 최적화 대기 비용 |
| 밴딧 | 빠른 최적화 | 통계적 해석 복잡 |
실험 포트폴리오 관리
실험 로그 템플릿
| 실험 ID | 가설 | 지표 | 시작일 | 종료일 | 결과 | 조치 |
| ------- | --------------------- | ---- | ------ | ------ | ------------ | ---- |
| EXP-001 | CTA 변경 → CTR 증가 | CTR | 1/20 | 2/3 | +12%, p=0.03 | 적용 |
| EXP-002 | 가격 표시 → 전환 증가 | CVR | 1/25 | 진행중 | - | - |실험 속도 목표
| 단계 | 월간 실험 수 | 설명 |
|---|---|---|
| 시작기 | 2~3건 | 프로세스 확립 |
| 성장기 | 4~8건 | 체계화, 도구 도입 |
| 성숙기 | 10건+ | 실험 문화 정착 |
실험 문서화
모든 실험은 성공/실패와 관계없이 문서화하세요. 실패한 실험에서도 배울 점이 있고, 같은 실험을 반복하지 않을 수 있습니다.
🇰🇷 한국 시장
한국에서 A/B 테스트 도구 선택 시 고려할 점: Google Optimize는 2023년 종료되었으므로, VWO, AB Tasty, Optimizely 등을 검토하세요. 카카오/네이버 광고의 경우 각 플랫폼 내 자체 실험 기능(카카오 모먼트 A/B, 네이버 성과형 광고 소재 테스트)도 활용 가능합니다.
⚖️ 법률·컴플라이언스
A/B 테스트에서 가격, 할인율을 변형할 경우 가격 차별 이슈가 발생할 수 있습니다. 전자상거래법상 동일 상품에 대해 이유 없는 가격 차별은 소비자 민원 대상이 될 수 있으므로, 가격 실험 시 법률 검토를 권장합니다.
다음 단계
실험 설계 체계를 구축했으니, 다음 마케팅 캘린더와 OKR 운영 챕터에서는 모든 마케팅 활동을 체계적으로 관리하는 방법을 다룹니다.