A/B 테스트와 실험 설계
가설 수립, 실험 설계, 샘플 사이즈 계산, 유의성 검정, 실험 포트폴리오
핵심 요약
- 가설은 "변경 사항 → 측정 지표 → 방향 → 근거" 구조로 세우고, ICE(Impact×Confidence×Ease)로 우선순위를 매깁니다.
- 샘플 사이즈는 유의수준 5%·검정력 80% 기준으로 계산하며, 기본 전환율이 낮거나 MDE가 작을수록 더 많은 샘플이 필요합니다.
- 일 방문자 1,000명 미만이면 한 번에 1개 실험만 돌리고, 트래픽이 적을수록 MDE를 크게 잡아 기간을 줄입니다.
- 피킹·다중 비교·뉴벨티 효과·시즌 효과가 흔한 실수이며, 다중 지표는 Bonferroni 보정(α/n) 또는 주요 지표 1개 사전 정의로 대응합니다.
- 한국에서 Google Optimize는 2023년 종료되어 VWO·Optimizely 등을 검토하고, 가격 변형 실험은 가격 차별 이슈로 법률 검토를 권장합니다.
실험 문화의 중요성
마케팅에서 "감"에 의존해 의사결정하면 비용이 큽니다. 실험을 체계적으로 돌려 데이터로 의사결정하면 리스크를 줄이고 성과를 높입니다.
| 접근 | 위험 | 결과 |
|---|---|---|
| 감에 의존 | HiPPO(가장 높은 직급의 의견) 편향 | 불확실성 높음 |
| 데이터 참고 | 상관관계를 인과관계로 오해 | 중간 수준 |
| 실험 기반 | 인과관계 확인 | 확실한 의사결정 |
실험 프로세스
가설 수립
좋은 가설의 구조
만약 [변경 사항]을 하면,
[측정 지표]가 [방향]할 것이다.
왜냐하면 [근거]이기 때문이다.예시
만약 랜딩 페이지의 CTA 버튼을 "무료 체험 시작"에서 "지금 시작하기"로 변경하면,
클릭률이 10% 이상 증가할 것이다.
왜냐하면 "무료"라는 단어가 품질 의심을 유발할 수 있고,
행동 지향적 CTA가 더 높은 전환을 보이는 사례가 많기 때문이다.가설 우선순위 프레임워크 — ICE
| 요소 | 설명 | 점수 |
|---|---|---|
| Impact | 성공 시 예상 효과 | 1~10 |
| Confidence | 성공 확률에 대한 확신 | 1~10 |
| Ease | 실행 용이성 | 1~10 |
ICE 공식 변형 안내
위 공식은 I×C×E를 100으로 나누어 0~10 범위로 정규화합니다. Sean Ellis가 처음 제안한 원래 ICE는 세 점수의 단순 평균 을 사용합니다. 두 방식 모두 실무에서 사용되며, 팀 내에서 일관된 방식을 선택하면 됩니다. 중요한 것은 점수 자체보다 상대적 우선순위입니다.
experiment-designer 에이전트
당신은 실험 설계 에이전트입니다.
## 입력
- 가설: [가설 문장]
- 현재 전환율: [현재 수치]
- 기대 개선: [최소 감지 가능한 차이]
- 일간 트래픽: [일 평균 방문자 수]
## 작업
1. 실험 변수(독립/종속/통제)를 정의하세요.
2. 필요한 샘플 사이즈를 계산하세요 (유의수준 5%, 검정력 80%).
3. 예상 실험 기간을 산출하세요.
4. 잠재적 교란 변수와 대응 방안을 제시하세요.
5. 성공/실패 판단 기준을 명확히 정의하세요.샘플 사이즈 계산
공식
| 변수 | 설명 | 일반적 값 |
|---|---|---|
| 유의수준 (양측검정) | 1.96 (5%) | |
| 검정력 | 0.84 (80%) | |
| 대조군 전환율 | 현재 전환율 | |
| 실험군 기대 전환율 |
실무 참조표
| 현재 전환율 | 최소 감지 차이 | 그룹당 샘플 | 총 샘플 |
|---|---|---|---|
| 2% | 20% 상대적 개선 | ~16,000 | ~32,000 |
| 5% | 20% 상대적 개선 | ~6,000 | ~12,000 |
| 10% | 10% 상대적 개선 | ~14,000 | ~28,000 |
| 10% | 20% 상대적 개선 | ~3,600 | ~7,200 |
간편 샘플 사이즈 계산기
기본 전환율과 최소 감지 변화량(MDE)만 입력하면 필요 샘플 사이즈를 계산합니다.
확장 샘플 사이즈 참조표
| 기본 전환율 | MDE ±0.5%p | MDE ±1%p | MDE ±2%p | MDE ±5%p |
|---|---|---|---|---|
| 1% | 12,530 | 3,150 | 800 | 130 |
| 2% | 24,560 | 6,160 | 1,550 | 250 |
| 3% | 36,090 | 9,060 | 2,280 | 370 |
| 5% | 58,660 | 14,720 | 3,700 | 600 |
| 10% | 110,800 | 27,800 | 6,980 | 1,130 |
| 15% | 156,300 | 39,200 | 9,840 | 1,600 |
| 20% | 195,200 | 49,000 | 12,300 | 2,000 |
| 30% | 258,000 | 64,700 | 16,240 | 2,640 |
α = 0.05 (95% 신뢰수준), β = 0.20 (80% 검정력) 기준. 양측 검정(two-tailed), 그룹당 필요 인원.
MDE (Minimum Detectable Effect) 실무 해석
**최소 감지 효과(MDE)**는 실험으로 통계적으로 잡아낼 수 있는 가장 작은 변화입니다.
예시: 현재 전환율 2%, MDE 20% 상대적 개선
→ 감지 가능한 절대 변화: 2% × 20% = 0.4%p
→ 즉, 전환율이 2.0% → 2.4% 이상 변해야 유의미하게 감지 가능실무에서 MDE 설정 기준:
| 상황 | 권장 MDE | 이유 |
|---|---|---|
| 소규모 변경 (버튼 색상, 문구) | 10~20% 상대적 | 작은 효과를 기대하므로 큰 샘플 필요 |
| 중규모 변경 (페이지 레이아웃) | 15~25% 상대적 | 균형적 접근 |
| 대규모 변경 (가격, 퍼널 구조) | 20~50% 상대적 | 큰 효과를 기대하므로 적은 샘플로 충분 |
MDE와 트래픽의 관계
MDE를 작게 잡을수록 더 미세한 차이까지 잡아낼 수 있지만, 그만큼 샘플(=실험 기간)도 더 많이 필요합니다. 트래픽이 적다면 MDE를 크게 잡아 실험 기간을 합리적으로 유지하세요.
샘플 부족 주의
트래픽이 적으면 실험 기간이 길어지거나 큰 차이만 감지할 수 있습니다. 일 방문자 1,000명 미만이면 한 번에 1개 실험만 진행하세요.
stat-significance-agent — 유의성 검정
결과 해석
| p-value | 해석 | 권장 조치 |
|---|---|---|
| p < 0.01 | 매우 유의미 | 승자 적용 |
| p < 0.05 | 유의미 | 승자 적용 (추가 검증 권장) |
| p < 0.10 | 약한 유의미 | 추가 데이터 수집 or 재실험 |
| p ≥ 0.10 | 유의미하지 않음 | 실험 종료, 가설 재검토 |
실험 결과 해석 플로우차트
흔한 실수와 주의점
| 실수 | 설명 | 해결 |
|---|---|---|
| 피킹(Peeking) | 실험 중간에 결과를 보고 조기 종료 | 사전 정의한 샘플까지 대기 |
| 다중 비교 | 여러 지표를 동시에 검정 | Bonferroni 보정 적용 |
| 뉴벨리 효과 | 새로움 자체가 클릭을 유발 | 2주 이상 실험 지속 |
| 시즌 효과 | 주중/주말, 공휴일 영향 | 최소 1~2주(7의 배수) |
| 무작위화 편향 | 그룹 간 불균형 | 사전 층화 or 확인 |
Bonferroni 보정 설명
다중 비교 문제: 한 실험에서 여러 지표(CTR, 전환율, 매출 등)를 한꺼번에 검정하면 우연히 유의미한 결과가 나올 확률이 높아집니다. 유의수준 5%로 10개 지표를 검정하면 그중 하나라도 우연히 유의미할 확률이 약 40%까지 올라갑니다.
Bonferroni 보정: 유의수준 를 비교 횟수 으로 나누어 보정합니다.
예시: 유의수준 5%에서 3개 지표를 동시 검정
→ 보정 유의수준: 0.05 / 3 = 0.0167
→ p-value가 0.0167 미만이어야 유의미Bonferroni는 보수적인 방법이라 비교 횟수가 많아지면 지나치게 엄격해집니다. 실무에서는 주요 지표(Primary Metric) 1개를 미리 정해 두고, 나머지는 탐색적 분석으로 따로 보는 편이 낫습니다.
실험 유형
A/B 테스트
가장 기본적인 실험. 두 가지 변형을 비교합니다.
대조군 (A): 현재 버전
실험군 (B): 변경 버전
트래픽 분배: 50:50다변량 테스트 (MVT)
여러 요소를 동시에 변형합니다.
요소 1: 헤드라인 (A1, A2)
요소 2: 이미지 (B1, B2)
요소 3: CTA (C1, C2)
조합 수: 2 × 2 × 2 = 8가지밴딧 알고리즘
탐색과 활용을 동시에 합니다. 성과가 좋은 변형 쪽으로 트래픽을 점점 더 많이 몰아줍니다.
| 방식 | 장점 | 단점 |
|---|---|---|
| A/B | 통계적 엄밀성 | 최적화 대기 비용 |
| 밴딧 | 빠른 최적화 | 통계적 해석 복잡 |
실험 포트폴리오 관리
실험 로그 템플릿
| 실험 ID | 가설 | 지표 | 시작일 | 종료일 | 결과 | 조치 |
| ------- | --------------------- | ---- | ------ | ------ | ------------ | ---- |
| EXP-001 | CTA 변경 → CTR 증가 | CTR | 1/20 | 2/3 | +12%, p=0.03 | 적용 |
| EXP-002 | 가격 표시 → 전환 증가 | CVR | 1/25 | 진행중 | - | - |실험 속도 목표
| 단계 | 월간 실험 수 | 설명 |
|---|---|---|
| 시작기 | 2~3건 | 프로세스 확립 |
| 성장기 | 4~8건 | 체계화, 도구 도입 |
| 성숙기 | 10건+ | 실험 문화 정착 |
실험 문서화
모든 실험은 성공이든 실패든 문서로 남기세요. 실패한 실험에서도 배울 점이 있고, 같은 실험을 두 번 반복하는 일을 막아 줍니다.
🇰🇷 한국 시장
한국에서 A/B 테스트 도구 선택 시 고려할 점: Google Optimize는 2023년 종료되었으므로, VWO, AB Tasty, Optimizely 등을 검토하세요. 카카오/네이버 광고의 경우 각 플랫폼 내 자체 실험 기능(카카오 모먼트 A/B, 네이버 성과형 광고 소재 테스트)도 활용 가능합니다.
⚖️ 법률·컴플라이언스
A/B 테스트에서 가격, 할인율을 변형할 경우 가격 차별 이슈가 발생할 수 있습니다. 전자상거래법상 동일 상품에 대해 이유 없는 가격 차별은 소비자 민원 대상이 될 수 있으므로, 가격 실험 시 법률 검토를 권장합니다.
다음 단계
실험 설계 체계를 갖췄으니, 다음 마케팅 캘린더와 OKR 운영 챕터에서는 모든 마케팅 활동을 체계적으로 관리하는 방법을 다룹니다.