실험 설계
24~72시간 루프를 ‘의사결정 가능한 실험’으로 만드는 방법
실험 설계가 약하면, MVP는 기능 쇼케이스가 됩니다. 좋은 실험은 결과가 어떻든 다음 행동을 결정하게 해줍니다.
24~72시간 표준 루프
루프 길이 규칙
첫 MVP 루프는 가능한 한 짧게(24~72h) 잡습니다. 루프가 길어질수록 "늦은 학습"이 되어 비용이 폭증합니다.
실험 브리프(필수 항목)
| 항목 | 질문 |
|---|---|
| 실험 목표 | 어떤 불확실성을 줄이나? |
| 대상 | 정확히 누구에게 보여주나? |
| 노출 | 어디서 어떻게 유입시키나? |
| 행동 | 사용자는 무엇을 해야 하나? |
| 지표 | 무엇을 측정하나(Primary/Secondary)? |
| 중단 기준 | 언제 그만두나(시간/표본/최저 성과)? |
| 학습 질문 | "왜" 그런 결과가 나왔나(정성 질문)? |
| GTM 신호 | 메시지/가격/채널 중 무엇을 확인하나? |
판정 기준(Decision Rule) 설정법
숫자 자체가 아니라, 판정 규칙을 고정합니다.
### Primary Metric 1개만 고정 예) "가입→첫 결과 확인 전환율" 또는 "D1 재사용"
### 중단 기준을 먼저 정한다 예) "표본이 충분히 쌓였는데도 반응이 너무 약하면 중단"
### 성공 시 다음 액션을 미리 적는다 예) "성공하면 자동화/가격 실험으로 확장"
실험에서 꼭 수집해야 하는 정성 데이터
정량 데이터는 "무슨 일이 일어났는지"를 말해주고, 정성 데이터는 "왜"를 말해줍니다.
- 기대했던 것 vs 실제로 시도한 것
- 막히는 지점(언어/신뢰/가격/권한/데이터 준비)
- "대안"을 계속 쓰는 이유
- 결과 품질의 불만/칭찬 포인트
- 구매/도입을 막는 반론(보안, 가격, 신뢰, 데이터 준비, 내부 승인)
- 제품 약속과 실제 경험이 어긋난 지점
정성 데이터가 없는 지표는 해석이 느립니다
퍼널이 나빠도 이유를 모르면 다음 실험이 커지고 비싸집니다. 처음 5~10명은 반드시 대화(인터뷰/DM/콜)로 붙잡습니다.
Claude Code 활용 체크리스트(실험 설계)
- 가설 문장을 더 날카롭게 다듬어달라(대안/세그먼트/리스크 질문 포함)
- 실험 타입 2~3개를 제안받고, 비용/학습량 비교표를 만들기
- 이벤트/퍼널 초안을 만들고, "판정 기준"을 텍스트로 고정하기
- 인터뷰 질문지(10분/30분 버전) 만들기
- 랜딩/DM/세일즈 콜에서 검증할 메시지와 반론을 분리하기
- AI가 만든 리서치 요약과 실제 사용자 증거를 별도 컬럼으로 기록하기
MCP/A2A로 실험 도구 연동
MCP는 DB, GitHub, Slack, CRM 같은 도구·데이터 연결에 유용합니다. A2A는 서로 다른 에이전트가 같은 사용자 과업을 이어받는 구조에 적합합니다. 초기에는 커스텀 래퍼를 만들기 전에 공식 서버나 팀에서 이미 쓰는 연결이 있는지 먼저 확인하세요.
에이전트가 도와도 판정은 사람이 한다
에이전트는 실험안을 빠르게 만들고, 로그를 요약하고, 인터뷰를 클러스터링할 수 있습니다. 하지만 아래 판정은 사람이 직접 확인해야 합니다.
- 정말 타겟 사용자인가?
- 이 행동이 예의상 반응인지, 실제 고통에서 나온 반응인지?
- 가격을 말했을 때 대화가 계속되는가?
- AI 요약이 원문 발화와 다르게 과장하지 않았는가?
참고 자료
- Jeff Gothelf & Josh Seiden, Lean UX — 가설 중심 실험 설계와 학습 루프 운영 원칙.
- David J. Bland & Alexander Osterwalder, Testing Business Ideas — 실험 브리프와 실험 유형 선택의 실무 프레임워크.
- Model Context Protocol, Official MCP Registry — 기존 MCP 서버를 재사용해 실험 도구를 연동하는 공식 레지스트리.
- Google, A developer's guide to AI agent protocols — MCP와 A2A를 어떤 연결 문제에 쓸지 구분하는 기준.