Ch7. 실험 운영 체계
프롬프트·모델·워크플로우 실험을 Decision Score로 판정하고, 동시 실험 제한·실험 창·trace 회귀 반영으로 안전하게 반복하는 운영 규율
핵심 요약
- 실험의 목적은 더 많은 실험이 아니라 더 빠른 의사결정이며, 통계적 유의성보다 사업상 의미를 먼저 정의한다.
- 실험 대상은 Prompt(품질 변동)·Model(비용·품질 동시 변동)·Workflow(안전성 영향)로 나누고 리스크를 구분한다.
- Decision Score는 ΔQuality − λ_cost·ΔCost − λ_risk·ΔRisk로 계산하되 PII·권한 상승·미승인 side effect는 점수 계산 전 hard gate로 차단한다.
- 동시 실험 수를 제한하고 고위험 기능은 사전 승인된 실험 창에서만 수행하며, 실험군별 MCP server·tool scope·라우팅 정책을 registry에 기록한다.
- 실패한 실험도 지식자산으로 저장하고 실험이 끝나면 trace-derived regression case를 평가셋에 반영한다.
좋은 실험은 더 많은 실험이 아니라, 더 빠른 의사결정을 만듭니다.
실험 설계는 통계적 유의성보다 사업상 의미를 먼저 정의해야 합니다.
실험 단위
| 실험 대상 | 예시 | 리스크 |
|---|---|---|
| Prompt | 지시문 구조, 제약 조건 | 품질 변동 |
| Model | 공급자/버전 전환 | 비용·품질 동시 변동 |
| Workflow | 툴 호출 순서, 승인 조건 | 안전성 영향 |
실험 판정식
λ값은 조직의 전략(성장/수익/안전)에 맞춰 조정합니다.- PII, 권한 상승, 미승인 side effect는 점수 계산 전에 hard gate로 차단합니다.
실험 증거 단위
| 증거 | 쓰임 |
|---|---|
| Offline eval run | 프롬프트/모델 변경의 기본 회귀 확인 |
| Production trace sample | 실제 tool/handoff/approval 경로 확인 |
| Segment metric | 특정 테넌트, 언어, 채널에서만 생기는 회귀 탐지 |
| Cost/latency budget | 품질 개선이 경제적으로 유효한지 판단 |
실험 운영 규율
- 결과를 해석할 수 있도록 동시 실험 수를 제한합니다.
- 고위험 기능은 사전 승인된 실험 창(window)에서만 수행합니다.
- 실패한 실험도 지식자산으로 남겨 같은 시도를 반복하지 않습니다.
- 실험군별 MCP server, tool scope, model routing policy가 섞이지 않게 registry에 기록합니다.
- 실험 종료 후 trace-derived regression case를 평가셋에 반영합니다.
실험 리뷰 템플릿
# Experiment Review
- Hypothesis:
- Variant A/B:
- Target Metric:
- Result (Quality/Cost/Risk):
- Decision: Rollout / Iterate / Rollback기준일과 근거
| 항목 | 기준일 | 재확인 권장 | 1차 출처 |
|---|---|---|---|
| Trace-derived regression | 2026-05-17 | 2026-06-16 | https://developers.openai.com/api/docs/guides/agent-evals |
| MCP/tool scope experiment control | 2026-05-17 | 2026-06-16 | https://owasp.org/www-project-mcp-top-10/ |