Ch7. 실험 운영 체계

프롬프트·모델·워크플로우 실험을 Decision Score로 판정하고, 동시 실험 제한·실험 창·trace 회귀 반영으로 안전하게 반복하는 운영 규율

핵심 요약

실험의 목적은 더 많은 실험이 아니라 더 빠른 의사결정이며, 통계적 유의성보다 사업상 의미를 먼저 정의한다.
실험 대상은 Prompt(품질 변동)·Model(비용·품질 동시 변동)·Workflow(안전성 영향)로 나누고 리스크를 구분한다.
Decision Score는 ΔQuality − λ_cost·ΔCost − λ_risk·ΔRisk로 계산하되 PII·권한 상승·미승인 side effect는 점수 계산 전 hard gate로 차단한다.
동시 실험 수를 제한하고 고위험 기능은 사전 승인된 실험 창에서만 수행하며, 실험군별 MCP server·tool scope·라우팅 정책을 registry에 기록한다.
실패한 실험도 지식자산으로 저장하고 실험이 끝나면 trace-derived regression case를 평가셋에 반영한다.

좋은 실험은 더 많은 실험이 아니라, 더 빠른 의사결정을 만듭니다.
실험 설계는 통계적 유의성보다 사업상 의미를 먼저 정의해야 합니다.

실험 단위

\text{Decision Score} = \Delta Quality - \lambda_{cost}\Delta Cost - \lambda_{risk}\Delta Risk

증거	쓰임
Offline eval run	프롬프트/모델 변경의 기본 회귀 확인
Production trace sample	실제 tool/handoff/approval 경로 확인
Segment metric	특정 테넌트, 언어, 채널에서만 생기는 회귀 탐지
Cost/latency budget	품질 개선이 경제적으로 유효한지 판단

# Experiment Review

- Hypothesis:
- Variant A/B:
- Target Metric:
- Result (Quality/Cost/Risk):
- Decision: Rollout / Iterate / Rollback

항목	기준일	재확인 권장	1차 출처
Trace-derived regression	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agent-evals
MCP/tool scope experiment control	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/

Ch7. 실험 운영 체계

프롬프트·모델·워크플로우 실험을 Decision Score로 판정하고, 동시 실험 제한·실험 창·trace 회귀 반영으로 안전하게 반복하는 운영 규율

핵심 요약

실험의 목적은 더 많은 실험이 아니라 더 빠른 의사결정이며, 통계적 유의성보다 사업상 의미를 먼저 정의한다.
실험 대상은 Prompt(품질 변동)·Model(비용·품질 동시 변동)·Workflow(안전성 영향)로 나누고 리스크를 구분한다.
Decision Score는 ΔQuality − λ_cost·ΔCost − λ_risk·ΔRisk로 계산하되 PII·권한 상승·미승인 side effect는 점수 계산 전 hard gate로 차단한다.
동시 실험 수를 제한하고 고위험 기능은 사전 승인된 실험 창에서만 수행하며, 실험군별 MCP server·tool scope·라우팅 정책을 registry에 기록한다.
실패한 실험도 지식자산으로 저장하고 실험이 끝나면 trace-derived regression case를 평가셋에 반영한다.

좋은 실험은 더 많은 실험이 아니라, 더 빠른 의사결정을 만듭니다.
실험 설계는 통계적 유의성보다 사업상 의미를 먼저 정의해야 합니다.

\text{Decision Score} = \Delta Quality - \lambda_{cost}\Delta Cost - \lambda_{risk}\Delta Risk

증거	쓰임
Offline eval run	프롬프트/모델 변경의 기본 회귀 확인
Production trace sample	실제 tool/handoff/approval 경로 확인
Segment metric	특정 테넌트, 언어, 채널에서만 생기는 회귀 탐지
Cost/latency budget	품질 개선이 경제적으로 유효한지 판단

# Experiment Review

- Hypothesis:
- Variant A/B:
- Target Metric:
- Result (Quality/Cost/Risk):
- Decision: Rollout / Iterate / Rollback

항목	기준일	재확인 권장	1차 출처
Trace-derived regression	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agent-evals
MCP/tool scope experiment control	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/