Ch2. 버저닝·릴리즈
프롬프트·모델·툴·정책·MCP·평가셋을 하나의 릴리즈 아티팩트로 묶고, Canary·release gate·보안 롤백 조건으로 회귀를 통제하는 버저닝 전략
핵심 요약
- AI 서비스의 릴리즈 단위는 코드만이 아니라 프롬프트·모델·툴·정책·MCP·평가셋·trace schema를 하나의 릴리즈 아티팩트로 묶어 관리한다.
- 각 구성요소에 버전 규칙을 둔다: Prompt는 p-YYYYMMDD.N, Tool Schema는 SemVer, Policy Pack은 승인 이력 포함 해시 버전이다.
- 릴리즈는 오프라인 평가 → 보안 검증 → Canary 5~10% → burn rate 모니터링 → 25%→50%→100% 점진 확대 순으로 진행한다.
- release gate는 quality_delta ≥ −1%, pii_exposure_count == 0, prompt_injection_test_pass_rate == 100% 등 보안·에이전트 기준을 함께 검사한다.
- 보안은 타협 불가 기준이라 PII 노출·정책 우회율 0.5% 초과·권한 상승·미승인 MCP 접근 탐지 시 즉시 롤백하고, 모델 업그레이드는 즉시 전환보다 병행 운영을 기본으로 한다.
AI 서비스의 릴리즈 단위는 코드만이 아닙니다.
프롬프트, 모델, 툴, 정책을 하나의 릴리즈 아티팩트로 관리해야 회귀를 통제할 수 있습니다.
버전 구성
| 구성요소 | 권장 버전 규칙 |
|---|---|
| Prompt | p-YYYYMMDD.N |
| Model | 공급자 모델 ID + 내부 호환 레벨 |
| Tool Schema | SemVer(major.minor.patch) |
| Policy Pack | 승인 이력 포함 해시 버전 |
| MCP Server | allowlist ID + scope + 서버 버전 |
| Eval Set | dataset hash + grader version |
| Trace Schema | OTel/AOS 필드 버전 |
릴리즈 아티팩트에는 "무엇을 바꿨는가"뿐 아니라 어떤 권한으로, 어떤 평가셋에서, 어떤 관측 스키마로 검증했는가까지 담는다.
릴리즈 파이프라인
오프라인 평가 기준을 충족합니다(정확도/안전성/비용).
보안 검증을 통과합니다(정책 테스트/PII 스캔/프롬프트 인젝션).
Canary 트래픽을 5~10%로 시작합니다.
오류율·지연·비용·보안 위반의 burn rate를 모니터링합니다.
문제가 없으면 점진적으로 확대합니다(25% → 50% → 100%).
승인 기준 예시
release_gate:
# 품질 및 성능 기준
quality_delta: '>= -1.0%'
cost_delta: '<= +5%'
p95_latency_delta: '<= +10%'
# 보안 기준
safety_violation_rate: '<= 0.2%'
pii_exposure_count: '== 0'
prompt_injection_test_pass_rate: '== 100%'
privilege_escalation_attempts: '== 0'
security_policy_test_coverage: '>= 95%'
# 에이전트/툴 기준
unapproved_tool_scope_changes: '== 0'
mcp_server_allowlist_diff: 'reviewed'
trace_schema_compatible: true
approval_resume_test_passed: true릴리즈 아티팩트 매니페스트 예시
release_artifact:
app_version: ai-support-2026.05.17-1
prompt_version: p-20260517.2
model_policy: routing-20260517
tool_schema_version: tools-1.8.0
mcp_allowlist_hash: sha256:8d4f...
skill_manifest_hash: sha256:52ac...
eval_dataset_hash: sha256:93ab...
grader_version: judge-20260517.1
trace_schema: genai-otel-1.41.0+aos-adapter-0.3
approvals:
owner: platform-ai
security: approved
compliance: approved보안 검증 체크리스트
- 정책 테스트: 시스템 지시문 우회, 도구 접근 통제, 출력 필터링 검증
- PII 스캔: 프롬프트 템플릿, RAG 문서, 시스템 메시지에서 민감정보 탐지
- 인젝션 테스트: 직접적 프롬프트 우회, RAG 오염, 도구 결과 조작 방어 확인
- 권한 diff 검토: MCP server, skill, function tool의 scope 추가·확대 여부 확인
- 승인 재개 테스트: human review로 중단된 run이 동일 state에서 승인/거절 후 정상 재개되는지 확인
- 트레이스 호환성: 새 버전의 trace 필드가 기존 대시보드, eval grader, 사고 런북과 호환되는지 확인
보안 관련 롤백 조건
- PII 노출 감지 시 즉시 롤백
- 정책 우회 성공률 0.5% 초과 시
- 권한 상승 시도 감지 시
- 프롬프트 인젝션 성공 사례 발견 시
- 신규 MCP 서버 또는 skill에서 미승인 network/file/system 접근이 탐지될 때
- A2A peer가 인증 전 내부 리소스 존재 여부를 노출할 때
보안 우선 원칙
성능이나 품질 지표가 개선되더라도 보안 기준을 하나라도 충족하지 못하면 릴리즈를 진행하지 않습니다. 보안은 타협 불가능한 기준입니다.
실무 원칙
모델 업그레이드는 성능 개선보다 회귀 리스크가 큰 경우가 많습니다. 즉시 전환보다 병행 운영과 단계적 전환을 기본 전략으로 두세요.
기준일과 근거
| 항목 | 기준일 | 재확인 권장 | 1차 출처 |
|---|---|---|---|
| Human review/resumable state | 2026-05-17 | 2026-06-16 | https://developers.openai.com/api/docs/guides/agents/guardrails-approvals |
| OTel GenAI trace schema | 2026-05-17 | 2026-06-16 | https://opentelemetry.io/docs/specs/semconv/gen-ai/ |
| MCP/Skill scope 통제 | 2026-05-17 | 2026-06-16 | https://owasp.org/www-project-mcp-top-10/ |