Ch2. 버저닝·릴리즈

프롬프트·모델·툴·정책·MCP·평가셋을 하나의 릴리즈 아티팩트로 묶고, Canary·release gate·보안 롤백 조건으로 회귀를 통제하는 버저닝 전략

핵심 요약

AI 서비스의 릴리즈 단위는 코드만이 아니라 프롬프트·모델·툴·정책·MCP·평가셋·trace schema를 하나의 릴리즈 아티팩트로 묶어 관리한다.
각 구성요소에 버전 규칙을 둔다: Prompt는 p-YYYYMMDD.N, Tool Schema는 SemVer, Policy Pack은 승인 이력 포함 해시 버전이다.
릴리즈는 오프라인 평가 → 보안 검증 → Canary 5~10% → burn rate 모니터링 → 25%→50%→100% 점진 확대 순으로 진행한다.
release gate는 quality_delta ≥ −1%, pii_exposure_count == 0, prompt_injection_test_pass_rate == 100% 등 보안·에이전트 기준을 함께 검사한다.
보안은 타협 불가 기준이라 PII 노출·정책 우회율 0.5% 초과·권한 상승·미승인 MCP 접근 탐지 시 즉시 롤백하고, 모델 업그레이드는 즉시 전환보다 병행 운영을 기본으로 한다.

AI 서비스의 릴리즈 단위는 코드만이 아닙니다.
프롬프트, 모델, 툴, 정책을 하나의 릴리즈 아티팩트로 관리해야 회귀를 통제할 수 있습니다.

버전 구성

구성요소	권장 버전 규칙
Prompt	`p-YYYYMMDD.N`
Model	공급자 모델 ID + 내부 호환 레벨
Tool Schema	SemVer(`major.minor.patch`)
Policy Pack	승인 이력 포함 해시 버전
MCP Server	allowlist ID + scope + 서버 버전
Eval Set	dataset hash + grader version
Trace Schema	OTel/AOS 필드 버전

릴리즈 아티팩트에는 "무엇을 바꿨는가"뿐 아니라 어떤 권한으로, 어떤 평가셋에서, 어떤 관측 스키마로 검증했는가까지 담는다.

릴리즈 파이프라인

오프라인 평가 기준을 충족합니다(정확도/안전성/비용).

보안 검증을 통과합니다(정책 테스트/PII 스캔/프롬프트 인젝션).

Canary 트래픽을 5~10%로 시작합니다.

오류율·지연·비용·보안 위반의 burn rate를 모니터링합니다.

문제가 없으면 점진적으로 확대합니다(25% → 50% → 100%).

승인 기준 예시

release_gate:
  # 품질 및 성능 기준
  quality_delta: '>= -1.0%'
  cost_delta: '<= +5%'
  p95_latency_delta: '<= +10%'

  # 보안 기준
  safety_violation_rate: '<= 0.2%'
  pii_exposure_count: '== 0'
  prompt_injection_test_pass_rate: '== 100%'
  privilege_escalation_attempts: '== 0'
  security_policy_test_coverage: '>= 95%'

  # 에이전트/툴 기준
  unapproved_tool_scope_changes: '== 0'
  mcp_server_allowlist_diff: 'reviewed'
  trace_schema_compatible: true
  approval_resume_test_passed: true

릴리즈 아티팩트 매니페스트 예시

release_artifact:
  app_version: ai-support-2026.05.17-1
  prompt_version: p-20260517.2
  model_policy: routing-20260517
  tool_schema_version: tools-1.8.0
  mcp_allowlist_hash: sha256:8d4f...
  skill_manifest_hash: sha256:52ac...
  eval_dataset_hash: sha256:93ab...
  grader_version: judge-20260517.1
  trace_schema: genai-otel-1.41.0+aos-adapter-0.3
  approvals:
    owner: platform-ai
    security: approved
    compliance: approved

보안 검증 체크리스트

정책 테스트: 시스템 지시문 우회, 도구 접근 통제, 출력 필터링 검증
PII 스캔: 프롬프트 템플릿, RAG 문서, 시스템 메시지에서 민감정보 탐지
인젝션 테스트: 직접적 프롬프트 우회, RAG 오염, 도구 결과 조작 방어 확인
권한 diff 검토: MCP server, skill, function tool의 scope 추가·확대 여부 확인
승인 재개 테스트: human review로 중단된 run이 동일 state에서 승인/거절 후 정상 재개되는지 확인
트레이스 호환성: 새 버전의 trace 필드가 기존 대시보드, eval grader, 사고 런북과 호환되는지 확인

보안 관련 롤백 조건

PII 노출 감지 시 즉시 롤백
정책 우회 성공률 0.5% 초과 시
권한 상승 시도 감지 시
프롬프트 인젝션 성공 사례 발견 시
신규 MCP 서버 또는 skill에서 미승인 network/file/system 접근이 탐지될 때
A2A peer가 인증 전 내부 리소스 존재 여부를 노출할 때

보안 우선 원칙

성능이나 품질 지표가 개선되더라도 보안 기준을 하나라도 충족하지 못하면 릴리즈를 진행하지 않습니다. 보안은 타협 불가능한 기준입니다.

실무 원칙

모델 업그레이드는 성능 개선보다 회귀 리스크가 큰 경우가 많습니다. 즉시 전환보다 병행 운영과 단계적 전환을 기본 전략으로 두세요.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
Human review/resumable state	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agents/guardrails-approvals
OTel GenAI trace schema	2026-05-17	2026-06-16	https://opentelemetry.io/docs/specs/semconv/gen-ai/
MCP/Skill scope 통제	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/

핵심 요약

AI 서비스의 릴리즈 단위는 코드만이 아니라 프롬프트·모델·툴·정책·MCP·평가셋·trace schema를 하나의 릴리즈 아티팩트로 묶어 관리한다.
각 구성요소에 버전 규칙을 둔다: Prompt는 p-YYYYMMDD.N, Tool Schema는 SemVer, Policy Pack은 승인 이력 포함 해시 버전이다.
릴리즈는 오프라인 평가 → 보안 검증 → Canary 5~10% → burn rate 모니터링 → 25%→50%→100% 점진 확대 순으로 진행한다.
release gate는 quality_delta ≥ −1%, pii_exposure_count == 0, prompt_injection_test_pass_rate == 100% 등 보안·에이전트 기준을 함께 검사한다.
보안은 타협 불가 기준이라 PII 노출·정책 우회율 0.5% 초과·권한 상승·미승인 MCP 접근 탐지 시 즉시 롤백하고, 모델 업그레이드는 즉시 전환보다 병행 운영을 기본으로 한다.

AI 서비스의 릴리즈 단위는 코드만이 아닙니다.
프롬프트, 모델, 툴, 정책을 하나의 릴리즈 아티팩트로 관리해야 회귀를 통제할 수 있습니다.

버전 구성

구성요소	권장 버전 규칙
Prompt	`p-YYYYMMDD.N`
Model	공급자 모델 ID + 내부 호환 레벨
Tool Schema	SemVer(`major.minor.patch`)
Policy Pack	승인 이력 포함 해시 버전
MCP Server	allowlist ID + scope + 서버 버전
Eval Set	dataset hash + grader version
Trace Schema	OTel/AOS 필드 버전

릴리즈 아티팩트에는 "무엇을 바꿨는가"뿐 아니라 어떤 권한으로, 어떤 평가셋에서, 어떤 관측 스키마로 검증했는가까지 담는다.

릴리즈 파이프라인

오프라인 평가 기준을 충족합니다(정확도/안전성/비용).

보안 검증을 통과합니다(정책 테스트/PII 스캔/프롬프트 인젝션).

Canary 트래픽을 5~10%로 시작합니다.

오류율·지연·비용·보안 위반의 burn rate를 모니터링합니다.

문제가 없으면 점진적으로 확대합니다(25% → 50% → 100%).

승인 기준 예시

release_gate:
  # 품질 및 성능 기준
  quality_delta: '>= -1.0%'
  cost_delta: '<= +5%'
  p95_latency_delta: '<= +10%'

  # 보안 기준
  safety_violation_rate: '<= 0.2%'
  pii_exposure_count: '== 0'
  prompt_injection_test_pass_rate: '== 100%'
  privilege_escalation_attempts: '== 0'
  security_policy_test_coverage: '>= 95%'

  # 에이전트/툴 기준
  unapproved_tool_scope_changes: '== 0'
  mcp_server_allowlist_diff: 'reviewed'
  trace_schema_compatible: true
  approval_resume_test_passed: true

릴리즈 아티팩트 매니페스트 예시

release_artifact:
  app_version: ai-support-2026.05.17-1
  prompt_version: p-20260517.2
  model_policy: routing-20260517
  tool_schema_version: tools-1.8.0
  mcp_allowlist_hash: sha256:8d4f...
  skill_manifest_hash: sha256:52ac...
  eval_dataset_hash: sha256:93ab...
  grader_version: judge-20260517.1
  trace_schema: genai-otel-1.41.0+aos-adapter-0.3
  approvals:
    owner: platform-ai
    security: approved
    compliance: approved

보안 검증 체크리스트

정책 테스트: 시스템 지시문 우회, 도구 접근 통제, 출력 필터링 검증
PII 스캔: 프롬프트 템플릿, RAG 문서, 시스템 메시지에서 민감정보 탐지
인젝션 테스트: 직접적 프롬프트 우회, RAG 오염, 도구 결과 조작 방어 확인
권한 diff 검토: MCP server, skill, function tool의 scope 추가·확대 여부 확인
승인 재개 테스트: human review로 중단된 run이 동일 state에서 승인/거절 후 정상 재개되는지 확인
트레이스 호환성: 새 버전의 trace 필드가 기존 대시보드, eval grader, 사고 런북과 호환되는지 확인

보안 관련 롤백 조건

PII 노출 감지 시 즉시 롤백
정책 우회 성공률 0.5% 초과 시
권한 상승 시도 감지 시
프롬프트 인젝션 성공 사례 발견 시
신규 MCP 서버 또는 skill에서 미승인 network/file/system 접근이 탐지될 때
A2A peer가 인증 전 내부 리소스 존재 여부를 노출할 때

보안 우선 원칙

성능이나 품질 지표가 개선되더라도 보안 기준을 하나라도 충족하지 못하면 릴리즈를 진행하지 않습니다. 보안은 타협 불가능한 기준입니다.

실무 원칙

모델 업그레이드는 성능 개선보다 회귀 리스크가 큰 경우가 많습니다. 즉시 전환보다 병행 운영과 단계적 전환을 기본 전략으로 두세요.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
Human review/resumable state	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agents/guardrails-approvals
OTel GenAI trace schema	2026-05-17	2026-06-16	https://opentelemetry.io/docs/specs/semconv/gen-ai/
MCP/Skill scope 통제	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/

버전 구성

릴리즈 파이프라인

승인 기준 예시

릴리즈 아티팩트 매니페스트 예시

보안 검증 체크리스트

보안 관련 롤백 조건

기준일과 근거

목차

Ch2. 버저닝·릴리즈

버전 구성

릴리즈 파이프라인

승인 기준 예시

릴리즈 아티팩트 매니페스트 예시

보안 검증 체크리스트

보안 관련 롤백 조건

기준일과 근거

목차