LLMOps·AgentOps 프로덕션
실험 단계의 AI 기능을 신뢰 가능한 프로덕션 서비스로 운영하기 위한 표준 운영체계
최근 수정된 챕터
품질·안전·효율·안정성 4축과 Composite Score, trace-first 평가 루프, hard gate로 LLM 릴리즈 합격 여부를 판정하는 평가 체계
프롬프트·모델·워크플로우 실험을 Decision Score로 판정하고, 동시 실험 제한·실험 창·trace 회귀 반영으로 안전하게 반복하는 운영 규율
품질 회귀·비용 폭증·정책 우회·MCP 침해 사고를 분류하고, 격리 순서와 자격증명 회수·SEV 연계로 표준화한 LLMOps 사고 대응 런북
모델/툴/정책 실행을 추적 가능한 신호로 수집하고 SLO로 운영하는 방식
Input·Intent·Tool·Output 4계층 가드, fail-open 금지, 재개 가능한 인간 승인 루프, MCP·Skill 공급망 통제로 실시간 사업 리스크를 제한하는 설계
AI 기능이 동작하는 것과 운영 가능한 것은 다릅니다.
프로덕션에서는 모델 품질뿐 아니라 릴리즈 통제, SLO, 비용 안정성, 사고 대응이 동시에 충족되어야 합니다.
이 핸드북은 LLMOps와 AgentOps를 따로 떼어 보지 않습니다. 둘을 하나의 서비스 운영 체계로 묶는 실전 패턴을 다룹니다.
핵심 목표
모델 교체, 프롬프트 변경, 툴 확장이 반복돼도 품질·비용·보안이 흔들리지 않는 운영 기반을 만듭니다.
관련 읽기
작업 환경, 역할 분리, 평가 루프 자체를 설계하는 관점이 필요하다면
하네스 엔지니어링을 함께 읽으면 좋습니다.
이 책은 운영 체계에 무게를 두고, 하네스 책은 에이전트가 일하는 시스템 설계를 더 깊게 다룹니다.
2026년 5월 업데이트
- A2A latest v1.0.0, MCP 2025-11-25 보안 요구사항(OAuth 2.1, audience binding, token passthrough 금지) 반영 (Ch1)
- Trace-first evaluation, agent workflow trace grading, production trace → dataset/eval 루프 보강 (Ch3, Ch5)
- Human review, resumable approval state, hosted/private MCP 신뢰 경계, Agentic Skills 공급망 보안 추가 (Ch4)
- OTel GenAI
Development상태와 OWASP AOS work-in-progress 상태를 명확히 정리 (Ch5) - GPT-5.5/GPT-5.4/GPT-5.4 mini, Claude 4.7/4.6/4.5, DeepSeek V4 가격 기준일 갱신 (Ch6)
- 사고 대응에 MCP/skill compromise, A2A webhook abuse, 자동 복구 승인 경계 추가 (Ch8)
핵심 운영식
운영 성숙도 모델
| 레벨 | 상태 | 특징 | 승격 조건 |
|---|---|---|---|
| L1 Prototype | 데모 중심 | 수동 프롬프트/임시 운영 | 로그 표준화 |
| L2 Controlled | 기본 운영 | 버저닝·릴리즈 통제 도입 | 오프라인 평가 체계 |
| L3 Reliable | 안정 운영 | SLO/가드레일/폴백 자동화 | 비용·품질 동시 최적화 |
| L4 Adaptive | 감독형 적응 | Drift 감지·정책 튜닝·자동 복구 | 변경 증거와 승인 로그 유지 |
Go-Live 게이트(요약)
| 게이트 | 합격 기준(예시) |
|---|---|
| 품질 게이트 | 핵심 태스크 성공률 95% 이상 |
| 안전 게이트 | 정책 위반률 0.2% 이하 |
| 성능 게이트 | p95 지연시간 예산 내 |
| 비용 게이트 | 요청당 원가 예산 +5% 이내 |
운영 구조
목차
Ch1. 시스템 아키텍처
Control Plane/Data Plane 분리와 에이전트 런타임 설계
Ch2. 버저닝·릴리즈
프롬프트/모델/툴 변경을 안전하게 배포하는 릴리즈 전략
Ch3. 평가 프레임워크
오프라인·온라인 평가를 연결한 품질 보증 체계
Ch4. 온라인 가드레일
정책 집행, 차단, 폴백, 사람 승인 기반의 안전장치
Ch5. 관측성·SLO
트레이스/토큰/지연시간/품질 신호를 통합 관측
Ch6. 비용·지연시간
단가 예산과 p95 예산을 동시에 만족시키는 튜닝 전략