LLMOps·AgentOps 프로덕션
실험 단계의 AI 기능을 신뢰 가능한 프로덕션 서비스로 운영하기 위한 표준 운영체계
AI 기능이 동작하는 것과 운영 가능한 것은 다릅니다.
프로덕션에서는 모델 품질뿐 아니라 릴리즈 통제, SLO, 비용 안정성, 사고 대응이 동시에 충족되어야 합니다.
이 핸드북은 LLMOps와 AgentOps를 분리하지 않고, 하나의 서비스 운영 체계로 통합하는 실전 패턴을 제공합니다.
핵심 목표
모델 교체/프롬프트 변경/툴 확장 같은 변화가 반복되더라도, 품질·비용·보안이 흔들리지 않는 운영 기반을 구축합니다.
관련 읽기
작업 환경, 역할 분리, 평가 루프 자체를 설계하는 관점이 필요하다면
하네스 엔지니어링을 함께 보는 편이 좋습니다.
이 책은 운영 체계에, 하네스 책은 에이전트가 일하는 시스템 설계에 더 초점을 둡니다.
2026년 3월 업데이트
- MCP/A2A 에이전트 프로토콜 생태계 추가 (Ch1)
- 2026년 평가 프레임워크 생태계 — DeepEval v3.8, RAGAS v0.4, Inspect AI v0.3 (Ch3)
- 새 벤치마크 — LiveCodeBench, AIME 2026, TAU-bench Retail, JBDistill (Ch3)
- 가드레일 도구 업데이트 — NeMo v0.20 OTel 통합, Lakera→Check Point 인수 (Ch4)
- OWASP Agent Observability Standard (AOS) 산업 표준 반영 (Ch5)
- LangSmith Fleet 리브랜딩 + Braintrust Loop AI 업데이트 (Ch5)
- 모델 가격 변동 — 1M 컨텍스트 서차지 제거, GPT-5.4 nano, DeepSeek V3.2, ~80% YoY 하락 (Ch6)
- PagerDuty AI 에이전틱 클라우드 운영 생태계 (Ch8)
핵심 운영식
운영 성숙도 모델
| 레벨 | 상태 | 특징 | 승격 조건 |
|---|---|---|---|
| L1 Prototype | 데모 중심 | 수동 프롬프트/임시 운영 | 로그 표준화 |
| L2 Controlled | 기본 운영 | 버저닝·릴리즈 통제 도입 | 오프라인 평가 체계 |
| L3 Reliable | 안정 운영 | SLO/가드레일/폴백 자동화 | 비용·품질 동시 최적화 |
| L4 Adaptive | 자율 개선 | Drift 감지·정책 자동 튜닝 | 분기별 품질 상승률 유지 |
Go-Live 게이트(요약)
| 게이트 | 합격 기준(예시) |
|---|---|
| 품질 게이트 | 핵심 태스크 성공률 95% 이상 |
| 안전 게이트 | 정책 위반률 0.2% 이하 |
| 성능 게이트 | p95 지연시간 예산 내 |
| 비용 게이트 | 요청당 원가 예산 +5% 이내 |
운영 구조
목차
Ch1. 시스템 아키텍처
Control Plane/Data Plane 분리와 에이전트 런타임 설계
Ch2. 버저닝·릴리즈
프롬프트/모델/툴 변경을 안전하게 배포하는 릴리즈 전략
Ch3. 평가 프레임워크
오프라인·온라인 평가를 연결한 품질 보증 체계
Ch4. 온라인 가드레일
정책 집행, 차단, 폴백, 사람 승인 기반의 안전장치
Ch5. 관측성·SLO
트레이스/토큰/지연시간/품질 신호를 통합 관측
Ch6. 비용·지연시간
단가 예산과 p95 예산을 동시에 만족시키는 튜닝 전략