Name: LLMOps·AgentOps 프로덕션
Author: reopt

실험 단계의 AI 기능을 신뢰 가능한 프로덕션 서비스로 운영하기 위한 표준 운영체계

AI 기능이 동작하는 것과 운영 가능한 것은 다릅니다.
프로덕션에서는 모델 품질뿐 아니라 릴리즈 통제, SLO, 비용 안정성, 사고 대응이 동시에 충족되어야 합니다.

이 핸드북은 LLMOps와 AgentOps를 따로 떼어 보지 않습니다. 둘을 하나의 서비스 운영 체계로 묶는 실전 패턴을 다룹니다.

핵심 목표

모델 교체, 프롬프트 변경, 툴 확장이 반복돼도 품질·비용·보안이 흔들리지 않는 운영 기반을 만듭니다.

핵심 운영식

\text{Unit Cost per Task} = \sum_i(\text{Token}_i \times \text{Price}_i) + \text{Tool Cost} + \text{Infra Cost}

\text{Error Budget Burn Rate} = \frac{\text{현재 오류율}}{\text{허용 오류율}}

운영 성숙도 모델

레벨	상태	특징	승격 조건
L1 Prototype	데모 중심	수동 프롬프트/임시 운영	로그 표준화
L2 Controlled	기본 운영	버저닝·릴리즈 통제 도입	오프라인 평가 체계
L3 Reliable	안정 운영	SLO/가드레일/폴백 자동화	비용·품질 동시 최적화
L4 Adaptive	감독형 적응	Drift 감지·정책 튜닝·자동 복구	변경 증거와 승인 로그 유지

Go-Live 게이트(요약)

게이트	합격 기준(예시)
품질 게이트	핵심 태스크 성공률 95% 이상
안전 게이트	정책 위반률 0.2% 이하
성능 게이트	p95 지연시간 예산 내
비용 게이트	요청당 원가 예산 +5% 이내

운영 구조

최근 수정된 챕터

Ch3. 평가 프레임워크2026.06.20
품질·안전·효율·안정성 4축과 Composite Score, trace-first 평가 루프, hard gate로 LLM 릴리즈 합격 여부를 판정하는 평가 체계
Ch7. 실험 운영 체계2026.06.20
프롬프트·모델·워크플로우 실험을 Decision Score로 판정하고, 동시 실험 제한·실험 창·trace 회귀 반영으로 안전하게 반복하는 운영 규율
Ch8. 사고 관리 런북2026.06.20
품질 회귀·비용 폭증·정책 우회·MCP 침해 사고를 분류하고, 격리 순서와 자격증명 회수·SEV 연계로 표준화한 LLMOps 사고 대응 런북
Ch5. 관측성·SLO2026.06.20
모델/툴/정책 실행을 추적 가능한 신호로 수집하고 SLO로 운영하는 방식
Ch4. 온라인 가드레일2026.06.20
Input·Intent·Tool·Output 4계층 가드, fail-open 금지, 재개 가능한 인간 승인 루프, MCP·Skill 공급망 통제로 실시간 사업 리스크를 제한하는 설계

이 핸드북은 LLMOps와 AgentOps를 따로 떼어 보지 않습니다. 둘을 하나의 서비스 운영 체계로 묶는 실전 패턴을 다룹니다.

핵심 목표

모델 교체, 프롬프트 변경, 툴 확장이 반복돼도 품질·비용·보안이 흔들리지 않는 운영 기반을 만듭니다.

핵심 운영식

\text{Unit Cost per Task} = \sum_i(\text{Token}_i \times \text{Price}_i) + \text{Tool Cost} + \text{Infra Cost}

\text{Error Budget Burn Rate} = \frac{\text{현재 오류율}}{\text{허용 오류율}}

운영 성숙도 모델

레벨	상태	특징	승격 조건
L1 Prototype	데모 중심	수동 프롬프트/임시 운영	로그 표준화
L2 Controlled	기본 운영	버저닝·릴리즈 통제 도입	오프라인 평가 체계
L3 Reliable	안정 운영	SLO/가드레일/폴백 자동화	비용·품질 동시 최적화
L4 Adaptive	감독형 적응	Drift 감지·정책 튜닝·자동 복구	변경 증거와 승인 로그 유지

Go-Live 게이트(요약)

게이트	합격 기준(예시)
품질 게이트	핵심 태스크 성공률 95% 이상
안전 게이트	정책 위반률 0.2% 이하
성능 게이트	p95 지연시간 예산 내
비용 게이트	요청당 원가 예산 +5% 이내

LLMOps·AgentOps 프로덕션

최근 수정된 챕터

핵심 운영식

운영 성숙도 모델

Go-Live 게이트(요약)

운영 구조

목차

Ch1. 시스템 아키텍처

Ch2. 버저닝·릴리즈

Ch3. 평가 프레임워크

Ch4. 온라인 가드레일

Ch5. 관측성·SLO

Ch6. 비용·지연시간

Ch7. 실험 운영

Ch8. 사고 관리

부록. 검증 리포트

부록. 업데이트 내역

목차

LLMOps·AgentOps 프로덕션

최근 수정된 챕터

핵심 운영식

운영 성숙도 모델

Go-Live 게이트(요약)

운영 구조

목차

Ch1. 시스템 아키텍처

Ch2. 버저닝·릴리즈

Ch3. 평가 프레임워크

Ch4. 온라인 가드레일

Ch5. 관측성·SLO

Ch6. 비용·지연시간

Ch7. 실험 운영

Ch8. 사고 관리

부록. 검증 리포트

부록. 업데이트 내역

목차