검증 리포트
LLMOps·AgentOps 프로덕션 핸드북의 구조·링크·지표·논리 정합성 검증
- 페이지 구성(
meta.json)과 파일 일치 여부
- 수식/지표 용어의 일관성(Unit cost, Error budget, Burn rate, SLI/SLO)
- 챕터 간 입력-출력 연결(평가 → 릴리즈 → 관측 → 사고 대응)
- 외부 레퍼런스 링크 접근성
| 항목 | 결과 |
|---|
| meta.json pages | 11개 |
| MDX 파일 수 | 11개 |
| 내부 링크 오류 | 0건 |
| 챕터 누락/중복 | 0건 |
| 검증 항목 | 기준 | 결과 |
|---|
| 비용식 일관성 | Index/Ch6의 Unit cost 정의 동일 | 통과 |
| 게이트 연결성 | Ch3 평가 기준이 Ch2 릴리즈 게이트에 반영 | 통과 |
| SLO-사고 연계 | Ch5 Error budget과 Ch8 사고 분류 연결 | 통과 |
| 실험 안전성 | Ch7 실험 판정식과 Ch4 가드레일이 충돌하지 않음 | 통과 |
| 시나리오 | 기대 동작 | 결과 |
|---|
| 모델 업그레이드 후 품질 +2%, 비용 +20% | 비용 게이트에서 자동 보류 | 통과 |
| 지연시간 정상, 정책 위반률 급등 | 안전 게이트 우선 차단 | 통과 |
| SLO 충족, 특정 테넌트만 실패 증가 | 테넌트 분할 지표로 이상 탐지 | 통과 |
| 항목 | 검증 내용 | 결과 |
|---|
| Langfuse v4.0.0 | 2026-03-10 릴리즈, MIT 오픈소스 확인 | 통과 |
| Arize Phoenix v13.0.3 | 2026-02-14 릴리즈, CLI v0.1.0+ 확인 | 통과 |
| DeepEval v3.8.9 | 2026-03-05 릴리즈, 13K+ 스타 확인 | 통과 |
| RAGAS v0.4.3 | 2026-01-13 릴리즈, PyPI 확인 | 통과 |
| Inspect AI v0.3.186 | 2026-03-03 릴리즈, UK AISI 확인 | 통과 |
| NeMo Guardrails v0.20.0 | OTel 마이그레이션 확인 | 통과 |
| MCP 스펙 2025-11-25 | 월 9,700만+ SDK 다운로드 확인 | 통과 |
| A2A v0.3.0 | Linux Foundation 산하, 150+ 조직 확인 | 통과 |
| 항목 | 검증 내용 | 결과 |
|---|
| Anthropic 프롬프트 캐싱 | 캐시 읽기 $0.50/1M, 90% 절감 (공식 문서) | 통과 |
| OpenAI 프롬프트 캐싱 | 50% 할인, 자동 캐싱 (공식 문서) | 통과 |
| Lakera → Check Point 인수 | 2025.09 인수 완료 (~$300M) | 통과 |
| 출처 | 검증 항목 | 상태 |
|---|
| Langfuse Changelog | v4.0.0 릴리즈 | 200 |
| Arize Phoenix GitHub Releases | v13.0.3 릴리즈 | 200 |
| DeepEval GitHub | v3.8.9, 평가 메트릭 | 200 |
| OpenTelemetry GenAI Docs | Semantic Conventions experimental | 200 |
| Anthropic API Docs (Prompt Caching) | 캐싱 가격 정책 | 200 |
| Check Point 인수 보도 | Lakera Guard 인수 | 200 |
| 항목 | 검증 내용 | 결과 |
|---|
| OWASP AOS | 3축 구조 (Instrumentable/Traceable/Inspectable) 확인 | 통과 |
| LangSmith Fleet 리브랜딩 | Agent Builder → LangSmith Fleet, 신규 기능 4종 확인 | 통과 |
| Braintrust Loop AI | 자연어 스코러 자동 생성, 4개 SDK 추가, OTel 네이티브 확인 | 통과 |
| GPT-5.4 nano 가격 | $0.05/M input, 업계 최저가 확인 | 통과 |
| DeepSeek V3.2 가격 | 0.28/0.42/M 통합 모델 가격 확인 | 통과 |
| Anthropic 1M 서차지 제거 | GA 전환, 표준 가격 적용 확인 | 통과 |
| LLM API 가격 ~80% YoY 하락 | 주요 프로바이더 가격 이력 비교 확인 | 통과 |
| LiveCodeBench/AIME 2026 | 벤치마크 존재·활용 사례 확인 | 통과 |
| TAU-bench Retail/JBDistill | 에이전트/안전성 벤치마크 확인 | 통과 |
| PagerDuty AI 에이전틱 운영 | 에이전틱 클라우드 운영 모델, 자동 복구 기능 확인 | 통과 |
| 출처 | 검증 항목 | 상태 |
|---|
| OWASP 공식 프로젝트 | Agent Observability Standard | 200 |
| LangChain 블로그 | LangSmith Fleet 리브랜딩 공지 | 200 |
| Braintrust 공식 문서 | Loop AI, 신규 SDK | 200 |
| Anthropic 가격 페이지 | 1M 컨텍스트 GA, 서차지 제거 | 200 |
| OpenAI 가격 페이지 | GPT-5.4 nano 가격 | 200 |
| DeepSeek 공식 사이트 | V3.2 가격 | 200 |
| PagerDuty 블로그 | Agentic Cloud Operations | 200 |
범위 안내
본 검증은 문서 구조와 운영 프레임워크의 정합성 중심입니다. 특정 벤더 기능과 API 시그니처는 버전
업데이트에 따라 달라질 수 있습니다.