검증 아카이브
LLMOps·AgentOps 프로덕션 핸드북의 과거 검증 기록과 정정 이력
핵심 요약
- 이 페이지는 LLMOps·AgentOps 핸드북의 과거 검증 기록 아카이브다. 최신 운영 기준은 별도의 검증 리포트에서 확인한다.
- 2차 검증(2026-03-13)은 Langfuse v4.0.0·Phoenix v13.0.3·DeepEval v3.8.9 등 도구 버전과 Lakera→Check Point 인수, 프롬프트 캐싱 단가를 확인했다.
- A2A는 2차 검증의 v0.3.0에서 4차 검증 기준 latest v1.0.0으로 정정되었고, MCP 스펙은 2025-11-25 기준으로 보강되었다.
- 3차 검증(2026-03-26)의 GPT-5.4 nano·DeepSeek V3.2 가격, Anthropic 1M 서차지 등은 4차 검증에서 현재 기준 가격표로 대체되었다.
- OWASP AOS 3축 구조, LangSmith Fleet 리브랜딩, Braintrust Loop AI, PagerDuty 에이전틱 운영 등 신규 콘텐츠는 외부 출처 200 응답으로 검증 통과했다.
아카이브 안내
이 페이지는 과거 검증 기록입니다. 최신 운영 기준은 검증 리포트를
기준으로 봅니다.
2차 검증 (2026-03-13)
도구·프레임워크 버전 검증
| 항목 | 검증 내용 | 결과 |
|---|---|---|
| Langfuse v4.0.0 | 2026-03-10 릴리즈, MIT 오픈소스 확인 | 통과 |
| Arize Phoenix v13.0.3 | 2026-02-14 릴리즈, CLI v0.1.0+ 확인 | 통과 |
| DeepEval v3.8.9 | 2026-03-05 릴리즈, 13K+ 스타 확인 | 통과 |
| RAGAS v0.4.3 | 2026-01-13 릴리즈, PyPI 확인 | 통과 |
| Inspect AI v0.3.186 | 2026-03-03 릴리즈, UK AISI 확인 | 통과 |
| NeMo Guardrails v0.20.0 | OTel 마이그레이션 확인 | 통과 |
| MCP 스펙 2025-11-25 | 2026-05-17 검증에서 authorization/security 요구사항 중심으로 보강 | 보강됨 |
| A2A v0.3.0 | 2026-05-17 검증에서 latest v1.0.0 기준으로 정정 | 대체됨 |
비용 최적화 데이터 검증
| 항목 | 검증 내용 | 결과 |
|---|---|---|
| Anthropic 프롬프트 캐싱 | 2026-05-17 검증에서 모델별 캐싱 multiplier 기준으로 재정리 | 보강됨 |
| OpenAI 프롬프트 캐싱 | 2026-05-17 검증에서 모델별 cached input 단가 기준으로 재정리 | 보강됨 |
| Lakera → Check Point 인수 | 2025.09 인수 완료 (~$300M) | 통과 |
2차 검증 외부 출처
| 출처 | 검증 항목 | 상태 |
|---|---|---|
| Langfuse Changelog | v4.0.0 릴리즈 | 200 |
| Arize Phoenix GitHub Releases | v13.0.3 릴리즈 | 200 |
| DeepEval GitHub | v3.8.9, 평가 메트릭 | 200 |
| OpenTelemetry GenAI Docs | Semantic Conventions experimental (2차 당시 기준) | 200 |
| Anthropic API Docs (Prompt Caching) | 캐싱 가격 정책 | 200 |
| Check Point 인수 보도 | Lakera Guard 인수 | 200 |
3차 검증 (2026-03-26)
2026-05-17 정정
3차 검증의 모델 가격, DeepSeek 모델명, A2A 버전, 일부 벤더 링크는 4차 검증에서 현재 기준으로 대체했습니다. 아래 기록은 당시 변경 이력으로만 남깁니다.
신규 콘텐츠 검증
| 항목 | 검증 내용 | 결과 |
|---|---|---|
| OWASP AOS | 3축 구조 (Instrumentable/Traceable/Inspectable) 확인 | 통과 |
| LangSmith Fleet 리브랜딩 | Agent Builder → LangSmith Fleet, 신규 기능 4종 확인 | 통과 |
| Braintrust Loop AI | 자연어 스코러 자동 생성, 4개 SDK 추가, OTel 네이티브 확인 | 통과 |
| GPT-5.4 nano 가격 | 2026-05-17 검증에서 GPT-5.4 mini 가격표로 정정 | 대체됨 |
| DeepSeek V3.2 가격 | 2026-05-17 검증에서 DeepSeek V4 Flash/Pro 가격표로 대체 | 대체됨 |
| Anthropic 1M 서차지 제거 | 2026-05-17 검증에서 Claude 4.x 모델별 공식 가격표로 재정리 | 대체됨 |
| LLM API 가격 하락률 표현 | 일반화된 하락률 표현은 제거하고 프로바이더별 단가·캐싱·배치 조건으로 대체 | 정정됨 |
| LiveCodeBench/AIME 2026 | 벤치마크 존재·활용 사례 확인 | 통과 |
| TAU-bench Retail/JBDistill | 에이전트/안전성 벤치마크 확인 | 통과 |
| PagerDuty AI 에이전틱 운영 | 에이전틱 클라우드 운영 모델, 자동 복구 기능 확인 | 통과 |
3차 검증 외부 출처
| 출처 | 검증 항목 | 상태 |
|---|---|---|
| OWASP 공식 프로젝트 | Agent Observability Standard | 200 |
| LangChain 블로그 | LangSmith Fleet 리브랜딩 공지 | 200 |
| Braintrust 공식 문서 | Loop AI, 신규 SDK | 200 |
| Anthropic 가격 페이지 | Claude 4.x 모델별 가격 | 확인 |
| OpenAI 가격 페이지 | GPT-5.4 mini/GPT-5.4/GPT-5.5 가격 | 확인 |
| DeepSeek API Docs | V4 Flash/Pro 가격 | 확인 |
| PagerDuty 블로그 | Agentic Cloud Operations | 200 |