검증 아카이브

LLMOps·AgentOps 프로덕션 핸드북의 과거 검증 기록과 정정 이력

핵심 요약

이 페이지는 LLMOps·AgentOps 핸드북의 과거 검증 기록 아카이브다. 최신 운영 기준은 별도의 검증 리포트에서 확인한다.
2차 검증(2026-03-13)은 Langfuse v4.0.0·Phoenix v13.0.3·DeepEval v3.8.9 등 도구 버전과 Lakera→Check Point 인수, 프롬프트 캐싱 단가를 확인했다.
A2A는 2차 검증의 v0.3.0에서 4차 검증 기준 latest v1.0.0으로 정정되었고, MCP 스펙은 2025-11-25 기준으로 보강되었다.
3차 검증(2026-03-26)의 GPT-5.4 nano·DeepSeek V3.2 가격, Anthropic 1M 서차지 등은 4차 검증에서 현재 기준 가격표로 대체되었다.
OWASP AOS 3축 구조, LangSmith Fleet 리브랜딩, Braintrust Loop AI, PagerDuty 에이전틱 운영 등 신규 콘텐츠는 외부 출처 200 응답으로 검증 통과했다.

아카이브 안내

이 페이지는 과거 검증 기록입니다. 최신 운영 기준은 검증 리포트를 기준으로 봅니다.

2차 검증 (2026-03-13)

도구·프레임워크 버전 검증

항목	검증 내용	결과
Langfuse v4.0.0	2026-03-10 릴리즈, MIT 오픈소스 확인	통과
Arize Phoenix v13.0.3	2026-02-14 릴리즈, CLI v0.1.0+ 확인	통과
DeepEval v3.8.9	2026-03-05 릴리즈, 13K+ 스타 확인	통과
RAGAS v0.4.3	2026-01-13 릴리즈, PyPI 확인	통과
Inspect AI v0.3.186	2026-03-03 릴리즈, UK AISI 확인	통과
NeMo Guardrails v0.20.0	OTel 마이그레이션 확인	통과
MCP 스펙 2025-11-25	2026-05-17 검증에서 authorization/security 요구사항 중심으로 보강	보강됨
A2A v0.3.0	2026-05-17 검증에서 latest v1.0.0 기준으로 정정	대체됨

비용 최적화 데이터 검증

항목	검증 내용	결과
Anthropic 프롬프트 캐싱	2026-05-17 검증에서 모델별 캐싱 multiplier 기준으로 재정리	보강됨
OpenAI 프롬프트 캐싱	2026-05-17 검증에서 모델별 cached input 단가 기준으로 재정리	보강됨
Lakera → Check Point 인수	2025.09 인수 완료 (~$300M)	통과

2차 검증 외부 출처

출처	검증 항목	상태
Langfuse Changelog	v4.0.0 릴리즈	200
Arize Phoenix GitHub Releases	v13.0.3 릴리즈	200
DeepEval GitHub	v3.8.9, 평가 메트릭	200
OpenTelemetry GenAI Docs	Semantic Conventions experimental (2차 당시 기준)	200
Anthropic API Docs (Prompt Caching)	캐싱 가격 정책	200
Check Point 인수 보도	Lakera Guard 인수	200

3차 검증 (2026-03-26)

2026-05-17 정정

3차 검증의 모델 가격, DeepSeek 모델명, A2A 버전, 일부 벤더 링크는 4차 검증에서 현재 기준으로 대체했습니다. 아래 기록은 당시 변경 이력으로만 남깁니다.

신규 콘텐츠 검증

항목	검증 내용	결과
OWASP AOS	3축 구조 (Instrumentable/Traceable/Inspectable) 확인	통과
LangSmith Fleet 리브랜딩	Agent Builder → LangSmith Fleet, 신규 기능 4종 확인	통과
Braintrust Loop AI	자연어 스코러 자동 생성, 4개 SDK 추가, OTel 네이티브 확인	통과
GPT-5.4 nano 가격	2026-05-17 검증에서 GPT-5.4 mini 가격표로 정정	대체됨
DeepSeek V3.2 가격	2026-05-17 검증에서 DeepSeek V4 Flash/Pro 가격표로 대체	대체됨
Anthropic 1M 서차지 제거	2026-05-17 검증에서 Claude 4.x 모델별 공식 가격표로 재정리	대체됨
LLM API 가격 하락률 표현	일반화된 하락률 표현은 제거하고 프로바이더별 단가·캐싱·배치 조건으로 대체	정정됨
LiveCodeBench/AIME 2026	벤치마크 존재·활용 사례 확인	통과
TAU-bench Retail/JBDistill	에이전트/안전성 벤치마크 확인	통과
PagerDuty AI 에이전틱 운영	에이전틱 클라우드 운영 모델, 자동 복구 기능 확인	통과

3차 검증 외부 출처

출처	검증 항목	상태
OWASP 공식 프로젝트	Agent Observability Standard	200
LangChain 블로그	LangSmith Fleet 리브랜딩 공지	200
Braintrust 공식 문서	Loop AI, 신규 SDK	200
Anthropic 가격 페이지	Claude 4.x 모델별 가격	확인
OpenAI 가격 페이지	GPT-5.4 mini/GPT-5.4/GPT-5.5 가격	확인
DeepSeek API Docs	V4 Flash/Pro 가격	확인
PagerDuty 블로그	Agentic Cloud Operations	200

검증 아카이브

LLMOps·AgentOps 프로덕션 핸드북의 과거 검증 기록과 정정 이력

핵심 요약

이 페이지는 LLMOps·AgentOps 핸드북의 과거 검증 기록 아카이브다. 최신 운영 기준은 별도의 검증 리포트에서 확인한다.
2차 검증(2026-03-13)은 Langfuse v4.0.0·Phoenix v13.0.3·DeepEval v3.8.9 등 도구 버전과 Lakera→Check Point 인수, 프롬프트 캐싱 단가를 확인했다.
A2A는 2차 검증의 v0.3.0에서 4차 검증 기준 latest v1.0.0으로 정정되었고, MCP 스펙은 2025-11-25 기준으로 보강되었다.
3차 검증(2026-03-26)의 GPT-5.4 nano·DeepSeek V3.2 가격, Anthropic 1M 서차지 등은 4차 검증에서 현재 기준 가격표로 대체되었다.
OWASP AOS 3축 구조, LangSmith Fleet 리브랜딩, Braintrust Loop AI, PagerDuty 에이전틱 운영 등 신규 콘텐츠는 외부 출처 200 응답으로 검증 통과했다.

아카이브 안내

이 페이지는 과거 검증 기록입니다. 최신 운영 기준은 검증 리포트를 기준으로 봅니다.

2차 검증 (2026-03-13)

도구·프레임워크 버전 검증

항목	검증 내용	결과
Langfuse v4.0.0	2026-03-10 릴리즈, MIT 오픈소스 확인	통과
Arize Phoenix v13.0.3	2026-02-14 릴리즈, CLI v0.1.0+ 확인	통과
DeepEval v3.8.9	2026-03-05 릴리즈, 13K+ 스타 확인	통과
RAGAS v0.4.3	2026-01-13 릴리즈, PyPI 확인	통과
Inspect AI v0.3.186	2026-03-03 릴리즈, UK AISI 확인	통과
NeMo Guardrails v0.20.0	OTel 마이그레이션 확인	통과
MCP 스펙 2025-11-25	2026-05-17 검증에서 authorization/security 요구사항 중심으로 보강	보강됨
A2A v0.3.0	2026-05-17 검증에서 latest v1.0.0 기준으로 정정	대체됨

비용 최적화 데이터 검증

항목	검증 내용	결과
Anthropic 프롬프트 캐싱	2026-05-17 검증에서 모델별 캐싱 multiplier 기준으로 재정리	보강됨
OpenAI 프롬프트 캐싱	2026-05-17 검증에서 모델별 cached input 단가 기준으로 재정리	보강됨
Lakera → Check Point 인수	2025.09 인수 완료 (~$300M)	통과

2차 검증 외부 출처

출처	검증 항목	상태
Langfuse Changelog	v4.0.0 릴리즈	200
Arize Phoenix GitHub Releases	v13.0.3 릴리즈	200
DeepEval GitHub	v3.8.9, 평가 메트릭	200
OpenTelemetry GenAI Docs	Semantic Conventions experimental (2차 당시 기준)	200
Anthropic API Docs (Prompt Caching)	캐싱 가격 정책	200
Check Point 인수 보도	Lakera Guard 인수	200

3차 검증 (2026-03-26)

2026-05-17 정정

신규 콘텐츠 검증

항목	검증 내용	결과
OWASP AOS	3축 구조 (Instrumentable/Traceable/Inspectable) 확인	통과
LangSmith Fleet 리브랜딩	Agent Builder → LangSmith Fleet, 신규 기능 4종 확인	통과
Braintrust Loop AI	자연어 스코러 자동 생성, 4개 SDK 추가, OTel 네이티브 확인	통과
GPT-5.4 nano 가격	2026-05-17 검증에서 GPT-5.4 mini 가격표로 정정	대체됨
DeepSeek V3.2 가격	2026-05-17 검증에서 DeepSeek V4 Flash/Pro 가격표로 대체	대체됨
Anthropic 1M 서차지 제거	2026-05-17 검증에서 Claude 4.x 모델별 공식 가격표로 재정리	대체됨
LLM API 가격 하락률 표현	일반화된 하락률 표현은 제거하고 프로바이더별 단가·캐싱·배치 조건으로 대체	정정됨
LiveCodeBench/AIME 2026	벤치마크 존재·활용 사례 확인	통과
TAU-bench Retail/JBDistill	에이전트/안전성 벤치마크 확인	통과
PagerDuty AI 에이전틱 운영	에이전틱 클라우드 운영 모델, 자동 복구 기능 확인	통과

3차 검증 외부 출처

출처	검증 항목	상태
OWASP 공식 프로젝트	Agent Observability Standard	200
LangChain 블로그	LangSmith Fleet 리브랜딩 공지	200
Braintrust 공식 문서	Loop AI, 신규 SDK	200
Anthropic 가격 페이지	Claude 4.x 모델별 가격	확인
OpenAI 가격 페이지	GPT-5.4 mini/GPT-5.4/GPT-5.5 가격	확인
DeepSeek API Docs	V4 Flash/Pro 가격	확인
PagerDuty 블로그	Agentic Cloud Operations	200

2차 검증 (2026-03-13)

도구·프레임워크 버전 검증

비용 최적화 데이터 검증

2차 검증 외부 출처

3차 검증 (2026-03-26)

신규 콘텐츠 검증

3차 검증 외부 출처

목차

검증 아카이브

2차 검증 (2026-03-13)

도구·프레임워크 버전 검증

비용 최적화 데이터 검증

2차 검증 외부 출처

3차 검증 (2026-03-26)

신규 콘텐츠 검증

3차 검증 외부 출처

목차