Ch5. 관측성·SLO
모델/툴/정책 실행을 추적 가능한 신호로 수집하고 SLO로 운영하는 방식
문제가 발생했을 때 원인을 빠르게 재구성할 수 없다면, 관측은 충분하지 않습니다.
LLMOps 관측의 기준은 로그 양이 아니라 원인 재구성 속도입니다.
필수 신호
| 영역 | 필수 필드 |
|---|---|
| 요청 | request_id, tenant_id, intent |
| 모델 | model_id, prompt_version, token_in/out |
| 도구 | tool_name, latency_ms, status |
| 정책 | policy_pack, decision, violation_type |
SLI/SLO 정의
| SLO 항목 | 목표 예시 |
|---|---|
| Availability SLO | 99.9% |
| Quality SLO | 95% 이상 |
| p95 Latency SLO | 4초 이하 |
| Policy Violation SLO | 0.2% 이하 |
대시보드 우선순위
- SLO 현황 및 burn rate
- 모델/프롬프트별 실패 분포
- 정책 차단/승인 비율
- 비용 상위 테넌트/기능
트레이싱 실무 기준
- 요청 단위 분산 트레이스(trace_id)를 강제합니다.
- 모델 호출/툴 호출/정책 판단 스팬(span)을 분리합니다.
- 고위험 경로는 100% 샘플링, 일반 경로는 적응형 샘플링을 사용합니다.
OWASP Agent Observability Standard (AOS)
2026년 3월 발표된 OWASP AOS는 에이전트 시스템의 관측성을 표준화하는 산업 규격입니다. 3가지 축으로 구성됩니다:
| 축 | 요구사항 | 구현 표준 |
|---|---|---|
| Instrumentable | 에이전트·도구 호출을 계측 가능하게 노출 | MCP + A2A 프로토콜 네이티브 계측 |
| Traceable | 요청-응답 전체 경로를 추적 가능 | OCSF (Open Cybersecurity Schema Framework) + OTel 통합 |
| Inspectable | 에이전트 구성 요소를 감사 가능 | CycloneDX / SWID / SPDX 기반 AI BOM |
AOS 채택 전략
OWASP AOS는 기존 OTel GenAI Semantic Conventions와 상호 보완적입니다. OTel은 런타임 트레이싱에, AOS는 에이전트 수준 감사·보안 관측에 집중합니다. 프로덕션 에이전트 시스템에서는 두 표준을 함께 적용하는 것을 권장합니다.
2026년 관측 도구 생태계
| 도구 | 버전 | 특징 |
|---|---|---|
| Langfuse | v4.0.0 | MIT 오픈소스, LLM-as-a-Judge/실험/플레이그라운드 공개, 월 600만+ SDK 설치, OTel 네이티브 |
| LangSmith Fleet | 최신 | Agent Builder에서 리브랜딩. 서브에이전트 실시간 상태 카드, LangSmith Fetch CLI, 통합 비용 뷰, 실험 베이스라인 피닝 |
| Arize Phoenix | v13.0.3 | CLI 지원 (Claude Code/Cursor 통합), LDAP 인증, 오픈소스 |
| Braintrust Loop AI | 최신 | 자연어 스코러 자동 생성, Java/Go/Ruby/C# SDK 추가, OTel 네이티브, SOC 2 Type II |
OpenTelemetry GenAI Semantic Conventions
OTel GenAI 시맨틱 컨벤션은 2026년 3월 기준 실험(experimental) 단계입니다.
| 항목 | 현재 상태 |
|---|---|
| 이벤트 (입력/출력) | 정의 완료, experimental |
| 메트릭 (토큰/지연) | 정의 완료, experimental |
| 에이전트 스팬 | 제안 단계 (task/action/agent/team) |
| OWASP AOS 연계 | AOS Traceable 축이 OTel GenAI 컨벤션 참조 |
| 벤더 채택 | Datadog v1.37+, Langfuse, Phoenix, NeMo Guardrails |
OTel 채택 동향
프로덕션 LLM 운영팀의 **89%**가 벤더 선정 시 OTel 호환성을 "매우 중요" 이상으로 평가합니다. 표준 안정화 전이라도 OTEL_SEMCONV_STABILITY_OPT_IN=gen_ai_latest_experimental로 미리 채택하는 것을 권장합니다.
운영 기준
평균 지연시간은 운영 의사결정에 도움이 되지 않는 경우가 많습니다. p95/p99, 상위 테넌트 구간, 정책 실패 구간을 기본 뷰로 사용하세요.