Ch8. 사고 관리 런북
품질 회귀·비용 폭증·정책 우회·MCP 침해 사고를 분류하고, 격리 순서와 자격증명 회수·SEV 연계로 표준화한 LLMOps 사고 대응 런북
핵심 요약
- LLM 사고는 "정상처럼 보이는 실패"가 많아 품질·비용·정책 관점으로 분류하고 즉시 조치와 재발 방지 통제를 함께 표준화한다.
- 사고 유형별 즉시 조치가 다르다: 품질 회귀는 롤백, 비용 폭증은 경량 모델 라우팅, 정책 우회는 승인 모드 전환, MCP/Skill 침해는 서버 disable·token revoke다.
- 격리는 영향 scope 축소 → side effect 경로 중단 → token·연결 회수 → fallback 활성화 → trace·approval 증거 보존 순으로 진행한다.
- LLMOps 사고는 보안 사고와 통합 관리되며 품질 회귀 SEV-2/3, 정책 우회 SEV-1/2로 분류해 에스컬레이션한다.
- 자동 복구는 블래스트 레디우스가 제한된 사고에 먼저 적용하고 SEV-1급은 사람 승인 후 실행하며, 회고는 책임 추적보다 실패를 허용한 시스템 조건 제거에 집중한다.
LLM 서비스 사고는 전통적인 장애와 달리 "정상처럼 보이는 실패"가 많습니다.
그래서 품질/비용/정책 관점으로 사고를 분류하고, 즉시 조치와 재발 방지 통제를 함께 표준화합니다.
사고 유형
| 유형 | 탐지 신호 | 즉시 조치 |
|---|---|---|
| 품질 회귀 | Task Success 급락, judge score 하락 | 이전 prompt/model/tool policy로 롤백 |
| 비용 폭증 | 요청당 원가 급등, cache hit 급락 | 경량 모델 라우팅, tool call 제한, batch 전환 |
| 정책 우회 | 위반 응답 증가, guardrail bypass | 승인 모드 전환, 정책 pack hotfix |
| MCP/Skill compromise | shadow server, 미승인 scope, 이상 egress | 서버 disable, token revoke, sandbox 격리 |
| A2A abuse | webhook SSRF, 인증 전 리소스 노출 | peer block, push notification 중지 |
| Voice/realtime 저하 | first-audio latency, interruption loop | text fallback, session 재생성, low-latency model 전환 |
대응 흐름
사후 분석 항목
- 탐지 지연 원인(MTTD)
- 격리 지연 원인(Containment time)
- 자동화 가능한 수동 단계
- 동일 유형 재발 방지 통제
- 관련 trace_id, approval_id, MCP server ID, skill version
- 고객 영향 범위와 공지 필요 여부
통합 사고 분류 체계와의 연계
LLMOps 사고는 보안 사고와 함께 통합 관리됩니다:
- 품질 회귀: SEV-2/3로 분류, ML Platform Lead 에스컬레이션
- 비용 폭증: SEV-2/3로 분류, Finance + Platform 공동 대응
- 정책 우회: SEV-1/2로 분류, Security + Compliance 즉시 개입
데이터 보안 사고 발생 시 즉시 보안팀과 공조하여 SEV-1 대응 체계로 전환합니다.
PagerDuty AI 에이전틱 운영
2026년 PagerDuty는 AI integration ecosystem을 확장해 LLMOps, agent governance, agentic cloud operations를 incident workflow에 연결합니다. 운영 관점에서 이건 "AI가 전부 자동 복구"한다는 뜻이 아니라 관측 신호, runbook, 승인 경계, 에스컬레이션을 하나의 사고 루프로 묶는 변화입니다.
| 기능 | 설명 |
|---|---|
| 에이전틱 탐지 | AI 에이전트가 이상 패턴을 자율 탐지, 사고 유형 자동 분류 |
| 자동 복구 | 사전 정의된 런북 기반 자동 격리·복구 실행 |
| 에스컬레이션 AI | 사고 심각도·영향 범위 분석 후 적합한 대응팀 자동 할당 |
| 사후 분석 생성 | 사고 타임라인·근본 원인 초안 자동 생성 |
격리 순서
영향 scope를 좁힙니다: tenant, channel, model version, prompt version, MCP server, skill version.
side effect 경로를 멈춥니다: 결제, 환불, 배포, 외부 발송, 파일 쓰기, shell/code execution.
token과 연결을 회수합니다: MCP/A2A credential, webhook secret, long-lived API key.
fallback을 켭니다: 이전 버전, 제한 응답, text-only, human review, read-only mode.
trace와 approval evidence를 보존한 뒤 postmortem과 regression eval을 생성합니다.
자격증명 회전·A2A 차단 예시
containment_playbook:
trigger: mcp_or_a2a_compromise
steps:
- disable_mcp_server: github-readonly-prod
- revoke_token_audience: mcp://github-readonly-prod
- block_a2a_peer:
agent_card_url: https://partner.example.com/.well-known/agent-card.json
reason: webhook_ssrf_attempt
- rotate_webhook_secret: a2a_push_notifications
- set_runtime_mode: read_only
- preserve_evidence:
- trace_id
- approval_id
- mcp_server_logs
- webhook_request_headers자동 복구 적용 기준
자동 복구는 블래스트 레디우스가 제한된 사고(단일 테넌트, 경량 모델 폴백 등)에 먼저 적용하고, SEV-1급 사고는 사람 승인을 거쳐 실행하길 권장합니다.
원칙
회고는 개인의 책임을 추적하기보다, 실패를 허용한 시스템 조건을 제거하는 데 집중합니다.
기준일과 근거
| 항목 | 기준일 | 재확인 권장 | 1차 출처 |
|---|---|---|---|
| OWASP MCP 사고 위험 | 2026-05-17 | 2026-06-16 | https://owasp.org/www-project-mcp-top-10/ |
| OWASP Agentic Skills 사고 위험 | 2026-05-17 | 2026-06-16 | https://owasp.org/www-project-agentic-skills-top-10/ |
| PagerDuty AI operations ecosystem | 2026-05-17 | 2026-06-16 | https://www.pagerduty.com/newsroom/pagerduty-expands-ai-ecosystem-to-supercharge-ai-agents/ |