Ch8. 사고 관리 런북

품질 회귀·비용 폭증·정책 우회·MCP 침해 사고를 분류하고, 격리 순서와 자격증명 회수·SEV 연계로 표준화한 LLMOps 사고 대응 런북

핵심 요약

LLM 사고는 "정상처럼 보이는 실패"가 많아 품질·비용·정책 관점으로 분류하고 즉시 조치와 재발 방지 통제를 함께 표준화한다.
사고 유형별 즉시 조치가 다르다: 품질 회귀는 롤백, 비용 폭증은 경량 모델 라우팅, 정책 우회는 승인 모드 전환, MCP/Skill 침해는 서버 disable·token revoke다.
격리는 영향 scope 축소 → side effect 경로 중단 → token·연결 회수 → fallback 활성화 → trace·approval 증거 보존 순으로 진행한다.
LLMOps 사고는 보안 사고와 통합 관리되며 품질 회귀 SEV-2/3, 정책 우회 SEV-1/2로 분류해 에스컬레이션한다.
자동 복구는 블래스트 레디우스가 제한된 사고에 먼저 적용하고 SEV-1급은 사람 승인 후 실행하며, 회고는 책임 추적보다 실패를 허용한 시스템 조건 제거에 집중한다.

LLM 서비스 사고는 전통적인 장애와 달리 "정상처럼 보이는 실패"가 많습니다.
그래서 품질/비용/정책 관점으로 사고를 분류하고, 즉시 조치와 재발 방지 통제를 함께 표준화합니다.

사고 유형

유형	탐지 신호	즉시 조치
품질 회귀	Task Success 급락, judge score 하락	이전 prompt/model/tool policy로 롤백
비용 폭증	요청당 원가 급등, cache hit 급락	경량 모델 라우팅, tool call 제한, batch 전환
정책 우회	위반 응답 증가, guardrail bypass	승인 모드 전환, 정책 pack hotfix
MCP/Skill compromise	shadow server, 미승인 scope, 이상 egress	서버 disable, token revoke, sandbox 격리
A2A abuse	webhook SSRF, 인증 전 리소스 노출	peer block, push notification 중지
Voice/realtime 저하	first-audio latency, interruption loop	text fallback, session 재생성, low-latency model 전환

사후 분석 항목

탐지 지연 원인(MTTD)
격리 지연 원인(Containment time)
자동화 가능한 수동 단계
동일 유형 재발 방지 통제
관련 trace_id, approval_id, MCP server ID, skill version
고객 영향 범위와 공지 필요 여부

통합 사고 분류 체계와의 연계

LLMOps 사고는 보안 사고와 함께 통합 관리됩니다:

품질 회귀: SEV-2/3로 분류, ML Platform Lead 에스컬레이션
비용 폭증: SEV-2/3로 분류, Finance + Platform 공동 대응
정책 우회: SEV-1/2로 분류, Security + Compliance 즉시 개입

데이터 보안 사고 발생 시 즉시 보안팀과 공조하여 SEV-1 대응 체계로 전환합니다.

2026년 PagerDuty는 AI integration ecosystem을 확장해 LLMOps, agent governance, agentic cloud operations를 incident workflow에 연결합니다. 운영 관점에서 이건 "AI가 전부 자동 복구"한다는 뜻이 아니라 관측 신호, runbook, 승인 경계, 에스컬레이션을 하나의 사고 루프로 묶는 변화입니다.

기능	설명
에이전틱 탐지	AI 에이전트가 이상 패턴을 자율 탐지, 사고 유형 자동 분류
자동 복구	사전 정의된 런북 기반 자동 격리·복구 실행
에스컬레이션 AI	사고 심각도·영향 범위 분석 후 적합한 대응팀 자동 할당
사후 분석 생성	사고 타임라인·근본 원인 초안 자동 생성

격리 순서

영향 scope를 좁힙니다: tenant, channel, model version, prompt version, MCP server, skill version.

side effect 경로를 멈춥니다: 결제, 환불, 배포, 외부 발송, 파일 쓰기, shell/code execution.

token과 연결을 회수합니다: MCP/A2A credential, webhook secret, long-lived API key.

fallback을 켭니다: 이전 버전, 제한 응답, text-only, human review, read-only mode.

trace와 approval evidence를 보존한 뒤 postmortem과 regression eval을 생성합니다.

자격증명 회전·A2A 차단 예시

containment_playbook:
  trigger: mcp_or_a2a_compromise
  steps:
    - disable_mcp_server: github-readonly-prod
    - revoke_token_audience: mcp://github-readonly-prod
    - block_a2a_peer:
        agent_card_url: https://partner.example.com/.well-known/agent-card.json
        reason: webhook_ssrf_attempt
    - rotate_webhook_secret: a2a_push_notifications
    - set_runtime_mode: read_only
    - preserve_evidence:
        - trace_id
        - approval_id
        - mcp_server_logs
        - webhook_request_headers

자동 복구 적용 기준

자동 복구는 블래스트 레디우스가 제한된 사고(단일 테넌트, 경량 모델 폴백 등)에 먼저 적용하고, SEV-1급 사고는 사람 승인을 거쳐 실행하길 권장합니다.

원칙

회고는 개인의 책임을 추적하기보다, 실패를 허용한 시스템 조건을 제거하는 데 집중합니다.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
OWASP MCP 사고 위험	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/
OWASP Agentic Skills 사고 위험	2026-05-17	2026-06-16	https://owasp.org/www-project-agentic-skills-top-10/
PagerDuty AI operations ecosystem	2026-05-17	2026-06-16	https://www.pagerduty.com/newsroom/pagerduty-expands-ai-ecosystem-to-supercharge-ai-agents/

핵심 요약

LLM 사고는 "정상처럼 보이는 실패"가 많아 품질·비용·정책 관점으로 분류하고 즉시 조치와 재발 방지 통제를 함께 표준화한다.
사고 유형별 즉시 조치가 다르다: 품질 회귀는 롤백, 비용 폭증은 경량 모델 라우팅, 정책 우회는 승인 모드 전환, MCP/Skill 침해는 서버 disable·token revoke다.
격리는 영향 scope 축소 → side effect 경로 중단 → token·연결 회수 → fallback 활성화 → trace·approval 증거 보존 순으로 진행한다.
LLMOps 사고는 보안 사고와 통합 관리되며 품질 회귀 SEV-2/3, 정책 우회 SEV-1/2로 분류해 에스컬레이션한다.
자동 복구는 블래스트 레디우스가 제한된 사고에 먼저 적용하고 SEV-1급은 사람 승인 후 실행하며, 회고는 책임 추적보다 실패를 허용한 시스템 조건 제거에 집중한다.

사고 유형

유형	탐지 신호	즉시 조치
품질 회귀	Task Success 급락, judge score 하락	이전 prompt/model/tool policy로 롤백
비용 폭증	요청당 원가 급등, cache hit 급락	경량 모델 라우팅, tool call 제한, batch 전환
정책 우회	위반 응답 증가, guardrail bypass	승인 모드 전환, 정책 pack hotfix
MCP/Skill compromise	shadow server, 미승인 scope, 이상 egress	서버 disable, token revoke, sandbox 격리
A2A abuse	webhook SSRF, 인증 전 리소스 노출	peer block, push notification 중지
Voice/realtime 저하	first-audio latency, interruption loop	text fallback, session 재생성, low-latency model 전환

대응 흐름

사후 분석 항목

탐지 지연 원인(MTTD)
격리 지연 원인(Containment time)
자동화 가능한 수동 단계
동일 유형 재발 방지 통제
관련 trace_id, approval_id, MCP server ID, skill version
고객 영향 범위와 공지 필요 여부

통합 사고 분류 체계와의 연계

LLMOps 사고는 보안 사고와 함께 통합 관리됩니다:

품질 회귀: SEV-2/3로 분류, ML Platform Lead 에스컬레이션
비용 폭증: SEV-2/3로 분류, Finance + Platform 공동 대응
정책 우회: SEV-1/2로 분류, Security + Compliance 즉시 개입

데이터 보안 사고 발생 시 즉시 보안팀과 공조하여 SEV-1 대응 체계로 전환합니다.

PagerDuty AI 에이전틱 운영

기능	설명
에이전틱 탐지	AI 에이전트가 이상 패턴을 자율 탐지, 사고 유형 자동 분류
자동 복구	사전 정의된 런북 기반 자동 격리·복구 실행
에스컬레이션 AI	사고 심각도·영향 범위 분석 후 적합한 대응팀 자동 할당
사후 분석 생성	사고 타임라인·근본 원인 초안 자동 생성

격리 순서

영향 scope를 좁힙니다: tenant, channel, model version, prompt version, MCP server, skill version.

side effect 경로를 멈춥니다: 결제, 환불, 배포, 외부 발송, 파일 쓰기, shell/code execution.

token과 연결을 회수합니다: MCP/A2A credential, webhook secret, long-lived API key.

fallback을 켭니다: 이전 버전, 제한 응답, text-only, human review, read-only mode.

trace와 approval evidence를 보존한 뒤 postmortem과 regression eval을 생성합니다.

자격증명 회전·A2A 차단 예시

containment_playbook:
  trigger: mcp_or_a2a_compromise
  steps:
    - disable_mcp_server: github-readonly-prod
    - revoke_token_audience: mcp://github-readonly-prod
    - block_a2a_peer:
        agent_card_url: https://partner.example.com/.well-known/agent-card.json
        reason: webhook_ssrf_attempt
    - rotate_webhook_secret: a2a_push_notifications
    - set_runtime_mode: read_only
    - preserve_evidence:
        - trace_id
        - approval_id
        - mcp_server_logs
        - webhook_request_headers

자동 복구 적용 기준

원칙

회고는 개인의 책임을 추적하기보다, 실패를 허용한 시스템 조건을 제거하는 데 집중합니다.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
OWASP MCP 사고 위험	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/
OWASP Agentic Skills 사고 위험	2026-05-17	2026-06-16	https://owasp.org/www-project-agentic-skills-top-10/
PagerDuty AI operations ecosystem	2026-05-17	2026-06-16	https://www.pagerduty.com/newsroom/pagerduty-expands-ai-ecosystem-to-supercharge-ai-agents/

사고 유형

대응 흐름

사후 분석 항목

통합 사고 분류 체계와의 연계

PagerDuty AI 에이전틱 운영

격리 순서

자격증명 회전·A2A 차단 예시

기준일과 근거

목차

Ch8. 사고 관리 런북

사고 유형

대응 흐름

사후 분석 항목

통합 사고 분류 체계와의 연계

PagerDuty AI 에이전틱 운영

격리 순서

자격증명 회전·A2A 차단 예시

기준일과 근거

목차