Ch8. 사고 관리 런북
품질 저하, 비용 폭증, 정책 우회 사고를 통합 관리하는 운영 표준
LLM 서비스 사고는 전통적인 장애와 다르게 "정상처럼 보이는 실패"가 많습니다.
따라서 사고를 품질/비용/정책 관점으로 분류하고, 즉시 조치와 재발 방지 통제를 함께 표준화해야 합니다.
사고 유형
| 유형 | 탐지 신호 | 즉시 조치 |
|---|---|---|
| 품질 회귀 | Task Success 급락 | 이전 버전 롤백 |
| 비용 폭증 | 요청당 원가 급등 | 경량 모델 라우팅 전환 |
| 정책 우회 | 위반 응답 증가 | 가드레일 강화 + 승인 모드 전환 |
대응 흐름
사후 분석 항목
- 탐지 지연 원인(MTTD)
- 격리 지연 원인(Containment time)
- 자동화 가능한 수동 단계
- 동일 유형 재발 방지 통제
통합 사고 분류 체계와의 연계
LLMOps 사고는 보안 사고와 함께 통합 관리됩니다:
- 품질 회귀: SEV-2/3로 분류, ML Platform Lead 에스컬레이션
- 비용 폭증: SEV-2/3로 분류, Finance + Platform 공동 대응
- 정책 우회: SEV-1/2로 분류, Security + Compliance 즉시 개입
데이터 보안 사고 발생 시 즉시 보안팀과 공조하여 SEV-1 대응 체계로 전환합니다.
PagerDuty AI 에이전틱 운영
2026년 PagerDuty는 에이전틱 클라우드 운영 모델을 도입하여, AI 에이전트가 사고 탐지부터 자동 복구까지 주도하는 생태계를 구축하고 있습니다.
| 기능 | 설명 |
|---|---|
| 에이전틱 탐지 | AI 에이전트가 이상 패턴을 자율 탐지, 사고 유형 자동 분류 |
| 자동 복구 | 사전 정의된 런북 기반 자동 격리·복구 실행 |
| 에스컬레이션 AI | 사고 심각도·영향 범위 분석 후 적합한 대응팀 자동 할당 |
| 사후 분석 생성 | 사고 타임라인·근본 원인 초안 자동 생성 |
자동 복구 적용 기준
자동 복구는 블래스트 레디우스가 제한된 사고(단일 테넌트, 경량 모델 폴백 등)에 먼저 적용하고, SEV-1급 사고는 사람 승인 후 실행하는 것을 권장합니다.
원칙
회고는 개인의 책임을 추적하기보다, 실패를 허용한 시스템 조건을 제거하는 데 집중합니다.