실무 오케스트레이션 플레이북 ticket triage, alert triage, approval queue, scheduled reporting 같은 실무 runbook형 오케스트레이션 예제를 정리합니다.
많은 팀은 거대한 agent 하나보다 작은 운영 루프 여러 개 에서 먼저 효과를 봅니다.
이 페이지는 운영팀이 바로 적용할 수 있는 짧은 예제들을 기준으로, 어떤 시점에 Workflow와 AI SDK를 붙여야 하는지 정리합니다.
조건 적합도 이유 반복적인 운영 티켓이 많음 높음 runbook 자동화에 적합 완전 자율 agent보다 검증 가능한 흐름이 필요함 높음 작은 워크플로우가 더 안전 단일 초대형 agent를 만들려 함 낮음 운영 복잡도 급증
예제 핵심 흐름 가장 중요한 통제 ticket triage 분류 → 우선순위 → assignee 추천 classification drift alert triage 요약 → 중복 판단 → escalation false negative 방지 approval queue 초안 생성 → 승인 대기 → 실행 approval SLA scheduled reporting 데이터 수집 → 요약 → artifact 전달 source provenance
항목 설계 문제 운영 티켓 분류와 우선순위가 느림 흐름 티켓 입력 → 분류 → severity 제안 → owner 추천 실패 모드 잘못된 severity, owner mismatch 지표 first response time, routing accuracy
항목 설계 문제 알림 폭주로 human fatigue 발생 흐름 alert 수신 → 요약 → dedupe → human escalation 실패 모드 진짜 사고를 low priority로 분류 지표 dedupe rate, false negative rate
항목 설계 문제 승인 대기가 이메일/슬랙에 흩어짐 흐름 초안 생성 → approval event → 실행 실패 모드 승인 누락, timeout 지표 approval SLA, execution success
항목 설계 문제 주간 보고서 생성이 수동 흐름 schedule trigger → 데이터 수집 → 요약 → artifact 전달 실패 모드 source 누락, hallucinated KPI 지표 report on-time rate, data completeness
import { defineHook, sleep } from 'workflow'
const opsApprovalHook = defineHook <{ approved : boolean }>()
export async function opsPlaybook ( eventId : string ) {
'use workflow'
const event = await loadEvent (eventId)
const pattern = await classifyPattern (event)
if (pattern === 'approval' ) {
const approval = opsApprovalHook. create ({ token: `ops:${ event . id }` })
await requestOpsApproval ({ event, token: approval.token })
return Promise . race ([
approval,
sleep ( '4h' ). then (() => ({ approved: false })),
])
}
return executePlaybook (pattern, event)
}
async function loadEvent ( eventId : string ) {
'use step'
return loadOpsEvent (eventId)
}
async function classifyPattern ( event : OpsEvent ) {
'use step'
return classifyOpsPattern (event)
}
async function executePlaybook ( pattern : OpsPattern , event : OpsEvent ) {
'use step'
return runPlaybook (pattern, event)
}
통제 이유 pattern별 권한 분리 잘못된 action 차단 human escalation false negative 보완 provenance 기록 요약 근거 보존 api key scope 운영 자동화 비용 분리
Decision
실무 자동화는 거대한 범용 agent보다 작은 playbook 워크플로우로 시작합니다. ticket triage, alert
triage, approval queue, scheduled reporting처럼 관찰 가능한 운영 루프를 먼저 자동화하고, 이후에만
범위를 확장합니다.
자동화 단위가 playbook 수준으로 작게 유지되는가
false negative가 큰 예제는 human escalation을 가지는가
provenance와 결과 로그가 남는가
pattern별 비용과 성공률을 따로 볼 수 있는가