실무 오케스트레이션 플레이북

ticket triage, alert triage, approval queue, scheduled reporting 같은 실무 runbook형 오케스트레이션 예제를 정리합니다.

많은 팀은 거대한 agent 하나보다 작은 운영 루프 여러 개에서 먼저 효과를 봅니다.
이 페이지는 운영팀이 바로 적용할 수 있는 짧은 예제들을 기준으로, 어떤 시점에 Workflow와 AI SDK를 붙여야 하는지 정리합니다.

언제 이 패턴을 쓰는가

조건	적합도	이유
반복적인 운영 티켓이 많음	높음	runbook 자동화에 적합
완전 자율 agent보다 검증 가능한 흐름이 필요함	높음	작은 워크플로우가 더 안전
단일 초대형 agent를 만들려 함	낮음	운영 복잡도 급증

대표 예제

예제	핵심 흐름	가장 중요한 통제
ticket triage	분류 → 우선순위 → assignee 추천	classification drift
alert triage	요약 → 중복 판단 → escalation	false negative 방지
approval queue	초안 생성 → 승인 대기 → 실행	approval SLA
scheduled reporting	데이터 수집 → 요약 → artifact 전달	source provenance

구조

예제 1. Ticket triage

항목	설계
문제	운영 티켓 분류와 우선순위가 느림
흐름	티켓 입력 → 분류 → severity 제안 → owner 추천
실패 모드	잘못된 severity, owner mismatch
지표	first response time, routing accuracy

예제 2. Alert triage

항목	설계
문제	알림 폭주로 human fatigue 발생
흐름	alert 수신 → 요약 → dedupe → human escalation
실패 모드	진짜 사고를 low priority로 분류
지표	dedupe rate, false negative rate

예제 3. Approval queue

항목	설계
문제	승인 대기가 이메일/슬랙에 흩어짐
흐름	초안 생성 → approval event → 실행
실패 모드	승인 누락, timeout
지표	approval SLA, execution success

예제 4. Scheduled reporting

항목	설계
문제	주간 보고서 생성이 수동
흐름	schedule trigger → 데이터 수집 → 요약 → artifact 전달
실패 모드	source 누락, hallucinated KPI
지표	report on-time rate, data completeness

최소 구현 스켈레톤

import { defineHook, sleep } from 'workflow'

const opsApprovalHook = defineHook<{ approved: boolean }>()

export async function opsPlaybook(eventId: string) {
  'use workflow'

  const event = await loadEvent(eventId)
  const pattern = await classifyPattern(event)

  if (pattern === 'approval') {
    const approval = opsApprovalHook.create({ token: `ops:${event.id}` })
    await requestOpsApproval({ event, token: approval.token })
    return Promise.race([
      approval,
      sleep('4h').then(() => ({ approved: false })),
    ])
  }

  return executePlaybook(pattern, event)
}

async function loadEvent(eventId: string) {
  'use step'
  return loadOpsEvent(eventId)
}

async function classifyPattern(event: OpsEvent) {
  'use step'
  return classifyOpsPattern(event)
}

async function executePlaybook(pattern: OpsPattern, event: OpsEvent) {
  'use step'
  return runPlaybook(pattern, event)
}

보안·거버넌스 포인트

통제	이유
pattern별 권한 분리	잘못된 action 차단
human escalation	false negative 보완
provenance 기록	요약 근거 보존
api key scope	운영 자동화 비용 분리

ADR 스타일 결론

Decision

실무 자동화는 거대한 범용 agent보다 작은 playbook 워크플로우로 시작합니다. ticket triage, alert triage, approval queue, scheduled reporting처럼 관찰 가능한 운영 루프를 먼저 자동화하고, 이후에만 범위를 확장합니다.

실무 체크리스트

자동화 단위가 playbook 수준으로 작게 유지되는가
false negative가 큰 예제는 human escalation을 가지는가
provenance와 결과 로그가 남는가
pattern별 비용과 성공률을 따로 볼 수 있는가

언제 이 패턴을 쓰는가

조건	적합도	이유
반복적인 운영 티켓이 많음	높음	runbook 자동화에 적합
완전 자율 agent보다 검증 가능한 흐름이 필요함	높음	작은 워크플로우가 더 안전
단일 초대형 agent를 만들려 함	낮음	운영 복잡도 급증

대표 예제

예제	핵심 흐름	가장 중요한 통제
ticket triage	분류 → 우선순위 → assignee 추천	classification drift
alert triage	요약 → 중복 판단 → escalation	false negative 방지
approval queue	초안 생성 → 승인 대기 → 실행	approval SLA
scheduled reporting	데이터 수집 → 요약 → artifact 전달	source provenance

구조

예제 1. Ticket triage

항목	설계
문제	운영 티켓 분류와 우선순위가 느림
흐름	티켓 입력 → 분류 → severity 제안 → owner 추천
실패 모드	잘못된 severity, owner mismatch
지표	first response time, routing accuracy

예제 2. Alert triage

항목	설계
문제	알림 폭주로 human fatigue 발생
흐름	alert 수신 → 요약 → dedupe → human escalation
실패 모드	진짜 사고를 low priority로 분류
지표	dedupe rate, false negative rate

예제 3. Approval queue

항목	설계
문제	승인 대기가 이메일/슬랙에 흩어짐
흐름	초안 생성 → approval event → 실행
실패 모드	승인 누락, timeout
지표	approval SLA, execution success

예제 4. Scheduled reporting

항목	설계
문제	주간 보고서 생성이 수동
흐름	schedule trigger → 데이터 수집 → 요약 → artifact 전달
실패 모드	source 누락, hallucinated KPI
지표	report on-time rate, data completeness

최소 구현 스켈레톤

import { defineHook, sleep } from 'workflow'

const opsApprovalHook = defineHook<{ approved: boolean }>()

export async function opsPlaybook(eventId: string) {
  'use workflow'

  const event = await loadEvent(eventId)
  const pattern = await classifyPattern(event)

  if (pattern === 'approval') {
    const approval = opsApprovalHook.create({ token: `ops:${event.id}` })
    await requestOpsApproval({ event, token: approval.token })
    return Promise.race([
      approval,
      sleep('4h').then(() => ({ approved: false })),
    ])
  }

  return executePlaybook(pattern, event)
}

async function loadEvent(eventId: string) {
  'use step'
  return loadOpsEvent(eventId)
}

async function classifyPattern(event: OpsEvent) {
  'use step'
  return classifyOpsPattern(event)
}

async function executePlaybook(pattern: OpsPattern, event: OpsEvent) {
  'use step'
  return runPlaybook(pattern, event)
}

보안·거버넌스 포인트

통제	이유
pattern별 권한 분리	잘못된 action 차단
human escalation	false negative 보완
provenance 기록	요약 근거 보존
api key scope	운영 자동화 비용 분리

ADR 스타일 결론

Decision

실무 체크리스트

자동화 단위가 playbook 수준으로 작게 유지되는가
false negative가 큰 예제는 human escalation을 가지는가
provenance와 결과 로그가 남는가
pattern별 비용과 성공률을 따로 볼 수 있는가

실무 오케스트레이션 플레이북

언제 이 패턴을 쓰는가

대표 예제

구조

예제 1. Ticket triage

예제 2. Alert triage

예제 3. Approval queue

예제 4. Scheduled reporting

최소 구현 스켈레톤

보안·거버넌스 포인트

ADR 스타일 결론

실무 체크리스트

관련 문서

목차

실무 오케스트레이션 플레이북

언제 이 패턴을 쓰는가

대표 예제

구조

예제 1. Ticket triage

예제 2. Alert triage

예제 3. Approval queue

예제 4. Scheduled reporting

최소 구현 스켈레톤

보안·거버넌스 포인트

ADR 스타일 결론

실무 체크리스트

관련 문서

목차