AI 에이전트 오케스트레이션 패턴
멀티에이전트 설계부터 도구·라우팅·상태 관리까지 실전 패턴 가이드
AI 에이전트 하나로 해결할 수 있는 문제에는 한계가 있습니다. 프로덕션 수준의 AI 시스템은 여러 에이전트가 역할을 나누고, 도구를 호출하며, 상태를 공유하는 오케스트레이션 구조를 필요로 합니다.
이 핸드북은 멀티에이전트 시스템을 설계하고 구축하기 위한 핵심 패턴을 프레임워크에 종속되지 않는 관점에서 정리합니다.
이 핸드북의 관점
- LLMOps·AgentOps: 운영(SLO·비용·인시던트) 중심 → 이 핸드북은 설계·구축 패턴 중심
- Vercel 엔터프라이즈 AI: Vercel 스택 한정 → 이 핸드북은 프레임워크 비의존
- Claude Code 고급 활용: Claude Code 기능 활용 → 이 핸드북은 시스템 설계 관점
관련 읽기
멀티에이전트 구조를 넘어서, 에이전트가 잘 일하는 작업 환경과 평가 루프 자체를 설계하는 관점은
하네스 엔지니어링에서 따로 정리합니다.
이 핸드북이 답하는 질문
- 단일 agent로 충분한 문제와 오케스트레이션이 필요한 문제를 어떻게 구분할까
- agent, tool, workflow, memory를 어떤 경계로 분리해야 할까
- 라우팅, handoff, 평가, 복구를 어디에 배치해야 운영 가능한 시스템이 될까
- MCP, A2A, 프레임워크 선택을 어떤 기준으로 판단해야 할까
이런 독자에게 적합합니다
| 독자 | 얻는 것 |
|---|---|
| 제품/플랫폼 엔지니어 | agent를 workflow, tool, state 단위로 분해하는 기준 |
| AI 기능을 운영에 올리는 팀 | approval, recovery, eval, observability 설계 감각 |
| MCP/A2A를 검토하는 팀 | capability exposure와 agent delegation의 구분 |
| 프레임워크를 비교 중인 팀 | LangGraph, CrewAI, AutoGen, OpenAI Agents SDK, Vercel AI SDK, Mastra를 보는 기준 |
추천 읽기 경로
| 목적 | 추천 순서 |
|---|---|
| 처음부터 전체 구조를 이해하고 싶음 | foundations -> architecture-patterns -> agent-design -> tool-design |
| 실제 구현 전에 안전장치를 먼저 보고 싶음 | error-recovery -> evaluation -> production |
| MCP/A2A와 협업 구조가 궁금함 | mcp-a2a -> communication -> state-memory |
| 프레임워크를 빨리 골라야 함 | foundations -> architecture-patterns -> framework-comparison |
| 사례 중심으로 감을 잡고 싶음 | case-studies -> 필요한 장으로 역이동 |
핸드북 구조
목차
01. 오케스트레이션 개념과 지형도
단일 에이전트의 한계, 핵심 용어, 오케스트레이션이 필요한 시점 판단
02. 핵심 아키텍처 패턴
Routing, Parallelization, Pipeline, Orchestrator-Workers 등 7개 패턴 비교
03. 에이전트 설계 원칙
단일 책임, 프롬프트-도구 분리, 입출력 계약, 모델 선택 전략
04. 도구(Tool) 설계 패턴
Function calling 스키마, read/write/compute 분류, 에러 반환 규약
05. MCP와 에이전트 간 프로토콜
MCP 서버 설계, A2A 프로토콜, Agent Card, 프로토콜 선택 기준
06. 통신과 핸드오프
메시지 전달 방식, 공유 상태 vs 메시지 패싱, 핸드오프 프로토콜
07. 상태 관리와 메모리 시스템
컨텍스트 윈도우 전략, 단기/장기 메모리, 체크포인트/복원
08. 라우팅과 디스패치
Classifier 기반 라우팅, semantic routing, 폴백 체인
09. 에러 처리와 복구 전략
재시도/폴백/서킷브레이커, 에이전트 실패 격리, Human-in-the-Loop
10. 평가와 테스트
단위/통합/E2E 에이전트 테스트, trajectory 평가, 비결정성 대응
11. 프로덕션 운영 패턴
모델 라우팅, 캐싱, 관측성, 가드레일, 스케일링
12. 실전 아키텍처 사례
고객 지원, 코드 생성, 리서치, 데이터 파이프라인 4가지 사례
13. 프레임워크 비교와 선택
LangGraph, CrewAI, AutoGen, OpenAI Agents SDK, Vercel AI SDK, Mastra 비교
핵심 용어
이 핸드북 전체에서 사용하는 주요 용어의 정의입니다.
| 용어 | 정의 |
|---|---|
| Orchestrator | 작업을 분배하고 결과를 합치는 중앙 에이전트. 라우팅, 상태 관리, 승인 흐름을 제어한다. |
| Worker Agent | 특정 역할을 수행하는 하위 에이전트. 좁은 책임, 제한된 도구, 명확한 입출력 계약을 갖는다. |
| Handoff | 에이전트 간 작업 이전. 목표, 제약, 근거를 포함한 작업 패킷을 함께 넘긴다. |
| Delegation | 오케스트레이터가 worker agent에게 작업을 위임하는 행위. A2A 프로토콜에서는 task 생성으로 표현된다. |
| Tool | 에이전트가 호출하는 외부 기능 단위. read/write/compute로 분류하며, 시스템 안전 경계로 설계한다. |
읽기 전에 기억할 점
Default
대부분의 팀은 거대한 멀티에이전트 시스템보다 작은 workflow와 검증 루프에서 먼저 성과를 냅니다. 이 책도 같은 관점에서, 가장 단순한 패턴에서 시작해 필요한 경우에만 계층을 늘리는 방향을 기본값으로 둡니다.