Ch4. 온라인 가드레일
Input·Intent·Tool·Output 4계층 가드, fail-open 금지, 재개 가능한 인간 승인 루프, MCP·Skill 공급망 통제로 실시간 사업 리스크를 제한하는 설계
핵심 요약
- 온라인 가드레일은 모델 품질 보완 장치가 아니라 사업 리스크를 제한하는 제어장치다.
- Input·Intent·Tool·Output 4계층으로 차단 대상과 조치를 나누고, fail-open을 금지해 정책 실패 시 무제한 실행을 막고 제한 모드로 강등한다.
- 고위험 tool call은 즉시 실행하지 않고 run을 중단한 뒤, serialized state·approval_id를 저장해 승인/거절 결과로 같은 run state를 재개한다(idempotency key 유지).
- 가드 구현은 정규식(
<1ms)부터 LLM 기반(200~500ms)까지 복잡도와 레이턴시가 다르므로 병렬 처리·캐싱·조기 종료로 최적화한다. - MCP·Skill 공급망은 서버 allowlist·registry, tool output provenance 검증, token audience validation, code signing·version pinning을 기본 통제로 둔다.
온라인 가드레일은 모델 품질을 보완하는 장치가 아니라, 사업 리스크를 제한하는 제어장치입니다.
가드레일 계층
| 계층 | 차단 대상 | 조치 |
|---|---|---|
| Input guard | 금칙어/공격 패턴 | 요청 거절/재입력 요청 |
| Intent guard | 정책 위반 의도 | 제한 응답 |
| Tool guard | 고위험 액션 | 승인 대기 |
| Output guard | PII/비밀 노출 | 자동 마스킹 |
폴백 설계
- 고성능 모델이 실패하면 보수형 프롬프트와 안정 모델로 전환합니다.
- 품질 회귀가 감지되면 이전 버전으로 롤백합니다.
- 예산 초과 구간에서는 프롬프트를 압축하고 경량 모델을 사용합니다.
- 고비용 테넌트는 비용 상한을 적용하고, 초과 시 제한 모드로 강등합니다.
- 정책 판단이 불확실하면 자동 실행을 금지하고, 사람 승인으로 전환합니다.
- 고위험 툴은 멱등성 키(idempotency key)를 필수로 적용합니다.
게이트 실패 처리
- Fail-open을 금지합니다(정책 실패 시 무제한 실행 금지).
- 가드레일 장애 시 제한 모드로 강등합니다.
- 고위험 액션은 멱등성 키를 적용합니다.
Human Review와 재개 가능한 승인
고위험 tool call은 모델이 필요하다고 판단해도 즉시 실행하지 않고 run을 중단합니다. 운영 시스템은 중단 사유와 실행 인자를 저장한 뒤 승인 또는 거절 결과로 같은 run state를 재개합니다.
| 단계 | 저장해야 할 증거 |
|---|---|
| 승인 요청 생성 | tool name, arguments, risk score, requester, trace_id |
| 검토 대기 | serialized state, approval_id, SLA, reviewer group |
| 승인/거절 | reviewer, decision, edited arguments, reason |
| 재개 | resumed trace_id, final tool result, downstream action |
리뷰가 몇 분 넘게 걸리는 업무라면 state를 영속화하고 새 사용자 turn으로 다시 시작하지 않습니다. 그래야 감사 추적과 idempotency key가 그대로 유지됩니다.
Approval queue SLA 예시
approval_queue:
refund_over_limit:
reviewer_group: finance-ops
sla_minutes: 15
auto_expire_minutes: 60
default_on_expiry: reject
evidence:
- trace_id
- approval_id
- tool_arguments
- risk_score
code_execution:
reviewer_group: platform-security
sla_minutes: 5
auto_expire_minutes: 20
default_on_expiry: reject가드레일 구현 복잡도
계층별 구현 옵션
| 가드레일 | 구현 방식 | 복잡도 | 레이턴시 영향 |
|---|---|---|---|
| Input Guard | 정규식 기반 | 낮음 | < 1ms |
| Input Guard | ML 분류기 | 중간 | 10-30ms |
| Intent Guard | LLM 기반 | 높음 | 200-500ms |
| Tool Guard | 정적 규칙 | 낮음 | < 1ms |
| Tool Guard | 동적 위험 점수 | 중간 | 5-10ms |
| Output Guard | PII 정규식 | 낮음 | < 5ms |
| Output Guard | NER 모델 | 중간 | 20-50ms |
레이턴시 최적화 전략
- 병렬 처리: 독립적인 가드를 동시 실행하여 전체 지연 감소
- 캐싱: 반복 패턴 결과 재사용으로 90% 레이턴시 감소
- 조기 종료: Input Guard에서 차단 시 후속 가드 스킵
- 스트리밍 필터: 응답 생성 중 실시간 필터링
Escalation 패턴
- 동기식 승인: 높은 보안, 높은 레이턴시 (금융 거래)
- 비동기식 승인: 낮은 레이턴시, 중간 보안 (대량 처리)
- 조건부 자동 승인: 최소 레이턴시 (위험 점수 기반)
MCP·Skill 공급망 가드레일
AgentOps에서 공격면은 모델보다 런타임 확장 지점에서 더 자주 넓어집니다. OWASP MCP Top 10과 Agentic Skills Top 10을 기준으로 다음 통제를 기본값으로 둡니다.
| 위험 | 기본 통제 |
|---|---|
| Shadow MCP server | 서버 allowlist, owner, purpose, scope를 registry로 관리 |
| Tool poisoning | tool output을 신뢰하지 않고 provenance와 content-type을 검증 |
| Token mismanagement | audience validation, token passthrough 금지, 단기 token 사용 |
| Skill compromise | verified publisher, code signing, version pinning, permission manifest |
| Unexpected code execution | container/sandbox, filesystem/network egress 제한, 실행 로그 저장 |
2026년 가드레일 도구 생태계
| 도구 | 버전/상태 | 특징 |
|---|---|---|
| NeMo Guardrails | v0.20.0 | NVIDIA, Colang 모델링, 병렬 레일 실행, OpenTelemetry 네이티브 |
| Guardrails AI | v0.9.1 | 오픈소스 Python, Guardrails Hub 사전 구축 검증기 |
| Lakera Guard → Check Point | 인수 완료 | 2025.09 Check Point이 인수, Infinity 플랫폼 통합, 50ms 미만 지연 |
| OpenAI Agents SDK | 최신 | input/output/tool guardrails, human review, resumable state |
| Anthropic/Claude guardrails | 최신 | jailbreak, prompt leak, character consistency, streaming refusal 가이드 |
2026년 변화
NeMo Guardrails가 OpenTelemetry로 옮겨가면서 LLM 호출, 레일 실행, 토큰 사용량을 표준 관측 파이프라인 하나로 묶을 수 있습니다. Lakera Guard는 Check Point 인수 후 WAF/방화벽과 묶인 엔터프라이즈 AI 보안으로 자리를 옮겼습니다.
기준일과 근거
| 항목 | 기준일 | 재확인 권장 | 1차 출처 |
|---|---|---|---|
| OpenAI guardrails/human review | 2026-05-17 | 2026-06-16 | https://developers.openai.com/api/docs/guides/agents/guardrails-approvals |
| OWASP MCP Top 10 | 2026-05-17 | 2026-06-16 | https://owasp.org/www-project-mcp-top-10/ |
| OWASP Agentic Skills Top 10 | 2026-05-17 | 2026-06-16 | https://owasp.org/www-project-agentic-skills-top-10/ |
| Claude guardrails/refusal handling | 2026-05-17 | 2026-06-16 | https://docs.claude.com/en/docs/test-and-evaluate/strengthen-guardrails/handle-streaming-refusals |