Ch4. 온라인 가드레일

Input·Intent·Tool·Output 4계층 가드, fail-open 금지, 재개 가능한 인간 승인 루프, MCP·Skill 공급망 통제로 실시간 사업 리스크를 제한하는 설계

핵심 요약

온라인 가드레일은 모델 품질 보완 장치가 아니라 사업 리스크를 제한하는 제어장치다.
Input·Intent·Tool·Output 4계층으로 차단 대상과 조치를 나누고, fail-open을 금지해 정책 실패 시 무제한 실행을 막고 제한 모드로 강등한다.
고위험 tool call은 즉시 실행하지 않고 run을 중단한 뒤, serialized state·approval_id를 저장해 승인/거절 결과로 같은 run state를 재개한다(idempotency key 유지).
가드 구현은 정규식(<1ms)부터 LLM 기반(200~500ms)까지 복잡도와 레이턴시가 다르므로 병렬 처리·캐싱·조기 종료로 최적화한다.
MCP·Skill 공급망은 서버 allowlist·registry, tool output provenance 검증, token audience validation, code signing·version pinning을 기본 통제로 둔다.

온라인 가드레일은 모델 품질을 보완하는 장치가 아니라, 사업 리스크를 제한하는 제어장치입니다.

가드레일 계층

계층	차단 대상	조치
Input guard	금칙어/공격 패턴	요청 거절/재입력 요청
Intent guard	정책 위반 의도	제한 응답
Tool guard	고위험 액션	승인 대기
Output guard	PII/비밀 노출	자동 마스킹

폴백 설계

고성능 모델이 실패하면 보수형 프롬프트와 안정 모델로 전환합니다.
품질 회귀가 감지되면 이전 버전으로 롤백합니다.

예산 초과 구간에서는 프롬프트를 압축하고 경량 모델을 사용합니다.
고비용 테넌트는 비용 상한을 적용하고, 초과 시 제한 모드로 강등합니다.

정책 판단이 불확실하면 자동 실행을 금지하고, 사람 승인으로 전환합니다.
고위험 툴은 멱등성 키(idempotency key)를 필수로 적용합니다.

게이트 실패 처리

Fail-open을 금지합니다(정책 실패 시 무제한 실행 금지).
가드레일 장애 시 제한 모드로 강등합니다.
고위험 액션은 멱등성 키를 적용합니다.

Human Review와 재개 가능한 승인

고위험 tool call은 모델이 필요하다고 판단해도 즉시 실행하지 않고 run을 중단합니다. 운영 시스템은 중단 사유와 실행 인자를 저장한 뒤 승인 또는 거절 결과로 같은 run state를 재개합니다.

단계	저장해야 할 증거
승인 요청 생성	tool name, arguments, risk score, requester, trace_id
검토 대기	serialized state, approval_id, SLA, reviewer group
승인/거절	reviewer, decision, edited arguments, reason
재개	resumed trace_id, final tool result, downstream action

리뷰가 몇 분 넘게 걸리는 업무라면 state를 영속화하고 새 사용자 turn으로 다시 시작하지 않습니다. 그래야 감사 추적과 idempotency key가 그대로 유지됩니다.

Approval queue SLA 예시

approval_queue:
  refund_over_limit:
    reviewer_group: finance-ops
    sla_minutes: 15
    auto_expire_minutes: 60
    default_on_expiry: reject
    evidence:
      - trace_id
      - approval_id
      - tool_arguments
      - risk_score
  code_execution:
    reviewer_group: platform-security
    sla_minutes: 5
    auto_expire_minutes: 20
    default_on_expiry: reject

가드레일 구현 복잡도

계층별 구현 옵션

가드레일	구현 방식	복잡도	레이턴시 영향
Input Guard	정규식 기반	낮음	< 1ms
Input Guard	ML 분류기	중간	10-30ms
Intent Guard	LLM 기반	높음	200-500ms
Tool Guard	정적 규칙	낮음	< 1ms
Tool Guard	동적 위험 점수	중간	5-10ms
Output Guard	PII 정규식	낮음	< 5ms
Output Guard	NER 모델	중간	20-50ms

레이턴시 최적화 전략

병렬 처리: 독립적인 가드를 동시 실행하여 전체 지연 감소
캐싱: 반복 패턴 결과 재사용으로 90% 레이턴시 감소
조기 종료: Input Guard에서 차단 시 후속 가드 스킵
스트리밍 필터: 응답 생성 중 실시간 필터링

Escalation 패턴

동기식 승인: 높은 보안, 높은 레이턴시 (금융 거래)
비동기식 승인: 낮은 레이턴시, 중간 보안 (대량 처리)
조건부 자동 승인: 최소 레이턴시 (위험 점수 기반)

MCP·Skill 공급망 가드레일

AgentOps에서 공격면은 모델보다 런타임 확장 지점에서 더 자주 넓어집니다. OWASP MCP Top 10과 Agentic Skills Top 10을 기준으로 다음 통제를 기본값으로 둡니다.

위험	기본 통제
Shadow MCP server	서버 allowlist, owner, purpose, scope를 registry로 관리
Tool poisoning	tool output을 신뢰하지 않고 provenance와 content-type을 검증
Token mismanagement	audience validation, token passthrough 금지, 단기 token 사용
Skill compromise	verified publisher, code signing, version pinning, permission manifest
Unexpected code execution	container/sandbox, filesystem/network egress 제한, 실행 로그 저장

2026년 가드레일 도구 생태계

도구	버전/상태	특징
NeMo Guardrails	v0.20.0	NVIDIA, Colang 모델링, 병렬 레일 실행, OpenTelemetry 네이티브
Guardrails AI	v0.9.1	오픈소스 Python, Guardrails Hub 사전 구축 검증기
Lakera Guard → Check Point	인수 완료	2025.09 Check Point이 인수, Infinity 플랫폼 통합, 50ms 미만 지연
OpenAI Agents SDK	최신	input/output/tool guardrails, human review, resumable state
Anthropic/Claude guardrails	최신	jailbreak, prompt leak, character consistency, streaming refusal 가이드

2026년 변화

NeMo Guardrails가 OpenTelemetry로 옮겨가면서 LLM 호출, 레일 실행, 토큰 사용량을 표준 관측 파이프라인 하나로 묶을 수 있습니다. Lakera Guard는 Check Point 인수 후 WAF/방화벽과 묶인 엔터프라이즈 AI 보안으로 자리를 옮겼습니다.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
OpenAI guardrails/human review	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agents/guardrails-approvals
OWASP MCP Top 10	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/
OWASP Agentic Skills Top 10	2026-05-17	2026-06-16	https://owasp.org/www-project-agentic-skills-top-10/
Claude guardrails/refusal handling	2026-05-17	2026-06-16	https://docs.claude.com/en/docs/test-and-evaluate/strengthen-guardrails/handle-streaming-refusals

핵심 요약

온라인 가드레일은 모델 품질 보완 장치가 아니라 사업 리스크를 제한하는 제어장치다.
Input·Intent·Tool·Output 4계층으로 차단 대상과 조치를 나누고, fail-open을 금지해 정책 실패 시 무제한 실행을 막고 제한 모드로 강등한다.
고위험 tool call은 즉시 실행하지 않고 run을 중단한 뒤, serialized state·approval_id를 저장해 승인/거절 결과로 같은 run state를 재개한다(idempotency key 유지).
가드 구현은 정규식(<1ms)부터 LLM 기반(200~500ms)까지 복잡도와 레이턴시가 다르므로 병렬 처리·캐싱·조기 종료로 최적화한다.
MCP·Skill 공급망은 서버 allowlist·registry, tool output provenance 검증, token audience validation, code signing·version pinning을 기본 통제로 둔다.

온라인 가드레일은 모델 품질을 보완하는 장치가 아니라, 사업 리스크를 제한하는 제어장치입니다.

가드레일 계층

계층	차단 대상	조치
Input guard	금칙어/공격 패턴	요청 거절/재입력 요청
Intent guard	정책 위반 의도	제한 응답
Tool guard	고위험 액션	승인 대기
Output guard	PII/비밀 노출	자동 마스킹

폴백 설계

고성능 모델이 실패하면 보수형 프롬프트와 안정 모델로 전환합니다.
품질 회귀가 감지되면 이전 버전으로 롤백합니다.

예산 초과 구간에서는 프롬프트를 압축하고 경량 모델을 사용합니다.
고비용 테넌트는 비용 상한을 적용하고, 초과 시 제한 모드로 강등합니다.

정책 판단이 불확실하면 자동 실행을 금지하고, 사람 승인으로 전환합니다.
고위험 툴은 멱등성 키(idempotency key)를 필수로 적용합니다.

게이트 실패 처리

Fail-open을 금지합니다(정책 실패 시 무제한 실행 금지).
가드레일 장애 시 제한 모드로 강등합니다.
고위험 액션은 멱등성 키를 적용합니다.

Human Review와 재개 가능한 승인

단계	저장해야 할 증거
승인 요청 생성	tool name, arguments, risk score, requester, trace_id
검토 대기	serialized state, approval_id, SLA, reviewer group
승인/거절	reviewer, decision, edited arguments, reason
재개	resumed trace_id, final tool result, downstream action

Approval queue SLA 예시

approval_queue:
  refund_over_limit:
    reviewer_group: finance-ops
    sla_minutes: 15
    auto_expire_minutes: 60
    default_on_expiry: reject
    evidence:
      - trace_id
      - approval_id
      - tool_arguments
      - risk_score
  code_execution:
    reviewer_group: platform-security
    sla_minutes: 5
    auto_expire_minutes: 20
    default_on_expiry: reject

가드레일 구현 복잡도

계층별 구현 옵션

가드레일	구현 방식	복잡도	레이턴시 영향
Input Guard	정규식 기반	낮음	< 1ms
Input Guard	ML 분류기	중간	10-30ms
Intent Guard	LLM 기반	높음	200-500ms
Tool Guard	정적 규칙	낮음	< 1ms
Tool Guard	동적 위험 점수	중간	5-10ms
Output Guard	PII 정규식	낮음	< 5ms
Output Guard	NER 모델	중간	20-50ms

레이턴시 최적화 전략

병렬 처리: 독립적인 가드를 동시 실행하여 전체 지연 감소
캐싱: 반복 패턴 결과 재사용으로 90% 레이턴시 감소
조기 종료: Input Guard에서 차단 시 후속 가드 스킵
스트리밍 필터: 응답 생성 중 실시간 필터링

Escalation 패턴

동기식 승인: 높은 보안, 높은 레이턴시 (금융 거래)
비동기식 승인: 낮은 레이턴시, 중간 보안 (대량 처리)
조건부 자동 승인: 최소 레이턴시 (위험 점수 기반)

MCP·Skill 공급망 가드레일

위험	기본 통제
Shadow MCP server	서버 allowlist, owner, purpose, scope를 registry로 관리
Tool poisoning	tool output을 신뢰하지 않고 provenance와 content-type을 검증
Token mismanagement	audience validation, token passthrough 금지, 단기 token 사용
Skill compromise	verified publisher, code signing, version pinning, permission manifest
Unexpected code execution	container/sandbox, filesystem/network egress 제한, 실행 로그 저장

2026년 가드레일 도구 생태계

도구	버전/상태	특징
NeMo Guardrails	v0.20.0	NVIDIA, Colang 모델링, 병렬 레일 실행, OpenTelemetry 네이티브
Guardrails AI	v0.9.1	오픈소스 Python, Guardrails Hub 사전 구축 검증기
Lakera Guard → Check Point	인수 완료	2025.09 Check Point이 인수, Infinity 플랫폼 통합, 50ms 미만 지연
OpenAI Agents SDK	최신	input/output/tool guardrails, human review, resumable state
Anthropic/Claude guardrails	최신	jailbreak, prompt leak, character consistency, streaming refusal 가이드

2026년 변화

기준일과 근거

항목	기준일	재확인 권장	1차 출처
OpenAI guardrails/human review	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agents/guardrails-approvals
OWASP MCP Top 10	2026-05-17	2026-06-16	https://owasp.org/www-project-mcp-top-10/
OWASP Agentic Skills Top 10	2026-05-17	2026-06-16	https://owasp.org/www-project-agentic-skills-top-10/
Claude guardrails/refusal handling	2026-05-17	2026-06-16	https://docs.claude.com/en/docs/test-and-evaluate/strengthen-guardrails/handle-streaming-refusals

가드레일 계층

폴백 설계

게이트 실패 처리

Human Review와 재개 가능한 승인

Approval queue SLA 예시

가드레일 구현 복잡도

계층별 구현 옵션

레이턴시 최적화 전략

Escalation 패턴

MCP·Skill 공급망 가드레일

2026년 가드레일 도구 생태계

기준일과 근거

목차

Ch4. 온라인 가드레일

가드레일 계층

폴백 설계

게이트 실패 처리

Human Review와 재개 가능한 승인

Approval queue SLA 예시

가드레일 구현 복잡도

계층별 구현 옵션

레이턴시 최적화 전략

Escalation 패턴

MCP·Skill 공급망 가드레일

2026년 가드레일 도구 생태계

기준일과 근거

목차