Ch4. 온라인 가드레일
실시간 정책 집행, 차단, 폴백, 인간 승인 루프 설계
온라인 가드레일은 모델 품질을 보완하는 장치가 아니라, 사업 리스크를 제한하는 제어장치입니다.
가드레일 계층
| 계층 | 차단 대상 | 조치 |
|---|---|---|
| Input guard | 금칙어/공격 패턴 | 요청 거절/재입력 요청 |
| Intent guard | 정책 위반 의도 | 제한 응답 |
| Tool guard | 고위험 액션 | 승인 대기 |
| Output guard | PII/비밀 노출 | 자동 마스킹 |
폴백 설계
- 고성능 모델이 실패하면 보수형 프롬프트와 안정 모델로 전환합니다.
- 품질 회귀가 감지되면 이전 버전으로 롤백합니다.
- 예산 초과 구간에서는 프롬프트를 압축하고 경량 모델을 사용합니다.
- 고비용 테넌트는 비용 상한을 적용하고, 초과 시 제한 모드로 강등합니다.
- 정책 판단이 불확실하면 자동 실행을 금지하고, 사람 승인으로 전환합니다.
- 고위험 툴은 멱등성 키(idempotency key)를 필수로 적용합니다.
게이트 실패 처리
- Fail-open을 금지합니다(정책 실패 시 무제한 실행 금지).
- 가드레일 장애 시 제한 모드로 강등합니다.
- 고위험 액션은 멱등성 키를 적용합니다.
가드레일 구현 복잡도
계층별 구현 옵션
| 가드레일 | 구현 방식 | 복잡도 | 레이턴시 영향 |
|---|---|---|---|
| Input Guard | 정규식 기반 | 낮음 | < 1ms |
| Input Guard | ML 분류기 | 중간 | 10-30ms |
| Intent Guard | LLM 기반 | 높음 | 200-500ms |
| Tool Guard | 정적 규칙 | 낮음 | < 1ms |
| Tool Guard | 동적 위험 점수 | 중간 | 5-10ms |
| Output Guard | PII 정규식 | 낮음 | < 5ms |
| Output Guard | NER 모델 | 중간 | 20-50ms |
레이턴시 최적화 전략
- 병렬 처리: 독립적인 가드를 동시 실행하여 전체 지연 감소
- 캐싱: 반복 패턴 결과 재사용으로 90% 레이턴시 감소
- 조기 종료: Input Guard에서 차단 시 후속 가드 스킵
- 스트리밍 필터: 응답 생성 중 실시간 필터링
Escalation 패턴
- 동기식 승인: 높은 보안, 높은 레이턴시 (금융 거래)
- 비동기식 승인: 낮은 레이턴시, 중간 보안 (대량 처리)
- 조건부 자동 승인: 최소 레이턴시 (위험 점수 기반)
2026년 가드레일 도구 생태계
| 도구 | 버전/상태 | 특징 |
|---|---|---|
| NeMo Guardrails | v0.20.0 | NVIDIA, Colang 모델링, 병렬 레일 실행, OpenTelemetry 네이티브 |
| Guardrails AI | v0.9.1 | 오픈소스 Python, Guardrails Hub 사전 구축 검증기 |
| Lakera Guard → Check Point | 인수 완료 | 2025.09 Check Point이 인수, Infinity 플랫폼 통합, 50ms 미만 지연 |
| Anthropic Constitutional Classifiers | — | 이유 기반 정렬, 4단계 우선순위(안전 > 윤리 > 규정 > 유용성) |
2026년 변화
NeMo Guardrails가 OpenTelemetry로 마이그레이션해, LLM 호출/레일 실행/토큰 사용량을 표준 관측 파이프라인으로 통합할 수 있습니다. Lakera Guard는 Check Point 인수 후 WAF/방화벽과 통합된 엔터프라이즈 AI 보안으로 진화했습니다.