AI Gateway 제어면

AI Gateway를 모델 라우팅, 비용, 정책, 자격 증명 관리를 중앙화하는 제어면으로 운영하는 방법을 정리합니다.

AI Gateway를 도입하는 이유를 흔히 "멀티 모델 지원"으로 설명하지만, 엔터프라이즈에서 더 중요한 가치는 운영 정책 중앙화입니다.
모델 string, provider 우선순위, API key, usage, custom reporting, caching, ZDR를 앱 코드 밖에서 일관되게 다루게 해주기 때문입니다.

2026-05 모델·운영 업데이트

AI Gateway 모델 카탈로그와 운영 기능은 빠르게 바뀝니다. 2026년 4월 말 기준으로는 GPT-5.5, Grok 4.3, GPT Image 2 같은 신규 모델과 Custom Reporting API를 함께 추적해야 합니다.

변화	운영 영향
`openai/gpt-5.5`, `openai/gpt-5.5-pro`	코딩/장기 추론 tier 후보로 eval 기준선 추가
`xai/grok-4.3`	1M context와 tool calling 개선을 활용한 긴 분석 경로 후보
`openai/gpt-image-2`	이미지 생성도 Gateway usage/cost 추적 범위에 포함
Custom Reporting API	모델, provider, user, tag, credential type별 비용·토큰 집계 가능

실무 권장

새 모델은 "더 좋은 기본값"이 아니라 새 운영 tier입니다. 모델 문자열을 하드코딩하기 전 Gateway 모델 카탈로그에서 지원 provider, 가격, ZDR, context, tool support를 확인하고 preview/staging eval을 먼저 돌리세요.

제어면이 담당해야 할 것

책임	Gateway에서 보는 기능	애플리케이션에 남길 것
모델 선택	model id, provider routing	업무별 모델 요구사항 정의
장애 완화	provider order, fallback, timeouts	fallback 허용 여부 정책
비용 관리	budgets, spend visibility, reporting metadata	예산 소유자 지정
데이터 정책	ZDR, BYOK	어떤 요청에 적용할지 분류
응답 성능	caching, provider tuning	cacheability 판단

권장 흐름

제어면 운영 체크포인트

항목	권장 기본값	이유
provider order	primary + 1 secondary	모델 장애를 request 수준에서 완화
timeouts	UI path와 batch path 분리	동일 timeout은 비용과 UX를 모두 악화
API key scope	app별 분리, 운영자용 별도	감사와 예산 소유권 분리
usage tagging	user + feature + tenant tag	고객/기능별 비용 분석 가능
BYOK	고객 요구가 있을 때만	운영 복잡도 증가
ZDR	민감 데이터 경로 기본 적용	정책 일관성 확보

BYOK와 팀 단위 자격 증명 전략

모델	적용 상황	장점	trade-off
Platform-managed key	기본 경로	운영 단순성	일부 고객 정책 충족 한계
Team-scoped key	부서/서비스 분리	비용 책임 명확	secret 수 증가
Customer BYOK	규제/대기업 고객	고객 통제 강화	운영/지원 비용 상승

캐싱과 fallback을 보는 법

기능	흔한 오해	실무 기준
caching	응답을 항상 빨라지게 한다	읽기 비중이 높은 반복 질의에만 적극 사용
fallback	항상 품질을 유지한다	실제 목적은 운영 연속성 확보
model discovery	자동 최적 모델 선택기	운영자가 선택지를 표준화하는 도구

import { streamText } from 'ai'

const result = streamText({
  model: 'anthropic/claude-sonnet-4.6',
  prompt,
  providerOptions: {
    gateway: {
      order: ['vertex', 'anthropic'],
      only: ['vertex', 'anthropic'],
      caching: 'auto',
      tags: ['feature:support-chat', `tenant:${tenantId}`],
      user: userId,
    },
  },
})

실무 해석

Gateway는 벤더 추상화 레이어라기보다 팀의 모델 사용 습관을 통제하는 레이어입니다. 앱 코드가 직접 provider SDK를 부르면 비용과 보안 통제가 바로 분산됩니다.

예산과 usage 운영

단위	질문	예시
Feature tag	어떤 기능이 비용을 쓰는가	support-chat, internal-research
User	누가 호출하는가	user id / operator id
Model	어떤 모델이 효율적인가	fast tier, reasoning tier
Tenant/plan tag	누구를 위해 썼는가	tenant id, plan tier

ADR 스타일 결론

Decision

AI Gateway는 멀티 모델 추상화 레이어가 아니라 운영 정책의 중앙 제어면으로 사용합니다. 모델 선택, 예산, 자격 증명, fallback, ZDR 정책은 앱 코드가 아니라 Gateway 중심으로 관리합니다.

실무 체크리스트

모든 프로덕션 모델 호출이 Gateway를 통과하는가
UI path와 background path의 timeout이 분리돼 있는가
API key가 app, workflow, ops bot 단위로 분리돼 있는가
민감 경로에 ZDR 또는 BYOK 적용 기준이 문서화돼 있는가

2026-05 모델·운영 업데이트

변화	운영 영향
`openai/gpt-5.5`, `openai/gpt-5.5-pro`	코딩/장기 추론 tier 후보로 eval 기준선 추가
`xai/grok-4.3`	1M context와 tool calling 개선을 활용한 긴 분석 경로 후보
`openai/gpt-image-2`	이미지 생성도 Gateway usage/cost 추적 범위에 포함
Custom Reporting API	모델, provider, user, tag, credential type별 비용·토큰 집계 가능

실무 권장

제어면이 담당해야 할 것

책임	Gateway에서 보는 기능	애플리케이션에 남길 것
모델 선택	model id, provider routing	업무별 모델 요구사항 정의
장애 완화	provider order, fallback, timeouts	fallback 허용 여부 정책
비용 관리	budgets, spend visibility, reporting metadata	예산 소유자 지정
데이터 정책	ZDR, BYOK	어떤 요청에 적용할지 분류
응답 성능	caching, provider tuning	cacheability 판단

권장 흐름

제어면 운영 체크포인트

항목	권장 기본값	이유
provider order	primary + 1 secondary	모델 장애를 request 수준에서 완화
timeouts	UI path와 batch path 분리	동일 timeout은 비용과 UX를 모두 악화
API key scope	app별 분리, 운영자용 별도	감사와 예산 소유권 분리
usage tagging	user + feature + tenant tag	고객/기능별 비용 분석 가능
BYOK	고객 요구가 있을 때만	운영 복잡도 증가
ZDR	민감 데이터 경로 기본 적용	정책 일관성 확보

BYOK와 팀 단위 자격 증명 전략

모델	적용 상황	장점	trade-off
Platform-managed key	기본 경로	운영 단순성	일부 고객 정책 충족 한계
Team-scoped key	부서/서비스 분리	비용 책임 명확	secret 수 증가
Customer BYOK	규제/대기업 고객	고객 통제 강화	운영/지원 비용 상승

캐싱과 fallback을 보는 법

기능	흔한 오해	실무 기준
caching	응답을 항상 빨라지게 한다	읽기 비중이 높은 반복 질의에만 적극 사용
fallback	항상 품질을 유지한다	실제 목적은 운영 연속성 확보
model discovery	자동 최적 모델 선택기	운영자가 선택지를 표준화하는 도구

import { streamText } from 'ai'

const result = streamText({
  model: 'anthropic/claude-sonnet-4.6',
  prompt,
  providerOptions: {
    gateway: {
      order: ['vertex', 'anthropic'],
      only: ['vertex', 'anthropic'],
      caching: 'auto',
      tags: ['feature:support-chat', `tenant:${tenantId}`],
      user: userId,
    },
  },
})

실무 해석

예산과 usage 운영

단위	질문	예시
Feature tag	어떤 기능이 비용을 쓰는가	support-chat, internal-research
User	누가 호출하는가	user id / operator id
Model	어떤 모델이 효율적인가	fast tier, reasoning tier
Tenant/plan tag	누구를 위해 썼는가	tenant id, plan tier

ADR 스타일 결론

Decision

실무 체크리스트

모든 프로덕션 모델 호출이 Gateway를 통과하는가
UI path와 background path의 timeout이 분리돼 있는가
API key가 app, workflow, ops bot 단위로 분리돼 있는가
민감 경로에 ZDR 또는 BYOK 적용 기준이 문서화돼 있는가

AI Gateway 제어면

2026-05 모델·운영 업데이트

제어면이 담당해야 할 것

권장 흐름

제어면 운영 체크포인트

BYOK와 팀 단위 자격 증명 전략

캐싱과 fallback을 보는 법

예산과 usage 운영

추천 적용 순서

ADR 스타일 결론

실무 체크리스트

관련 문서

목차

AI Gateway 제어면

2026-05 모델·운영 업데이트

제어면이 담당해야 할 것

권장 흐름

제어면 운영 체크포인트

BYOK와 팀 단위 자격 증명 전략

캐싱과 fallback을 보는 법

예산과 usage 운영

추천 적용 순서

ADR 스타일 결론

실무 체크리스트

관련 문서

목차