가치 측정의 이론
AI 에이전트 가치 지표를 회계 단위, 대리 지표, 결과 지표, 가치 분배의 관점에서 분석합니다.
핵심 요약
- AI 에이전트 가치 지표는 단순한 측정 도구가 아니라 “무엇을 가치로 볼 것인가”에 대한 이론입니다.
- 토큰, credit, action, resolution, outcome은 같은 축의 세부 단위가 아니라 서로 다른 가치관을 반영합니다.
- 좋은 지표 논쟁은 정확한 숫자를 찾는 문제가 아니라, 어떤 현실을 보이게 하고 어떤 현실을 지우는지 묻는 문제입니다.
- 벤더의 과금 단위는 기술 단위, 회계 단위, 설득 단위, 위험 배분 장치가 동시에 됩니다.
AI 에이전트의 가치를 측정한다는 말은 얼핏 단순해 보입니다. 그러나 실제로는 세 가지 질문이 겹쳐 있습니다. 첫째, 에이전트가 무엇을 했는가. 둘째, 그 일이 사용자나 조직에 어떤 차이를 만들었는가. 셋째, 그 차이에 누가 얼마를 지불해야 하는가.
토큰 지표는 첫 번째 질문에도 완전히 답하지 못합니다. 토큰은 모델이 읽고 쓴 언어량이지, 에이전트가 수행한 일이 아닙니다. 반면 outcome 지표는 세 번째 질문까지 건드리지만, 그 outcome을 누가 정의하고 판정하는지에 따라 전혀 다른 경제적 의미를 가집니다.
지표는 세계관이다
각 지표는 서로 다른 세계관을 전제합니다.
| 지표 | 전제하는 세계관 | 가치의 위치 |
|---|---|---|
| Token | AI는 계산 자원이다 | 모델이 처리한 언어량 |
| Credit | AI는 통제해야 할 예산이다 | 제품군 안의 사용 권리 |
| Action | AI는 일을 수행하는 행위자다 | 시스템에서 실행된 작업 |
| Resolution | AI는 서비스 노동을 대체한다 | 고객 문제가 해결된 상태 |
| Outcome | AI는 성과를 만들어야 한다 | 벤더가 정의한 성공 결과 |
| Business KPI | AI는 운영 시스템의 일부다 | 매출, 비용, 시간, 리스크 변화 |
이 표에서 오른쪽으로 갈수록 고객 가치에 가까워지는 것처럼 보이지만, 반드시 더 정확해지는 것은 아닙니다. Business KPI는 가장 가치에 가까워 보이지만 AI 단독 기여도를 분리하기 어렵습니다. Token은 가치와 멀지만 원가와 성능 관리에는 가장 직접적입니다.
따라서 지표는 우열의 문제가 아니라 해상도의 문제입니다. 어떤 지표는 원가를 선명하게 하고, 어떤 지표는 업무량을 선명하게 하며, 어떤 지표는 고객 결과를 선명하게 합니다.
회계 단위와 의미 단위
AI 에이전트 지표를 혼동하게 만드는 가장 큰 원인은 회계 단위와 의미 단위가 겹쳐 보이기 때문입니다.
| 구분 | 질문 | 예시 |
|---|---|---|
| 기술 단위 | 시스템이 무엇을 소비했는가 | tokens, model calls, latency |
| 회계 단위 | 무엇을 기준으로 비용을 배분할 것인가 | credits, actions, conversations |
| 의미 단위 | 사용자가 무엇을 가치로 이해하는가 | resolution, qualified lead, request avoided |
| 통치 단위 | 조직이 무엇을 관리 대상으로 삼는가 | automation rate, cost per case, time saved |
Salesforce Flex Credits는 회계 단위입니다. AWU는 의미 단위이자 통치 단위에 가깝습니다. Intercom outcome은 회계 단위와 의미 단위를 의도적으로 겹칩니다. Microsoft Copilot Credits는 회계 단위에 머무르는 대신 제품군 전체의 사용량 통제를 쉽게 만듭니다.
핵심은 이것입니다. 과금 단위가 곧 가치 단위는 아닙니다. 벤더는 회계 단위를 가치 단위처럼 설명하려 하고, 고객은 의미 단위를 회계 단위로 요구하려 합니다. 에이전트 가치 지표 논쟁은 이 긴장에서 발생합니다.
벤더가 강하게 주장하는 지표가 어느 층에 있는지를 보면 논쟁이 선명해집니다. Copilot Credits는 주로 회계 단위이고, Intercom outcome은 회계 단위와 의미 단위를 겹치며, ServiceNow의 productivity time value는 의미 단위를 통치 단위로 끌어올리는 시도에 가깝습니다.
대리 지표의 문제
모든 AI 가치 지표는 어느 정도 대리 지표입니다. 실제 가치는 “고객이 덜 기다렸다”, “직원이 덜 반복했다”, “영업팀이 더 좋은 기회를 골랐다”, “리스크가 줄었다” 같은 경험과 변화에 있습니다. 하지만 이를 직접 측정하기 어렵기 때문에 벤더와 고객은 proxy를 씁니다.
| Proxy | 가까운 실제 가치 | 왜 불완전한가 |
|---|---|---|
| Token | AI 사용량과 원가 | 사용량은 결과가 아님 |
| Credit | 예산 소모 | credit 소모는 업무 성공이 아님 |
| Action | 시스템이 실행한 일 | 실행은 성공이 아님 |
| Resolution | 고객 문제 해결 | 침묵과 만족을 구분하기 어려움 |
| Qualified lead | 세일즈 기회 | 추천 lead가 매출로 이어지지 않을 수 있음 |
| Time saved | 생산성 | 절감 시간이 실제 비용 절감인지 불명확 |
대리 지표는 나쁘지 않습니다. 문제는 대리 지표가 실제 가치를 완전히 대표한다고 믿는 순간 생깁니다. 이때 Goodhart의 법칙이 작동합니다. 측정값이 목표가 되면, 그 측정값은 좋은 측정값이 아니게 됩니다.
에이전트의 가치는 어디에서 생기는가
AI 에이전트 가치는 네 지점에서 생깁니다.
| 가치 발생 지점 | 설명 | 대표 지표 |
|---|---|---|
| 인지 비용 감소 | 사람이 정보를 찾고 판단하는 시간을 줄임 | search success, answer acceptance |
| 조정 비용 감소 | 여러 시스템과 사람 사이의 handoff를 줄임 | workflow completion, escalation quality |
| 실행 비용 감소 | 반복적 작업을 자동 처리함 | action completed, request avoided |
| 불확실성 감소 | 더 빠른 감지, 예측, 검토로 리스크를 줄임 | exception detection, policy violation reduction |
이 관점에서 보면 resolution은 실행 비용 감소와 고객 경험 개선을 함께 나타냅니다. Copilot Credits는 가치 발생 지점이 아니라 그 과정에서 소비된 제품 권리를 나타냅니다. ServiceNow의 productivity time value는 인지 비용과 실행 비용을 시간으로 환산하려는 시도입니다.
하나의 정답이 없는 이유
AI 에이전트 가치 지표에 정답이 없는 이유는 조직마다 가치가 발생하는 위치가 다르기 때문입니다.
고객지원에서는 resolution이 설득력 있습니다. 세일즈에서는 recommended lead보다 accepted lead나 pipeline progression이 더 중요합니다. 내부 IT에서는 requests avoided가 강한 지표가 될 수 있습니다. 개발 조직에서는 cycle time이나 defect leakage가 더 중요합니다.
하지만 이 핸드북의 방향은 “조직별 KPI를 고르는 법”이 아닙니다. 더 중요한 질문은 이것입니다.
| 분석 질문 | 의미 |
|---|---|
| 이 지표는 어떤 종류의 가치를 전면에 놓는가 | 원가, 업무량, 결과, 생산성 중 무엇인가 |
| 이 지표는 어떤 실패를 숨기는가 | 품질 저하, 재작업, 고객 불만, 비용 전가 |
| 이 지표는 누구에게 유리한가 | 벤더, 구매자, 운영팀, 재무팀 |
| 이 지표가 목표가 되면 어떤 행동이 늘어나는가 | 자동화 확대, action 쪼개기, resolution 과대계상 |
에이전트 가치 지표는 측정 기술이 아니라 해석 체계입니다. 숫자를 보기 전에, 그 숫자가 어떤 세계관을 전제하는지 읽어야 합니다.