비교 해석
벤더별 AI 에이전트 가치 지표를 추상화 수준, 증거 강도, 인센티브 구조로 비교 해석합니다.
핵심 요약
- 벤더별 지표는 같은 문제에 대한 다른 답이 아니라, 서로 다른 수준의 추상화를 선택한 결과입니다.
- 토큰에서 outcome으로 갈수록 고객 가치에 가까워지지만, 판정 주관성과 인과관계 문제가 커집니다.
- 가장 분석적으로 유용한 비교는 “어떤 지표가 맞는가”가 아니라 “어떤 지표가 무엇을 보이게 하는가”입니다.
- AI 에이전트 가치 논쟁은 사용량 경제에서 성과 경제로 이동하려는 과도기적 언어입니다.
Salesforce, Intercom, Zendesk, HubSpot, Microsoft, ServiceNow는 모두 “토큰만으로는 부족하다”는 문제의식 위에 있습니다. 그러나 각 회사가 선택한 해법은 다릅니다. Salesforce는 platform work volume을 만들고, Intercom과 Zendesk는 support outcome을 가격화하며, HubSpot은 CRM context 기반 task completion을 강조합니다. Microsoft는 credits로 사용량 회계를 정교화하고, ServiceNow는 productivity time value로 경영 언어에 연결합니다.
이 차이는 각 회사의 제품 구조에서 나옵니다. CRM 플랫폼은 action과 workflow를 세기 쉽습니다. support 플랫폼은 resolution을 세기 쉽습니다. productivity 플랫폼은 credit과 usage를 묶기 쉽습니다. enterprise workflow 플랫폼은 time saved와 request avoided를 말하기 쉽습니다.
추상화의 사다리
AI 에이전트 지표는 아래와 같은 사다리 위에 놓을 수 있습니다.
| 단계 | 단위 | 추상화 수준 | 대표 벤더 |
|---|---|---|---|
| 1 | Token | 낮음, 기술적 | LLM provider, 내부 FinOps |
| 2 | Credit | 낮음-중간, 회계적 | Microsoft, HubSpot 일부 |
| 3 | Action | 중간, 업무 실행 | Salesforce Flex Credits |
| 4 | Work Unit | 중간-높음, 플랫폼 업무량 | Salesforce AWU |
| 5 | Resolution | 높음, 고객지원 결과 | Zendesk, Intercom |
| 6 | Outcome | 높음, 벤더 정의 성과 | Intercom, HubSpot |
| 7 | Productivity Value | 매우 높음, 경영 환산 | ServiceNow |
| 8 | Business KPI | 가장 높음, 조직 성과 | 고객 내부 지표 |
낮은 단계는 측정이 쉽지만 가치와 멉니다. 높은 단계는 가치와 가깝지만 판정이 어렵습니다. 이 트레이드오프가 에이전트 가치 지표 논쟁의 핵심입니다.
사다리 위로 올라갈수록 고객 가치에 가까워지지만, 동시에 판정과 인과관계가 두꺼워집니다. 그래서 높은 단계의 지표는 항상 낮은 단계의 비용·사용량 지표와 함께 읽어야 합니다.
증거 강도와 해석 위험
각 지표는 증거 강도가 다릅니다.
| 지표 | 증거 강도 | 해석 위험 |
|---|---|---|
| Token | 시스템 로그로 강함 | 가치와 거리 |
| Credit | billing system으로 강함 | 환산 불투명성 |
| Action | platform event로 중간 이상 | 성공 여부 누락 |
| AWU | platform-defined metric | 외부 감사 어려움 |
| Resolution | customer support context로 중간 | 침묵과 만족의 혼동 |
| Qualification | routing event로 중간 | 매출 기여와 거리 |
| Time saved | baseline 필요 | 가정 의존 |
| ROI | 경영적으로 강해 보임 | 인과관계 취약 |
여기서 중요한 것은 “높은 수준 지표일수록 더 좋다”가 아니라 “높은 수준 지표일수록 더 많은 해석이 들어간다”는 점입니다. ServiceNow의 productivity time value는 경영진에게 강력한 언어이지만, baseline minutes와 hourly cost 가정이 바뀌면 결과가 크게 달라집니다.
벤더별 해석 위치
| 벤더 | 선택한 위치 | 분석적 의미 |
|---|---|---|
| Salesforce | action/work unit | CRM platform 안에서 AI 노동량을 회계화하려는 시도 |
| Intercom | outcome/resolution | support conversation을 성과 단위로 바꾸려는 시도 |
| Zendesk | verified resolution | support automation을 감사 가능한 해결 단위로 만들려는 시도 |
| HubSpot | CRM-context outcome | SMB/CRM workflow에서 task completion을 가격화하려는 시도 |
| Microsoft | credit usage | 복잡한 Copilot/agent 기능을 통합 예산 단위로 묶으려는 시도 |
| ServiceNow | productivity value | enterprise workflow impact를 시간과 KPI로 환산하려는 시도 |
이 표는 벤더 우열표가 아닙니다. 각 회사가 자신에게 가장 유리하고 가장 설명 가능한 지점을 선택했다는 해석입니다.
보이는 것과 사라지는 것
지표는 무언가를 보이게 만들고, 동시에 무언가를 사라지게 만듭니다.
| 지표 | 보이게 하는 것 | 사라지게 하는 것 |
|---|---|---|
| Tokens | 원가와 compute footprint | 사용자 결과 |
| Credits | 예산 소모와 기능별 사용량 | 업무의 질 |
| Actions | 시스템 실행량 | 성공/실패의 질적 차이 |
| AWU | 플랫폼 업무량 | 고객 outcome의 세부 품질 |
| Resolution | 자동 해결 규모 | 난이도와 감정적 만족 |
| Outcome | 성과 기반 과금 명분 | outcome 정의의 정치성 |
| Time saved | 생산성 narrative | 절감 시간의 실제 재배치 |
이 관점에서 보면 “토큰은 나쁘고 outcome은 좋다”는 결론은 너무 단순합니다. 토큰은 원가를 보이게 합니다. outcome은 고객 가치처럼 보이는 것을 보이게 합니다. 그러나 outcome도 그 자체로 완전한 진실은 아닙니다.
과도기적 언어로서의 Agent Metrics
현재의 에이전트 가치 지표들은 안정된 표준이라기보다 과도기적 언어입니다. 소프트웨어가 seat 기반에서 usage 기반으로, 다시 outcome 기반으로 이동하는 과정에서 생긴 임시 회계 언어입니다.
| 시대 | 기본 단위 | 논리 |
|---|---|---|
| SaaS 1.0 | Seat | 누가 접근 권한을 갖는가 |
| Usage SaaS | API call, usage | 얼마나 사용했는가 |
| AI SaaS | Token, credit | 얼마나 계산했는가 |
| Agentic SaaS | Action, resolution, outcome | 어떤 일을 끝냈는가 |
| 운영 시스템 | Business KPI | 조직 성과가 어떻게 바뀌었는가 |
Agent Metrics는 이 중간 지대에 있습니다. 아직 business KPI까지 완전히 도달하지 못했지만, token이나 seat만으로는 부족하다는 인식에서 나온 언어입니다.
분석적 결론
에이전트 가치 지표를 비교할 때 결론은 하나의 winner가 아닙니다. 더 적절한 결론은 다음과 같습니다.
| 결론 | 의미 |
|---|---|
| Salesforce는 AI 노동량의 회계화를 시도한다 | agentic work를 platform growth metric으로 만든다 |
| Intercom과 Zendesk는 support 노동의 성과 단위화를 시도한다 | resolved conversation을 가격과 연결한다 |
| HubSpot은 CRM 맥락의 task completion을 가격화한다 | lead와 conversation을 customer platform 안에서 outcome화한다 |
| Microsoft는 복잡한 AI 기능을 budget unit으로 안정화한다 | outcome보다 governance와 metering에 강하다 |
| ServiceNow는 AI 가치를 productivity accounting으로 번역한다 | 시간, request avoidance, KPI 연결을 강조한다 |
따라서 이 핸드북의 핵심 질문은 “어떤 지표를 써야 하는가”가 아닙니다. 더 중요한 질문은 “각 벤더가 어떤 가치 이론을 팔고 있는가”입니다. 그 질문을 붙잡을 때, Agent Metrics는 가격표를 넘어 AI 시대의 소프트웨어 경제를 읽는 분석 도구가 됩니다.