비교 해석

벤더별 AI 에이전트 가치 지표를 추상화 수준, 증거 강도, 인센티브 구조로 비교 해석합니다.

핵심 요약

벤더별 지표는 같은 문제에 대한 다른 답이 아니라, 서로 다른 수준의 추상화를 선택한 결과입니다.
토큰에서 outcome으로 갈수록 고객 가치에 가까워지지만, 판정 주관성과 인과관계 문제가 커집니다.
가장 분석적으로 유용한 비교는 “어떤 지표가 맞는가”가 아니라 “어떤 지표가 무엇을 보이게 하는가”입니다.
AI 에이전트 가치 논쟁은 사용량 경제에서 성과 경제로 이동하려는 과도기적 언어입니다.

Salesforce, Intercom, Zendesk, HubSpot, Microsoft, ServiceNow는 모두 “토큰만으로는 부족하다”는 문제의식 위에 있습니다. 그러나 각 회사가 선택한 해법은 다릅니다. Salesforce는 platform work volume을 만들고, Intercom과 Zendesk는 support outcome을 가격화하며, HubSpot은 CRM context 기반 task completion을 강조합니다. Microsoft는 credits로 사용량 회계를 정교화하고, ServiceNow는 productivity time value로 경영 언어에 연결합니다.

이 차이는 각 회사의 제품 구조에서 나옵니다. CRM 플랫폼은 action과 workflow를 세기 쉽습니다. support 플랫폼은 resolution을 세기 쉽습니다. productivity 플랫폼은 credit과 usage를 묶기 쉽습니다. enterprise workflow 플랫폼은 time saved와 request avoided를 말하기 쉽습니다.

추상화의 사다리

AI 에이전트 지표는 아래와 같은 사다리 위에 놓을 수 있습니다.

단계	단위	추상화 수준	대표 벤더
1	Token	낮음, 기술적	LLM provider, 내부 FinOps
2	Credit	낮음-중간, 회계적	Microsoft, HubSpot 일부
3	Action	중간, 업무 실행	Salesforce Flex Credits
4	Work Unit	중간-높음, 플랫폼 업무량	Salesforce AWU
5	Resolution	높음, 고객지원 결과	Zendesk, Intercom
6	Outcome	높음, 벤더 정의 성과	Intercom, HubSpot
7	Productivity Value	매우 높음, 경영 환산	ServiceNow
8	Business KPI	가장 높음, 조직 성과	고객 내부 지표

낮은 단계는 측정이 쉽지만 가치와 멉니다. 높은 단계는 가치와 가깝지만 판정이 어렵습니다. 이 트레이드오프가 에이전트 가치 지표 논쟁의 핵심입니다.

사다리 위로 올라갈수록 고객 가치에 가까워지지만, 동시에 판정과 인과관계가 두꺼워집니다. 그래서 높은 단계의 지표는 항상 낮은 단계의 비용·사용량 지표와 함께 읽어야 합니다.

증거 강도와 해석 위험

각 지표는 증거 강도가 다릅니다.

지표	증거 강도	해석 위험
Token	시스템 로그로 강함	가치와 거리
Credit	billing system으로 강함	환산 불투명성
Action	platform event로 중간 이상	성공 여부 누락
AWU	platform-defined metric	외부 감사 어려움
Resolution	customer support context로 중간	침묵과 만족의 혼동
Qualification	routing event로 중간	매출 기여와 거리
Time saved	baseline 필요	가정 의존
ROI	경영적으로 강해 보임	인과관계 취약

여기서 중요한 것은 “높은 수준 지표일수록 더 좋다”가 아니라 “높은 수준 지표일수록 더 많은 해석이 들어간다”는 점입니다. ServiceNow의 productivity time value는 경영진에게 강력한 언어이지만, baseline minutes와 hourly cost 가정이 바뀌면 결과가 크게 달라집니다.

벤더별 해석 위치

벤더	선택한 위치	분석적 의미
Salesforce	action/work unit	CRM platform 안에서 AI 노동량을 회계화하려는 시도
Intercom	outcome/resolution	support conversation을 성과 단위로 바꾸려는 시도
Zendesk	verified resolution	support automation을 감사 가능한 해결 단위로 만들려는 시도
HubSpot	CRM-context outcome	SMB/CRM workflow에서 task completion을 가격화하려는 시도
Microsoft	credit usage	복잡한 Copilot/agent 기능을 통합 예산 단위로 묶으려는 시도
ServiceNow	productivity value	enterprise workflow impact를 시간과 KPI로 환산하려는 시도

이 표는 벤더 우열표가 아닙니다. 각 회사가 자신에게 가장 유리하고 가장 설명 가능한 지점을 선택했다는 해석입니다.

보이는 것과 사라지는 것

지표는 무언가를 보이게 만들고, 동시에 무언가를 사라지게 만듭니다.

지표	보이게 하는 것	사라지게 하는 것
Tokens	원가와 compute footprint	사용자 결과
Credits	예산 소모와 기능별 사용량	업무의 질
Actions	시스템 실행량	성공/실패의 질적 차이
AWU	플랫폼 업무량	고객 outcome의 세부 품질
Resolution	자동 해결 규모	난이도와 감정적 만족
Outcome	성과 기반 과금 명분	outcome 정의의 정치성
Time saved	생산성 narrative	절감 시간의 실제 재배치

이 관점에서 보면 “토큰은 나쁘고 outcome은 좋다”는 결론은 너무 단순합니다. 토큰은 원가를 보이게 합니다. outcome은 고객 가치처럼 보이는 것을 보이게 합니다. 그러나 outcome도 그 자체로 완전한 진실은 아닙니다.

과도기적 언어로서의 Agent Metrics

현재의 에이전트 가치 지표들은 안정된 표준이라기보다 과도기적 언어입니다. 소프트웨어가 seat 기반에서 usage 기반으로, 다시 outcome 기반으로 이동하는 과정에서 생긴 임시 회계 언어입니다.

시대	기본 단위	논리
SaaS 1.0	Seat	누가 접근 권한을 갖는가
Usage SaaS	API call, usage	얼마나 사용했는가
AI SaaS	Token, credit	얼마나 계산했는가
Agentic SaaS	Action, resolution, outcome	어떤 일을 끝냈는가
운영 시스템	Business KPI	조직 성과가 어떻게 바뀌었는가

Agent Metrics는 이 중간 지대에 있습니다. 아직 business KPI까지 완전히 도달하지 못했지만, token이나 seat만으로는 부족하다는 인식에서 나온 언어입니다.

분석적 결론

에이전트 가치 지표를 비교할 때 결론은 하나의 winner가 아닙니다. 더 적절한 결론은 다음과 같습니다.

결론	의미
Salesforce는 AI 노동량의 회계화를 시도한다	agentic work를 platform growth metric으로 만든다
Intercom과 Zendesk는 support 노동의 성과 단위화를 시도한다	resolved conversation을 가격과 연결한다
HubSpot은 CRM 맥락의 task completion을 가격화한다	lead와 conversation을 customer platform 안에서 outcome화한다
Microsoft는 복잡한 AI 기능을 budget unit으로 안정화한다	outcome보다 governance와 metering에 강하다
ServiceNow는 AI 가치를 productivity accounting으로 번역한다	시간, request avoidance, KPI 연결을 강조한다

따라서 이 핸드북의 핵심 질문은 “어떤 지표를 써야 하는가”가 아닙니다. 더 중요한 질문은 “각 벤더가 어떤 가치 이론을 팔고 있는가”입니다. 그 질문을 붙잡을 때, Agent Metrics는 가격표를 넘어 AI 시대의 소프트웨어 경제를 읽는 분석 도구가 됩니다.

핵심 요약

벤더별 지표는 같은 문제에 대한 다른 답이 아니라, 서로 다른 수준의 추상화를 선택한 결과입니다.
토큰에서 outcome으로 갈수록 고객 가치에 가까워지지만, 판정 주관성과 인과관계 문제가 커집니다.
가장 분석적으로 유용한 비교는 “어떤 지표가 맞는가”가 아니라 “어떤 지표가 무엇을 보이게 하는가”입니다.
AI 에이전트 가치 논쟁은 사용량 경제에서 성과 경제로 이동하려는 과도기적 언어입니다.

추상화의 사다리

AI 에이전트 지표는 아래와 같은 사다리 위에 놓을 수 있습니다.

단계	단위	추상화 수준	대표 벤더
1	Token	낮음, 기술적	LLM provider, 내부 FinOps
2	Credit	낮음-중간, 회계적	Microsoft, HubSpot 일부
3	Action	중간, 업무 실행	Salesforce Flex Credits
4	Work Unit	중간-높음, 플랫폼 업무량	Salesforce AWU
5	Resolution	높음, 고객지원 결과	Zendesk, Intercom
6	Outcome	높음, 벤더 정의 성과	Intercom, HubSpot
7	Productivity Value	매우 높음, 경영 환산	ServiceNow
8	Business KPI	가장 높음, 조직 성과	고객 내부 지표

증거 강도와 해석 위험

각 지표는 증거 강도가 다릅니다.

지표	증거 강도	해석 위험
Token	시스템 로그로 강함	가치와 거리
Credit	billing system으로 강함	환산 불투명성
Action	platform event로 중간 이상	성공 여부 누락
AWU	platform-defined metric	외부 감사 어려움
Resolution	customer support context로 중간	침묵과 만족의 혼동
Qualification	routing event로 중간	매출 기여와 거리
Time saved	baseline 필요	가정 의존
ROI	경영적으로 강해 보임	인과관계 취약

벤더별 해석 위치

벤더	선택한 위치	분석적 의미
Salesforce	action/work unit	CRM platform 안에서 AI 노동량을 회계화하려는 시도
Intercom	outcome/resolution	support conversation을 성과 단위로 바꾸려는 시도
Zendesk	verified resolution	support automation을 감사 가능한 해결 단위로 만들려는 시도
HubSpot	CRM-context outcome	SMB/CRM workflow에서 task completion을 가격화하려는 시도
Microsoft	credit usage	복잡한 Copilot/agent 기능을 통합 예산 단위로 묶으려는 시도
ServiceNow	productivity value	enterprise workflow impact를 시간과 KPI로 환산하려는 시도

이 표는 벤더 우열표가 아닙니다. 각 회사가 자신에게 가장 유리하고 가장 설명 가능한 지점을 선택했다는 해석입니다.

보이는 것과 사라지는 것

지표는 무언가를 보이게 만들고, 동시에 무언가를 사라지게 만듭니다.

지표	보이게 하는 것	사라지게 하는 것
Tokens	원가와 compute footprint	사용자 결과
Credits	예산 소모와 기능별 사용량	업무의 질
Actions	시스템 실행량	성공/실패의 질적 차이
AWU	플랫폼 업무량	고객 outcome의 세부 품질
Resolution	자동 해결 규모	난이도와 감정적 만족
Outcome	성과 기반 과금 명분	outcome 정의의 정치성
Time saved	생산성 narrative	절감 시간의 실제 재배치

과도기적 언어로서의 Agent Metrics

시대	기본 단위	논리
SaaS 1.0	Seat	누가 접근 권한을 갖는가
Usage SaaS	API call, usage	얼마나 사용했는가
AI SaaS	Token, credit	얼마나 계산했는가
Agentic SaaS	Action, resolution, outcome	어떤 일을 끝냈는가
운영 시스템	Business KPI	조직 성과가 어떻게 바뀌었는가

Agent Metrics는 이 중간 지대에 있습니다. 아직 business KPI까지 완전히 도달하지 못했지만, token이나 seat만으로는 부족하다는 인식에서 나온 언어입니다.

분석적 결론

에이전트 가치 지표를 비교할 때 결론은 하나의 winner가 아닙니다. 더 적절한 결론은 다음과 같습니다.

결론	의미
Salesforce는 AI 노동량의 회계화를 시도한다	agentic work를 platform growth metric으로 만든다
Intercom과 Zendesk는 support 노동의 성과 단위화를 시도한다	resolved conversation을 가격과 연결한다
HubSpot은 CRM 맥락의 task completion을 가격화한다	lead와 conversation을 customer platform 안에서 outcome화한다
Microsoft는 복잡한 AI 기능을 budget unit으로 안정화한다	outcome보다 governance와 metering에 강하다
ServiceNow는 AI 가치를 productivity accounting으로 번역한다	시간, request avoidance, KPI 연결을 강조한다

추상화의 사다리

증거 강도와 해석 위험

벤더별 해석 위치

보이는 것과 사라지는 것

과도기적 언어로서의 Agent Metrics

분석적 결론

목차

비교 해석

추상화의 사다리

증거 강도와 해석 위험

벤더별 해석 위치

보이는 것과 사라지는 것

과도기적 언어로서의 Agent Metrics

분석적 결론

목차