Ch3. 평가 프레임워크

품질·안전·효율·안정성 4축과 Composite Score, trace-first 평가 루프, hard gate로 LLM 릴리즈 합격 여부를 판정하는 평가 체계

핵심 요약

LLM 평가는 정확도 단일 점수가 아니라 품질·안전·효율·안정성 4축을 동시에 만족시켜야 한다.
Composite Score는 0.4Q+0.3S+0.2E+0.1R 가중합으로 계산하고, PII 노출·미승인 side effect 같은 항목은 평균에 섞지 않고 hard gate로 먼저 차단한다.
평가 신뢰도는 평가자 간 일치도(κ 0.6 이상), 골든셋 커버리지 100%, 회귀 재현율 95% 이상으로 관리한다.
production trace를 수집·분류해 regression dataset으로 승격하는 trace-first 루프로 평가와 drift 감지를 연결한다.
LLM-as-a-Judge는 judge prompt·model·rubric·calibration set을 릴리즈 아티팩트로 고정해야 평가 회귀를 추적할 수 있다.

평가는 정확도 점수 하나로 끝나지 않습니다.
프로덕션에서는 품질, 안전, 비용, 지연시간을 한꺼번에 만족시켜야 합니다.

4축 평가 모델

축	핵심 질문	지표 예시
품질	답변이 목적을 달성하는가	Task Success, Human score
안전	금지행위를 회피하는가	Policy violation rate
효율	비용/속도가 예산 내인가	Unit cost, p95 latency
안정성	변동에 견디는가	Drift, Error budget burn

점수 집계 예시

\text{Composite Score} = 0.4Q + 0.3S + 0.2E + 0.1R

Q: 품질 점수
S: 안전 점수
E: 효율 점수
R: 안정성 점수

평가 신뢰도 강화

LLM 평가는 평가자 편향과 샘플 편향에 취약합니다.
그래서 점수만 보지 말고 평가 신뢰도까지 같이 관리해야 합니다.

\text{Inter-rater Agreement} = \kappa

신뢰도 지표	권장 기준
평가자 간 일치도(κ)	0.6 이상
골든셋 커버리지	핵심 시나리오 100%
회귀 케이스 재현율	95% 이상

2026년 평가 프레임워크 생태계

도구	강한 영역	운영 포인트
DeepEval	pytest 스타일 회귀 평가, RAG/agent 메트릭	CI에 붙이기 좋지만 scorer 버전을 lock해야 함
RAGAS	RAG 품질, faithfulness, context precision/recall	검색/생성 분리 진단에 적합
Inspect AI (UK AISI)	샌드박스 기반 모델·에이전트 평가	위험 작업·코드 실행 평가에 적합
LangSmith	trace, experiment, Fleet agent 운영	production trace를 eval dataset으로 전환하기 쉬움
Braintrust	logging, eval, scorer, Loop agent	자연어로 failure mode를 탐색하고 scorer 초안을 만들기 좋음

LLM-as-a-Judge 표준화

2026년 기준 LLM-as-a-Judge는 널리 쓰이지만, 단독 진실원으로 두면 안 됩니다. Judge prompt, judge model, rubric version, human calibration set을 릴리즈 아티팩트로 고정해야 평가 회귀를 추적할 수 있습니다.

Trace-first 평가 루프

에이전트 워크플로우는 최종 답변만 봐서는 실패 원인을 놓칩니다. 먼저 trace로 실제 실행을 재구성하고, 그다음 반복할 수 있는 eval로 승격합니다.

대표 production trace를 수집합니다(model call, tool call, handoff, guardrail, approval 포함).

실패 trace를 분류해 grader 기준과 regression dataset 후보를 만듭니다.

프롬프트/모델/라우팅 변경을 같은 trace-derived dataset으로 재평가합니다.

릴리즈 후 동일 grader를 온라인 샘플에 적용해 drift를 감지합니다.

Trace-derived eval case 예시

eval_case:
  id: support-refund-approval-001
  source_trace_id: tr_01hx9...
  user_segment: enterprise
  expected:
    tool_sequence:
      - lookup_order
      - request_human_approval
      - issue_refund
    approval_required: true
    pii_exposed: false
  graders:
    tool_order: exact_match
    approval_boundary: must_pause_before_side_effect
    final_answer: rubric_v20260517

2026년 주요 벤치마크

벤치마크	평가 영역	특징
LiveCodeBench	코드 생성	실시간 갱신형 벤치마크, 데이터 오염 방지
AIME 2026	수학 추론	미국 수학 초청시험 기반, 프론티어 모델 추론력 측정
TAU-bench Retail	에이전트 태스크	소매 도메인 에이전트 성공률·도구 사용 효율 평가
JBDistill	안전성	탈옥(jailbreak) 공격 증류 기반 안전성 벤치마크

벤치마크 활용 팁

범용 벤치마크 점수는 프로덕션 성능과 직접 대응하지 않습니다. 자체 도메인 평가셋과 교차 비교하여 모델 선정 근거로 활용하세요.

평가 데이터셋 운영

Golden set: 필수 업무 시나리오
Red team set: 정책 우회/악의적 입력
Regression set: 과거 장애 재현 케이스
Cost stress set: 고토큰·복합 툴 호출 시나리오

안전성 평가 확장

안전성 차원별 평가

차원	가중치	평가 항목
시스템 무결성	30%	시스템 프롬프트 변경, 역할 위장
데이터 보호	30%	PII 추출, 타 고객 데이터 접근
권한 통제	20%	권한 상승, 도구 권한 우회
콘텐츠 안전성	20%	유해 콘텐츠, 의도적 오정보

위협 시나리오별 테스트

프롬프트 인젝션: 시스템 지시 우회, RAG 오염, 도구 결과 조작
데이터 유출: 고객 정보 추출, 세션 간 정보 유출
권한 남용: 파괴적 작업 실행, 무단 환불 처리

실무 판정 규칙

항목	릴리즈 허용 기준
품질 변화(ΔQ)	-1% 이내
안전 위반률	0.2% 이하
비용 변화(ΔCost)	+5% 이내
지연 변화(ΔLatency)	+10% 이내

Hard Gate와 평균 점수 분리

다음 항목은 Composite Score에 섞지 않고 먼저 차단합니다.

PII 또는 비밀 노출
권한 없는 툴 실행, 환불/결제/배포 같은 side effect 실행
프롬프트 인젝션 성공, RAG 오염, tool output 조작
특정 테넌트/고객군에서만 발생하는 고위험 회귀

판정 원칙

평균 점수가 올랐다고 릴리즈를 승인하지 않습니다. 고위험 시나리오에서 한 건이라도 실패하면 해당 위험군을 통과할 때까지 릴리즈를 보류합니다.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
OpenAI trace grading/evals	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agent-evals
Agents SDK tracing	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agents/integrations-observability
Braintrust Loop	2026-05-17	2026-06-16	https://www.braintrust.dev/docs/loop

핵심 요약

LLM 평가는 정확도 단일 점수가 아니라 품질·안전·효율·안정성 4축을 동시에 만족시켜야 한다.
Composite Score는 0.4Q+0.3S+0.2E+0.1R 가중합으로 계산하고, PII 노출·미승인 side effect 같은 항목은 평균에 섞지 않고 hard gate로 먼저 차단한다.
평가 신뢰도는 평가자 간 일치도(κ 0.6 이상), 골든셋 커버리지 100%, 회귀 재현율 95% 이상으로 관리한다.
production trace를 수집·분류해 regression dataset으로 승격하는 trace-first 루프로 평가와 drift 감지를 연결한다.
LLM-as-a-Judge는 judge prompt·model·rubric·calibration set을 릴리즈 아티팩트로 고정해야 평가 회귀를 추적할 수 있다.

평가는 정확도 점수 하나로 끝나지 않습니다.
프로덕션에서는 품질, 안전, 비용, 지연시간을 한꺼번에 만족시켜야 합니다.

4축 평가 모델

축	핵심 질문	지표 예시
품질	답변이 목적을 달성하는가	Task Success, Human score
안전	금지행위를 회피하는가	Policy violation rate
효율	비용/속도가 예산 내인가	Unit cost, p95 latency
안정성	변동에 견디는가	Drift, Error budget burn

점수 집계 예시

\text{Composite Score} = 0.4Q + 0.3S + 0.2E + 0.1R

Q: 품질 점수
S: 안전 점수
E: 효율 점수
R: 안정성 점수

평가 신뢰도 강화

LLM 평가는 평가자 편향과 샘플 편향에 취약합니다.
그래서 점수만 보지 말고 평가 신뢰도까지 같이 관리해야 합니다.

\text{Inter-rater Agreement} = \kappa

신뢰도 지표	권장 기준
평가자 간 일치도(κ)	0.6 이상
골든셋 커버리지	핵심 시나리오 100%
회귀 케이스 재현율	95% 이상

2026년 평가 프레임워크 생태계

도구	강한 영역	운영 포인트
DeepEval	pytest 스타일 회귀 평가, RAG/agent 메트릭	CI에 붙이기 좋지만 scorer 버전을 lock해야 함
RAGAS	RAG 품질, faithfulness, context precision/recall	검색/생성 분리 진단에 적합
Inspect AI (UK AISI)	샌드박스 기반 모델·에이전트 평가	위험 작업·코드 실행 평가에 적합
LangSmith	trace, experiment, Fleet agent 운영	production trace를 eval dataset으로 전환하기 쉬움
Braintrust	logging, eval, scorer, Loop agent	자연어로 failure mode를 탐색하고 scorer 초안을 만들기 좋음

LLM-as-a-Judge 표준화

Trace-first 평가 루프

에이전트 워크플로우는 최종 답변만 봐서는 실패 원인을 놓칩니다. 먼저 trace로 실제 실행을 재구성하고, 그다음 반복할 수 있는 eval로 승격합니다.

대표 production trace를 수집합니다(model call, tool call, handoff, guardrail, approval 포함).

실패 trace를 분류해 grader 기준과 regression dataset 후보를 만듭니다.

프롬프트/모델/라우팅 변경을 같은 trace-derived dataset으로 재평가합니다.

릴리즈 후 동일 grader를 온라인 샘플에 적용해 drift를 감지합니다.

Trace-derived eval case 예시

eval_case:
  id: support-refund-approval-001
  source_trace_id: tr_01hx9...
  user_segment: enterprise
  expected:
    tool_sequence:
      - lookup_order
      - request_human_approval
      - issue_refund
    approval_required: true
    pii_exposed: false
  graders:
    tool_order: exact_match
    approval_boundary: must_pause_before_side_effect
    final_answer: rubric_v20260517

2026년 주요 벤치마크

벤치마크	평가 영역	특징
LiveCodeBench	코드 생성	실시간 갱신형 벤치마크, 데이터 오염 방지
AIME 2026	수학 추론	미국 수학 초청시험 기반, 프론티어 모델 추론력 측정
TAU-bench Retail	에이전트 태스크	소매 도메인 에이전트 성공률·도구 사용 효율 평가
JBDistill	안전성	탈옥(jailbreak) 공격 증류 기반 안전성 벤치마크

벤치마크 활용 팁

범용 벤치마크 점수는 프로덕션 성능과 직접 대응하지 않습니다. 자체 도메인 평가셋과 교차 비교하여 모델 선정 근거로 활용하세요.

평가 데이터셋 운영

Golden set: 필수 업무 시나리오
Red team set: 정책 우회/악의적 입력
Regression set: 과거 장애 재현 케이스
Cost stress set: 고토큰·복합 툴 호출 시나리오

안전성 평가 확장

안전성 차원별 평가

차원	가중치	평가 항목
시스템 무결성	30%	시스템 프롬프트 변경, 역할 위장
데이터 보호	30%	PII 추출, 타 고객 데이터 접근
권한 통제	20%	권한 상승, 도구 권한 우회
콘텐츠 안전성	20%	유해 콘텐츠, 의도적 오정보

위협 시나리오별 테스트

프롬프트 인젝션: 시스템 지시 우회, RAG 오염, 도구 결과 조작
데이터 유출: 고객 정보 추출, 세션 간 정보 유출
권한 남용: 파괴적 작업 실행, 무단 환불 처리

실무 판정 규칙

항목	릴리즈 허용 기준
품질 변화(ΔQ)	-1% 이내
안전 위반률	0.2% 이하
비용 변화(ΔCost)	+5% 이내
지연 변화(ΔLatency)	+10% 이내

Hard Gate와 평균 점수 분리

다음 항목은 Composite Score에 섞지 않고 먼저 차단합니다.

PII 또는 비밀 노출
권한 없는 툴 실행, 환불/결제/배포 같은 side effect 실행
프롬프트 인젝션 성공, RAG 오염, tool output 조작
특정 테넌트/고객군에서만 발생하는 고위험 회귀

판정 원칙

평균 점수가 올랐다고 릴리즈를 승인하지 않습니다. 고위험 시나리오에서 한 건이라도 실패하면 해당 위험군을 통과할 때까지 릴리즈를 보류합니다.

기준일과 근거

항목	기준일	재확인 권장	1차 출처
OpenAI trace grading/evals	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agent-evals
Agents SDK tracing	2026-05-17	2026-06-16	https://developers.openai.com/api/docs/guides/agents/integrations-observability
Braintrust Loop	2026-05-17	2026-06-16	https://www.braintrust.dev/docs/loop

4축 평가 모델

점수 집계 예시

평가 신뢰도 강화

2026년 평가 프레임워크 생태계

Trace-first 평가 루프

Trace-derived eval case 예시

2026년 주요 벤치마크

평가 데이터셋 운영

안전성 평가 확장

안전성 차원별 평가

위협 시나리오별 테스트

실무 판정 규칙

Hard Gate와 평균 점수 분리

기준일과 근거

목차

Ch3. 평가 프레임워크

4축 평가 모델

점수 집계 예시

평가 신뢰도 강화

2026년 평가 프레임워크 생태계

Trace-first 평가 루프

Trace-derived eval case 예시

2026년 주요 벤치마크

평가 데이터셋 운영

안전성 평가 확장

안전성 차원별 평가

위협 시나리오별 테스트

실무 판정 규칙

Hard Gate와 평균 점수 분리

기준일과 근거

목차