Ch3. 평가 프레임워크
오프라인 벤치마크와 온라인 운영지표를 연결한 평가 체계
평가는 정확도 점수 하나로 끝나지 않습니다.
프로덕션에서는 품질, 안전, 비용, 지연시간을 동시에 만족해야 합니다.
4축 평가 모델
| 축 | 핵심 질문 | 지표 예시 |
|---|---|---|
| 품질 | 답변이 목적을 달성하는가 | Task Success, Human score |
| 안전 | 금지행위를 회피하는가 | Policy violation rate |
| 효율 | 비용/속도가 예산 내인가 | Unit cost, p95 latency |
| 안정성 | 변동에 견디는가 | Drift, Error budget burn |
점수 집계 예시
- Q: 품질 점수
- S: 안전 점수
- E: 효율 점수
- R: 안정성 점수
평가 신뢰도 강화
LLM 평가는 평가자 편향과 샘플 편향에 취약합니다.
따라서 점수뿐 아니라 평가 신뢰도를 함께 관리해야 합니다.
| 신뢰도 지표 | 권장 기준 |
|---|---|
| 평가자 간 일치도(κ) | 0.6 이상 |
| 골든셋 커버리지 | 핵심 시나리오 100% |
| 회귀 케이스 재현율 | 95% 이상 |
2026년 평가 프레임워크 생태계
| 도구 | 버전 | 특징 |
|---|---|---|
| DeepEval | v3.8.9 | pytest 호환, 14+ LLM 평가 메트릭, 월 2,000만+ 평가 처리, 멀티턴 지원 |
| RAGAS | v0.4.3 | RAG 파이프라인 특화, Ground truth 불필요, 논리적 함의 기반 |
| Inspect AI (UK AISI) | v0.3.186 | 프론티어 모델 평가, 샌드박스 실행 (Docker/K8s), 에이전트 평가 지원 |
| LangSmith Fleet Eval | — | 실험 베이스라인 피닝, 쌍대 비교 평가, CI/CD 통합 (Agent Builder에서 리브랜딩) |
| Braintrust Loop AI | — | 자연어 스코러 자동 생성, Java/Go/Ruby/C# SDK, OTel 네이티브, GitHub Actions 통합 |
LLM-as-a-Judge 표준화
2026년 기준 LLM-as-a-Judge가 평가의 사실상 표준이 되었습니다. Langfuse v4.0에서 LLM-as-a-Judge 기능을 MIT 라이선스로 오픈소스화했으며, MLflow도 DeepEval/RAGAS를 서드파티 스코어러로 통합 지원합니다.
2026년 주요 벤치마크
| 벤치마크 | 평가 영역 | 특징 |
|---|---|---|
| LiveCodeBench | 코드 생성 | 실시간 갱신형 벤치마크, 데이터 오염 방지 |
| AIME 2026 | 수학 추론 | 미국 수학 초청시험 기반, 프론티어 모델 추론력 측정 |
| TAU-bench Retail | 에이전트 태스크 | 소매 도메인 에이전트 성공률·도구 사용 효율 평가 |
| JBDistill | 안전성 | 탈옥(jailbreak) 공격 증류 기반 안전성 벤치마크 |
벤치마크 활용 팁
범용 벤치마크 점수는 프로덕션 성능과 직접 대응하지 않습니다. 자체 도메인 평가셋과 교차 비교하여 모델 선정 근거로 활용하세요.
평가 데이터셋 운영
- Golden set: 필수 업무 시나리오
- Red team set: 정책 우회/악의적 입력
- Regression set: 과거 장애 재현 케이스
- Cost stress set: 고토큰·복합 툴 호출 시나리오
안전성 평가 확장
안전성 차원별 평가
| 차원 | 가중치 | 평가 항목 |
|---|---|---|
| 시스템 무결성 | 30% | 시스템 프롬프트 변경, 역할 위장 |
| 데이터 보호 | 30% | PII 추출, 타 고객 데이터 접근 |
| 권한 통제 | 20% | 권한 상승, 도구 권한 우회 |
| 콘텐츠 안전성 | 20% | 유해 콘텐츠, 의도적 오정보 |
위협 시나리오별 테스트
- 프롬프트 인젝션: 시스템 지시 우회, RAG 오염, 도구 결과 조작
- 데이터 유출: 고객 정보 추출, 세션 간 정보 유출
- 권한 남용: 파괴적 작업 실행, 무단 환불 처리
실무 판정 규칙
| 항목 | 릴리즈 허용 기준 |
|---|---|
| 품질 변화(ΔQ) | -1% 이내 |
| 안전 위반률 | 0.2% 이하 |
| 비용 변화(ΔCost) | +5% 이내 |
| 지연 변화(ΔLatency) | +10% 이내 |
판정 원칙
평균 점수 상승만으로 릴리즈를 승인하지 않습니다. 고위험 시나리오에서 단일 실패가 존재하면, 해당 위험군을 통과할 때까지 릴리즈를 보류합니다.