
에이전트 시스템의 평가는 단일 응답의 정확도를 재는 문제가 아니라, 목표 달성 과정 전반이 얼마나 안정적으로 작동하는지를 판단하는 문제로 설명된다. 벤치마크는 통제된 조건에서의 성능을 보여주지만, 실제 환경에서는 상태 변화·도구 오류·사용자 개입 등 변수가 개입된다.
에이전트 시스템의 평가는 단일 응답의 정확도를 재는 문제가 아니라, 목표 달성 과정 전반이 얼마나 안정적으로 작동하는지를 판단하는 문제로 설명된다. 벤치마크는 통제된 조건에서의 성능을 보여주지만, 실제 환경에서는 상태 변화·도구 오류·사용자 개입 등 변수가 개입된다. 쉽게 말해, “시험 점수”와 “실무 수행력”의 차이에 가깝다.
이 글의 범위
이 문서는 에이전트 시스템 평가가 어려운 이유와 벤치마크 평가와 실환경 평가의 개념적 차이를 설명하며, 특정 평가 지표 설계·점수 비교·성과 판단 기준은 다루지 않는다.
구분벤치마크 평가실환경 평가조건통제됨변동적과제고정된 문제실제 업무 맥락측정 대상정답·점수 중심목표 달성·안정성재현성높음상대적으로 낮음한계현실 반영 제한비교·정량화 어려움
Q1. 기존 LLM 평가 방식으로 에이전트를 평가할 수 있는가?
A. 일부 요소를 참고할 수 있지만, 목표 달성과 과정 안정성을 추가로 고려해야 한다.
Q2. 실환경 평가는 왜 정량화가 어려운가?
A. 사용자 행동, 외부 도구, 환경 변화 같은 변수가 고정되지 않기 때문이다.
Q3. 재현성이 낮으면 평가가 불가능한가?
A. 불가능하지는 않지만, 평균적 경향이나 실패 패턴 중심으로 접근하는 경우가 많다.
Q4. 종단 간 평가는 무엇을 강조하는가?
A. 개별 단계가 아닌 전체 흐름과 최종 결과를 함께 본다.