RARE — 고객 문서 기반으로 RAG 정확도를 직접 측정합니다

RARE는 고객의 실제 문서를 기반으로 RAG 평가 데이터셋을 자동 생성하는 프레임워크입니다. 범용 벤치마크 대신 실제 운영 환경의 정확도를 측정하고 수치로 소통할 수 있습니다.

RARE(Custom RAG Evaluation Framework)가 출시됐습니다. 고객의 실제 문서를 기반으로 RAG 평가 데이터셋을 자동으로 생성하는 프레임워크입니다. 기존 MiRA를 대체합니다.

달라진 것들

기존 RAG 평가는 범용 학술 벤치마크에 의존했습니다. 문제는 표준 벤치마크에서 80점을 받는 시스템이 실제 고객 문서에서는 10%대로 떨어지는 경우가 흔하다는 점입니다. 고객마다 문서 패턴, 도메인, 언어 특성이 다르기 때문입니다.

RARE는 이 문제를 다음 방식으로 해결합니다:

AI 도입 프로젝트에서 "잘 작동하는가"를 증명하는 것은 구축만큼 중요합니다. RARE는 고객 환경에 맞는 측정 기준을 만들어 그 증명을 가능하게 합니다.

궁금한 점은 문의 페이지에서 연락해 주세요.