올거나이즈, ACL 2026 Main Conference 논문 채택 — 기업 RAG 평가, 현장 문제에서 출발한 연구

올거나이즈가 NLP 최고 학회 ACL 2026 Main Conference에 논문을 채택받았다. 기업 RAG 평가의 구조적 한계를 정량적으로 규명하고, 기업이 자체 문서로 직접 RAG를 평가할 수 있는 프레임워크(RARE)를 제시했다.

올거나이즈가 자연어처리(NLP) 분야 세계 최고 권위 학회인 ACL 2026 Main Conference에 논문을 채택받았다.

ACL(Association for Computational Linguistics)은 1962년 설립 이래 NLP 분야의 최상위 학회로 인정받고 있다. 공개 보도 기준, 올해 약 12,000건의 논문이 제출되었으며 메인 컨퍼런스 채택률은 19% 수준으로 알려져 있다.

채택된 논문은 'RARE: Redundancy-Aware Retrieval Evaluation Framework for High-Similarity Corpora'. 올거나이즈의 조한준 엔지니어가 1저자이며, 서울대학교 이재윤 교수가 공저자로 참여했다. 2026년 7월 미국 샌디에이고에서 발표된다.

‍

리뷰어 전원 합의 — "격차를 매우 예리하게 짚었다"

논문 심사에서 3명의 리뷰어와 Area Chair 전원이 채택(Accept)에 합의했다. 주목할 점은 심사위원들이 동일한 지점을 이 논문의 핵심 강점으로 꼽았다는 것이다. 리뷰에서는 이 논문이 실제 엔터프라이즈 환경과 기존 학술 벤치마크 사이의 격차를 예리하게 짚었다는 취지로 평가됐다.

"실제 엔터프라이즈 환경과 기존 학술 벤치마크 사이의 격차를 매우 예리하게 짚었다."

이는 RARE가 다루는 문제 — 기업 환경에서 RAG 평가가 제대로 작동하지 않는 현상 — 가 학계에서도 핵심적인 과제로 인식되고 있음을 보여준다.

‍

연구의 출발점 — 고객 현장에서 반복적으로 관찰한 문제

이 연구는 연구실이 아닌 고객 현장에서 시작됐다.

올거나이즈 엔지니어링 팀은 고객사에 RAG 시스템을 구축하면서 동일한 현상을 반복적으로 관찰했다. 위키피디아 기반 벤치마크에서 높은 점수를 기록한 검색 모델이, 실제 기업 문서에서는 성능이 급격히 떨어지는 것이다. 원인을 추적한 결과, 문제는 모델이 아니라 평가 방식 자체의 구조적 한계에 있었다.

기존 벤치마크(MS MARCO, HotpotQA 등)는 위키피디아처럼 문서 간 내용이 뚜렷이 구분되는 환경을 전제로 설계됐다. 그러나 실제 기업 환경은 정반대다. 금융 보고서는 분기마다 구조가 거의 동일하고, 법률 조문은 유사 조항이 반복되며, 특허 문서는 같은 기술을 다른 각도에서 기술한다.

RARE 논문은 이 격차를 정량적으로 입증했다. 위키피디아 환경에서 정확도(PerfRecall@10) 77.9%를 기록한 검색 모델이, 금융 도메인에서는 8.5%, 법률 도메인에서는 5.0%까지 하락했다. 기업들이 "벤치마크에서는 잘 되는데 왜 현장에서는 안 되는가"라고 체감해온 현상의 원인이 처음으로 학술적으로 규명된 것이다.

‍

‍

RARE 프레임워크 — 올거나이즈가 제시한 해법

RARE는 이 구조적 문제를 해결하기 위한 세 가지 핵심 기술을 제시한다.

Atomic Fact Decomposition. 기업 문서를 최소 단위의 사실로 분해해, 동일한 정보가 어떤 문서들에 중복으로 존재하는지 정밀하게 추적한다. 기존에는 불가능했던 cross-document 중복 매핑을 가능하게 한다.

Redundancy-Aware Labeling. 같은 사실이 여러 문서에 존재할 때, 어떤 문서를 가져와도 정답으로 인정하는 공정한 평가 체계다. 기존 벤치마크가 맞는 답을 가져온 검색 모델에 불이익을 주던 문제를 해결한다.

CRRF(Criterion-wise Prompting with Reciprocal Rank Fusion). LLM 기반 평가 데이터 생성의 품질을 안정화하는 자체 개발 기법이다. 각 품질 기준을 독립적으로 평가한 뒤 순위 기반으로 합산하는 방식으로, 기존 방법 대비 품질 점수(NDCG@3)를 0.419에서 0.463으로 향상시켰다. 이는 LLM이 자동 생성하는 평가 데이터의 신뢰도를 높여, 기업이 RAG 시스템을 검증할 때 수작업 검토 부담을 줄여준다.

이 프레임워크를 통해 어떤 기업이든 자사 문서를 기반으로 맞춤형 RAG 벤치마크를 자동 구축할 수 있다. 논문에서는 금융, 법률, 특허 세 도메인의 벤치마크(RedQA)를 실제로 구축해 검증했다.

‍

제품이 먼저, 논문이 나중이었다

올거나이즈의 연구가 갖는 차별점은 순서에 있다.

대부분의 AI 논문은 연구실에서 시작해 제품화를 시도한다. RARE는 반대였다. 올거나이즈는 고객 현장에서 발견한 문제를 해결하기 위해, 이 방법론을 엔터프라이즈 AI 플랫폼 Alli에 먼저 구현했다. 이미 고객이 사용하고 있는 기능이다. RARE 논문은 그 과정에서 축적된 기술을 학술적으로 정리하고, 세계 최고 학회의 검증을 받은 것이다.

RAG 성능 평가에 특화된 전용 솔루션 Ralli에도 RARE 평가 기능이 탑재되어 있다. 현장에서 발견하고, 제품에 먼저 반영하고, 학계에서 검증받는 — 올거나이즈가 만들어가는 기술 선순환 구조다.

1저자인 조한준 엔지니어는 이렇게 설명한다. "고객사 문서를 기반으로 RAG 시스템을 평가하려 할 때, 기존 벤치마크를 그대로 적용하면 현장 성능과 크게 달라지는 경우를 반복해서 경험했습니다. 기업이 자체 문서로 직접 평가할 수 있는 방법이 없다는 것이 실질적인 문제였고, RARE는 그 공백을 메우기 위해 설계한 프레임워크입니다."

‍

이번 채택이 갖는 의미

이번 ACL 채택은 올거나이즈가 고객 현장에서 반복적으로 관찰한 기업 RAG 평가 문제를, 제품 기능에 머물게 하지 않고 국제 학술 커뮤니티가 검토할 수 있는 연구 프레임워크로 정리했다는 점에서 의미가 있다.

이창수 올거나이즈 대표는 "올거나이즈 엔지니어들은 고객 현장에서 AI가 실제로 작동하는 방식을 가장 가까이에서 보고 있습니다. 이번 논문은 그 경험에서 출발한 연구이며, ACL 채택은 우리가 현장에서 풀어온 문제가 학술적으로도 유효하다는 확인입니다"라고 밝혔다.

한국, 미국, 일본 3개국에서 200개 이상의 기업 고객에게 엔터프라이즈 AI를 제공하고 있는 올거나이즈는, 고객 현장의 문제를 제품으로 먼저 해결하고, 그 방법론을 학술적으로 검증 가능한 연구로 정리해왔다. 금융, 법률, 특허 등 고유사도 문서가 많은 산업군에서 RAG 품질을 정량적으로 측정하는 일이 점점 중요해지고 있다.

고유사도 문서 환경에서 RAG 성능을 검증해야 하는 팀이라면, 논문을 확인한 뒤 실제 문서 기준 평가 방식도 함께 검토해볼 수 있습니다.

‍