이 포스팅은 기존 키워드 중심 검색의 한계를 넘어, 질문의 의미와 맥락을 이해하는 첨단 리랭킹 기술을 소개합니다. Cross-Encoder 기반 Reranker가 어떻게 정밀도를 높이고, 실제 기업 검색에서 효율성과 정확성을 동시에 개선하는지 구체적인 사례와 함께 설명하며, 최신 시장 동향과 도입 시 고려사항까지 다룹니다.
이전 글에서는 Cross-Encoder 기반 Reranker의 개념과 장점을 중심으로, 의미 기반 검색 기술의 가능성을 살펴봤습니다. 이번 글은 그에 이어 보다 실전적인 최적화 전략과 적용 사례를 다룬 심화편입니다. 특히 정밀도 축소, 실행 그래프 최적화, Transformer 구조 특화 기법 등 실시간 추론 성능을 극대화하는 핵심 기술을 상세히 설명합니다.
이 글은 올거나이즈 RAG팀의 조한준 엔지니어, 이정훈 엔지니어님의 도움으로 작성되었습니다.
AI 시대에 들어와 사용자의 질문이 점점 복잡해지면서, 단순 키워드 매칭에 의존한 전통적 검색으로는 원하는 정보를 효율적으로 찾기 어려워지고 있습니다. 기존 BM25 기반 키워드 검색은 키워드 단위의 일치에 초점을 두기 때문에 사용자의 질의 의도나 문맥 같은 복잡한 패턴을 충분히 이해하지 못하는 한계를 보입니다. 특히 자연어로 표현된 복잡한 질의에서는 키워드 일치만으로는 적합한 결과를 제공하기 어렵습니다. 이러한 배경에서 의미 기반 검색의 중요성이 대두되었고, 복잡한 질의의 의미를 이해하여 정확도를 높이는 Cross-Encoder 기반 리랭킹(reranking) 기술이 기업 검색 시스템 혁신의 핵심으로 부상하고 있습니다.
BM25는 문서 내 키워드 빈도와 역문헌 빈도(IDF), 문서 길이 등을 고려하여 가중치 합산으로 relevancy 점수를 매기는 전통 정보검색(IR)의 표준 모델입니다. 구현이 쉽고 속도가 빠르다는 강점이 있어 여전히 널리 쓰이고, 대용량 데이터에서도 효율적이라는 장점이 있습니다. 그러나 BM25는 단순한 어휘 수준 매칭만 수행하기에, 질의와 문서 사이의 의미적 연관성이나 문맥을 반영하지 못합니다. 한편 Bi-Encoder 기반의 임베딩 검색(예: Sentence-BERT)은 질의와 문서를 각각 벡터로 임베딩하여 벡터 유사도로 검색하는 방식으로, 대규모 문서군에서도 실시간으로 유사도 계산을 할 수 있어 확장성이 높습니다. 다만 Bi-Encoder는 질의와 문서를 개별적으로 인코딩하므로, 질의-문서 간의 세밀한 상호작용 정보를 잃게 됩니다 . 그 결과 문장 내 미세한 문맥적 차이, 질문의 의도 같은 nuance를 놓치고, 대략적인 주제 유사도는 높지만 정밀한 관련성은 낮은 결과를 줄 때가 있습니다. 실제 연구에서도 순수 벡터 검색이 오히려 간단한 BM25보다 못한 성능을 내는 경우가 보고되고 있으며, 이런 한계를 보완하기 위해 리랭킹 단계를 추가하면 가장 좋은 결과를 얻는다고 밝혀졌습니다. 요약하면, BM25와 Bi-Encoder 각 방식은 장단점이 있는데, 그럼에도 불구하고 의미 해석이 필요한 어려운 질의나 도메인에서는 이들 단독으로 Top-K 결과에 만족할만한 정답을 올리기 어려운 경우가 많습니다.
Cross-Encoder 모델은 질의와 문서를 한 쌍으로 결합하여 동시에 입력으로 받고, 이를 Transformer 등 딥러닝 모델로 처리해 더 정밀한 리랭킹 점수를 출력합니다. 예를 들어 BERT 계열 Cross-Encoder의 입력 형식은 [CLS] 질의 [SEP] 문서 [SEP]이며, 최종 출력의 [CLS] 토큰 임베딩을 통해 해당 질의-문서 쌍의 관련도 점수를 산출합니다. 이처럼 질의와 문서를 함께 인코딩하면서 모든 토큰 사이의 관계를 세밀하게 파악하기 때문에, Bi-Encoder로는 포착하지 못했던 미세한 문맥적 상호작용까지 반영할 수 있습니다. 단어 하나하나의 의미, 순서, 중요도가 질의와 문서 전체 맥락 속에서 평가되므로 더 정밀한 판단이 가능한 것이죠. 이러한 Cross-Encoder 방식은 독립적인 인코딩 방식의 Bi-Encoder 보다 훨씬 정확한 평가를 제공하여, 정보 검색 및 추천 시스템 등에서 SOTA(state-of-the-art) 성능을 달성하고 있습니다 .
특히 흥미로운 점은, 최근 연구를 통해 Cross-Encoder가 BM25의 핵심 요소를 신경망 내부에 학습한다는 사실이 확인되었다는 것입니다. MiniLM 기반 Cross-Encoder를 해부한 연구에 따르면, 모델 내부에 용어 빈도(TF)와 역문헌빈도(IDF) 역할을 하는 기제가 형성되어 있었습니다. 예를 들어, 특정 어텐션 헤드들은 질의-문서 사이 용어 일치 횟수에 포화(saturation)를 적용하고 문서 길이에 대한 정규화까지 수행하여 BM25의 TF 계산과 유사한 동작을 보였습니다. 또 토큰 임베딩 행렬의 주성분 일부가 IDF 값과 강한 상관을 보여, 자연스럽게 단어의 중요도를 반영하고 있음이 드러났습니다 . 실제로 이러한 내부 “신경망 BM25” 회로 덕분에 Cross-Encoder는 단어의 희소성과 빈도를 자동으로 고려하며, 질의-문서 쌍별로 의미적 가중치를 산정해 주는 것으로 분석됩니다 . 이는 Cross-Encoder 기반 Reranker가 높은 정확도를 내는 이유를 설명해주며, 키워드 매칭 이상의 의미 기반 점수 산정 능력을 갖추고 있음을 시사합니다.
한편, Cross-Encoder는 계산 비용이 매우 큰 모델이기도 합니다. 질의와 후보 문서들을 한꺼번에 처리해야 하므로, 후보 문서 수가 늘어날수록 연산량이 질의×문서 쌍에 대해 선형적으로 증가합니다 . 보통 수억 개의 파라미터와 여러 Transformer 레이어를 갖추고 있어 대용량 데이터를 실시간 처리하기엔 부담이 됩니다. 그래서 Reranking 전략이 주로 활용됩니다. 다음 섹션에서는 이런 Cross-Encoder 기반 Reranker를 도입했을 때 실제 성능이 어떻게 향상되는지와, 그 비용 문제를 어떻게 해결할 수 있는지 살펴보겠습니다.
Cross-Encoder Reranker의 도입은 검색 정확도의 비약적 향상을 가져오는 것으로 다양한 실험에서 확인됩니다. 예를 들어 MS MARCO 대규모 검색 벤치마크에서, 기본 BM25 모형은 MRR@10 점수가 약 0.17이었으나 동일 쿼리들에 대해 BERT Cross-Encoder를 재랭커로 사용하자 MRR@10이 0.39로 2배 이상 뛰어올랐습니다 . 이는 상위 10개 결과 내 정답이 포함될 확률이 두 배로 높아졌음을 의미합니다. Stack Overflow의 내부 실험에서도 비슷하게, 상위 결과 10개를 Cross-Encoder로 재정렬한 후 사용자가 원하는 지식을 더 빠르게 찾게 되어 검색 성능 지표가 유의미하게 개선된 바 있습니다 . 올거나이즈가 자체 실서비스 데이터로 실시한 실험에서도, Reranker 도입 전에는 정답 문서를 Top-1에 포함하는 비율이 약 22%에 그쳤던 것이 리랭킹 도입 후에는 44% 수준으로 2배 향상되었습니다 (Top-3, Top-5, Top-10 내 정답 포함율도 모두 크게 상승). 다시 말해, 사용자가 바로 원하는 문서를 맨 위에서 찾을 확률이 두 배가 된 것입니다.
이러한 개선 효과는 도메인을 불문하고 관찰되는데, 실제 BEIR 등 공개 벤치마크의 광범위한 실험에서도 거의 모든 분야에서 Cross-Encoder 리랭킹이 1단계 검색 성능을 크게 끌어올린다는 결과가 나와 있습니다 . 예를 들어 Elastic사가 공개한 자료에 따르면, 법률(QA), 의료, FAQ 등 다양한 데이터셋에서 BM25 대비 리랭킹 후 평균 39%의 nDCG@10 향상이 일어났고, 일부 질의응답 데이터셋에서는 무려 80~90%에 달하는 성능 향상이 기록되기도 했습니다 . 아래 그림은 여러 리랭킹 모델의 성능 비교를 보여주는데, 붉은 점선의 BM25 대비 Cross-Encoder 계열 모델들이 얼마나 높은 nDCG 점수를 달성하는지 알 수 있습니다. 특히 파란색으로 표시된 BGE 모델과 Elastic Rerank 모델은 가장 높은 정확도를 보이며, 기존 BM25보다 훨씬 상위 성능임을 확인할 수 있습니다.
“ 다양한 리랭커 모델의 BEIR 벤치마크 성능 (nDCG@10) 비교. BM25(붉은선)는 0.426, MiniLM 등 소형 Cross-Encoder(노랑/청록 X)는 0.48~0.49 수준, 대형 MonoT5 모델(보라 X)은 0.514, Cohere reranker(v3 멀티, 보라 점선)는 0.529를 달성했다. ”
물론 이러한 성능 향상에는 대가가 따릅니다. Cross-Encoder 리랭킹은 계산량 증가로 응답 지연(latency)이 늘어날 수밖에 없으므로, 엔지니어링 측면의 최적화가 필수입니다. 올거나이즈는 자사 서비스에 Reranker를 적용하면서 추론에 가장 비용 효율적인 GPU 장비 선정, Triton 추론 서버를 통한 배포 최적화, TensorRT를 활용한 AI 추론 엔진 최적화, 그리고 모델 경량화 기법(Quantization)을 적극 활용했습니다. 그 중에서도 양자화(Quantization)는 모델 가중치를 16비트로 낮춰 Latency를 크게 줄이는 방법으로, 정확도 저하를 최소화하면서 속도를 비약적으로 높여줍니다. 다양한 최적화 기법을 적용한 결과, 응답 속도가 기존 대비 10~30배까지 향상되는 성과를 거두었습니다. 예컨대 한 쿼리에 대해서 Top-16개 문서 리랭킹 시 수천 밀리초 걸리던 작업이 수백 밀리초 이내로 단축되어 , 실시간 Q&A 서비스에도 Cross-Encoder Reranker를 적용할 수 있는 실용적인 지연 수준을 달성했습니다. 이처럼 정확성과 효율성의 균형을 맞추는 것이 검색 시스템 설계의 관건이며, 고성능 리랭커도 적절한 최적화를 통해 충분히 실시간 서비스에 활용될 수 있음을 보여준 사례입니다.
올거나이즈는 자사의 Alli Deep Research 모듈(기업 내부 지식 검색)과 Alli Answer 모듈(실시간 QA 챗봇)에 Cross-Encoder 기반 Reranker를 통합하여 고객사 업무에 적용했습니다. 그 결과, 이전보다 사용자 질문에 대한 정확한 답변을 상위에 제시하는 비율이 크게 높아졌고 검색에 대한 사용자 만족도 역시 유의미하게 향상되었습니다. 예를 들어 한 금융 도메인 고객의 경우, Alli 도입 후 내부 지식 검색에서 원하는 답변을 첫 번째 결과로 얻는 비율이 도입 전에 비해 대폭 증가하여 업무 효율이 눈에 띄게 개선되었습니다. 이러한 성공 사례들은 의미 기반 리랭킹 기술이 실제 현업 환경에서도 높은 가치를 발휘함을 보여줍니다.
다만, Cross-Encoder Reranker 도입 시에는 몇 가지 기술적 고려사항이 필요합니다. 첫째, 인프라 자원입니다. 딥러닝 리랭커 모델은 일정 수준 이상의 GPU 연산 능력이 요구되므로, 서비스의 질의량(QPS)에 맞는 충분한 GPU/CPU 리소스 확보와 배포 아키텍처 설계가 필수입니다. 둘째, 응답 지연 허용 범위를 고려해야 합니다. 리랭킹 단계는 추가 연산을 수반하므로, 사용자에게 허용될 만한 지연(latency) 내에서 몇 개의 후보 문서를 리랭킹할지 결정해야 합니다 . 예컨대 실시간 챗봇 답변에는 10개 정도의 후보만 리랭킹하는 식으로 트레이드오프를 조절할 수 있습니다. 셋째, 문서 길이 및 쿼리 복잡도입니다. Transformer 기반 모델은 입력 토큰 길이가 길어질수록 처리 비용이 급증(O(n^2))하고 메모리 소모도 커지므로, 너무 긴 문서는 슬라이싱하거나 사전 요약하는 등 전처리가 필요할 수 있습니다. 마지막으로, 모델 선택과 관리 이슈가 있습니다. 용도에 따라 대용량 최고성능 모델이 좋을 수도 있고, 경량화된 모델로도 충분할 수 있습니다. 올거나이즈의 Alli 플랫폼은 이러한 상황에 맞춰 고객이 여러 리랭커 모델 옵션(예: 정확도 중시형 대형모델 vs 속도 중시형 경량모델)을 선택하여 활용할 수 있도록 서비스화하고 있습니다. 또한 모델 업데이트나 도메인 특화 튜닝 등도 지원하여, 고객 데이터에 최적화된 검색 세팅을 손쉽게 갖출 수 있게 합니다. 결국 도입 기업은 GPU 비용 vs 향상된 정밀도 사이에서 자신들의 비즈니스 요건에 맞는 최적점을 찾고, 이를 뒷받침할 엔지니어링 전략을 함께 마련하는 것이 중요합니다.
의미 기반 검색 및 리랭킹에 대한 수요가 커지면서, 여러 글로벌 기업들도 관련 상용 서비스와 오픈소스 모델을 속속 내놓고 있습니다. 대표적으로 ElasticSearch는 2024년 말 자체 Cross-Encoder 리랭킹 모델인 Elastic Rerank를 발표했습니다 . 이 모델은 Microsoft의 DeBERTa v3를 기반으로 학습된 것으로, Elasticsearch 상에서 추론 파이프라인으로 쉽게 통합할 수 있도록 제공되고 있습니다 . Elastic은 해당 모델이 BM25 대비 큰 정확도 향상을 주면서도 상대적으로 경량(184M 파라미터)이라 비용 대비 성능이 우수하다고 밝혔습니다. 한편 오픈소스 진영에서는 다양한 언어를 지원하는 리랭커가 등장했는데, Jina AI는 2024년 자사 Jina Reranker v2 모델을 공개하여 100개 이상의 언어에 대해 뛰어난 리랭킹 성능을 제공하고 있다고 발표했습니다. Jina에 따르면 이 모델은 이전 버전 대비 6배 이상 빠르고, 특히 BGE 기반의 다른 공개 모델들보다도 성능이 우수하면서 15배 많은 문서를 초당 처리할 수 있을 정도로 최적화되었다고 합니다. Pinecone이나 LangChain 등의 벡터 DB 솔루션들도 이러한 재랭커들을 손쉽게 붙여쓸 수 있는 툴킷과 튜토리얼을 제공하여, 개발자들이 검색 파이프라인에 Cross-Encoder를 활용할 수 있게 돕고 있습니다 .
클라우드 AI 서비스 쪽으로 눈을 돌리면, Google Vertex AI는 2023년에 Ranking API를 선보여 검색 결과 재정렬 기능을 제공합니다. 이 Vertex AI Ranker는 쿼리와 문서 리스트를 받아 높은 정밀도의 리랭킹을 수행하며, 구글 인프라 최적화를 통해 100ms 미만의 낮은 지연으로도 동작한다고 알려져 있습니다 . 또한 Cohere 역시 ReRank API를 통해 사전 학습된 Cross-Encoder 재랭커 서비스를 제공하고 있는데, 95개국어 이상으로 학습된 최신 모델(Rerank v3)은 복잡한 질의에 대한 추론 및 다국어 성능을 크게 개선했다고 홍보하고 있습니다. 이처럼 다양한 상용/오픈 모델들이 나오고 있지만, 실제 현업에 적용할 때 고려해야 할 점들도 있습니다. 첫째, 처리 속도와 확장성입니다. 많은 리랭커 모델이 성능은 뛰어나지만 응답 시간이 길거나 대량 트래픽 처리에 비용이 많이 들기 때문에, 즉각적인 응답이 필요한 환경에서는 제약이 따를 수 있습니다. 둘째, 언어 및 도메인 특화 성능입니다. 일부 글로벌 모델들은 영어 데이터로 주로 학습되어 비영어(예: 한국어) 데이터에 대한 최적화가 부족하거나, 일반 문서에는 강하지만 법률/의학 같이 특수 도메인 문서에는 성능이 떨어질 수 있습니다. 이러한 부분에서 올거나이즈의 접근법은 눈여겨볼 만합니다. 올거나이즈는 다국어 지원과 긴 길이의 문서 처리에 특화된 검색 모델을 지원하여 어떠한 상황에서도 최적의 성능과 지연시간을 보장합니다. 덕분에 상대적으로 소수 언어인 한국어를 쓰는 국내 기업 환경에서 특히 우수한 성능을 발휘하며, 고객사 요건에 따라 유연하게 배포할 수 있는 엔드투엔드 솔루션(Alli) 형태로 제공되고 있습니다. 요약하면, 의미 기반 검색 시장은 현재 활발하게 진화 중이며 여러 플레이어들이 각기 강점을 내세운 모델을 선보이고 있지만, 올거나이즈는 고도화된 성능과 현지화된 최적화를 동시에 제공함으로써 차별화를 이루고 있습니다.
검색 기술은 이제 단순히 키워드를 매칭하던 시대를 넘어, 질문의 의미와 맥락을 이해하는 방향으로 빠르게 진화하고 있습니다. 그 중심에 Cross-Encoder 기반 리랭킹 기술이 있으며, 이는 대용량 데이터 속에서 정확도와 재현율을 동시에 잡는 해법으로 떠오르고 있습니다. 비록 Cross-Encoder 모델의 높은 계산 비용은 도전과제였으나, 앞서 살펴본 대로 하드웨어 가속과 모델 최적화를 통해 실사용 환경에서도 충분한 응답 속도를 낼 수 있게 되었습니다. 리랭킹을 전략적으로 활용하면 초기 검색의 효율성과 2차 검색 정밀도의 균형을 맞추어, 실시간 검색 환경에서도 높은 품질의 결과를 제공할 수 있음을 다수 사례로 입증하였습니다. 특히 공개 벤치마크와 다양한 도메인 실험에서 Top-3, Top-5, Top-10 정확도의 개선이 두드러졌고, 이를 통해 리랭킹 전략이 현대 정보검색 시스템에서 매우 중요한 역할을 수행한다는 것이 확인되고 있습니다.
올거나이즈의 Alli는 이러한 첨단 Reranker 기술을 누구나 활용할 수 있는 형태로 구현한 솔루션입니다. Alli는 자체적인 고성능 Cross-Encoder 재랭커를 통해 기업 내부의 방대한 지식베이스에서도 정확도 높은 검색 결과를 빠르게 찾아주며, 이를 바탕으로 한 딥 리서치(Deep Research)와 지능형 Q&A 기능으로 기업 업무 생산성을 높여주고 있습니다. 요컨대 Alli가 상용화한 의미 기반 리랭킹 기능은 기업의 정보 검색 효율성과 정답률을 획기적으로 향상시키는 도구가 되어 주고 있습니다. 앞으로도 고객별 다양한 도메인과 환경에 최적화된 검색 모델을 개발하고 통합하는 것이 중요한 과제가 될 것이며, 올거나이즈는 이 분야의 리더로서 지속적인 연구개발을 통해 의미 기반 검색으로의 진화를 이끌어갈 것입니다.