0.1%의 패러미터만으로 GPT-3 를 능가하기

Pattern-Exploiting Training(PET) 연구를 통해 GPT-3 대비 약 0.1% 수준의 파라미터만으로도 유사하거나 더 나은 성능을 달성한 사례를 소개합니다. 대규모 언어 모델 의존 없이 효율적인 NLP 모델 학습이 가능함을 보여주는 PET·iPET 연구의 핵심 내용을 정리합니다.

올거나이즈는 최근 **Pattern-Exploiting Training(PET)**에 대해 논의하는 자리를 가졌습니다. PET는 독일 LMU Munich의 연구진인 **Timo Schick**과 **Hinrich Schütze**가 제안한 자연어 처리(NLP) 모델 학습 기법으로, 대규모 언어 모델에 의존하지 않고도 높은 성능을 달성할 수 있음을 보여준 연구입니다. 아래는 이들이 arXiv에 기고한 논문 일부입니다. > (번역) > “이번 연구를 통해 패러미터 수가 수백, 수천 분의 1에 불과한 언어 모델만으로도 GPT-3와 유사한 성능을 낼 수 있음을 보였다. 이는 텍스트 입력을 과업 설명을 포함한 클로즈(cloze) 스타일 질문으로 변환하고, 그라디언트 기반 최적화와 병행함으로써 가능했으며, 언레이블 데이터를 활용해 추가적인 성능 향상을 달성했다.” > (원문) > “In this work, we show that performance similar to GPT-3 can be obtained with language models whose parameter count is several orders of magnitude smaller. This is achieved by converting textual inputs into cloze questions that contain some form of task description, combined with gradient-based optimization; additionally exploiting unlabeled data gives further improvements.” GPT-3는 분명 AI 업계에서 가장 혁신적인 성과 중 하나이며, 활용 가능성 또한 매우 넓습니다. 그러나 현실적인 문제는 학습 비용입니다. 패러미터란 AI 모델을 조정하고 학습하는 데 사용되는 변수로, 일반적으로 패러미터 수가 많을수록 모델 성능은 향상됩니다. GPT-3는 약 **1,750억 개의 패러미터**를 사용해 학습되었으며, 이 과정에는 다수의 GPU와 막대한 연산 자원이 필요합니다. 추정에 따르면 학습 비용은 **약 460만 달러에서 최대 1,200만 달러**에 달할 수 있습니다. 이러한 배경에서 Schick과 Schütze는 GPT-3보다 훨씬 **효율적인 트랜스포머 기반 NLP 대안 모델**을 제시했습니다. 이 모델은 **SuperGLUE 벤치마크**에서 단 **2억 2,300만 개의 패러미터**만으로도 GPT-3의 성능을 능가하는 결과를 보였습니다. GPT-3에 사용된 패러미터 수와 비교하면 놀라울 정도로 적은 규모입니다. 실제로 32개의 학습 예제만을 사용한 SuperGLUE 실험에서, **PET/iPET을 적용한 ALBERT 모델**은 GPT-3보다 우수한 성능을 기록했습니다. 이는 **패러미터 수가 세 자릿수 이상 적음에도 불구하고** 달성한 결과입니다. 연구팀은 PET 방식을 사전 학습된 **ALBERT 모델**과 결합했습니다. PET는 입력 데이터를 **pattern-verbalizer pair(PVP)**를 활용한 클로즈 스타일 질문으로 변환하고, 여러 모델을 조합해 학습시키는 방식으로 성능을 끌어올립니다. 예를 들어 자연어 추론(Recognizing Textual Entailment) 과업에서는 입력 문장 쌍을 마스크가 포함된 질문 형태로 재구성하고, 해당 마스크 위치에 특정 레이블이 들어갈 확률을 기반으로 예측을 수행합니다. PET 및 iPET가 GPT-3가 사용한 패러미터의 **약 0.1% 수준**만으로도 SuperGLUE의 일부 벤치마크에서 GPT-3를 능가했다는 점은 매우 주목할 만합니다. 물론 이것이 모든 과업에서 GPT-3를 대체할 수 있음을 의미하지는 않습니다. 그러나 연구자들이 훨씬 **부담이 적은 환경에서 다양한 실험과 시도를 할 수 있는 가능성**을 열어주었다는 점에서 그 의미는 큽니다. Schick과 Schütze는 PET 구현 코드와 FewGLUE 데이터셋을 GitHub에 오픈소스로 공개했습니다. - PET 코드: https://github.com/timoschick/pet - FewGLUE 데이터셋: https://github.com/timoschick/fewglue 더 자세한 내용이 궁금하시다면, 올거나이즈에서 진행한 **PET / iPET 관련 세미나**를 통해 확인하실 수 있습니다. 올거나이즈의 AI 팀은 자연어 이해 기술의 한계를 더욱 확장해 나가기 위해 함께할 인재를 찾고 있습니다. AI의 미래에 열정을 가지고 계신 분이라면 언제든지 **jobs@allganize.ai**로 연락해 주시기 바랍니다. --- 올거나이즈는 기업을 위한 자연어 이해 AI 솔루션을 제공합니다. - **Alli** – AI 답변봇: https://alli.allganize.ai/ - **Cognitive Search(인지 검색)**: https://api.allganize.ai/mrc - **NER API**: https://api.allganize.ai/ner - **Review Analysis API**: https://api.allganize.ai/review - **Sentiment API**: https://api.allganize.ai/sentiment - **Text Classification API**: https://api.allganize.ai/classification