↓ 준랩 | JoonLab 에 대해서 알고 싶다면? ↓
About Me

7 분 소요

BABILong 벤치마크 분석

BABILong 벤치마크 분석

1. 소개 (Introduction)

현대의 대형 언어 모델(Large Language Models, LLMs)과 신경망 아키텍처는 지속적으로 발전하며, 특히 긴 컨텍스트를 처리하는 능력이 크게 향상되고 있음(OpenAI, 2023b; Reid et al., 2024; Anthropic, 2024). 이러한 모델이 풍부한 컨텍스트 정보를 기반으로 텍스트를 처리하고 생성하는 능력은 여러 이유로 중요함. 긴 컨텍스트는 모델이 출력물을 조건화하기 위한 더 많은 정보를 제공하여 더 정확하고, 컨텍스트에 적합하며, 최신의 응답을 생성할 수 있게 함. 또한, 인-컨텍스트 학습을 향상시켜 더 많은 인-컨텍스트 예시, 따라야 할 지침 또는 강화 학습의 맥락에서의 예시 궤적을 제공할 수 있음(Chevalier et al., 2023; Agarwal et al., 2024; Lee et al., 2024).

그러나 이러한 모델의 능력 향상에도 불구하고, 이를 평가하기 위한 벤치마크는 이에 발맞추지 못하고 있음. 현재의 벤치마크인 Longbench(Bai et al., 2023)와 L-Eval(An et al., 2023)은 최대 40,000 토큰까지 확장되지만, 모델들은 수십만에서 수백만 토큰까지도 처리할 수 있음(Rodkin et al., 2024; Reid et al., 2024; Bulatov et al., 2024; Anthropic, 2024; Liu et al., 2024a; Gu & Dao, 2023; OpenAI, 2023a).

자연스럽고 포괄적인 긴 컨텍스트 벤치마크를 인간이 레이블링하기는 매우 어려움. 그 결과, '건초 더미에서 바늘 찾기(needle-in-a-haystack)'의 변형에 초점을 맞춘 합성 벤치마크가 점점 더 일반화되고 있음(Zhang et al., 2024b; Liu et al., 2024a; Song et al., 2024b; Hsieh et al., 2024). 널리 사용되는 이 작업은 Paul Graham의 에세이¹에서 특정한 '마법 숫자를 가진 바늘'을 찾는 것임. 그러나 이러한 접근법의 광범위한 사용은 그 한계를 드러냈음. 이는 지나치게 단순하며, 새로운 긴 컨텍스트 모델들은 종종 완벽한 성능을 달성함(Reid et al., 2024; Cohere, 2024; Liu et al., 2024a; Wang et al., 2024c). 이는 기본적인 검증 도구로서는 잘 작동하지만, 고급 긴 컨텍스트 모델을 효과적으로 도전하고 구별할 수 있는 엄격한 벤치마크는 아님. 또 다른 주요 단점은 모델의 예측이 단일 바늘에 대해 GPT-3.5-turbo로 1에서 10까지의 척도로 평가되고 점수가 매겨지며, 동일한 단일 바늘이 각 위치와 문서 길이에 사용된다는 것임.

이 격차를 메우기 위해, 우리는 BABILong 벤치마크를 소개함. 이는 매우 긴 문서에 분산된 사실들을 논리적으로 추론하는 언어 모델의 능력을 시험하도록 설계됨. BABILong은 사실 연결, 단순 귀납, 연역, 카운팅, 리스트/셋 처리를 포함한 20개의 다양한 추론 작업을 포함하고 있음. 이러한 작업들은 자체적으로도 도전적이며, 필요한 사실들이 긴 자연어 텍스트에 흩어져 있을 때 더욱 어려워짐.

우리는 긴 자연 문서의 소스로 PG19 코퍼스의 책을 사용함(Rae et al., 2020). 이렇게 함으로써, BABILong은 거의 임의의 길이로 작업을 구성하여, 증가된 능력을 가진 새로운 더 강력한 모델들을 평가하는 데 적합함. 우리는 최대 1,000만 토큰 길이까지의 미리 정의된 세트를 제공하며, 최대 5천만 토큰의 길이를 가진 샘플로 모델을 평가함.

평가 결과, 인기 있는 LLM들은 컨텍스트의 10-20%만 효과적으로 활용하며, 추론 복잡도가 증가함에 따라 성능이 급격히 감소함을 발견함. Retrieval-Augmented Generation(RAG) 방법은 컨텍스트 길이와 무관하게 단일 사실 질문 응답에서 약 60%의 정확도를 달성함. 다른 방법 중에서, Mamba와 Recurrent Memory Transformers(RMT 및 ARMT)가 가장 높은 성능을 보여주었으며, ARMT는 미세 조정 후 최대 5천만 토큰까지의 길이를 처리할 수 있었음.

2. BABILong 벤치마크: 긴 컨텍스트 처리를 위한 설계

BABILong의 기본 개념은 기존 작업의 길이를 확장하여, 언어 모델의 긴 컨텍스트 처리 능력을 시험하는 것임. 긴 컨텍스트 크기의 작업을 해결하려면 모델이 대량의 관련 없는 상세 정보 중에서 중요한 정보를 구별해야 함. 이를 위해, 우리는 원래 작업의 문장들을 다른 유사한 분포의 무관한 텍스트 사이에 '숨김'(그림 1a 참고). 예시는 보강된 샘플이 원하는 길이에 도달할 때까지 배경 데이터셋에서 문장을 자연 순서로 점진적으로 추가하여 구성됨. 이렇게 하면 원래 작업 자체의 길이에 제한되지 않으며, 거의 임의의 길이의 작업을 구성하여 더욱 강력한 모델들을 평가할 수 있음.

배경 텍스트로는 PG19 데이터셋의 책을 사용함(Rae et al., 2020). 이는 자연스럽게 발생하는 긴 컨텍스트를 제공함. 모델은 먼저 원래 작업과 관련된 문장을 구별한 다음, 이를 기억하고 올바른 솔루션을 생성하는 데 사용해야 함.

이 작업에서, 우리는 bAbI 벤치마크(Weston et al., 2016)를 확장함. 이는 20개의 작업으로 구성되어 있으며, 기본적인 추론 측면을 평가하도록 설계됨. 이러한 작업은 다양한 장소에서의 캐릭터와 객체 간의 상호 작용을 시뮬레이션하여 생성되며, 각 상호 작용은 'Mary went to the bathroom.'과 같은 사실로 표현됨. 도전 과제는 생성된 현재 시뮬레이션의 사실에 기반한 질문에 답하는 것임. 작업들은 사실의 수, 질문의 복잡성, 평가하는 추론 기술(공간 및 시간적 추론, 연역, 공지 해결 등)에 따라 다양함.

BABILong은 이러한 작업들을 긴 컨텍스트로 확장하여, 사실들이 긴 자연어 텍스트에 흩어져 있을 때 모델이 추론할 수 있는 능력을 평가함. 예를 들어, 원래 작업의 사실들을 PG19의 배경 텍스트에 삽입하여 긴 입력을 구성함. 모델은 이 긴 입력에서 관련된 사실들을 찾아 추론해야 함.

BABILong의 작업들은 겉보기에는 간단하지만, 긴 컨텍스트에서 사실을 찾고 추론하는 것은 언어 모델에게 상당한 도전 과제가 됨. 또한, 대부분의 NLP 벤치마크는 데이터 누출에 취약하지만(Sainz et al., 2023), BABILong은 생성된 벤치마크이므로 이러한 문제에 면역임.

3. 벤치마킹 결과(Benchmarking Results)

우리는 연구 커뮤니티에 최대한 가치를 제공하기 위해, Hugging Face 플랫폼에서 월간 다운로드 수가 가장 많은 모델들을 평가에 포함시켰음. 여기에는 LLama-3(AI@Meta, 2024), Mistral(Jiang et al., 2023), Mixtral(Jiang et al., 2024), ChatGLM3(Du et al., 2022), LLama-3.1(Dubey et al., 2024), Phi-3(Abdin et al., 2024), Command-R(Cohere, 2024), Qwen-2.5(Team, 2024), Yi(Young et al., 2024) 등이 있음. 롱 컨텍스트 파인 튜닝을 포함한 LongChat(Li et al., 2023a), LLama-2-7b-32k, LongAlpaca(Chen et al., 2023)도 평가함. 롱 컨텍스트 적응 방법으로는 Yarnv2 Mistral(Peng et al., 2023b), Mistral 및 LLama-2 with Activation Beacons(Zhang et al., 2024a)를 고려함.

참고로 GPT-4(gpt-4-0125-preview)와 현재 사용 가능한 가장 강력한 모델인 Gemini 1.5 Pro 002를 포함시켰음. Retrieval-Augmented Generation(RAG)도 테스트하였으며, 이는 긴 문서 QA의 일반적인 솔루션임. 기존 아키텍처의 대안으로는 Mamba(Gu & Dao, 2023), Jamba(Lieber et al., 2024), Recurrent Memory Transformer(RMT)(Bulatov et al., 2022), Associative RMT(ARMT)(Rodkin et al., 2024)를 포함함. 평가 결과의 요약은 테이블 2에 제시되어 있음.

3.1 효과적인 컨텍스트 크기의 평가(Evaluation of Effective Context Size)

긴 컨텍스트 모델의 성능과 관련하여 가장 중요한 질문 중 하나는 모델이 입력 컨텍스트를 얼마나 효과적으로 활용하는가임. 이상적으로는 모델이 입력 크기에 관계없이 균일하게 높은 성능을 유지해야 함. 예를 들어, LLM이 128K 토큰을 처리할 수 있다면, 사용자 작업을 해결하는 데 이 모든 컨텍스트를 사용하는 것이 기대됨.

우리는 QA1~QA3 작업에서 모델의 성능을 평가하여 LLM들이 사용 가능한 컨텍스트를 어떻게 활용하는지 연구함. 여기서 우리는 단일한 정답이 필요한 QA 작업과 정보 검색 작업(관련된 사실 또는 정보 소스의 목록을 생성해야 함)을 구별함. 답변의 정확도가 85%를 초과하면 성능이 만족스럽다고 간주하고, 30% 미만이면 완전한 실패로 간주함.

벤치마킹 결과, 현재의 LLM들은 전체 컨텍스트를 효율적으로 사용하지 못함(그림 2). 테스트한 34개의 LLM 중 23개만이 방해자 텍스트가 없는 기본 설정에서 QA1~QA3 작업 중 어느 하나에 대해 85% 이상의 정확도를 달성할 수 있었음. 가장 간단한 단일 지원 사실을 포함하는 작업(QA1)에서도 대부분의 모델은 최대 4K 토큰까지 효율적으로 사용할 수 있었음. GPT-4와 LLama-3.1-70B는 16K까지, Qwen-2.5-70B와 Gemini Pro 1.5는 64K까지 잘 수행함.

두 개의 지원 사실이 필요한 경우(QA2), GPT-4와 Gemini Pro 1.5만이 방해자 텍스트 없이 작업을 해결할 수 있었음. 세 개의 지원 사실이 필요한 작업(QA3)은 현재의 LLM들에게 매우 어려웠으며, 최고의 정확도도 80% 미만이었음.

3.2 RAG는 BABILong에서 좋은 성능을 보이지 않음

Retrieval-Augmented Generation(RAG)은 언어 모델이 대량의 텍스트를 처리하기 위한 일반적인 솔루션임. RAG에서는 관련된 텍스트 부분을 대규모 데이터셋에서 검색한 다음, 언어 모델이 입력에 추가된 검색된 텍스트를 사용하여 최종 응답을 생성함.

BABILong의 경우, 우리는 긴 입력 텍스트에서 질문과 관련된 모든 사실을 추출하고, 그런 다음 모델의 컨텍스트에 그것들을 배치하기를 기대함. 우리는 두 가지 옵션을 실험함: (1) 크기가 512 토큰인 청크로 검색하는 RAG-C, (2) 문장별로 검색하는 RAG-S임.

QA1 작업에서의 결과는 문장 단위로 검색하는 것이 512 토큰 청크보다 우수하며, 이미 16K 토큰 컨텍스트 길이에서 정확도가 현저하게 감소함을 나타냄(그림 3a). 그러나 이는 작업별로 특화된 것이며, 실제 응용에서는 작은 청크에서 정보 손실이 발생할 수 있으므로 효과적이지 않을 수 있음.

GPT-4-turbo를 사용한 RAG 파이프라인은 BABILong에서 약한 성능을 보였으며, 특히 청크 임베딩의 경우 확장성이 좋지 않았음. RAG의 약한 성능은 작업의 시간적 종속성 때문일 수 있음. QA2와 QA3에서는 검색 성능이 급격히 저하되어 무작위 추측보다도 낮은 정확도를 보였음. 이는 이러한 작업에서 정확한 응답을 생성하려면 여러 지원 사실을 검색해야 하기 때문임.

3.3 모델의 미세 조정(Fine-Tuning Models on BABILong)

우리는 GPT-3.5-Turbo, Mistral-7B-Instruct-v0.2, RMT 및 ARMT(GPT-2 137M 기반), Mamba(130M) 모델로 미세 조정 실험을 수행함. 미세 조정된 RMT와 ARMT 모델은 16K 토큰 길이로 훈련되었으며, GPT-4를 크게 능가하는 강력한 성능을 보여줌. RMT는 128K 토큰 이상에서도 일관된 성능을 유지하였으며, 1백만, 1천만, 심지어 1,110만 토큰에서도 성능 저하가 거의 없었음. ARMT는 5천만 토큰까지도 성공적으로 확장되었음.

미세 조정된 Mamba, RMT, ARMT는 QA1에서 모두 좋은 성능을 보였으나, Mamba의 구현은 128K 이상의 길이에서 추론 속도가 매우 느렸음. 반면, RMT와 ARMT는 더 긴 시퀀스를 처리할 수 있었음.

3.4 BABILong과 다른 벤치마크 비교(BABILong and Other Benchmarks)

우리는 모델의 BABILong에서의 성능이 MMLU(Hendrycks et al., 2020) 및 RULER(Hsieh et al., 2024)와 어떻게 다른지 분석함. MMLU는 LLM의 다양한 지식을 측정하며, RULER는 '건초 더미에서 바늘 찾기' 개념을 공유함.

결과적으로, BABILong은 짧은 컨텍스트에서 MMLU와 높은 상관관계를 보였으나, 길이가 증가함에 따라 상관관계가 감소함. 이는 BABILong이 컨텍스트 길이에 따라 모델의 성능 차이를 더 잘 포착함을 나타냄.

결론(Conclusions)

이 연구에서 우리는 BABILong을 소개하였으며, 이는 긴 컨텍스트에서의 추론 능력을 평가하기 위한 다양한 확장 가능한 벤치마크임. 우리의 실험은 BABILong이 현재의 긴 컨텍스트 모델에 상당한 도전을 제공하며, 모델들이 컨텍스트의 10~20%만 효과적으로 활용함을 보여줌.

BABILong의 미세 조정 실험은 작은 모델도 작업을 해결할 수 있음을 보여줌. 그러나 인기 있는 LLM들은 긴 컨텍스트에서 성능이 급격히 감소하며, 이는 개선의 여지가 있음을 나타냄.

© 2024 BABILong 벤치마크 분석. 모든 권리 보유.

댓글남기기