본문 바로가기
먼테크

지시 모델은 HELM 벤치마크에서 모든 개방형 7B 모델을 능가

by 먼버그 2023. 7. 5.
반응형

 

RedPajama 프로젝트는 오픈 소스 AI의 혁신을 촉진하고자 하는 연구자들을 위한 훌륭한 자원입니다.

 이 프로젝트는 최신의 오픈 소스 모델들을 깊이 있게 분석하고, 

그들이 어떻게 놀라운 성능을 달성하는지를 밝히는 것을 목표로 합니다. 

 

이번 달에는 LLaMA 논문에서 제안한 RedPajama 기본 데이터 세트를 공개했습니다. 

이 데이터 세트는 오픈 소스 AI 모델들의 다양한 측면을 평가할 수 있는 풍부하고 다양한 데이터를 제공합니다.


5테라바이트 크기의 데이터 세트는 이미 많은 관심을 받고 있습니다. 수천 명의 연구자들이 다운로드했으며, 100개 이상의 모델들이 이 데이터 세트를 사용하여 훈련되었습니다.

RedPajama 프로젝트는 오픈 소스 AI 커뮤니티에 큰 기여를 하고 있으며, 앞으로도 더 많은 모델과 데이터를 공유할 계획입니다.

 

RedPajama-INCITE-7B-Instruct는 최첨단 개방형 모델로, HELM 벤치마크에서 다양한 작업에 대해 가장 높은 점수를 받았습니다. 이 모델은 LLaMA-7B 및 Falcon-7B(Base and Instruct) 및 MPT-7B(Base and Instruct)와 같은 다른 개방형 모델보다 2-9점 더 높은 성능을 보여줍니다.

RedPajama-INCITE-7B-Instruct는 RedPajama-1T 데이터 세트의 1T 토큰에 대해 훈련되었으며 훈련 및 공개 데이터 생성 스크립트에서 10개의 체크포인트로 릴리스되어 모델의 완전한 재현성을 허용합니다. 

이 모델은 오픈 소스 데이터를 기반으로 하며 폐쇄형 모델의 정제된 데이터를 사용하지 않으므로 개방형 또는 상업용 애플리케이션에서 사용하기에 안전합니다.

RedPajama-INCITE-7B-Instruct는 OpenChatKit에서 사용할 수 있는 훈련 스크립트를 포함하여 쉽게 미세 조정할 수 있습니다. 

이 스크립트를 사용하면 채팅 모델을 자신의 목적에 맞게 맞춤화할 수 있습니다. 채팅 모델은 지금 바로 사용해 볼 수 있으며 다양한 주제와 상황에 대해 자연스럽고 유익한 대화를 할 수 있습니다.

RedPajama2를 진행하면서 LLaMA와 RedPajama 기본 모델의 차이점에 대한 자세한 분석을 수행하여 이러한 차이점의 원인을 파악했습니다. 우리는 그 차이가 부분적으로 Summit에서 사용할 수 있는 유일한 정밀도인 FP16 훈련 때문이라고 추정합니다.

이 분석 과정은 또한 데이터와 교육 개선을 통해 RedPajama2를 더 강력하게 만들 수 있는 방법에 대한 훌륭한 통찰력의 원천이었습니다.

 

RedPajama-INCITE-7B-Instruct는 다양한 자연어 처리(NLP) 작업에 대한 명령을 이해하고 수행할 수 있는 인공지능(AI) 모델입니다. 이 모델은 P3(BigScience)와 Natural Instruction(AI2)에서 제공하는 수백 가지의 NLP 작업을 학습하고, 

그 중 일부는 소수 샷(즉, 매우 적은 예제로 학습)으로 훈련되었습니다. 이 모델은 HELM의 Llama-7B, Falcon-7B, MPT-7B와 

같은 유사한 크기의 다른 AI 모델보다 소수 샷 작업에서 더 뛰어난 성능을 보여줍니다. 

RedPajama-INCITE-7B-Instruct는 현재 이 규모에서 가장 우수한 AI 모델 중 하나로 간주됩니다.

이 모델을 만들 때는 Instruct 데이터 세트를 사용했습니다. 

Instruct 데이터 세트는 P3(BigScience)와 Natural Instruction(AI2)에서 선택한 다양한 NLP 작업을 포함하고 있습니다. 

 

이 데이터 세트를 만들 때는 HELM의 검증 데이터와 중복되지 않도록 주의했습니다. 

먼저 HELM의 검증 예제를 사용하여 Instruct 데이터 세트에서 유사한 인스턴스를 찾았습니다. 

그리고 그 중에서도 10-Gram이 겹치는 인스턴스나 동일한 작업에 해당하는 인스턴스를 제거했습니다. 

이렇게 하면 HELM과 Instruct 데이터 세트 사이에 오염이 발생하지 않도록 했습니다. 

Instruct 데이터 세트는 RedPajama-Data-Instruct에서 다운로드할 수 있습니다.

 

 

RedPajama-INCITE-7B-Base는 RedPajama 데이터 세트를 기반으로 학습된 최신의 자연어 생성 모델입니다. 

 

이 모델은 Pythia 모델 제품군과 같은 아키텍처를 사용하며, Summit 슈퍼컴퓨터에서 DeeperSpeed 코드베이스를 통해 3072개의 V100 GPU로 훈련되었습니다.

 

 이 모델은 1T 토큰을 사용하여 훈련되었으며, 다양한 자연어 이해 및 생성 작업에서 높은 성능을 보여줍니다. 

RedPajama-INCITE-7B-Base는 HELM의 Falcon-1.3B와 비슷한 평균 HELM 점수를 달성했습니다. 

그러나 이 모델은 정답과 오답 확률의 차이를 계산하는 logprob을 사용하는 작업에서는

 Falcon-1.3B보다 약간(7포인트) 낮은 점수를 보였습니다.

 

 반면에, 답변을 직접 생성하고 품질을 측정하는 작업에서는 Falcon-1.3B와 비슷한 점수를 보였습니다. 

LM 하네스 벤치마크에서도 logprob을 사용하기 때문에 이 모델은 낮은 결과를 보였습니다. 

우리는 이러한 성능 차이가 FP16을 사용한 훈련 때문일 수 있다고 생각합니다. 

FP16은 V100 GPU에서 훈련할 수 있는 가장 높은 정밀도였지만, 

더 큰 학습률을 사용할 수 없었습니다. 

 

OpenLlama와 같은 프로젝트에서는 더 큰 학습률을 사용하여 더 좋은 결과를 얻었습니다. 

따라서 우리는 향후 훈련에서는 더 높은 정밀도를 사용할 계획입니다. 

RedPajama 프로젝트의 목적은 최첨단 개방형 모델을 개발하는 것뿐만 아니라, 

이러한 모델을 구축하는 과정을 완전히 재현 가능하게 만드는 것입니다. 

우리는 데이터 세트, 생성 레시피 및 교육 프로세스를 모두 공개하여 다른 연구자들과 공유하고자 합니다.

 

 

 

RedPajama2 계획에 대한 소개



안녕하세요, RedPajama 팀입니다. 오늘은 우리가 진행하고 있는 새로운 프로젝트인 RedPajama2에 대해 소개하고자 합니다.

 RedPajama2는 RedPajama의 후속 버전으로, 2-2T 토큰을 기반으로 하는 개방형 언어 모델을 구축하는 것을 목표로 합니다. 

우리는 커뮤니티의 피드백과 협력을 통해 더 나은 모델을 만들기 위해 노력하고 있습니다.

 

RedPajama2의 주요 개선 사항은 다음과 같습니다.

 


- 데이터 혼합의 균형을 맞추기 위해 DoReMi와 같은 원칙적인 방식을 적용합니다. 

DoReMi는 데이터의 다양성과 품질을 고려하여 최적의 데이터 혼합을 자동으로 찾는 기술입니다.


- 데이터 세트의 다양성과 크기를 늘리기 위해 Pile v1(Eleuther.ai), Pile v2(CarperAI) 및 

기타 데이터 소스의 보완 슬라이스를 추가합니다. 

이를 통해 모델이 더 다양한 도메인과 장르에 대해 학습할 수 있습니다.


- CommonCrawl의 훨씬 더 많은 부분을 처리하여 인터넷 상의 거의 모든 텍스트를 포함할 수 있도록 합니다. 

이를 위해 우리는 CommonCrawl에서 가장 유용한 데이터를 선별하는 방법을 연구하고 있습니다.


- 데이터 중복 제거 전략을 강화하여 모델이 중복된 데이터에 과적합되지 않도록 합니다. 

우리는 LLaMA 논문에서 제안한 접근 방식뿐만 아니라 다른 방법들도 시도하고 있습니다.


- 코딩 및 추론 작업의 품질을 향상시키기 위해 혼합물에 최소 150B 이상의 코드 토큰을 포함합니다. 

이를 통해 모델이 프로그래밍 언어와 관련된 문제를 더 잘 해결할 수 있습니다.


- 모델 측면에서는 더 높은 정밀도로 새로운 학습 실행을 시작하고, 더 큰 모델을 계속 탐색하고, 

커뮤니티 피드백의 제안을 통합할 것입니다. 

반응형