"World Model on Million-Length Video and Language with RingAttention"은 사람들이 물리적 세계를 이해하도록 돕기 위해 비디오와 언어를 결합한 논문입니다. 논문의 저자는 UC Berkeley의 Hao Liu, Wilson Yan, Matei Zaharia 및 Pieter Abbeel입니다
언어와 비디오를 결합하여 세상을 더 잘 이해하기 위한 학습 모델의 과제를 다룹니다. 우리는 RingAttention을 활용하여 긴 비디오와 책으로 구성된 대규모 데이터 세트를 확장 가능하게 훈련하고 시퀀스 길이를 32K에서 100만 토큰으로 점진적으로 늘려 컴퓨팅 관리를 유지합니다. 우리는 비디오, 이미지, 서적의 다양한 데이터 세트를 효과적으로 훈련하기 위해 마스크된 시퀀스 패킹 및 손실 가중치를 개발합니다. 마지막으로 우리는 LWM이 현재까지 가장 큰 매우 효과적인 1M 컨텍스트 크기를 갖추고 있어 긴 비디오 및 언어 시퀀스와 관련된 복잡한 작업을 성공적으로 처리할 수 있음을 보여줍니다. 우리는 수백만 길이의 시퀀스에 대한 교육을 위한 RingAttention, 마스크된 시퀀스 패킹 및 기타 주요 기능의 최적화된 구현과 100만 개 이상의 멀티모달 토큰을 처리할 수 있는 7B 매개변수 모델을 오픈 소스로 제공합니다. 우리는 이 작업이 신뢰할 수 있는 추론과 세상에 대한 기초적인 이해, 더 넓은 역량을 갖춘 AI 모델을 발전시키는 길을 열어주기를 바랍니다.
https://github.com/LargeWorldModel/LWM
https://largeworldmodel.github.io/
댓글