새소식

반응형
IT Trends

[IT Issues] Genie / Mistral Large / The Era of 1-bit LLMs

  • -
728x90
반응형

Genie: Generative Interactive Environments

논문 : https://arxiv.org/abs/2402.15391?utm_source=pytorchkr

사이트 : https://sites.google.com/view/genie-2024/home?utm_source=pytorchkr

Google DeepMind가 공개한 Gennie는 레이블이 지정되지 않은 인터넷 비디오를 통해 비지도 학습 방식으로 훈련된 최초의 생성적 대화형 환경이다. 모델은 텍스트, 합성 이미지, 사진, 심지어 스케치를 통해 설명되는 끝없이 다양한 액션 제어 가능한 가상 세계를 생성할 수 있다. 11B 규모의 파라미터를 가진 Genie는 Foundation World Model로 시공간 비디오 토크나이저, 자동회귀 동적 모델 및 확장 가능한 잠재 액션 모델로 구성된다. Genie를 사용하면 사용자는 실제 작업 레이블이나 세계 모델 문헌에서 일반적으로 발견되는 기타 도메인별 요구 사항 없이 생성된 환경에서 프레임별로 작업할 수 있다. 또한 결과적으로 학습된 잠재 행동 공간은 훈련 에이전트가 보이지 않는 비디오의 행동을 모방할 수 있도록 하여 미래의 일반 에이전트를 학습시키는데 도움이 될 것이다.

 

✅ Genie는 마리오같은 2D 게임의 배경이 되는 '가상 환경'을 텍스트 또는 이미지로 생성할 수 있는 모델이다. 또한 비디오에서 캐릭터의 동작을 레이블 없이도 컨트롤 방법을 익혀 동작을 유추함으로써 다음 가상 배경을 만드는데 활용할 수도 있다. 멋지다!

 

 

미스트랄 라지 / Mistral Large

사이트 : https://mistral.ai/news/mistral-large/?utm_source=pytorchkr

 

Mistral Large는 MMLU 벤치마크에서 GPT-4를 이은 2위를 달성했다. 장점은 다음과 같다.

  • 영어, 프랑스어, 스페인어, 독일어, 이탈리아어에 능통
  • 32K context
  • 추론, 지식, 수학, 코딩 벤치마크에 대한 강력한 능력

 

✅ 다국어 지원이 가능하다는 점에서 특히 경쟁력이 있는 것 같다. 한국어 모델은 언제쯤..

 

 

The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits

논문 : https://arxiv.org/abs/2402.17764?utm_source=pytorchkr

 

LLM의 모든 단일 파라미터(또는 가중치)가 삼항식 {-1, 0, 1}인 1비트 LLM 변형, 즉 BitNet b1.58을 소개한다. 이는 모델 크기와 트레이닝 토큰이 동일한 고정밀(즉, FP16 또는 BF16) 트랜스포머 LLM과 복잡도 및 최종 작업 성능 측면에서 모두 일치하며 지연 시간, 메모리, 처리량 및 에너지 소비 측면에서 훨씬 더 비용 효율적이다. 더 심오하게는 1.58비트 LLM은 고성능과 비용 효율을 모두 갖춘 차세대 LLM을 학습하기 위한 새로운 확장 법칙과 레시피를 정의한다. 또한 새로운 연산 패러다임을 가능하게 하고 1비트 LLM에 최적화된 특정 하드웨어를 설계할 수 있는 문을 열어준다.

 

 

 

 

 

 

 

 

REF

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.