Google DeepMind가 공개한 Gennie는 레이블이 지정되지 않은 인터넷 비디오를 통해 비지도 학습 방식으로 훈련된 최초의 생성적 대화형 환경이다. 모델은 텍스트, 합성 이미지, 사진, 심지어 스케치를 통해 설명되는 끝없이 다양한 액션 제어 가능한 가상 세계를 생성할 수 있다. 11B 규모의 파라미터를 가진 Genie는 Foundation World Model로 시공간 비디오 토크나이저, 자동회귀 동적 모델 및 확장 가능한 잠재 액션 모델로 구성된다. Genie를 사용하면 사용자는 실제 작업 레이블이나 세계 모델 문헌에서 일반적으로 발견되는 기타 도메인별 요구 사항 없이 생성된 환경에서 프레임별로 작업할 수 있다. 또한 결과적으로 학습된 잠재 행동 공간은 훈련 에이전트가 보이지 않는 비디오의 행동을 모방할 수 있도록 하여 미래의 일반 에이전트를 학습시키는데 도움이 될 것이다.
✅ Genie는 마리오같은 2D 게임의 배경이 되는 '가상 환경'을 텍스트 또는 이미지로 생성할 수 있는 모델이다. 또한 비디오에서 캐릭터의 동작을 레이블 없이도 컨트롤 방법을 익혀 동작을 유추함으로써 다음 가상 배경을 만드는데 활용할 수도 있다. 멋지다!
LLM의 모든 단일 파라미터(또는 가중치)가 삼항식 {-1, 0, 1}인 1비트 LLM 변형, 즉 BitNet b1.58을 소개한다. 이는 모델 크기와 트레이닝 토큰이 동일한 고정밀(즉, FP16 또는 BF16) 트랜스포머 LLM과 복잡도 및 최종 작업 성능 측면에서 모두 일치하며 지연 시간, 메모리, 처리량 및 에너지 소비 측면에서 훨씬 더 비용 효율적이다. 더 심오하게는 1.58비트 LLM은 고성능과 비용 효율을 모두 갖춘 차세대 LLM을 학습하기 위한 새로운 확장 법칙과 레시피를 정의한다. 또한 새로운 연산 패러다임을 가능하게 하고 1비트 LLM에 최적화된 특정 하드웨어를 설계할 수 있는 문을 열어준다.