새소식

반응형
IT Trends

[IT Issues] Grok-1.5 / OpenVoice / Jamba / DUSt3R

  • -
728x90
반응형

 

Grok-1.5

OpenAI의 대항마로 일론 머스크가 설립한 새로운 인공지능 기업 xAI에서 업그레이드 된 Grok-1.5를 발표했다. 

  • Long Context Understanding : 최대 128K 토큰의 긴 컨텍스트로 더 긴 문서의 정보를 활용할 수 있다. 
  • 코딩 및 수학 관련 작업에서 눈에 띄는 성능 향상

x.ai Hompage

 

 

OpenVoice : Versatile Instance Voice Cloning

논문 : https://arxiv.org/pdf/2312.01479.pdf

깃헙 : https://github.com/myshell-ai/OpenVoice

데모 1 : OpenVoice - a Hugging Face Space by myshell-ai
데모 2 : OpenVoice | Lepton AI Playground

 

  • We introduce OpenVoice, a versatile instant voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages.
    짧은 오디오 클립만으로 목소리를 복제하고 여러 언어로 음성을 생성할 수 있는 다목적 음성 복제 방법
  • OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker.
    목소리 스타일에 대한 세밀한 조절이 가능하다. 감정, 억양, 리듬 뿐 아니라 음색 또한 복제할 수 있다.
    -> 기쁨, 슬픔, Indian Accent, British Accent, ... 등으로 스타일 적용이 가능하다.
  • OpenVoice also achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set.
    대규모 훈련 데이터가 없는 언어에 대해서도 음성을 생성할 수 있다.
  • OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance.
     상업적으로 사용 가능한 API보다 적은 비용으로 우수한 성능을 제공한다.
    • RTX 3090 + VRAM 1.5GB 을 사용해 XTTS2보다 빠른 속도로 음성을 생성. 1분 분량의 음성을 약 4초 만에 렌더링했다고 함.
    • 음성의 명료성은 XTTS2보다 좋지만, 약간 어색하고 로봇 같은 느낌이 있다고 평가함.

 

✅ 데모 사이트에서 한국어 모델은 4개 밖에 없었음. cross-lingual voice cloning이 한국어 대상으로도 잘 되는지 확인하기

 

 

 

 

AI21 Labs - Jamba

Mamba 논문 : 2312.00752.pdf (arxiv.org)

모델 : ai21labs/Jamba-v0.1 · Hugging Face

 

  • Transformer 기반이 아닌, Mamba 기반의 새로운 모델 Jamba를 공개했다.
  • Hybrid SSM-Transformer 구조 (Mamba + Transformer 로 성능과 효율성을 모두 높임)
  • 256K Context ; Mixture-of-Experts (MoE) layers를 활용해 52B 파라미터 중 12B 파라미터만 사용한다. 
  • Apache 2.0 license

AI21 Labs

 

 

DUSt3R : Geometric 3D Vision Made Easy

웹 사이트 : https://dust3r.europe.naverlabs.com/

 

카메라 캘리브레이션이나 시점 포즈에 대한 사전 정보 없이 작동하는 임의의 이미지 컬렉션의 제약없는 스테레오 3D 재구성을 위한 근본적으로 새로운 패러다임

 

✅ Vision 쪽은 기반 지식이 없어 이해하기가 쉽지 않다. 몇 장의 사진으로 3D 이미지를 합성해주는 새로운 방식인 것 같다.

 

 

다음에 확인하고 싶은 레퍼런스 리스트업

📎 InternLM2 Technical Report

📎 Adaptive-RAG : Learning to Adaptive Retrieval-Augmented Large Language Models through Question Complexity

-> 쿼리 복잡성에 따라 가장 단순한 것부터 가장 정교한 것까지 (검색 증강) LLM에 가장 적합한 전략을 동적으로 선택할 수 있는 새로운 적응형 QA 프레임워크를 제안

📎 Chain Prompts

📎 Meta의 R&D

📎 Vision-Language-Action(VLA) 모델 RT-2

-> 텍스트와 비전 데이터 외에도 로봇 동작 데이터를 또 다른 언어로 포함해 로봇의 움직임 동작을 출력하는 토큰으로 사용함

📎 gaussian avatars

📎 relightable gaussian codec

📎 track anything

📎 segment anything

📎 XTTS-v2

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.