We introduce OpenVoice, a versatile instant voice cloning approach that requires only a short audio clip from the reference speaker to replicate their voice and generate speech in multiple languages. 짧은 오디오 클립만으로 목소리를 복제하고 여러 언어로 음성을 생성할 수 있는 다목적 음성 복제 방법
OpenVoice enables granular control over voice styles, including emotion, accent, rhythm, pauses, and intonation, in addition to replicating the tone color of the reference speaker. 목소리 스타일에 대한 세밀한 조절이 가능하다. 감정, 억양, 리듬 뿐 아니라 음색 또한 복제할 수 있다. -> 기쁨, 슬픔, Indian Accent, British Accent, ... 등으로 스타일 적용이 가능하다.
OpenVoice also achieves zero-shot cross-lingual voice cloning for languages not included in the massive-speaker training set. 대규모 훈련 데이터가 없는 언어에 대해서도 음성을 생성할 수 있다.
OpenVoice is also computationally efficient, costing tens of times less than commercially available APIs that offer even inferior performance. 상업적으로 사용 가능한 API보다 적은 비용으로 우수한 성능을 제공한다.
RTX 3090 + VRAM 1.5GB 을 사용해 XTTS2보다 빠른 속도로 음성을 생성. 1분 분량의 음성을 약 4초 만에 렌더링했다고 함.
음성의 명료성은 XTTS2보다 좋지만, 약간 어색하고 로봇 같은 느낌이 있다고 평가함.
✅ 데모 사이트에서 한국어 모델은 4개 밖에 없었음. cross-lingual voice cloning이 한국어 대상으로도 잘 되는지 확인하기