We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Whisper는 openAI 에서 22년 9월 22일에 공개한 자동 음성 인식(ASR) 모델이다. 웹에서 수집된 68만 시간의 다양한 언어 데이터로 학습 크고 다양한 데이터셋을 사용함으로써 악센트, 배경 소음, 전문 언어 등에 대한 robustness를 향상시켰음을 보였다. 다양한 언어를 영어로 번역할 수 있다. Whisper Architecture는 encoder-decoder Transformer로 구축된 end-to-end 접근 방식 입력 ..
WhisperWe’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition. Whisper는 openAI 에서 22년 9월 22일에 공개한 자동 음성 인식(ASR) 모델이다. 웹에서 수집된 68만 시간의 다양한 언어 데이터로 학습 크고 다양한 데이터셋을 사용함으로써 악센트, 배경 소음, 전문 언어 등에 대한 robustness를 향상시켰음을 보였다. 다양한 언어를 영어로 번역할 수 있다. Whisper Architecture는 encoder-decoder Transformer로 구축된 end-to-end 접근 방식 입력 ..
2023.06.10 -
내가 더 알아보고 싶은 모델 또는 서비스 기록 (추후 포스팅) 연세대 & 네이버 LiteTTS ISCA Archive LiteTTS: A Lightweight Mel-Spectrogram-Free Text-to-Wave Synthesizer Based on Generative Adversarial Networks Huu-Kim Nguyen, Kihyuk Jeong, Seyun Um, Min-Jae Hwang, Eunwoo Song, Hong-Goo Kang In this paper, we propose a lightweight end-to-end text-to-speec 가벼운 버전의 Feed Forward Transformers + HiFi-GAN domain tr..
Text-To-Speech models내가 더 알아보고 싶은 모델 또는 서비스 기록 (추후 포스팅) 연세대 & 네이버 LiteTTS ISCA Archive LiteTTS: A Lightweight Mel-Spectrogram-Free Text-to-Wave Synthesizer Based on Generative Adversarial Networks Huu-Kim Nguyen, Kihyuk Jeong, Seyun Um, Min-Jae Hwang, Eunwoo Song, Hong-Goo Kang In this paper, we propose a lightweight end-to-end text-to-speec 가벼운 버전의 Feed Forward Transformers + HiFi-GAN domain tr..
2023.05.09 -
Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org We introduce Vicuna-13B, an open-source chatbot trained by fine-tuning LLaMA on user-shared conversations collected from ShareGPT. Preliminary evaluation ... Vicuna-13B 기준 트레이닝 비용은 $300 model code와 model weights 공개됨 28GB GPU memory 또는 60GB CPU memory 가 필요 충분하지 않다면 가상 RAM 사이즈 늘리기
Vicuna : ChatGPT 90% 성능을 가진 오픈 소스 챗봇Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality | LMSYS Org We introduce Vicuna-13B, an open-source chatbot trained by fine-tuning LLaMA on user-shared conversations collected from ShareGPT. Preliminary evaluation ... Vicuna-13B 기준 트레이닝 비용은 $300 model code와 model weights 공개됨 28GB GPU memory 또는 60GB CPU memory 가 필요 충분하지 않다면 가상 RAM 사이즈 늘리기
2023.05.06 -
Bark 란? 트랜스포머 기반 text-to-audio 모델 (Model Card) 대화 뿐 아니라 음악, 배경 소음, 간단한 사운드 효과와 웃음 소리, 한숨, 울음 소리 등 non-verbal 한 부분까지 생성할 수 있다. 프롬프트 형식으로 생성할 수 있다. 다양한 언어를 제공한다. 라이센스 : NonCommercial 4.0 International 영리 목적으로는 사용할 수 없다. 다양한 non-verbal 효과 더보기 [laughter] : 웃음 [laughs] : 웃음 [sighs] : 한숨 [music] : 음악 [gasps] [clears throat] : 목 가다듬기 — or ... : 머뭇거림 ♪ 텍스트 앞에 ♪ (음악 표시)를 추가하면 노래를 부르듯이 음성을 생성한다. 배경음악도 어느정..
Bark : 트랜스포머 기반 text-to-audio 모델Bark 란? 트랜스포머 기반 text-to-audio 모델 (Model Card) 대화 뿐 아니라 음악, 배경 소음, 간단한 사운드 효과와 웃음 소리, 한숨, 울음 소리 등 non-verbal 한 부분까지 생성할 수 있다. 프롬프트 형식으로 생성할 수 있다. 다양한 언어를 제공한다. 라이센스 : NonCommercial 4.0 International 영리 목적으로는 사용할 수 없다. 다양한 non-verbal 효과 더보기 [laughter] : 웃음 [laughs] : 웃음 [sighs] : 한숨 [music] : 음악 [gasps] [clears throat] : 목 가다듬기 — or ... : 머뭇거림 ♪ 텍스트 앞에 ♪ (음악 표시)를 추가하면 노래를 부르듯이 음성을 생성한다. 배경음악도 어느정..
2023.04.27 -
KeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar to a document. 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 BERT로 문서 단위의 표현 추출 (document-embeddings) N-gram 단어와 구문을 위해 word embeddings cosine similarity 로 문서와 가장 유사한 단어/구문 찾기 MIT License 로 오픈소스 파이썬 모듈 Embedding Models 임베딩 모..
KeyBERTKeyBERT 란? KeyBERT is a minimal and easy-to-use keyword extraction technique that leverages BERT embeddings to create keywords and keyphrases that are most similar to a document. 문서를 가장 잘 나타내는 키워드 또는 키구문을 찾아주는, 쉽게 사용 가능한 BERT-based 모델 BERT로 문서 단위의 표현 추출 (document-embeddings) N-gram 단어와 구문을 위해 word embeddings cosine similarity 로 문서와 가장 유사한 단어/구문 찾기 MIT License 로 오픈소스 파이썬 모듈 Embedding Models 임베딩 모..