새소식

반응형
IT Trends

[IT Issues] Horangi / RAFT / LLM Guide book in 2024 / Podgenai

  • -
728x90
반응형

Horangi 한국어 LLM 리더보드

사이트 : Horangi 한국어 LLM 리더보드 | korean-llm-leaderboard – Weights & Biases (wandb.ai)

깃헙 : https://github.com/wandb/llm-kr-eval

Wandb에서 한국어 LLM 성능을 평가하는 새로운 리더보드 호랑이를 공개했다. llm-kr-eval은 일본어 버전인 llm-jp-eval에 기반해 개발된 MT-Bench로 질의응답과 프롬프팅 대화 2가지 영역에서 LLM의 한국어 처리 능력을 평가한다. 뿐 아니라 다양한 시각화를 통해 모델의 성능을 쉽게 비교할 수 있게 돕는다.

지원되는 데이터셋은 다음과 같다.

  • NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)
  • QA (Question Answering): KoBEST_WiC(exact), KMMLU(exact)
  • RC (Reading Comprehension): KorSTS(person, spearman), KoBEST_SN(exact)
  • EL (Entity Linking) : KLUE-NER(set_f1), KLUE-RE(exact)
  • FA (Fundamental Analysis): Korean-CommonGen(bleu)

 

 

 

RAFT: 도메인별 RAG에 맞게 언어 모델 조정하기

RAFT: Adapting Language Model to Domain Specific RAG

논문 : [2403.10131] RAFT: Adapting Language Model to Domain Specific RAG (arxiv.org)

깃헙 : gorilla/raft at main · ShishirPatil/gorilla (github.com)

논문에서는 도메인 내 "오픈북" 설정에서 질문에 답하는 모델의 기능을 개선하는 학습 레시피인 RAFT(Retrieval Augmented FineTuning)를 제시한다. RAFT는 RAG 기법을 파인튜닝에 적용한 것으로, 특정 도메인에 특화된 LLM을 파인튜닝할 때 도움이 되는 기법이다. RAFT에서는 질문과 검색된 문서 집합이 주어지면 질문에 답하는 데 도움이 되지 않는 문서를 무시하도록 모델을 학습시킨다. 이는 RAFT의 CoT 스타일 프롬프트와 결합되어 모델의 추론 능력을 향상시키는 데 도움이 된다고 한다.

 

 

A little guide to building LLM in 2024 (Hugging Face)

영상 : A little guide to building Large Language Models in 2024 - YouTube

자료 : Little guide to building Large Language Models in 2024 - Google Slides

Hugging Face의 공동창업자이자 CSO인 ThomWolf가 LLM을 처음부터 훈련하는 방법에 대해 진행한 강의의 녹화본이다.

 

 

Podgenai

깃헙 : impredicative/podgenai: GPT-4 informational audiobook/podcast mp3 generator (github.com)

podgenai는 사용자가 지정한 주제에 대해 오디오북 또는 팟캐스트를 자동으로 생성할 수 있는 도구다. OpenAI의 GPT-4를 활용하여 텍스트 콘텐츠를 생성하고, 이를 TTS(Text-to-Speech) 기술로 음성으로 변환한 다음, ffmpeg을 사용하여 여러 오디오 세그먼트를 하나의 mp3 파일로 병합한다.

생성 비용은 2달러 미만으로 소요 시간은 3분 미만이라고 한다.

깃헙에 데모 파일들이 있는데, 들어보니 음성은 자연스럽다. 내용은 잘 모르겠다..

 

 

Ref

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.