Wandb에서 한국어 LLM 성능을 평가하는 새로운 리더보드 호랑이를 공개했다. llm-kr-eval은 일본어 버전인 llm-jp-eval에 기반해 개발된 MT-Bench로 질의응답과 프롬프팅 대화 2가지 영역에서 LLM의 한국어 처리 능력을 평가한다. 뿐 아니라 다양한 시각화를 통해 모델의 성능을 쉽게 비교할 수 있게 돕는다.
지원되는 데이터셋은 다음과 같다.
NLI (Natural Language Inference): KorNLI(exact), KoBEST_HellaSwag(exact), KoBEST_COPA(exact)
논문에서는 도메인 내 "오픈북" 설정에서 질문에 답하는 모델의 기능을 개선하는 학습 레시피인 RAFT(Retrieval Augmented FineTuning)를 제시한다. RAFT는 RAG 기법을 파인튜닝에 적용한 것으로, 특정 도메인에 특화된 LLM을 파인튜닝할 때 도움이 되는 기법이다. RAFT에서는 질문과 검색된 문서 집합이 주어지면 질문에 답하는 데 도움이 되지 않는 문서를 무시하도록 모델을 학습시킨다. 이는 RAFT의 CoT 스타일 프롬프트와 결합되어 모델의 추론 능력을 향상시키는 데 도움이 된다고 한다.
A little guide to building LLM in 2024 (Hugging Face)
podgenai는 사용자가 지정한 주제에 대해 오디오북 또는 팟캐스트를 자동으로 생성할 수 있는 도구다. OpenAI의 GPT-4를 활용하여 텍스트 콘텐츠를 생성하고, 이를 TTS(Text-to-Speech) 기술로 음성으로 변환한 다음, ffmpeg을 사용하여 여러 오디오 세그먼트를 하나의 mp3 파일로 병합한다.