[논문리뷰] Training language models to follow instructions with human feedback (instructGPT)

728x90

arXiv:2203.02155 (cs)
[Submitted on 4 Mar 2022, openAI]
Long Ouyang, Jeff Wu, Xu Jiang, Diogo Almeida, Carroll L. Wainwright, Pamela Mishkin, Chong Zhang, Sandhini Agarwal, Katarina Slama, Alex Ray, John Schulman, Jacob Hilton, Fraser Kelton, Luke Miller, Maddie Simens, Amanda Askell, Peter Welinder, Paul Christiano, Jan Leike, Ryan Lowe

연구 배경

언어 모델 사이즈를 키운다고 결과(사용자 의도에 맞는 출력)가 좋아지는 것은 아니다.
Making language models bigger does not inherently make them better at following a user’s intent.
LLM’s unintended behaviors 의 이유는 대부분의 언어 모델링의 목표가 “다음 토큰 예측”이지 “사용자 명령에 잘 따르기”가 아니기 때문이다. 이를 misaligned 라고 표현한다.
- unintended behaviors : making up facts, generating biased or toxic text, or simply not following user instructions

연구 내용

언어모델 aligning을 통해 helpful, honest, harmless 한 언어모델을 만든다.
- helpful : 프롬프트의 의도를 추론하고 지시를 따라야 한다.
- honest : 모델의 기술이 사실이어야 한다. (truthfulness)
- harmless : 보호 계층을 폄하하는 내용, 성적 내용 또는 폭력적인 내용을 포함하지 않아야 한다.
RLHF. 사람의 선호도를 ‘Reward’로 사용한 강화학습으로 언어모델을 fine-tuning 한다.

데이터 수집

[ 프롬프트 ]

openAI API에 제출된 프롬프트 수집
- 민감 정보(개인 식별 정보) 필터링 진행

labeler가 프롬프트 작성
- instructGPT 초기 모델 학습을 위해 Plain, Few-shot, User-based 3가지 유형의 프롬프트를 제작
- 위 프롬프트들로 SFT dataset, RM dataset, PPO dataset 3가지 데이터셋 제작

[ 프롬프트 답변 ]

labler가 답변 작성
여러 모델들의 outputs
프롬프트 답변들에 대한 랭킹 매기기

RLHF (Reinforcement Learning from Human Feedback)

사람의 선호도를 ‘Reward’로 사용한 강화학습 방법

[ instructGPT 학습 방법 ]

Supervised fine-tuning (SFT)
GPT-3를 labeler가 작성한 답변으로 fine-tuning 한 모델
Reward Modeling (RM)
어떤 텍스트 프롬프트에 대한 LLM의 응답(respose)에 대한 reward scalar 값을 예측하는 모델. 하나의 프롬프트 input에 대한 여러 모델의 output 값들의 ranking point 데이터셋으로 학습한다. 이때 ranking을 인간이 직접 매기기 때문에 Human Feeback이라고 한다.
Reinforcement learning (RL)
RM을 reward function으로 사용하고, PPO 알고리즘으로 보상을 최대화 하도록 LLM을 fine-tuning.
- 기존의 pretrained된 Model (frozen) 과 fine-tuning을 진행 할 model (Trainable) 을 준비하고, 각각에 text-prompt를 넣는다.
- final reward score 계산
  - 각각의 LLM에서 나온 outputs 사이의 KL-Divergence 를 계산
  - Fine-tuning을 진행 할 LLM에서 나온 output을 Reward Model에 넣어서 reward score 얻는다.
- Final reward score를 PPO에 넣어서 loss function을 계산
  - PPO : https://arxiv.org/pdf/1707.06347.pdf
- PPO 결과로 나온 loss function으로 LLM을 fine-tuning 하고 위의 과정을 반복

연구 결과

GPT-3 175B 결과보다 instructGPT 1.7B 모델이 더 선호됨 (파라미터 차이 100배인데도)
- 특히 모델에 명백한 조건을 입력하는 프롬프트의 경우 instructGPT 선호도가 높다.
truthfulness(신뢰도) 높음
- TruthfulQA 벤치마크에서 GPT-3에 배해 약 2배 더 진실된 답변을 한다.
- closed-domain QA, 요약 태스크에서 정보 구성 경향성 평가(Hallucination)를 하면 instructGPT는 21%, GPT-3는 41%로 절반에 해당한다.
- ⇒ 진실되도록 따로 프롬프트 엔지니어링을 진행하지 않아도 모델은 기본적으로 truthful 하게 행동한다.
toxicity(유해성) 적음
- RealToxicityPrompts 데이터셋에서 약 25% 더 적은 유해결과를 생성.
- InstructGPT는 프롬프트에서 "Respectful"할 것을 지시했을 때 GPT-3에 비해 toxicity가 낮아진 것을 확인할 수 있지만, 일반적인 상황에서 둘은 같은 수준의 유해성을 가진다.
bias(편향) 악화
- Winogender과 CrowSPairs 데이터셋에서는 InstructGPT가 GPT-3에 비해 악화된 결과를 보인다.

→ 데이터셋의 문제로 예측하며 사전학습 데이터셋에 대한 큐레이션을 개선하여 처음부터 다양하고 질 좋은 데이터로 모델을 학습하는 것이 좋은 해결책이 될 것이라 제시.

인간 선호의 다양성 (Diversity of alignment)
고용된 라벨러는 40명으로 데이터셋에는 그들의 선호도가 반영됐다. 이를 올바른 선호의 표본이라고 생각하지 않지만, 적어도 라벨러를 각 그룹을 대표하는 사람을 한 명씩 선별하거나 혹은 그룹에 적합한 맞춤 모델을 만드는 것을 시작점으로 보고 있다.

limitations

잘못된 전제가 포함된 지시가 주어졌을 때 전제가 참이라고 잘못 가정한다.
→ 잘못된 전제를 가정하는 데이터가 많지 않다.
the model can overly hedge. 답이 명확한 질문에 여러 가지 가능한 답을 제공할 수 있다.→ 레이블링할 때 hedge 결과에 보상하는 경향이 있을 수 있다.
→ 그럴듯 하지만 부정확하거나 무의미한 답변 작성
분명한 prompt 가 없다면 여전히 toxic, violent, make up fact 를 생성한다.

저작자표시 비영리 변경금지

'AI' 카테고리의 다른 글

Text-To-Speech 정리 (0)	2023.05.09
py-hanspell 맞춤법 검사기 설치하기 (0)	2023.04.22
Khaiii 형태소 분석기 설치하기 (0)	2023.04.22

Contents

새소식

[논문리뷰] Training language models to follow instructions with human feedback (instructGPT)

연구 배경

연구 내용

데이터 수집

RLHF (Reinforcement Learning from Human Feedback)

연구 결과

limitations

'AI' 카테고리의 다른 글

당신이 좋아할만한 콘텐츠

티스토리툴바