새소식

반응형
IT Trends

[IT Issues] 샘 알트만 방한 / MusicGen / PokemonChat / GPT-4의 Glitch tokens / 애니메이션 스타일 QR 코드 / LOOOL / AMD & HuggingFace / Memit & LEACE / I-JEPA / new version of chatGPT

  • -
728x90
반응형

샘 알트만과 따로 만나 1시간 동안 나눈 이야기 by 스캐터랩 김종윤

6월 9일 openAI CEO 샘 알트만과 주요 멤버의 방한으로 IT 업계가 떠들썩했다. 소수의 AI 기업과 함께한 Round Table Talks에 참여한 스캐터랩이 Q&A를 정리해 공유했다.

  • API를 사용하는 방식에 대해 얼마나 통제하기를 원하는지의 질문에 "최고의 기술을 만들 뿐이지 이걸 어디에 어떤 방식으로 써야하는지 정하는 역할까지는 하고 싶지 않다."고 답했다. openAI는 스스로 중립적인 플랫폼의 역할을 할 것이라는 걸 강조했다.
  • GPT 파인튜닝의 필요성에 대해서는 필요하지만 GPU 부족과 다른 기능 개발로 인해 밀리고 있다고 답했다.
  • Hallucination의 해결 가능성에 대해서는 모델이 좋아질수록 빠르게 개선되고 있으며 프롬프팅, 모델에 검토 등 약화시킬 수 있는 여러 방법이 존재함을 언급하며 이 문제를 이미 의미있는 수준으로 푼 사례에 대해 언급했다.
  • 모델 Inference 관련한 연구로는 Pruning, Quantization 등 더 가볍고 효율적으로 하기 위해 노력하고 있다고 한다. GPU를 어떻게 하면 더 효율적으로 활용할지도 고민하고 있다고 한다.
  • In-house 또는 On-premise 방식으로 모델을 제공할 계획이 있느냐는 질문에는 없다고 단언했다.
  • 연속된 대화에서 컨텍스트의 증가로 비용이 증가하는 문제에 대해 두 가지 방향을 제시했다. 하나는 토큰당 가격 자체를 싸게 만드는 것이고, 다른 하나는 API 구동 방식을 모든 시스템 프롬프트와 대화 컨텍스트를 보내지 않는 방향으로 변경하는 것이다.
  • GPT-4의 한국어 속도에 대해서는 실제 chatGPT 활용 비중이 영어보다 다른 언어가 훨씬 높다고 밝히며 빠른 시간 내 10배 개선을 목표로 하고 있다고 밝혔다.

 

✅ 샘 알트만은 Mobile이라는 단어가 당연해졌듯이 앞으로 AI도 그렇게 될 것이라고 말했다. 또한 chatGPT는 OpenAI의 마지막 B2C 일 것이라는 말을 하기도 했는데, 앞으로 서비스 개발보다는 AGI와 플랫폼의 역할을 할 것임을 강조했다. 현재 chatGPT, GPT-4의 부족한 점에 대해서는 크게 파인튜닝, 데이터 보안, Hallucination, Inference, 가격 등이 나왔다. 각 문제에 대해 고민하고 있고 빠르게 개선할 의지가 있음이 느껴졌다. 샘 알트만의 말처럼 일반 기업에서 LLM을 직접 학습시키기란 어려운 일이다. 앞으로 생성형 AI 서비스는 좋은 모델을 만드는 것이 아닌 "domain-specific 서비스화"가 더 쟁점이 될 것으로 보인다.

 

Simple and Controllable Music Generation

Meta의 음악 생성 모델로 음악에 대한 description과 참고할 melody(생략 가능)를 넣으면 약 10초 가량의 음악을 생성해준다. 생성 시간은 약 1-2분 정도 걸리는데 퀄리티가 나쁘지 않다.

 

 음악 생성 모델이 많이 나오고 있는데, 한 번 정리해보는 것도 재밌을 것 같다.

 

 

PokemonChat: Auditing ChatGPT for Pokémon Universe Knowledge

LLM의 Hallucination을 검증하기 위한 매우 흥미로운 방법이 소개됐다. 포켓몬 세계관에 대해 ChatGPT에 대해 질문을 하고 답변 검증 및 adversarial attack에 대한 취약성을 확인할 수 있다는 내용이다. 이미 모든 정보가 알려진 닫힌 세계에 대한 질의응답으로 검증을 쉽게 할 수 있으며, 유저들에게 LLM 검정을 무료로 할 수 있는 아이디어를 제시했다.

 

✅ LLM 연구와 더불어 더 효율적으로 사용하고 검증할 수 있는 방법들도 함께 연구되고 있다. 포켓몬처럼 세계관과 전투력 등이 정해진 정보를 통해 검증할 수 있으면서 사용자들의 흥미를 불러일으키는 접근이라는 점이 흥미롭다.

 

GPT-4는 "davidjl" 문자열에 대해 이상한 행동을 한다

GPT-4는 한 유튜브 사용자의 아이디인 " davidjl" 문자열에 대해서는 그대로 따라서 얘기하지도 못하고, 문자열의 길이도 세지 못한다. "glitch tokens" 중의 하나로, 대부분 패치되었는데 아직 남아 있는 것이 이번에 발견됐다.

 

👆 glitch tokens 란?
LLM에 입력했을 때 제대로 인식하지 못하고 횡설수설하게 만드는 단어.

 

✅ 글리치 토큰에 대한 정보가 많지 않다. LLM 자체의 문제보단 토크나이징이나 규제하는 과정에서 벌어지는 문제 같다. 흠.

 

 

Stable Diffusion으로 애니메이션 스타일 QR 코드 만들기

Blog : https://arstechnica.com/information-technology/2023/06/redditor-creates-working-anime-qr-codes-using-stable-diffusion/

nhciao 라는 레딧 유저가 ControlNet + LoRA를 이용해 실제로 동작하는 애니메이션 스타일 QR코드를 생성했다. 다양한 스타일의 이미지를 학습시켜 스캔 가능한 QR 코드를 생성해냈다.

 

덕후가 세상을 바꾸는 것일까? 정확히 어떤 원리로 이게 가능한건지 모르겠지만 놀랍다. 디자인 요소로 활용되기 좋아보인다.

 

 

AI로 100% 생성된 웹툰

첫번째 AI 100% 웹툰 플랫폼 LOOOL.IO 가 등장했다. 미국 법인 LOOOL INC 에서 만든 웹툰 플랫폼으로 한국어와 영어를 지원한다.

  • 모델은 AI 모델 공유 사이트인 civitai에서 제작할 웹툰과 유사한 모델들을 선택해 섞어 만들었다.
  • 원하는 분위기의 캐릭터 프롬프트를 작성한 뒤 여러 각도의 캐릭터 얼굴을 만들어 훈련할 이미지를 만들었다.
  • 이후 수작업으로 그린 콘티를 기반으로 이미지를 생성한 뒤 후처리(이상한 부분 수정, 중요하지 않은 부분 블러처리 혹은 채도 낮추기 등) 작업을 진행

 

스토리라인이 좋은건 아니지만, 하나의 이미지가 아니라 연속된 이미지를 생성한다는 점에서 성공적인 실험이 아닌가 싶다.

 

AMD and Hugging Face partner 

AMD와 Hugging Face가 하드웨어 플랫폼 파트너쉽을 맺었다. 허깅페이스의 모델을 AMD 플랫폼에서 사용할 수 있도록 하는 것이 첫번째 과제라고 밝혔다. 트랜스포머 라이브러리부터 시작해 AMD ROcm SDK를 오픈 소스 라이브러리에 통합할 예정이라고 한다.

 

AMD GPU의 성능은 좋지만 cuda 생태계로 인해 딥러닝 분야에서 NVIDIA를 따라가지 못하고 있는데, 과연 허깅페이스와의 파트너십 체결로 생태계가 구축될지 기대된다.

 

 

Memit & LEACE

Memit Site : https://memit.baulab.info/

LEACE Paper : https://arxiv.org/abs/2306.03819

 

LLM에 기억정보를 삽입하거나 삭제할 수 있는 방법론에 대한 연구과 활발히 이뤄지고 있다. Memit의 경우 이전 연구 ROME에서 트랜스포머의 어떤 레이어가 어떠한 사실을 가지고 있는지 추적하는 방법을 다뤘고 이를 활용해 LLM에 이미 주입된 사실을 직접 편집할 수 있는 방법을 개발했다. 예를 들어 "마이클 조던은 농구선수"라는 모델의 기억을 "마이클 조던은 야구선수" 라고 바꿀 수 있다는 것이다.

LEACE (LEAst-squares Concept Erasur)는 특정 개념 정보를 지우는 방법론이다.

 

LLM의 작동 원리를 깊게 분석하고 모델 내부의 representations를 다룰 수 있는 방면을 연구한 논문들이다. 이를 통해 적은 정보의 주입 또는 삭제, 그리고 사용자 맞춤형 LM을 만들어가는 단초가 되지 않을까? 더 많은 hallucination과 왜곡된 정보를 갖는 모델이 양산되지 않을까 걱정되기도 하다. 논문은 슥 봤지만 수학적인 내용이 다수 포함되어 자세한 내용은..ㅎ

 

 

얀 르쿤이 제시한 새로운 AI 아키텍처, I-JEPA

메타 수석 AI 과학자인 얀 르쿤이 기존 모델보다 훨씬 빠르게 학습하고 복잡한 작업을 수행하는 방법을 계획하는 아키텍쳐를 공개했다. Image Joint Embedding Predictive Architecture(I-JEPA)인간처럼 학습하는 새로운 컴퓨터 비전 모델이라고 소개됐다. 해당 모델은 픽셀을 비교하는 것이 아니라 이미지의 추상적 표현을 비교하는 내부 모델을 생성하는 방식으로 학습한다. 즉 인간이 새로운 개념을 학습하는 방식과 훨씬 더 유사한 방식으로 학습한다는 것이다. 또한 파인튜닝 없이 다양한 어플리케이션에서 사용할 수 있고 학습 효율도 기존 모델들보다 최대 10배까지 좋다고 한다.

 

 

이정도면 Meta가 진정한 openAI가 아닐지.. 새로운 아키텍처라니! 이미지 분야를 잘 몰라서 얼마나 대단한 혁신인지 모르겠지만 지켜보자!

 

new version of chatGPT

새로운 모델이 공개됐다. 

  • Chat Completions API의 새로운 함수 호출 기능
  • gpt-4및 의 업데이트되고 조정 가능한 버전gpt-3.5-turbo
  • 새로운 16k 컨텍스트 버전 gpt-3.5-turbo(표준 4k 버전 대비)
  • 최첨단 임베딩 모델로 비용 75% 절감
  • 입력 토큰 비용 25% 감소gpt-3.5-turbo
  • gpt-3.5-turbo-0301및 gpt-4-0314모델 에 대한 지원 중단 일정 발표
    기존 모델은 9/13일 까지 사용 가능하고 추후 전부 오늘 공개한 모델로 변경된다고 한다.

 

다음 모델 학습하지 않는다더니 기존 모델을 업데이트 하고 부족한 점을 보완하고 있나보다. 

 

 

References

 

 

반응형
Contents

포스팅 주소를 복사했습니다

이 글이 도움이 되었다면 공감 부탁드립니다.