[IT Issues] 새로운 정렬 알고리즘 / 구글 Imagen Editor / QR-code-AI-art-generator / 메타 VoiceBox / AudioPaLM / Clip2Protect / 바이두 Ernie 3.5 / MotionGPT / AI로 만든 약 /
- -
새로운 정렬 알고리즘
Paper : https://www.nature.com/articles/s41586-023-06004-9
구글 딥마인드(DeepMind)는 강화 학습을 사용해 더 효율적인 알고리즘을 발견하는 인공지능 시스템인 AlphaDev를 소개했다. AlphaDev는 바둑, 체스 등의 게임에서 세계 챔피언을 이긴 강화 학습 모델 AlphaZero를 기반으로 새로운 알고리즘을 발견하기 위한 과정을 게임으로 변환해 학습했다. AlphaDev가 하나의 명령어를 선택하면 이후 CPU에 포함된 정보를 관찰해 다음 명령을 선택하는데 결과적으로 정렬이 얼마나 빠르고 효율적인지에 대해 보상함으로써 훈련이 이뤄졌다. 결과적으로 AlphaDev가 개선한 정렬 알고리즘은 기존 방법들보다 1.7% 효율적으로 작동했고, 속도도 최대 70%가 빠르다고 한다. 현재 오픈 소스 Abseil 라이브러리로 출시됐고 하루에 수조번 사용되는 것으로 추정된다고 한다.
✅ 특수한 경우가 아닐 때 $NlogN$을 넘어서는 정렬 방법이 없었는데, 10년 만에 새로운 방법론이 제시됐다고 한다. 이젠 기존의 컴퓨터 알고리즘들도 AI를 통해 case-specific 하게 발전될 수 있을까?
구글 Imagen Editor 리서치 페이퍼
Paper : https://arxiv.org/pdf/2212.06909.pdf
구글 리서치가 이미지 편집 모델 '이매진 에디터(Imagen Editor)'와 평가 데이터셋 EditBench를 소개했다. 이매진 에디터는 사용자가 이미지의 특정 부분을 표시하고 텍스트 프롬프트를 입력하면 그대로 편집해주는 AI 모델이다. 논문에서는 이매진 에디터는 대규모 언어 표현과 세분화된 제어를 결합해 high fidelity 출력을 생성하는 text-guided 이미지 에디터라고 소개한다.
- 마스킹 부분을 'lightweight SSD Mobilenet v2' 모델로 인식
- Diffusion 모델로 텍스트 프롬프트에 해당하는 이미지를 생성
- 결과 이미지의 해상도 높이기 (eg. 64x64 -> 256x256)
EditBench는 120개의 생성 이미지와 120개의 자연 이미지가 포함된 text-guided image inpainting을 위한 평가 데이터 세트다. 이매진 에디터는 평가 데이터셋을 이용해 유사한 모델인 Stable Diffusion 및 DALL-E 2와 비교해 평가를 진행했다.
✅ 이미지 분야는 아무래도 시각적인 결과물이 있어 더 관심이 간다. 깊게 알지 못해서 더 흥미로워 보이는 걸 수도 있다. 요새 모바일에서 물체 지우는 것도 꽤 괜찮다고 하는데, 이런 기술의 발전으로 모바일로 손쉽게 포토샵 수준의 이미지 편집이 가능해지면 좋겠다.
QR-code-AI-art-generator
demo : https://huggingface.co/spaces/huggingface-projects/QR-code-AI-art-generator
허깅페이스에서 QR 코드 이미지를 생성할 수 있는 모델을 공개했다. QR 코드에 연결될 URL과 텍스트 프롬프트를 넣으면 해당 프롬프트가 반영된 QR 코드를 생성해준다. 모델의 이름은 'QR Code Conditioned ControlNet Models for Stable Diffusion 1.5' 으로 stable diffusion 을 이용한 모델이다.
✅ 허깅페이스에서 공개한 모델이라 지난 번 모델과 다른 것 같다. 동시에 진행된 연구인지는 모르겠다.
Meta, VoiceBox
demo : https://voicebox.metademolab.com/
Meta에서 새로운 음성 생성 모델인 VoiceBox 논문을 공개했다. VoiceBox는 기존 음성 합성 모델과 오디오 컨텍스트와 텍스트가 주어졌을 때 음성을 채우도록 학습했다. 특정 음성 스타일로 6개 국어로 음성 합성이 가능하고, 배경음에서 특정 노이즈 제거, 발음 수정 등이 가능하다고 한다. 특히 단어 오류율과 오디오 유사성에서 모두 SOTA인 VALL-E 보다 20배 더 빠르다고 한다.
* 6개 국어 : English, French, Spanish, German, Polish, Portuguese
✅ 음성 생성의 경우 특히나 실시간성이 중요해지고 있는데 VALL-E 보다 20배나 빠르다니 대단하다. 한국어가 없는게 아쉽지만 곧 Kor 버전이 나오길 기대하며.. 논문을 한 번 읽어봐야겠다.
AudioPaLM : A Large Language Model That Can Speak and Listen
paper : https://arxiv.org/pdf/2306.12925.pdf
demo : https://google-research.github.io/seanet/audiopalm/examples/
구글이 텍스트 기반의 PaLM-2와 음성 기반의 AudioLM을 통합한 텍스트 및 음성 처리와 생성이 모두 가능한 multimodal architecture 논문을 새로 공개했다. speech-to-speech translation, speech-to-text translation, ASR 기능을 가지고 있다. speech-to-speech translation 에서 원본의 악센트를 보존해 영어로 번역이 가능하다.
✅ 구글이 chatGPT를 뛰어넘기 위한 하나 하나의 초석을 쌓는 느낌이다. 이번엔 음성이지만 멀티모달 모델 Gemini 를 위한 연구 아닐까?
Clip2Protect
Protecting Facial Privacy using Text-Guided Makeup via Adversarial Latent Search
온라인에 공유된 사진을 얼굴 인식 소프트웨어로 추적할 수 있다는 사실을 알고 있나요? 프라이버시를 강화하기 위한 기존 방법은 노이즈를 위에 덧씌우게 되는데 이렇게 되면 자연스러운 이미지를 생성하지 못한다. Clip2Protect는 메이크업을 적용해 추적 소프트웨어로부터 사진을 보호하는 방법을 제시한다.
✅ 원본 이미지를 크게 훼손하지 않으면서 보호가 가능하다니 활용되기 좋은 기술이다. abstract 읽어보면 Latent space로 변환해서 이미지를 재구성 한다고 하는데 무슨 소리인지 잘모르겠다. ㅎ
Baidu, Ernie 3.5
중국의 검색 대기업 바이두가 Ernie 3.5를 소개하며 OpenAI의 GPT-3.5를 뛰어넘고 중국어 능력에서는 GPT-4를 넘어선다고 발표했다.
✅ 믿음이 가지 않는건.. 편견일까? 중국판 chatGPT를 노리는 것 같은데 중국은 내수시장이 활발하니 진짜 성능이 좋으면 빠르게 시장 점유율을 높이지 않을까 싶다.
MotionGPT
paper : https://arxiv.org/pdf/2306.14795.pdf
모션과 언어를 하나의 모델로 통합하는 새로운 멀티모달 모델을 소개했다. 인간의 동작을 특정 언어로 취급한다는 아이디어다. 3D 동작을 토큰화 해서 "동작 어휘"를 기반으로 동작과 텍스트 모두에 대해 같은 방식으로 언어 모델링을 진행한다. 텍스트 입력을 기반으로 동작을 예측하거나 설명하는 등 동작과 관련된 작업에서 SOTA 달성했다고 한다.
✅ 동작을 쪼개 "동작 토큰"으로 학습한다는 아이디어가 신선했다. 기존 동작 교정이나 감지 등 CV 만으로는 어려웠던 분야에 실마리가 되지 않을까?
AI로 만든 약, 임상실험 시작
Insilico는 생성형 AI를 이용해 약을 개발하고 있다. 현재 만성 폐질환 치료를 위한 약을 개발 중이며 1상 시험을 완료했다고 한다.
생성형 AI는 약물 발견 프로세스의 각 단계에서 사용된다. 새로운 약물 후보를 생성하고, 후보가 표적과 얼마나 잘 결합하는지 측정하고, 심지어 임상 시험의 결과를 예측하는데에도 사용된다. 전통적인 방법을 사용했을 때 4억 달러 이상의 비용과 최대 6년이 소요되지만 Insilico는 프로젝트 시작한지 불과 2년 반만에 첫 번째 임상 시험 단계에 도달하며 AI 약물 발견의 이정표를 찍었다.
(생성 AI 약물 설계 엔진 Chemistry42 사용)
✅ 바이오 분야가 AI를 적용하기 좋다는 것은 알고 있었지만 약을 설계하는 것은 처음 알았다. 앞으로 분야를 막론하고 데이터만 충분하다면 알고리즘/설계 task에서 생성형 AI가 두각을 나타내지 않을까?
References
- Google DeepMind / AlphaDev discovers faster sorting algorithms
- Google Research / Imagen Editor and EditBench: Advancing and evaluating text-guided image inpainting
- https://ai.facebook.com/blog/voicebox-generative-ai-model-speech/
- https://www.economist.com/science-and-technology/2023/06/21/the-bigger-is-better-approach-to-ai-is-running-out-of-road
- https://www.cnbc.com/2023/06/27/baidu-claims-its-ernie-bot-beats-openais-chatgpt-on-key-ai-tests.html?utm_source=tldrai
- https://github.com/openmotionlab/motiongpt?utm_source=tldrai
- https://www.semafor.com/article/06/27/2023/ai-made-drug-starts-human-trials?utm_source=tldrai
'IT Trends' 카테고리의 다른 글
당신이 좋아할만한 콘텐츠
-
[IT Issues] Sora / Gemma / LPU / Self-Discover / BASE TTS 2024.03.04
-
[IT Issues] Machine Unlearning Challenge / Threads / SDXL / Google Tensor G5 / codeVQA / Med-PaLM-2 / longLLaMA / Mistral.AI / Rerender a video / Detect Any Deepfakes 2023.07.14
-
[IT Issues] 샘 알트만 방한 / MusicGen / PokemonChat / GPT-4의 Glitch tokens / 애니메이션 스타일 QR 코드 / LOOOL / AMD & HuggingFace / Memit & LEACE / I-JEPA / new version of chatGPT 2023.06.16
-
Generative AI Asia 후기 2023.06.13
소중한 공감 감사합니다