IT Trends

[IT Issues] Machine Unlearning Challenge / Threads / SDXL / Google Tensor G5 / codeVQA / Med-PaLM-2 / longLLaMA / Mistral.AI / Rerender a video / Detect Any Deepfakes

728x90

구글 Machine Unlearning Challenge

Today we're thrilled to announce that we've teamed up with a broad group of academic and industrial researchers to organize the first Machine Unlearning Challenge.

훈련된 모델에서 데이터를 제거(언러닝) 하는 기술 개발을 목표로 하고 있다. 언러닝은 개인정보 및 데이터 보호 법규 준수를 위해서도 중요하다. 챌린지는 NeurIPS 2023 Competition Track 중 하나로 캐글에서 열리며 얼굴 이미지 데이터로 연령 예측자를 훈련한 후 특정 이미지를 잊어버려야 하는 시나리오에 중점을 둔다.

✅ EU의 AI 규제 발표 이후 개인정보 및 데이터 보호 법규 준수를 위한 챌린지가 열렸다. 1회 챌린지니까 앞으로 이전에 봤던 LEACE 같은 알고리즘이 더 개선되고 많이 나올 것 같다.

Threads !! 마크 주커버거 vs 일론 머스크

메타가 지난 7월 6일 텍스트 기반 토론 앱 "Threads"를 출시했다. 500자 이내의 짧은 텍스트로 소통하는 플랫폼으로 트위터와 유사한 형태를 가지고 출시 16시간 만에 3천만 명 이상의 가입자를 돌파하며 트위터의 대항마로 주목 받고 있다.

마크 주커버그 : 프로젝트 발표 중 "어떤 서비스처럼 Insane한 운영을 보여주지 않을 것이다" 라고 트위터 간접 디스 + 10년 만에 트위터 계정에 사진을 올리며 머스크 조롱
일론 머스크 : "고통을 숨기는 인스타그램의 가짜 행복에 빠져 있기보다는 트위터에서 낯선 사람에게 공격받는 게 낫다", "전 지구가 저커버그의 엄지 손가락 밑에 있게 될 날이 너무 기다려지네" 라며 Threads 비꼼

✅ Fight...?

SDXL : Improving Latent Diffusion Models for High-Resolution Image Synthesis

Paper : https://arxiv.org/abs/2307.01952

Stablility.ai에서 Stable Diffusion 다음 모델인 SDXL을 공개했다. 고해상도 출력과 image-to-image 구현 성능이 획기적으로 향상됐다고 한다. 현재 모델은 상업적 사용은 불가능하지만 연구의 목적으로는 공개했다.

✅ WOW. 이미지 모델들 한 차례 업그레이드가 일어나려나? Stable Diffusion 논문을 한 번 읽어봐야 될 것 같다.

Google, Tensor G5

구글의 첫 완전 커스텀 Pixel칩 Tensor G5를 2025년 TSMC가 생산할 예정이라고 한다. 기존 칩은 삼성이 제조했지만 여러가지 문제로 TSMC로 바꾸게 됐고, TSMC의 3나노미터 제조 공정으로 두께를 줄이고 전력 효율성을 높일 것이라고 전했다.

✅ 아쉽습니다 삼성..

Google, Visual Question Answering

Visual Question Answering은 이미지에 대한 질문 답변을 해주는 작업이다. 근 몇 년 동안 멀티모달 접근으로 이미지에 대한 사람의 주석이 담긴 50개 미만의 예제를 사용하는 few-shot 또는 zero-shot으로도 잘 수행되는 VQA 연구가 활발했는데, 단일 이미지에 대한 답변만 가능하고 정확도가 다소 떨어진다는 한계가 있었다. 구글에서 이번에 자연어를 사용하지 않고 코드를 사용한 모델을 codeVQA를 공개했다. codeVQA는 LLM을 사용해 질문을 해결할 수 있는 python 코드를 생성한다.

✅ LLM 발전에 따른 새로운 연구 방향인 것 같다. 자연어를 사용하는 것보다 논리적 모순이 덜하고 활용 범위가 높아 보인다.

Google, Med-PaLM-2

월스트리트 저널은 구글이 의료 정보 질의에 답변하도록 설계된 AI 도구인 Med-PaLM 2를 Mayo Clinic 연구 병원 등에서 테스트 중이라고 보도했다. Med-PaLM-2는 올해 5월 구글에서 발표한 PaLM-2의 변형으로 일부 정확도 문제가 있긴 하지만 대부분의 측정 항목에서 실제 의사와 거의 같은 성능을 보였다고 한다.

➕ 외과적 질문을 시각화하고 답변하는 인공지능 도구 CAT-ViL 논문이 공개됐다. 의대생과 주니어 외과의가 선배에게 수술에 대해 의존적이지만 전문가들은 바쁘기 때문에 딥러닝을 이용해 수술의 상황을 이해할 수 있도록 하는 모델을 소개했다.

paper : https://arxiv.org/pdf/2307.05182v1.pdf

✅ 메이요 클리닉은 세계 최고 병원이라고도 불리는데, 몇 년 전 디지털 기술을 통한 의료 혁신을 위해 구글과 손잡았다고 한다. 이번 의료용 AI 챗봇도 연장선상인 것 같다. 확실히 LLM의 가능성이 무궁무진한 만큼 다양한 분야로의 확장이 빠르게 이뤄지고 있는 것 같다.

long LLaMA

paper : https://arxiv.org/pdf/2307.03170.pdf

256K 토큰 이상의 긴 컨텍스트를 처리할 수 있는 대규모 언어 모델인 longLLaMA가 발표됐다. openLLaMA를 기반으로 FoT(Focused Transformer) 방법을 사용해 fine-tuning 되었다고 한다. FoT는 많은 데이터를 처리할 때 관련 정보를 기억하고 집중할 수 있도록 도와주는 새로운 기술로 attention layer가 외부 메모리에 접근할 수 있도록 해서 컨텍스트 길이를 확장했다.

✅ 컨텍스트 제한을 해결하기 위해 RWKV 쪽으로 연구가 진행되고 있는데, FoT 라는 새로운 방향이 흥미롭다. 얼마나 효용성이 있는지는 차차 밝혀지겠지만 RNN계열의 문제점을 완전히 해결할 방안이 나오지 않는 한 FoT가 더 가능성이 있다고 느껴진다.

Mistral.AI

Mistral.ai strategic memo : https://drive.google.com/file/d/1gquqRqiT-2Be85p_5w0izGQGgHvVzncQ/view

파리에 기반을 둔 AI 스타트업 Mistral이 창업한 지 4주 후, 첫 직원을 고용한지 며칠만에 제품없이 1억 500만 유로를 모금했다. Mistal은 구글 딥마인드와 메타 연구원 출신들이 설립한 회사로 대규모 LLM을 내년에 출시할 계획만으로 시드 펀딩에 성공한 것이다. 기업들에게 생성형 AI를 제공하는데 초점을 맞출 것으로 보인다.

일부에서는 이를 유럽 기술의 큰 이정표로 예고했다.

✅ 펀딩이 성공한 것에 유럽의 IT 경쟁자를 만들기 위함이라는 논평에 동의한다. 물론 딥마인드와 메타 연구원 출신들이 공동 창업한 것과 생성형 AI에 대한 관심과 기대가 높아진 탓도 있겠지만 이 경쟁력 있는 회사가 '유럽 회사' 라서 보다 쉽게 투자 받았다는 사실도 부정할 수 없다고 생각한다.

Rerender a video : zero-shot text-guided video-to-video translation

demo : https://anonymous-31415926.github.io/?utm_source=tldrai

input 비디오를 텍스트에 맞는 새로운 비디오를 생성하는 새로운 zero-shot 프레임워크를 제안했다. 먼저 diffusion 모델로 키 프레임을 생성하고 텍스트에 맞게 해당 키 프레임을 다른 프레임으로 바꿔 비디오를 렌더링한다.

➕ Text2Cinemagraph : 텍스트 설명을 예술적 시네마그래프로 변환하는 모델.

demo : https://text2cinemagraph.github.io/website/gallery.html?utm_source=tldrai

✅ 이미지 생성에서 비디오 생성으로 많이 넘어가나보다. 이전에도 비슷한 연구들이 있었는데 '고품질' 비디오 렌더링이라는 점에서 차이가 있는 것 같다. 이미지 쪽은 아는 바가 많이 없는데 최근 계속 접하다보니 궁금해진다. 이 분야 연구에 대해 정리된 논문이나 자료가 있는지 찾아봐야겠다.

Detect Any Deepfakes

Paper : https://arxiv.org/pdf/2306.17075v1.pdf

딥페이크 탐지를 개선하기 위한 새로운 시스템 Detect Any Deepfakes를 소개했다. Segment Anything Model(SAM)을 사용하고 멀티스케일 어댑터와 RGA(Reconstruction Guided Attention)를 통합하여 딥페이크 탐지 성능을 개선했다고 한다. 기존 SOTA보다 정확도 개선이 3% 이상 되었다.

✅ 딥페이크 탐지 방법에 대해 깊이 생각해본 적이 없는데 꽤 정확도가 높아보여 신기했다. 논문을 슬쩍 훑어본걸로는 정확한 원리가 이해되지 않아 아쉽다.

그 외 IT Issues ⭐️

InstructBLIP

Although the recipe for forward pass needs to be defined within this function, one should call the Module instance afterwards instead of this since the former takes care of running the pre and post processing steps while the latter silently ignores them.

huggingface.co

Paper page - LongNet: Scaling Transformers to 1,000,000,000 Tokens

Abstract Scaling sequence length has become a critical demand in the era of large language models. However, existing methods struggle with either computational complexity or model expressivity, rendering the maximum sequence length restricted. In this work

huggingface.co

INT-FP-QSim: Mixed Precision and Formats For Large Language Models and Vision Transformers

The recent rise of large language models (LLMs) has resulted in increased efforts towards running LLMs at reduced precision. Running LLMs at lower precision supports resource constraints and furthers their democratization, enabling users to run billion-par

arxiv.org

Ref

Machine Unlearning Challenge : https://ai.googleblog.com/2023/06/announcing-first-machine-unlearning.html
Threads :
SDXL : https://huggingface.co/papers/2307.01952
Tensor G5 : https://9to5google.com/2023/07/06/google-pixel-tensor-g5-tsmc/
codeVQA : https://ai.googleblog.com/2023/07/modular-visual-question-answering-via.html
Med-Palm-2 : https://www.theverge.com/2023/7/8/23788265/google-med-palm-2-mayo-clinic-chatbot-bard-chatgpt
LongLLaMA : https://github.com/CStanKonrad/long_llama
mistal : https://sifted.eu/articles/pitch-deck-mistral?utm_source=tldrai
Rerender a video : https://anonymous-31415926.github.io/?utm_source=tldrai
Text2cinemagraph : https://text2cinemagraph.github.io/website/gallery.html?utm_source=tldrai

저작자표시 비영리 변경금지 (새창열림)

'IT Trends' 카테고리의 다른 글

[IT Issues] Genie / Mistral Large / The Era of 1-bit LLMs (0)	2024.03.06
[IT Issues] Sora / Gemma / LPU / Self-Discover / BASE TTS (0)	2024.03.04
[IT Issues] 새로운 정렬 알고리즘 / 구글 Imagen Editor / QR-code-AI-art-generator / 메타 VoiceBox / AudioPaLM / Clip2Protect / 바이두 Ernie 3.5 / MotionGPT / AI로 만든 약 / (0)	2023.06.30
[IT Issues] 샘 알트만 방한 / MusicGen / PokemonChat / GPT-4의 Glitch tokens / 애니메이션 스타일 QR 코드 / LOOOL / AMD & HuggingFace / Memit & LEACE / I-JEPA / new version of chatGPT (3)	2023.06.16
Generative AI Asia 후기 (0)	2023.06.13

Contents

새소식