"AI will not replace you. A person using AI will. - Santiago"
쓰나미에 올라타자! 한 단계 더 성장할 기회로 삼자.
by 하정우 센터장
커다란 기회가 오고 있다! 이 흐름에서 새로운 글로벌 기업이 나오면 좋겠다.
by 성낙호 총괄
지금 AI 판은 어떻게 돌아가고 있나?
- 딥러닝 연구는 공개 연구를 통해 AI 발전을 이끌어왔다.
- AI는 선행 연구와 service product 간의 간격이 좁은 산업이다.
- product 에 들어가는 기술이 논문으로 바로 나오고, 논문에 나온 기술이 product에 적용되고, ...
=> AI 기술이 흔해지고, 사용하기 쉬워지는 것
- openAI가 GPT-3 를 공개했을 때도 방법론적인 혁신보다는 규모가 만들어낸 혁신이었음
- openAI에서 2022년 3월 instructGPT 논문이 거의 마지막 기술적인 설명이고, 현재는 문을 닫고 있음
- 경쟁 상황과 안정성(윤리적 위험성 등)을 이유로 기술 디테일 공개 안함
- closedAI...
=> 지금까지 AI 연구의 "open" 이 없어질 수 있다.
한국어 중심 초거대모델이 필요한 이유?
[ 품질 관점]
- AI는 데이터를 넣은 만큼 나오는데 글로벌 모델은 한국 정보를 많이 넣지 않기 때문에 영미권이 느끼는 성능보다 한국이 느끼는 성능은 다를 수밖에 없다.
- 정보적인 것도, 정서적인 것도 한국의 이해도가 필요하고, chatGPT는 디테일이 부족한 부분이 많음
- GPT-3의 한국어 데이터는 0.016 % + under sampling ...
- HyperCLOVA의 경우 한국어 데이터 중심으로 학습했기 때문에 GPT-3의 6500배 데이터로 학습했다고 볼 수 있음
[ 개발 비용 관점]
- AI는 언어를 이해하는 단위로 토큰을 사용하기 때문에 토큰 사전을 이용해 언어를 이해한다.
- 영어는 That's okay 등을 하나의 토큰을 준다. (자주 쓰니까)
- 한국어는 주류 언어가 아니기 때문에 가, 나, 다 별로 토큰 1개씩 배정하기 때문에 한국어 사용시 상대적으로 토큰 수가 많아지게 됨
- GPT4 기준으로 한국어 오버헤드는 4배 => 시간과 비용이 4배
- 동일한 표현에 대해서 GPT-4는 토큰 사전을 10개로 늘렸지만 62개를 써야하고, 네이버 HyperCLOVA의 경우 26개를 사용하면 된다.
➡️ 이런 맥락에서 스스로 초거대 모델 만들 수 없는데 초거대 언어 모델이 필요한 나라를 타깃팅해 서비스 개발할 수 있음
네이버 HyperCLOVA 는 무엇을 하나?
- 칩, 인프라, 모델, 어플리케이션까지 만들고 있음
- HyperCLOVA 에서 여러 task 를 한 큐에 끝냄
- ChatGPT 이전의 초거대 AI 세계 3번째로 공개
- HyperCLOVA는 초거대AI 세계 2-3위권
- stanford 대학의 리포트에 따르면, 한국/미국/중국/영국(딥마인드)/이스라엘 5개국 정도만 자국어 초거대 AI를 가지고 있음
- 그 중 생태계(서비스 프로덕트)까지 구축한 나라는 한국/미국/중국
- 2022년 영향력있는 연구 비율 세계 6위 (zeta-alpha report)
- 비율에서는 밀리지 않는다! Google 도 HyperCLOVA 뒤~!
Service Product
✅ CLOVA Studio
- 시중의 여러 서비스들 : HyperCLOVA + prompt engineering
✅ CLOVA Note : 회의록 자동 작성 및 요약
- 좋은 요약에 대한 논의가 이뤄지고 있음
- 개인 별로 주제와 모르는 내용에 대해 요약하는 것
- 개인 데이터가 많이 필요하기 때문에 아직 출시되지 않음
✅ CLOVA Carecall
- 세계 최초 서비스
- 시니어 케어와 관련된 사회에서 많은 관심 받고 있음
✅ HyperCLOVA X : 전문분야 특화 한국어중심 초거대 AI
- 현재는 지식in 데이터로 많이 학습해서 지식in 특유의 인사와 마무리 멘트가 있음
- 전문분야 특화된 모델을 통해 말만 잘하는게 아니라 일을 할 수 있도록 개발 중
- HyperCLOVAX 개발 중 (7월 예상)
- 바라는 인공지능의 모습으로 reshape 됨
- roll playing guide 존재 (사용자 입력 앞에 붙는다.)
- 건설 분야의 경우 계약서와 제안서 쓰는 경우가 많기 때문에 이런 것을 보조해주는 도구 등으로 활용 가능
- 데이터 확보를 위해 각 분야의 파트너가 필요하다. (모집 중)
- 어느 정도의 정확도가 보장된 기다리지 않는 지식in + 사진 인식
기술력에 대한 홍보를 하지 않은 이유?
- AI가 틀리면 크게 혼나고 있는 상황이라 구글도 머뭇거리는 중
- 하지만 더 머뭇거리면 뒤쳐질 수 있어 많은 논의를 하는 중
점점 필요성이 대두되는 AI 반도체
- AI 특화 반도체가 없었던건 많지 않았기 때문이고, 이제는 AI 경제 규모에 비례해 필요성이 대두되고 있다.
- 현재는 훈련에 있어서는 NVIDIA를 사용할 수 밖에 없다.
- 하지만 서비스 할 때의 비용과 에너지를 위해 삼성전자와 초거대 AI반도체 협업
- 현재 LLM 은 대부분 트랜스포머 기반이고, inference 할 때는 트랜스포머만 크게 저전력으로 serving 하면 된다.
- 결과적으로 트랜스포머에 특화된 반도체를 누가 더 확보하느냐 문제가 될 수 있다. + 메모리가 중요
- 네이버의 실제 서비스 데이터를 사용해 삼성전자에서 특화된 반도체를 만드는 것
전체 infra + 생태계
- 네이버는 가진 서비스가 많기 때문에 (다른 기업의 서비스를 포함해) 생태계를 연결한다면 경쟁력 있지 않을까..!
- 다른 나라는 이미 서치엔진을 다 잃었다.. (youtube & google)
- 한국어 중심 LLM이 없으면 더 많은 비용과 시간을 내서 chatGPT를 사용해야 한다.
AI의 윤리적 이슈
- 이미 AI 윤리팀이 있고, 기획개발 단계부터 체크리스트 만들어 점검 중
- 세계 최초로 2022년 LLM의 AI 윤리는 어떠해야 하는가를 주제로 워크샵을 열었고, 각 세계 그룹(deepmind, google, ..)이 참여했다.
- 사회적으로 민감한 이슈에 대해서 어떤 식으로 답변을 해야하는가에 대한 데이터 셋을 곧 공개 예정
- 데이터셋 자체보다는 데이터를 어떻게 설계하고 만들어야 하는지 프로토콜을 정의함
- 각 문화권에서 중요하다고 생각하는 이슈에 대해서 프로토콜대로 만들면 각 문화권에서 필요한 데이터셋을 만들 수 있다.
- => AI 윤리와 신뢰성을 높이기 위해 노력 중이다!
- 실제 GPT-3에 해당 데이터셋으로 학습하면 민감성과 편향적 이슈를 가진 부분이 완화 됨