본문 바로가기

IT Solutions

텍스트를 넘어 생체신호까지 학습한다! 떠오르는 ‘멀티모달 AI’

 

 

지난 글에서는 기계 언어를 바꾼 ‘초거대 AI’의 등장을 살펴봤습니다. 초거대 AI는 인간의 뇌 구조를 모방해 스스로 사고하고 학습하며 판단할 수 있는 AI인데요. LG AI연구원이 선보인 엑사원은 오픈AI의 GPT-3와 네이버가 출시한 하이퍼클로바, 카카오의 코지피티와는 다릅니다. GPT-3와 하이퍼클로바가 언어모델이라면, 엑사원은 멀티모달 AI죠. 언어뿐만 아니라 이미지도 학습하고 사고하고 판단할 수 있습니다. 최근 초거대 AI는 언어모델을 벗어나 엑사원처럼 ‘멀티모달’ 형태로 발전하고 있습니다.

 

멀티모달 AI는 다양한 모달리티를 동시에 받아들이고 사고하는 AI 모델을 뜻합니다. 기존 초거대 AI가 주로 언어에 초점을 맞춘 언어 모델이었다면, 멀티모달 AI는 여기서 한발 더 나아갑니다. 언어모델이 사고할 수 있었던 텍스트 데이터 외에도 △이미지 △음성 △제스처 △시선 △표정 △생체신호 등 여러 입력 방식을 받아들이고 사고할 수 있죠. 이를 통해 인간과 AI가 더욱 자연스럽게 의사소통할 수 있게 합니다.

GPT-3가 영국 가디언지에 칼럼을 쓸 수 있었던 것은 AI가 텍스트를 받아들이고 이를 사고할 수 있었기 때문입니다. 멀티모달 AI는 텍스트뿐만 아니라 이미지, 동영상, 생체신호 등을 학습하고 사고할 수 있기 때문에 칼럼 작성 외에 다른 일도 할 수 있는데요. 다양한 이미지를 학습해 인테리어를 디자인할 수 있고, 사람의 대화를 바로 영상으로 만들어 보여줄 수도 있습니다.

이처럼 멀티모달 AI는 텍스트 기반으로 새로운 콘텐츠를 만들어냈던 초거대 AI가 이미지, 음성, 표정, 시선, 제스처 등 다양한 데이터를 토대로 새로운 결과물을 내놓는 방향으로 진화한 버전입니다.

 

GPT-3로 초거대 언어모델 AI 시대를 알린 오픈AI는 초거대 멀티모달 AI에도 성과를 냈습니다. 오픈AI는 2021년 1월 초거대 멀티 모달 AI인 ‘달리(DALL-E)’를 자사 블로그에 공개했습니다. 달리는 자율주행 로봇 이야기를 담은 2008년 애니메이션 영화 ‘WALL-E’와 초현실주의 화가 살바도르 달리(Salvador Dalí)를 합친 이름입니다.

오픈AI는 “달리가 NLP(Natural Language Processing, 자연어처리)와 이미지인식 기술을 함께 사용해 전에 학습한 적이 없는 이미지를 새로 ‘창조’해낼 수 있다”고 밝혔습니다. GPT-3가 방대한 양의 언어 데이터를 학습한 후 다양한 방식으로 언어를 사용할 수 있었다면, 달리는 GPT-3가 학습한 텍스트와 더불어 같은 방식으로 이미지를 학습해 새로운 결과물을 냈습니다.

달리는 기존 이미지 생성 기술과 달리 각 이미지 데이터를 큐레이팅, 라벨링 하지 않습니다. 인터넷상에서 수집한 방대한 이미지와 이를 묘사한 캡션들을 학습해 결과물을 내죠. 이를 통해 경험한 적이 없는 이미지 대상도 학습 데이터를 조합해 새로 만들어낼 수 있습니다.

 

 

예를 들어 달리는 ‘개를 산책시키는 아기 무’란 이미지를 만들어낼 수 있습니다. 개를 산책시키는 무는 세상에 없죠. 따라서 이러한 이미지를 라벨링 할 수 없고 학습할 수도 없습니다. 하지만 달리는 이 이미지를 조합해 새로운 이미지를 창조해냈습니다. 오픈AI는 블로그를 통해 “달리는 이질적인 아이디어를 결합해 사물을 합성할 수 있는 능력을 갖추고 있다”며 “현실 세계에 존재하지 않는 것도 만들어낼 수 있다”고 밝혔습니다.

 

오픈AI는 올해 4월 달리에 이은 ‘달리 2(DALL-E 2)’를 선보였습니다. 이전 모델인 달리의 업데이트 버전인데요. 기존보다 그릴 수 있는 이미지가 더 정교해졌으며 그리는 속도도 빨라졌습니다. 기존 달리는 일반 배경에 만화와 같은 이미지를 만들어낼 수 있었습니다. 실제 이미지와는 거리가 있었죠. 하지만 달리2는 복잡한 배경과 사실과 같은 그림자, 음영 등을 표시할 수 있습니다. 이를 토대로 만화가 아닌 사실적인 이미지를 만들어낼 수 있습니다.

 

달리2는 '베레모와 검은색 터틀넥을 입은 시바견'이라는 명령을 입력하면 기존에 없던 이미지를 생성한다. (출처 : 오픈AI)

 

생성해내는 이미지도 다양합니다. ‘베레모와 검은색 터틀넥을 입은 시바견’이라는 명령을 입력하기만 하면 해당 테마에 대해 수십 가지의 이미지를 보여줍니다. 사진 편집도 가능한데요. 사용자는 수정하려는 이미지 주위에 박스(box)를 배치하고 자연어로 수정 사항을 지정할 수 있습니다. 

예를 들어 시바견의 베레모 주위에 상자를 놓고 ‘빨간 베레모 만들기’를 입력하면 이미지의 나머지 부분을 그대로 두고 베레모만 변경합니다. 문장을 듣고 사진에 피사체를 추가하거나, 사진의 구도를 바꾸는 기능도 있습니다. 해변에 야자수를 그렸다가 “오른쪽 끝에 사람 그림도 추가해줘”라고 하면 이 말을 이해해 사람을 추가합니다.

 

구글이 개발한 '이매젠(Imagen)' 모델로 작업한 이미지 예시 (출처 : 구글)

 

이러한 멀티모달 AI는 글로벌 빅테크 기업에서 계속 개발되고 있습니다. 구글은 올해 5월 텍스트를 이해해 새로운 이미지를 생성하는 멀티모달 AI ‘이매젠(Imagen)’을 공개했는데요. 이매젠은 달리2와 같은 방식으로 이미지를 생성합니다. 구글에 따르면 텍스트를 이해하는 대형 변환기(transformer)의 언어모델 성능을 바탕으로 정확도가 높은 이미지를 만들어낸다고 합니다.

 

초거대 멀티모달 AI는 한국에도 있습니다. LG AI연구원의 ‘엑사원’과 카카오브레인의 ‘민달리 (minDALL-E)’입니다. 두 모델은 국내에서 개발된 멀티모달 AI인데요. 엑사원은 2021년 12월 14일에, 민달리는 바로 다음 날인 12월 15일에 공식 발표됐습니다.

두 모델은 전체적으로 오픈AI가 개발한 달리와 비슷한 성능을 가지고 있습니다. 텍스트를 입력하면 AI가 이를 이해해 새로운 이미지를 생성해줍니다. "바나나 껍질로 만든 의자 그려줘", "보름달과 파리 에펠탑이 같이 있는 그림 보여줘", "살바도르 달리 화가 스타일로 그려줘"와 같은 명령어를 입력하면 AI가 텍스트 맥락을 이해하고 기존에 없는 이미지를 생성하는 방식입니다.

LG AI연구원, 양방향 사고 가능한 멀티모달 최초 개발
LG AI연구원이 개발한 엑사원은 여기서 한발 더 나아갔습니다. 이미지를 보고 텍스트로 이를 설명하는 것까지 가능하죠. 이는 텍스트와 이미지, 이미지와 텍스트 등 모달리티 간 양방향 사고가 가능한 모델이기 때문입니다. 텍스트와 이미지 양방향 사고가 가능한 초거대 멀티모달 AI가 개발된 건 엑사원이 전 세계에서 처음입니다.

 

엑사원은 텍스트와 이미지, 이미지와 텍스트 등 모달리티 간 양방향 사고가 가능하다. (출처 : LG AI연구원)

 


엑사원은 지난해 12월 14일 개최된 ‘LG AI 토크 콘서트’에서 공식 발표됐습니다. LG AI연구원에 따르면 엑사원은 국내 AI 모델 중 가장 많은 3,000억개의 파라미터를 보유하고 있습니다. 학습한 데이터도 다른데요. 엑사원은 네이버와 카카오의 초거대 AI와 달리 초기 개발 시점부터 한국어와 영어 데이터를 함께 학습했습니다. 여러 언어를 학습했지만 주로 영어에서 좋은 성능을 보이는 GPT-3보다 한국어를 더 잘 할 수 있다는 강점도 있습니다.

LG AI연구원은 텍스트, 이미지를 학습하는 엑사원을 넘어 도표와 그래프, 동영상, 촉각 정보 등 다양한 형태의 정보도 동시에 학습하고 활용할 수 있는 멀티모달 AI를 개발하고 있습니다. 멀티모달 자체가 텍스트 데이터 외에 △이미지 △음성 △제스처 △시선 △표정 △생체신호 등 여러 입력 방식을 받아들이고 사고할 수 있는 것을 의미하기 때문에 이러한 입력 방식을 모두 소화할 수 있는 완전한 멀티모달 AI를 선보이겠다는 계획입니다. 이를 위해 지난 4월 25일 서울대 AI 대학원과 함께 ‘SNU-LG AI 리서치센터’를 설립, 관련 연구를 진행하고 있습니다.

 

LG AI연구원은 서울대 AI대학원과 함께 'SNU-LG AI 리서치센터'를 설립해 다양한 형태의 정보를 학습하고 활용할 수 있는 멀티모달 AI를 개발하고 있다. (출처 : LG AI연구원)

 

 

글 ㅣ 정보연구소 기술전략팀/ AI타임즈 김동원, 김미정 기자

 

*해당 콘텐츠는 저작권법에 의해 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.
*해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.