딥러닝으로 인한 인공지능의 발전은 인지, 학습, 추론, 행동과 같은 인간 지능 영역의 전 과정에 걸쳐 혁신적인 진화를 만들어 내고 있습니다. 특히 시각, 청각과 같은 감각기관에 해당하는 인지 지능은 2012년을 기점으로 본격적으로 발전하였으며, 시각 인지 분야의 지능은 인간 수준을 초월하는 수준으로 구현되고 있습니다.
l 시각 인식 지능의 발전, ImageNet 경진대회 결과
인공지능은 단순히 이미지 속의 사물의 종류를 인식하는 것을 뛰어넘어, 영상•이미지 속의 상황을 이해하기 시작했습니다. 사람 얼굴의 사진을 보면 남성, 여성 등과 같은 외형적 특성을 인식하는 것은 물론이고 눈, 코, 입 모양의 상관 관계를 분석해 표정을 인지하거나 감정을 추측하는데요. 게다가 2015년 구글이 발표한 논문에서는 이미지 속 상황을 정확히 이해해 인간의 언어로 표현 5하기도 합니다 6.
l 이미지•영상의 이해: Microsoft 감정 인식(좌), Google 이미지 캡셔닝(우)
l Visual Q&A: 이미지와 관련된 질의 응답
l Microsoft, Seeing AI
단순히 정지된 이미지를 합성하는데 그치지 않고 실시간으로 동영상을 합성하기도 합니다. 스탠퍼드대의 연구팀은 유명인의 영상에 전혀 다른 사람의 표정을 합성하는데요. 실시간으로 바뀌는 표정이 그대로 유명인의 얼굴에 반영됩니다. 12
워싱턴대에서 발표한 ‘Synthesizing Obama’라는 논문에서는 오바마 대통령의 목소리만을 가지고 입 모양을 생성해 오바마 대통령의 전혀 다른 연설 영상에 합성했습니다. 단순히 정지된 이미지 정보를 합성하는 수준을 넘어 실시간의 영상 변형, 합성까지 가능한 것입니다. 13
l 영상 정보의 합성
더 나아가 인공지능은 이제 세상에 존재하지 않는 전혀 새로운 사물을 생성해 내기도 합니다. GAN(Generative Adversarial Networks)라 불리는 이 방법은 새로운 사물을 생성하는 인공지능과 생성된 사물이 진짜인지 가짜인지를 판별하는 두 인공지능이 서로 경쟁하며 진짜와 같은 가상의 이미지를 생성해 냅니다. 14
구글의 Ian Goodfellow에 의해 제안된 GAN은 2016년 이후 매우 빠르게 성능이 향상되고 있으며 2017년 4월 발표된 논문에 나타난 이미지들은 가상으로 생성된 이미지라는 것을 구분할 수 없을 정도로 높은 완성도를 보여주고 있습니다. 15
l 이미지 생성(좌: 2016, 우: 2017)
2016년 발표된 StackGAN은 인간의 언어로 기술된 텍스트를 이해해 특정 사물을 생성하기도 합니다. 아래 <그림>과 같이 특정한 모양, 색깔을 갖는 꽃 사진을 생성해 내거나 새를 만들어 내기도 합니다. 물론, 이러한 사물은 GAN과 마찬가지로 기존 세상에 존재하지 않는 전혀 새로운 가상의 형상들이며 생성된 결과만으로는 인간의 시각 지능으로 판별이 매우 어렵습니다. 16
l 인간의 언어를 이해 후 이미지를 생성
이런 시각 인지 지능의 산업적 영향력은 매우 클 것으로 전망됩니다. 단기간에 직접적으로는 엔터테인먼트, VR•AR과 같은 영상 콘텐츠와 관련된 주요 산업에 핵심 역량으로 작용할 가능성이 큽니다. 인공지능이 애니메이션의 영상뿐만 아닌 음성까지도 스스로 생성해 내는 것이 가능할 것이며, 유명 배우의 외형을 학습한 인공지능은 다양한 모습으로 배우의 영상을 변형하거나 새롭게 생성하는 것도 가능할 것입니다.
단순한 콘텐츠 산업을 넘어 인간의 시각과 관련된 거의 모든 산업에 직•간접적으로 영향을 미칠 수도 있습니다. 앞으로 시각인지 지능은 교육, 쇼핑, 교통 등 모든 영역에서 산업의 핵심 요소 기술로 작용해 기존 산업의 경쟁 방식을 혁신시킬 것으로 예상됩니다.
글 | 이승훈 책임연구원(shlee@lgeri.com) | LG경제연구원
* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.
* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.
- Q. Le, et al., Building High-level Features Using Large Scale Unsupervised Learning, ICML 2012 [본문으로]
- A. Krizhevsky, et al., ImageNet Classification with Deep Convolutional Neural Networks, NIPS 2012 [본문으로]
- 스탠퍼드대에서 주관하는 영상인식 분야 경진대회… 1,000가지 종류의 사물로 구성된 100만 장의 이미지가 주어지며 각 이미지 속에 존재하는 사물의 종류를 알아 맞히는 경쟁 [본문으로]
- http://image-net.org/challenges/LSVRC/2017/ [본문으로]
- Microsoft Emotion API [본문으로]
- O. Vinyals, et al., Show and Tell: A Neural Image Caption Generator, CVPR 2015 [본문으로]
- Yuke Zhu, et al. Visual7W: Grounded Question Answering in Image, CVPR 2016(우) [본문으로]
- Z Yang, et al, Stacked Attention Networks for Image Question Answering , CVPR 2016 [본문으로]
- J. Zhu, et al. Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks ICCV 2017 [본문으로]
- L. Gatys, et al., Image Style Transfer Using Convolutional Neural Networks, CVPR 2016 [본문으로]
- (좌) J. Zhu, et al., Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks ICCV 2017 (우) L. Gatys, et al., Image Style Transfer Using Convolutional Neural Networks, CVPR 2016 [본문으로]
- J. Thies, et al. Face2Face: Real-time Face Capture and Reenactment of RGB Videos, SIGGRAPH 2016 [본문으로]
- S. Suwajanakorn, et al., Synthesizing Obama: Learning Lip Sync from Audio, SIGGRAPH 2017 [본문으로]
- Ian Goodfellow, et al., Generative Adversarial Networks, 2012 [본문으로]
- D. Berhelot, et al., BEGAN: Boundary Equilibrium Generative Adversarial Networks, 2017 [본문으로]
- H. Zhang, et al., StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks , 2016 [본문으로]
'IT Insight' 카테고리의 다른 글
주변 환경과의 Always Connectivity를 가능하게 하는 힘 ‘센서 기반의 IoT’ (1) | 2017.11.07 |
---|---|
애플 플랫폼과 개발도구의 핵심에는 오픈소스가 있다 (0) | 2017.11.01 |
4차 산업혁명, 1인 1품 ‘완전 맞춤형’ 제조 혁명이 일어난다 (0) | 2017.10.25 |
인간의 두뇌를 대신할 수 있을까? 인공지능의 트렌드와 향후 발전 방향 (0) | 2017.10.24 |
4차 산업혁명을 가능하게 하는 원동력, 데이터 분석과 활용 (0) | 2017.10.17 |