IT Insight

인공지능 구현의 한계와 극복 방법은 무엇일까?

2018.04.19 09:30

딥러닝으로 인해 인공지능 분야가 빠르게 혁신되고 있지만, 딥러닝은 엄청난 양의 데이터와 컴퓨팅 파워를 요구한다는 점에서 큰 한계를 갖습니다. 2012년 구글이 구현한 인공지능은 유튜브 영상 속 고양이를 스스로 구분해 내며 시작하였으나 이것은 약 1,000만 개의 동영상을 학습한 결과였습니다.


2016년 이세돌 9단과 대결에서 승리한 알파고는 약 3,000만 개의 착점 정보와 16만 개의 프로 바둑 기사의 기보가 필요했는데요. 동시에 이러한 데이터 학습 과정과 실제 바둑 대결에는 클라우드 기반으로 연결된 약 1,202개의 CPU와 176개의 GPU[각주:1]가 동시에 활용되며 약 3억 4천 번의 반복 학습을 통해 구현된 결과물이었습니다.



따라서 현재까지의 인공지능을 구현해 혁신을 이루어 내는 기업들은 엄청난 데이터와 컴퓨팅 파워를 확보한 거대 IT 기업이 중심이 되어오고 있는데요. 학계, 선도 연구단체를 시작으로 이러한 한계를 극복하기 위한 노력이 시도되고 있습니다.


특히, 인공지능 구현에 필요한 데이터를 확보하는 것은 매우 어렵습니다. 방대한 양의 빅데이터를 확보하는 것뿐만 아니라 데이터의 질적(Quality)인 측면까지 동시에 고려되어야 하기 때문인데요. 데이터의 질(Quality)은 크게 두 가지 의미를 갖습니다.


첫째, 데이터의 다양성입니다. 정제되고 완벽한 상황만을 반영한 데이터가 많다고 해서 이를 기반으로 학습된 인공지능의 성능이 높아지는 것은 아닙니다.


음성인식의 경우 정확한 발음으로 녹음된 음성 데이터보다는 각종 소음, 다양한 억양•말투 등의 데이터가 함께 학습되어야 실제 제품이나 서비스로 출시 될 때 완성도를 높일 수 있습니다. 자율주행 기능의 경우에도 각종 사고, 위험 상황을 반영할 수 있는 데이터가 충분히 학습되어야 실제 주행 환경에서 다양한 상황에 대응할 수 있게 됩니다.


 

둘째, 확보된 데이터가 기계 학습이 가능한 형태로 준비되어야 합니다. 과거에는 빅데이터를 분석하는 주체가 인간이었지만 이제는 기계가 데이터를 직접 학습하고 분석합니다. 인간에게는 단순하게 보이는 데이터라 할지라도 기계가 이해하기 위해서는 데이터의 전처리 과정이 필수적으로 요구됩니다.


예를 들어 그림 1과 같은 이미지의 경우 이미지 내 각종 사물을 알아보고 경계선을 구분하는 것은 인간에게는 매우 쉽지만 동일한 이미지를 기계가 인간처럼 알아보기 위해서는 이미지 속의 건물, 나무, 자동차에 해당하는 부분들을 인간이 일일이 경계선으로 구분 짓고 해당 사물의 명칭을 이미지와 함께 기록해주어야 합니다. 이미지 어노테이션(Annotation)이라 불리는 전처리 과정을 거쳐야 해당 이미지를 기계가 이해할 수 있게 되는 것입니다.


l 그림 1. 데이터 어노테이션 과정


이러한 데이터의 전처리 과정에 소요되는 비용은 매우 높습니다. 스탠퍼드 대학의 ImageNet 경진대회에 사용된 약 1,400만 장의 이미지를 전처리 하기 위해서 약 1,000여 명이 6년에 걸쳐 전처리 작업을 수행했다고 하는데요. 딥러닝 기반의 자율 주행 인공지능을 구현하는 drive.ai의 창업자는 약 1시간가량의 주행 영상 데이터를 전처리(Preprocessing) 하는데 약 800시간이 소요된다고 합니다.


구글, 페이스북 등과 같은 거대 기업들이 최근의 인공지능을 선도하고 있는 가장 큰 요인은 바로 이들 기업의 데이터가 단순히 양이 많은 빅데이터가 아닌 질적 측면이 함께 고려된 빅데이터였기 때문입니다.


반면, 데이터를 체계적으로 확보하지 못해 인공지능 구현에 적시에 대응하지 못한 기업들은 데이터 확보를 위해 막대한 자금 투자와 노력을 병행하고 있습니다. 대표적인 기업으로 IBM은 자사 인공지능 서비스인 Watson Health의 고도화를 위해 최근 수년에 걸쳐 약 4조 원 이상을 투자했습니다.


동종 업계의 IT 기업에 대한 투자가 아닌 병원, 의학 연구기관과 같은 의료 기관을 인수하거나 투자했는데요. 이를 통해 IBM은 약 150만 건의 환자 기록과 200만 페이지에 이르는 의학 전문 자료를 확보하고 Watson의 의학 분야의 전문성을 고도화하는 데 활용하고 있습니다.


인공지능 연구자들은 이러한 한계들을 연구자들은 인공지능을 통해 극복하려 합니다. 인공지능을 통해 가상의 데이터를 생성하고 이를 새로운 인공지능의 학습 과정에 활용하는 것인데요. 가장 대표적인 연구가 GAN [각주:2]입니다.



GAN 기반의 인공지능은 세상에 존재하지 않는 전혀 새로운 가상의 데이터를 생성합니다. GAN은 사람 얼굴, 자동차, 꽃, 동물 등 데이터 생성을 위한 목적 데이터의 종류만 입력하게 되면 해당하는 데이터를 자유롭게 생성하는데요. 이렇게 GAN 방식으로 생성된 데이터는 데이터에 대한 정보가 이미 주어져 있기 때문에 어노테이션(Annotation)과 같은 전처리 과정에 소요되는 시간과 비용을 획기적으로 줄일 수 있습니다.


게다가 인공지능은 하나의 실제 데이터를 여러 가지로 변형하기도 합니다. 예를 들어 그림 2와 같이 맑은 낮에 촬영된 주행 사진을 변환해 흐른 날씨 혹은 밤에 주행된 사진으로 변환하거나 사람의 정면 사진을 기반으로 좌, 우측면의 이미지를 생성[각주:3]해 내기도 하는데요.


이렇게 변형되어 생성된 데이터는 데이터의 다양성 측면의 한계를 해결합니다. 즉 인위적으로 생성되거나 변형된 데이터는 데이터의 양적인 문제를 해결함과 동시에 데이터의 질적인 문제도 동시에 해결해 주고 있습니다. 또한, 관련 분야의 연구가 빠르게 발전하면서 단순한 이미지 데이터뿐만 아닌 사람의 음성(언어) 등에 이르기까지 가상으로 생성 가능한 데이터의 종류 또한 확장되고 있습니다.


l 그림 2. 주행 사진 변환

 

l 그림 3. 가상 생성 한계 실제 데이터로 학습한 AI(좌), 가상 데이터로 학습한 AI(우)


물론 가상으로 생성된 데이터의 한계는 존재합니다. 그림 3과 같이 가상의 데이터를 학습해 구현된 인공지능은 실제 데이터를 학습해 구현된 인공지능보다 더 낮은 성능[각주:4]을 보이기도 합니다.


인간의 인식 수준에서는 실제와 가상의 구분이 점점 어려워지고 있지만, 인공지능은 실제 사진에서 더욱 많은 정보를 학습에 활용하고 있기 때문일 것입니다. 하지만 이러한 가상의 데이터를 통해 빠르게 인공지능을 구현할 수 있다는 점에서 큰 의미를 갖습니다.


최근 제품, 서비스로 출시되는 인공지능 대부분이 출시 후 실제 시장에서 사용되는 과정에서 더욱 많은 데이터를 수집하고 지능 학습에 지속해서 활용하고 있기 때문입니다.


글 l 이승훈 책임연구원(shlee@lgeri.com) l LG경제연구원


* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의 없이 2차 가공 및 영리적인 이용을 금하고 있습니다.



  1. D. Silver, et al., Mastering the game of Go with deep neural networks and tree search, Nature 2016 [본문으로]
  2. Generative Adversarial Networks [본문으로]
  3. A. Gaidon, et al., Virtual Worlds as Proxy for Multi-object Tracking Analysis, 2016 [본문으로]
  4. M. Johnson-Roberson, et al., Driving in the Matrix: Can Virtual Worlds Replace Human-Generated Annotations for Real World Tasks, ICRA 2017 [본문으로]
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS
위로