IT Life

이제는 '터치'가 아닌 '음성'으로! - 음성으로 모든 것이 가능한 세상, IoT 발달과 함께 더욱 발전하는 음성인식 시스템 -

2015.03.02 10:18

안녕하세요? LG CNS 대학생 기자단 최종호입니다.


음성을 이용한 사람과 물건과의 인터페이스 아이디어는 중동의 구전 문학인 ‘알리바바와 사십 인의 도적’ 이야기에서부터 시작됩니다. 우화 속에는 ‘열려라, 참깨!’라는 말에 스스로 문이 열리는 신비로운 동굴이 등장하는데요. 이렇듯, 예전부터 언어를 이해할 수 있는 사물의 등장은 우리가 상상할 수 있는 최고의 시나리오 중 하나였죠. 


그렇다면, 오늘날 우화 속에서나 등장했던 음성인식 기술은 어디까지 구현되어 있을까요? 오늘은 음성인식 시스템의 원리와 구현 사례를 살펴보고, 음성인식 기술의 현재와 앞으로의 전망에 대해 알아보겠습니다.

 


 <기계적 조작 대신 음성을 통해 기기를 제어하는 인터페이스>


현재, 음성인식 기술은 전화상의 안내 서비스 및 다양한 플랫폼에서 사용되고 있는데요. 자동차의 네비게이션에서 음성으로 목적지를 설정하거나, 스마트 TV에서 채널을 변경하거나, 스마트폰에서 연락처를 찾고, 일정을 관리하고, 인터넷 검색을 할 때 사용되고 있습니다. 이렇듯 음성인식 서비스는 우리의 일상 생활에 서서히 스며들며 대중들에게 큰 관심을 받고 있는데요. 그렇다면 '음성 인식'이라는 것은 정확하게 무엇을 의미하는 것일까요?  


‘음성을 인식한다’는 것은 ‘성대의 진동이 공기를 통해 전달돼 사람의 청각으로 지각되는 것'을 의미합니다. 기계가 음성을 인식하기 위해서는 우선 이 진동이 주기적으로 반복되는 수, 즉 주파수 분석을 해야 하는데요. 분석을 통해 특징이 추출되면, 미리 수집된 음성 모델 데이터베이스와 유사도를 측정해 가장 적합한 것을 '문자' 혹은 '명령어'로 변환하는 형태입니다. 


 <'전처리부'와 '인식부'로 구성된 음성인식 시스템(출처: Sensory)>


다시 말해, 음성인식 기술은 크게 ‘전처리’와 ‘인식’이라는 두 단계로 구성됩니다. 우선, 전처리에서는 사용자가 발성한 음성으로부터 인식 대상이 되는 구간을 찾아 잡음을 제거하고, 인식 과정을 위한 특징을 추출합니다. 그리고 그 이후부터는 일종의 패턴 인식 과정으로 볼 수 있는데요. 사람마다 목소리와 발음, 억양 등이 다르므로 다양한 환경에서의 통계적 정보를 추출하여 기준이 되는 패턴을 생성할 필요가 있기 때문입니다. 이후 실제로 음성이 입력되면 각각의 모델에서 어떤 패턴이 나올 수 있는 확률을 계산하고, 데이터베이스와 비교를 통해 가장 적합한 음성 단위를 찾아내는 것입니다.


예를 들어, ‘책을 읽다’는 [채글익따]로 발음되지만, 음성인식 시스템은 이 발음을 ‘책을 읽다’란 문장으로 바르게 인식합니다. 시스템은 기존에 저장되어 있던 데이터베이스를 통해 '을'과 '글'이라는 두 개의 후보 단어를 만드는데요. 문장 구조 분석을 통해 '을'이 문장에서 조사 역할을 담당한다는 것, 그리고 '글'이라는 조사는 존재하지 않는다는 것을 파악한 후, '을'을 선택하는 것입니다. 즉 데이터베이스에 저장됐던 어휘 및 문장 구조와 실제 음성의 비교를 통해 알맞은 문장을 인식한다고 볼 수 있습니다. 

 

앞서 음성인식 기술의 원리를 잠시 살펴보았는데요. 음성인식 기술은 친숙하고 편리하며, 이동 및 작업 중에도 상시 입력이 가능합니다. 또한 화자의 고유 정보를 바탕으로 개인 식별이 용이하고, 입력 속도가 빠르다는 장점이 있죠. 이러한 고유 특성과 범용성을 토대로 기존 CTI[각주:1] , 의료 특수 • 전문 분야의 TV, 휴대폰 등 일반 제품으로 응용 분야를 점차 확대하고 있습니다. 또한 인공 지능 등 다른 첨단 기술과의 융합으로 새로운 유형의 서비스와 비즈니스 창출에 일조하고 있습니다.


● 'CES 2015'의 화두가 되었던 자동차 음성인식 시스템

 <이동 및 작업 중에도 차량 제어가 가능한 음성인식 자동차>


자동차 회사들이 ‘CES 2015’에서 선보인 차량용 음성인식 기술들은 대단히 혁신적이었습니다. 음성인식 기술이 자동차의 신경조직으로 발전하면서, 운전자가 직접 손으로 조작하지 않아도 음성으로 자동차 안의 다양한 기능을 제어할 수 있는 것이죠. '가까운 이탈리아 식당으로 가자'라고 음성으로 명령을 내리면, 즉시 안내를 시작하는 자율 주행 시스템부터 웨어러블 기기와 연동되어 차량의 외부에서 음성인식을 통한 차량 찾기, 시동 걸기 등이 가능한 다양한 기술들이 소개되었습니다.


● 진화하고 있는 실시간 음성 번역 시스템

 

<언어 장벽을 극복하는 실시간 번역 서비스>


지난해 12월, 마이크로소프트(MS)가 화상 통화 서비스 '스카이프(Skype)'에 동시 통역 기능을 포함시킨 것에 이어, 구글은 지난 15일 이와 유사한 기능을 지원하는 한층 진화된 '구글 음성 번역 앱'을 발표했는데요. 이와 같은 기술은 대화를 시작할 때, 한 번만 언어 쌍을 선택하면 이후에는 자동으로 어떤 언어인지 탐지해 다른 언어로 표현해 줍니다. 뿐만 아니라 실시간 번역을 보장한 대화가 가능하여, 언어의 장벽을 허문다는 평가를 받고 있습니다. 현재는 일부 언어만 지원되지만, 앞으로는 지원 가능한 언어를 확대할 예정이라고 합니다. 


● 가정용 음성 비서 서비스

 <음성 비서 기능을 수행하는 아마존의 스마트 스피커 ‘에코’(출처: Amazon)>


최근, 아마존은 음성인식 기능이 탑재된 스마트 스피커 '에코'를 출시하였습니다. 애플의 '시리'와 흡사한 클라우드 기반 음성 비서 기능 '알렉사'가 내재된 거치형 제품입니다. 즉 스마트폰의 음성 비서 기능이 가정용 제품에 특화된 것이라고 볼 수 있는데요. 방이나 거실 등 웬만큼 거리가 떨어진 곳에서도 음성 인식이 가능하며, 정보/음악/뉴스/날씨 등을 물어보면 곧바로 알려 줍니다. 무엇보다도 학습 기능이 있어서, 사용자가 에코를 많이 쓰면 쓸수록 사용자의 말하기 패턴, 어휘, 개인적 선호 등을 기계가 잘 파악한다는 장점이 있습니다.  


 <음성인식 인터페이스 활용 목적 및 분야별 적용 사례(출처: NIPA)>


앞서 소개한 분야 이외에도 고객 응대, 물류, 의료, 금융 분야의 기업들이 음성인식 인터페이스를 채택하고 있는 상황인데요. 효율적인 데이터 처리를 통해 비용 절감, 업무 생산성 향상, 보안 강화의 목적을 이루기 위해서입니다. 또한 구글, 마이크로 소프트, 네이버, 다음 등 국내외 주요 포털 서비스들이 타사 서비스와 차별화를 위해 경쟁적으로 음성 검색 서비스를 제공하고 있는데요. 그로 인해, 일반 사용자의 높은 관심과 함께 기본 기능의 보편화가 급속히 이루어지고 있는 상황입니다.               

 

 <사물인터넷(Internet of Things)(출처: EMBEIFY BLOG)>


음성인식 서비스가 폭넓게 적용되기 위해서는 더욱 높은 수준의 기술 개발이 요구되는데요. 잡음과 섞인 음성의 정확한 인식, 다양한 억양과 성조의 구분, 표현의 의미를 자연스럽게 이해하는 능력 등 여전히 풀어야 할 문제들이 많기 때문입니다. 또한 오랜 시간에 걸쳐 익숙해진 키보드 및 마우스 등의 기존 입출력 인터페이스를 활용하던 사람들의 관성을 극복하는 것 역시 음성인식 서비스의 중요한 과제로 볼 수 있습니다.   


그러나 이러한 많은 제약에도 불구하고, 대부분의 전문가들은 다가올 사물인터넷(IoT) 시대에는 음성인식 서비스가 더욱 빠르게 성장할 것이라고 예상하고 있는데요. 기존의 PC 또는 스마트폰과 달리 각종 가전 기기와 사물을 제어하기 위해서는 음성 제어가 더욱 편리하기 때문입니다. 특히 차세대 IT 산업의 중심인 웨어러블 기기의 보급화를 위해서는 음성을 자연스럽게 인식하고 처리할 수 있는 기술의 탑재가 필수적입니다. 즉 음성인식 서비스의 성능은 웨어러블 기기 등 각종 사물인터넷 기기의 성공을 좌우하게 될 중요한 요인이 될 것입니다. 


물론, 아직까지는 인간의 능력이 기계를 앞서는 분야가 많습니다. 따라서 단기간 내에 음성인식 서비스가 전면적으로 확산되기는 어려울 것 같은데요. 하지만 빠른 기술의 발전 추세를 감안한다면, 머지 않아 충분히 활용 가능한 수준에 도달한 것이라고 생각합니다. 특히 상황 인지와 맥락의 해석, 자체적으로 생각하고 배울 수 있는 딥러닝(Deep Learning) 등 다양한 인공 지능 기술이 적용되면서, 미래에는 음성인식 서비스가 대부분의 산업에 필수적으로 적용될 것 같습니다. 또한 음성인식 서비스 시장의 선점을 위해 많은 기업들이 가세할 것으로 예상되는데요. 이러한 상황에서 대용량 음성 데이터를 보유하고, 효율적 처리 능력을 가진 기업의 시장 선점이 두드러질 것으로 보입니다.   



지금까지 음성인식 시스템의 원리, 구현 사례, 현재와 미래의 모습에 대해 함께 살펴보았습니다. 음성인식은 가장 직관적인 인터페이스라는 점에서 미래의 파급 효과가 엄청날 것으로 생각되는데요. 머지 않아 우리도 앞서 언급한 '알리바바와 사십 인의 도적' 이야기 속의 신비한 동굴처럼 , '문 열어! 닫아!'라는 명령어로 통제가 가능한 출입문을 사용하는 경험을 할 수 있을 것이라고 기대해 봅니다.   



  1. CTI(Computer Telephony Integration): 컴퓨터와 전화를 통합하여 정보 처리와 통신을 연결하는 기술로 은행, 보험사, 통신 회사 등의 콜센터에서 주로 사용하는 시스템이다. [본문으로]
Posted by IT로 만드는 새로운 미래를 열어갑니다 LG CNS

댓글을 달아 주세요

위로