본문 바로가기

IT Solutions/IoT

따뜻한 말 한마디, 그리고 IoT

지난 10월 9일 한글날이었는데요. 한글날을 맞이하여 말과 IoT에 대해 살펴보겠습니다. 


1980년대 미드보다 외화라는 말이 더 친숙하던 시절, “전격 Z작전”은 인공지능 자율 주행 Smart Car 키트가 주인공 마이클과 함께 악당을 소탕하는 내용의 TV 드라마로 “도와줘, 키트”가 한반도를 강타했었습니다.


마이클이 Smart Watch에 탑재된 마이크를 통해 구동어(wake-up word)인 “도와줘, 키트”라고 말하면 마이클의 음성을 들을 준비를 하고, 이후 인식되는 음성데이터에 대한 Voice Visualization을 제공하고, Speech-To-Text를 통해 키트는 마이클의 명령을 인식하게 됩니다.


각종 센서들로 데이터를 수집하고, 이를 분석한 키트는 Text-To-Speech를 통해 마이클에게 답변을 하고 그를 돕기 위한 일련의 Behavior(차량 내 Device 제어, 자율 주행 등)를 수행합니다.


 인공지능 비서 서비스



Facebook의 최고경영자인 마크 저커버그(Mark Zuckerberg)는 올해 초 신년 계획으로 자비스 같은 인공지능 비서를 만들겠다고 밝혔었는데요. 자비스는 영화 아이언맨의 주인공 토니 스타크의 지시를 정확하게 따르고 농담까지 건네는 인공지능 비서 서비스입니다.


이렇게 주인공을 돕는 인공지능 비서 서비스에는 사용자의 음성을 듣고 적절한 답변을 줄 수 있는 음성 인식 기술이 있습니다. 


음성이야말로 사람이 공간, 시간, 문제 해결 등에 집중한 상태로 사용할 수 있는 인터페이스로, IoT 비즈니스 영역에 적용되는 사람에게 가장 친숙한 인터페이스의 한 분야로 손꼽히고 있습니다.

 


인공지능 운영체제와 사랑에 빠지는 영화 Her는 스칼렛 요한슨이 목소리만으로 로마국제영화제에서 여우주연상을 수상하여 이슈가 되기도 했었죠. 만약 그녀가 연기한 OS 사만다의 인터페이스가 음성이 아닌 UI만으로 구성되었다면, 주인공 테오도르가 사랑에 빠질 수 있었을까라는 생각이 듭니다.


매년 가트너(Gartner)에서는 10대 전략 기술을 선정하여 발표하고 있으며, ‘2016년 10대 전략 기술’에는 ‘지능형 기기(Autonomous Agents and Things)’가 포함되었습니다. 


l 2016년 10대 전략 기술 (출처: https://goo.gl/4QZCir)


블로터닷넷은 가트너 ‘2016년 10대 전략 기술’ 발표를 전하였습니다. 기계학습이 발전할수록 인공지능 로봇, 무인자동차, 음성 인식 기술 등도 함께 성장하고 있음을 언급하였고, 구글의 ‘구글 나우’, 마이크로소프트의 ‘코타나’, 애플의 ‘시리’같은 음성 인식 서비스가 더욱 똑똑해지고 있으며, 이러한 서비스가 지능형 기기 기술을 이끄는 선구자가 될 것으로 평가했다고 전했습니다.

그 외에도 Amazon Echo, Google Home, SKT NUGU와 같은 스마트 스피커가 앞다퉈 출시하여 가정 내 IoT 디바이스 제어 및 날씨, 알람 등 인공지능 비서로서의 역할에도 인터페이스로 음성 인식 기술이 선택되고 있습니다.
 

l 스마트 스피커 (출처: Amazon Echo https://www.amazon.com

Google Home https://home.google.com / SKT NUGU http://www.nugu.co.kr/main)



이러한 음성 인식 기술의 구성은 아래 그림과 같습니다.

l 음성 인식 기술의 구성


사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 텍스트 데이터로 변환하는 것을 Speech-To-Text라고 하고, 이와 반대로 텍스트 데이터를 사람이 이해할 수 있는 음성 언어로 변환하는 것이 Text-To-Speech입니다.


이러한 음성 인식 관련 기능을 제공하는 음성 인식 엔진 중 한국어가 가능한 몇 가지 엔진을 살펴보겠습니다.


 다양한 음성 인식 기술


① Google ‘Cloud Speech API’

 

l 구글 Cloud Speech API (출처: https://cloud.google.com/speech/)


구글은 클라우드 플랫폼 중 하나의 서비스로 음성 인식을 위한 Cloud Speech API를 제공합니다. 현재 Google Now과 Google 검색에도 적용되어 있으며, 한국어를 포함한 80개 이상의 언어를 지원합니다. 실시간 스트리밍 인식뿐 아니라 파일 업로드를 통한 일괄처리도 가능합니다. 


Google Cloud로 파일을 업로드하여 REST 또는 gRPC 요청이 가능한 여러 디바이스에서 Google ‘Cloud Speech API’를 사용하여 개발이 가능합니다. (예: 스마트폰, PC, 태블릿, IoT 디바이스 등)

 

② Daum ‘뉴톤(Newtone)’, 뉴톤톡(Newtone Talk)

 

l 다음 뉴톤 (출처: http://developers.daum.net/services/apis/newtone/)

 

Daum Developers에서 오픈 API로 제공하는 기능은 크게 2가지입니다. 뉴톤(Newtone)은 대화형•웹 검색형•지도형 등의 음성 인식(Speech-To-Text) API이고, 뉴톤톡(Newtone Talk)은 문자 데이터를 사람이 이해할 수 있도록 음성 언어로 변환(Text-To-Speech) 해주는 API입니다. 자연스러운 말소리를 출력하기 위해 남성•여성 화자의 음색을 선택할 수 있습니다. 

REST API는 제공하지 않으므로, 제공하는 SDK를 활용하여 Android 및 iOS 등에서 개발 가능합니다.
 
③ Naver ‘음성 인식’, ‘음성 합성'
 
Naver 음성 인식은 소켓 통신을 통한 스트리밍 형태로 서버에 전달하여 텍스트로 변환해주는 API로, 2개 언어(한국어, 영어)를 지원합니다. REST API는 제공하지 않고, 자체 프로토콜을 구현한 SDK를 제공하고 있으며, 현재는 Android 버전만 제공되고 있으며, 추후 ios용 SDK도 제공될 예정입니다.

음성 합성은 4개 언어(한국어, 영어, 일본어, 중국어)에 대해 성우의 낭독 음성으로 합성해주는 REST API를 제공합니다.
 

④ Nuance ‘SpeechKit 2’

 

국내에서도 삼성 스마트 TV뿐만 아니라, 현대자동차의 i40, 기아자동차의 레이 및 프라이드 등 자동차 시장을 석권한 Nuance 음성 인식 엔진은 소프트뱅크의 '페퍼(Pepper)'에도 탑재되어 한국어 서비스가 가능합니다.

 

l Nuance speech kit (출처: https://goo.gl/tk9m6O)


실시간 스트리밍 인식뿐 아니라 파일 업로드를 통한 일괄처리도 가능하고, 자체 프로토콜을 이용한 SDK와 REST API를 함께 제공합니다. Text-To-Speech 시 TTS 제어 시퀀스 통해 입력 텍스트의 끊어 읽기나 말하기 속도, 억양 등을 변경할 수 있는 기능을 제공합니다.


 음성 인식 기술에 IoT 서비스 적용을 위한 과제


이러한 음성 인식 기술이 다양한 IoT 서비스에 적용되어 사람의 지시를 정확하게 인식하기 위해서는 몇 가지 과제가 있습니다.

 

① 음성 데이터베이스 축적

 

사람마다 다른 억양, 연령대, 성별을 비롯하여, 다양한 어휘 및 표현에 대한 충분한 화자를 확보하여 음성 샘플 데이터를 충분하게 축적하고 학습시켜야 합니다. 음소나 음운현상을 고려하여 인식을 하더라도, 이러한 음운현상과 달리 사람들이 흔히 잘못 발음하는 단어•문장에 대한 데이터베이스가 확보되어야 인식률을 높일 수 있습니다.


예)

  • 밟다: [밥ː따]가 맞는 발음이지만 [발따]로 대부분 발음

  • 효과: [효과]가 맞는 발음이지만 [효꽈]로 대부분 발음

  • 알맞은: [알맞은]이 맞은 맞춤법이지만 [알맞는]으로도 맞춤법이 틀리게도 사용됨


② 미등록어에 대한 대응
 
음성 인식 엔진 초기 개발 시점엔 없었거나 잘 쓰이지 않았던 유행어, 신조어, 사투리, 채팅어, 줄임말, 외래어 등은 계속 등장하게 됩니다. 축적된 음성 데이터베이스에 등록되지 않은 미등록어를 사용자가 사용하게 되면 음성 인식 엔진은 데이터베이스의 단어 가운데 가장 근접한 것을 매칭하여 변환하게 되는데, 이렇게 변환된 텍스트에서 오인식이 발생할 확률이 높습니다.
 
③ 잡음의 분리
 
조용한 실내에서만 음성 인식 기술을 사용하는 것이 아닙니다. 음성 인식 기술의 장점이 이동 중에도 신속한 지시나 입력이 가능하므로, 버스나 지하철, 사람이 많은 쇼핑몰, 소음이 심한 도심 한복판 등 IoT 기술이 적용될 수 있는 모든 환경에서 음성 인식률의 정확도를 높여나가는 작업이 필요합니다.
 


지금까지 음성 인식 기술을 살펴봤습니다. 음성 인식 기술은 IoT 서비스를 편리하게 이용하기 위한 기술 중 하나기도 하지만, IT 디바이스 조작이 익숙하지 않은 노인과 장애우에게 도움을 주는 따뜻한 매개체로도 활용될 수 있습니다. 따뜻한 말 한마디로 사람을 더 이롭게 하는 IoT 서비스 세상을 기대해봅니다.


글 ㅣ LG CNS IoT사업담당


* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.