지난 10월 9일 한글날이었는데요. 한글날을 맞이하여 말과 IoT에 대해 살펴보겠습니다.
1980년대 미드보다 외화라는 말이 더 친숙하던 시절, “전격 Z작전”은 인공지능 자율 주행 Smart Car 키트가 주인공 마이클과 함께 악당을 소탕하는 내용의 TV 드라마로 “도와줘, 키트”가 한반도를 강타했었습니다.
마이클이 Smart Watch에 탑재된 마이크를 통해 구동어(wake-up word)인 “도와줘, 키트”라고 말하면 마이클의 음성을 들을 준비를 하고, 이후 인식되는 음성데이터에 대한 Voice Visualization을 제공하고, Speech-To-Text를 통해 키트는 마이클의 명령을 인식하게 됩니다.
각종 센서들로 데이터를 수집하고, 이를 분석한 키트는 Text-To-Speech를 통해 마이클에게 답변을 하고 그를 돕기 위한 일련의 Behavior(차량 내 Device 제어, 자율 주행 등)를 수행합니다.
Facebook의 최고경영자인 마크 저커버그(Mark Zuckerberg)는 올해 초 신년 계획으로 자비스 같은 인공지능 비서를 만들겠다고 밝혔었는데요. 자비스는 영화 아이언맨의 주인공 토니 스타크의 지시를 정확하게 따르고 농담까지 건네는 인공지능 비서 서비스입니다.
이렇게 주인공을 돕는 인공지능 비서 서비스에는 사용자의 음성을 듣고 적절한 답변을 줄 수 있는 음성 인식 기술이 있습니다.
음성이야말로 사람이 공간, 시간, 문제 해결 등에 집중한 상태로 사용할 수 있는 인터페이스로, IoT 비즈니스 영역에 적용되는 사람에게 가장 친숙한 인터페이스의 한 분야로 손꼽히고 있습니다.
인공지능 운영체제와 사랑에 빠지는 영화 Her는 스칼렛 요한슨이 목소리만으로 로마국제영화제에서 여우주연상을 수상하여 이슈가 되기도 했었죠. 만약 그녀가 연기한 OS 사만다의 인터페이스가 음성이 아닌 UI만으로 구성되었다면, 주인공 테오도르가 사랑에 빠질 수 있었을까라는 생각이 듭니다.
매년 가트너(Gartner)에서는 10대 전략 기술을 선정하여 발표하고 있으며, ‘2016년 10대 전략 기술’에는 ‘지능형 기기(Autonomous Agents and Things)’가 포함되었습니다.
l 스마트 스피커 (출처: Amazon Echo https://www.amazon.com /
Google Home https://home.google.com / SKT NUGU http://www.nugu.co.kr/main)
이러한 음성 인식 기술의 구성은 아래 그림과 같습니다.
l 음성 인식 기술의 구성
사람이 말하는 음성 언어를 컴퓨터가 해석해 그 내용을 텍스트 데이터로 변환하는 것을 Speech-To-Text라고 하고, 이와 반대로 텍스트 데이터를 사람이 이해할 수 있는 음성 언어로 변환하는 것이 Text-To-Speech입니다.
이러한 음성 인식 관련 기능을 제공하는 음성 인식 엔진 중 한국어가 가능한 몇 가지 엔진을 살펴보겠습니다.
① Google ‘Cloud Speech API’
l 구글 Cloud Speech API (출처: https://cloud.google.com/speech/)
구글은 클라우드 플랫폼 중 하나의 서비스로 음성 인식을 위한 Cloud Speech API를 제공합니다. 현재 Google Now과 Google 검색에도 적용되어 있으며, 한국어를 포함한 80개 이상의 언어를 지원합니다. 실시간 스트리밍 인식뿐 아니라 파일 업로드를 통한 일괄처리도 가능합니다.
Google Cloud로 파일을 업로드하여 REST 또는 gRPC 요청이 가능한 여러 디바이스에서 Google ‘Cloud Speech API’를 사용하여 개발이 가능합니다. (예: 스마트폰, PC, 태블릿, IoT 디바이스 등)
② Daum ‘뉴톤(Newtone)’, 뉴톤톡(Newtone Talk)
l 다음 뉴톤 (출처: http://developers.daum.net/services/apis/newtone/)
④ Nuance ‘SpeechKit 2’
국내에서도 삼성 스마트 TV뿐만 아니라, 현대자동차의 i40, 기아자동차의 레이 및 프라이드 등 자동차 시장을 석권한 Nuance 음성 인식 엔진은 소프트뱅크의 '페퍼(Pepper)'에도 탑재되어 한국어 서비스가 가능합니다.
l Nuance speech kit (출처: https://goo.gl/tk9m6O)
실시간 스트리밍 인식뿐 아니라 파일 업로드를 통한 일괄처리도 가능하고, 자체 프로토콜을 이용한 SDK와 REST API를 함께 제공합니다. Text-To-Speech 시 TTS 제어 시퀀스 통해 입력 텍스트의 끊어 읽기나 말하기 속도, 억양 등을 변경할 수 있는 기능을 제공합니다.
이러한 음성 인식 기술이 다양한 IoT 서비스에 적용되어 사람의 지시를 정확하게 인식하기 위해서는 몇 가지 과제가 있습니다.
① 음성 데이터베이스 축적
사람마다 다른 억양, 연령대, 성별을 비롯하여, 다양한 어휘 및 표현에 대한 충분한 화자를 확보하여 음성 샘플 데이터를 충분하게 축적하고 학습시켜야 합니다. 음소나 음운현상을 고려하여 인식을 하더라도, 이러한 음운현상과 달리 사람들이 흔히 잘못 발음하는 단어•문장에 대한 데이터베이스가 확보되어야 인식률을 높일 수 있습니다.
예)
밟다: [밥ː따]가 맞는 발음이지만 [발따]로 대부분 발음
효과: [효과]가 맞는 발음이지만 [효꽈]로 대부분 발음
알맞은: [알맞은]이 맞은 맞춤법이지만 [알맞는]으로도 맞춤법이 틀리게도 사용됨
지금까지 음성 인식 기술을 살펴봤습니다. 음성 인식 기술은 IoT 서비스를 편리하게 이용하기 위한 기술 중 하나기도 하지만, IT 디바이스 조작이 익숙하지 않은 노인과 장애우에게 도움을 주는 따뜻한 매개체로도 활용될 수 있습니다. 따뜻한 말 한마디로 사람을 더 이롭게 하는 IoT 서비스 세상을 기대해봅니다.
글 ㅣ LG CNS IoT사업담당
['IoT로 변화하는 세상' 연재 현황]
* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.
* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.

'IT Solutions > IoT ' 카테고리의 다른 글
재난과 안전, IoT로 대비한다. (1) | 2016.12.01 |
---|---|
우리 건강을 책임지는 IoT (0) | 2016.11.08 |
IoT가 인테리어를 만났을 때! (0) | 2016.09.05 |
IoT 플랫폼(Platform)의 모든 것! (0) | 2016.08.01 |
우리 삶의 새로운 패러다임 IoT (0) | 2016.07.11 |