본문 바로가기

IT Insight

오디오 AR은 무엇인가?

인간과 컴퓨터의 상호 작용에서 시각은 아주 중요합니다. 인터페이스에 직관성을 부여하고, 더 많은 대중이 컴퓨터를 쉽게 사용할 수 있도록 했습니다. 만약 아이콘이나 버튼 등 시각적 요소를 포함한 그래픽 사용자 인터페이스(Graphical User Interface; GUI)로의 이행이 없었다면, 여전히 컴퓨터와의 상호 작용은 명령 줄 인터페이스(Command line interface; CLI)로 이뤄졌을지 모릅니다. 물론 컴퓨터 인터페이스는 꾸준히 발전했으므로 그렇게 되진 않았으리라 생각합니다. 지금도 발전하고 있으니까요.


l 오디오 AR (출처: Sennheiser)


증강현실(Augmented Reality; AR)은 실제 환경에 가상의 객체를 표시하는 컴퓨터 그래픽의 한 분야입니다. 시각적인 기술이라는 거죠. 그래서 차세대 컴퓨터 인터페이스, GUI의 발전한 형태로 여겨지게 했습니다. 그런 이유로 많은 회사가 AR에 투자하고 있으며, 화면에 표시하는 게 아닌 눈앞에 표시해 상호 작용할 수 있게 안경 형태의 컴퓨터를 개발 중입니다.


하지만 두 가지 큰 난관이 있습니다. 첫 번째는 '경량화'입니다. 컴퓨터가 안경의 모습을 하더라도 항상 착용할 수는 없는 노릇입니다. 휴대에 있어서 기존 안경보다 수월하고, 오늘날 모바일 컴퓨팅의 중심인 스마트폰과 비교해서 편리해야 합니다. 그러므로 가볍고도 강한 소재와 소형화한 부품을 사용하면서도 AR 표현에 무리가 없을 만큼 강력한 성능을 지닐 수 있어야 합니다. 현재 산업 현장 중심으로 사용되는 안경형 컴퓨터는 그렇지 못하기 때문에 대중성이 떨어집니다.


두 번째는 '입력'입니다. 출시된 안경형 컴퓨터는 AR 조작을 위해 기기 본체의 버튼이나 센서 또는 별도의 리모컨을 사용합니다. 본체 조작은 직관성, 리모컨은 휴대성이 떨어집니다. 직관성과 휴대성을 모두 충족할 입력 방법이 필요하지만, 경량화와도 연결된 문제라 복합적으로 해결해야만 대중성을 확보한 안경형 컴퓨터가 등장할 수 있을 겁니다.


 '오디오 AR(Audio AR)'은 무엇일까?


AR은 오디오라는 단어가 어울리지 않는 시각적 기술인데, 어떻게 오디오와 엮이게 된 걸까요?


l AR 안경, 구 래스 엔터프라이즈 에디션 

(출처: https://www.blog.google/products/hardware/glass-enterprise-edition-2/)


오디오 AR이라는 용어는 작년 SXSW 2018(South by Southwest 2018)에서 보스(Bose)가 오디오 선글라스인 '보스 프레임(Bose Frames)'의 시제품을 선보인 후 본격적으로 사용되었습니다. 보스 프레임은 AR 그래픽은 표시하지 않는 오디오 AR 안경입니다. '머리를 들고, 손을 쓰지 않고, 귀를 놀라게 하는 삶을 제공할 기기'라는 게 보스의 설명입니다.


보스 프레임은 오디오 AR 플랫폼인 '보스 AR(Bose AR)'이 기반입니다. 개발자들은 플랫폼으로 보스 프레임뿐만 아니라 다른 보스 AR 기반 헤드폰에서 사용할 수 있는 앱을 개발할 수 있습니다. 보스는 '듣고, 볼 수 있는 멋진 것들로 가득 찬 세상에서 우리는 아래를 내려다보고, 화면을 응시하는 데에 너무 많은 시간을 쓴다.'라면서 기기를 보지 않고도 원하는 것을 얻게 할 목적으로 보스 AR을 개발했다고 밝혔습니다.


l 보스 프레임 (출처: https://www.bose.com/)


중요한 건 보스 프레임의 기반인 보스 AR입니다. 보스는 몇 가지 보스 AR 앱을 공개했습니다. '아이라(Aira)'는 시각장애인이 음성 정보로 일상적인 활동을 할 수 있게 돕는 스타트업이자 앱입니다. 동영상을 볼 수 있게 훈련한 요원은 보스 프레임을 착용한 시각장애인과 연결해 보이는 정보를 음성으로 전달합니다.


표지판이나 진열된 상품의 위치, 약의 용법 등 보거나 읽어야 하는 것들을 대신 보고서 읽어주는 거죠. 골퍼들을 위한 앱도 있습니다. '골프샷(Golfshot)'은 골퍼들이 다음 홀까지의 거리 등 정보를 음성으로 전달합니다. 45,000개의 골프장과 연결되어 12개 언어로 제공되고, 골프를 즐기는 중에 데이터를 기반해  끊임없이 조언합니다.


그 밖에 여러 앱이 있으며, 사례로 알 수 있는 건 '현실과 디지털 정보를 결합해 소리로 전달하는 것'이 보스가 말한 오디오 AR이라는 겁니다. 그런데 사실 우리는 이미 많은 정보를 소리로 듣습니다. 차량 내비게이션이나 지하철의 음성 안내와 같은 것들 말입니다. 그래서 초기에는 오디오 AR의 정의가 분명하지 않았습니다. 다만, 오디오 AR은 기존 음성 안내와는 달리 발전하고 있으며, 원인은 세 가지입니다.


 오디오 AR이 발전하는 세 가지 원인


먼저 '히어러블(Hearable)'입니다. 히어러블은 웨어러블 기기 중 귀에 착용하는 것의 세부 분류로 보스 프레임을 비롯해 애플의 무선 헤드폰인 에어팟(AirPods)이나 구글의 AI 헤드폰인 픽셀 버드(Pixel Buds) 등 기기를 의미합니다.


l 보스 AR 플랫폼 (출처: https://www.bose.com/)


이들 제품은 기존 헤드폰과 달리 착용해 음악을 듣는 것만 아니라 스마트폰의 알림이나 메시지를 전달하고, 가상 비서를 호출하는 좀 더 강화된 휴먼 인터페이스 장치이며, 오디오 AR은 히어러블로 주변의 소리에 관한 모든 것을 개인화해 컴퓨터와 상호 작용하는 수단입니다. 휴대하기 간편하고, 일찍 대중화한 카테고리라서 오디오 AR의 실현을 앞당겼습니다.


두 번째는 'AI 가상 비서'입니다. 애플의 시리(Siri), 아마존의 알렉사(Alexa) 등 가상 비서는 AI의 하위 분야인 자연어 처리 기술을 이용해 인간의 언어로 인간과 컴퓨터가 상호 작용할 수 있게 돕습니다. 입력과 출력에 마이크와 스피커만 요구되며, 별도의 조작 방법을 익히지 않아도 마치 대화하는 것처럼 상호 작용이 이뤄지므로 매우 직관적인 인터페이스입니다.


차량 내비게이션의 수동적인 음성 안내와 달리 사용자의 요구에 따라 능동적으로 결과를 낸다는 점에서 많은 정보를 가상 비서와 연결한다면, 현실에 관여하는 정보를 히어러블로 지속해서 받아들일 수 있습니다.


세 번째는 'AR과의 결합'입니다. 현실과 구분하기 쉽지 않을 만큼 정교한 기술로 AR이 발전하는 단계에서 개발자들은 시각 정보에만 의존할 수 없다는 걸 깨달았습니다. 예컨대, 전방이 아닌 후방처럼 사각의 정보는 눈으로만 파악할 수 없죠. 후방을 바라보도록 하는 그래픽 표시 등 방법은 있으나 사람의 가장 빠른 반응을 끌어낼 수 있는 건 소리입니다.


그리하여 AR 분야에 객체의 움직임이나 거리감을 느낄 수 있는 3차원 음향 기술의 필요성이 증가했습니다. 문제는 상기한 것처럼 스마트폰이 아닌 AR만의 전용 기기가 대중화하기에는 많은 시간이 필요하다는 거죠.


하지만 히어러블과 직관적인 음성 인터페이스의 발전은 앞서 있습니다. 따라서 궁극적인 AR의 도입 전에 시각 요소를 제거하고, 소리만으로 AR을 빠르게 개발해 플랫폼을 선점하는 것에 기업들이 중점을 두게 되었습니다.


l 애플 에어팟 (출처: https://www.apple.com/airpods/)


이런 원인으로 보스 프레임 직후 오디오 AR은 '듣는 것으로 현실의 정보를 얻는다.'라는 정도의 마케팅 용어로 그쳤지만, 현재는 '히어러블과 AI 가상 비서로 계속 착용한 채 마이크와 스피커로 상호 작용하는 인터페이스이자 3차원 음향 기술을 이용해 귀를 통해 디지털 정보와 현실을 결합하는 기술'로 정의하고 있습니다.


 오디오 AR의 발전 양상


오디오 AR의 발전 양상은 음향 기기 전문 제조사인 젠하이저(Sennheiser)와 AR 헤드셋 개발사인 매직 리프(Magic Leap)가 잘 보여줍니다. 젠하이저는 매직 리프와 협력해 AR 경험에 실제 소리와 가상의 소리를 혼합하는 기술을 선보였습니다.


예를 들면, 가상의 폭포에 다가갈수록 폭포수의 떨어지는 소리가 크게 들리거나 공을 던져서 멀리 있는 가상의 창문을 깨면 그 거리를 느낄 수 있게 하는 것입니다. 이로써 AR 헤드셋 착용자는 실제 소리와 가상의 소리를 구분하지 않고 인식할 수 있습니다.


l 젠하이저 증강 오디오 (출처: Sennheiser)


나아가서 젠하이저는 3D 음향 기술의 오디오 엔진을 개발자들에게 지원하는 'AMBEO 증강 오디오 SDK(AMBEO Augmented Audio SDK)'를 출시했습니다. AMBEO 증강 오디오 SDK를 활용하면, 애플의 AR 킷(AR Kit) 등 플랫폼으로 개발한 AR 앱에 3D 음향 기술을 추가할 수 있고, 사람은 시각 전에 청각으로 가상 세계를 먼저 인지하게 될 것입니다.


현실과 결합하는 AR 게임을 예로 들어보죠. 히어러블을 착용한 사람이 걷는 중에 게임의 특정 요소가 자신의 뒤에 나타났다는 걸 소리로 인지합니다. 관련한 안내 음성이 함께 들리고, 주머니 속 스마트폰을 꺼내서 AR 게임 앱을 실행해 카메라로 뒤를 비추면 화면으로 요소를 확인하는 거죠. 이를 활용하면 게임만 아니라 마케팅이나 광고, 스포츠 경기, 여행, 교육 등 분야의 몰입형 경험을 강화할 수 있을 거로 전망합니다.


시장 조사 업체 컴스코어(Comscore)는 2023년 구글 검색의 절반 이상이 타이핑이 아닌 음성으로 이뤄질 거로 예측했습니다. 또 다른 시장 조사 업체인 퓨처소스 컨설팅(FutureSource Consulting)는 2023년까지 히어러블 시장이 730억 달러 규모로 성장하리라 평가했습니다. 그만큼 음성 인터페이스의 역할이 커질 거라는 의미입니다. 빠른 발전 속에 오디오 AR은 명령과 제어 중심의 현재 음성 인터페이스를 넘어서 훨씬 광범위한 소리를 전달하게 될 겁니다.


시장 조사 업체 포레스터(Forrest)는 '더는 가상 비서들이 사용자에게 불릴 때까지 침묵하지 않을 것'이라면서 '그들은 종일 필요한 순간에 지능적으로 간섭해사용자의 생각과 행동에 영향을 끼칠 것'이라고 말했습니다. 실제로 아마존은 2017년부터 가상 비서 알렉사가 스스로 사람에게 말을 걸도록 개발하고 있습니다. 이런 동향으로 '침실의 조명을 꺼줘.'라고 직접 명령해야 했던 것이 센서가 탑재된 침대에 누웠을 때 '조명을 꺼드릴까요?'라고 가상 비서가 먼저 묻는 등 현실에 간섭하는 아이디어로의 발전으로 이어지고 있습니다.


오디오 AR은 완전 AR(Full AR)보다 앞서 등장합니다. 그러나 AR의 발전으로 오디오 AR이 사라지진 않은 겁니다. 안경형 컴퓨터를 항상 착용할 수 없다면, 착용에 덜 불편한 히어러블과 오디오 AR이 우선이고, 소리로 가상 세계를 인지했을 때 안경을 착용해 시각 정보를 확인하는 쪽으로 UI가 발전하리라는 의견도 존재합니다.


비유하자면, 오디오 AR은 스마트폰의 잠금 화면이고, AR은 잠금을 해제했을 때의 스마트폰 화면인 거죠. 실제와 가상을 구분하기 어려울 정도로 현실에 관여하는 오디오 AR은 미래의 AR 경험을 더욱 풍부하게 만들어 줄 핵심 기술이 될 것입니다.


글 l 맥갤러리 l IT 칼럼리스트


* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.