유승화 아주대 명예교수
유승화 아주대 명예교수
유승화 아주대 명예교수


최근 미국 시장조사업체 IDC는 세계 사물인터넷시장이 2013년 1조9000억 달러(약 2173조 원)에서 2020년 7조1000억 달러(약 8122조 원)로 성장할 것으로 예상한다. 터치스크린을 계기로 스마트폰시장이 촉발됐듯이 사물인터넷시장에서 더 편리하고 자연스럽고 감성에 호소할 수 있는 사용자 인터페이스(User Interface)에 대한 요구가 증가하는 추세다. 최근 상황을 이해하고 상호 대화하는 음성인식 서비스로 진화가 예상된다. 스마트기기, 네트워크, 컴퓨팅기술의 발전과 더불어 대규모 음성데이터 축적으로 음성인식률 정확도가 향상되고 있다. 따라서 자동차, 가전, 물류, 의료, 금융 등 다양한 사물인터넷시장 분야에서 편의성, 생산성 향상 등을 목적으로 사용될 것으로 예상된다. 음성인식 인터페이스는 향후 의미(Semantic) 분석 등의 인공지능 기술과 융합해 고객 친화적인 대화형 서비스를 제공하는 방향으로 발전할 것이다. 음성인식기술은 크게 모델을 학습하는 단계, 학습된 모델을 이용해 인식하는 단계로 구분되고, 음향 및 언어모델을 학습할 수 있는 기술이 지능형 음성인식의 핵심이다. 최근 전체 네트워크 최적화를 통해 속도, 성능을 향상시킨 wFST(weighted Finite State Transducer) 기술과 컴퓨팅 파워의 향상에 기반으로 한 DNN(Deep Neural Network) 기술이 가장 주목 받고 있다. 하드웨어 발전과 더불어 대용량의 데이터를 처리하는 서버 기술의 발전으로 대용량의 데이터를 빠르게 처리할 수 있는 능력이 기술발전 속도를 더하고 있다.

전 세계적으로 글로벌 기업들이 음성인식기술 확보를 위해 인수합병 및 전략적 제휴 등이 활발히 움직이고 있다. 뉘앙스(Nuance)는 퍼세이(Persay), 블링고(Blingo), SVox 등을 인수하고 음성인식 프로그램(Dragon natural speaking) 서비스를 제공하고, 시리, 아마존, 삼성 등에 음성인식, 언어처리솔루션을 공급한다. 애플은 시리와 노바리우스를 인수하고 시리 및 카 플레이 서비스를 제공하고 마이크로소프트의 알렉스 에이스로(Alex Acero)를 영입해 자체개발 추진 중이다. 애플의 시리 공개 이후 경쟁적으로 구글 나우, 뉘앙스 니나(Nuance Nina), 삼성 S보이스, 네이버 링크, 안드로이드 API, 유튜브 캡션 등 음성인식 서비스가 줄줄이 출시되고 있다. 마이크로소프트는 마이크로 리서치(Microsoft research)를 설립하고 코타나(Cortana), 빙 모바일(Bing mobile) 검색 서비스 확산을 위한 목적으로 개발하고 있다. 바이두는 중국어 음성검색 서비스를 제공하고 딥 러닝 랩(Deep learning Lab), 빅 데이터 랩(Big data Lab)과 AI Lab을 설립하고 스탠포드의 앤드류 응(Andrew Ng)을 영입했다. 페이스북은 지능형 비서 M 서비스를 제공하고 뉴욕(New York) 대학의 얀 르컨(Yann Lecun)을 영입하고 지비고(Jibbigo), Wit.at 등 음성통역, 대화 에이전트 관련업체를 인수하고 자체 개발을 병행하고 있다. 아마존은 에코 알렉사(Echo Alexa) 서비스를 제공하고 초기 뉘앙스의 엔진을 사용했지만 Yap, Inova, Evi를 인수해 현재는 직접개발중이다. 아마존은 좋은 반응을 얻은 알렉사를 자사 태블릿 시리즈에 적용할 예정이다. 아마존은 이미 알렉사를 프랑스의 주방용 음성비서 트리바이, 자동차 포드에 제공하고 있다. 최근 제네시스 EQ900을 시작으로 커넥티드 카 기능도 제공하고 아마존의 쇼핑 서비스와 연동되어 필요한 물건을 바로 구매할 수 있다. 구글은 구글 랩에서 자체개발하고 토론토 대학의 지 힌턴(G. Hinton)을 영입하고 딥마인드(DeepMind)를 인수했다. 최근 구글 어시스턴트(Google assistant)가 탑재된 구글 홈을 출시했다. 구글은 앞으로 네스트 온도조절장치를 통해 PC, 스마트폰와의 상호작용을 통해 사용자 가정의 패턴을 인식하고 다양한 서비스를 제공할 계획이다. 삼성은 최근 인수한 VIV 랩의 개방형 AI 플랫폼을 이용해 갤럭시S8을 시작으로 스마트폰뿐 아니라 TV, 냉장고 등 모든 기기와 서비스를 인공지능 대화형 서비스로 연결할 계획이다. 시리와 달리 VIV의 개방형 플랫폼을 통해 외부 개발자의 참여를 유도해 개방형 생태계를 구축하겠다는 전략이다. LG는 구글 음성인식기와 자체언어처리 기술을 이용해 큐 보이스 서비스를 가전 등에 주로 적용 중이다. NTT 도코모는 어드밴스 미디어의 아미보이스(AmiVoice) 엔진을 통한 샤베떼 콘셰르(Shabette concier) 서비스를 제공하고 자체 개발하고 있다.

이러한 적극적인 음성인식 서비스 개발은 향후 사물인터넷 플랫폼 시장을 선점하기 위한 사용자 인터페이스 확보를 위한 것이다. 음성은 사용자의 요구를 가장 직관적으로 빠르게 표현하며, 복잡한 어플리케이션을 찾기 및 다단계 입력 프로세스를 단축시킬 수 있다. 인간과 기계간 대화체로 자연스러운 소통과 의미인식 서비스로 진화할 수 있다. 현재 디바이스 제어용 기능에서, 상황인식과 사용 이력을 기반으로 일생생활에서 필요로 하는 비서 서비스로 확대할 것이다. 다양한 서비스들과 연계돼 음성으로 영화표를 예약하고 음식을 주문할 수 있고 지역의 날씨 정보와 교통 체증, 캘린더에 있는 예정 스케줄을 알려주기도 한다. 특히 비서 서비스는 검색엔진과 빅데이터와 연동돼 풍부한 지식을 가지고 있고, 상황 인식 기능을 통해 이용자의 선호도와 취미까지 파악할 수 있다. 사용자가 선호하는 스포티파이 음악 서비스와 판도라와 연계할 수 있고, 피자를 주문할 수 있으며 우버도 부를 수 있으며 앞으로 가능성은 무궁무진할 전망이다.

현재 애플 시리, 아마존 알렉사, 구글 홈 등이 시장에 선두 제품으로 나와 있지만 완성도면에서 아직 미흡하다. 현재 이러한 서비스들은 다루는 것이 마치 초등학교 학생을 다루는 것과 같다. 사용자가 상호 대화하는 방식이 아니라 서비스 기기가 이해하는 방식으로 대화해야 한다. 또한 전혀 예상치 못한 답변을 받을 수 있으며 사용자가 가능하다고 생각되는 일들이 불가능할 수도 있다. 그러나 앞으로 지속적인 연구 개발로 발전되겠지만 이러한 인공지능비서 서비스는 생활의 일부로 편리하며 필수 서비스인지 여부는 불특정 사용자들의 판단에 따라 결정된다. 인간 비서 서비스를 제공받는 것 같이 고객 친화적인 대화형 서비스로 추진돼야 킬러 애플리케이션이 될 것이다. 향후 사물인터넷 시대에는 사용자의 이러한 요구사항을 만족시키는 똑똑한 인공지능비서 서비스를 누가 제공하는가에 따라 승자가 결정될 것이다.

[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0