끝점 검출기술 뒷받침돼야 완벽 구현
많은 어휘 확보ㆍ음향모델 변별기능 높아져야
ETRI, 권역별 행선지 인식방식 제품 선보여

1980년대 텔레비전을 통해 방송된 '전격 Z작전'이라는 미국 드라마는 당시 미래 음성인식기술의 발전방향을 단적으로 보여주기에 충분했습니다.

드라마의 주인공 마이클이 자신이 차고 있는 손목시계에 대고 "키트(자동차명), 빨리 와 줘!"라고 말하면 키트가 이를 인식해 스스로 작동해 주인공이 있는 곳으로 어느새 등장해 곤경에 처한 주인공을 태우고 탈출하던 장면이 떠오르기도 하는데요.

상상으로만 가능했던 일이 20여년이 지난 지금, 우리 삶 속에 들어와 그리 낯설지 않게만 느껴집니다. 그야말로 '말 누리는 편리한 세상'이 열린 것인데요. 이를 가능케 한 것은 바로 음성언어기술의 발전 덕분입니다. 구체적으로 설명하면 운전자의 음성을 알아듣고 스스로 운전할 수 있는 키트에는 텔레매틱스 서비스와 음성 인터페이스 기술이 결합됐기 때문이라 할 수 있습니다.

이러한 음성 인터페이스 기술과 텔레매틱스 서비스에 관한 연구는 이미 수십 년 전부터 진행돼 왔습니다. 그 가운데 일부는 실제 생활에 적용되고 있는데, 인공위성을 이용한 차량항법장치인 '내비게이션 서비스'가 대표적이라 할 수 있습니다.

◇음성인식기술을 적용한 내비게이션 서비스=위치 추적용 인공위성에서 보낸 위치측정시스템(GPS) 신호를 자동차의 수신 단말기가 받아 원하는 곳까지 안전하게 안내하고 있습니다.

대부분의 단말기는 목적지 전체 이름을 입력하는 방식과 목적지의 초성자음만 입력하는 방식, 목적지 주소를 입력하는 방식으로 돼 있는데요.

예를 들어 대전의 '한국전자통신연구원'을 찾아가려면 '한국전자통신연구원' 이름 전체를 입력하거나 'ㅎㄱㅈㅈㅌㅅㅇㄱㅇ'처럼 초성 자음만 넣는 방법 또는 '대전 유성구 가정로 138'처럼 주소를 기입하는 식으로 할 수 있습니다.

그러나 대부분의 내비게이션 단말기가 터치 스크린을 기본 입력장치로 사용하고 있는데, 사용법을 익혀야 하는 불편함은 물론 운전 중에는 조작하기 어렵다는 문제를 안고 있습니다.

때문에 내비게이션을 사용하는 사람들은 음성으로 목적지를 찾는 기술에 목말라 하고 있는데요. 하지만 상대적으로 낮은 사양의 하드웨어를 사용하는 내비게이션의 특성상 아직까지는 음성인식기술을 탑재하기가 그리 쉽지 않은 상황입니다.

현재 시중에 판매되고 있는 내비게이션의 사양은 일반 컴퓨터보다 6배 정도 느린 프로세스와 10배 가량 적은 메모리 용량을 갖고 있음에도 오히려 8배 정도 많은 단어를 인식해야만 음성인식기술을 접목할 수 있습니다.

결국 낮은 사양의 내비게이션 단말기를 고려한 빠르고 많은 어휘를 담은 음성인식기술이 개발돼야 한다는 것인데요. 이와 함께 내비게이션 단말기용 고속 프로세서가 개발되더라도 음성인식 성능을 높이기 위해 잡음과 음성을 분리, 인식할 수 있는 기술까지 함께 발전해야 합니다.

또한 자동차 내부에는 갖가지 소음과 운전자가 바뀌거나 그날 기분, 컨디션, 목소리 상태 역시 시시때때로 달라지는 등 여러 환경 변화에 대처할 수 있는 음향모델에 대한 변별 적응기법이 적용되고 있는데요. 이 방법은 차종에 따라 소규모로 적응되는 음성 데이터베이스를 구축하고 이를 사용해 기존 음향모델이 취약한 오류 패턴을 분석해 변별력을 높입니다.

◇음성 인식성능 향상의 관건 '끝점검출 기술'=음성 인식성능에 크게 영향을 미치는 한 요소는 끝점 검출과정인데요. 음성인식 내비게이터가 설치돼 있는 자동차의 계기판은 차 안에서도 잡음이 가장 심합니다. 그래서 끝점 검출기술이 받쳐주지 않으면 음성인식이 사실상 어렵습니다. 또한 조용한 차 안이라도 동적 잡음이 발생해 끝점 검출이 쉽지 않은데요. 이러한 동적잡음을 얼마나 잘 제거하느냐가 끝점 검출의 성능을 좌우한다 해도 과언이 아닙니다.

지금까지 개발된 끝점 검출기술은 잡음기술을 효과적으로 제거하는 음성개선 모듈을 기반으로, 에너지 레벨을 기준으로 1차 음성 시작부분을 찾고 일정 구간 내에 유성음의 비율을 계산해 최종 음성의 시작점을 결정하게 됩니다. 음성의 끝부분에서도 비슷한 방법으로 끝점을 결정하게 되고 이런 방식은 발화 전후의 돌발성 잡음에서도 끝점을 효과적으로 검출하게 해 줍니다. 유성음 비율을 계산하기 위해서는 유성음을 나타내는 다양한 특징을 활용하게 됩니다.

◇음성인식 엔진 '파인드라이브 바이오'=한국전자통신연구원(ETRI)이 개발한 대어휘 행선지 음성 인식엔진은 파인디지털의 단말기에 적용돼 판매되고 있는데요. '파인드라이브 바이오'라는 이름의 이 제품은 지상파 DMB와 위성 DMB를 수신할 수 있고 DMB 시청과 음성인식이 동시에 가능합니다.

파인드라이브 바이오는 16개 광역시ㆍ도로 나눠 각 권역별로 행선지를 인식할 수 있도록 설계돼 있는데요. 음성인식 버튼을 누르면 '삐-'하는 비프음이 나고 이 때 먼저 광역시를 말하면 파인드라이브 바이오는 그 도시의 지명과 주소 등이 담긴 데이터에 접근하게 됩니다. 그 다음 내비게이션에서 또 한 번의 비프음이 나올 때 가고 싶은 곳을 이야기하면 최대 8개의 인식후보가 제시되는데요.

원하는 행선지가 있으면 선택하고 없으면 다시 행선지를 말하면 되는 형태입니다. 행선지가 선택됐으면 내비게이션은 지도 화면으로 바뀌고 안내를 시작하는 원리로 작동하게 됩니다.

대전=이준기기자 bongchu@

<자료제공=한국전자통신연구원(ETRI)>

[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]

관련기사

이준기

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0