구어체까지 이해하는 AI 나왔다

ETRI 일상언어 분석기술 개발
음성인식 AI 서비스 진화 전망

  • 프린트
  • 페이스북
  • 트위터
  • 카카오스토리


구어체까지 이해하는 AI 나왔다
ETRI 연구진들이 6일 언어 인식 인공지능 '엑소브레인'을 기반으로 사람의 말까지 이해할 수 있는 '구어체 언어분석 기술'을 개발, 일반에 공개했다.

ETRI 제공


국내 연구진이 AI(인공지능) 기술을 적용해 사람의 일상적인 대화까지 정확하게 분석해 내는 기술을 개발했다. 글을 이해하는 AI를 넘어 사람의 말까지 이해하는 다양한 AI 서비스 개발로 이어질 전망이다.

한국전자통신연구원(ETRI)은 자체 개발한 언어 AI '엑소브레인'의 '구어체 언어분석 API(응용 프로그래밍 인터페이스)'를 공개했다고 6일 밝혔다.

이 기술은 위키백과와 법령 등 문어체를 주로 이해하는 기존 언어분석 기술을 확장시킨 것으로, 사람의 대화 분석 오류를 최대 41%까지 줄였다.

구어체 언어분석 기술은 한국어 의미의 최소 단위를 분석하는 '형태소분석 기술'과 문장 내 고유 대상과 의미를 인식하는 '개체명 인식기술'을 적용했다. 구어체 언어분석은 난이도와 학습 데이터 부족으로 구현하기 어렵다. 가령, '경상도인데'를 '경상돈데'라고 구어체로 표현하는 경우, 기존 형태소분석 기술은 '경상도+인데'라는 축약표현을 인식하지 못해 '경상돈+데'로 잘못 분석한다.

아울러, 개체명 인식 학습 데이터의 경우, 문어체는 27만 건에 이르지만, 구어체는 10분의 1 수준인 2만5000 건에 불과해 데이터 확보가 어려운 실정이다.

연구팀은 전이학습과 데이터 증강기법을 활용해 이 같은 문제를 극복했다. 전이학습과 데이터 증강 기법은 다른 분야의 학습 모델과 소량의 학습 데이터를 재사용해 학습하는 방식으로, 학습 데이터가 부족한 환경에서 딥러닝 기술 한계를 극복하는 데 활용된다. 두 기술을 적용한 결과, 구어체 언어분석 API는 기존 문어체 언어분석 API와 비교해 형태소 분석과 개체명 인식 성능이 각각 5.0%, 7.6% 개선된 것으로 나타났다. 분석 오류도 각각 41.7%, 39.4% 감소했다.

연구팀은 기존보다 성능을 개선한 문어체 언어분석 API를 추가 공개해 형태소 분석과 개체명 인식 기술을 각각 96.8%, 89.4%의 높은 정확도로 향상시켰다고 설명했다.

임준호 ETRI 언어지능연구실 박사는 "기존 문어체 기술을 고도화해 사람의 대화까지 정확하게 이해할 수 있는 구어체 언어분석 기술 개발을 통해 AI 비서, 챗봇 등 AI 서비스 개발에 기여할 것"이라고 말했다.

이준기기자 bongchu@dt.co.kr

[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]

추천기사