이수과?는 제주 사투리로 "있습니까?"라는 뜻이다. 같은 한국어라도 지역색이 짙은 사투리는 쉽게 알아듣기 힘들다. 그러나 앞으로는 AI(인공지능)가 이를 해결해 줄 전망이다. 사투리까지 알아듣는 챗봇이 곧 등장할 것으로 기대된다.

국립국어원은 사투리를 포함한 일상 대화를 빅데이터로 만드는 사업을 AI기업 솔트룩스와 함께 착수했다. 국립국어원은 '2020 일상대화 말뭉치 구축' 사업을 통해 일상대화 속 언어를 AI에 활용 가능한 데이터로 만든다는 계획이다. 작년부터 진행한 국가 말뭉치 구축사업의 일환으로 △구어 △일상 대화 △메신저 대화 △웹 △문어 등으로 나눈 사업 분야 중 일상대화에 속한다. '말뭉치'는 언어 연구 분야에서 언어 자료를 나타내는 용어로, 연구 목적마다 구체적인 정의가 다르다. 이번 사업에서는 약 500시간의 대화가 말뭉치 자료의 기준이다.

사업을 주관하는 솔트룩스는 약 2000명의 대화를 수집하고, 이를 고품질 AI 데이터로 구축한다. 초기 단계에는 대화형 AI 전문가들이 참여해 어떤 대화를 수집할 지 주제를 선정한다. 대화형 AI는 사람과 유사한 수준의 대화가 가능한 AI로, 말뭉치 데이터가 주로 사용될 분야다. 또한 대화를 수집할 때 방송에서 쓰이는 표준어보다는 실제 지역색이 그대로 묻은 대화를 수집하는 데 비중을 둔다.

수집한 음성 대화는 데이터로 가공하기 위해 텍스트 형식으로 옮긴다. 이 과정에서는 국내 최고의 속기 전문기업 '소리자바'와 협력한다. 텍스트 자료는 AI 활용 가능한 데이터 파일로 가공돼 국립국어원이 요구한 메타 정보가 함께 심어질 예정이다. 또한 솔트룩스가 말뭉치 데이터를 활용할 수 있는 음성인식 기능을 탑재한 모델을 제공한다.

국립국어원 관계자는 "말뭉치 데이터를 민간에 공유함으로써 언어 AI 등 관련 산업 발전 기반을 마련할 수 있을 것"이라고 밝혔다. 이경일 솔트룩스 대표는 "세계 시장과 견주었을 때 국내 시장은 음성 및 전사 말뭉치가 부족하고, 기술 개발이나 서비스화가 더딘 편"이라며 "이 사업이 대화형 AI 산업 기반 마련과 생태계 발전에 도움이 될 것으로 기대한다"고 말했다.

안경애기자 naturean@dt.co.kr

[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0