KAIST, 긴 시간 음성언어모델(SSM) 개발

자연스럽고 일관되게 생성..음성AI 발전 가속화

국내 연구진이 시간 제약 없이 일관되고 자연스러운 음성을 생성하는 음성언어모델(SSM)을 개발했다.

KAIST는 노용만 전기및전자공학부 교수 연구팀의 박세진 박사과정생이 장시간 음성 생성이 가능한 '스피치SSM'을 개발했다고 3일 밝혔다.

SSM은 텍스트가 아닌 인간의 음성을 학습해 사람의 억양과 감정 등 비언어적 정보까지 이해하고, 생성하는 기술로 텍스트 기반의 언어 모델의 한계를 넘어서는 차세대 기술로 각광받고 있다.

하지만, 기존 SSM 모델은 장시간 콘텐츠 생성이 요구되는 팟캐스트, 오디오북, 음성비서 등에서 의미적, 화자적 일관성이 급격히 떨어지는 한계가 있었다. 기존 모델이 음성을 아주 세밀하게 잘게 쪼개 아주 자세한 정보까지 담는 '음성 토큰 해상도'가 높아지고 사용하는 메모리 소비도 증가하기 때문이다.

연구팀은 최근 정보에 집중하는 '어텐션 층'와 전체 이야기 흐름을 오래 기억하는 '순환 레이어'를 교차 배치한 하이브리드 구조를 통해 긴 시간 동안 음성을 생성해도 흐름을 잃지 않고 안정적으로 구현하는 SSM 모델을 개발했다.

이 모델은 음성 데이터를 짧고 고정된 단위로 나눠 각 단위별로 독립적으로 처리하고, 긴 음성을 만들 경우 다시 붙이는 방식을 활용해 무한한 길이의 음성 시퀀스를 효과적으로 처리할 수 있다. 또한 음성 생성 단계에서 여러 부분을 한꺼번에 빠르게 만들어 내는 '비자기회귀' 방식의 오디오 합성모델을 사용해 고품질의 음성을 빠르게 생성할 수 있다.

연구팀은 기존 10초 가량의 짧은 음성언어모델을 평가하던 것에서 16분까지 평가할 수 있는 시스템을 만들었다. 이를 통해 장시간 생성된 음성이 시간이 지나도 내용이 잘 이어지는지, 자연스럽게 들리는지 등을 보다 효과적이고 정밀하게 평가할 수 있다.

연구팀은 스피치 SSM 언어모델로 생성된 음성이 긴 시간 생성에도 초기 프롬프트에서 언급된 특정 인물이 지속적으로 등장하며, 맥락적으로 일관된 새로운 인물과 사건들이 자연스럽게 전개되는 것을 확인했다.

박세진 KAIST 박사과정생은 "긴 문맥에서도 일관된 내용을 유지하면서 기존 방식보다 더 효율적이고 빠르게 실시간으로 응답할 수 있어 다양한 음성 콘텐츠 제작과 음성비서 등 음성 AI 분야 활용에 크게 기여할 것"이라고 말했다.

이 연구는 국제 최고 권위의 머신러닝 학회 'ICML 2025'에 제출된 전체 논문 중 1%만이 선정되는 구두 논문으로 확정됐으며, 오는 16일 발표될 예정이다.

이준기 기자 bongchu@dt.co.kr

KAIST 연구팀이 개발한 장시간 음성 생성이 가능한 음성언어모델(SSM) '스피치 SSM' 기술 개념도.
KAIST 연구팀이 개발한 장시간 음성 생성이 가능한 음성언어모델(SSM) '스피치 SSM' 기술 개념도.
노용만(왼쪽)  KAIST 교수와 박세진 박사과정.
노용만(왼쪽) KAIST 교수와 박세진 박사과정.


[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
이준기

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0