황의종 KAIST 교수팀, 새 학습 데이터 증강기술 개발

특정 데이터 의존 않고, 영상 등 다양한 데이터 동시 학습

최소영(왼쪽) 석사과정,생  황성현(오른쪽) 박사과정생, 황의종 교수(오른쪽 위). KAIST 제공.
최소영(왼쪽) 석사과정,생 황성현(오른쪽) 박사과정생, 황의종 교수(오른쪽 위). KAIST 제공.

최근 생성형 인공지능(AI) 기술의 급격한 발전에 힘입어 영상, 음성, 텍스트 등 서로 다른 정보를 동시에 처리하는 '멀티모달 AI'가 주목받고 있다. 멀티모달 AI는 자율주행, 의료 진단, 멀티미디어 검색 등 다양한 분야에서 빠르게 확산되고 있다.

하지만 실제 활용 과정에서 특정 유형에 과도하게 의존해 성능이 불안정해지는 사례가 보고되고 있다. 이런 불균형 모델은 특정 정보에 치우쳐 학습하도록 만들어 결과적으로 전체적인 성능 저하를 초래한다.

마치 보통 그림과 글자가 함께 있을 때 사람의 시선이 그림에 먼저 가는 것처럼 여러 감각을 동시에 활용하는 멀티모달 AI도 특정 데이터 유형에 더 크게 의존하는 경향이 있는 것이다.

이 때문에 멀티모달 환경에서 균형을 잡고 안정적으로 학습을 보장할 수 있는 새로운 기술의 필요성이 커지고 있다.

KAIST는 황의종 전기및전자공학부 교수 연구팀이 다양한 데이터 유형을 한 번에 처리해야 하는 멀티모달 AI가 모든 데이터를 고르게 활용할 수 있도록 돕는 새로운 학습 데이터 증강 기술을 개발했다고 14일 밝혔다.

KAIST는 특정 데이터 유형에 의존하지 않고, 모든 데이터 유형을 활용해 모델 정확도를 높이는 새로운 학습 데이터 증강기술을 개발했다. KAIST 제공.
KAIST는 특정 데이터 유형에 의존하지 않고, 모든 데이터 유형을 활용해 모델 정확도를 높이는 새로운 학습 데이터 증강기술을 개발했다. KAIST 제공.

멀티모달 AI는 텍스트, 영상 등 여러 데이터를 동시에 활용해 판단하는 AI를 말한다. 하지만 여러 정보를 받아들일 때, 한쪽 데이터에 치우쳐 판단하는 경향을 보여 예측 성능이 떨어지는 문제가 있다.

연구진은 일부러 서로 어울리지 않는 '비정렬 데이터'를 섞어 학습에 사용했다. 이를 통해 AI가 한쪽 데이터에만 의존하지 않고 글과 그림, 소리 등 모든 데이터를 균형 있게 활용하는 방법을 배우게 했다.

가령, 고양이 이미지를 개를 설명하는 텍스트와 함께 입력해 모델이 상충하는 신호를 해석하도록 유도해 특정 데이터에 의존하지 않고, 여러 데이터 정보를 균형있게 고려하도록 학습시켰다.

아울러, 품질이 낮은 데이터는 보완하고, 어려운 데이터는 더 강조해 훈련하는 방식을 더해 다양한 상황에서도 안정적으로 성능을 높였다. 이 방법은 어떤 종류의 데이터에도 쉽게 적용할 수 있어 확장성과 실용성이 크다고 연구팀은 설명했다.

황 교수는 "AI 성능을 높이려면 모델 구조(알고리즘)만 바꾸는 것보다, 어떤 데이터를 어떻게 학습에 쓰느냐가 훨씬 중요하다"며 "이번 연구는 멀티모달 AI가 특정 데이터에 치우치지 않고 균형 있게 정보를 활용할 수 있도록 데이터 자체를 설계하고 가공하는 접근법이 효과적일 수 있음을 제시했다"고 말했다.

이 연구결과는 오는 12월 미국 샌디에이고와 멕시코 멕시코시티에서 열리는 AI 분야 국제학술대회 'NeurIPS'에서 발표될 예정이다.

이준기 기자 bongchu@dt.co.kr



[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
이준기

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0