KAIST, 생성형 AI 특화 NPU 핵심기술 개발

NPU 기반 AI 클라우드 구축 비용 절감 기대

KAIST 연구팀이 GPU 대비 적은 전력 소모에도 생성형 AI 모델의 추론 성능을 높일 수 있는 NPU 기술을 개발했다.  KAIST 제공.
KAIST 연구팀이 GPU 대비 적은 전력 소모에도 생성형 AI 모델의 추론 성능을 높일 수 있는 NPU 기술을 개발했다. KAIST 제공.

국내 연구진이 최신 그래픽처리장치(GPU) 대비 적은 전력 소모에도 생성형 AI 모델의 추론 성능을 대폭 높일 수 있는 기술을 개발했다.

KAIST은 박종세 전산학부 박종세 교수 연구팀이 김주영 전기및전자공학부 교수 창업기업인 하이퍼엑셀와 공동으로 챗GPT와 같은 생성형 AI에 특화된 고성능·저전력 신경망처리장치(NPU) 핵심기술을 개발했다고 4일 밝혔다.

챗GPT4나 제미나이 2.5 등 최신 생성형 AI 모델들은 메모리 용량을 많이 필요로 하기 때문에 마이크로소프트나 구글 등 생성형 AI 클라우드 운영기업들은 엔비디아의 GPU를 수십만장씩 구매하고 있다.

NPU는 인공신경망을 이용해 AI 연산에 특화된 반도체로 GPU 대비 저전력으로도 높은 효율을 낼 수 있어 GPU를 대체할 기술로 주목받고 있다.

연구팀은 메모리 사용의 대부분을 차지하는 ‘KV 캐시’의 양자화를 통해 적은 수의 NPU만으로 동일 수준의 AI 인프라를 구성하고, 기존 NPU 아키텍처를 변경하지 않으면서 메모리 인터페이스와 통합될 수 있도록 설계했다.

KV 캐시의 양자화는 생성형 AI 모델을 작동할 때 성능을 높이기 위해 사용하는 일종의 임시 저장 공간에 데이터 크기를 줄이는 것을 의미한다.

이를 통해 최신 GPU 대비 비용과 전력 효율성이 우수한 NPU 기반 AI 클라우드를 구성함으로써 구축·운영 비용을 크게 절감할 수 있다고 연구팀은 설명했다.

박종세 KAIST 교수는 “추론 정확도를 유지하면서 메모리 요구량을 줄이는 경량화 기법과 이에 최적화된 하드웨어 설계를 결합, 최신 GPU 대비 전력은 44% 적게 쓰면서도 평균 60% 이상 성능이 향상된 NPU를 구현했다”며 “AI클라우드 데이터센터뿐 아니라 실행형 AI인 ‘에이전틱 AI’ 등으로 대표되는 인공지능 대전환 환경에서 핵심 역할을 할 것으로 기대한다”고 말했다.

이번 연구 성과는 지난달 21∼25일 일본 도쿄에서 열린 컴퓨터 아키텍처 분야 최고 권위 학회인 ‘2025 국제 컴퓨터구조 심포지엄(ISCA)’에 채택돼 소개됐다.

이준기 기자(bongchu@dt.co.kr)

[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
이준기

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0