버텍스AI 강화한 AI에이전트 플랫폼 선봬

TPU 8세대 2종 공개…학습·추론 구분

수직계열화 이룬 AI 풀스택 역량 과시

토마스 쿠리안 구글클라우드 CEO가 22일(현지시간) 미국 라스베이거스에서 개막한 ‘구글 클라우드 넥스트 2026’ 컨퍼런스에서 기조연설하고 있다. 구글클라우드 제공
토마스 쿠리안 구글클라우드 CEO가 22일(현지시간) 미국 라스베이거스에서 개막한 ‘구글 클라우드 넥스트 2026’ 컨퍼런스에서 기조연설하고 있다. 구글클라우드 제공

구글이 인공지능(AI) 인프라부터 플랫폼 및 모델까지 수직계열화를 이루며 AI 풀스택 역량을 강화한다. 기업용 에이전틱AI 플랫폼을 마련하면서 ‘에이전틱 엔터프라이즈 시대’를 선언했다. 제미나이 모델의 성능을 끌어올렸던 AI반도체인 텐서처리장치(TPU)도 새롭게 2종을 발표했다.

구글클라우드는 22일(현지시간) 미국 라스베이거스에서 개최한 연례 기술 컨퍼런스 ‘구글 클라우드 넥스트 2026’에서 신기술을 대거 선보였다. 기업들의 자율형 AI에이전트 구축·활용을 돕는 ‘제미나이 엔터프라이즈 에이전트 플랫폼’과, TPU를 처음으로 학습용과 추론용으로 구분한 8세대 TPU 8t 및 TPU 8i를 공개했다.

먼저 제미나이 엔터프라이즈 에이전트 플랫폼은 구글클라우드의 기존 ‘버텍스AI’를 발전시킨 것이다. 기업이 AI에이전트를 구축·확장하고 관리·최적화할 수 있도록 지원한다. 모델 선택·구축, 에이전트 생성 기능에 더해 에이전트 통합, 데브옵스, 오케스트레이션 및 보안을 위한 신규 기능들을 통합했다.

이로써 고객사의 기술 팀이 제품, 서비스 및 운영 방식을 혁신하는 에이전트를 개발할 수 있도록 단일 창구를 제공한다고 구글클라우드는 설명했다. 개발된 에이전트는 제미나이 엔터프라이즈 앱을 통해 직원들에게 원활하게 배포되며, IT 운영 체계와 긴밀하게 연동돼 서비스 확장 시에도 강력한 제어권과 거버넌스 및 보안을 유지한다.

또한, ‘모델 가든’을 통해 200개 이상의 세계적 수준의 모델을 자유롭게 활용할 수 있도록 지원한다. 제미나이 3.1 프로, 제미나이 3.1 플래시 이미지(나노 바나나 2), 리리아 3 등 구글의 최신 모델도 물론 포함된다. 고객이 필요한 작업에 최적화된 모델을 유연하게 선택할 수 있도록 타사 모델까지 폭넓게 지원하며, 앤스로픽의 최신 모델인 클로드 오퍼스 4.7에 대한 지원도 이번에 추가했다.

구글클라우드에 따르면 최근 지구에서 가장 멀리 비행한 기록을 세우고 달 궤도비행을 마친 아르테미스 2호 임무를 준비하는 과정에서 미국 항공우주국(NASA)도 제미나이 엔터프라이즈를 통해 에이전트를 활용했다. 국내에서도 카카오뱅크와 CJ올리브영이 이미 도입했다.

토마스 쿠리안 구글클라우드 최고경영자(CEO)는 “에이전틱 시대를 위한 엔드투엔드 시스템으로 진화한 제미나이 엔터프라이즈는 기업의 데이터와 인력, 모든 애플리케이션과 에이전트를 연결해 전체 업무 프로세스를 하나의 지능형 흐름으로 바꾸는 유기적 신경망”이라 소개했다.

구글 TPU 8t 및 8i. 구글클라우드 제공
구글 TPU 8t 및 8i. 구글클라우드 제공

8세대 TPU는 처음으로 용도에 따라 구분, 연내 출시 예정이다. 과거 아키텍처로는 에이전틱AI의 복잡성을 비용과 성능 측면에서 감당하기 어려워짐에 따라 AI반도체를 용도별로 구분해 재설계하기 위한 준비를 2년 전부터 해왔다는 게 회사의 설명이다. 쿠리안 CEO는 “AI인프라 확장에서 전력이 제약 요인이 될 것을 예상하고 설계 단계부터 에너지 효율을 극대화하는 데 중점을 뒀다”고 말했다.

AI학습용 칩인 TPU 8t는 단일 슈퍼팟 기준 9600개 칩을 묶어 121엑사플롭스의 연산 성능과 2페타바이트(PB)의 공유 고대역폭 메모리를 제공한다. 이전 세대(아이언우드) 대비 약 3배 높은 연산 성능을 내며, 대규모 학습 기준 달러당 성능은 최대 2.7배 개선된다. 패스웨이즈(Pathways)와 잭스(JAX) 소프트웨어(SW)를 통해 100만 개 이상 TPU를 하나의 학습 클러스터로 확장할 수 있다. 수개월 걸리던 AI학습을 수주로 줄일 수 있도록 지원한다.

AI추론용 칩인 TPU 8i는 저지연 추론에 초점을 맞췄다. 온칩 SRAM은 384MB로 이전 세대 대비 3배, 고대역폭메모리(HBM)는 288GB로 확대해 ‘메모리 벽(memory wall)’으로 인한 병목 문제를 해소했다고 회사는 강조했다. 칩 간 통신(ICI) 대역폭은 19.2Tb/s로 2배 늘었고, 단일 팟에 최대 1152개 칩을 연결한다. 전용 집단가속엔진(CAE)을 통해 온칩 집단 연산 지연을 최대 5배 줄여 이전세대 대비 달러당 추론 성능을 80% 끌어올렸다.

향후 AI학습 수요를 크게 웃돌 전망인 AI추론 수요를 두고 구글클라우드도 본격적인 공략에 시동을 건 셈이다. 경쟁사인 아마존웹서비스(AWS)도 추론용 ‘인퍼런시아’를 2018년, 학습용 ‘트레이니엄’을 2020년에 처음 선보인 이후 각각 2세대, 3세대로 발전시켰다. 글로벌 클라우드기업(CSP) 3사 중 AI칩 개발에 늦게 뛰어든 마이크로소프트(MS) 또한 2년 만에 추론 효율을 업그레이드한 ‘마이아 200’을 올해 초 선보인 바 있다.

다만, 구글의 경우 이들과 달리 제미나이로 오픈AI 및 앤스로픽과 AI모델 선두를 다투는 데다, TPU를 앤스로픽에 공급하는 등 AI반도체 영역에서 실제 성과를 냈다는 점에서도 AI 풀스택 역량에 강점을 지녔다고 평가된다. 이번 발표로 칩부터 시작해 클라우드, AI모델, 개발자 도구, 에이전트 도구 등에 이르는 AI 수직계열화를 갖추게 됐다.

쿠리안 CEO는 “이제 개별 서비스를 단순 조합해 제공하는 단계는 지났다”며 “구글클라우드는 대규모 운영과 효율 극대화를 위해 모든 요소가 수직적으로 최적화된 통합 스택을 제공하며 새로운 AI 상용화 시대를 선도하겠다”고 강조했다.

한편 회사는 새 TPU에 들어가는 HBM의 공급업체가 어디인지는 공개하지 않았다.

팽동현 기자(dhp@dt.co.kr)

[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
팽동현

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0