디지털타임스

 


"카메라로 사람 행동보며 상호소통"… 구글 `제미나이` 영상·음성도 인식

프린트 페이스북 트위터 카카오스토리
구글이 내놓은 LLM(대규모언어모델인 '제미나이'는 멀티모달 기능을 갖춰서 텍스트는 물론, 사진과 영상, 음성도 인식한다.

지금까지 멀티모달 AI 모델을 만드는 방식은 서로 다른 모달리티를 각각 학습시킨 다음, 이를 서로 연결해 일부 기능을 비슷하게 모방하는 수준이었다. 이는 이미지 설명과 같은 일부 작업은 잘 할 수 있지만 더 개념적이거나 복잡한 추론을 하는 데는 어려움이 있었다. 그러나 제미나이는 개발단계부터 다양한 모달리티에 대한 사전 학습을 통해 설계돼 기존 멀티모달 모델보다 훨씬 뛰어나다는 게 구글의 설명이다.

제미나이는 카메라로 실제 사람의 행동을 보며 상호 소통을 한다. 실제 구글이 공개한 영상에서 제미나이는 실시간 시야 인식 능력을 갖추며 사람과 같은 사물 인식과 판단력을 갖춘 모습을 보였다. 사람이 종이에 펜으로 오리를 그리자 제미나이가 '새'임을 인식하고, 오리 옆에 물결 표시를 그리자 '오리'라고 답했다. 오리의 몸을 파란색으로 칠하자 "흔치 않지만, 파란 오리도 있다"고 소개하는가 하면 파란색 장난감 오리를 보여주자 "고무(장난감) 오리다"라고도 했다. 이 장난감이 물에 뜰지 물어보자, 잠시 멈칫하더니 '고무 오리'를 손으로 누르는 모습을 보여주자, "속이 비어 있어 물에 뜨겠다"고 말했다. 수학과 물리학에 대한 인식도 정교해졌다. 앞면이 네모난 모양의 차량과 삼각형인 차량 중 어느 차량이 더 빠를지를 묻자 "공기역학이 적용된 세모난 차가 더 빠르다"고 답했다. 수학 문제와 함께 오답을 낸 풀이 과정을 보여주자, 틀린 부분을 정확히 지적하고 올바른 수식도 내놨다.


영화 '매트릭스'처럼 사람이 총알을 피하는 모습을 보여주자 "영화 '매트릭스'의 유명한 장면"이라고 밝혔다. 기타를 그리면 기타로만 연주한 곡을, 드럼과 베이스를 그리면 밴드 곡을 연주하기도 했다.안경애기자 naturean@dt.co.kr
"카메라로 사람 행동보며 상호소통"… 구글 `제미나이` 영상·음성도 인식



[ 저작권자 ⓒ디지털타임스, 무단 전재 및 재배포 금지 ]