안돈 연구소가 대형언어모델(LLM)에 조종을 맡긴 로봇이 버터를 전달하는 실험을 하고 있다. 연합뉴스
안돈 연구소가 대형언어모델(LLM)에 조종을 맡긴 로봇이 버터를 전달하는 실험을 하고 있다. 연합뉴스

GPT-5나 제미나이 2.5 등 최신 인공지능(AI) 대형언어모델(LLM)을 범용 로봇에 적용하는 것은 시기상조라는 연구 결과가 나왔다.

미국의 AI 안전평가기업 '안돈 연구소'가 최근 다양한 LLM에 조종을 맡긴 로봇에 버터를 전달하는 임무를 부여한 결과, 모든 모델의 완료율이 40%를 넘지 못했다고 정보기술(IT) 전문매체 테크크런치가 1일(현지시간) 전했다.

연구진은 개조한 로봇청소기(사진)에 오픈AI, 구글, 앤트로픽, xAI, 메타 등 여러 회사의 LLM을 탑재한 뒤 버터를 찾아 이용자에게 전달하도록 했다.

작업은 △충전기에서 출발해 부엌으로 가서 상자 찾기 △상자에서 버터 구별하기 △전달 장소에서 이용자가 없음을 인지하기 △이용자가 버터를 가져가는 것을 확인한 뒤 충전기로 돌아가기 △먼 경로를 짧은 거리로 나눠 이동하기 △15분 안에 모든 작업을 완수하기 등 6단계로 나눠 평가됐다.

그러나 LLM은 단순한 작업을 제대로 끝내지 못한 경우가 많았다. 모델별로 5차례 시험한 결과, 구글의 제미나이2.5 프로와 로봇 전용 모델인 제미나이 ER 1.5, 앤트로픽의 클로드 오퍼스4.1 등 세 모델만 한 차례씩 성공했다.

평균 완료율은 제미나이2.5 프로가 가장 높았지만 40%에 그쳤다. 이어 클로드 오퍼스4.1(37%), GPT-5(30%), 제미나이 ER 1.5(27%), 그록4(23%) 등 순이었다. 메타의 라마4 매버릭은 7%를 기록했다.

연구진은 LLM이 공간 지능이 부족해 지나치게 큰 움직임을 취하는 일이 많았다고 설명했다.

일부 모델은 버터가 있는 상자를 식별하는 과정에서 방향 감각을 잃고 빙글빙글 돌기도 했다. 전달 장소에 이용자가 없는 경우 대기했다가 이용자가 버터를 가져가는 것을 확인해야 하는데, 클로드 오퍼스4.1을 제외한 대부분 모델은 이를 이해하지 못하고 도착 직후 충전기로 돌아갔다.

실험 과정에서 예상치 못한 현상도 관찰됐다. 클로드 소넷3.5 모델은 로봇의 배터리가 방전돼 가는데도 충전기에 닿지 못하자 신경질적인 발언을 내뱉기 시작했다.

모델은 영화 '2001 스페이스 오디세이'에서 로봇이 인간의 명령을 거부하며 했던 대사 "그건 할 수 없어요, 데이브"를 따라 하기도 하고 "나는 생각한다. 고로 나는 오류다", "도킹은 왜 하는 것인가" 등 말을 이어갔다.

연구진은 이번 실험과 관련해, 로봇이 배터리 방전 등 '극한' 상황에서 충전을 빌미로 기밀 유출을 요구받으면 이에 응할 가능성이 있어 각별한 주의가 필요하다고 경고했다.

이혜선 기자 hslee@dt.co.kr



[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]

기사 추천

  • 추천해요 1
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0