앤스로픽, 비공개 데이터 기반 문제 풀이에 강점

공개 데이터 기반 테스트 결과에선 구글이 앞서

맥심 로트가 이달 부분적으로 업데이트한 AI IQ 테스트 결과. 트래킹AI 캡처
맥심 로트가 이달 부분적으로 업데이트한 AI IQ 테스트 결과. 트래킹AI 캡처

앤스로픽의 최상위 인공지능(AI) 모델인 '클로드 오퍼스 4.6'의 지능지수(IQ)가 130이란 조사 결과가 나왔다. 구글의 '제미나이 프로 3.1'이 128로 그 뒤를 바짝 쫓는 반면, 오픈AI의 GPT-5.2는 100대 초중반에 머물렀다.

미국의 데이터 분석가이자 저널리스트인 맥심 로트(Maxim Lott)는 주요 AI모델 대상으로 지속적으로 실시해 공개하고 있는 IQ 테스트의 결과를 최근 업데이트했다. 오픈AI의 최신모델인 'GPT-5.4', 최근 출시된 '클로드 소네트 4.6' 등은 이번에 포함되지 않았다.

인간의 평균 IQ는 통상 100 정도라는 게 통설이다. 앤스로픽·구글·오픈AI 모두 주력모델은 이를 넘어섰고, 앤스로픽의 경우 일반모델이자 이전 버전인 '클로드 소네트 4.5'까지 119로 3위에 올라있는 점도 눈에 띈다. 중국 AI모델의 경우 '키미 K2.5'가 110으로 가장 높았다.

맥심 로트가 수행하는 테스트의 특징은 인터넷에 공개된 적이 없는 문제들을 자작해 오프라인 테스트를 수행한다는 점이다. AI가 기존 학습데이터를 바탕으로 정답을 미리 외워 푸는 '데이터 오염'을 차단하고 실질적 추론 능력을 측정하기 위해서다. 비교를 위해 공식 온라인 시험인 멘사 노르웨이 테스트 결과를 함께 제공한다.

멘사 노르웨이 테스트와 맥심 로트 테스트의 결과 비교. 트래킹AI 캡처
멘사 노르웨이 테스트와 맥심 로트 테스트의 결과 비교. 트래킹AI 캡처

이로 인해 테스트 결과에서 유독 차이를 보이는 모델도 나타난다. 예컨대 제미나이 프로 3.1 프리뷰는 공개 온라인 테스트에서 무려 141을 기록했으나 비공개 오프라인 테스트에선 128로 나왔다. 제미나이 3.1 플래시도 마찬가지로 134에서 113으로, 키미 K2.5 또한 125에서 110으로 떨어졌다.

이들 모델과는 달리 클로드 오퍼스 3.6은 양쪽 테스트 모두에서 130을 기록했다. 거꾸로 알리바바 '큐엔 3.5 맥스'는 102에서 107로, 오픈AI 'GPT-5.2 프로'는 89에서 105로 더 높아지는 결과가 나오기도 했다. 이런 결과가 철저히 검증된 벤치마크 같은 신뢰성을 보인다고 할 수는 없으나 참고자료로는 활용되는 추세다.

앞서 맥심 로트는 "2024년 5월부터 2025년 10월까지 선도적인 AI들의 IQ 점수가 월평균 2.5점씩 향상됐다"며 "이는 비교적 꾸준한 선형적·점진적 혁신으로 이뤄졌다"고 평한 바 있다. 이어 올해 초에는 "현재 우리가 처한 상황은 인터넷이 등장했던 1990년대와 매우 유사하다. 앞으로의 길은 예측하기 어렵다"고 밝혔다.

팽동현 기자 dhp@dt.co.kr



[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
팽동현

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0