다양한 벤치마크서 새로운 최고 성능 기록

오픈AI는 전문적인 지식 노동을 위해 지금까지 나온 모델 중 가장 강력한 모델인 ‘GPT-5.2’를 출시했다고 12일 밝혔다. 이날부터 챗GPT 유료사용자들을 시작으로 순차적으로 출시되며, API에서는 모든 개발자가 즉시 사용할 수 있다.

오픈AI에 따르면 GPT-5.2는 전문적인 업무에서 더욱 큰 경제적 가치를 창출할 수 있도록 설계됐다. 스프레드시트 제작, 프레젠테이션 구성, 코드 작성, 이미지 인식, 긴 컨텍스트 이해, 도구 활용, 복잡한 다단계 프로젝트 수행 등에서 이전보다 모두 더 뛰어난 성능을 낸다.

GPT-5.2 씽킹과 GPT-5.1 씽킹의 벤치마크 비교 결과. 오픈AI 제공
GPT-5.2 씽킹과 GPT-5.1 씽킹의 벤치마크 비교 결과. 오픈AI 제공

오픈AI의 자체 테스트 결과 GPT-5.2 씽킹(Thinking)은 다양한 벤치마크에서 새로운 최고 성능(SOTA)를 기록했다. GDP에 기여가 큰 44개 핵심 지식노동 영역에서 AI가 얼마나 높은 성과를 발휘하는지 살펴보는 벤치마크(GDPval)에서 70.9%를 기록했다. 프레젠테이션·스프레드시트 등을 포함한 과제에 대해 전문가 대비 11배 이상 빠른 속도, 1% 미만의 비용으로 결과를 생성했다.

실제 소프트웨어(SW) 엔지니어링 역량을 평가하는 벤치마크(SWE-Bench Pro)에서도 55.6%로 새로운 SOTA를 기록했다. 사람의 수작업 개입을 줄인 상태에서 수정사항을 처음부터 끝까지 배포할 수 있게 됐고, 특히 프런트엔드 개발에서 3차원(3D) 요소가 포함된 작업처럼 복잡하거나 기존 방식에서 벗어난 사용자환경(UI) 구현에서 성능이 크게 향상된 것으로 평가했다.

GPT-5.2 씽킹은 GPT-5.1 씽킹보다 환각(할루시네이션)에서도 개선을 이뤘다. 챗GPT에서 수집한 비식별화 질의 세트에서 오류 있는 응답비율이 30% 상대적으로 감소했다. 장문 추론에서도 새 SOTA를 달성해 긴 문서 전반에 흩어져있는 정보 통합 능력이 강화됐다. 차트 추론과 SW 인터페이스 이해에서도 오류율을 약 절반 수준으로 감소시켰다.

오픈AI는 안전 측면에서도 민감한 대화 상황에서 GPT-5.2의 응답 품질을 강화했다. 자살이나 자해 신호, 정신 건강의 어려움, 모델에 대한 정서적 의존을 암시하는 프롬프트에 대해 어떻게 반응하는지에 대한 의미 있는 개선을 이뤘다는 게 회사의 설명이다. 이런 표적 개입을 통해 GPT-5.2 인스턴트와 GPT-5.2 씽킹은 GPT-5.1 및 기존 GPT-5 인스턴트·씽킹 모델 대비 바람직하지 않은 응답이 더 줄어들었다.

또한, 18세 미만 사용자에게 민감한 콘텐츠 접근을 제한하기 위한 연령 예측 모델의 단계적 적용을 초기 단계에서 시작하고 있다. 이는 이미 18세 미만임을 알고 있는 사용자에 대한 기존 접근 방식과 부모 보호 기능을 보완하는 조치라고 회사는 덧붙였다.

팽동현 기자(dhp@dt.co.kr)

[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
팽동현

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0