디지털타임스

 


올거나이즈, `알리 RAG 리더보드` 공개

프린트 페이스북 트위터 카카오스토리
올거나이즈, `알리 RAG 리더보드` 공개
올거나이즈는 국내 최초 검색증강생성(RAG) 리더보드인 '알리(Alli) RAG 리더보드'를 허깅페이스를 통해 공개한다고 29일 밝혔다.

RAG는 생성형AI의 할루시네이션(환각·왜곡) 현상을 줄일 수 있는 기술로 주목받는다. 사전 학습한 데이터뿐 아니라 기업 내부 데이터 등 기존 데이터에서 답을 찾는다. 질문·검색어 맥락을 고려해 가장 적절한 답변을 제공하는 식이다.

올거나이즈의 RAG 리더보드는 RAG 기술의 성능을 측정해 순위를 매겨, 기업 AI 실무자들이 적절한 솔루션을 비교 도입할 수 있도록 돕는다. 금융·공공·의료·법률·커머스의 5개 분야에 대한 한국어 RAG 성능을 평가한다. 답변 유사도·정확도를 판단하는 5개 평가도구로 RAG 성능을 평가해 신뢰도를 높이고 오차를 줄였다.

올거나이즈에 따르면 우선 분야별로 2~300페이지의 문서를 업로드 후, 각 분야 사용자가 할 법한 질문 60개를 생성했다. 질문별로 RAG가 생성한 답변에 대해 5개 평가도구 중 3개 이상에서 오류가 없을 경우 '이상 없음'으로 판명한다. 해외 RAG 리더보드의 경우 일반적으로 1~2개의 평가도구만 활용하고 있다.


올거나이즈는 '알리 RAG 리더보드'가 현재 공개된 RAG 리더보드 중 유일하게 RAG의 3개 구성요소를 모두 평가한다고 강조했다. 문서에서 글자·그림·표 등을 추출하고 읽기 쉬운 포맷으로 변경해주는 파서(Parser), 기업이 보유한 방대한 데이터 중 사용자가 원하는 대답을 즉시 찾아주는 리트리버(Retrieval), 새로운 지식과 학습 데이터를 토대로 LLM이 응답을 생성해내는 제너레이션(Generation)의 3개 요소로 구성됐다.
기업들이 어떤 RAG가 적합한지 성능평가를 제대로 하기 어렵다는 점을 고려해 테스트 데이터세트도 모두 공개했다. 실제 업무 문서에는 표·이미지 등이 복잡하게 얽혀있으므로 표·이미지 데이터도 테스트 데이터세트에 포함했다. 올거나이즈는 '엘라스틱서치'와 '덴스벡터'로 구성됐고 산업별 특화 데이터가 사전 학습된 RAG 솔루션 'RAG 2.0'을 개발·공급하고 있다.

이창수 올거나이즈 대표는 "AI 생태계에 기여하기 위해 테스트 데이터세트를 모두 공개했다. 이를 활용해 한국어로 된 다양한 RAG 솔루션 성능이 향상되기를 바란다"며 "대학 및 개인 연구자들은 AI 연구에 도움을 받을 수 있을 것이고, 기업들 역시 성능 좋은 RAG를 도입함으로써 업무 생산성 증대를 경험할 수 있을 것"이라고 말했다.팽동현기자 dhp@dt.co.kr


[ 저작권자 ⓒ디지털타임스, 무단 전재 및 재배포 금지 ]