AI허브 유해표현 검출 모델 데이터 페이지. NIA 제공
AI허브 유해표현 검출 모델 데이터 페이지. NIA 제공
한국지능정보사회진흥원(NIA)과 한국정보통신기술협회(TTA)는 AI허브를 통해 대형언어모델(LLM) 학습용 데이터 내의 '유해 표현 검출 인공지능 모델 및 유해 표현 학습용 데이터'를 공개했다고 14일 밝혔다.

이번에 공개된 AI모델은 주어진 말뭉치 데이터 내에서 유해 표현을 검출하고 다양한 유해 표현 카테고리로 분류하는 기능을 수행할 수 있다. 해당 모델 및 데이터는 과기정통부 초거대AI 확산 생태계 조성 사업의 일환으로 LLM 데이터의 품질검증 과정에서 주요 특성 중 하나인 '유해성'을 측정하기 위해 개발했으며, 자체 성능 검증 결과 높은 정확도(80~90%)를 보였다.

이 AI모델에 학습시키기 위해 구축된 데이터는 유해 표현 검출용 데이터 20만 건과 유해 표현 카테고리 구분용 데이터 21만 건으로 구성됐다. 한국어 유해표현 오픈소스 데이터를 토대로 AI허브의 '온라인 구어체 말뭉치 데이터' 및 '지식그래프-투-텍스트 데이터'를 활용해 문체의 다양성(구어체·문어체) 확보에 중점을 뒀다.

또한, 국가인권위원회의 혐오 표현에 대한 안내서 등 신뢰할 수 있는 가이드라인을 참조해 유해 표현 및 유해 카테고리(11개)를 정의하고 이를 재가공해 데이터의 일관성과 신뢰성을 확보했다.

이번에 공개된 유해 표현 학습용 데이터 및 유해 표현 검출 AI모델은 AI허브에 개방돼 누구나 활용할 수 있다. LLM 관련 서비스 및 데이터 구축사업에 적용함으로써 AI가 생성하는 콘텐츠의 안전성 강화 및 다양한 산업분야에서 AI윤리 강화에 기여할 것으로 NIA는 기대한다.

황종성 NIA 원장은 "AI기술 발전은 기술적 진보뿐 아니라 사회적 책임을 담보할 수 있는 윤리적 고려가 반드시 병행돼야 하고, 이는 지속가능한 AI생태계 조성을 위한 핵심요소"라며 "이번 AI모델 및 데이터 공개가 한국어 LLM의 신뢰성 및 안전성을 강화하기 위한 계기가 될 것으로 기대한다"고 말했다.팽동현기자 dhp@dt.co.kr

[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]
팽동현

기사 추천

  • 추천해요 0
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0