LG CNS가 AI(인공지능) 스피커와 챗봇 개발에 필수적인 AI 학습용 표준데이터 '코쿼드 2.0'을 공개하고 생태계 확장에 나선다.
LG CNS는 국내 최초로 AI의 자연어 이해를 위한 한국어 표준데이터 10만여 개를 제작해 국내 AI업계에 무료로 개방한다고 5일 밝혔다.
언어 AI 개발을 위해서는 학생들이 공부하는 교과서와 비슷한 개념인 AI 학습용 표준데이터가 필요하다. 해외에서는 미 스탠퍼드대학, 마이크로소프트 등이 제작한 영문 표준데이터가 AI 개발에 활용되지만 국내에서는 한국어 표준데이터가 없어 영문을 번역하거나 자체적으로 데이터를 확보해야 했다.
LG CNS는 지난해 12월 위키백과 정보를 기반으로 AI 학습용 한국어 표준데이터 7만개가 탑재된 '코쿼드 1.0'을 산업계에 공개해 오픈 커뮤니티의 호응을 받았다. 이후 네이버, 카카오 등 기업과 AI 현업 종사자 등 50여개 팀이 코쿼드를 이용해 AI 개발에 나섰다.
LG CNS는 5일 서울 마곡 LG사이언스파크에 국내 AI 전문가 300여 명을 초청해 AI 커뮤니티 행사 'AI 테크톡 포 NLU'를 열고 코쿼드 2.0을 선보였다. 2.0은 한국어 표준데이터를 7만개에서 10만개로 확대하고, 단답형에서 장문의 답변이 가능한 AI를 개발할 수 있도록 데이터를 강화했다.
AI가 표나 리스트 형태에 담긴 정보도 읽어 답변할 수 있도록 표준데이터 범위도 확대했다. AI 테크톡 포 NLU에는 한국전자통신연구원(ETRI), 서울대, 카이스트 등의 연구자와 교수들이 참가해 최신 기술정보를 공유했다.
LG CNS의 코쿼드를 활용해 개발된 AI 모델의 성능평가를 하고, 리더보드에 등재된 50여 개 팀 중 현재 1위를 기록 중인 네이버 클로바AI팀이 제작사례를 발표했다.
현신균 LG CNS CTO(최고기술책임자·부사장)는 "응용분야가 무궁무진한 AI 언어 개발 분야에서 내부적으로 쌓은 데이터를 업계 전체에 개방해 국내 AI 개방형 생태계 조성에 기여하고자 한다"고 밝혔다.