셀렉트스타, 한국어 자연어 데이터셋 ‘클루’ 구축 참여

  • 프린트
  • 페이스북
  • 트위터
  • 카카오스토리


셀렉트스타, 한국어 자연어 데이터셋 ‘클루’ 구축 참여
셀렉트스타의 김세엽(왼쪽), 신호욱 공동대표 셀렉트스타 제공

크라우드소싱 기반 AI(인공지능) 학습데이터 구축 스타트업 셀렉트스타(대표 김세엽, 신호욱)는 한국어 NLP(자연어처리) 데이터셋 '클루(KLUE)' 구축에 참여했다고 밝혔다.

클루는 한국어 자연어 이해 평가 데이터셋(Korean Language Understanding Evaluation Benchmark)의 약자로, 한국어 언어모델의 공정한 평가를 위해 8개 종류의 한국어 자연어 이해 문제가 포함된 데이터 집합체다. 뉴스 헤드라인 분류, 문장 유사도 비교, 자연어 추론, 개체명 인식, 관계 추출, 형태소 및 의존 구문 분석, 기계 독해 이해, 대화 상태 추적 등이다. 뉴욕대, KAIST, 서울대, 연세대, 경희대, 서강대, 한밭대 등의 학계와 업스테이지, 네이버 클로바, 카카오엔터프라이즈, 스캐터랩, 뤼이드 등이 기관이나 개인 연구자 자격으로 7개월간 협업을 진행했다.

셀렉트스타는 전체 데이터셋 중 절반인 뉴스 헤드라인 분류(Topic Classification,TC), 문장 유사도 비교(Semantic Textual Similarity, STS), 자연어 추론(Natural Language Inference, NLI), 기계 독해 이해(Machine Reading Comprehension, MRC) 데이터셋을 구축했다. 셀렉트스타 주관의 '인공지능 데이터셋 지원사업(dataset.or.kr)'을 통해 KLUE 데이터셋 스폰서로도 참여했다.

KLUE 데이터셋은 영한 번역문이 아닌 일상생활에서 실사용되는 한국어 원문으로만 제작돼 한국어의 정확한 이해와 추론 능력을 평가할 수 있다. 특히 다양한 한국어 언어모델이 동일한 평가선상에서 정확하게 비교될 수 있는 평가기준과 토대가 된다는 점에서 의미가 있다. 클루는 또한 누구나 데이터에 접근, 활용할 수 있는 라이선스를 부착한 국내 최초 오픈 데이터셋이라는 점에서 의의가 있다.

김세엽 셀렉트스타 대표는 "코쿼드(KorQuad) 2.0에 이어 대표 한국어 NLP 데이터셋 구축에 참여해 기쁘고, 클루 데이터셋이 한국어 NLP 기술 발전에 큰 도움이 되기를 바란다"고 전했다.

한편, 셀렉트스타는 자체 수학적 알고리즘, 딥러닝 기술 등의 데이터 품질을 관리하는 기술력과 성장성을 인정받아 최근 '포브스 2021년 아시아 30세 이하 리더'에서 엔터프라이즈 테크놀로지 분야 대표로 선정된 바 있다. 안경애기자 naturean@dt.co.kr




[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]


가장 많이 본 기사