"크라우드소싱·모바일 플랫폼 결합 AI 데이터 수집·가공 속도 높일것"

KAIST 'E5 창업경진대회' 우승
딥러닝·수학적 알고리즘 활용
데이터 작업효율·품질 확 높여

  • 프린트
  • 페이스북
  • 트위터
  • 카카오스토리


"크라우드소싱·모바일 플랫폼 결합 AI 데이터 수집·가공 속도 높일것"
캐시미션 플랫폼을 통한 사진·영상 데이터 가공작업 사례. 셀렉트스타 제공


'데이터 콜라보' 현장을 가다

셀렉트스타


"크라우드소싱·모바일 플랫폼 결합 AI 데이터 수집·가공 속도 높일것"


"불특정 다수가 참여하는 크라우드소싱의 파워에 모바일 플랫폼의 유연성을 결합하면 AI(인공지능) 데이터 작업 속도를 크게 높일 수 있다. AI 개발자들이 80%의 시간을 데이터 수집과 라벨링에 쏟을 필요가 없도록 데이터 작업은 우리가 책임지겠다."

지난 29일 오후 서울 강남구 사무실에서 만난 김세엽(사진) 셀렉트스타 공동대표는 이같이 말했다. 셀렉트스타는 김세엽·신호욱 공동대표를 포함한 KAIST 출신 6명이 지난 2018년 KAIST 주최 'E5 창업경진대회'에 참가한 게 계기가 돼서 설립됐다. 이들은 AI 수요가 커질수록 데이터가 매우 많이 필요하다는 사실과, 광고를 보면 보상을 주는 리워드 앱 사용자들이 많다는 점에 착안해서, 사람들이 틈틈이 작업을 해서 돈을 벌 수 있는 AI 데이터 수집·가공 플랫폼을 아이템으로 대회에 참가했다.

김기준 카카오벤처스 부사장의 멘토링을 받으면서 한 학기 동안 작업한 창업 아이템으로 이들은 대회 우승을 차지했다. 그리고 대회가 끝나자마자 그해 11월에 창업에 도전했다. 김기준 부사장이 몸담은 카카오벤처스가 시드투자를 담당했다. 수개월 간의 플랫폼 개발과정을 거쳐 지난해 3월 AI 학습데이터 수집·가공을 위한 모바일 크라우드소싱 플랫폼 '캐시미션' 베타 서비스를 시작했다. AI 학습데이터를 필요로 하는 수요자가 데이터 생산을 의뢰하면 회사가 플랫폼에 등록된 모바일 작업자들에게 내용을 전달하고, 이들이 수행한 작업 결과를 취합하고 검수해 품질을 검증한 후 수요자에게 제공하는 방식이다.

회사는 특히 AI·딥러닝 기술을 적용한 반자동 라벨링 기술을 통해 작업 효율을 높였다. GPU(그래픽처리장치)를 쓰지 않고 CPU(중앙처리장치)만으로 빠른 추론이 가능한 경량화된 딥러닝 원천 모델을 개발해, 특정 영역에서 활용된 모델이 다른 분야에서도 적용되도록 했다. 예를 들어 공개된 도로사진 데이터로 학습한 모델을 실내 사진에도 적응하는 식이다.

딥러닝을 적용한 유사 데이터 수집 필터링 기술도 개발했다. 학습 데이터로 수집 가치가 없는 유사 데이터 수집을 걸러줘 최종적으로 만들어진 데이터의 품질을 높여준다. 최신 딥러닝 기술 대비 1.5배 높은 정확도로, 이 같은 기술을 적용한 것은 국내외 플랫폼 중 캐시미션이 유일하다는 설명이다.

AI를 위한 데이터 수요가 급증할 것이란 그들의 예상은 맞아떨어졌다. 데이터를 보다 빠르게 수집하고 가공하길 원하는 기업들이 회사의 문을 두드렸다. 캐시미션 플랫폼에는 약 5만명의 사용자가 등록돼 활동하고 있다. 회사는 지금까지 LG CNS, SK텔레콤, 네이버, 한국전자통신연구원, KAIST 등 120여 개 고객사를 확보했다.

특히 과기정통부와 한국데이터산업진흥원이 작년부터 진행한 데이터바우처 지원사업의 도움이 컸다. 데이터를 필요로 하는 스타트업들이 셀렉트스타를 통해 데이터를 수집·가공하고 있다. 회사는 지난해에 25개, 올해 80개 수요기업을 만나 데이터 수집·가공을 지원했다.

김 대표는 "우리의 차별점은 모바일 플랫폼을 통해 작업자들의 접근성을 향상시킨 것과, 수학적 알고리즘을 통해 데이터 품질수준을 높인 것"이라 면서 "모바일 플랫폼을 활용하면 출퇴근 중이나 집에서 쉬는 자투리 시간에도 참여할 수 있어, 같은 양의 작업도 더 많은 사람이 빠른 시간 내에 끝낼 수 있다"고 말했다.

작업이 끝난 데이터는 전수검사를 거치는데, 복수의 숙련된 작업자가 검수작업을 하면 수학적 알고리즘이 품질을 검증해 최종 결정을 내린다. 한 고객사는 파트타임 작업자를 뽑아 6개월 간 하던 작업을 셀렉트스타를 통해 한 달만에 더 정확하게 끝냈다는 게 김 대표의 설명이다.

김 대표는 "데이터 수집·가공 수요는 매우 다양한데, 수집은 사진이나 영상·음성 데이터가 많다"면서 "강아지 코 사진이나 음식 이미지, 사람 발 사진 등 다양한 이미지를 필요로 한다"고 말했다. 이어 "수집과 가공이 절반 정도 비중으로, 지금도 약 20개 프로젝트가 가동 중"이라고 설명했다.

네이버는 이미지 및 백과사전 검색엔진 품질평가를 셀렉트스타에 의뢰해 전체 품질을 검증했고, LG CNS는 기계독해 AI 모델 성능의 척도가 되는 한국어 질문·답변 데이터셋인 '코쿼드(KorQuad) 데이터셋2.0'을 셀렉트스타와 함께 구축했다. 회사는 한국정보화진흥원의 인도보행 영상 AI 데이터 구축사업에 참여해 전국 각지의 인도 보행영상 40만장을 구축하기도 했다. 한국전력과 KAIST AI연구센터는 전봇대를 구성하는 부품과 전선 데이터를 확보했다.

그동안 작업한 데이터는 1400만 건에 달하고, 6명이 시작한 회사는 54명으로 커졌다. 지난해에 14억원의 매출을 기록하며 실질적인 창업 첫해부터 이익을 내기 시작했다. 올해 매출은 60억원 가량으로 기대된다. 지난 8월에는 코오롱인베스트먼트, 컴퍼니K파트너스, 카카오벤처스로부터 40억원 규모의 시리즈A 투자도 유치했다. 지난 6월에는 서울 테헤란밸리 인근에 서울 지사도 열었다. 실력 있는 개발자를 확보하기 위한 결정이었다. 김 대표는 "우리의 꿈은 품질 1등의 '큰' 크라우드소싱 플랫폼을 만드는 것"이라 면서 "정말 많은 사람이 참여하고 싶어하고, 기업들이 필요한 데이터를 원할 때 구할 수 있는 플랫폼을 만들어가겠다"고 강조했다.

안경애기자 naturean@dt.co.kr




[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]


가장 많이 본 기사