인공지능(AI)의 기술의 핵심, 학습용 데이터 라벨링 시장을 선도하는 ‘㈜데이터메이커’

  • 프린트
  • 페이스북
  • 트위터
  • 카카오스토리


인공지능(AI)의 기술의 핵심, 학습용 데이터 라벨링 시장을 선도하는 ‘㈜데이터메이커’
사진= ㈜데이터메이커. 제공

지난해 7월 과기정통부의 디지털 뉴딜에 관한 추경예산을 자세히 살펴보면 7개의 사업 중에서도 가장 큰 규모인 2,925억의 예산이 투입된 '인공지능(AI) 학습용 데이터 구축사업'이 가장 먼저 눈에 띈다. 학습용 데이터 구축사업은 인공지능(AI)개발에 필수적인 양질의 데이터를 대규모로 구축하고 개방하는 사업이다. 정부는 작년 이에 관련된 총 150개의 과제를 공모하여 우수한 여러 기업과 다양한 프로젝트를 진행했는데, 그중에서도 대전도시철도공사와 지하철 역사 내 CCTV를 활용한 '이상행동 자동 감지 시스템'을 진행한 '㈜데이터메이커(대표 이에녹)'가 우수한 과제 성과를 올리며, 업계의 많은 주목을 받고 있다.

2018년 10월에 설립된 '㈜데이터메이커'는 인공지능(AI)의 학습용 데이터를 전문적으로 라벨링 하고 가공하는 기업으로 대한민국과 아프리카 가나에 데이터 랩을 운영 중이다. 인공지능은 학습용 데이터의 양과 품질에 따라서 그 완성도가 결정된다. 불과 몇 년 전만 해도 걸음마 수준이었던 인공지능은 그야말로 비약적인 발전을 거듭하고 있다. 매우 빠르게 발전하고 있는 인공지능 기술은, 더욱 높은 완성도를 요구하고 있다. 인공지능이 학습을 하기 위해서는 가장 먼저 데이터가 필요하다. 이미지 속의 사물이 '동물인지 사람인지' 혹은 '어떤 동물인지'를 구분하는 간단한 인공지능도 수없이 많은 데이터를 학습한 후에 비로소 완성된다. 이에 학습용 데이터의 양과 품질은 인공지능의 완성도에 막대한 영향을 끼친다.

그렇다면 학습용 데이터는 어떻게 만들어지는가? 아이러니하게도 스스로 학습하고 인간의 두뇌를 대신하는 인공지능을 위한 학습용 데이터의 가공작업은 이른바 '디지털 인형 눈알 붙이기'라고 불릴 정도의 단순 반복 수작업이다. 사람이 일일이 모든 데이터를 일일이 확인하면서 사진 속에 동물이 '고양이인지 개인지, 어느 위치에 있는지'를 라벨링 해야 한다. 이렇게 라벨링된 이미지를 인공지능이 학습하고, 스스로 판단하게 만드는 것이다. 이렇듯 인공지능의 학습지와 같은 역할을 하는 데이터를 구축하는 과정은 단순 작업의 반복이지만 절대적으로 인간의 지능과 사회적 경험을 필요로 한다. 따라서 저렴하면서 전문화된 인적 인프라를 구축하는 것이 이 사업의 가장 큰 경쟁력이 되고 있다.

㈜데이터메이커는 가나의 수도인 아크라(Accra)를 포함한 2곳에 데이터 연구소를 설립하여, 전문적인 데이터 라벨러를 교육하고, 이들을 적극 활용하여 인공지능 학습용 데이터를 구축하고 있다. 가나의 최저임금은 우리나라의 20분에 1 정도로 매우 저렴하다. 저렴하고 전문화된 인적 인프라는 ㈜데이터메이커의 가장 큰 경쟁력이 되고 있다. 이와 같은 강력한 경쟁력을 앞세워 국내외 다양한 인공지능 학습용 데이터 가공 사업을 진행하고, 이를 통해 더욱 많은 노하우를 쌓아가며 국내 인공지능 학습용 데이터 산업의 새로운 강자로 자리매김했다. 특히 지난해 대전도시철도공사와 컨소시엄을 맺고 진행한 '지하철 역사 내 이상행동 감지 시스템 구축' 과제에서 우수한 성과를 이끌어내며, 전국에 있는 관련 기관으로부터 폭발적인 관심을 받고 있다. ㈜데이터메이커는 엄청난 양의 지하철 역사 내의 영상을 모두 확인하고 라벨링하여, 폭행, 절도, 심정지와 같은 이상행동을 스스로 감지하면 관제실에 경고 알람을 보내는 인공지능 시스템을 개발했다. 대전도시철도공사는 이같은 성과를 적극적으로 활용하기 위해 시청역에 실제 서비스를 구축하고 운용 중이다. 전국 철도 및 지하철 역사 중에서 이와 같은 인공지능 시스템을 운용하는 곳은 대전 지하철의 시청역이 유일하다.

불과 이삼년 전부터 본격적으로 불붙기 시작한 인공지능 기술은 빠르게 발전하고 점점 고도화되고 있다. 이에 맞춰서 인공지능 학습용 데이터의 수준 역시 덩달아 높아지고 있다. 단순한 라벨링 작업에서 벗어나, 섬세하고 전문화된 지식과 장비를 요구하고 있다. ㈜데이터메이커는 가나에 전문 데이터 센터를 설립하고 전문화된 인력을 양성하여 보다 Ground Truth에 초근접한 데이터를 확보할 수 있는 시스템을 구축하는데 집중하고 있다.

국내의 데이터 라벨링 작업은 '크라우드 소싱'을 지향하며, 일반적으로 사용되고 있다. 크라우드 소싱은 다수의 외부 사람들을 온라인 웹 상에서 이용하는 작업이다. 내부인력으로는 작업량이 턱없이 부족하니 다수의 외부 인원들에게 데이터를 보내면, 각자의 집에서 라벨링 작업을 하고 비용을 받는 형식이다. 이는 한국형 뉴딜 전략을 추진하며, 일자리 창출의 효과까지 꾀하고 있는 정부의 정책과도 일맥상통한다. ㈜데이터메이커는 국내의 아웃소싱 작업을 통해 라벨링된 데이터를 1차로 확보하고. 이후 가나에 있는 값싸고 고도로 전문화된 인력을 통해 교차 검사를 추가로 진행하여, 데이터 라벨링의 정확도를 높였다. 제작 비용에 대한 가격경쟁력은 확보하고, 데이터의 품질은 극대화시킨 것이다.

㈜데이터메이커는 이와 같은 경쟁력을 기반으로 대기업 및 정부/공공기관으로부터 누적 50억원(2020년 7월 기준) 규모의 라벨링 사업을 수주받아 진행했다. 또한 작년 8월에는 인공지능 학습용 데이터 구축사업 약 400억 원 규모의 과제(자율주행, CCTV, 영상 콘텐츠, 기계 센서, 한국어 방언, 반려동물 건강)에 참여하였으며, 동년 11월에는 일일 데이터 처리량 50만 개(바운딩 박스 기준)를 달성하고, 사업에 참여한 데이터 라벨러 10,000명을 돌파했다. 독보적인 가격경쟁력에 다양한 사업을 수주하며 쌓은 노하우가 더해지며, 더욱 높은 경쟁력으로 이어졌다.

인공지능(AI)의 기술의 핵심, 학습용 데이터 라벨링 시장을 선도하는 ‘㈜데이터메이커’
사진= ㈜데이터메이커. 제공

2021년 데이터 라벨러 누적 지급액 15억 원을 돌파했고, 과학기술정보통신부 장관 표창으로 그 성과를 인정받았으며, '2021 데이터바우처 지원사업'에 공급기업으로 선정되었다. ㈜데이터메이커에 인공지능 학습용 데이터 구축사업을 신청하는 기업에는 7000만 원의 정부지원금이 주어진다. ㈜데이터메이커는 이와 같은 성과에 그치지 않고, 더욱 수준 높고 다양한 데이터 가공 서비스 사업을 적극 전개하고 있다. 고정밀 3D 라벨링 도구를 사용하여 모든 유형의 라이더(LiDAR)에 대해 '3D 포인트 클라우드 프레임' 전체의 객체를 시각화하고, 라벨링 및 추적하는 "3D LiDAR Point Cloud", 기존의 2D 형태에서 벗어난 진화된 형태로 x축, y축과 z축까지도 선형 라벨링을 할 수 있는 '3차원 폴리라인', 스마트 팩토리 분야에서 주로 획득하는 센서 데이터로 기록의 추세를 확인하고, 기계 고장 예측 모델링을 분석하여 고장의 가능성을 미리 경고하는 기술인 '기계신호 시계열 데이터' 등과 같은 고난도의 라벨링 기술이 가장 대표적이다.

최근 인공지능은 여러 분야에서 적극 활용되고 있다. 데이터 라벨링의 기술 또한 다양하게 발전되고 있다. 얼굴인식, 유튜브 구간 추천, 지능형 CCTV, 영상의 하이라이트 구간 추천 등에 활용되는 비디오 어노테이션(Vided Annotation), 사진에 있는 모든 픽셀을 다양한 class로 분류하고, 모든 픽셀이 어느 class에 속하는지 라벨링하여 자율주행 자동차의 인공지능 학습에 필수적으로 사용되는 시맨틱 세그멘테이션(Semantic Segmentation) 등 상당히 난해하고 전문적인 기술 및 장비를 요하는 작업들이 점차 많아지고 있다.

㈜데이터메이커는 이와 같은 고난도의 데이터 라벨링 작업이 미래에는 더욱 세분화되고 많아질 것으로 예상하고, 가나를 비롯한 아프리카에서 인공지능 학습용 데이터 전문 센터를 확산할 계획을 세우고 있다. 이에녹 대표는 "현재 국내에서는 고용창출의 효과를 극대화하기 위해 '크라우드 소싱'으로 간단한 라벨링 작업을 하고 있지만, 앞으로는 전문화된 장비와 인력이 필요한 시대가 곧 도래할 것이다. 이는 세계적인 추세다. 가장 적은 인건비와 영어를 공식 언어로 사용하는 가나와 주변의 아프리카 국가들이 데이터 라벨링을 위한 최고의 필드가 될 것이다"고 언급했다.

현재 인공지능 최대 시장인 미국에서는 주로 인도에서 데이터 라벨링 작업을 하고 있다. 저렴한 인건비에 영어를 사용하고, 그나마 인프라 구축이 쉬운 곳이 인도이기 때문이다. 가나는 인건비가 더욱 저렴하고, 국가 공식 언어가 영어일 정도로 모든 국민이 영어에 매우 능숙하다. 이에녹 대표는 20년간 가나에서 선교사로 활동한 부모님과 함께 오랫동안 가나에 머문 이력을 적극 활용하여, 가나를 최고의 데이터 라벨링 시장으로 키워나가겠다는 목표를 가지고 있다. 현재 가나의 데이터 랩에 상주하는 현지 전문 인력만 70명이고, 크라우드 라벨러로 활동 중인 인원은 수천 명이 넘는다. 이에녹 대표는 ㈜데이터메이커가 가진 가나의 인적/사회적 인프라를 더욱 극대화하여 미국 유럽 등의 해외 시장도 적극적으로 개척해 나갈 계획이다. 이 대표는 마지막으로 "당사는 가나 외에 다른 아프리카 지역까지 시장을 개방하는 것을 목표로 하고 있다. 최근 아프리카의 인터넷망이 구축되면서 사업 영역을 확장할 수 있는 여건이 조성되고 있다. 우리가 먼저 이곳의 인프라를 선점하고 가나를 비롯한 아프리카의 일자리 창출, 우수한 인공지능 기술 개발에 기여하며, 함께 동반성장을 이루어 나갈 것이다"고 언급했다.

정승훈기자 april24@dt.co.kr




[저작권자 ⓒ디지털타임스 무단 전재-재배포 금지]


가장 많이 본 기사