디지털타임스

 


[K-폴리시, 최고 정책전문가가 말한다] 데이터 뱅크, 세계 최초로 도입하자

프린트 페이스북 트위터 카카오스토리
이경전 K정책플랫폼 이머징이슈위원장·경희대 경영대 교수
[K-폴리시, 최고 정책전문가가 말한다] 데이터 뱅크, 세계 최초로 도입하자
2016년 3월 딥마인드의 인공지능(AI) 시스템 알파고가 이세돌 9단을 4대1로 이긴데 이어, 2022년 11월 30일 오픈AI의 인공지능 서비스 챗GPT가 발표되었다. 세계는 인공지능 혁명기에 돌입했다. 국가적으로 미국과 중국은 초거대 AI를 뜻하는 프론티어 AI 경쟁에 돌입하였으며, 2023년에는 이 부문에서 3위권이라던 한국은 이제, 프랑스, 캐나다, 영국 등에 밀려 5위권 밖으로 밀려나간 상황이다.

챗GPT로 대표되는 초거대 AI 시스템은 인공지능 모델의 크기를 충분히 키우고, 이를 학습시킬 데이터를 최대한 모아서 학습에 사용하고, 이 초거대 AI 모델을 운용하며 추론시키는 초거대 성능의 컴퓨터 칩을 최대한 확보하여 만들어진 것이다. 그 결과 AI가 예상치 못한 지능을 보임을 발견하고 과학자들이 놀라면서 기뻐하는 중이다.

이러한 초거대 AI의 파라미터 수는 현재 1~2조 개로 추정되는데, 이러한 AI를 한번 만드는 비용은 컴퓨터 사용료 비용만 최소 1000억원정도에 시간은 6개월 정도 걸리며, AI의 최신 기술에 매우 능통한 동시에 초거대 AI 모델을 학습시키는 용기와 끈기를 가진 최고급 인력이 필요하다.

그런데, 1000억원을 쓴 AI 모델의 성능이 기대에 못미치면 이를 고치기가 어려워서 도자기를 깨듯이 AI 모델을 버려야 한다. 매우 자본과 인재 집약적이고, 실력과 운이 동시에 따라야 하는 고도의 과학, 공학, 경영 복합 연구개발의 결과이다.

한편 이러한 AI를 만드는데 필수적인 데이터와 관련된 문제가 발생하고 있다. 이미지 생성 AI 분야에서 제일 앞서가는 스태빌리티AI는 이미지 DB 회사 게티 이미지와 1조8000억 달러에 달하는 저작권 침해 소송에 걸려있다. 이에 스태빌리티AI의 창업자이자 CEO인 에마드 모스타크의 사임 소식이 들려오는 등 뒤숭숭한 상황이다.

오픈AI와 마이크로소프트(MS) 역시 미국의 대표 신문사인 뉴욕타임스(NYT)로부터 지난해 12월 소송을 당했다. 수백만 개의 기사를 허락 없이 AI 모델 학습에 사용하여 NYT가 수십억 달러에 달하는 손해를 봤다는 주장이다.

초거대 AI 전쟁에 참여하는 기업이나 국가는 세계 최우수급 AI 인재 확보, AI 학습과 추론에 사용될 반도체 기술과 실제 물량 확보, 이를 뒷받침할 자본, 그리고 학습과 운용에 사용될 데이터를 확보해야 한다.


국가의 가장 시급한 역할은 데이터 확보이다. 현재까지 초거대 AI는 주로 인터넷에 공개된 텍스트나 이미지 데이터를 가지고 만들어진 것이다. 그 과정에서 게티이미지나 NYT의 데이터가 섞여 들어가기도 한 것이다.
앞으로의 AI 개발은 이렇게 공개된 데이터뿐만 아닌 사적으로 소유하는(Proprietary) 데이터를 어떻게 사용할 것인가에 달려있다. 해결책은 연합 학습기술이다.

데이터 소유자가 AI 개발사에 데이터를 넘겨주지 않아도 AI를 학습시킬 수 있다. AI 개발사는 아직 학습되지 않은 빈(空) AI 모델을 데이터 소유자에게 보내서 그의 데이터로 학습시킨 후, 학습된 모델을 넘겨받을 수 있다. 이렇게 여러 데이터 소유자로부터 넘겨받은 AI 모델을 가중 평균하여 하나의 AI 모델로 만들면, 데이터를 한 곳에 집중시키지 않아도 고성능의 AI 모델을 만들 수 있다는 것이 과학적으로 증명되었다.

이에 기반하여 유럽에서는 일찍이 신약 개발 AI를 활용한 멜로디 프로젝트가 있었고, 같은 방법을 한국의 K-멜로디 프로젝트가 사용하고 있다.

이러한 연합 학습을 구체화하는 방법은 세계 최초로 한국에 데이터 뱅크 제도를 만들어 시행하는 것이다. 더글라스 노스는 재산권의 보호와 활용을 높이는 동시에 거래 비용을 줄이는 제도를 가진 사회가 번영한다는 것을 실증적으로 밝혀 노벨경제학상을 수상했다.

개인, 기업, 정부 등 모든 주체의 데이터를 보관하는 데이터 뱅크들을 설립하고, 이 뱅크들이 사회 주체를 대신하여 AI 회사와 계약을 맺고, 데이터를 AI 개발에 활용하게 함으로써 데이터를 보호하는 동시에 활용을 높이고, 거래비용을 줄이는 효과를 기대할 수 있다. 이는 노스 교수가 말하는 번영의 조건이 충족됨을 의미한다.


[ 저작권자 ⓒ디지털타임스, 무단 전재 및 재배포 금지 ]