ETRI, LLM 기반 신뢰형 코드 생성기술 개발
SW 갖춰야 품질·신뢰성 구현...C/C++ 데이터셋 구축
컴퓨터 소프트웨어 개발에 필요한 소스 코드의 품질을 인공지능(AI) 기술을 활용해 높일 수 있는 기술이 개발됐다.
한국전자통신연구원(ETRI)은 대규모 언어모델(LLM)을 활용해 소스코드를 보다 정확하고 안전하게 생성하는 ‘LLM 기반 신뢰형 코드 생성기술’을 개발했다고 10일 밝혔다.
기존 소스 코드 생성기술은 기능 구현에 초점을 맞춰 개발돼 왔다. 새로 개발된 기술은 단순히 소스 코드를 빠르게 만드는 수준을 넘어 개발자의 의도와 안정성·보안성 등 품질 요소까지 반영해 소프트웨어가 갖춰야 할 고품질 소스 코드 생성이 가능하다.
예를 들어, “로그인 기능을 만들어줘”라고 자연어로 명령하면 단순 인증 로직뿐 아니라, 입력 검증과 예외 처리, 계정 잠금 등 품질 관리 요소를 반영한 코드를 자동으로 생성한다.
파일 처리 기능의 경우에도 대용량 데이터 처리 효율과 메모리 관리 등 성능 요소를 고려해 코드를 만들어 준다.
AI를 활용해 소스 코드 생성 능력을 한층 고도화한 것이라고 연구팀은 설명했다.
연구팀은 이와 함께 C/C++언어에 특화된 대규모 학습 데이터셋도 자체 구축했다. C/C++ 언어는 운영체제, 반도체, 임베디드 시스템 등에 널리 쓰이지만 AI 학습용 데이터가 부족해 코드 생성 성능이 떨어지는 한계가 있었다.
연구팀은 코드 수집과 품질 평가, 명세 생성 등의 전 과정을 자동화한 데이터 구축 시스템을 개발, 약 4만 건의 고품질 C/C++ 특화 훈련 데이터셋을 확보했다.
이 데이터셋을 최신 AI 모델 4종에 적용한 결과, 모든 모델의 코드 품질이 향상됨을 확인했다. 훈련 데이터의 품질과 양이 AI 코드 생성의 핵심 요인임을 의미하는 결과라고 연구팀은 설명했다.
정영준 ETRI 온디바이스AI연구본부장은 “개발자와 기업뿐 아니라, 임베디드·자동차·로봇 등 다양한 산업 분야에서 활용될 것”이라며 “코드 품질과 보안성이 중요한 산업 환경에서 개발 속도와 효율성을 동시에 확보할 수 있어 국내 소프트웨어 개발 생태계 경쟁력 강화에 기여할 것”이라고 말했다.
이준기 기자(bongchu@dt.co.kr)실시간 주요뉴스
기사 추천
- 추천해요 0
- 좋아요 0
- 감동이에요 0
- 화나요 0
- 슬퍼요 0