즐겨찾기 문화일보 PDF
     
이전목록다음
[알아봅시다] 기계번역의 시대
입력일: 2016-06-03
'번역하기' 클릭하면 척척 … 온라인 언어장벽 허문다
트래픽 80% 비영어권서 발생 … 다국어 번역 중요성 커져
사전 이용 규칙기반 모델과 말뭉치 활용 통계기반 원리 달라
단어 뉘앙스·문화까지 고려 … 일반SW와 운영 방식 차이



공책이 시커멓게 될 정도로 쓰고 또 쓰며 외웠던 영어단어인데도, 왜 정작 시험지에서 만나면 그토록 낯설기만 할까요. 게다가 영어로 길을 물어보는 외국인에게 마음속으로는 완벽한 문장으로 백번도 넘게 대답했지만 왜 입 밖으로 쏟아내질 못하는 걸까요. 하지만 이제 이렇게 언어가 발목을 잡는, 영어 근사하게 하지 못해 속상한 마음을 내려두어도 되게 됐습니다. 바야흐로 '인간이 사용하는 자연 언어의 번역, 즉 세계 각국 언어 간의 번역을 기계(computer)에 맡겨 처리하는' 기계 번역의 시대가 도래했기 때문이지요.

기업에서는 전 세계 소비자를 위해 쓰여질 설명서를 자동으로 번역하고, 사람들은 언어에 제한받지 않고 자신의 언어로 전 세계 사람들과 채팅할 수 있게 됩니다. 공상과학 영화 속 이야기가 아닙니다. 하나의 버튼을 클릭하는 것만으로도 전 세계 사람들과 언어의 장벽없이 소통할 수 있는 그런 세상, 기계 번역이 가져다줄 우리의 미래입니다.

◇17세기 미국 철학자 데카르트가 고안=기계 번역의 기원은 17세기로 거슬러 올라갑니다. 1629년 프랑스의 철학자 르네 데카르트는 표준이 되는 단어와 소리를 각 지역 언어에 적용하는 것을 제안했습니다. 각 언어의 비슷한 언어 패턴과 소리를 찾아 동시다발적인 번역을 한다는 것입니다. 현재처럼 컴퓨터로 언어를 번역하는 '기계 번역'의 근간은 1949년 미국의 수학자 워렌 위버를 통해 등장했습니다. 그러나 당시 기계번역 또한 사전을 찾아 단어를 목적 언어의 단어로 바꾸고, 문법 특성을 고려해 어순을 조절해 주는 이론에 머물러 있었습니다. 그러다 1954년에 미국 조지타운대와 IBM이 공동으로 러시아어를 영어로 번역하는 기술을 개발했습니다. 문법 규칙이 6개, 어휘가 250개인 단순한 시스템이었습니다. 물론, 이 정도 문법 규칙과 어휘로는 일반적인 내용을 번역하기에 매우 부족했습니다.

컴퓨터가 보편화 되기 시작한 1980년을 지나 1997년, 모바일 시대가 시작되면서 기계 번역의 중요성을 그 어느 때보다 중요해졌습니다. 전 세계에서 발생하는 페타바이트급의 데이터들은 모두 영어로만 쓰여지지는 않기 때문입니다. 이에 SDL코리아 관계자는 "인터넷 유저의 약 27%만 영어를 사용하고, 인터넷 인구의 80%와 소통하려면 20가지의 언어가 필요하다"며 "인터넷 트래픽의 약 80%는 비영어권에서 발생하고 인터넷 인구의 72%는 대부분의 시간을 자국어로 웹서핑한다"며 온라인상의 번역에 대해 강조했습니다. 또 인터넷 서비스회사인 넷크래프트의 조사에 따르면 웹사이트의 수가 2008년 4월 말 기준 1억7600만명에서 2013년 8월 기준 7억1700만명으로 증가했습니다.

이에 따라 다국어 웹 콘텐츠의 규모는 나날이 늘어가고, 기계번역 소프트웨어는 일상에서 기본적으로 필요한 애플리케이션이 됐습니다.

◇규칙기반과 통계 기반으로 나눠=현재 상용화된 기계번역 기술은 크게 규칙기반과 통계 기반으로 나뉩니다. 규칙기반의 번역기술은 규칙 기반의 기계 번역은 언어쌍마다 수많은 내부 언어 규칙과 엄청난 분량의 2개 국어 사전이 필요합니다. 번역 소프트웨어는 원문을 분석하여 임시 문구를 생성하는데, 이 문구는 대상 언어로 번역할 때 사용됩니다. 이 과정에는 형태학적, 구문론적, 의미론적 정보와 다수의 규칙에 맞는 광범위한 어휘 목록이 필요합니다. 번역 소프트웨어는 이런 복잡한 규칙들을 적용하고 나서 원문 언어의 문법 구조를 대상 언어로 바꿉니다.

통계 기반의 번역기술은 통계 기반의 기계 번역은 통계학적 번역 모델들을 이용합니다. 통계학적 번역 모델들은 1개 국어 및 2개 국어 말뭉치를 분석하여 얻은 변수들로부터 구축됩니다. 통계학적 번역 모델의 구축은 빠르게 진행되는 프로세스이지만 기존 다국어 말뭉치(코퍼스)에 대한 의존도가 매우 높습니다. 특정 도메인은 최소 2백만 단어의 말뭉치, 일반 언어는 이보다 더 많은 수의 말뭉치가 필요합니다.

이론상 통계 기반의 번역은 최소 품질역량에 도달할 수 있지만 대부분 회사들은 번역 모델의 구축에 필요한 대량의 기존 다국어 말뭉치를 보유하고 있지 않습니다. 또 통계 기반의 기계 번역은 컴퓨터의 성능에 크게 좌우되기 때문에 평균적인 번역 결과물을 얻기 위해서는 상당한 고가의 컴퓨터가 필요합니다.

그러나 번역이라는 것은 언어를 다루는 것이기 때문에 일반 소프트웨어의 운영방식과는 조금 차이가 있습니다. 사람이 번역하든 기계가 번역하든 원문의 내용이 번역문에 충실히 반영돼야 제대로 된 번역입니다. 겉으로 보기에는 번역이 쉬워 보일 수 있지만 실상은 그렇지 않습니다. 번역은 단순히 원문의 단어를 대상 언어의 단어로 바꾸는 작업이 아닙니다. 번역가는 문장 안의 모든 요소들을 해석하고 분석하여 각 단어가 다른 단어에 어떤 영향을 주는지 파악해야 합니다. 번역가는 문법, 문장 구조, 의미 등 원문 언어와 대상 언어의 언어 지식이 충분해야 할 뿐만 아니라 그 문화에도 친숙해야 합니다.

자료= 시스트란, 위키피디아

송혜리기자 shl@