개발자 콘퍼런스 '이프…' 개막 서비스 장애원인·재발방지 발표 철저한 시스템 이중·삼중화 추진
남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장. 이프 카카오 데브 2022 캡처
카카오가 '제2의 먹통 사태'를 방지하기 위해 향후 5년간 서비스 안정화 투자를 기존의 3배로 늘린다. 데이터센터와 재난복구시스템을 이중·삼중화하고 기존 개발조직과 분리된 별도의 IT(정보기술) 엔지니어링 전담조직을 꾸려 CEO(최고경영자) 직속으로 배치한다.
카카오는 7일 개발자 콘퍼런스 '이프 카카오 데브 2022'를 열고 지난 10월 15일 판교 SK C&C 데이터센터 화재로 인해 발생한 서비스 장애 원인 분석결과와 재발방지 대책을 공개했다.
카카오는 서비스 장애의 주요 원인으로 △데이터센터 간 이중화 미흡 △운영 도구·모니터링 시스템의 이중화 미흡 △인력과 자원의 부족을 꼽았다. 드러난 문제를 개선하기 위해 데이터센터를 이중·삼중화하고 인재 확보, 기술 개발 등에 힘을 쏟겠다는 방침이다.
먼저 시스템 전체 관점에서 철저한 이중·삼중화를 꾀한다. 카카오는 오는 2024년 사용을 목표로 총 4600억원의 예산을 들여 안산 데이터센터를 설립하고 있다. 안산 데이터센터에 24시간 무중단 운영을 위한 이중화 인프라를 구축하고 이를 전력, 냉방, 통신 등 3개 영역에 적용한다는 계획이다.
UPS(무정전전원장치)실과 배터리실은 방화 격벽으로 각각 분리 시공해 화재가 발생하더라도 나머지 시설 작동에 영향을 주지 않게 한다. 만일 배터리실에 화재가 발생할 경우 3중의 진화 방식을 작동한다. 밀폐된 전기 판넬별 개별 소화장치를 설치하는 한편 규정치 이상의 소화 가스를 비치하고 소화 가스가 부족한 상황에 대비해 예비 시스템을 구축한다. 소화 가스 진화 실패에 대비해 화재 발생 구간을 차단하고 냉각수를 채워 방염·방열이 가능하도록 한다.
IT 엔지니어링 전담 조직도 확대 편성한다. 현재 카카오의 IT 엔지니어링 조직은 개발조직 산하에 있지만 이를 CEO 직할 부문 규모로 격상하고 추가 인재 영입에 나선다. 특히 데이터센터, SRE, 데브옵스, 클라우드 개발 엔지니어 채용·육성을 공격적으로 진행할 계획이다. 대규모 장애에 대비한 재해복구 위원회를 신설하고 서비스의 연속성 확보를 최우선 임무로 하는 전담 조직도 준비한다.
BCP(업무연속성계획) 역시 강화한다. 외부 전문가들의 자문을 구해 객관적이고 구체적으로 BCP 취약성을 진단할 예정이다. BCP는 각종 자연재해나 인위적 사건 사고 등에도 불구하고 사업이 중단되는 상황을 최소화하기 위한 비상대응계획을 의미한다. 카오스 엔지니어링 등 주요 글로벌 기업들이 도입해 효과를 보는 영역에서 R&D(연구개발)도 진행한다.
DR(재해복구) 구조는 '삼중화+α'의 형태로 개선한다. 이를 토대로 3개 데이터센터 중 하나가 무력화되는 상황에서도 이중화를 담보하겠다는 구상이다. 카카오톡 메시지 전송 등 핵심 서비스는 단기간 내 복구를 위해 원격지 DR 데이터센터를 별도로 구축하는 방안을 검토한다. 이 밖에 전반적인 IT 엔지니어링 투자 규모를 대폭 확대한다.
카카오는 향후에도 서비스 안정성을 담보할 수 있는 방법을 지속적으로 고민한다는 구상이다. 남궁훈 카카오 비상대책위원회 재발방지대책 공동 소위원장은 "카카오의 부족한 이중화는 이중화의 역할을 다하지 못했고 결국 장애를 막지 못했다"며 "이미 사고는 발생했기에 조금은 늦었지만 지금이라도 반성하고 개선해 나가겠다"고 말했다. 그러면서 "카카오 ESG(환경·사회·지배구조)의 최우선 과제는 '우리의 서비스를 안정적으로 제공하는 것' 그 자체"라며 "앞으로도 서비스의 안정화가 카카오의 최우선 과제이고 사회적 책임이라는 것을 항상 명심하겠다"고 덧붙였다.
한편 이번에 카카오가 발표한 재발방지책에는 보상 방안은 담기지 않았다. 카카오는 현재 서비스 장애 피해 보상·지원을 위해 외부 전문가와 민간단체가 참여하는 '1015 피해지원 협의체'를 구성·운영 중이다. 지난 10월 19일부터 11월 6일까지 시행한 서비스 장애 피해 사례 접수는 총 10만5116건이다.