지난 7월 마이크로소프트(MS) 클라우드 서비스의 대규모 장애로 인해 많은 기업들이 심각한 혼란을 겪었다. 특히 항공업계의 타격이 컸다. 발권과 예약 확인이 불가능해져 수기로 업무를 처리해야 했고, 이로 인해 승객들의 대기 시간이 길어지고 항공기 운항이 지연되는 사태까지 벌어졌다. 이번 사태를 통해 퍼블릭 클라우드 서비스 제공업체(CSP)에 발생한 장애에 의한 영향 범위가 글로벌하게 다양한 사업 분야와 업체에 미칠 수 있음을 여실히 보여줬다.
그러나 이 사태로 인해 클라우드 사용을 주저하거나 부정적인 인식을 가질 것이 아니라, 오히려 이번 사태를 반면교사 삼아 더욱 안전한 클라우드 인프라 수립 전략을 재검토하는 게 바람직하다.
장애의 근본 원인은 보안업체 크라우드스트라이크의 잘못된 보안 업데이트가 MS 윈도우 시스템을 사용하는 사용자들에게 배포됐기 때문이다. 이는 클라우드 서비스 자체의 문제라기보다는 연관 시스템 간 상호작용에서 발생한 문제로 볼 수 있다. 이처럼 클라우드 장애는 다양한 문제로 발생할 수 있는 것이다.
보다 안정적이고 신뢰할 수 있는 IT 인프라 구축을 위해서는 다음을 고려해야한다. 첫째, 장애 범위를 분리하고 최소화하는 전략이 필요하다. 망 분리와 멀티 클라우드 도입을 통해 단일 장애점(Single Point of Failure)을 제거하는 것이다. 망 분리로 네트워크를 물리적 또는 논리적으로 나눠 한 부분의 문제가 전체로 번지는 것을 막고, 멀티클라우드 전략으로 여러 클라우드 제공업체를 동시에 이용해 위험을 분산시킬 수 있다.
둘째, 클라우드 환경에서의 서비스 영향 범위를 사전에 파악하고 대비해야 한다. 클라우드 서비스들 간 상호의존성을 파악하고, 특정 인스턴스 장애에 의해 발생 가능한 서비스 장애도 파악하여 그 영향 범위를 최소화할 필요가 있다. 또한 클라우드 환경의 서비스 안정성을 높이고, 사용량 모니터링과 장애 발생 시 신속하게 대응할 수 있는 체계를 갖춰야 한다.
셋째, 고가용성(HA)과 재해복구(DR) 전략을 수립해 서비스 연속성을 보장해야 한다. HA로 사전에 여러 대의 서버를 준비해두어 한 서버에 문제가 생겨도 다른 서버로 바로 대체해 중단 없는 서비스를 제공하고, DR로 대규모 장애나 재난 상황이 발생하면 백업해둔 정보를 빨리 복구할 수 있도록 해야한다.
또한 주기적으로 업데이트되는 장애대응 계획을 수립하고, 정기적인 모의훈련을 통해 실효성을 검증해야 한다. 시스템 변경 작업 전에는 충실한 작업 계획과 충분한 테스트가 선행돼야 한다. 특히 보안패치 적용 전에는 철저한 사전 검토와 테스트가 필수적이다. 작업 실행 과정에서는 명확한 프로세스를 준수해 인적 오류를 최소화하는 것도 중요하다.
필자의 회사는 인천공항의 IT인프라 구축 파트너로 망분리 사업과 가상데스크톱(VDI) 사업 등에 참여했고, 최근 클라우드 인프라 구축사업을 진행한 바 있다. 다행히 이번 MS 클라우드 장애로 발생한 전세계 항공사 및 공항에 미친 영향에 비해 인천공항은 영향이 적었으나, 향후 발생할지 모를 위험에 대비해야할 것이다.
특히 공항과 같은 국가 주요 기반시설 IT인프라의 중요성은 아무리 강조해도 지나치지 않는다. 공공 인프라 안정성과 신뢰성은 국가 경제와 국민 생활에 직접적인 영향을 미치는 만큼 주요 국가 시설의 디지털 전환을 신중하게 접근해야하는 까닭이다.
MS 클라우드 장애로 대규모 클라우드 서비스 장애에 의한 잠재적인 위험성과 그 범위가 방대함을 체감했다. 안정적 시스템 디자인, 효과적인 DR 절차 수립 등 다양한 위험요소를 고려한 종합적인 클라우드 전략이 필요함을 교훈으로 얻었다.
클라우드 기반 서비스는 거스를 수 없는 시대의 흐름이다. 이번 클라우드 장애 사태로 인해 단순히 위험을 회피하는 기술적 과제에 함몰되지 말고, 디지털 시대의 생존에 필요한 전략 수립과 더욱 안정적이고 신뢰할 수 있는 IT 서비스를 위한 균형 잡힌 접근법 유지가 필요하다. 비즈니스 연속성과 국가 기간시설의 안정성을 보장하는 핵심요소로서 IT인프라 투자는 지속돼야 하겠다.