클라우드플레어 내부 오류가 대규모 인터넷 장애로

소수 IT인프라 의존 심화… 디지털리스크 분산 절실

클라우드플레어 네트워크상 5xx 오류 HTTP 상태 코드 양의 시간대별 변화. 회사에 따르면 원인이 된 봇 관리 시스템의 피처파일의 정상·비정상 버전이 번갈아 배포되며 복구에 시간이 더 걸렸다. 클라우드플레어 제공
클라우드플레어 네트워크상 5xx 오류 HTTP 상태 코드 양의 시간대별 변화. 회사에 따르면 원인이 된 봇 관리 시스템의 피처파일의 정상·비정상 버전이 번갈아 배포되며 복구에 시간이 더 걸렸다. 클라우드플레어 제공

정보기술(IT) 인프라 장애로 인공지능(AI) 서비스 챗GPT, 소셜미디어 X(옛 트위터), 인기 게임 리그오브레전드(LoL) 등 세계인의 일상과 함께하는 주요 온라인 기반 서비스가 동시에 먹통이 됐다.

디지털리스크를 분산하지 않은 결과가 초연결시대의 부작용을 낳고 있다는 해석이 나온다. IT 인프라가 소수의 대형 사업자에 집중된 데 따른 취약점이 다시금 노출됐다.

세계 웹 트래픽의 약 20%를 처리하는 글로벌 콘텐츠전송망(CDN) 기업 클라우드플레어의 네트워크에 장애가 발생하면서 한국시간 기준 18일 오후 8시20분부터 11시30분 사이 주요 온라인 서비스가 멈췄다. 레딧, 페이팔, 앤스로픽 클로드, 스포티파이 등 이용량이 많은 서비스들이 모두 먹통이 되면서 세계인의 일상도 큰 지장을 받았다.

당초 클라우드플레어는 분산서비스거부(DDoS) 등 사이버공격을 원인으로 추정했다. 하지만 복구과정에서 내부 설정 변경과 잠재된 버그가 결합돼 일어난 사태로 밝혀졌다. 데이터베이스(DB) 권한 변경으로 악성봇 관리 시스템이 쓰는 피처파일이 두 배(중복 입력)로 커졌는데, 그럼에도 기존처럼 자동 생성돼 네트워크 전반에 지속 배포되면서 읽기 오류가 발생했다. 소프트웨어(SW) 사전검증과 변경관리 부실이 낳은 인재(人災)다.

매튜 프린스 클라우드플레어 최고경영자(CEO)는 자사 홈페이지를 통해 “오늘과 같은 장애는 용납될 수 없다”며 “회사 전체 팀을 대표해 오늘 우리가 인터넷에 끼친 피해에 대해 사과한다”고 밝혔다.

최근 이런 대규모 장애 발생이 더욱 눈에 띄는 추세다. 지난해 7월에는 크라우드스트라이크의 보안 소프트웨어(SW) 패치 실수로 마이크로소프트(MS) 애저 클라우드와 연결된 전 세계 공항·병원·증시 등에 블루스크린(BSOD)이 뜨며 IT 대란이 벌어졌다. 또 지난달에는 세계 최대 클라우드 아마존웹서비스(AWS) 내 도메인네임시스템(DNS) 해석 오류가 대규모 장애로 번져 기업 1000여곳의 서비스가 차질을 빚기도 했다.

이번 클라우드플레어 장애도 마찬가지로 또한 특정 IT 인프라 집중에 따른 디지털리스크가 현실화한 사례다.

앞선 사고들에서 멀티클라우드를 통한 위험 분산으로 사이버복원력을 확보할 필요성이 제기됐듯, 이번엔 네트워크와 보안 또한 단일사업자에 의존하거나 종속되지 말아야 한다는 조언이 이어진다. 디지털 서비스의 영향력이 더욱 커지는 AI 시대를 위한 대비가 필요한 시점이라는 지적이 세계 곳곳에서 나왔다.

권헌영 고려대 정보보호대학원 교수는 “디지털리스크 분산 차원에서 IT 인프라 또한 가능한 다양하게 가져갈 필요성이 있다”면서 “경제적인 관점뿐 아니라 서비스 안정성과 연속성 확보를 위해서도 고려해야한다”고 짚었다.

팽동현 기자 dhp@dt.co.kr



[저작권자 ⓒ디지털타임스, 무단 전재-재배포, AI 학습 및 활용 금지]
팽동현

기사 추천

  • 추천해요 1
  • 좋아요 0
  • 감동이에요 0
  • 화나요 0
  • 슬퍼요 0