[이슈&논란] 클라우드플레어 장애, 배민·LoL 등 국내외 서비스 '마비'…3주 만에 또 반복된 대형 인프라 취약점 '노출'

[뉴스스페이스=김정영 기자] 12월 5일 오후 5시 56분(한국 시간) 전 세계 콘텐츠 전송 네트워크(CDN) 업체 클라우드플레어가 대시보드 및 API 서비스 장애로 인해 국내외 주요 온라인 서비스들이 일시적으로 접속 불가 상태에 빠졌다.

guardian, bbc, reuters, techrepublic에 따르면, 약 16분 만에 복구됐지만 지난 11월 18일에도 유사한 대규모 장애가 발생한 바 있어 인터넷 인프라의 집중화와 안정성에 대한 논란이 다시금 확산되고 있다.

국내외 주요 서비스 일시 중단

장애 발생 당시 국내에서는 배달의민족(배민), 리그 오브 레전드(LoL), 업비트, 리멤버, 무신사, 올리브영 등이 영향을 받았다. 접속 시 '500 Internal Server Error'라는 메시지가 뜨며 서비스가 불안정해졌으며, 일부 이용자는 수분 동안 서비스 이용이 불가능했다.

우아한형제들 측은 "클라우드 서비스 장애로 당사 포함 여러 서비스가 영향을 받았고, 배민은 신속하게 복구했다"며 피해 고객 대상 보상 방안도 마련할 예정이라고 밝혔다. 업비트는 오후 6시 3분 장애를 공지한 뒤 23분 만에 정상화했다고 알렸다.

해외에서는 코인베이스, 클로드 AI, 퍼플렉시티, 줌, 링크드인, 서브스택 등이 일시적으로 접속 장애를 겪었으며, 챗GPT, 엑스(X), 스포티파이 등 글로벌 대표 온라인 플랫폼들도 지난 11월 18일 장애로 3시간 이상 중단된 바 있다.

클라우드플레어는 전 세계 인터넷 트래픽의 약 20%를 처리하는 것으로 알려져 있어, 소수 공급업체에 대한 과도한 의존이 인터넷 전체의 안정성에 큰 위험 요소가 되고 있다는 지적이 이어지고 있다.

장애 원인과 전문가 진단

클라우드플레어 측은 이번 장애가 외부 사이버공격이 아닌 웹 애플리케이션 방화벽(WAF)의 요청 해석 방식 변경 때문이라고 설명했다. 회사는 "이번 주 공개된 React Server Components의 업계 전반 취약점을 해결하기 위해 팀이 변경 사항을 적용했다"고 밝혔다.

지난 11월 18일 장애의 원인은 내부 시스템의 권한 설정 오류와 자동 생성된 구성 파일의 크기 과잉으로 인한 소프트웨어 시스템 크래시였으며, 이는 인터넷 트래픽 관리에 필수적인 기능의 자동화 과정에서 발생한 내부 오류였다.

인터넷 소사이어티의 라이언 폴크 정책 국장은 "CDN은 신뢰성 향상과 지연 시간 감소 등의 이점을 제공하지만, 너무 많은 인터넷 트래픽이 소수 공급업체에 집중되면 이들 네트워크가 단일 장애 지점이 돼 인터넷의 큰 부분에 대한 접근을 차단할 수 있다"고 경고했다. 실제로 이번 장애는 소비자와 기업 모두에게 디지털 서비스의 취약성을 다시 한번 각인시켰다.

업계 반응과 향후 대응

클라우드플레어는 향후 유사한 장애가 재발하지 않도록 내부 구성 파일의 검증을 강화하고, 글로벌 '킬 스위치' 기능을 확대해 신속하게 고장난 기능을 차단할 수 있도록 개선할 계획이라고 밝혔다. 전문가들은 인터넷 인프라의 다변화와 백업 시스템 확충의 필요성을 강조하며, 기업들은 단일 공급업체에 의존하는 구조를 재검토해야 한다고 조언한다.

이번 장애는 단순한 기술적 결함을 넘어, 디지털 시대의 인프라 안정성과 공급망 다변화의 중요성을 전 세계적으로 각성시키는 계기가 되고 있다.