“카카오팀도 돈 많이 벌어서 대륙별로 초절전 데이터센터를 분산 가동해 안전을 도모하겠다” 이 문장은 2012년 4월 28일 발생한 4시간의 카카오톡 서비스 장애 이후에 카카오가 올린 공지에 포함된 해명이다. 이로부터 10여년이 지난 2022년 10월 15일 경기도 성남 판교의 SK C&C 데이터 센터에서 화재가 발생, 카카오의 주요 서비스가 10시간 넘게 ‘먹통’이 됐다. 문제는 두 사건이 ‘데이터 센터 분산 운용 미흡’이 원인으로 꼽힌다는 점에서 유사하다는 것이다. 2012년 4월 28일 오후 3시께, 당시 가입자 4500만명을 자랑하던 카카오의 서비스가 완전 중단됐다.  카카오 측은 장애의 원인은 “서버에 갑작스러운 전력 계통 문제가 생겨서”라고 설명했다. 2012년 카카오톡은 모든 서버를 가산디지털단지에 위치한 LG CNS의 데이터 센터에서 운영했다. 당시 카카오측은 데이터센터(IDC) 운용사의 전력 장애를 원인으로, LG CNS는 이용 폭증이 원인이었을 수 있다고 엇갈린 주장을 펴기도 했다. 원인에 대한 시시비비와 별개로 당시 업계에서는 카카오가 보조 서버 등의 분산화 조치를 했다면 대규모 서비스 장애를 피할 수 있었을 것이라는 지적이 나왔다. 카카오는 이러한 지적을 의식한 듯, 사과문을 통해 “어서 돈 많이 벌어서 대륙별로 초절전 데이터센터를 분산 가동해 안전을 도모하겠다”고 밝혔다. 그때로부터 10년이 지난 2022년, 카카오는 서버를 분산화는 이뤘지만, 운용에는 미흡했던 것으로 보인다. 남궁훈, 홍은택 카카오 각자대표는 사과문을 통해 “카카오는 모든 데이터를 국내 여러 데이터센터에 분할 백업하고 있으며 외부 상황에 따른 장애 대응을 위한 이원화 시스템을 갖고 있다”며 “이번 화재 발생 후 카카오는 즉시 이원화 조치 적용을 시작했다. 다만 이번과 같이 데이터센터 한 곳 전체가 영향을 받는 것은 이례적인 상황으로 해당 조치를 적용하는데 예상보다 오랜 시간이 소요되고 있다”고 설명했다. 카카오는 서버 분산 조치는 이뤄졌지만, 메인 데이터 센터로 이용되던 판교 IDC에서 문제가 발생해 서비스 장애로 이어졌다는 입장이다. 16일 양현서 카카오 부사장은 데이터센터 화재 관련 간담회에서 “카카오는 4개의 데이터센터로 분산해 사용하고 있다. (이번에 화재가 발생한) 데이터 센터를 메인으로 사용했다. 서버 3만2000여대 전원 다운됐고, 물리적 훼손도 있었다. 화재 현장이기 때문에 진입해서 작동하는 게 어려웠다”며 “보통 카카오톡의 경우 장애 나면 20분 내로 해결 목표다. 3만2000대라는 서버가 전체가 다운되는 것은 IT 역사상 유례가 없는 사안이다. 그런 점에서 대처에 어려운 점이 있다”고 설명했다. 이어 양 부사장은 “안양, 판교에 서버가 나누어져 있는데 최대한의 예상 리스크 시나리오 준비했다고 생각했으니나 화재라는 건 예상할 수 없는 사고였다”라며 “화재가 나서 서버 전체가 내려가는 부분 대비는 조금 부족했던 것은 아닌가 싶다. 내부적으로 검토하고 철저히 조사해 대비책 마련하겠다”고 밝혔다.
주메뉴 바로가기 본문 바로가기