업무 마감 직전, 스토리지가 갑자기 다운됐다. 비상시를 대비해서 스토리지 컨트롤러는 2개를 사용하는데 2개 모두 동시에 죽었다. 로컬 디스크에는 프로그램이, 스토리지에는 메인 DB가 들어있는데. 스토리지 다운과 동시에 DB가 정지되고 DB 없이 할 수 있는게 거의 없다보니 결국 시스템도 정지됐다.
곧 비상이 걸렸고 복구에 들어갔다. 그런데 밤을 꼬박 새고 아침 7시가 넘었는데도 아무것도 못하고 있다. 기다리다 지쳐 정오께 상황을 자세히 설명해 달라고 하니 스토리지가 완전히 고장나는 바람에 스토리지 내부의 백업(미러링)도 인식되지 않아 데이터가 유실되었다고.
가장 중요한 데이터가 유실되었으니 쉽게 말 못하는 처지는 이해하지만 영업도 못하고 잘 되기만을 기도하면서 기약없이 기다릴 수 만은 없는일. 부장님이 결단을 내렸다.
"목요일 데이터 포기, 수요일 데이터로 복구"
비상이 재해로 바뀌고, 백업자료를 꺼냈다. 문제는 최종 전체백업이 2005년. 나는 입사후 두달동안 이전에 하던 그대로 운영하기만 해서 전체백업이 그렇게 오래 전이었는지 몰랐던 일이라 당황했다. 그렇더라도 손놓을 수는 없으니 일단 2005년 자료로 DB부터 다시 잡은 후 밤새 수요일자 백업된 데이터를 올렸다. (고객 데이터 만큼은 매일 안전하게 백업해 놓는다.)
하드웨어 복구와 데이터 복구로 이틀을 꼬박 새고 토요일 새벽부터 전 직원이 달라붙어 목요일 및 금요일 자료 재입력에 들어갔다. 백업목록에 빠진 자료(2005년 자료) 재작업 등의 삽질을 거쳐 저녁나절에야 재입력이 모두 끝났고 자료가 약간 맞지 않았지만 모두들 상태가 좋지 않아 일단 퇴근했다가 일요일에 다시 출근해서 완전히 맞췄다. 만세~
여기서 끝나면 해피했을텐데, 월요일 영업을 시작해보니 문제가 발생한 스토리지에서 지속적으로 문제가 발생했다. 근근히 버텼지만 수요일에는 컨트롤러가 스스로 수초~수분씩 죽었다 살아났다 오락가락하면서 모두의 간을 잔뜩 오그라들게 했다. 결국 수요일 밤, 임시 스토리지를 빌려 밤새워 데이터를 옮겼다.
동시에 새 스토리지 구매 결정. 그리고 금요일 새 스토리지 납품. 또다시 밤새워 데이터를 옮겼다. 덩달아 백업 룰도 교체하고 비상가동체제도 재정립하기로 했다.
원래 다른 업무도 많았는데 갑자기 고장난 기계 덕분에 일정 맞추기 힘들어졌다. 오늘도 휴일인데 일하고 있고 앞으로도 한동안(12월 중순까지) 여전히 야근과 휴일출근이 계속될 예정. 아우 졸려...

