[플레이데이터가 이 콘텐츠를 추천하는 이유]
백업과 아카이브. 둘의 차이를 아시나요? 둘의 차이를 제대로 인식하지 못하면 큰 곤란을 겪을 수도 있습니다.

백업 vs. 아카이브, 차이를 아는 것이 중요한 이유

백업 담당자를 졸도시키려면, 오래된 백업을 아카이브라고 하면 된다. 이는 RAID 어레이에 있는 데이터는 백업할 필요가 없다고 말하는 것과 마찬가지다. 그나마 다행인 것은 백업과 아카이브는 차이가 극명하며, 이해하기도 쉽다는 점이다.

Open filing cabinet with documents

1. 백업이란 무엇인가?

백업(Backup)은 데이터가 손상되거나 손실될 경우를 대비해 저장하는 데이터의 사본이다. 원본 데이터는 백업을 생성한 후에도 지우지 않는다.

백업의 범위는 데스크톱의 모든 데이터를 따로 저장하는 것부터 아이폰의 모든 사진을 아이클라우드에 복사하는 것까지 광범위하다. 또한 파일 서버(비정형 데이터)와 데이터베이스(구조화 데이터)도 백업한다. 백업은 데이터베이스 덤프나 베어메탈 백업의 서버 운영체제처럼 데이터에 중점을 둔다.

백업은 목적으로 정의되며, 백업의 목적은 언제나 똑같다.

사고가 났을 때 데이터를 복원(Restore)하는 것이다. 예를 들어 RAID 6 어레이는 3중 디스크 장애가 날 수 있고 이 때는 모든 데이터를 복원해야 한다. 누군가 실수로 또는 악의로 VM웨어나 AWS EC2 환경에서 가상머신을 지워버렸다면, 이 역시 복원해야 한다. 어느 날 회사의 모든 파일을 랜섬웨어가 암호화해 버렸다는 것을 발견한다면 어떨까? 백업 시스템이 없다면, 몸값을 내는 방법 밖에는 없을 것이다. 제대로 된 백업 시스템이 있다면, 먼저 랜섬웨어의 근원을 찾아 중단시키고, 데이터를 복원하면 된다. 해커에게 돈을 줄 필요가 없다.

2. 아카이브란 무엇인가?

아카이브(Archive)는 참고용으로 생성한 데이터 사본이다. 꼭 그래야 하는 것은 아니지만, 아카이브를 만든 후에는 원본 데이터를 지우곤 한다.

백업의 목적이 어떤 것을 정상 상태로 되돌리는 것이라면, 아카이브는 여러 목적이 있다. 가장 보편적인 것은 먼 과거의 데이터에서 일부 데이터를 찾는 것이다. 여러 해 전에 고객이 서명한 계약서처럼 아주 중요한 내용을 담은 파일 하나일 수도 있다. 아니면 얼마 전 무너진 건물의 설계도처럼 일련의 데이터일 수도 있다. 아니면 옛날에 만들어 사용했지만 지금은 구식이 된 부품의 CAD 도면일 수도 있다. 복고풍을 타고 다시 사용할 필요가 생긴 것이다.

데이터는 특정 시점을 증명할 수 있는 이메일이나 파일 같은 것이다.

한 직원이 부업을 해도 된다고 허락을 받았다고 생각했는데, 그 때문에 해고가 됐다. 직원과 회사 간 소송이 벌어진다면 퇴근 후 또는 부업을 하러 간 회사 이름 등이 포함된 모든 이메일에 대한 전자 증거 수집 요청이 나올 것이다. 적대적인 근무 환경을 증명하기 위해 특정 관리자로부터 받은 모든 메일을 보자고 할 수도 있다.

아카이브는 이 모든 작업을 완수하는 데 도움을 줄 것이다.

영업 주문이나 계약서를 담은 아카이브도 있다. 아카이브로 보존하면 쉽게 과거의 주문서 등을 되찾을 수 있다. 아카이브는 인덱스를 제공해 오래 된 콘텐츠에서 과거의 주문서나 계약서를 되찾을 수 있도록 해 준다.

일부 이메일 아카이브 시스템은 크기나 기간 등에 따라 이메일 서버에서 아카이브를 제거할 수도 있다. 이런 식으로 이메일 시스템을 최적화하면 컴퓨팅이나 스토리지 자원을 절감하는 것은 물론, 백업도 좀 더 쉽게 만들어 준다. 법적 규제에 따라 모든 이메일을 저장해야 하는 기업이 아니라면, 이 역시 아카이브의 목적 중 하나가 될 것이다.

3. 복원과 회수의 차이점

1차 스토리지를 절감하는 주된 목적이라고 해도, 아카이브라고 부르려면 데이터를 되찾아 올 수 있어야 한다. 백업 시스템은 데이터를 복원(Restore)하고 아카이브 시스템은 데이터를 회수(Retrieval)한다.

뭔가를 복원한다고 할 때 보통은 단일 파일이나 서버, 데이터베이스이다. 하지만 뭔가를 회수한다고 하면, 보통은 관련 데이터 모음이다. 이들 데이터는 동일한 서버나 동일한 형식으로 저장되어 있지 않을 가능성이 크다. 또한 복원은 특정 시점을 기준으로 이루어진다. 데이터베이스를 어제와 같은 상태로 복원하는 것이다. 하지만 회수는 일정 시간대를 사용한다. 예를 들어 지난 3년 간의 모든 이메일과 같은 방식이다.

복원을 하기 위해서는 데이터가 언제 어디에 저장되었는지 알아야 한다.

아니면 찾을 수도 없다. 데이터가 있던 서버 이름부터 데이터베이스나 디렉토리를 알아야 하고, 복원하려는 파일 이름이나 테이블, 마지막으로 본 날짜와 시간도 알아야 한다.

회수는 이런 정보가 없다. 그저 특정 파라미터와 일치하는 파일이나 기록이 필요하다는 것을 알 뿐이다. 특정 문구가 포함되어 있거나 특정 인물이 작성한 지난 3년 간의 모든 메일을 달라는 식이다.

4. 백업과 아카이브의 차이가 중요한 이유

많은 사람들이 백업 시스템을 아카이브 시스템으로 사용하려고 한다. 즉 수년 간의 데이터를 백업한다는 것이다. 첫 회수 요청을 받으면, 복원을 위해 만든 시스템에서 회수 작업을 한다는 것이 얼마나 어려운지 알게 될 것이다. 이 때문에 회수 작업은 엄청나게 긴 시간이 소요된다. 몇 분이면 될 작업이 몇 개월이 걸리고, 그만큼 비용도 엄청나게 든다.

만약 소송에서 전자 증거 수집 요청을 받아 회수 작업을 해야 하는데,

이를 기간 내에 완료하지 못하면 판사로부터 벌금이나 손해배상명령을 받을 수 있다. 법원의 단순한 요청을 만족하는 데 6개월이나 걸린다면, 판사는 뭔가를 숨기려는 의도로 볼 것이다. 소송에 질 수밖에 없다. 가장 악명 높은 사례가 모건 스탠리의 소송으로, 이들은 앞서 설명한 것 같은 이유로 수십억 달러를 잃었다.

백업을 아카이브처럼 쓰지 말라. 장기 보존 스토리지가 필요하다면 실질적인 아카이브 시스템을 찾아보라. 당장 비용이 들겠지만 장기적으로 그만한 값어치를 할 것이다.

[출처] ITWORLD


&nbsp