Основы резервного копирования, аварийного восстановления и аппаратного резервирования.

Когда дело доходит до создания плана аварийного восстановления, в процессе реализации перед системным администратором встаёт масса задач, которые требуют тщательного внимания. Нужно подумать об аппаратном резервировании, решениях для архивации данных, программном обеспечении, которое может помочь в быстром восстановлении файлов и каталогов быстрее, чем более долгая процедура восстановления из резервной копии. Но не менее важно в том числе и подобрать лучшее решение для вашей организации в части резервного копирования, хоть эта задача и отнимет не мало времени.

Бэкапы

Не важно где расположены ваши сервера. В облаке или в своём собственном data-центре. Бэкап одинаково важен для всех. Потому что в случае когда произойдёт катастрофа (во первых - она обязательно произойдёт, а во вторых - она обязательно произойдёт внезапно) у вас на руках должен быть рабочий бэкап. И вот тут есть нюанс. Хороший бэкап - это полный бэкап вообще всех ваших данных, но ежедневное резервное копирование такого объема данных, потребует соответствующего количества места для размещения, что вообще не так-то просто обеспечить (в первую очередь с точки зрения стоимости). Разумный компромисс может быть найден путём использования одного из двух описанных ниже вариантов резервного копирования.

Дифференциальный бэкап можно использовать для резервного копирования данных, которые были изменены с момента когда была сделан последний успешный полный бэкап. Таким образом при появлении необходимости, мы восстановим только полную резервную копию, а затем наложим дифференциальную резервную копию. Этот вариант, очевидно, потребует больше времени для восстановления, но часто будет лучшим вариантом с точки зрения экономии дискового пространства.

Инкрементальный бэкап предоставляет возможность сделать файлы еще меньше. Инкрементальное резервное копирование предназначено для резервного копирования всех изменений, произошедших с момента последнего успешного полного, дифференциального или инкрементного бэкапа. Несмотря на то, что файлы инкрементального бэкапа намного меньше, здесь есть как положительные так и отрицательные стороны.

Положительные стороны заключаются в том, что резервное копирование будет происходить быстрее, и занимать меньше места на диске.

Отрицательный момент в том, что при выполнении восстановления из инкрементальной резервной копии вам сначала придётся восстановить первоначальную полную резервную копию, а затем каждую инкрементальную резервную копию по порядку.

Поскольку процедура выполнения резервного копирования выполняется намного чаще чем процедура восстановления, то большинство людей предпочитают выбирать инкрементальные бэкапы.

Одной из прорывных вещей в области резервного копирования в своё время стала Volume shadow copy (служба теневого копирования тома), поскольку позволяла выполнять резервную копию даже тех файлов, которые в данный момент используются. До её появления необходимо было сначала убедиться, что ни один пользователь не использует файлы, которые нужно забэкапить.

Снапшоты

Снапшоты еще один вариант резервного копирования, на который стоит обратить внимание. Преимущественно распространён в системах виртуализации.

Эта технология создает снимок всей системы в файл, который будет включать все системные и программные файлы. Когда сервер умирает, его можно быстро восстановить в рабочее состояние вместе со всеми файлами и системными службами, которые работали в это время.

Аварийное восстановление

Теперь, когда прошлись по основным возможным вариантам резервного копирования, давайте рассмотрим вопросы аварийного восстановления. Необходимо потратить время и деньги на тщательное планирование аварийного восстановления, чтобы обеспечить возможность восстановления работы бизнеса как можно быстрее.

Первое, что вам следует сделать, это проработать и составить с руководством оценку рисков. В процессе нужно ответить на ряд важных вопросов. Например, как долго организация может быть недоступна во время восстановления систем, как долго нам нужно хранить резервные копии и какие наиболее важные системы в нашей сети нам необходимо при восстановлении запустить в первую очередь.

В конечном итоге у вас на руках должен оказаться пошагово задокументированный план процесса восстановления систем, включая всё оборудование и поставщиков, необходимых для решения этой задачи.

В плане должны быть задокументированы различные уровни катастрофы, связанные с затронутыми системами, а также отдельный план для каждого из этих уровней. После создания надежного плана аварийного восстановления его следует тестировать не реже одного раза в год.

Типы резервных площадок для аварийного восстановления

Резервная площадка — место, где хранятся данные организации для обеспечения их доступности. Такие площадки могут быть физическими или облачными, предназначенными для восстановления данных и приложений в случае сбоев, повреждения данных или других непредвиденных ситуаций.

«Горячая» площадка. Полностью готовый к работе удаленный дата-центр, оснащенный аппаратным и программным обеспечением, а также актуальными копиями данных. В случае аварии операции могут быть немедленно переведены на площадку, что обеспечивает минимальное время простоя.

«Теплая» площадка. На площадке есть необходимое оборудование и возможности подключения, но она может не иметь актуальных данных. Переход на «теплую» площадку может занять больше времени, чем на «горячую».

«Холодная» площадка. Автономное помещение, зарезервированное для аварийного восстановления, но не имеющее необходимого оборудования. В случае аварии необходимо найти оборудование и восстановить данные, что делает процесс восстановления более длительным.

А напоследок давайте кратко поговорим о том, как вообще избежать аварийного восстановления. Везде в вашей сети и системах, где нужно обеспечить резервирование, должны применяться лучшие практики отказоустойчивости. Ведь как известно - профилактика всегда лучше лечения.

О чем следует подумать, чтобы обеспечить большую избыточность в вашей сети

  1. Обеспечение серверов двумя независимыми источниками питания
  2. Подключение к каждому источнику питания должно проходить через два разных UPS
  3. Контроль за созданием резервных копий
  4. Убедиться, что все необходимое для плана аварийного восстановления входит в резервные копии
  5. Проведение регулярных проверок целостности сделаных бэкапов
  6. Установить отказоустойчивую память. Некоторые серверы позволяют вам резервировать запасные планки памяти как набор на случай, если планка выйдет из строя.
  7. Составить подробный график мониторинга и обслуживания.
  8. Обеспечить резервирование сетевых устройств. Это потребует либо двух работающих в тандеме, либо одного, готового к аварийному переключению.
  9. Убедиться в стабильности работы систем кондиционирования и пожаротушения

Заключение

Аварийное восстановление — это важный процесс, и в зависимости от вашей организации он будет зависеть от типа резервного копирования, которое вы будете выполнять, и от того, будете ли вы инвестировать в удаленную площадку, готовую к работе в случае катастрофы. Все предприятия должны иметь подробный план аварийного восстановления, и в этот процесс следует вкладывать время и деньги, чтобы подготовиться на случай возникновения катастрофы в будущем.