Эксперты в подборе IT-оборудования

Как и зачем производить дедупликацию данных на предприятии

29 Ноября 2019

Статья из серии, посвященной организации корпоративной IT-инфраструктуры: речь пойдет о дедупликации данных в компании.

В большинстве организаций файловый сервер является одним из самых неэффективных сервисов, если проанализировать соотношение важной информации со всем объемом данных, который хранится на жестких дисках. Иными словами, часто файловые сервера забиты дубликатами файлов и утратившими актуальность бэкапами. Это происходит из-за плохо организованной структуры хранения данных. Так, например, на сервере могут храниться шаблоны писем, договоров или коммерческих предложений, отличающихся буквально парой-тройкой бит информации: разные имена, даты, индексы и т.д. В результате файловые сервера в организациях распухают, начинают использовать колоссальные объемы для хранения на жестких дисках, увеличивается потребность в устройствах для хранения бэкапов и серьезно повышаются требования к производительности сетевой части инфраструктуры.


Служба дедупликации в Windows Server 2012 R2: алгоритмы и преимущества

Использование в качестве файлового сервера Windows Server, являющееся наиболее распространенным в небольших компаниях, долгое время не оставляло возможности для адекватного решения проблемы неоптимального использования места на дисках. Однако с выходом Windows Server 2012 R2 ситуация изменилась – был добавлен сервис для осуществления процесса дедупликации файлов на серверах.

Дедупликация – это один из способов сжатия корпуса данных, построенный на алгоритме, в процессе выполнения которого идентичные копии данных исключаются при сжатии. Этот метод имеет несколько сфер применения, в частности он помогает уменьшать объемы данных, передаваемых по сети, однако наибольшую популярность он имеет именно в контексте оптимизации пространства файловых серверов.

Во время осуществления дедупликации происходит анализ файлов, в ходе которого опознаются и запоминаются фрагменты данных установленного размера. Пока идет анализ, новые элементы, попадающие в поле зрения алгоритма, сравниваются друг с другом и, если среди них обнаруживаются дубли, то вместо них прописываются ссылки на уникальные вхождения, что ведет к разгрузке дискового пространства. Важно не путать дедупликацию с более ранними методами сжатия данных, такими как LZ77 и LZO, поскольку их алгоритмы ограничиваются поиском лишь в определенных буферах конкретного файла, в то время как дедупликация помогает находить копии по обширному информационному массиву.

Дедупликация в Windows Server 2012 R2 нужна именно для этого. Благодаря его использованию в случае замены в любом документе нескольких фраз и сохранению его как нового файла, место на сервере будут занимать только эти изменения, а не весь новый файл. Наиболее впечатляющие результаты дедупликации можно наблюдать на примере резервных копий, когда на файловом сервере хранятся, к примеру, регулярно записываемые бэкапы серверов – экономия места может превышать 50%.


Подводные камни дедупликации в Windows Server и рекомендации

Однако у любого сложного процесса есть свои подводные камни, и служба дедупликации Windows Server не является исключением – ее работа серьезно замедляет файловый сервер. Некоторые другие операционные системы отличаются тем, что их сервисы дедупликации позволяют сохранять информацию о дублях в оперативной памяти, а на диски записываются только данные об изменениях в файлах, благодаря чему дедупликация осуществляется на порядок быстрее, фактически «в реальном времени». Windows Server не может похвастаться такой расторопностью т.к. файлы сначала копируются на диски и лишь после этого сравниваются между собой – по определенному расписанию или в фоновом режиме. Впрочем, для не слишком перегруженных систем это обычно не является проблемой – а именно таковы системы небольших фирм, которые могут позволить себе иметь в штате компетентного системного администратора. В крайнем случае проводить дедупликацию можно в нерабочее время или лишь для наиболее чувствительных к изменениям групп файлов.

Регулярное выполнение процедуры дедупликации позволяет снизить объемы энтропии на файловых серверах и способствовать лучшему качеству их работы, что в конечном итоге должно играть на руку бизнес-процессам компании.

 
Поделитесь статьей в соцсетях   
 
Вам также может быть интересно

Товар добавлен в список сравнения
Перейти в сравнение
Продолжить просмотр
Подбираете сервер для 1С?
Подпишитесь на специальную серию писем про выбор и настройку сервера под 1С
Подписаться
Боитесь неправильно выбрать сервер?
Оставьте свой email, и мы пришлем чек-лист с 5 самыми распространенными ошибками
Получить чек-лист
Нажимая кнопку "Получить чек-лист", вы даёте согласие на обработку персональных данных
Заказать консультацию
IT-архитектор подберет сервер под вашу задачу
Заказать сервер
Мы свяжемся с вами в течение 15 мин
Заявка на лизинг