Windows 2012 включить дедупликацию

Дедупликация данных в Windows Server 2012

В Windows Server 2012 появилась новая функция Data Deduplication (Дедупликация данных). Что же такое дедубликация? Дедупликация данных в общем случае – это процедура поиска и удаления дублирующих данных на носителе информации без ущерба для целостности информации. Цель дудупликации – хранить информацию в небольших блоках (32-128 Кб), выявлять одинаковые (дублирующие блоки) и сохранять только одну копию для каждого блока, а блоки-дубликаты заменять ссылками на единственную копию.

Ранее для организации дедупликации приходилось использовать сторонние продукты (существуют как аппаратные решение по дедупликации на уровне дисковых массивов, так и программные на уровне файлов). Стоимость подобных решений была достаточно высока, ведь они в первую очередь ориентированы на богатых корпоративных заказчиков. Теперь эта функция абсолютно бесплатно доступна всем пользователям a Windows Server 2012.

В Windows Server 2012 функция дедупликация реализована в виде двух компонентов:

  • Драйвера–фильтра, который контролирует функции ввода/вывода
  • Службы дедупликации – контролирует три операции («Сборка мусора», «Оптимизация» и «Очистка»).

Указанные компоненты отвечают за поиск совпадающих данных, организации их хранения в единственном числе и корректное предоставление к ним доступа.

Ранее дедупликация в продуктах Microsoft встречалась в почтовом сервер Exchange 200/2003/2007 – в компоненте Single Instance Storage (на сервере в ящике одного из адресатов хранится только один экземпляр сообщения, а остальные адресаты получают просто ссылку на него).

Функционал управления дедупликацей доступен из графического интерфейса и через PowerShell. Рассмотрим оба варианта.

Windows Server 2012 Data Deduplication GUI

Чтобы включить дедупликацию данных нужно установить компонент Data Deduplicaion роли File and Storage Services. Сделать это можно из консоли Server Manahger.

После окончания установки компонента откройте консоль Server manager -> File and Storage Servcies -> Volumes –> и щелкните правой кнопкой по разделу, для которого хотите включить дедупликацию и выберите Configure Data Deduplication.

В следующем окне поставьте галочку на пункт “Enable data deduplication”. Здесь же можно указать каталоги, которые не нужно дедуплицировать и настройки планировщика дедупликации.

Текущий уровень дедупликации будет отображаться в столбце Deduplication Rate (обновится через несколько часов).

Для анализа использования дискового пространства и возможной экономии от включения дедупликаций для данного тома, разработана утилита DDPEVAL.exe. Оценить, сколько же дискового пространства получится сэкономить после включении Data deduplication, можно с помощью следующей команды (учтите, для больших томов она может создать существенную нагрузку на CPU)

В моем случае экономия составила бы порядка 57%.

Дедупликация с Powershell

Процессом дедупликации можно управлять и из Powershell. Для этого нужно установить функцию Data-Deduplicationс помощью команд:

После того, как функция дедупликации включена, ее нужно сконфигурировать. Чтобы включить дедуплликацию для диска D:, выполним команду:

По-умолчаию дедупликации подвергаются файлы, к которым не было доступа (Last Access)более 30 дней. Это значение можно изменить, например, на 2 дня, для этого выполните команду:

Обычно процесс дедупликации запускается планировщиком Windows, но его можно запустить и вручную:

Текущую статистику можно посмотреть с помощью команды:

Со списком текущих заданий можно познакомится с помощью команды:

Все результаты работы для тома можно отобразить командой PoSH:

И, наконец, полностью отменить дедупликацию для тома можно командой:

На скриншоте ниже видно, что после включения дедупликации на диске E: (для теста я сложил на него 4 одинаковых ISO с Windows 8), размер занятого места на диске уменьшился с 12 Гб до 3Гб.

Рекомендации по использованию технологии Data Deduplication в Windows Server 2012

Microsoft опубликовала следующие результаты исследования эффективности при дудупликации различных типов данных.

Типы данных Возможная экономия места
Общие данные 50-60%
Документы 30-50%
Библиотека приложений 70-80%
Библиотека VHD(X) 80-95%
Читайте также:  Icon pack для windows 10 minimalism

Основные особенности Data Deduplication в Windows Server 2012:

  • Работает только на NTFS томах и не подерживает файловую систему ReFS
  • Не поддерживается для загрузочных и системных томов
  • Не работает со сжатыми и шифрованными файлами NTFS
  • Поддерживает кеширование и BITS
  • Не поддерживает файлы меньше 32KB
  • Не настраивается через групповые политики
  • Не поддерживает Cluster Shared Volumes
  • Дедупликация – процесс не мгновенный и требует определённого времени

Выполнение дедупликации данных Running Data Deduplication

Применяется к: Windows Server (Semi-Annual Channel), Windows Server 2016 Applies to: Windows Server (Semi-Annual Channel), Windows Server 2016

Запуск заданий дедупликации данных вручную Running Data Deduplication jobs manually

Каждое запланированное задание дедупликации данных можно запустить вручную следующими командлетами PowerShell: You can run every scheduled Data Deduplication job manually by using the following PowerShell cmdlets:

  • Start-DedupJob : Запуск нового задания дедупликации данных. Start-DedupJob : Starts a new Data Deduplication job
  • Stop-DedupJob : Остановка задания дедупликации данных, которое уже выполняется (или удаляется из очереди). Stop-DedupJob : Stops a Data Deduplication job already in progress (or removes it from the queue)
  • Get-DedupJob : Показывает все активные и поставленные в очередь задания дедупликации данных Get-DedupJob : Shows all the active and queued Data Deduplication jobs

При запуске задания вручную доступны все параметры, доступные при планировании задания дедупликации данных, за исключением параметров планирования. All settings that are available when you schedule a Data Deduplication job are also available when you start a job manually except for the scheduling-specific settings. Например, чтобы запустить вручную задание оптимизации с высоким приоритетом и максимальным использованием ЦП и памяти, выполните следующую команду PowerShell с правами администратора: For example, to start an Optimization job manually with high priority, maximum CPU usage, and maximum memory usage, execute the following PowerShell command with administrator privilege:

Наблюдение за дедупликацией данных Monitoring Data Deduplication

Задание выполнено успешно Job successes

Так как дедупликация данных использует модель постобработки, важно, чтобы задания дедупликации данных выполнялись успешно. Because Data Deduplication uses a post-processing model, it is important that Data Deduplication jobs succeed. Простой способ проверить состояние последнего задания — использовать Get-DedupStatus командлет PowerShell. An easy way to check the status of the most recent job is to use the Get-DedupStatus PowerShell cmdlet. Периодически проверяйте следующие поля: Periodically check the following fields:

  • Для задания оптимизации проверьте LastOptimizationResult (0 = Успех), LastOptimizationResultMessage , и LastOptimizationTime (должны быть указаны последние). For the Optimization job, look at LastOptimizationResult (0 = Success), LastOptimizationResultMessage , and LastOptimizationTime (should be recent).
  • Для задания сбора мусора проверьте LastGarbageCollectionResult (0 = Успех), LastGarbageCollectionResultMessage , и LastGarbageCollectionTime (должны быть указаны последние). For the Garbage Collection job, look at LastGarbageCollectionResult (0 = Success), LastGarbageCollectionResultMessage , and LastGarbageCollectionTime (should be recent).
  • Для задания очистки целостности проверьте LastScrubbingResult (0 = Успех), LastScrubbingResultMessage , и LastScrubbingTime (должны быть указаны последние). For the Integrity Scrubbing job, look at LastScrubbingResult (0 = Success), LastScrubbingResultMessage , and LastScrubbingTime (should be recent).

Дополнительные сведения об успешном выполнении и невыполнении заданий можно найти в средстве просмотра событий Windows в разделе \Applications and Services Logs\Windows\Deduplication\Operational . More detail on job successes and failures can be found in the Windows Event Viewer under \Applications and Services Logs\Windows\Deduplication\Operational .

Уровни оптимизации Optimization rates

Одним из индикаторов сбоя при выполнении задания оптимизации является снижение скорости оптимизации. Оно может означать, что задания оптимизации не могут своевременно обрабатывать все изменения или обновления. One indicator of Optimization job failure is a downward-trending optimization rate which might indicate that the Optimization jobs are not keeping up with the rate of changes, or churn. Частоту оптимизации можно проверить с помощью Get-DedupStatus командлета PowerShell. You can check the optimization rate by using the Get-DedupStatus PowerShell cmdlet.

Get-DedupStatus имеет два поля, относящиеся к скорости оптимизации: OptimizedFilesSavingsRate и SavingsRate . Get-DedupStatus has two fields that are relevant to the optimization rate: OptimizedFilesSavingsRate and SavingsRate . Для отслеживания важны оба этих поля, но каждое из них имеет уникальное значение. These are both important values to track, but each has a unique meaning.

  • OptimizedFilesSavingsRate применяется только к файлам, которые находятся в политике для оптимизации ( space used by optimized files after optimization / logical size of optimized files ). OptimizedFilesSavingsRate applies only to the files that are ‘in-policy’ for optimization ( space used by optimized files after optimization / logical size of optimized files ).
  • SavingsRate применяется ко всему тому ( space used by optimized files after optimization / total logical size of the optimization ). SavingsRate applies to the entire volume ( space used by optimized files after optimization / total logical size of the optimization ).
Читайте также:  Mac os cursor linux

Отключение дедупликации данных Disabling Data Deduplication

Чтобы отключить дедупликацию данных, запустите задание отмены оптимизации. To turn off Data Deduplication, run the Unoptimization job. Чтобы отменить оптимизацию тома, выполните следующую команду: To undo volume optimization, run the following command:

Если том не имеет достаточно места для хранения неоптимизированных данных, задание отмены оптимизации завершится сбоем. The Unoptimization job will fail if the volume does not have sufficient space to hold the unoptimized data.

Часто задаваемые вопросы Frequently Asked Questions

Существует ли какой-либо доступный пакет управления System Center Operations Manager для отслеживания дедупликации данных? Is there a System Center Operations Manager Management Pack available to monitor Data Deduplication? Да. Yes. Дедупликацию данных можно отслеживать при помощи пакета управления System Center для File Server. Data Deduplication can be monitored through the System Center Management Pack for File Server. Дополнительные сведения см. в руководстве по пакету управления System Center для File Server 2012 R2. For more information, see the Guide for System Center Management Pack for File Server 2012 R2 document.

Записки IT специалиста

Технический блог специалистов ООО»Интерфейс»

  • Главная
  • Windows Server 2012. Дедупликация.

Windows Server 2012. Дедупликация.

Новые версии серверных ОС от Microsoft, кроме спорного интерфейса, содержат большое количество новых возможностей, многие из которых раннее были доступны только крупным предприятиям и требовали значительных финансовых затрат. Одна из таких возможностей — дедупликация, технология позволяющая по новому посмотреть на использование уже существующих систем хранения для предприятий любого масштаба.

Основная проблема с которой сталкиваются сегодня администраторы систем хранения, это стремительный рост хранимых данных, который требует все нового и нового дискового пространства. А если добавить сюда необходимость хранения резервных копий, архивов и т.п., то проблема рационального использования дискового пространства встает в полный рост.

В тоже время очень многие файлы содержат дублирующуюся информацию, а то и являются практически полными дубликатами. Это характерно для файловых серверов общего назначения, где различные сотрудники могут хранить практически полные или незначительно различающиеся копии одного и того же файла. В хранилищах резервных копий и архивах дублирование информации также может достигать существенных объемов.

Дедупликация позволяет найти одинаковые части файлов и хранить их в единственном экземпляре, заменяя данные ссылкой на дублирующийся блок. Windows Server 2012 разбивает файлы на небольшие блоки (32-128 Кб), находит среди них одинаковые и помещает их в специальное хранилище, избыточные копии блоков заменяются ссылкой на единственный экземпляр в хранилище.

Схематично дедупликацию можно представить следующим образом (одинаковым цветом помечены одинаковые области данных):

В зависимости от характера хранимой информации результат оптимизации может давать существенный выигрыш в дисковом пространстве, позволяя отложить увеличение емкости системы хранения, а, следовательно дополнительные материальные затраты.

Но данная технология не является панацеей, как нетрудно заметить, наибольший выигрыш будет на больших массивах данных, которые имеют много общих блоков и редко изменяются, для часто меняющихся данных дедупликация не даст никакого эффекта.

Наиболее подходящие кандидаты на дедупликацию:

  • Файловые сервера
  • Хранилища резервных копий и архивы
  • Хранилища инсталляционных файлов и иной информации использующейся преимущественно только для чтения
  • Библиотеки образов виртуальных машин

Не рекомендуется использовать дедупликацию для:

  • Узлов Hyper-V
  • SQL и Exchange серверов
  • Служб WSUS

В остальных случаях требуется предварительный анализ и взвешивание всех возможных плюсов и минусов. Из общих рекомендаций: не рекомендуется включать дефрагментацию на томах с интенсивным вводом-выводом.

Читайте также:  Windows install boot sector

Также не следует заполнять дедуплицированные тома «под завязку», всегда необходимо иметь резерв на случай одновременного изменения большого объема дедуплицированных данных, чтобы не столкнуться с проблемой нехватки дискового пространства.

В Windows Server 2012 дедупликация поддерживается на уровне тома, в том числе допускается использование томов, расположенных во внешних хранилищах и подключенных по iSCSI. Не допускается дедупликация для системных томов и общих томов кластера (CSV).

Перейдем от теории к практике. Для включения дедупликации откроем Диспетчер серверов — Управление — Добавить роли и компоненты.

Затем выберем нужный сервер и, развернув роль Файловые службы и службы iSCSI, включим данную опцию. Закончим установку роли, перезагрузка сервера не потребуется.

Снова вернемся в Диспетчер серверов, слева выберем Файловые службы и службы хранилища — Тома. Теперь щелкнув правой кнопкой мыши на выбранном томе мы увидим опцию Настройка дедупликации данных.

Настройки просты и понятны: выбираем профиль, срок хранения файла для включения его в дедупликацию и исключения, как по расширению, так и по местам хранения. Например, мы исключили из дедупликации временную папку.

Отдельно стоит остановиться на возрасте файлов, выбирать этот параметр следует исходя из реальных условий, а именно интенсивности изменения данных и их объемов. После того как вы настроите дедупликацию, фоновая оптимизация будет производиться каждый час, поэтому если данные в течении этого времени будут активно изменяться, то система будет постоянно выполнять пустую работу. Слишком большие значения могут, наоборот, приводить к неэффективности процесса дедупликации, т.е. будут дублироваться довольно редко изменяемые данные.

Также имеет смысл более детально настроить расписание, чтобы служба дедупликации могла использовать ресурсы системы полностью в нерабочее время или периоды с малой нагрузкой.

В нашем случае мы настроили два расписания, одно позволяет выделять максимум ресурсов каждую ночь, с 22:00 до 8:00, второе полностью снимает ограничения на выходные.

В принципе на этом можно закончить, система сама выполнит все необходимые действия и через некоторое время у вас появится возможность оценить эффективность данной технологии применительно к вашей системе хранения. Также можно инициировать процесс дедупликации вручную. При этом стоит учитывать, что дедупликация будет выполняться с обычным приоритетом и правильно оценить необходимое для этого время. Средняя скорость дедупликации — 20 МБ/с или 72 ГБ в час, поэтому на больших объемах данных данный процесс может занять весьма продолжительное время.

Если вы используете дедупликацию для томов во внешнем хранилище, то также следует принять во внимание загрузку сети. Ниже показана сетевая активность при дедупликации iSCSI диска:

Если принять среднюю скорость за 150 Мбит/с, то получим скорость дедупликации 18,75 МБ/с, что соответствует заявленным Microsoft значениям.

Для запуска процесса дедупликации откройте консоль PowerShell и выполните команду (указав букву необходимого тома, в нашем случае это D:):

Контролировать ход выполнения задания можно командой:

Теперь самое время оценить эффективность данной технологии. В нашем случае целью дедупликации был том на SSD диске терминального сервера, хранящий информационные базы 1С:Предприятия. Так как данная организация предоставляет аутсорсинговые услуги по ведению бухгалтерского учета для небольших фирм, то имеется большое количество однотипных баз (около 40 баз Бухгалтерии 3.0 и примерно столько же Камина). В тоже время работа с базами не отличается особой интенсивностью: единицы-десятки документов в день.

Взвесив все за и против, мы пришли к решению, что дедупликация существенно не повлияет на производительность, но в тоже время поможет более оптимально использовать дорогостоящую емкость SSD диска. И мы не ошиблись, результат говорит сам за себя:

Также эффективность дедупликации можно оценить открыв оснастку Тома в Диспетчере серверов.

Степень дедупликации сильно зависит от характера данных, ниже показаны результаты для хранилища резервных копий виртуальных машин Hyper-V:

И файлового сервера общего назначения:

В любом случае результат можно назвать неплохим, так как даже 30-40% экономия в масштабах предприятия позволяет предотвратить вполне ощутимые затраты по наращиванию емкости системы хранения. Также дедупликацию можно рассматривать как серьезный аргумент к переходу на новое семейство серверных операционных систем от Microsoft.

Оцените статью