Дедупликация: различия между версиями
[непроверенная версия] | [непроверенная версия] |
м Исправлена орфографическая ошибка Метки: отменено через визуальный редактор |
м А. Каракашев переименовал страницу Дедупликация в Дедубликация поверх перенаправления: название с ошибкой |
(нет различий)
|
Версия от 12:57, 2 октября 2024
Дедубликация (от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
В процессе дедубликации во время анализа идентифицируются и запоминаются уникальные элементы информации (англ. chunks). По мере выполнения анализа сравниваются все новые и старые элементы. При выявлении дублирующегося элемента он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
Однако дедубликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедубликации производит поиск копий по огромному массиву данных.
Преимущества и области применения
Дедубликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. Системы резервирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
В передаче данных дедубликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.
Также дедубликация находит широкое применение в системах виртуализации, где дедубликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.
Ссылки
- Fellows, Russ Data Deduplication, why when where and how? Архивная копия от 29 апреля 2012 на Wayback Machine
- Data Footprint Reduction Technology Whitepaper
- Doing More with Less by Jatinder Singh
Это заготовка статьи об информационных технологиях и вычислительной технике. Помогите Википедии, дополнив её. |