Дедупликация: различия между версиями

[непроверенная версия]

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 11:17, 3 октября 2024

Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объёма передаваемой информации.

В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные фрагменты информации (англ. chunks). По мере выполнения анализа сравниваются все новые и старые фрагменты. При выявлении дублирующегося фрагмента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся фрагментов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.

В отличие от применения традиционных алгоритмов сжатия, например LZ77 или LZO, позволяющих провести поиск дубликатов в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), алгоритмы дедупликации позволяют осуществлять поиск копий по большому массиву данных, в отдельных случаях — по всему пространству хранения (глобальная дедупликация).

Области применения

Дедупликация способна сократить объём необходимого пространства для определённого набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остаётся неизменными с момента прошлой резервной копии. Системы резервного копирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.

В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.

Также дедупликация находит широкое применение в системах виртуализации, где дедупликация позволяет условно выделить повторяющиеся фрагменты данных каждой из виртуальных систем в отдельное пространство.

Ссылки

Fellows, Russ Data Deduplication, why when where and how? Архивная копия от 29 апреля 2012 на Wayback Machine
Data Footprint Reduction Technology Whitepaper
Doing More with Less by Jatinder Singh

@@ Строка 1: / Строка 1: @@
-'''Дедубликация''' (от {{lang-la|deduplicatio}} — устранение дубликатов) — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
+'''Дедупликация''' (также ''дедубликация''; от {{lang-la|deduplicatio}} — устранение дубликатов) — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объёма передаваемой информации.
-В процессе дедубликации во время анализа идентифицируются и запоминаются уникальные элементы информации ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и старые элементы. При выявлении дублирующегося элемента он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
+В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные фрагменты информации ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и старые фрагменты. При выявлении дублирующегося фрагмента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся фрагментов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
-Однако дедубликацию не стоит путать с более традиционными алгоритмами сжатия, например [[LZ77]] или [[LZO]]. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедубликации производит поиск копий по огромному массиву данных.
+В отличие от применения традиционных алгоритмов сжатия, например [[LZ77]] или [[LZO]], позволяющих провести поиск дубликатов в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), алгоритмы дедупликации позволяют осуществлять поиск копий по большому массиву данных, в отдельных случаях — по всему пространству хранения (''глобальная дедупликация'').
-== Преимущества и области применения ==
+== Области применения ==
+Дедупликация способна сократить объём необходимого пространства для определённого набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остаётся неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервного копирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
+В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных.
-Дедубликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
+Также дедупликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедупликация позволяет условно выделить повторяющиеся фрагменты данных каждой из виртуальных систем в отдельное пространство.
-В передаче данных дедубликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных.
-Также дедубликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедубликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.
 == Ссылки ==
@@ Строка 17: / Строка 16: @@
 * [https://web.archive.org/web/20130527124650/http://public.dhe.ibm.com/common/ssi/ecm/en/tsu12345usen/TSU12345USEN.PDF Data Footprint Reduction Technology Whitepaper]
 * [https://web.archive.org/web/20100911194757/http://www.itnext.in/content/doing-more-less.html Doing More with Less by Jatinder Singh]
-{{compu-stub}}
 [[Категория:Хранение данных]]

Дедупликация: различия между версиями

Текущая версия от 11:17, 3 октября 2024

Области применения

Ссылки

Навигация

Поиск