Дедупликация: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][отпатрулированная версия]
Содержимое удалено Содержимое добавлено
м А. Каракашев переименовал страницу Дедупликация в Дедубликация поверх перенаправления: название с ошибкой
отклонено последнее 1 изменение от А. Каракашев: обсуждалось (Википедия:К переименованию/25 марта 2016), новое переименование — через новое обсуждение на ВП:КПМ
Метка: ручная отмена
Строка 1: Строка 1:
'''Дедубликация''' (от {{lang-la|deduplicatio}} — устранение дубликатов) — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.
'''Дедупликация''' (также ''дедубликация''; от {{lang-la|deduplicatio}} — устранение дубликатов) — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.


В процессе дедубликации во время анализа идентифицируются и запоминаются уникальные элементы информации ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и старые элементы. При выявлении дублирующегося элемента он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и старые элементы. При выявлении дублирующегося элемента он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.


Однако дедубликацию не стоит путать с более традиционными алгоритмами сжатия, например [[LZ77]] или [[LZO]]. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедубликации производит поиск копий по огромному массиву данных.
Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например [[LZ77]] или [[LZO]]. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных.


== Преимущества и области применения ==
== Преимущества и области применения ==


Дедубликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
Дедупликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.


В передаче данных дедубликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных.
В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных.


Также дедубликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедубликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.
Также дедупликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедупликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.


== Ссылки ==
== Ссылки ==

Версия от 19:50, 2 октября 2024

Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования дискового пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объема передаваемой информации.

В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные элементы информации (англ. chunks). По мере выполнения анализа сравниваются все новые и старые элементы. При выявлении дублирующегося элемента он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся элементов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.

Однако дедупликацию не стоит путать с более традиционными алгоритмами сжатия, например LZ77 или LZO. Эти алгоритмы производят поиск в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), тогда как алгоритм дедупликации производит поиск копий по огромному массиву данных.

Преимущества и области применения

Дедупликация способна сократить объём необходимого пространства для определенного набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остается неизменными с момента прошлой резервной копии. Системы резервирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.

В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.

Также дедупликация находит широкое применение в системах виртуализации, где дедупликация позволяет условно выделить повторяющиеся элементы данных каждой из виртуальных систем в отдельное пространство.

Ссылки