Дедупликация: различия между версиями

[непроверенная версия]

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 11:17, 3 октября 2024

Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объёма передаваемой информации.

В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные фрагменты информации (англ. chunks). По мере выполнения анализа сравниваются все новые и старые фрагменты. При выявлении дублирующегося фрагмента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся фрагментов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.

В отличие от применения традиционных алгоритмов сжатия, например LZ77 или LZO, позволяющих провести поиск дубликатов в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), алгоритмы дедупликации позволяют осуществлять поиск копий по большому массиву данных, в отдельных случаях — по всему пространству хранения (глобальная дедупликация).

Области применения

Дедупликация способна сократить объём необходимого пространства для определённого набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остаётся неизменными с момента прошлой резервной копии. Системы резервного копирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.

В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.

Также дедупликация находит широкое применение в системах виртуализации, где дедупликация позволяет условно выделить повторяющиеся фрагменты данных каждой из виртуальных систем в отдельное пространство.

Ссылки

Fellows, Russ Data Deduplication, why when where and how? Архивная копия от 29 апреля 2012 на Wayback Machine
Data Footprint Reduction Technology Whitepaper
Doing More with Less by Jatinder Singh

@@ Строка 1: / Строка 1: @@
+'''Дедупликация''' (также ''дедубликация''; от {{lang-la|deduplicatio}} — устранение дубликатов) — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объёма передаваемой информации.
-'''Дедупликация данных''' — это [[технология]], при помощи которой обнаруживаются и исключаются избыточные [[Данные (вычислительная техника)|данные]] в дисковом хранилище. Например, путем замены повторных копий данных ссылками на первую копию. Это позволяет сократить объёмы физических носителей для хранения тех же объёмов данных.
+В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные фрагменты информации ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и старые фрагменты. При выявлении дублирующегося фрагмента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся фрагментов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
-Простой пример: при использовании централизованной корпоративной почтовой системы когда сотрудник отправляет письмо с вложенным файлом размером 1Мб двум своим коллегам, это письмо сохраняется 1) в папке "Исходящие" отправителя, 2) в папке "Входящие" двух получателей, 3) все это дублируется в резервной копии базы данных (как минимум в одной). Итого 6 копий - 6 Мб. После дедупликации остаётся 1Мб. Это пример дедупликации на уровне базы данных почтового сервера, в системах хранения эта технология реализована [http://blog.aboutnetapp.ru/archives/299 более сложным образом].
+В отличие от применения традиционных алгоритмов сжатия, например [[LZ77]] или [[LZO]], позволяющих провести поиск дубликатов в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), алгоритмы дедупликации позволяют осуществлять поиск копий по большому массиву данных, в отдельных случаях — по всему пространству хранения (''глобальная дедупликация'').
-Использование дедупликации данных активно развивается в области хранения данных резервного копирования, как среди аппаратных устройств ([[NetApp]] VTL и Nearstore, [[EMC]] Data Domain), так и для программных решений ([[Symantec]] Backup Exec 2010, и др.), так как, зачастую, в результате сохранения резервных копий, на устройствах хранения оказываются практически идентичные по содержимому файлы с минимальными изменениями в них. Использование дедупликации позволяет не только экономить пространство хранения, но и увеличивать скорость сохранения и восстановления данных, за счет меньшего объема считывания-записи данных резервных копий.
+== Области применения ==
-Другим активно развивающимся направлением, получающим большие выгоды от использования дедупликации, являются системы серверной виртуализации, так как содержимое множества образов виртуальных машин зачастую идентично на 80-90 и более процентов (одна и та же версия OS, с идентичным набором системных файлов, service packs и patch level). На сегодня пока только системы хранения компании [[NetApp]], использующие внутреннюю файловую систему [[WAFL]] имеют возможность реализовать дедупликацию на оперативных, primary хранилищах данных, без значительного негативного эффекта на их производительность. Использование дедупликации [[NetApp]] для хранилищ данных и образов виртуальных машин зачастую позволяет снизить хранимые объемы до 80-90%, без заметного снижения производительности, а, в ряде случаев, и повышает ее, так как дедуплицированный набор данных занимает меньше пространства в кэш-памяти системы хранения, и позволяет поместить в кэш значительно большие, чем без дедупликации, объемы данных.
+Дедупликация способна сократить объём необходимого пространства для определённого набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остаётся неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервного копирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
+В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных.
-== Ссылки ==
-* [http://nstor-it-news.blogspot.com/2010/06/open-source-opendedupsdfs.html Решения с открытым исходным кодом для дедупликации: Opendedup/SDFS]
+Также дедупликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедупликация позволяет условно выделить повторяющиеся фрагменты данных каждой из виртуальных систем в отдельное пространство.
-{{compu-stub}}
+== Ссылки ==
-[[Категория:Хранение данных]]
+* Fellows, Russ [http://www.evaluatorgroup.com/document/data-de-duplication-%E2%80%93why-when-where-and-how-infostor-article-by-russ-fellows/ Data Deduplication, why when where and how?] {{Wayback|url=http://www.evaluatorgroup.com/document/data-de-duplication-%E2%80%93why-when-where-and-how-infostor-article-by-russ-fellows/ |date=20120429035531 }}
-[[Категория:Базы данных]]
+* [https://web.archive.org/web/20130527124650/http://public.dhe.ibm.com/common/ssi/ecm/en/tsu12345usen/TSU12345USEN.PDF Data Footprint Reduction Technology Whitepaper]
+* [https://web.archive.org/web/20100911194757/http://www.itnext.in/content/doing-more-less.html Doing More with Less by Jatinder Singh]
+[[Категория:Хранение данных]]
-[[de:Deduplizierung]]
-[[en:Data deduplication]]
-[[fr:Déduplication]]

Дедупликация: различия между версиями

Текущая версия от 11:17, 3 октября 2024

Области применения

Ссылки

Навигация

Поиск