Дедупликация: различия между версиями
[отпатрулированная версия] | [отпатрулированная версия] |
Спасено источников — 1, отмечено мёртвыми — 0. Сообщить об ошибке. См. FAQ. #IABot (v2.0beta14) |
Bezik (обсуждение | вклад) м стилевые правки по замеченному |
||
(не показано 9 промежуточных версий 6 участников) | |||
Строка 1: | Строка 1: | ||
'''Дедупликация''' (также ''дедубликация''; от {{lang-la|deduplicatio}} |
'''Дедупликация''' (также ''дедубликация''; от {{lang-la|deduplicatio}} — устранение дубликатов) — специализированный метод [[сжатие данных|сжатия массива данных]], использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования пространства [[система хранения данных|систем хранения данных]], однако может применяться и при сетевом обмене данных для сокращения объёма передаваемой информации. |
||
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные |
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные фрагменты информации ({{lang-en|chunks}}). По мере выполнения анализа сравниваются все новые и старые фрагменты. При выявлении дублирующегося фрагмента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся фрагментов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён. |
||
В отличие от применения традиционных алгоритмов сжатия, например [[LZ77]] или [[LZO]], позволяющих провести поиск дубликатов в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), алгоритмы дедупликации позволяют осуществлять поиск копий по большому массиву данных, в отдельных случаях — по всему пространству хранения (''глобальная дедупликация''). |
|||
== |
== Области применения == |
||
⚫ | Дедупликация способна сократить объём необходимого пространства для определённого набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остаётся неизменными с момента прошлой резервной копии. [[Резервное копирование|Системы резервного копирования]] могут использовать эту особенность, используя [[Жёсткая ссылка|жёсткие ссылки]] на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных. |
||
⚫ | Дедупликация способна сократить объём необходимого пространства для |
||
В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных. |
В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой [[пропускная способность|пропускной способности]] канала передачи данных. |
||
Также дедупликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедупликация позволяет условно выделить повторяющиеся |
Также дедупликация находит широкое применение в [[Виртуализация|системах виртуализации]], где дедупликация позволяет условно выделить повторяющиеся фрагменты данных каждой из виртуальных систем в отдельное пространство. |
||
== Ссылки == |
== Ссылки == |
||
* Fellows, Russ [http://www.evaluatorgroup.com/document/data-de-duplication-%E2%80%93why-when-where-and-how-infostor-article-by-russ-fellows/ Data Deduplication, why when where and how?] |
* Fellows, Russ [http://www.evaluatorgroup.com/document/data-de-duplication-%E2%80%93why-when-where-and-how-infostor-article-by-russ-fellows/ Data Deduplication, why when where and how?] {{Wayback|url=http://www.evaluatorgroup.com/document/data-de-duplication-%E2%80%93why-when-where-and-how-infostor-article-by-russ-fellows/ |date=20120429035531 }} |
||
* [https://web.archive.org/web/20130527124650/http://public.dhe.ibm.com/common/ssi/ecm/en/tsu12345usen/TSU12345USEN.PDF Data Footprint Reduction Technology Whitepaper] |
* [https://web.archive.org/web/20130527124650/http://public.dhe.ibm.com/common/ssi/ecm/en/tsu12345usen/TSU12345USEN.PDF Data Footprint Reduction Technology Whitepaper] |
||
* [https://web.archive.org/web/20100911194757/http://www.itnext.in/content/doing-more-less.html Doing More with Less by Jatinder Singh] |
* [https://web.archive.org/web/20100911194757/http://www.itnext.in/content/doing-more-less.html Doing More with Less by Jatinder Singh] |
||
{{compu-stub}} |
|||
[[Категория:Хранение данных]] |
[[Категория:Хранение данных]] |
Текущая версия от 11:17, 3 октября 2024
Дедупликация (также дедубликация; от лат. deduplicatio — устранение дубликатов) — специализированный метод сжатия массива данных, использующий в качестве алгоритма сжатия исключение дублирующих копий повторяющихся данных. Данный метод обычно используется для оптимизации использования пространства систем хранения данных, однако может применяться и при сетевом обмене данных для сокращения объёма передаваемой информации.
В процессе дедупликации во время анализа идентифицируются и запоминаются уникальные фрагменты информации (англ. chunks). По мере выполнения анализа сравниваются все новые и старые фрагменты. При выявлении дублирующегося фрагмента, он заменяется ссылкой на уникальное вхождение (или на него перенаправляется уже существующая ссылка), а пространство, занимаемое дубликатом, высвобождается. Таких повторяющихся фрагментов может попадаться очень много, благодаря чему объём, необходимый для сохранения массива данных, может быть сильно сокращён.
В отличие от применения традиционных алгоритмов сжатия, например LZ77 или LZO, позволяющих провести поиск дубликатов в пределах определённого буфера отдельного файла (так называемое «скользящее окно»), алгоритмы дедупликации позволяют осуществлять поиск копий по большому массиву данных, в отдельных случаях — по всему пространству хранения (глобальная дедупликация).
Области применения
[править | править код]Дедупликация способна сократить объём необходимого пространства для определённого набора файлов. Она наиболее эффективна в тех случаях, когда хранимые файлы мало отличимы или имеют много сходных элементов, например в случае резервных копий, где большинство данных остаётся неизменными с момента прошлой резервной копии. Системы резервного копирования могут использовать эту особенность, используя жёсткие ссылки на повторяющиеся файлы или копируя только изменённые файлы. Однако эти подходы могут оказаться мало полезными, если у большого блока данных (например, базы данных или архива почтовых сообщений) изменился только небольшой участок данных.
В передаче данных дедупликация может использоваться для сокращения передаваемой информации, что позволяет сэкономить на ширине необходимой пропускной способности канала передачи данных.
Также дедупликация находит широкое применение в системах виртуализации, где дедупликация позволяет условно выделить повторяющиеся фрагменты данных каждой из виртуальных систем в отдельное пространство.
Ссылки
[править | править код]- Fellows, Russ Data Deduplication, why when where and how? Архивная копия от 29 апреля 2012 на Wayback Machine
- Data Footprint Reduction Technology Whitepaper
- Doing More with Less by Jatinder Singh