Участник:Joparino/Кукушкин фильтр: различия между версиями

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 11:11, 15 июля 2022

Кукушкин фильтр (англ. cuckoo filter) — это эффективная по памяти вероятностная структура данных, которая используется для проверки, принадлежит ли элемент множеству, подобно фильтру Блума. Возможны ложноположительные результаты, но не ложноотрицательные — другими словами, запрос возвращает либо «возможно, принадлежит множеству» или «точно не принадлежит». Кукушкин фильтр также позволяет удалять существующие элементы, что не умеет фильтр Блума (если не использовать вариант с подсчётом, требующий больше памяти). В дополнение к этому для приложений, которые хранят много элементов и нацелены на умеренно низкую долю ложноположительных результатов, кукушкин фильтр позволяет добиться меньших затрат по памяти, чем оптимизированный по памяти фильтр Блума^[1].

Кукушкин фильтр впервые был описан в 2014 году^[2].

Алгоритм

Кукушкин фильтр использует $n$ -канальную множественно-ассоциативную хеш-таблицу, основанную на кукушкином хешировании, для хранения цифровых отпечатков всех элементов (в каждой корзине хеш-таблицы может храниться до $n$ записей). В частности, два индекса потенциальных корзин $i$ и $j$ в таблице для данного элемента $x$ вычисляются с помощью следующих двух хеш-функций (называется кукушкино хеширование с частичным ключом, англ. partial-key cuckoo hashing)^[2]):

i=h_{1}(x)={\text{hash}}(x)

j=h_{2}(x)=h_{1}(x)\oplus {\text{hash}}({\text{fingerprint}}(x))

Применение двух вышеуказанных хеш-функций для построения кукушкиных хеш-таблиц позволяет перемещать элементы только на основе цифрового отпечатка, когда узнать исходный элемент $x$ невозможно. В результате при вставке нового элемента, который требует перемещения существующего элемента $y$ , другое возможное местоположение $j$ в таблице для элемента $y$ , вытесненного из корзины $i,$ вычисляется по формуле

j=i\oplus {\text{hash}}({\text{fingerprint}}(y))

Основанная на кукушкином хешировании с частичным ключом хеш-таблица может обеспечить как высокую степень использования (благодаря кукушкиному хешированию), так и компактность, поскольку сохраняются только цифровые отпечатки. Операции поиска и удаления просты. Существует максимум два местоположения, которые нужно проверить: $h_{1}(x)$ и $h_{2}(x)$ . Если элемент найден, соответствующая операция поиска или удаления может быть выполнена за время $O(1)$ . Более подробный теоретический анализ кукушкиного фильтра можно найти в литературе^[3]^[4].

Сравнение с фильтром Блума

Кукушкин фильтр похож на фильтр Блума тем, что они оба очень быстры и компактны, и оба они могут возвращать ложноположительные результаты:

Оптимальные по памяти фильтры Блума используют $1{,}44\log _{2}(1/\varepsilon )$ битов для каждого вставленного ключа, где $\varepsilon$ — частота ложноположительных срабатываний. Кукушкину фильтру необходимо $(\log _{2}(1/\varepsilon )+2)/\alpha$ , где $\alpha$ — коэффициент загрузки хеш-таблицы, который может быть равен $95{,}5\,\%$ в зависимости от настроек. Отметим, что теоретическая нижняя граница требует $\log _{2}(1/\varepsilon )$ битов для каждого элемента.
При положительном результате поиска оптимальный по памяти фильтр Блума требует константное количество $\log _{2}(1/\varepsilon )$ операций доступа к битовому массиву, в то время как кукушкин фильтр требует не более двух таких операций.
У кукушкина фильтра снижается скорость вставки после достижения порогового значения нагрузки, когда рекомендуется расширить таблицу. В фильтр Блума можно продолжать вставлять новые элементы, обратной стороной чего является высокая частота ложных срабатываний до расширения.

Ограничения

Из кукушкина фильтра можно удалять только те элементы, которые точно были вставлены ранее.
Вставка может завершиться неудачей, и потребуется заново вычислять хеш. Стоит отметить, что амортизированная сложность вставки по-прежнему $O(1)$ ^[5].

Ссылки

↑ Michael D. Mitzenmacher. Bloom Filters, Cuckoo Hashing, Cuckoo Filters, Adaptive Cuckoo Filters, and Learned Bloom Filters (неопр.).
↑ ¹ ² Fan, Bin; Andersen, Dave G.; Kaminsky, Michael; Mitzenmacher, Michael D. (2014). Cuckoo filter: Practically better than Bloom. Proc. 10th ACM International on Conference on Emerging Networking Experiments and Technologies (CoNEXT '14). Sydney, Australia. pp. 75—88. doi:10.1145/2674005.2674994. ISBN 9781450332798.
↑ Eppstein, David (22 June 2016). Cuckoo filter: Simplification and analysis. Proc. 15th Scandinavian Symposium and Workshops on Algorithm Theory (SWAT 2016). Leibniz International Proceedings in Informatics (LIPIcs). Vol. 53. Reykjavik, Iceland. pp. 8:1–8:12. arXiv:1604.06067. doi:10.4230/LIPIcs.SWAT.2016.8.{{cite conference}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
↑ Fleming, Noah (17 May 2018). Cuckoo Hashing and Cuckoo Filters (PDF) (Technical report). University of Toronto.
↑ Pagh, Rasmus; Rodler, Flemming Friche (2001). "Cuckoo hashing". Proc. 9th Annual European Symposium on Algorithms (ESA 2001). Lecture Notes in Computer Science. Vol. 2161. Århus, Denmark. pp. 121—133. doi:10.1007/3-540-44676-1_10. ISBN 978-3-540-42493-2.

Внешние ссылки

Probabilistic Filters By Example – A tutorial comparing Cuckoo and Bloom filters

Категория: Алгоритмы сжатия с потерями

[1] Michael D. Mitzenmacher. Bloom Filters, Cuckoo Hashing, Cuckoo Filters, Adaptive Cuckoo Filters, and Learned Bloom Filters (неопр.).

[CuckooFilter-2] ¹ ² Fan, Bin; Andersen, Dave G.; Kaminsky, Michael; Mitzenmacher, Michael D. (2014). Cuckoo filter: Practically better than Bloom. Proc. 10th ACM International on Conference on Emerging Networking Experiments and Technologies (CoNEXT '14). Sydney, Australia. pp. 75—88. doi:10.1145/2674005.2674994. ISBN 9781450332798.

[3] Eppstein, David (22 June 2016). Cuckoo filter: Simplification and analysis. Proc. 15th Scandinavian Symposium and Workshops on Algorithm Theory (SWAT 2016). Leibniz International Proceedings in Informatics (LIPIcs). Vol. 53. Reykjavik, Iceland. pp. 8:1–8:12. arXiv:1604.06067. doi:10.4230/LIPIcs.SWAT.2016.8.{{cite conference}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)

[4] Fleming, Noah (17 May 2018). Cuckoo Hashing and Cuckoo Filters (PDF) (Technical report). University of Toronto.

[CuckooHashing-5] Pagh, Rasmus; Rodler, Flemming Friche (2001). "Cuckoo hashing". Proc. 9th Annual European Symposium on Algorithms (ESA 2001). Lecture Notes in Computer Science. Vol. 2161. Århus, Denmark. pp. 121—133. doi:10.1007/3-540-44676-1_10. ISBN 978-3-540-42493-2.

[1]

[2]

[3]

[4]

[5]

@@ Строка 1: / Строка 1: @@
-'''Кукушкин фильтр''' ({{lang-en|cuckoo filter}}) — это эффективная по памяти [[вероятность|вероятностная]] [[структура данных]], которая используется для проверки, принадлежит ли элемент [[множество (тип данных)|множеству]], подобно [[фильтр Блума|фильтру Блума]]. Возможны [[ошибки первого и второго рода|ложноположительные результаты]], но не ложноотрицательные – другими словами, запрос возвращает либо «возможно, принадлежит множеству» или «точно не принадлежит». Кукушкин фильтр также позволяет удалять существующие элементы, что не умеет фильтр Блума (если не использовать вариант с подсчётом, требующий больше памяти). В дополнение к этому для приложений, которые хранят много элементов и нацелены на умеренно низкую долю ложноположительных результатов, кукушкин фильтр позволяет добиться меньших затрат по памяти, чем оптимизированный фильтр Блума<ref>
+'''Кукушкин фильтр''' ({{lang-en|cuckoo filter}}) — это эффективная по памяти [[вероятность|вероятностная]] [[структура данных]], которая используется для проверки, принадлежит ли элемент [[множество (тип данных)|множеству]], подобно [[фильтр Блума|фильтру Блума]]. Возможны [[ошибки первого и второго рода|ложноположительные результаты]], но не ложноотрицательные — другими словами, запрос возвращает либо «возможно, принадлежит множеству» или «точно не принадлежит». Кукушкин фильтр также позволяет удалять существующие элементы, что не умеет фильтр Блума (если не использовать вариант с подсчётом, требующий больше памяти). В дополнение к этому для приложений, которые хранят много элементов и нацелены на умеренно низкую долю ложноположительных результатов, кукушкин фильтр позволяет добиться меньших затрат по памяти, чем оптимизированный по памяти фильтр Блума<ref>
 {{Cite web
 | title = Bloom Filters, Cuckoo Hashing, Cuckoo Filters, Adaptive Cuckoo Filters, and Learned Bloom Filters
@@ Строка 28: / Строка 28: @@
 :<math>j = h_2(x)=h_1(x)\oplus\text{hash}(\text{fingerprint}(x))</math>
-Применение двух вышеуказанных хеш-функций для построения кукушкиных хеш-таблиц позволяет перемещать элементы только на основе цифрового отпечатка, когда узнать исходный элемент <math>x</math> невозможно. В результате при вставке нового элемента, который требует перемещения существующего элемента <math>y</math>, другое возможное местоположение <math>j</math> в таблице для элемента <math>y</math>, исключённого из корзины <math>i,</math> вычисляется по
+Применение двух вышеуказанных хеш-функций для построения кукушкиных хеш-таблиц позволяет перемещать элементы только на основе цифрового отпечатка, когда узнать исходный элемент <math>x</math> невозможно. В результате при вставке нового элемента, который требует перемещения существующего элемента <math>y</math>, другое возможное местоположение <math>j</math> в таблице для элемента <math>y</math>, вытесненного из корзины <math>i,</math> вычисляется по формуле
 :<math>j = i\oplus\text{hash}(\text{fingerprint}(y))</math>
-Основанная на кукушкином хешировании с частичным ключом хеш-таблица может обеспечить как высокую степень использования (благодаря кукушкиному хещированию), так и компактность, поскольку сохраняются только цифровые отпечатки. Операции поиска и удаления просты. Существует максимум два местоположения, которые нужно проверить: <math>h_1(x)</math> и <math>h_2(x)</math>. Если элемент найден, соответствующая операция поиска или удаления может быть выполнена за время <math>O(1)</math>. Более подробный теоретический анализ кукушкиного фильтра можно найти в литературе<ref>
+Основанная на кукушкином хешировании с частичным ключом хеш-таблица может обеспечить как высокую степень использования (благодаря кукушкиному хешированию), так и компактность, поскольку сохраняются только цифровые отпечатки. Операции поиска и удаления просты. Существует максимум два местоположения, которые нужно проверить: <math>h_1(x)</math> и <math>h_2(x)</math>. Если элемент найден, соответствующая операция поиска или удаления может быть выполнена за время <math>O(1)</math>. Более подробный теоретический анализ кукушкиного фильтра можно найти в литературе<ref>
 {{cite conference
 | first = David | last = Eppstein

Участник:Joparino/Кукушкин фильтр: различия между версиями

Текущая версия от 11:11, 15 июля 2022

Содержание

Алгоритм

Сравнение с фильтром Блума

Ограничения

Ссылки

Внешние ссылки

Навигация

Участник:Joparino/Кукушкин фильтр: различия между версиями

Текущая версия от 11:11, 15 июля 2022

Алгоритм

Сравнение с фильтром Блума

Ограничения

Ссылки

Внешние ссылки

Навигация

Поиск