Поиск подстроки: различия между версиями

[непроверенная версия]

[отпатрулированная версия]

Содержимое удалено Содержимое добавлено

Линейный

Текущая версия от 11:43, 25 августа 2023

Поиск подстроки в строке — одна из простейших задач поиска информации. Применяется в виде встроенной функции в текстовых редакторах, СУБД, поисковых машинах, языках программирования и т. п.

В задачах поиска традиционно принято обозначать шаблон поиска как needle (с англ. — «иголка»), а строку, в которой ведётся поиск — как haystack (с англ. — «стог сена»). Также обозначим через Σ алфавит, на котором проводится поиск.^{[источник не указан 3291 день]}

Несостоятельность примитивного алгоритма

Если считать, что строки нумеруются с 1, простейший алгоритм (англ. brute force algorithm, naïve algorithm) выглядит так.

for i=0...|haystack|-|needle|
  for j=0...|needle|
    if haystack[i+j + 1]<>needle[j] 
      then goto 1
  output("Найдено: ", i+1)
  1:

Доказано, что примитивный алгоритм отрабатывает в среднем 2h сравнений^[1].

Для чего нужно так много алгоритмов?

На сегодняшний день существует огромное разнообразие алгоритмов поиска подстроки. Программисту приходится выбирать подходящий в зависимости от таких факторов.

Нужна ли вообще оптимизация, или хватает примитивного алгоритма? Как правило, именно его реализуют стандартные библиотеки языков программирования.
«Враждебность» пользователя. Другими словами: будет ли пользователь намеренно задавать данные, на которых алгоритм будет медленно работать? Существуют очень простые алгоритмы, оценка которых O(|haystack|·|needle|) в худшем случае, но на «обычных» данных количество сравнений намного меньше |haystack|. Только в 1990-е годы были созданы алгоритмы, дающие сложность O(|haystack|) в худшем случае и меньше |haystack| в среднем.
Грамматика языка может быть недружественной к тем или иным эвристикам, которые ускоряют поиск «в среднем».
Архитектура процессора. Некоторые процессоры имеют автоинкрементные или SIMD-операции, которые позволяют быстро сравнить два участка ОЗУ (например, rep cmpsd на x86). На таких процессорах заманчиво применить алгоритм, который просто бы сравнивал needle с haystack — разумеется, не во всех позициях.
Размер алфавита. Многие алгоритмы (особенно основанные на сравнении с конца) имеют эвристики, связанные с несовпавшим символом. На больших алфавитах таблица символов будет занимать много памяти, на малых — соответствующая эвристика будет неэффективной.
Возможность проиндексировать haystack. Если таковая есть, поиск серьёзно ускорится.
Требуется ли одновременный поиск нескольких строк? Приблизительный поиск? Побочные свойства некоторых алгоритмов (Ахо-Корасик, двоичного алгоритма) позволяют такое.

Как правило, в текстовом редакторе достаточно взять самый простой эвристический алгоритм наподобие Бойера — Мура — Хорспула — даже очень медленный ПК справится с поиском за доли секунды. Если же объём текста измеряется гигабайтами, либо поиск запущен на сервере, который обрабатывает множество запросов — приходится выбирать наиболее удачный алгоритм из доступных. Например, программы определения плагиата осуществляют онлайн-проверку, используя алгоритмы поиска подстроки среди большого количества документов, хранящихся в собственной базе.

Алгоритмы

Для сокращения обозначим:

|Σ|=σ — размер алфавита.
|haystack|=H — длина строки, в которой ведётся поиск.
|needle|=n — длина шаблона поиска.

Вычислительная сложность определяется до первого совпадения. Жирным шрифтом выделены важнейшие с практической точки зрения алгоритмы.

Основанные на сравнении как «чёрном ящике»

Во всех этих алгоритмах точка, где «иголка» не совпала со «стогом сена», не участвует в принятии решения. Это позволяет использовать стандартные функции сравнения участков памяти, зачастую оптимизированные на ассемблерном уровне под тот или иной процессор.

К этой категории относится и примитивный алгоритм поиска.

Название	Предв. обработка	Сложность		Примечания
Название	Предв. обработка	типичная	макс.	Примечания
Примитивный алгоритм	Нет	2H	O(Hn)
Алгоритм Бойера — Мура — Хорспула	O(n+σ)	~ 2H / σ^[2]	O(Hn)	Упрощённый до предела алгоритм Бойера — Мура; использует только видоизменённую эвристику стоп-символа — за стоп-символ всегда берётся символ haystack, расположенный напротив последнего символа needle.
Алгоритм быстрого поиска Алгоритм Санди	O(n+σ)	<H	O(Hn)	Также использует исключительно эвристику стоп-символа — но за стоп-символ берётся символ haystack, идущий за последним символом needle.

Основанные на сравнении с начала

Это семейство алгоритмов страдает невысокой скоростью на «хороших» данных, что компенсируется отсутствием регрессии на «плохих».

Название	Предв. обработка	Сложность		Примечания
Название	Предв. обработка	типичная	макс.	Примечания
Алгоритм Рабина-Карпа	O(n)	<H+n	O(Hn)	Хеширование позволяет серьёзно снизить сложность в среднем
Автоматный алгоритм Алгоритм Ахо-Корасик	O(nσ)	= H		Строит конечный автомат, который распознаёт язык, состоящий из одной-единственной строки. После небольшой модификации позволяет за один проход по haystack найти одну строку из нескольких.
Алгоритм Кнута-Морриса-Пратта	O(n)	≤ 2H		Один из первых алгоритмов с линейной оценкой в худшем случае. Модификация алгоритма Ахо-Корасик, строящая автомат неявно на основе префикс-функции.
Алгоритм Апостолико-Крошмора	O(n)	< H	≤1,5H
Алгоритм Shift-Or Bitap-алгоритм Двоичный алгоритм	O(n+σ)	=H·ceil(n/w)		Эффективен, если размер needle (в символах) не больше размера машинного слова (в битах, обозначен как w). Легко переделывается на приблизительный поиск, поиск нескольких строк.

Основанные на сравнении с конца

В этом семействе алгоритмов needle движется по haystack слева направо, но сравнение этих строк друг с другом проводится справа налево. Сравнение справа налево позволяет в случае несовпадения сдвинуть needle не на одну позицию, а на несколько.

Название	Предв. обработка	Сложность		Примечания
Название	Предв. обработка	типичная	макс.	Примечания
Алгоритм Бойера — Мура	O(n+σ)	<H	O(Hn)	Стандартный алгоритм поиска подстроки в строке. Считается наиболее эффективным алгоритмом общего назначения.^[3]
Алгоритм Чжу-Такаоки	O(n+σ²)	<H	O(Hn)	Алгоритм Бойера — Мура, оптимизированный под короткие алфавиты
Алгоритм Апостолико-Джанкарло	O(n+σ)	<H	≤1,5H	Одна из первых попыток получить <H в типичном случае и O(H) в худшем. Очень сложен в реализации.
Турбо-алгоритм Бойера — Мура	O(n+σ)	<H	≤2H	Один из наиболее эффективных алгоритмов, не дающих регрессии на «плохих» данных

Проводящие сравнение в необычном порядке

Название	Предв. обработка	Сложность		Примечания
Название	Предв. обработка	типичная	макс.	Примечания
Непримитивный алгоритм	const	<H	O(Hn)	Простой алгоритм, сравнивающий второй символ, затем начиная с третьего в режиме «чёрного ящика», и, наконец, первый. При n[1]≠n[2]^[4] и несовпадении на второй-третьей стадии — сдвиг на 2 вправо.
Алгоритм Райты Алгоритм Бойера — Мура — Хорспула — Райты	O(n+σ)	<H	O(Hn)	Эмпирический алгоритм, оптимизированный под английские тексты. Сравнивает последний символ, потом первый, потом средний, потом все остальные; при несовпадении — сдвиг по Хорспулу.

См. также

Примечания

↑ Brute force algorithm Архивная копия от 21 января 2009 на Wayback Machine (англ.)
↑ Horspool algorithm (неопр.). Дата обращения: 2 мая 2013. Архивировано 29 августа 2012 года.
↑ Boyer-Moore algorithm (неопр.). Дата обращения: 2 мая 2013. Архивировано 6 февраля 2013 года.
↑ Напомним, символы нумеруются с 1, как в Паскале.

Литература

Гасфилд Д. Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология = Algorithms on String, Trees, and Sequences. Computer Science and Computational Biology / Пер. с англ. И. В. Романовского. — 2-е изд. — СПб.: Невский Диалект, 2003. — 654 с. — ISBN 5-7940-0103-8, 5-94157-321-9, 0-521-58519-8.
Смит Б. Методы и алгоритмы вычислений на строках = Computing Patterns in Strings. — М.: Вильямс, 2006. — 496 с. — ISBN 5-8459-1081-1, 0-201-39839-7.
Окулов С. М. Алгоритмы обработки строк. — М.: Бином, 2013. — 255 с. — ISBN 978-5-9963016-2-1.

Ссылки

Большая подборка алгоритмов поиска подстроки (англ.)

[1] Brute force algorithm Архивная копия от 21 января 2009 на Wayback Machine (англ.)

[2] Horspool algorithm (неопр.). Дата обращения: 2 мая 2013. Архивировано 29 августа 2012 года.

[3] Boyer-Moore algorithm (неопр.). Дата обращения: 2 мая 2013. Архивировано 6 февраля 2013 года.

[4] Напомним, символы нумеруются с 1, как в Паскале.

[1]

[2]

[3]

[4]

@@ Строка 1: / Строка 1: @@
+<noinclude>{{к удалению|2021-12-05}}</noinclude>
-''[[Поиск информации]]'' — одно из основных использований [[компьютер]]а. Одна из простейших задач поиска информации — '''поиск точно заданной подстроки в строке'''. Тем не менее, эта задача чрезвычайно важна — она применяется в [[текстовый редактор|текстовых редакторах]], [[СУБД]], [[поисковая машина|поисковых машинах]]…
+'''Поиск подстроки в строке''' — одна из простейших задач [[Поиск информации|поиска информации]]. Применяется в виде встроенной функции в [[текстовый редактор|текстовых редакторах]], [[СУБД]], [[поисковая машина|поисковых машинах]], [[язык программирования|языках программирования]] и т. п.
-В задачах поиска традиционно принято обозначать шаблон поиска как ''needle'' ({{lang-en|«иголка»}}), а строку, в которой ведётся поиск — как ''haystack'' ({{lang-en|«[[wikt:искать иголку в стоге сена|стог сена]]»}}). Также обозначим через Σ алфавит, на котором проводится поиск.
+В задачах поиска традиционно принято обозначать шаблон поиска как ''needle'' ({{tr-en|иголка}}), а строку, в которой ведётся поиск — как ''haystack'' ({{tr-en|[[wikt:искать иголку в стоге сена|стог сена]]}}). Также обозначим через Σ алфавит, на котором проводится поиск.{{Нет АИ|4|1|2016}}
 == Несостоятельность примитивного алгоритма ==
+Если считать, что строки нумеруются с 1, простейший алгоритм ({{lang-en|brute force algorithm, naïve algorithm}}) выглядит так.
-Если считать, что строки нумеруются с 1, простейший алгоритм ({{lang-en|brute force algorithm, naïve algorigthm}}) выглядит так.
  for i=0...|haystack|-|needle|
-   for j=1...|needle|
+   for j=0...|needle|
-     if haystack[i+j]<>needle[j]
+     if haystack[i+j + 1]<>needle[j]
        then goto 1
    output("Найдено: ", i+1)
 :
-Простейший алгоритм поиска даже в ''лучшем'' случае проводит |''haystack''|&minus;|''needle''|+1 сравнение; если же есть много частичных совпадений, скорость снижается до ''O''(|''haystack''|·|''needle''|).
+Простейший алгоритм поиска даже в ''лучшем'' случае проводит |''haystack''|−|''needle''|+1 сравнение; если же есть много частичных совпадений, скорость снижается до ''O''(|''haystack''|·|''needle''|).
-Показано, что примитивный алгоритм отрабатывает в среднем 2''h'' сравнений<ref>[http://www-igm.univ-mlv.fr/~lecroq/string/node3.html Brute force algorithm]{{ref-en}}</ref>.
+Доказано, что примитивный алгоритм отрабатывает в среднем 2''h'' сравнений<ref>[http://www-igm.univ-mlv.fr/~lecroq/string/node3.html Brute force algorithm] {{Wayback|url=http://www-igm.univ-mlv.fr/~lecroq/string/node3.html |date=20090121190217 }}{{ref-en}}</ref>.
 == Для чего нужно так много алгоритмов? ==
 На сегодняшний день существует огромное разнообразие алгоритмов поиска подстроки. Программисту приходится выбирать подходящий в зависимости от таких факторов.
+# Нужна ли вообще оптимизация, или хватает примитивного алгоритма? Как правило, именно его реализуют стандартные библиотеки языков программирования.
 # «Враждебность» пользователя. Другими словами: будет ли пользователь намеренно задавать данные, на которых алгоритм будет медленно работать? Существуют очень простые алгоритмы, оценка которых ''O''(|''haystack''|·|''needle''|) в худшем случае, но на «обычных» данных количество сравнений намного меньше |''haystack''|. Только в [[1990-е]] годы были созданы алгоритмы, дающие сложность ''O''(|''haystack''|) в худшем случае и меньше |''haystack''| в среднем.
 # [[Грамматика (наука)|Грамматика]] языка может быть недружественной к тем или иным эвристикам, которые ускоряют поиск «в среднем».
-# Архитектура процессора. Некоторые процессоры имеют [[автоинкрементная операция|автоинкрементные]] или [[SIMD]]-операции, которые позволяют быстро сравнить два участка ОЗУ (например, <code>rep cmpsd</code> на [[x86]]). На таких процессорах заманчиво применить алгоритм, который просто бы сравнивал ''needle'' с ''haystack'' — разумеется, не во всех позициях.
+# [[Архитектура процессора]]. Некоторые процессоры имеют [[автоинкрементная операция|автоинкрементные]] или [[SIMD]]-операции, которые позволяют быстро сравнить два участка ОЗУ (например, <code>rep cmpsd</code> на [[x86]]). На таких процессорах заманчиво применить алгоритм, который просто бы сравнивал ''needle'' с ''haystack'' — разумеется, не во всех позициях.
 # Размер алфавита. Многие алгоритмы (особенно основанные на сравнении с конца) имеют эвристики, связанные с несовпавшим символом. На больших алфавитах таблица символов будет занимать много памяти, на малых — соответствующая эвристика будет неэффективной.
 # Возможность проиндексировать ''haystack''. Если таковая есть, поиск серьёзно ускорится.
 # Требуется ли одновременный поиск нескольких строк? Приблизительный поиск? Побочные свойства некоторых алгоритмов ([[алгоритм Ахо-Корасик|Ахо-Корасик]], [[Двоичный алгоритм поиска подстроки|двоичного алгоритма]]) позволяют такое.
-Как правило, в [[текстовый редактор|текстовом редакторе]] достаточно взять самый простой эвристический алгоритм наподобие [[алгоритм Бойера-Мура-Хорспула|Бойера-Мура-Хорспула]] — даже очень медленный ПК справится с поиском за доли секунды. Если же объём текста измеряется гигабайтами, либо поиск запущен на сервере, который обрабатывает множество запросов — приходится выбирать наиболее удачный алгоритм из доступных. Например, программы [[Определение плагиата|определения плагиата]] осуществляют онлайн проверку, используя алгоритмы поиска подстроки среди большого количества документов, хранящихся в собственной базе.
+Как правило, в [[текстовый редактор|текстовом редакторе]] достаточно взять самый простой эвристический алгоритм наподобие [[алгоритм Бойера — Мура — Хорспула|Бойера — Мура — Хорспула]] — даже очень медленный ПК справится с поиском за доли секунды. Если же объём текста измеряется гигабайтами, либо поиск запущен на сервере, который обрабатывает множество запросов — приходится выбирать наиболее удачный алгоритм из доступных. Например, программы [[Определение плагиата|определения плагиата]] осуществляют онлайн-проверку, используя алгоритмы поиска подстроки среди большого количества документов, хранящихся в собственной базе.
 == Алгоритмы ==
 Для сокращения обозначим:
 * |Σ|=σ — размер алфавита.
@@ Строка 39: / Строка 38: @@
 Вычислительная сложность определяется ''до первого совпадения''. '''Жирным шрифтом''' выделены важнейшие с практической точки зрения алгоритмы.
-=== Основанные на сравнении как «чёрном ящике» ===
+=== Основанные на сравнении как «[[Чёрный ящик|чёрном ящике]]» ===
+Во всех этих алгоритмах точка, где «иголка» не совпала со «стогом сена», не участвует в принятии решения. Это позволяет использовать стандартные функции [[memcmp|сравнения участков памяти]], зачастую оптимизированные на ассемблерном уровне под тот или иной процессор.
-Во всех этих алгоритмах сравнение строк является «[[чёрный ящик|чёрным ящиком]]». Это позволяет использовать стандартные функции сравнения участков памяти, зачастую оптимизированные на ассемблерном уровне под тот или иной процессор и не выдающие точки, в которой наступило несовпадение.
 К этой категории относится и примитивный алгоритм поиска.
@@ Строка 60: / Строка 58: @@
 |
 |-
-| '''[[Алгоритм Бойера-Мура-Хорспула]]'''
+| '''[[Алгоритм Бойера — Мура — Хорспула]]'''
 | ''O''(''n''+σ)
+| ~ 2''H'' / σ<ref>{{Cite web |url=http://www-igm.univ-mlv.fr/~lecroq/string/node18.html#SECTION00180 |title=Horspool algorithm<!-- Заголовок добавлен ботом --> |access-date=2013-05-02 |archive-date=2012-08-29 |archive-url=https://web.archive.org/web/20120829203936/http://www-igm.univ-mlv.fr/~lecroq/string/node18.html#SECTION00180 |deadlink=no }}</ref>
-| <''H''
 | ''O''(''Hn'')
-| Упрощённый до предела алгоритм Бойера-Мура; использует только видоизменённую эвристику стоп-символа — за стоп-символ всегда берётся символ ''haystack'', расположенный напротив последнего символа ''needle''.
+| Упрощённый до предела алгоритм Бойера — Мура; использует только видоизменённую эвристику стоп-символа — за стоп-символ всегда берётся символ ''haystack'', расположенный напротив последнего символа ''needle''.
 |-
-| '''[[Алгоритм быстрого поиска подстроки|Алгоритм быстрого поиска]]'''<br />=[[Алгоритм Санди]]
+| '''[[Алгоритм быстрого поиска подстроки|Алгоритм быстрого поиска]]'''<br>[[Алгоритм Санди]]
 | ''O''(''n''+σ)
 | <''H''
@@ Строка 74: / Строка 72: @@
 === Основанные на сравнении с начала ===
 Это семейство алгоритмов страдает невысокой скоростью на «хороших» данных, что компенсируется отсутствием регрессии на «плохих».
@@ Строка 90: / Строка 87: @@
 | <''H''+''n''
 | ''O''(''Hn'')
-| [[Хэширование]] позволяет серьёзно снизить сложность в среднем
+| [[Хеширование]] позволяет серьёзно снизить сложность в среднем
 |-
-| {{nobr|'''Автоматный алгоритм'''}}<br />=[[Алгоритм Ахо-Корасик]]
+| {{nobr|'''Автоматный алгоритм'''}}<br>[[Алгоритм Ахо-Корасик]]
 | ''O''(''n''σ)
 | colspan=2 align=center | = ''H''
@@ Строка 99: / Строка 96: @@
 | '''[[Алгоритм Кнута-Морриса-Пратта]]'''
 | ''O''(''n'')
-| colspan=2 align=center | = ''H''
+| colspan=2 align=center | ≤ 2''H''
 | Один из первых алгоритмов с линейной оценкой в худшем случае. Модификация алгоритма Ахо-Корасик, строящая автомат неявно на основе префикс-функции.
 |-
 | [[Алгоритм Апостолико-Крошмора]]
 | ''O''(''n'')
+| < ''H''
-|
-| &le;1,5''H''
+| ≤1,5''H''
 |
 |-
-| '''[[Алгоритм Shift-Or]]'''<br />=[[Bitap-алгоритм]]<br />=[[Двоичный алгоритм поиска подстроки|Двоичный алгоритм]]
+| '''[[Алгоритм Shift-Or]]'''<br>[[Bitap-алгоритм]]<br>[[Двоичный алгоритм поиска подстроки|Двоичный алгоритм]]
 | ''O''(''n''+σ)
 | colspan=2 align=center | {{nobr|1==''H''·[[потолок числа|ceil]](''n/w'')}}
@@ Строка 115: / Строка 112: @@
 === Основанные на сравнении с конца ===
 В этом семействе алгоритмов ''needle'' движется по ''haystack'' слева направо, но сравнение этих строк друг с другом проводится справа налево. Сравнение справа налево позволяет в случае несовпадения сдвинуть ''needle'' не на одну позицию, а на несколько.
@@ Строка 127: / Строка 123: @@
 ! макс.
 |-
-| '''[[Алгоритм Бойера-Мура]]'''
+| '''[[Алгоритм Бойера — Мура]]'''
 | ''O''(''n''+σ)
 | <''H''
 | ''O''(''Hn'')
+| Стандартный алгоритм поиска подстроки в строке. Считается наиболее эффективным алгоритмом общего назначения.<ref>{{Cite web |url=http://www-igm.univ-mlv.fr/~lecroq/string/node14.html#SECTION00140 |title=Boyer-Moore algorithm<!-- Заголовок добавлен ботом --> |access-date=2013-05-02 |archive-date=2013-02-06 |archive-url=https://web.archive.org/web/20130206123458/http://www-igm.univ-mlv.fr/~lecroq/string/node14.html#SECTION00140 |deadlink=no }}</ref>
-| Стандартный алгоритм поиска подстроки в строке
 |-
 | [[Алгоритм Чжу-Такаоки]]
@@ Строка 137: / Строка 133: @@
 | <''H''
 | ''O''(''Hn'')
-| Алгоритм Бойера-Мура, оптимизированный под короткие алфавиты
+| Алгоритм Бойера — Мура, оптимизированный под короткие алфавиты
 |-
 | [[Алгоритм Апостолико-Джанкарло]]
 | ''O''(''n''+σ)
 | <''H''
-| &le;1,5''H''
+| ≤1,5''H''
 | Одна из первых попыток получить <''H'' в типичном случае и ''O''(''H'') в худшем. Очень сложен в реализации.
 |-
-| [[Турбо-алгоритм Бойера-Мура]]
+| [[Турбо-алгоритм Бойера — Мура]]
 | ''O''(''n''+σ)
 | <''H''
-| &le;2''H''
+| ≤2''H''
 | Один из наиболее эффективных алгоритмов, не дающих регрессии на «плохих» данных
 |}
 === Проводящие сравнение в необычном порядке ===
 {| class="wikitable"
 ! rowspan=2 | Название
@@ Строка 169: / Строка 164: @@
 | Простой алгоритм, сравнивающий второй символ, затем начиная с третьего в режиме «чёрного ящика», и, наконец, первый. При {{nobr|''n''[1]≠''n''[2]}}<ref>Напомним, символы нумеруются с 1, как в [[Паскаль (язык программирования)|Паскале]].</ref> и несовпадении на второй-третьей стадии — сдвиг на 2 вправо.
 |-
-| Алгоритм Райты<br />=Алгоритм Бойера-Мура-Хорспула-Райты
+| Алгоритм Райты<br>Алгоритм Бойера — Мура — Хорспула — Райты
 | ''O''(''n''+σ)
 | <''H''
@@ Строка 176: / Строка 171: @@
 |}
+== См. также ==
-{{compu-stub}}
+* [[Подстрока]]
+* [[Список алгоритмов#Алгоритмы на строках|Алгоритмы на строках]]
+* [[Сопоставление с образцом]]
+* [[Алгоритмы: построение и анализ]]
 == Примечания ==
 {{примечания}}
-== Источники ==
+== Литература ==
+* {{книга
+ |автор         = {{nobr|Гасфилд Д.}}
+ |заглавие      = Строки, деревья и последовательности в алгоритмах: Информатика и вычислительная биология
+ |оригинал = Algorithms on String, Trees, and Sequences. Computer Science and Computational Biology
+ |ссылка        =
+ |ответственный = Пер. с англ. И. В. Романовского
+ |издание       = 2-е изд
+ |место         = СПб.
+ |издательство  = Невский Диалект
+ |год           = 2003
+ |страниц       = 654
+ |isbn = 5-7940-0103-8, 5-94157-321-9, 0-521-58519-8
+}}
+* {{книга
+ |автор         = {{nobr|Смит Б.}}
+ |заглавие      = Методы и алгоритмы вычислений на строках
+ |оригинал    = Computing Patterns in Strings
+ |ссылка        =
+ |ответственный =
+ |издание       =
+ |место         = М.
+ |издательство  = Вильямс
+ |год           = 2006
+ |страниц       = 496
+ |isbn  = 5-8459-1081-1, 0-201-39839-7
+}}
+* {{книга
+ |автор         = {{nobr|Окулов С. М.}}
+ |заглавие      = Алгоритмы обработки строк
+ |ссылка        =
+ |ответственный =
+ |издание       =
+ |место         = М.
+ |издательство  = Бином
+ |год           = 2013
+ |страниц       = 255
+ |isbn  = 978-5-9963016-2-1
+}}
+== Ссылки ==
 * [http://www-igm.univ-mlv.fr/~lecroq/string/index.html Большая подборка алгоритмов поиска подстроки]{{ref-en}}
+{{Строки}}{{rq|style|wikify|check}}
-[[Категория:Поиск подстроки|*]]
+[[Категория:Поиск подстроки| ]]

Строки
Меры схожести строк	Расстояние Дамерау — Левенштейна Расстояние Левенштейна Расстояние Хэмминга Сходство Джаро — Винклера
Поиск подстроки	Алгоритм Бойера — Мура Алгоритм Бойера — Мура — Хорспула Алгоритм Кнута — Морриса — Пратта Алгоритм Рабина — Карпа Префикс-функция Z-функция Алгоритм Ахо — Корасик
Палиндромы	Дерево палиндромов Алгоритм Манакера
Выравнивание последовательностей	Алгоритм Нидлмана — Вунша Алгоритм Смита — Ватермана
Суффиксные структуры	Суффиксный массив Суффиксный автомат Суффиксное дерево Префиксное дерево
Другое	Синтаксический анализ Сопоставление с образцом Наибольшая общая подпоследовательность Наибольшая общая подстрока