Soundex: различия между версиями
[непроверенная версия] | [непроверенная версия] |
мНет описания правки |
Нет описания правки |
||
(не показано 48 промежуточных версий 35 участников) | |||
Строка 1: | Строка 1: | ||
'''Soundex''' |
'''Soundex''' — один из [[алгоритм]]ов сравнения [[Строковый тип|строк]] по их звучанию; устанавливает одинаковый индекс для строк, имеющих схожее звучание в [[Английский язык|английском языке]]. |
||
Разработан Робертом Расселом ({{lang-en2|Robert C. Russel}}) и Маргарет Кинг Оделл ({{lang-en2|Margaret King Odell}}) и запатентован в 1918 и 1922 годах<ref>{{US patent|1261167}}</ref><ref>{{US patent|1435663}}</ref>, является исторически первым {{iw|фонетический алгоритм|фонетическим алгоритмом|en|Phonetic algorithm}}. Стал популярным в 1960-х годах после того как ему были посвящены несколько статей в журналах «[[Communications of the ACM|Communications of the ACM»]] и «[[Journal of the ACM|Journal of the ACM»]]; ещё большую известность он обрёл после появления в «[[Искусство программирования|Искусстве программирования]]» [[Кнут, Дональд Эрвин|Кнута]]<ref>{{книга |
|||
Этот алгоритм имеет сильную зависимость от языка, слова которого сравниваются. |
|||
⚫ | |||
⚫ | |||
|ссылка = |
|||
|часть = Часть 6. Поиск|том = 3. Сортировка и поиск|страницы = 249|оригинал = The Art of Computer Programming|год = 2012}}</ref>. С 1980-х годов используется как стандартная функция во многих [[СУБД]]. |
|||
Изначально ориентирован на [[Фонетика|фонетику]] [[Американский вариант английского языка|американского варианта]] английского языка, посредством модификаций может быть применён и для других вариантов и языков, но в ряде случаев требуются существенные изменения (как, например, в {{iw|алгоритм Дейча — Мокотоффа|алгоритме Дейча — Мокотоффа|en|Daitch–Mokotoff Soundex}}, поддерживающем имена собственные на [[идиш]]е и [[Славянские языки|славянских языках]]). Впоследствии также появились альтернативы, ориентированные в большей степени на обычные слова английского языка, нежели на имена собственные (такие как [[Metaphone]], {{iw|Caverphone}}) |
|||
Soundex был разработан Робертом Расселлом (Robert Russel) и Маргарет Обелл (Margaret Obell) и запатентован в 1918 и 1922 годах ({{US patent|1,261,167}} и {{US patent|1,435,663}}). Этот алгоритм стал популярным в 1960-х годах после того как стал темой нескольких статей в журрналах «Communications of the Association for Computing» и «Journal of the Association for Computing Machinery» (CACM и JACM). Еще большую популярность этот алгоритм получил после того как был опубликован в книге {{книга |
|||
⚫ | |||
⚫ | |||
|ссылка = http://www.williamspublishing.com/Books/sci_Knuth1.html |
|||
}} |
|||
== Шаги алгоритма == |
|||
==Пример исполнения== |
|||
# Запоминается первая буква слова. |
|||
Ниже приведен пример реализации алгоритма на языке программирования [[Perl]]. |
|||
# Удаляются все вхождения <tt>[[H (латиница)|h]]</tt> и <tt>[[w]]</tt> (за исключением первой буквы слова). |
|||
sub soundex { # return soundex code |
|||
# Согласные заменяются на цифры от 1 до 6, причём похожим по звучанию буквам соответствуют одинаковые цифры: |
|||
my($useword) = $_[0]; |
|||
#* <tt>b, f, p, v → 1</tt> |
|||
my($result) = "0000"; |
|||
#* <tt>c, g, j, k, q, s, x, z → 2</tt> |
|||
my($idx,$prev,$perhaps,$thechar); |
|||
#* <tt>d, t → 3</tt> |
|||
|
|||
#* <tt>l → 4</tt> |
|||
$useword =~ tr/ //d; # rid spaces |
|||
#* <tt>m, n → 5</tt> |
|||
$useword = lc($useword); # lower-case for consistency |
|||
#* <tt>r → 6</tt> |
|||
if (length($useword) < 1) { |
|||
# Любая последовательность одинаковых цифр сокращается до одной такой цифры. |
|||
return($result); |
|||
# Удаляются все <tt>a</tt>, <tt>e</tt>, <tt>i</tt>, <tt>o</tt>, <tt>u</tt>, <tt>y</tt> (за исключением первой буквы слова). |
|||
} |
|||
# Заменяется первый символ буквой, запомненной на шаге 1, делая её заглавной. |
|||
|
|||
# Итоговая строка обрезается до первых четырёх символов. Если длина строки меньше требуемой, недостающие символы заменяются знаком 0. |
|||
$result = substr($useword,0,1); # first letter |
|||
$prev = "0"; |
|||
$idx = 1; |
|||
while ($idx <= length($useword)) { |
|||
$perhaps = "0"; |
|||
$thechar = substr($useword,$idx - 1,1); |
|||
if (index("bfpv", $thechar) >= 0) { $perhaps = "1"; } |
|||
if (index("cgjkqsxz",$thechar) >= 0) { $perhaps = "2"; } |
|||
if (index("dt", $thechar) >= 0) { $perhaps = "3"; } |
|||
if (index("l", $thechar) >= 0) { $perhaps = "4"; } |
|||
if (index("mn", $thechar) >= 0) { $perhaps = "5"; } |
|||
if (index("r", $thechar) >= 0) { $perhaps = "6"; } |
|||
if ($perhaps != $prev && $perhaps != "0" |
|||
&& $idx != 1) { # avoid dups and ignore first |
|||
$result .= $perhaps; |
|||
} |
|||
$prev = $perhaps; |
|||
$idx++; |
|||
} #endwhile |
|||
|
|||
$result .= "0000"; # pad with zeros to ensure min length |
|||
$result = substr($result,0,4); # only return first four |
|||
return($result); |
|||
} |
|||
Примеры: |
|||
[[Категория:Программирование]] |
|||
* <tt>аmmonium → а55o5iu5 → а5o5iu5 → a555 → A555</tt> |
|||
* <tt>implementation → i514e5e53a3io5 → i51455335 → i514 → I514</tt> |
|||
* <tt>Robert = Rupert → R163</tt>, <tt>Rubin → R150</tt> |
|||
* <tt>Ashcraft = Ashcroft → A261</tt> (но не <tt>A226</tt>: буквы <tt>s</tt> и <tt>c</tt> в словах дадут одну цифру <tt>2</tt>, а не <tt>22</tt>, так как разделены <tt>h</tt>). |
|||
* <tt>Tymczak → T522</tt>, а не <tt>T520</tt> (буквы <tt>z</tt> и <tt>k</tt> заменяются на <tt>22</tt>, так как разделены гласной). |
|||
== Примечания == |
|||
[[en:Soundex]] |
|||
{{примечания}} |
|||
{{нет источников|дата=2015-01-11}} |
|||
[[Категория:Строковые алгоритмы]] |
Текущая версия от 13:16, 25 декабря 2022
Soundex — один из алгоритмов сравнения строк по их звучанию; устанавливает одинаковый индекс для строк, имеющих схожее звучание в английском языке.
Разработан Робертом Расселом (Robert C. Russel) и Маргарет Кинг Оделл (Margaret King Odell) и запатентован в 1918 и 1922 годах[1][2], является исторически первым фонетическим алгоритмом[англ.]. Стал популярным в 1960-х годах после того как ему были посвящены несколько статей в журналах «Communications of the ACM» и «Journal of the ACM»; ещё большую известность он обрёл после появления в «Искусстве программирования» Кнута[3]. С 1980-х годов используется как стандартная функция во многих СУБД.
Изначально ориентирован на фонетику американского варианта английского языка, посредством модификаций может быть применён и для других вариантов и языков, но в ряде случаев требуются существенные изменения (как, например, в алгоритме Дейча — Мокотоффа[англ.], поддерживающем имена собственные на идише и славянских языках). Впоследствии также появились альтернативы, ориентированные в большей степени на обычные слова английского языка, нежели на имена собственные (такие как Metaphone, Caverphone[англ.])
Шаги алгоритма
[править | править код]- Запоминается первая буква слова.
- Удаляются все вхождения h и w (за исключением первой буквы слова).
- Согласные заменяются на цифры от 1 до 6, причём похожим по звучанию буквам соответствуют одинаковые цифры:
- b, f, p, v → 1
- c, g, j, k, q, s, x, z → 2
- d, t → 3
- l → 4
- m, n → 5
- r → 6
- Любая последовательность одинаковых цифр сокращается до одной такой цифры.
- Удаляются все a, e, i, o, u, y (за исключением первой буквы слова).
- Заменяется первый символ буквой, запомненной на шаге 1, делая её заглавной.
- Итоговая строка обрезается до первых четырёх символов. Если длина строки меньше требуемой, недостающие символы заменяются знаком 0.
Примеры:
- аmmonium → а55o5iu5 → а5o5iu5 → a555 → A555
- implementation → i514e5e53a3io5 → i51455335 → i514 → I514
- Robert = Rupert → R163, Rubin → R150
- Ashcraft = Ashcroft → A261 (но не A226: буквы s и c в словах дадут одну цифру 2, а не 22, так как разделены h).
- Tymczak → T522, а не T520 (буквы z и k заменяются на 22, так как разделены гласной).
Примечания
[править | править код]- ↑ U.S. Patent 1 261 167
- ↑ U.S. Patent 1 435 663
- ↑ Дональд Кнут. Часть 6. Поиск // Искусство программирования = The Art of Computer Programming. — 2012. — Т. 3. Сортировка и поиск. — С. 249.
В статье не хватает ссылок на источники (см. рекомендации по поиску). |