Частотность: различия между версиями
[непроверенная версия] | [непроверенная версия] |
м откат правок 176.211.72.45 (обс.) к версии Lesless Метка: откат |
|||
(не показано 9 промежуточных версий 5 участников) | |||
Строка 1: | Строка 1: | ||
{{не путать|Частота|частотой|физической величиной}} |
|||
'''Частотность''' (или '''относительная частотность''') — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют '''абсолютной частотностью''' этого объекта. В [[лингвистика|лингвистике]] и [[лексикостатистика|лексикостатистике]] в качестве таких объектов понимаются слова, буквы, словосочетания, в [[криптография|криптографии]] и [[информатика|информатике]] - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. |
'''Частотность''' (или '''относительная частотность''') — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют '''абсолютной частотностью''' этого объекта. В [[лингвистика|лингвистике]] и [[лексикостатистика|лексикостатистике]] в качестве таких объектов понимаются слова, буквы, словосочетания, в [[криптография|криптографии]] и [[информатика|информатике]] - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. |
||
Расчёт частотности слов осуществляется по [[формула|формуле]]: |
Расчёт частотности слов осуществляется по [[Математическая формула|формуле]]: |
||
:<math> |
:<math>\text{Freq} _x=\frac{Q_x}{Q_{\text{all}}},</math> |
||
где <math>\text{Freq} _x </math> — частотность слова <math>x</math>,<br> |
|||
⚫ | |||
<math>Q_x</math> — количество употреблений слова <math>x</math>,<br> |
|||
<math>Q_{\text{all}}</math> — количество употреблений всех слов. |
|||
⚫ | |||
Аналогичным образом определяется частотность для букв. Бо́льшая частотность [[согласный|согласных]] на данном отрезке текста (например, в стихотворениях) является одним из признаков [[аллитерация|аллитерации]] (наряду с позиционными характеристиками). Высокие показатели частотности [[гласный|гласных]] в тексте косвенно свидетельствуют об [[ассонанс|ассонансе]]. Частотный анализ используется в [[криптография|криптографии]] для выявления наиболее частотных букв того или иного языка. |
Аналогичным образом определяется частотность для букв. Бо́льшая частотность [[согласный|согласных]] на данном отрезке текста (например, в стихотворениях) является одним из признаков [[аллитерация|аллитерации]] (наряду с позиционными характеристиками). Высокие показатели частотности [[гласный|гласных]] в тексте косвенно свидетельствуют об [[ассонанс|ассонансе]]. Частотный анализ используется в [[криптография|криптографии]] для выявления наиболее частотных букв того или иного языка. |
||
Частотность слов и букв являлась важнейшим инструментов [[криптоанализ]]а в эпоху до повсеместного распространения [[блочный шифр|блочных шифров]]. |
Частотность слов и букв являлась важнейшим инструментов [[криптоанализ]]а в эпоху до повсеместного распространения [[блочный шифр|блочных шифров]]. |
||
Не следует путать термины ''частотность'' и ''[[частота]]''. |
|||
__NOTOC__ |
__NOTOC__ |
||
== Частотность букв русского языка == |
== Частотность букв русского языка == |
||
Статистика частотности букв русского языка (на материале [[НКРЯ]]):<ref name="dict">О. Н. Ляшевская, С. А. Шаров. [http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters Новый частотный словарь русской лексики]{{проверено|23|4|2017}}</ref> |
Статистика частотности букв русского языка (на материале [[НКРЯ]]):<ref name="dict">О. Н. Ляшевская, С. А. Шаров. [http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters Новый частотный словарь русской лексики] {{Wayback|url=http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters |date=20210509141100 }}{{проверено|23|4|2017}}</ref> |
||
{|class="standard sortable" |
{|class="standard sortable" |
||
Строка 65: | Строка 68: | ||
|align="center"|х||align="right"|24||align="right"|4904176||align="right"|{{bartable|0.97|%|40|1.5em|background:blue}} |
|align="center"|х||align="right"|24||align="right"|4904176||align="right"|{{bartable|0.97|%|40|1.5em|background:blue}} |
||
|- |
|- |
||
|align="center"|ц||align="right"| |
|align="center"|ц||align="right"|28||align="right"|2438807||align="right"|{{bartable|0.48|%|40|1.5em|background:blue}} |
||
|- |
|- |
||
|align="center"|ч||align="right"|22||align="right"|7300193||align="right"|{{bartable|1.44|%|40|1.5em|background:blue}} |
|align="center"|ч||align="right"|22||align="right"|7300193||align="right"|{{bartable|1.44|%|40|1.5em|background:blue}} |
||
Строка 85: | Строка 88: | ||
|align="center"|я||align="right"|16||align="right"|10139085||align="right"|{{bartable|2.01|%|40|1.5em|background:red}} |
|align="center"|я||align="right"|16||align="right"|10139085||align="right"|{{bartable|2.01|%|40|1.5em|background:red}} |
||
|} |
|} |
||
== См. также == |
== См. также == |
Текущая версия от 07:30, 25 сентября 2024
Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.
Расчёт частотности слов осуществляется по формуле:
где — частотность слова ,
— количество употреблений слова ,
— количество употреблений всех слов.
В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.
Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.
Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.
Частотность букв русского языка
[править | править код]Статистика частотности букв русского языка (на материале НКРЯ):[1]
буква | ранг | употреблений | частотность | |
---|---|---|---|---|
а | 3 | 40487008 | 8,01% | |
б | 21 | 8051767 | 1,59% | |
в | 9 | 22930719 | 4,54% | |
г | 19 | 8564640 | 1,70% | |
д | 13 | 15052118 | 2,98% | |
е | 2 | 42691213 | 8,45% | |
ё | 33 | 184928 | 0,04% | |
ж | 25 | 4746916 | 0,94% | |
з | 20 | 8329904 | 1,65% | |
и | 4 | 37153142 | 7,35% | |
й | 23 | 6106262 | 1,21% | |
к | 11 | 17653469 | 3,49% | |
л | 10 | 22230174 | 4,40% | |
м | 12 | 16203060 | 3,21% | |
н | 5 | 33838881 | 6,70% | |
о | 1 | 55414481 | 10,97% | |
п | 14 | 14201572 | 2,81% | |
р | 8 | 23916825 | 4,73% | |
с | 7 | 27627040 | 5,47% | |
т | 6 | 31620970 | 6,26% | |
у | 15 | 13245712 | 2,62% | |
ф | 31 | 1335747 | 0,26% | |
х | 24 | 4904176 | 0,97% | |
ц | 28 | 2438807 | 0,48% | |
ч | 22 | 7300193 | 1,44% | |
ш | 26 | 3678738 | 0,73% | |
щ | 29 | 1822476 | 0,36% | |
ъ | 32 | 185452 | 0,04% | |
ы | 17 | 9595941 | 1,90% | |
ь | 18 | 8784613 | 1,74% | |
э | 30 | 1610107 | 0,32% | |
ю | 27 | 3220715 | 0,64% | |
я | 16 | 10139085 | 2,01% |
См. также
[править | править код]Примечания
[править | править код]- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики Архивная копия от 9 мая 2021 на Wayback Machine (Дата обращения: 23 апреля 2017)
Ссылки
[править | править код]- Самые частотные буквы в различных языках (англ.)
- Пиперски А. Частотность в языке . ПостНаука (24 декабря 2015).
- en:Most common words in English (англ.)
- Letter frequency-simia.net (англ.)