Частотность: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Частотность букв русского языка: оформление, обновление, дополнение
Строка 160: Строка 160:
|align="center"|я||align="right"|16||align="right"|58032||align="right"|{{bartable|1.95|%|40|1.5em|background:red}}
|align="center"|я||align="right"|16||align="right"|58032||align="right"|{{bartable|1.95|%|40|1.5em|background:red}}
|+
|+
|align="center"|Всего||align="right"|—||align="right"|2982016||align="right"|99.99%
|align="center"|Всего||align="right"|—||align="right"|2982016||align="right"|99,99%
|}
|}



== См. также ==
== См. также ==

Версия от 17:02, 18 февраля 2023

Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.

Расчёт частотности слов осуществляется по формуле:

где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.

Не следует путать термины частотность и частота.


Частотность букв русского языка

Статистика частотности букв русского языка (на материале НКРЯ):[1]

Буква Ранг Употреблений Частотность
а 3 40487008 8,01% 8.01
 
б 21 8051767 1,59% 1.59
 
в 9 22930719 4,54% 4.54
 
г 19 8564640 1,70% 1.7
 
д 13 15052118 2,98% 2.98
 
е 2 42691213 8,45% 8.45
 
ё 33 184928 0,04% 0.04
 
ж 25 4746916 0,94% 0.94
 
з 20 8329904 1,65% 1.65
 
и 4 37153142 7,35% 7.35
 
й 23 6106262 1,21% 1.21
 
к 11 17653469 3,49% 3.49
 
л 10 22230174 4,40% 4.4
 
м 12 16203060 3,21% 3.21
 
н 5 33838881 6,70% 6.7
 
о 1 55414481 10,97% 10.97
 
п 14 14201572 2,81% 2.81
 
р 8 23916825 4,73% 4.73
 
с 7 27627040 5,47% 5.47
 
т 6 31620970 6,26% 6.26
 
у 15 13245712 2,62% 2.62
 
ф 31 1335747 0,26% 0.26
 
х 24 4904176 0,97% 0.97
 
ц 28 2438807 0,48% 0.48
 
ч 22 7300193 1,44% 1.44
 
ш 26 3678738 0,73% 0.73
 
щ 29 1822476 0,36% 0.36
 
ъ 32 185452 0,04% 0.04
 
ы 17 9595941 1,90% 1.9
 
ь 18 8784613 1,74% 1.74
 
э 30 1610107 0,32% 0.32
 
ю 27 3220715 0,64% 0.64
 
я 16 10139085 2,01% 2.01
 
Всего 505266851 101%

Статистика частотности букв русского языка (на материале Википедии)[2]:

Использовались статьи Русской Википедии для более точных замеров частотности буквы "ё", которая в Википедии является обязательной к использованию.

Буква Ранг Употреблений Частотность
а 2 258702 8,68% 8.68
 
б 21 46363 1,55% 1.55
 
в 9 147128 4,93% 4.93
 
г 17 55795 1,87% 1.87
 
д 12 92544 3,10% 3.1
 
е 4 225133 7,55% 7.55
 
ё 31 7835 0,26% 0.26
 
ж 25 22482 0,75% 0.75
 
з 20 44812 1,5% 1.5
 
и 3 243763 8,17% 8.17
 
й 19 47992 1,61% 1.61
 
к 11 116586 3,91% 3.91
 
л 10 117961 3,96% 3.96
 
м 13 82325 2,76% 2.76
 
н 5 200350 6,72% 6.72
 
о 1 305548 10,25% 10.25
 
п 14 80095 2,69% 2.69
 
р 8 170707 5,72% 5.72
 
с 7 178350 5,98% 5.98
 
т 6 178488 5,99% 5.99
 
у 15 68642 2,3% 2.3
 
ф 29 13293 0,45% 0.45
 
х 24 26543 0,89% 0.89
 
ц 27 18696 0,63% 0.63
 
ч 23 32308 1,08% 1.08
 
ш 28 15351 0,51% 0.51
 
щ 30 8858 0,30% 0.3
 
ъ 33 1262 0,04% 0.04
 
ы 18 49354 1,66% 1.66
 
ь 22 40084 1,34% 1.34
 
э 32 7497 0,25% 0.25
 
ю 26 19137 0,64% 0.64
 
я 16 58032 1,95% 1.95
 
Всего 2982016 99,99%

См. также

Примечания

  1. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики (Дата обращения: 23 апреля 2017)
  2. Erow Измеритель частоты букв англ. Letter frequency meter (Дата обращения: 18 февраля 2023)

Ссылки