Частотность
Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.
Расчёт частотности слов осуществляется по формуле:
где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.
Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.
Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.
Не следует путать термины частотность и частота.
Частотность букв русского языка
Статистика частотности букв русского языка (на материале НКРЯ):[1]
Буква | Ранг | Употреблений | Частотность | |
---|---|---|---|---|
а | 3 | 40487008 | 8,01% | |
б | 20 | 8051767 | 1,59% | |
в | 9 | 22930719 | 4,54% | |
г | 19 | 8564640 | 1,70% | |
д | 13 | 15052118 | 2,98% | |
е | 2 | 42691213 | 8,45% | |
ё | 33 | 184928 | 0,04% | |
ж | 25 | 4746916 | 0,94% | |
з | 21 | 8329904 | 1,65% | |
и | 4 | 37153142 | 7,35% | |
й | 23 | 6106262 | 1,21% | |
к | 11 | 17653469 | 3,49% | |
л | 10 | 22230174 | 4,40% | |
м | 12 | 16203060 | 3,21% | |
н | 5 | 33838881 | 6,70% | |
о | 1 | 55414481 | 10,97% | |
п | 14 | 14201572 | 2,81% | |
р | 8 | 23916825 | 4,73% | |
с | 7 | 27627040 | 5,47% | |
т | 6 | 31620970 | 6,26% | |
у | 15 | 13245712 | 2,62% | |
ф | 31 | 1335747 | 0,26% | |
х | 24 | 4904176 | 0,97% | |
ц | 28 | 2438807 | 0,48% | |
ч | 22 | 7300193 | 1,44% | |
ш | 26 | 3678738 | 0,73% | |
щ | 29 | 1822476 | 0,36% | |
ъ | 32 | 185452 | 0,04% | |
ы | 17 | 9595941 | 1,90% | |
ь | 18 | 8784613 | 1,74% | |
э | 30 | 1610107 | 0,32% | |
ю | 27 | 3220715 | 0,64% | |
я | 16 | 10139085 | 2,01% | |
Всего | — | 505266851 | 101% |
Статистика частотности букв русского языка (на материале Википедии)[2]:
Использовались статьи Русской Википедии для более точных замеров частотности буквы "ё", которая в Википедии является обязательной к использованию.
Буква | Ранг | Употреблений | Частотность | |
---|---|---|---|---|
а | 2 | 258702 | 8,68% | |
б | 21 | 46363 | 1,55% | |
в | 9 | 147128 | 4,93% | |
г | 17 | 55795 | 1,87% | |
д | 12 | 92544 | 3,10% | |
е | 4 | 225133 | 7,55% | |
ё | 31 | 7835 | 0,26% | |
ж | 25 | 22482 | 0,75% | |
з | 20 | 44812 | 1,5% | |
и | 3 | 243763 | 8,17% | |
й | 19 | 47992 | 1,61% | |
к | 11 | 116586 | 3,91% | |
л | 10 | 117961 | 3,96% | |
м | 13 | 82325 | 2,76% | |
н | 5 | 200350 | 6,72% | |
о | 1 | 305548 | 10,25% | |
п | 14 | 80095 | 2,69% | |
р | 8 | 170707 | 5,72% | |
с | 7 | 178350 | 5,98% | |
т | 6 | 178488 | 5,99% | |
у | 15 | 68642 | 2,3% | |
ф | 29 | 13293 | 0,45% | |
х | 24 | 26543 | 0,89% | |
ц | 27 | 18696 | 0,63% | |
ч | 23 | 32308 | 1,08% | |
ш | 28 | 15351 | 0,51% | |
щ | 30 | 8858 | 0,30% | |
ъ | 33 | 1262 | 0,04% | |
ы | 18 | 49354 | 1,66% | |
ь | 22 | 40084 | 1,34% | |
э | 32 | 7497 | 0,25% | |
ю | 26 | 19137 | 0,64% | |
я | 16 | 58032 | 1,95% | |
Всего | — | 2982016 | 99,99% |
См. также
Примечания
- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики (Дата обращения: 23 апреля 2017)
- ↑ Erow Измеритель частоты букв англ. Letter frequency meter (Дата обращения: 18 февраля 2023)
Ссылки
- Самые частотные буквы в различных языках (англ.)
- Пиперски А. Частотность в языке . ПостНаука (24 декабря 2015).
- en:Most common words in English (англ.)
- Letter frequency-simia.net (англ.)