Частотность

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая Roman Kerimov (обсуждение | вклад) в 08:06, 27 августа 2020 (Частотность букв русского языка: оформление). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску

Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле:

где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации. Высокие показатели частотности гласных называются ассонансом. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.

Не следует путать термины частотность и частота.

Частотность букв русского языка

Статистика частотности букв русского языка (на материале НКРЯ):[1]

ранг буква употреблений частотность
1 о 55414481 10,97% 10.97
 
2 е 42691213 8,45% 8.45
 
3 а 40487008 8,01% 8.01
 
4 и 37153142 7,35% 7.35
 
5 н 33838881 6,70% 6.7
 
6 т 31620970 6,26% 6.26
 
7 с 27627040 5,47% 5.47
 
8 р 23916825 4,73% 4.73
 
9 в 22930719 4,54% 4.54
 
10 л 22230174 4,40% 4.4
 
11 к 17653469 3,49% 3.49
 
12 м 16203060 3,21% 3.21
 
13 д 15052118 2,98% 2.98
 
14 п 14201572 2,81% 2.81
 
15 у 13245712 2,62% 2.62
 
16 я 10139085 2,01% 2.01
 
17 ы 9595941 1,90% 1.9
 
18 ь 8784613 1,74% 1.74
 
19 г 8564640 1,70% 1.7
 
20 з 8329904 1,65% 1.65
 
21 б 8051767 1,59% 1.59
 
22 ч 7300193 1,44% 1.44
 
23 й 6106262 1,21% 1.21
 
24 х 4904176 0,97% 0.97
 
25 ж 4746916 0,94% 0.94
 
26 ш 3678738 0,73% 0.73
 
27 ю 3220715 0,64% 0.64
 
28 ц 2438807 0,48% 0.48
 
29 щ 1822476 0,36% 0.36
 
30 э 1610107 0,32% 0.32
 
31 ф 1335747 0,26% 0.26
 
32 ъ 185452 0,04% 0.04
 
33 ё 184928 0,04% 0.04
 

См. также

Примечания

  1. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики (Дата обращения: 23 апреля 2017)

Ссылки