Частотность

Материал из Википедии — свободной энциклопедии
Это старая версия этой страницы, сохранённая 93.181.236.22 (обсуждение) в 11:34, 7 сентября 2012 (Частотность букв русского языка). Она может серьёзно отличаться от текущей версии.
Перейти к навигации Перейти к поиску

Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле:

где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометами — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации. Высокие показатели частотности гласных называются ассонансом. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Не следует путать термины частотность и частота.

Частотность букв русского алфавита

Статистика частотности букв русского алфавита (на материале НКРЯ):[1]

ранг буква употреблений
1 о 52295949
2 е 40392978
3 а 38081816
4 и 35075552
5 н 31900994
6 т 30084462
7 с 26058590
8 р 22595850
9 в 21582499
10 л 20678280
11 к 16599539
12 м 15252377
13 д 14173134
14 п 13349597
15 у 12452612
16 я 9528713
17 ы 9036813
18 ь 8263123
19 г 8031521
20 з 7811723
21 б 7579289
22 ч 6904749
23 й 5753983
24 х 4597146
25 ж 4476464
26 ш 3420179
27 ю 3044673
28 ц 2314208
29 щ 1719607
30 э 1573696
31 ф 1268926
32 ъ 175908
33 ё 63623

Обратите внимание на то, что частоты букв «е» и «ё» являются недостоверными, из-за факультативного написания буквы «ё» в текстах.

См. также

Примечания

Ссылки

Шаблон:Нет интервики