Частотность
Частотность — термин лексикостатистики, предназначенный для определения наиболее употребительных слов. Расчёт осуществляется по формуле:
где Freqx — частотность слова «x», Qx — количество словоупотреблений слова «x», Qall — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометами — употребительное, малоупотребительное и т. д.
Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации. Высокие показатели частотности гласных называются ассонансом. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.
Не следует путать термины частотность и частота.
Частотность букв русского алфавита
Статистика частотности букв русского алфавита (на материале НКРЯ):[1]
ранг | буква | употреблений |
---|---|---|
1 | о | 52295949 |
2 | е | 40392978 |
3 | а | 38081816 |
4 | и | 35075552 |
5 | н | 31900994 |
6 | т | 30084462 |
7 | с | 26058590 |
8 | р | 22595850 |
9 | в | 21582499 |
10 | л | 20678280 |
11 | к | 16599539 |
12 | м | 15252377 |
13 | д | 14173134 |
14 | п | 13349597 |
15 | у | 12452612 |
16 | я | 9528713 |
17 | ы | 9036813 |
18 | ь | 8263123 |
19 | г | 8031521 |
20 | з | 7811723 |
21 | б | 7579289 |
22 | ч | 6904749 |
23 | й | 5753983 |
24 | х | 4597146 |
25 | ж | 4476464 |
26 | ш | 3420179 |
27 | ю | 3044673 |
28 | ц | 2314208 |
29 | щ | 1719607 |
30 | э | 1573696 |
31 | ф | 1268926 |
32 | ъ | 175908 |
33 | ё | 63623 |
Обратите внимание на то, что частоты букв «е» и «ё» являются недостоверными, из-за факультативного написания буквы «ё» в текстах.
См. также
- Частотный словарь
- Списки частотных слов русского языка
- Анализ текста
- Математическая лингвистика
- Статистика запросов
Примечания
- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики
Ссылки
Это заготовка статьи по лингвистике. Помогите Википедии, дополнив её. |