Частотность: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[непроверенная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
Частотность букв русского языка: оформление, обновление, дополнение
м откат правок 176.211.72.45 (обс.) к версии Lesless
Метка: откат
 
(не показано 15 промежуточных версий 9 участников)
Строка 1: Строка 1:
{{не путать|Частота|частотой|физической величиной}}

'''Частотность''' (или '''относительная частотность''') — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют '''абсолютной частотностью''' этого объекта. В [[лингвистика|лингвистике]] и [[лексикостатистика|лексикостатистике]] в качестве таких объектов понимаются слова, буквы, словосочетания, в [[криптография|криптографии]] и [[информатика|информатике]] - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.
'''Частотность''' (или '''относительная частотность''') — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют '''абсолютной частотностью''' этого объекта. В [[лингвистика|лингвистике]] и [[лексикостатистика|лексикостатистике]] в качестве таких объектов понимаются слова, буквы, словосочетания, в [[криптография|криптографии]] и [[информатика|информатике]] - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.


Расчёт частотности слов осуществляется по [[формула|формуле]]:
Расчёт частотности слов осуществляется по [[Математическая формула|формуле]]:
:<math>Freq_x=\frac{Q_x}{Q_{all}},</math>
:<math>\text{Freq} _x=\frac{Q_x}{Q_{\text{all}}},</math>
где <math>\text{Freq} _x </math> — частотность слова <math>x</math>,<br>
где Freq<sub>x</sub> — частотность слова «x», Q<sub>x</sub> — количество [[словоупотребление|словоупотреблений]] слова «x», Q<sub>all</sub> — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В [[словарь|словарях]] частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.
<math>Q_x</math> — количество употреблений слова <math>x</math>,<br>
<math>Q_{\text{all}}</math> — количество употреблений всех слов.

В большинстве случаев частотность выражается в процентах. В [[словарь|словарях]] частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.


Аналогичным образом определяется частотность для букв. Бо́льшая частотность [[согласный|согласных]] на данном отрезке текста (например, в стихотворениях) является одним из признаков [[аллитерация|аллитерации]] (наряду с позиционными характеристиками). Высокие показатели частотности [[гласный|гласных]] в тексте косвенно свидетельствуют об [[ассонанс|ассонансе]]. Частотный анализ используется в [[криптография|криптографии]] для выявления наиболее частотных букв того или иного языка.
Аналогичным образом определяется частотность для букв. Бо́льшая частотность [[согласный|согласных]] на данном отрезке текста (например, в стихотворениях) является одним из признаков [[аллитерация|аллитерации]] (наряду с позиционными характеристиками). Высокие показатели частотности [[гласный|гласных]] в тексте косвенно свидетельствуют об [[ассонанс|ассонансе]]. Частотный анализ используется в [[криптография|криптографии]] для выявления наиболее частотных букв того или иного языка.


Частотность слов и букв являлась важнейшим инструментов [[криптоанализ]]а в эпоху до повсеместного распространения [[блочный шифр|блочных шифров]].
Частотность слов и букв являлась важнейшим инструментов [[криптоанализ]]а в эпоху до повсеместного распространения [[блочный шифр|блочных шифров]].

Не следует путать термины ''частотность'' и ''[[частота]]''.
__NOTOC__
__NOTOC__

== Частотность букв русского языка ==
== Частотность букв русского языка ==
Статистика частотности букв русского языка (на материале [[НКРЯ]]):<ref name="dict">О. Н. Ляшевская, С. А. Шаров. [http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters Новый частотный словарь русской лексики]{{проверено|23|4|2017}}</ref>
Статистика частотности букв русского языка (на материале [[НКРЯ]]):<ref name="dict">О. Н. Ляшевская, С. А. Шаров. [http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters Новый частотный словарь русской лексики] {{Wayback|url=http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters |date=20210509141100 }}{{проверено|23|4|2017}}</ref>


{|class="standard sortable"
{|class="standard sortable"
!Буква ||Ранг ||Употреблений || colspan="2" | Частотность
!буква ||ранг ||употреблений || colspan="2" | частотность


|-
|-
|align="center"|а||align="right"|3||align="right"|40487008||align="right"|{{bartable|8.01|%|40|1.5em|background:red}}
|align="center"|а||align="right"|3|| align="right" |40487008||align="right"|{{bartable|8.01|%|40|1.5em|background:red}}
|-
|-
|align="center"|б||align="right"|21||align="right"|8051767||align="right"|{{bartable|1.59|%|40|1.5em|background:blue}}
|align="center"|б||align="right"|21|| align="right" |8051767||align="right"|{{bartable|1.59|%|40|1.5em|background:blue}}
|-
|-
|align="center"|в||align="right"|9||align="right"|22930719||align="right"|{{bartable|4.54|%|40|1.5em|background:blue}}
|align="center"|в||align="right"|9||align="right"|22930719||align="right"|{{bartable|4.54|%|40|1.5em|background:blue}}
Строка 84: Строка 87:
|-
|-
|align="center"|я||align="right"|16||align="right"|10139085||align="right"|{{bartable|2.01|%|40|1.5em|background:red}}
|align="center"|я||align="right"|16||align="right"|10139085||align="right"|{{bartable|2.01|%|40|1.5em|background:red}}
|+
|align="center"|Всего||align="right"|—||align="right"|505266851||align="right"|101%
|}
|}
Статистика частотности букв русского языка (на материале [[Википедия | Википедии]])<ref name="gitRep">Erow [https://github.com/Lyric-Meow/Letter-Frequency/tree/main/Russian '''Измеритель частоты букв''' {{lang-en|Letter frequency meter}}]{{проверено|18|02|2023}}</ref>:

''Использовались статьи Русской Википедии для более точных замеров частотности буквы "ё", которая в Википедии является обязательной к использованию.''
{|class="standard sortable"
!Буква ||Ранг ||Употреблений || colspan="2" | Частотность

|-
|align="center"|а||align="right"|2||align="right"|258702||align="right"|{{bartable|8.68|%|40|1.5em|background:red}}
|-
|align="center"|б||align="right"|21||align="right"|46363||align="right"|{{bartable|1.55|%|40|1.5em|background:blue}}
|-
|align="center"|в||align="right"|9||align="right"|147128||align="right"|{{bartable|4.93|%|40|1.5em|background:blue}}
|-
|align="center"|г||align="right"|17||align="right"|55795||align="right"|{{bartable|1.87|%|40|1.5em|background:blue}}
|-
|align="center"|д||align="right"|12||align="right"|92544||align="right"|{{bartable|3.10|%|40|1.5em|background:blue}}
|-
|align="center"|е||align="right"|4||align="right"|225133||align="right"|{{bartable|7.55|%|40|1.5em|background:red}}
|-
|align="center"|ё||align="right"|31||align="right"|7835||align="right"|{{bartable|0.26|%|40|1.5em|background:red}}
|-
|align="center"|ж||align="right"|25||align="right"|22482||align="right"|{{bartable|0.75|%|40|1.5em|background:blue}}
|-
|align="center"|з||align="right"|20||align="right"|44812||align="right"|{{bartable|1.5|%|40|1.5em|background:blue}}
|-
|align="center"|и||align="right"|3||align="right"|243763||align="right"|{{bartable|8.17|%|40|1.5em|background:red}}
|-
|align="center"|й||align="right"|19||align="right"|47992||align="right"|{{bartable|1.61|%|40|1.5em|background:blue}}
|-
|align="center"|к||align="right"|11||align="right"|116586||align="right"|{{bartable|3.91|%|40|1.5em|background:blue}}
|-
|align="center"|л||align="right"|10||align="right"|117961||align="right"|{{bartable|3.96|%|40|1.5em|background:blue}}
|-
|align="center"|м||align="right"|13||align="right"|82325||align="right"|{{bartable|2.76|%|40|1.5em|background:blue}}
|-
|align="center"|н||align="right"|5||align="right"|200350||align="right"|{{bartable|6.72|%|40|1.5em|background:blue}}
|-
|align="center"|о||align="right"|1||align="right"|305548||align="right"|{{bartable|10.25|%|40|1.5em|background:red}}
|-
|align="center"|п||align="right"|14||align="right"|80095||align="right"|{{bartable|2.69|%|40|1.5em|background:blue}}
|-
|align="center"|р||align="right"|8||align="right"|170707||align="right"|{{bartable|5.72|%|40|1.5em|background:blue}}
|-
|align="center"|с||align="right"|7||align="right"|178350||align="right"|{{bartable|5.98|%|40|1.5em|background:blue}}
|-
|align="center"|т||align="right"|6||align="right"|178488||align="right"|{{bartable|5.99|%|40|1.5em|background:blue}}
|-
|align="center"|у||align="right"|15||align="right"|68642||align="right"|{{bartable|2.3|%|40|1.5em|background:red}}
|-
|align="center"|ф||align="right"|29||align="right"|13293||align="right"|{{bartable|0.45|%|40|1.5em|background:blue}}
|-
|align="center"|х||align="right"|24||align="right"|26543||align="right"|{{bartable|0.89|%|40|1.5em|background:blue}}
|-
|align="center"|ц||align="right"|27||align="right"|18696||align="right"|{{bartable|0.63|%|40|1.5em|background:blue}}
|-
|align="center"|ч||align="right"|23||align="right"|32308||align="right"|{{bartable|1.08|%|40|1.5em|background:blue}}
|-
|align="center"|ш||align="right"|28||align="right"|15351||align="right"|{{bartable|0.51|%|40|1.5em|background:blue}}
|-
|align="center"|щ||align="right"|30||align="right"|8858||align="right"|{{bartable|0.30|%|40|1.5em|background:blue}}
|-
|align="center"|ъ||align="right"|33||align="right"|1262||align="right"|{{bartable|0.04|%|40|1.5em|background:yellow}}
|-
|align="center"|ы||align="right"|18||align="right"|49354||align="right"|{{bartable|1.66|%|40|1.5em|background:red}}
|-
|align="center"|ь||align="right"|22||align="right"|40084||align="right"|{{bartable|1.34|%|40|1.5em|background:yellow}}
|-
|align="center"|э||align="right"|32||align="right"|7497||align="right"|{{bartable|0.25|%|40|1.5em|background:red}}
|-
|align="center"|ю||align="right"|26||align="right"|19137||align="right"|{{bartable|0.64|%|40|1.5em|background:red}}
|-
|align="center"|я||align="right"|16||align="right"|58032||align="right"|{{bartable|1.95|%|40|1.5em|background:red}}
|+
|align="center"|Всего||align="right"|—||align="right"|2982016||align="right"|99.99%
|}



== См. также ==
== См. также ==

Текущая версия от 07:30, 25 сентября 2024

Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.

Расчёт частотности слов осуществляется по формуле:

где — частотность слова ,
— количество употреблений слова ,
— количество употреблений всех слов.

В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.

Частотность букв русского языка

[править | править код]

Статистика частотности букв русского языка (на материале НКРЯ):[1]

буква ранг употреблений частотность
а 3 40487008 8,01% 8.01
 
б 21 8051767 1,59% 1.59
 
в 9 22930719 4,54% 4.54
 
г 19 8564640 1,70% 1.7
 
д 13 15052118 2,98% 2.98
 
е 2 42691213 8,45% 8.45
 
ё 33 184928 0,04% 0.04
 
ж 25 4746916 0,94% 0.94
 
з 20 8329904 1,65% 1.65
 
и 4 37153142 7,35% 7.35
 
й 23 6106262 1,21% 1.21
 
к 11 17653469 3,49% 3.49
 
л 10 22230174 4,40% 4.4
 
м 12 16203060 3,21% 3.21
 
н 5 33838881 6,70% 6.7
 
о 1 55414481 10,97% 10.97
 
п 14 14201572 2,81% 2.81
 
р 8 23916825 4,73% 4.73
 
с 7 27627040 5,47% 5.47
 
т 6 31620970 6,26% 6.26
 
у 15 13245712 2,62% 2.62
 
ф 31 1335747 0,26% 0.26
 
х 24 4904176 0,97% 0.97
 
ц 28 2438807 0,48% 0.48
 
ч 22 7300193 1,44% 1.44
 
ш 26 3678738 0,73% 0.73
 
щ 29 1822476 0,36% 0.36
 
ъ 32 185452 0,04% 0.04
 
ы 17 9595941 1,90% 1.9
 
ь 18 8784613 1,74% 1.74
 
э 30 1610107 0,32% 0.32
 
ю 27 3220715 0,64% 0.64
 
я 16 10139085 2,01% 2.01
 

Примечания

[править | править код]
  1. О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики Архивная копия от 9 мая 2021 на Wayback Machine (Дата обращения: 23 апреля 2017)