Частотность: различия между версиями
[отпатрулированная версия] | [непроверенная версия] |
BFD-69 (обсуждение | вклад) отмена правки 102084559 участника 176.59.46.187 (обс.) Метка: отмена |
м откат правок 176.211.72.45 (обс.) к версии Lesless Метка: откат |
||
(не показаны 33 промежуточные версии 19 участников) | |||
Строка 1: | Строка 1: | ||
{{не путать|Частота|частотой|физической величиной}} |
|||
'''Частотность''' — термин [[лексикостатистика|лексикостатистики]], предназначенный для определения наиболее употребительных [[слово|слов]]. Расчёт осуществляется по [[формула|формуле]]: |
|||
:<math>Freq_x=\frac{Q_x}{Q_{all}},</math> |
|||
где Freq<sub>x</sub> — частотность слова «x», Q<sub>x</sub> — количество [[словоупотребление|словоупотреблений]] слова «x», Q<sub>all</sub> — общее количество словоупотреблений. В большинстве случаев частотность выражается в процентах. В [[словарь|словарях]] частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д. |
|||
'''Частотность''' (или '''относительная частотность''') — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют '''абсолютной частотностью''' этого объекта. В [[лингвистика|лингвистике]] и [[лексикостатистика|лексикостатистике]] в качестве таких объектов понимаются слова, буквы, словосочетания, в [[криптография|криптографии]] и [[информатика|информатике]] - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык. |
|||
Аналогичным образом определяется частотность для букв. Бо́льшая частотность [[согласный|согласных]] на данном отрезке текста (например, в стихотворениях) получила название [[аллитерация|аллитерации]]. Высокие показатели частотности [[гласный|гласных]] называются [[ассонанс]]ом. Частотный анализ используется в [[криптография|криптографии]] для выявления наиболее частотных букв того или иного языка. |
|||
Расчёт частотности слов осуществляется по [[Математическая формула|формуле]]: |
|||
Частотность слов и букв являлась важнейшим инструментов [[криптоанализ]]а в эпоху до повсеместного распространения [[блочный шифр|блочных шифров]]. |
|||
:<math>\text{Freq} _x=\frac{Q_x}{Q_{\text{all}}},</math> |
|||
где <math>\text{Freq} _x </math> — частотность слова <math>x</math>,<br> |
|||
<math>Q_x</math> — количество употреблений слова <math>x</math>,<br> |
|||
<math>Q_{\text{all}}</math> — количество употреблений всех слов. |
|||
В большинстве случаев частотность выражается в процентах. В [[словарь|словарях]] частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д. |
|||
Не следует путать термины ''частотность'' и ''[[частота]]''. |
|||
Аналогичным образом определяется частотность для букв. Бо́льшая частотность [[согласный|согласных]] на данном отрезке текста (например, в стихотворениях) является одним из признаков [[аллитерация|аллитерации]] (наряду с позиционными характеристиками). Высокие показатели частотности [[гласный|гласных]] в тексте косвенно свидетельствуют об [[ассонанс|ассонансе]]. Частотный анализ используется в [[криптография|криптографии]] для выявления наиболее частотных букв того или иного языка. |
|||
Частотность слов и букв являлась важнейшим инструментов [[криптоанализ]]а в эпоху до повсеместного распространения [[блочный шифр|блочных шифров]]. |
|||
__NOTOC__ |
__NOTOC__ |
||
== Частотность букв русского языка == |
== Частотность букв русского языка == |
||
Статистика частотности букв русского языка (на материале [[НКРЯ]]):<ref name="dict">О. Н. Ляшевская, С. А. Шаров. [http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters Новый частотный словарь русской лексики]{{проверено|23|4|2017}}</ref> |
Статистика частотности букв русского языка (на материале [[НКРЯ]]):<ref name="dict">О. Н. Ляшевская, С. А. Шаров. [http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters Новый частотный словарь русской лексики] {{Wayback|url=http://dict.ruslang.ru/freq.php?act=show&dic=freq_letters |date=20210509141100 }}{{проверено|23|4|2017}}</ref> |
||
{{Врезка | Выравнивание = right | Фон = #eeeeee | Без разрывов = 1 |
|||
| Заголовок = Частотность букв [[Русский язык|русского языка]]<ref name="dict"/> |
|||
|Содержание= |
|||
<timeline> |
|||
ImageSize = width:400 height:400 |
|||
PlotArea = top:20 bottom:50 right:20 left:20 |
|||
AlignBars = late |
|||
Colors = |
|||
id:pl value:red legend:Гласные_ |
|||
id:ao value:brightblue legend:Согласные_ |
|||
id:gs value:yellow legend:Ни_те,_ни_другие |
|||
id:ioao value:rgb(0,1,1) |
|||
id:grid value:rgb(0.85,0.85,0.85) |
|||
id:grid1 value:rgb(0.75,0.75,0.75) |
|||
id:canvas value:rgb(0.95,0.95,0.95) |
|||
DateFormat = yyyy |
|||
Period = from:0 till:11000 |
|||
TimeAxis = orientation:horizontal |
|||
ScaleMinor = unit:year increment:1000 start:0 gridcolor:grid |
|||
BackgroundColors = canvas:white |
|||
Legend = columns:3 left:50 top:24 columnwidth:90 |
|||
BarData = |
|||
barset:PM |
|||
PlotData= |
|||
width:8 align:left fontsize:7 shift:(5,-3) anchor:till |
|||
barset:PM |
|||
from: 0 till: 7998 color:pl text:"а" |
|||
from: 0 till: 1592 color:ao text:"б" |
|||
from: 0 till: 4533 color:ao text:"в" |
|||
from: 0 till: 1687 color:ao text:"г" |
|||
from: 0 till: 2977 color:ao text:"д" |
|||
from: 0 till: 8483 color:pl text:"е" |
|||
from: 0 till: 13 color:pl text:"ё" |
|||
from: 0 till: 940 color:ao text:"ж" |
|||
from: 0 till: 1641 color:ao text:"з" |
|||
from: 0 till: 7367 color:pl text:"и" |
|||
from: 0 till: 1208 color:ao text:"й" |
|||
from: 0 till: 3486 color:ao text:"к" |
|||
from: 0 till: 4343 color:ao text:"л" |
|||
from: 0 till: 3203 color:ao text:"м" |
|||
from: 0 till: 6700 color:ao text:"н" |
|||
from: 0 till: 10983 color:pl text:"о" |
|||
from: 0 till: 2804 color:ao text:"п" |
|||
from: 0 till: 4746 color:ao text:"р" |
|||
from: 0 till: 5473 color:ao text:"с" |
|||
from: 0 till: 6318 color:ao text:"т" |
|||
from: 0 till: 2615 color:pl text:"у" |
|||
from: 0 till: 267 color:ao text:"ф" |
|||
from: 0 till: 966 color:ao text:"х" |
|||
from: 0 till: 486 color:ao text:"ц" |
|||
from: 0 till: 1450 color:ao text:"ч" |
|||
from: 0 till: 718 color:ao text:"ш" |
|||
from: 0 till: 361 color:ao text:"щ" |
|||
from: 0 till: 37 color:gs text:"ъ" |
|||
from: 0 till: 1898 color:pl text:"ы" |
|||
from: 0 till: 1735 color:gs text:"ь" |
|||
from: 0 till: 331 color:pl text:"э" |
|||
from: 0 till: 639 color:pl text:"ю" |
|||
from: 0 till: 2001 color:pl text:"я" |
|||
TextData= |
|||
pos:(340,45) textcolor:black fontsize:6 |
|||
text:0,1 |
|||
LineData = |
|||
at:1000 color:grid1 width:1 |
|||
at:2000 color:grid1 width:1 |
|||
at:3000 color:grid1 width:1 |
|||
at:4000 color:grid1 width:1 |
|||
at:5000 color:grid1 width:1 |
|||
at:6000 color:grid1 width:1 |
|||
at:7000 color:grid1 width:1 |
|||
at:8000 color:grid1 width:1 |
|||
at:9000 color:grid1 width:1 |
|||
at:10000 color:grid1 width:1 |
|||
</timeline>}} |
|||
{|class="standard sortable" |
{|class="standard sortable" |
||
! |
!буква ||ранг ||употреблений || colspan="2" | частотность |
||
|- |
|- |
||
|align="center"|а||align="right"|3|| align="right" |40487008||align="right"|{{bartable|8.01|%|40|1.5em|background:red}} |
|||
| 1 || о || 55414481 || 10.97% |
|||
|- |
|- |
||
|align="center"|б||align="right"|21|| align="right" |8051767||align="right"|{{bartable|1.59|%|40|1.5em|background:blue}} |
|||
| 2 || е || 42691213 || 8.45% |
|||
|- |
|- |
||
|align="center"|в||align="right"|9||align="right"|22930719||align="right"|{{bartable|4.54|%|40|1.5em|background:blue}} |
|||
| 3 || а || 40487008 || 8.01% |
|||
|- |
|- |
||
|align="center"|г||align="right"|19||align="right"|8564640||align="right"|{{bartable|1.70|%|40|1.5em|background:blue}} |
|||
| 4 || и || 37153142 || 7.35% |
|||
|- |
|- |
||
|align="center"|д||align="right"|13||align="right"|15052118||align="right"|{{bartable|2.98|%|40|1.5em|background:blue}} |
|||
| 5 || н || 33838881 || 6.70% |
|||
|- |
|- |
||
|align="center"|е||align="right"|2||align="right"|42691213||align="right"|{{bartable|8.45|%|40|1.5em|background:red}} |
|||
| 6 || т || 31620970 || 6.26% |
|||
|- |
|- |
||
|align="center"|ё||align="right"|33||align="right"|184928||align="right"|{{bartable|0.04|%|40|1.5em|background:red}} |
|||
| 7 || с || 27627040 || 5.47% |
|||
|- |
|- |
||
|align="center"|ж||align="right"|25||align="right"|4746916||align="right"|{{bartable|0.94|%|40|1.5em|background:blue}} |
|||
| 8 || р || 23916825 || 4.73% |
|||
|- |
|- |
||
|align="center"|з||align="right"|20||align="right"|8329904||align="right"|{{bartable|1.65|%|40|1.5em|background:blue}} |
|||
| 9 || в || 22930719 || 4.54% |
|||
|- |
|- |
||
|align="center"|и||align="right"|4||align="right"|37153142||align="right"|{{bartable|7.35|%|40|1.5em|background:red}} |
|||
| 10 || л || 22230174 || 4.40% |
|||
|- |
|- |
||
|align="center"|й||align="right"|23||align="right"|6106262||align="right"|{{bartable|1.21|%|40|1.5em|background:blue}} |
|||
| 11 || к || 17653469 || 3.49% |
|||
|- |
|- |
||
|align="center"|к||align="right"|11||align="right"|17653469||align="right"|{{bartable|3.49|%|40|1.5em|background:blue}} |
|||
| 12 || м || 16203060 || 3.21% |
|||
|- |
|- |
||
|align="center"|л||align="right"|10||align="right"|22230174||align="right"|{{bartable|4.40|%|40|1.5em|background:blue}} |
|||
| 13 || д || 15052118 || 2.98% |
|||
|- |
|- |
||
|align="center"|м||align="right"|12||align="right"|16203060||align="right"|{{bartable|3.21|%|40|1.5em|background:blue}} |
|||
| 14 || п || 14201572 || 2.81% |
|||
|- |
|- |
||
|align="center"|н||align="right"|5||align="right"|33838881||align="right"|{{bartable|6.70|%|40|1.5em|background:blue}} |
|||
| 15 || у || 13245712 || 2.62% |
|||
|- |
|- |
||
|align="center"|о||align="right"|1||align="right"|55414481||align="right"|{{bartable|10.97|%|40|1.5em|background:red}} |
|||
| 16 || я || 10139085 || 2.01% |
|||
|- |
|- |
||
|align="center"|п||align="right"|14||align="right"|14201572||align="right"|{{bartable|2.81|%|40|1.5em|background:blue}} |
|||
| 17 || ы || 9595941 || 1.90% |
|||
|- |
|- |
||
|align="center"|р||align="right"|8||align="right"|23916825||align="right"|{{bartable|4.73|%|40|1.5em|background:blue}} |
|||
| 18 || ь || 8784613 || 1.74% |
|||
|- |
|- |
||
|align="center"|с||align="right"|7||align="right"|27627040||align="right"|{{bartable|5.47|%|40|1.5em|background:blue}} |
|||
| 19 || г || 8564640 || 1.70% |
|||
|- |
|- |
||
|align="center"|т||align="right"|6||align="right"|31620970||align="right"|{{bartable|6.26|%|40|1.5em|background:blue}} |
|||
| 20 || з || 8329904 || 1.65% |
|||
|- |
|- |
||
|align="center"|у||align="right"|15||align="right"|13245712||align="right"|{{bartable|2.62|%|40|1.5em|background:red}} |
|||
| 21 || б || 8051767 || 1.59% |
|||
|- |
|- |
||
|align="center"|ф||align="right"|31||align="right"|1335747||align="right"|{{bartable|0.26|%|40|1.5em|background:blue}} |
|||
| 22 || ч || 7300193 || 1.44% |
|||
|- |
|- |
||
|align="center"|х||align="right"|24||align="right"|4904176||align="right"|{{bartable|0.97|%|40|1.5em|background:blue}} |
|||
| 23 || й || 6106262 || 1.21% |
|||
|- |
|- |
||
|align="center"|ц||align="right"|28||align="right"|2438807||align="right"|{{bartable|0.48|%|40|1.5em|background:blue}} |
|||
| 24 || х || 4904176 || 0.97% |
|||
|- |
|- |
||
|align="center"|ч||align="right"|22||align="right"|7300193||align="right"|{{bartable|1.44|%|40|1.5em|background:blue}} |
|||
| 25 || ж || 4746916 || 0.94% |
|||
|- |
|- |
||
|align="center"|ш||align="right"|26||align="right"|3678738||align="right"|{{bartable|0.73|%|40|1.5em|background:blue}} |
|||
| 26 || ш || 3678738 || 0.73% |
|||
|- |
|- |
||
|align="center"|щ||align="right"|29||align="right"|1822476||align="right"|{{bartable|0.36|%|40|1.5em|background:blue}} |
|||
| 27 || ю || 3220715 || 0.64% |
|||
|- |
|- |
||
|align="center"|ъ||align="right"|32||align="right"|185452||align="right"|{{bartable|0.04|%|40|1.5em|background:yellow}} |
|||
| 28 || ц || 2438807 || 0.48% |
|||
|- |
|- |
||
|align="center"|ы||align="right"|17||align="right"|9595941||align="right"|{{bartable|1.90|%|40|1.5em|background:red}} |
|||
| 29 || щ || 1822476 || 0.36% |
|||
|- |
|- |
||
|align="center"|ь||align="right"|18||align="right"|8784613||align="right"|{{bartable|1.74|%|40|1.5em|background:yellow}} |
|||
| 30 || э || 1610107 || 0.32% |
|||
|- |
|- |
||
|align="center"|э||align="right"|30||align="right"|1610107||align="right"|{{bartable|0.32|%|40|1.5em|background:red}} |
|||
| 31 || ф || 1335747 || 0.26% |
|||
|- |
|- |
||
|align="center"|ю||align="right"|27||align="right"|3220715||align="right"|{{bartable|0.64|%|40|1.5em|background:red}} |
|||
| 32 || ъ || 185452 || 0.04% |
|||
|- |
|- |
||
|align="center"|я||align="right"|16||align="right"|10139085||align="right"|{{bartable|2.01|%|40|1.5em|background:red}} |
|||
| 33 || ё || 184928 || 0.04% |
|||
|} |
|} |
||
== См. также == |
== См. также == |
||
{{кол}} |
|||
* [[Частотный словарь]] |
* [[Частотный словарь]] |
||
* [[Анализ текста]] |
* [[Анализ текста]] |
||
* [[Математическая лингвистика]] |
* [[Математическая лингвистика]] |
||
* [[Статистика запросов]] |
* [[Статистика запросов]] |
||
* [[Частотность букв немецкого языка]] |
|||
* [[Частотность букв таджикского языка]] |
|||
* [[wikt:Категория:Приложения:Списки частотности|Списки частотности в Викисловаре]] |
* [[wikt:Категория:Приложения:Списки частотности|Списки частотности в Викисловаре]] |
||
{{кол|конец}} |
|||
== Примечания == |
== Примечания == |
||
Строка 168: | Строка 105: | ||
== Ссылки == |
== Ссылки == |
||
{{wiktionary|частотность}} |
{{wiktionary|частотность}} |
||
* [ |
* [https://www.bckelk.org.uk/words/etaoin.html Самые частотные буквы в различных языках] {{ref-en}} |
||
* {{cite web | url = http://postnauka.ru/video/56829 | author = [[Пиперски, Александр Чедович|Пиперски А.]] | title= Частотность в языке | publisher = [[ПостНаука]] | date = |
* {{cite web | url = http://postnauka.ru/video/56829 | author = [[Пиперски, Александр Чедович|Пиперски А.]] | title= Частотность в языке | publisher = [[ПостНаука]] | date = 2015-12-24 }} |
||
* [[:en:Most common words in English]] {{ref-en}} |
* [[:en:Most common words in English]] {{ref-en}} |
||
*[https://web.archive.org/web/20200212193135/http://simia.net/letters/ Letter frequency-simia.net] {{en icon}} |
|||
{{ling-stub}} |
|||
[[Категория:Корпусная лингвистика]] |
[[Категория:Корпусная лингвистика]] |
Текущая версия от 07:30, 25 сентября 2024
Частотность (или относительная частотность) — отношение количества экземпляров данного объекта полному количеству экземпляров всех объектов в данном множестве. Иногда количество экземпляров данного объекта называют абсолютной частотностью этого объекта. В лингвистике и лексикостатистике в качестве таких объектов понимаются слова, буквы, словосочетания, в криптографии и информатике - также сочетания букв и просто любые символы. Под множеством может пониматься какой-либо текст, совокупность текстов (корпус) или даже язык.
Расчёт частотности слов осуществляется по формуле:
где — частотность слова ,
— количество употреблений слова ,
— количество употреблений всех слов.
В большинстве случаев частотность выражается в процентах. В словарях частотность слов может отражаться пометками — употребительное, малоупотребительное и т. д.
Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) является одним из признаков аллитерации (наряду с позиционными характеристиками). Высокие показатели частотности гласных в тексте косвенно свидетельствуют об ассонансе. Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.
Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров.
Частотность букв русского языка
[править | править код]Статистика частотности букв русского языка (на материале НКРЯ):[1]
буква | ранг | употреблений | частотность | |
---|---|---|---|---|
а | 3 | 40487008 | 8,01% | |
б | 21 | 8051767 | 1,59% | |
в | 9 | 22930719 | 4,54% | |
г | 19 | 8564640 | 1,70% | |
д | 13 | 15052118 | 2,98% | |
е | 2 | 42691213 | 8,45% | |
ё | 33 | 184928 | 0,04% | |
ж | 25 | 4746916 | 0,94% | |
з | 20 | 8329904 | 1,65% | |
и | 4 | 37153142 | 7,35% | |
й | 23 | 6106262 | 1,21% | |
к | 11 | 17653469 | 3,49% | |
л | 10 | 22230174 | 4,40% | |
м | 12 | 16203060 | 3,21% | |
н | 5 | 33838881 | 6,70% | |
о | 1 | 55414481 | 10,97% | |
п | 14 | 14201572 | 2,81% | |
р | 8 | 23916825 | 4,73% | |
с | 7 | 27627040 | 5,47% | |
т | 6 | 31620970 | 6,26% | |
у | 15 | 13245712 | 2,62% | |
ф | 31 | 1335747 | 0,26% | |
х | 24 | 4904176 | 0,97% | |
ц | 28 | 2438807 | 0,48% | |
ч | 22 | 7300193 | 1,44% | |
ш | 26 | 3678738 | 0,73% | |
щ | 29 | 1822476 | 0,36% | |
ъ | 32 | 185452 | 0,04% | |
ы | 17 | 9595941 | 1,90% | |
ь | 18 | 8784613 | 1,74% | |
э | 30 | 1610107 | 0,32% | |
ю | 27 | 3220715 | 0,64% | |
я | 16 | 10139085 | 2,01% |
См. также
[править | править код]Примечания
[править | править код]- ↑ О. Н. Ляшевская, С. А. Шаров. Новый частотный словарь русской лексики Архивная копия от 9 мая 2021 на Wayback Machine (Дата обращения: 23 апреля 2017)
Ссылки
[править | править код]- Самые частотные буквы в различных языках (англ.)
- Пиперски А. Частотность в языке . ПостНаука (24 декабря 2015).
- en:Most common words in English (англ.)
- Letter frequency-simia.net (англ.)