Ir al contenido

Diferencia entre revisiones de «Frecuencia de aparición de letras»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Lorito987 (discusión · contribs.)
Formato
Lorito987 (discusión · contribs.)
enlaces
Línea 3: Línea 3:
[[Archivo:Frecuencia de uso de letras en español.svg|miniaturadeimagen|Frecuencia de uso de letras en español|500x500px]]
[[Archivo:Frecuencia de uso de letras en español.svg|miniaturadeimagen|Frecuencia de uso de letras en español|500x500px]]


El '''cálculo de la frecuencia de [[letra]]s''' en una lengua es difícil y está sujeto a la interpretación. Se cuenta la [[frecuencia]] de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:

* El estilo [[Narración|narrativo]]. Si hay muchos [[Verbo|verbos]] en [[infinitivo]], habrá muchas "R".
El cálculo de la frecuencia de [[letra]]s en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:
* El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R".
* El [[vocabulario]] específico del [[documento]]. Si se habla de [[ríos]], habrá muchas is.
* El tipo de documento. En pequeños [[Anuncio|anuncios]] se pueden encontrar muchos [[Símbolo|símbolos]] de [[Moneda|monedas]] ([[Euro|]], [[$|$,]] Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
* El vocabulario específico del documento. Si se habla de ríos, habrá muchas is.
* En el [[Diccionario de la lengua española|diccionario de la RAE]] la letra más frecuente es la [[A]].
* El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
* Los parámetros técnicos. Se pueden calcular fácilmente [[Estadística|estadísticas]] sobre textos [[Informática|informatizados]], pero a menudo, estos no implican el uso de [[mayúscula]]s acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las [[Acento diacrítico|tildes]].
* En el diccionario de la RAE la letra más frecuente es la A.
* La presencia de [[tipografía|caracteres]] no alfabéticos ([[signos de puntuación]], cifras, [[paréntesis]], símbolos [[matemáticas|matemáticos]] corrientes, etc.) pueden o no tenerse en cuenta. La [[coma (puntuación)|coma]] y el [[punto (puntuación)|punto]], por ejemplo, son más frecuentes que más de la mitad de las letras.
* Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, estos no implican el uso de [[mayúscula]]s acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes.
* La presencia de [[tipografía|caracteres]] no alfabéticos ([[Signo de puntuación|signos]] de [[puntuación]], cifras, paréntesis, símbolos [[matemáticas|matemáticos]] corrientes, etc.) pueden o no tenerse en cuenta. La [[coma (puntuación)|coma]] y el [[punto (puntuación)|punto]], por ejemplo, son más frecuentes que más de la mitad de las letras.


Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.
Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.
Línea 77: Línea 76:
|}
|}


Ordenadas de mayor a menor frecuencia de aparición obtenemos: E A O S R N I D L C T U M P B G V Y Q H F Z J Ñ X K W.
Ordenadas de mayor a menor frecuencia de aparición obtenemos: E, A , O, S, R, N, I, D, L, C, T, U, M, P, B, G, V, Y, Q, H, F, Z, J, Ñ, X, K, W.


A partir de los datos anteriores, se puede decir que:
A partir de los datos anteriores, se puede decir que:
Línea 83: Línea 82:
* Las vocales ocuparán alrededor del 45% del texto.
* Las vocales ocuparán alrededor del 45% del texto.
* La E y la A son identificables fácilmente dado su porcentaje de aparición.
* La E y la A son identificables fácilmente dado su porcentaje de aparición.
* Las consonantes más frecuentes son: S,R,N,D,L,C (aparecen con una frecuencia de un 37%)
* Las consonantes más frecuentes son: S, R, N, D, L, C (aparecen con una frecuencia de un 37%)
* Las seis letras menos frecuentes son: Z,J,Ñ,X,K,W (sumadas tienen una frecuencia que apenas supera el 1,5%)
* Las seis letras menos frecuentes son: Z, J, Ñ, X, K, W (sumadas tienen una frecuencia que apenas supera el 1,5%)


=== Ejemplo concreto: el Quijote ===
=== Ejemplo concreto: el Quijote ===


El texto del Quijote[https://web.archive.org/web/20090926015526/http://www.gutenberg.org/dirs/etext99/2donq10.zip] contiene 1.640.502 letras:
El texto del [http://www.cervantesvirtual.com/obra-visor/el-ingenioso-hidalgo-don-quijote-de-la-mancha-6/html/05f86699-4b53-4d9b-8ab8-b40ab63fb0b3_2.html#I_0_ Quijote] contiene 1.640.502 letras:


{| class="sortable"
{| class="sortable"
Línea 153: Línea 152:


=== La Regenta, de Leopoldo Alas (Clarín) ===
=== La Regenta, de Leopoldo Alas (Clarín) ===
http://www.gutenberg.org/cache/epub/17073/pg17073.txt
[http://www.gutenberg.org/cache/epub/17073/pg17073.txt La Regenta]


Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación ". , ; :"
Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación " . , ; : "


Hay que señalar los siguientes resultados: <ref name="kripto">{{cita web|url=http://www.kriptopolis.org/frecuencia-letras-castellano|título=Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.|autor=Agustín (administrador de Kriptópolis)|fechaacceso=2 de mayo de 2015|urlarchivo=https://web.archive.org/web/20131216055136/http://www.kriptopolis.org/frecuencia-letras-castellano|fechaarchivo=16 de diciembre de 2013}}</ref>
Hay que señalar los siguientes resultados: <ref name="kripto">{{cita web|url=http://www.kriptopolis.org/frecuencia-letras-castellano|título=Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.|autor=Agustín (administrador de Kriptópolis)|fechaacceso=2 de mayo de 2015|urlarchivo=https://web.archive.org/web/20131216055136/http://www.kriptopolis.org/frecuencia-letras-castellano|fechaarchivo=16 de diciembre de 2013}}</ref>
Línea 243: Línea 242:
== Otros idiomas ==
== Otros idiomas ==
El alineamiento de las letras en una máquina [[linotipia]] es [[ETAOIN SHRDLU]], que corresponde aproximadamente a las doce letras más frecuentes en inglés.
El alineamiento de las letras en una máquina [[linotipia]] es [[ETAOIN SHRDLU]], que corresponde aproximadamente a las doce letras más frecuentes en inglés.


== Referencias ==
== Referencias ==
{{listaref}}
{{listaref}}

Revisión del 10:11 29 mar 2021

Frecuencia de uso de letras en español

El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:

Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.

Frecuencia de aparición de letras en español

Porcentaje de aparición de letras en español:[1]

Letra Porcentaje
A 12,53%
B 1,42%
C 4,68%
D 5,86%
E 13,68%
F 0,69%
G 1,01%
H 0,70%
I 6,25%
J 0,44%
K 0,02%
L 4,97%
M 3,15%
N 6,71%
Ñ 0,31%
O 8,68%
P 2,51%
Q 0,88%
R 6,87%
S 7,98%
T 4,63%
U 3,93%
V 0,90%
W 0,01%
X 0,22%
Y 0,90%
Z 0,52%

Ordenadas de mayor a menor frecuencia de aparición obtenemos: E, A , O, S, R, N, I, D, L, C, T, U, M, P, B, G, V, Y, Q, H, F, Z, J, Ñ, X, K, W.

A partir de los datos anteriores, se puede decir que:

  • Las vocales ocuparán alrededor del 45% del texto.
  • La E y la A son identificables fácilmente dado su porcentaje de aparición.
  • Las consonantes más frecuentes son: S, R, N, D, L, C (aparecen con una frecuencia de un 37%)
  • Las seis letras menos frecuentes son: Z, J, Ñ, X, K, W (sumadas tienen una frecuencia que apenas supera el 1,5%)

Ejemplo concreto: el Quijote

El texto del Quijote contiene 1.640.502 letras:

Letra Cantidad Porcentaje
e 229188 14,0%
a 200492 12,2%
o 162512 9,9%
s 125726 7,7%
n 108440 6,6%
r 100953 6,2%
i 90070 5,5%
l 89141 5,4%
d 87237 5,3%
u 79471 4,8%
t 61749 3,8%
c 59435 3,6%
m 44658 2,7%
p 35464 2,2%
q 32483 2,0%
y 25115 1,5%
b 24146 1,5%
h 19920 1,2%
v 17855 1,1%
g 17225 1,0%
j 10530 0,6%
f 7581 0,5%
z 6491 0,4%
ñ 4241 0,3%
k 377 0,1%
w 2 0,0%
x 1 0,0%

La Regenta, de Leopoldo Alas (Clarín)

La Regenta

Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación " . ,  ;  : "

Hay que señalar los siguientes resultados: [2]

1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.

2. La letra “a” es algo más abundante que la letra “e”.

3. Los signos de puntuación “,” y “.” son más abundantes que la letra “q” y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el "punto y coma" supera a la “ñ” y los "dos puntos" a la “k”.

Letra Cantidad Porcentaje
espacio 305290 17,599%
a 192666 11,107%
e 176252 10,160%
o 128009 7,379%
s 101317 5,841%
r 89243 5,145%
n 87585 5,049%
i 86284 4,974%
l 83524 4,815%
d 67215 3,875%
u 57662 3,324%
t 53937 3,109%
c 52346 3,018%
m 36500 2,104%
p 33970 1,958%
b 26658 1,537%
. 26079 1,503%
, 24447 1,409%
q 17773 1,025%
v 15491 0,893%
g 15202 0,876%
h 13796 0,795%
y 13619 0,785%
f 8454 0,487%
j 6428 0,371%
z 5549 0,320%
; 3658 0,211%
ñ 3501 0,202%
x 1224 0,071%
: 941 0,054%
k 59 0,003%
w 20 0,001%

Total 1734699 [2]

Otros sistemas

Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la E, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.

Otros idiomas

El alineamiento de las letras en una máquina linotipia es ETAOIN SHRDLU, que corresponde aproximadamente a las doce letras más frecuentes en inglés.

Referencias

  1. Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  2. a b Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 2 de mayo de 2015. 

Enlaces externos