Frecuencia de aparición de letras
Apariencia
El cálculo de la frecuencia de letras en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:
- El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R".
- El vocabulario específico del documento. Si se habla de ríos, habrá muchas "Í"; si uno de los protagonistas se llama Wenceslao, aumentará el número de "W".
- El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de Euro (€), que es posible que esté ausente en la mayor parte de otro tipo de documentos.
- Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, éstos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes.
- La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes...) pueden o no tenerse en cuenta. La coma, punto son por ejemplo más frecuentes que más de la mitad de las letras.
Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.
Porcentaje de aparición de letras
Porcentaje de aparición de letras en español[1]:
Por orden alfabético | Por frecuencia | ||
Letra | Porcentaje | Letra | Porcentaje |
A | 12.53 | E | 13.68 |
B | 1.42 | A | 12.53 |
C | 4.68 | O | 8.68 |
D | 5.86 | S | 7.98 |
E | 13.68 | R | 6.87 |
F | 0.69 | N | 6.71 |
G | 1.01 | I | 6.25 |
H | 0.70 | D | 5.86 |
I | 6.25 | L | 4.97 |
J | 0.44 | C | 4.68 |
K | 0.00 | T | 4.63 |
L | 4.97 | U | 3.93 |
M | 3.15 | M | 3.15 |
N | 6.71 | P | 2.51 |
O | 8.68 | B | 1.42 |
P | 2.51 | G | 1.01 |
Q | 0.88 | V | 0.90 |
R | 6.87 | Y | 0.90 |
S | 7.98 | Q | 0.88 |
T | 4.63 | H | 0.70 |
U | 3.93 | F | 0.69 |
V | 0.90 | Z | 0.52 |
W | 0.02 | J | 0.44 |
X | 0.22 | X | 0.22 |
Y | 0.90 | W | 0.02 |
Z | 0.52 | K | 0.00 |
A partir de los datos anteriores, se puede decir que:
- Las vocales ocuparán alrededor del 47% del texto.
- La E y la A son identificables fácilmente dado su porcentaje de aparición.
- Las consonantes más frecuentes son: L,S,N,D (aparecen con una frecuencia de un 30%)
- Las seis letras menos frecuentes son: V,Ñ,J,Z,X y K (sumadas tienen una frecuencia de poco más del 1%)
Referencias
- ^ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.