Ir al contenido

Diferencia entre revisiones de «Frecuencia de aparición de letras»

De Wikipedia, la enciclopedia libre
Contenido eliminado Contenido añadido
Frecuencia de aparición de letras en español: Una coma mal puesta en el listado de letras :)
Adaptación a las convenciones de estilo
 
(No se muestran 10 ediciones intermedias de 9 usuarios)
Línea 1: Línea 1:
{{Problemas artículo|sección|Wikificar|Referencias|Literatura|t=20201024}}
{{Problemas artículo|wikificar|referencias|literatura|t=20201024}}


[[Archivo:Frecuencia de uso de letras en español.svg|miniaturadeimagen|Frecuencia de uso de letras en español|500x500px]]
[[Archivo:Frecuencia de uso de letras en español.svg|miniaturadeimagen|Frecuencia de uso de letras en español|500x500px]]


El '''cálculo de la frecuencia de [[letra]]s''' en una lengua es difícil y está sujeto a la interpretación. Se cuenta la [[frecuencia]] de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros:
La [[Frecuencia estadística|frecuencia]] de las [[letra]]s del [[alfabeto]] es la cantidad de veces que aparecen en un texto promedio. Su cálculo está sujeto a interpretación ya que influyen varios parámetros:
* El estilo [[Narración|narrativo]]. Si hay muchos [[Verbo|verbos]] en [[infinitivo]], habrá muchas "R".
* El estilo [[Narración|narrativo]]. Si hay muchos [[Verbo|verbos]] en [[infinitivo]], habrá muchas ''r''.
* El [[vocabulario]] específico del [[documento]]. Si se habla de [[ríos]], habrá muchas is.
* El [[vocabulario]] específico del [[documento]]. Si se habla de [[ríos]], habrá muchas ''i''.
* El tipo de documento. En pequeños [[Anuncio|anuncios]] se pueden encontrar muchos [[Símbolo|símbolos]] de [[Moneda|monedas]] ([[Euro|€]], [[$]], Bs, etc), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
* El tipo de documento. En pequeños [[Anuncio|anuncios]] se pueden encontrar muchos [[Símbolo|símbolos]] de [[Moneda|monedas]] ([[Euro|€]], [[$]], [[£]], etcétera), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
* En el [[Diccionario de la lengua española|diccionario de la RAE]] la letra más frecuente es la [[E]].
* Los parámetros técnicos. Se pueden calcular fácilmente [[Estadística|estadísticas]] sobre textos [[Informática|informatizados]], pero a menudo, estos no implican el uso de [[mayúscula]]s acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las [[Acento diacrítico|tildes]].
* Los parámetros técnicos. Se pueden calcular fácilmente [[Estadística|estadísticas]] sobre textos [[Informática|informatizados]], pero a menudo, estos no implican el uso de [[mayúscula]]s acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las [[Acento diacrítico|tildes]].
* La presencia de [[tipografía|caracteres]] no alfabéticos ([[signos de puntuación]], cifras, [[paréntesis]], símbolos [[matemáticas|matemáticos]] corrientes, etc.) pueden o no tenerse en cuenta. La [[coma (puntuación)|coma]] y el [[punto (puntuación)|punto]], por ejemplo, son más frecuentes que más de la mitad de las letras.
* La presencia de [[tipografía|caracteres]] no alfabéticos ([[signos de puntuación]], cifras, [[paréntesis]], símbolos [[matemáticas|matemáticos]] corrientes, etc.) pueden o no tenerse en cuenta. La [[coma (puntuación)|coma]] y el [[punto (puntuación)|punto]], por ejemplo, son más frecuentes que más de la mitad de las letras.

Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes.


== Frecuencia de aparición de letras en español ==
== Frecuencia de aparición de letras en español ==
Línea 27: Línea 24:
|}
|}
</center>
</center>
Ordenadas de mayor a menor frecuencia de aparición obtenemos: E, A, O, S, R, N, I, D, L, C, T, U, M, P, B, G, V, Y, Q, H, F, Z, J, Ñ, X, K, W.
Ordenadas de mayor a menor frecuencia de aparición obtenemos: ''e, a, o, s, r, n, i, d, l, c, t, u, m, p, b, g, v, y, q, h, f, z, j, ñ, x, k, w''.


A partir de los datos anteriores, se puede decir que:
A partir de los datos anteriores, se puede decir que:


* Las vocales ocuparán alrededor del 45% del texto.
* Las vocales ocuparán alrededor del 45% del texto.
* La E y la A son identificables fácilmente dado su porcentaje de aparición.
* La ''e'' y la ''a'' son identificables fácilmente dado su porcentaje de aparición.
* Las consonantes más frecuentes son: S, R, N, D, L, C (aparecen con una frecuencia de un 37%)
* Las consonantes más frecuentes son: ''s, r, n, d, l, c'' (sumadas tienen una frecuencia de un 37%)
* Las seis letras menos frecuentes son: Z, J, Ñ, X, K, W (sumadas tienen una frecuencia que apenas supera el 1,5%)
* Las seis letras menos frecuentes son: ''z, j, ñ, x, k, w'' (sumadas tienen una frecuencia que apenas supera el 1,5%)


=== Ejemplo concreto: el Quijote ===
=== Ejemplo concreto: el Quijote ===
Línea 57: Línea 54:
[http://www.gutenberg.org/cache/epub/17073/pg17073.txt La Regenta]
[http://www.gutenberg.org/cache/epub/17073/pg17073.txt La Regenta]


Se ha incluido la frecuencia del "espacio" o separador de palabras, así como las de los signos de puntuación " . , ; : "
Se ha incluido la frecuencia del espacio o separador de palabras, así como las de los signos de puntuación " . , ; : "


Hay que señalar los siguientes resultados: <ref name="kripto">{{cita web|url=http://www.kriptopolis.org/frecuencia-letras-castellano|título=Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.|autor=Agustín (administrador de Kriptópolis)|fechaacceso=2 de mayo de 2015|urlarchivo=https://web.archive.org/web/20131216055136/http://www.kriptopolis.org/frecuencia-letras-castellano|fechaarchivo=16 de diciembre de 2013}}</ref>
Hay que señalar los siguientes resultados:<ref name="kripto">{{cita web|url=http://www.kriptopolis.org/frecuencia-letras-castellano|título=Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.|autor=Agustín (administrador de Kriptópolis)|fechaacceso=2 de mayo de 2015|urlarchivo=https://web.archive.org/web/20131216055136/http://www.kriptopolis.org/frecuencia-letras-castellano|fechaarchivo=16 de diciembre de 2013}}</ref>


1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.
1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.


2. La letra “a” es algo más abundante que la letra “e”.
2. La letra ''a'' es algo más abundante que la letra ''e''.


3. Los signos de puntuación “,” y “.” son más abundantes que la letra “q” y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el "punto y coma" supera a la “ñ” y los "dos puntos" a la “k”.
3. Los signos de puntuación “,” y “.” son más abundantes que la letra ''q'' y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el punto y coma supera a la ''ñ'' y los dos puntos a la ''k''.
{| class="wikitable" style="text-align:center;"
{| class="wikitable" style="text-align:center;"
|'''Letra'''
|'''Letra'''
Línea 109: Línea 106:
|0,001%
|0,001%
|}
|}
Total 1 734 699 <ref name="kripto" />
Total 1 734 699<ref name="kripto" />


=== Otros sistemas ===
=== Frecuencia en el diccionario ===
Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la A, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (''que'', ''le'', ''se'', etc.) que contienen la E, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.
Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la ''a'', pero en el lenguaje escrito hay una gran cantidad de palabras cortas (''que'', ''le'', ''se'', etc.) que contienen la ''e'', por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.


== Otros idiomas ==
== Otros idiomas ==
El alineamiento de las letras en una máquina [[linotipia]] es [[ETAOIN SHRDLU]], que corresponde aproximadamente a las doce letras más frecuentes en inglés.
El alineamiento de las letras en una máquina [[linotipia]] es [[ETAOIN SHRDLU]], que corresponde aproximadamente a las doce letras más frecuentes en inglés.

== Literatura en inglés ==
En el cuento [[El escarabajo de oro|El Escarabajo de Oro]] de [[Edgar Allan Poe]] (publicado por primera vez en junio de 1843), se relata una historia que incluye una [[criptografía]] y la descripción del método para [[Criptoanálisis|resolver]] el mensaje [[cifrado por sustitución]] simple analizando frecuencias de letras.

== Véase también ==
* [[Análisis de frecuencias]]
* [[Ley de Zipf]]
* [[Cifrado César]]

== Referencias ==
== Referencias ==
{{listaref}}
{{listaref}}

Revisión actual - 02:05 16 ago 2024

Frecuencia de uso de letras en español

La frecuencia de las letras del alfabeto es la cantidad de veces que aparecen en un texto promedio. Su cálculo está sujeto a interpretación ya que influyen varios parámetros:

Frecuencia de aparición de letras en español

[editar]

Porcentaje de aparición de letras en español:[1]

Letra A B C D E F G H I J K L M N
Porcentaje 12,53% 1,42% 4,68% 5,86% 13,68% 0,69% 1,01% 0,70% 6,25% 0,44% 0,02% 4,97% 3,15% 6,71%
Letra Ñ O P Q R S T U V W X Y Z
Porcentaje 0,31% 8,68% 2,51% 0,88% 6,87% 7,98% 4,63% 3,93% 0,90% 0,01% 0,22% 0,90% 0,52%

Ordenadas de mayor a menor frecuencia de aparición obtenemos: e, a, o, s, r, n, i, d, l, c, t, u, m, p, b, g, v, y, q, h, f, z, j, ñ, x, k, w.

A partir de los datos anteriores, se puede decir que:

  • Las vocales ocuparán alrededor del 45% del texto.
  • La e y la a son identificables fácilmente dado su porcentaje de aparición.
  • Las consonantes más frecuentes son: s, r, n, d, l, c (sumadas tienen una frecuencia de un 37%)
  • Las seis letras menos frecuentes son: z, j, ñ, x, k, w (sumadas tienen una frecuencia que apenas supera el 1,5%)

Ejemplo concreto: el Quijote

[editar]

El texto del Quijote contiene 1.640.502 letras:

Letra e a o s n r i l d u t c m p
Cantidad 229.188 200.492 162.512 125.726 108.440 100.953 90.070 89.141 87.237 79.471 61.749 59.435 44.658 35.464
Porcentaje 14,0% 12,2% 9,9% 7,7% 6,6% 6,2% 5,5% 5,4% 5,3% 4,8% 3,8% 3,6% 2,7% 2,2%
Letra q y b h v g j f z ñ k w x
Cantidad 32.483 25.115 24.146 19.920 17.855 17.225 10.530 7.581 6.491 4.241 377 2 1
Porcentaje 2,0% 1,5% 1,5% 1,2% 1,1% 1,0% 0,6% 0,5% 0,4% 0,3% 0,1% 0,0% 0,0%

La Regenta, de Leopoldo Alas (Clarín)

[editar]

La Regenta

Se ha incluido la frecuencia del espacio o separador de palabras, así como las de los signos de puntuación " . ,  ;  : "

Hay que señalar los siguientes resultados:[2]

1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.

2. La letra a es algo más abundante que la letra e.

3. Los signos de puntuación “,” y “.” son más abundantes que la letra q y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el punto y coma supera a la ñ y los dos puntos a la k.

Letra espacio a e o s r n i l d u t c m p b
Cantidad 305.290 192.666 176.252 128.009 101.317 89.243 87.585 86.284 83.524 67.215 57.662 53.937 52.346 36.500 33.970 26.658
Porcentaje 17,599% 11,107% 10,160% 7,379% 5,841% 5,145% 5,049% 4,974% 4,815% 3,875% 3,324% 3,109% 3,018% 2,104% 1,958% 1,537%
Letra . , q v g h y f j z ; ñ x : k w
Cantidad 26.079 24.447 17.773 15.491 15.202 13.796 13.619 8.454 6.428 5.549 3.658 3.501 1.224 941 59 20
Porcentaje 1,503% 1,409% 1,025% 0,893% 0,876% 0,795% 0,785% 0,487% 0,371% 0,320% 0,211% 0,202% 0,071% 0,054% 0,003% 0,001%

Total 1 734 699[2]

Frecuencia en el diccionario

[editar]

Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la a, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la e, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.

Otros idiomas

[editar]

El alineamiento de las letras en una máquina linotipia es ETAOIN SHRDLU, que corresponde aproximadamente a las doce letras más frecuentes en inglés.

Literatura en inglés

[editar]

En el cuento El Escarabajo de Oro de Edgar Allan Poe (publicado por primera vez en junio de 1843), se relata una historia que incluye una criptografía y la descripción del método para resolver el mensaje cifrado por sustitución simple analizando frecuencias de letras.

Véase también

[editar]

Referencias

[editar]
  1. Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
  2. a b Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 2 de mayo de 2015. 

Enlaces externos

[editar]