Diferencia entre revisiones de «Frecuencia de aparición de letras»
agrego imagen |
Adaptación a las convenciones de estilo |
||
(No se muestran 122 ediciones intermedias de 87 usuarios) | |||
Línea 1: | Línea 1: | ||
{{Problemas artículo|wikificar|referencias|literatura|t=20201024}} |
|||
El cálculo de la frecuencia de [[letra]]s en una lengua es difícil y está sujeto a la interpretación. Se cuenta la frecuencia de las letras de un texto arbitrariamente largo, pero en los resultados influyen varios parámetros: |
|||
* El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas "R". |
|||
* El vocabulario específico del documento. Si se habla de ríos, habrá muchas "Í"; si uno de los protagonistas se llama Wenceslao, aumentará el número de "W". |
|||
* El tipo de documento. En pequeños anuncios se pueden encontrar múchos símbolos del Euro (€), que es posible que esté ausente en la mayor parte de otro tipo de documentos. |
|||
* Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, éstos no implican el uso de [[mayúscula]]s acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes. |
|||
* La presencia de [[caracter]]es no alfabéticos ([[signo]]s de [[puntuación]], cifras, paréntesis, símbolos [[matemáticas|matemáticos]] corrientes...) pueden o no tenerse en cuenta. La [[coma]], [[punto]] son por ejemplo más frecuentes que más de la mitad de las letras. |
|||
[[Archivo:Frecuencia de uso de letras en español.svg|miniaturadeimagen|Frecuencia de uso de letras en español|500x500px]] |
|||
Si estos parámetros tienen un impacto espectacular en los símbolos menos frecuentes, es también sensible incluso para las letras más frecuentes. |
|||
La [[Frecuencia estadística|frecuencia]] de las [[letra]]s del [[alfabeto]] es la cantidad de veces que aparecen en un texto promedio. Su cálculo está sujeto a interpretación ya que influyen varios parámetros: |
|||
==Porcentaje de aparición de letras== |
|||
* El estilo [[Narración|narrativo]]. Si hay muchos [[Verbo|verbos]] en [[infinitivo]], habrá muchas ''r''. |
|||
[[Image:Frecuencia de uso de letras en español.PNG|right|340px|thumbnail|Frecuencia relativa de aparición de letras en español.]] |
|||
* El [[vocabulario]] específico del [[documento]]. Si se habla de [[ríos]], habrá muchas ''i''. |
|||
Porcentaje de aparición de letras en '''[[Idioma español|español]]''': |
|||
* El tipo de documento. En pequeños [[Anuncio|anuncios]] se pueden encontrar muchos [[Símbolo|símbolos]] de [[Moneda|monedas]] ([[Euro|€]], [[$]], [[£]], etcétera), que es posible que estén ausentes en la mayor parte de otro tipo de documentos. |
|||
{| |
|||
* Los parámetros técnicos. Se pueden calcular fácilmente [[Estadística|estadísticas]] sobre textos [[Informática|informatizados]], pero a menudo, estos no implican el uso de [[mayúscula]]s acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las [[Acento diacrítico|tildes]]. |
|||
|'''Letra''' || '''Porcentaje''' |
|||
* La presencia de [[tipografía|caracteres]] no alfabéticos ([[signos de puntuación]], cifras, [[paréntesis]], símbolos [[matemáticas|matemáticos]] corrientes, etc.) pueden o no tenerse en cuenta. La [[coma (puntuación)|coma]] y el [[punto (puntuación)|punto]], por ejemplo, son más frecuentes que más de la mitad de las letras. |
|||
== Frecuencia de aparición de letras en español == |
|||
Porcentaje de aparición de letras en [[Idioma español|español]]:<ref>Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.</ref> |
|||
<center> |
|||
{| class="wikitable" style="text-align:center;" |
|||
|'''Letra'''||'''A'''||'''B'''||'''C'''||'''D'''||'''E'''||'''F'''||'''G'''||'''H'''||'''I'''||'''J'''||'''K'''||'''L'''||'''M'''||'''N''' |
|||
|- |
|- |
||
|'''Porcentaje'''||12,53%||1,42%||4,68%||5,86%||13,68%||0,69%||1,01%||0,70%||6,25%||0,44%||0,02%||4,97%||3,15%||6,71% |
|||
|e|| 16,78 |
|||
|- |
|- |
||
|'''Letra'''||'''Ñ'''||'''O'''||'''P'''||'''Q'''||'''R'''||'''S'''||'''T'''||'''U'''||'''V'''||'''W'''||'''X'''||'''Y'''||'''Z''' |
|||
|a|| 11,96 |
|||
|- |
|- |
||
|'''Porcentaje'''||0,31%||8,68%||2,51%||0,88%||6,87%||7,98%||4,63%||3,93%||0,90%||0,01%||0,22%||0,90%||0,52% |
|||
|o|| 8,69 |
|||
| |
|||
|} |
|||
</center> |
|||
Ordenadas de mayor a menor frecuencia de aparición obtenemos: ''e, a, o, s, r, n, i, d, l, c, t, u, m, p, b, g, v, y, q, h, f, z, j, ñ, x, k, w''. |
|||
A partir de los datos anteriores, se puede decir que: |
|||
* Las vocales ocuparán alrededor del 45% del texto. |
|||
* La ''e'' y la ''a'' son identificables fácilmente dado su porcentaje de aparición. |
|||
* Las consonantes más frecuentes son: ''s, r, n, d, l, c'' (sumadas tienen una frecuencia de un 37%) |
|||
* Las seis letras menos frecuentes son: ''z, j, ñ, x, k, w'' (sumadas tienen una frecuencia que apenas supera el 1,5%) |
|||
=== Ejemplo concreto: el Quijote === |
|||
El texto del [http://www.cervantesvirtual.com/obra-visor/el-ingenioso-hidalgo-don-quijote-de-la-mancha-6/html/05f86699-4b53-4d9b-8ab8-b40ab63fb0b3_2.html#I_0_ Quijote] contiene 1.640.502 letras: |
|||
<center> |
|||
{| class="wikitable" style="text-align:center;" |
|||
|'''Letra'''||'''e'''||'''a'''||'''o'''||'''s'''||'''n'''||'''r'''||'''i'''||'''l'''||'''d'''||'''u'''||'''t'''||'''c'''||'''m'''||'''p''' |
|||
|- |
|- |
||
|'''Cantidad'''||229.188|| 200.492||162.512||125.726||108.440|| 100.953||90.070||89.141||87.237||79.471||61.749||59.435||44.658||35.464 |
|||
|l|| 8,37 |
|||
|- |
|- |
||
|'''Porcentaje'''||14,0%||12,2%||9,9%||7,7%|| 6,6%|| 6,2%|| 5,5%|| 5,4%||5,3%|| 4,8%|| 3,8%|| 3,6%|| 2,7%|| 2,2% |
|||
|s ||7,88 |
|||
|- |
|- |
||
|'''Letra'''||'''q'''|| '''y'''||'''b'''||'''h'''||'''v'''||'''g'''||'''j'''||'''f'''||'''z'''||'''ñ'''||'''k'''||'''w'''||'''x''' |
|||
|n|| 7,01 |
|||
|- |
|- |
||
|'''Cantidad'''||32.483||25.115||24.146||19.920||17.855||17.225||10.530||7.581||6.491|| 4.241||377||2||1 |
|||
|d|| 6,87 |
|||
|- |
|- |
||
|'''Porcentaje'''||2,0%|| 1,5% ||1,5%|| 1,2%||1,1%|| 1,0%|| 0,6%|| 0,5%|| 0,4%|| 0,3%|| 0,1%|| 0,0%|| 0,0% |
|||
|r|| 4,94 |
|||
|} |
|||
</center> |
|||
=== La Regenta, de Leopoldo Alas (Clarín) === |
|||
[http://www.gutenberg.org/cache/epub/17073/pg17073.txt La Regenta] |
|||
Se ha incluido la frecuencia del espacio o separador de palabras, así como las de los signos de puntuación " . , ; : " |
|||
Hay que señalar los siguientes resultados:<ref name="kripto">{{cita web|url=http://www.kriptopolis.org/frecuencia-letras-castellano|título=Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.|autor=Agustín (administrador de Kriptópolis)|fechaacceso=2 de mayo de 2015|urlarchivo=https://web.archive.org/web/20131216055136/http://www.kriptopolis.org/frecuencia-letras-castellano|fechaarchivo=16 de diciembre de 2013}}</ref> |
|||
1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente. |
|||
2. La letra ''a'' es algo más abundante que la letra ''e''. |
|||
3. Los signos de puntuación “,” y “.” son más abundantes que la letra ''q'' y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el punto y coma supera a la ''ñ'' y los dos puntos a la ''k''. |
|||
{| class="wikitable" style="text-align:center;" |
|||
|'''Letra''' |
|||
|'''espacio'''||'''a'''||'''e'''||'''o'''||'''s'''||'''r'''||'''n'''||'''i'''||'''l'''||'''d'''||'''u'''||'''t'''||'''c'''||'''m''' |
|||
|'''p''' |
|||
|'''b''' |
|||
|- |
|- |
||
|'''Cantidad''' |
|||
|u|| 4,80 |
|||
|305.290|| 192.666||176.252||128.009||101.317|| 89.243||87.585||86.284||83.524||67.215||57.662||53.937||52.346||36.500 |
|||
|33.970 |
|||
|26.658 |
|||
|- |
|- |
||
|'''Porcentaje''' |
|||
|i|| 4,15 |
|||
|17,599%||11,107%||10,160%||7,379%|| 5,841%|| 5,145%|| 5,049%|| 4,974%||4,815%|| 3,875%|| 3,324%|| 3,109%|| 3,018%|| 2,104% |
|||
|1,958% |
|||
|1,537% |
|||
|- |
|- |
||
|'''Letra''' |
|||
|t|| 3,31 |
|||
|'''.'''||''','''||'''q'''||'''v'''||'''g'''||'''h'''||'''y'''||'''f'''||'''j'''||'''z''' |
|||
|''';''' |
|||
|'''ñ''' |
|||
|'''x''' |
|||
|''':''' |
|||
|'''k''' |
|||
|'''w''' |
|||
|- |
|- |
||
|'''Cantidad''' |
|||
|c|| 2,92 |
|||
|26.079||24.447||17.773||15.491||15.202||13.796|| 13.619||8.454||6.428||5.549 |
|||
|- |
|||
|3.658 |
|||
|p|| 2,76 |
|||
|3.501 |
|||
|- |
|||
|1.224 |
|||
|m|| 2,12 |
|||
| |
|941 |
||
|59 |
|||
|y|| 1,54 |
|||
| |
|20 |
||
|q|| 1,53 |
|||
|- |
|||
|b|| 0,92 |
|||
|- |
|||
|h|| 0,89 |
|||
|- |
|- |
||
|'''Porcentaje''' |
|||
| 1,503%||1,409%|| 1,025%|| 0,893%|| 0,876%|| 0,795%|| 0,785%|| 0,487%|| 0,371%|| 0,320% |
|||
|0,211% |
|||
|0,202% |
|||
|0,071% |
|||
|0,054% |
|||
|0,003% |
|||
|0,001% |
|||
|} |
|} |
||
Total 1 734 699<ref name="kripto" /> |
|||
=== Frecuencia en el diccionario === |
|||
El resto de las letras (G,F,V,W,J,Z,X,K) tienen frecuencias inferiores a 0.5%, por lo que se puede considerar que tienen una escasa presencia. |
|||
Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la ''a'', pero en el lenguaje escrito hay una gran cantidad de palabras cortas (''que'', ''le'', ''se'', etc.) que contienen la ''e'', por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado. |
|||
A partir de los datos anteriores, se puede decir que: |
|||
== Otros idiomas == |
|||
El alineamiento de las letras en una máquina [[linotipia]] es [[ETAOIN SHRDLU]], que corresponde aproximadamente a las doce letras más frecuentes en inglés. |
|||
== Literatura en inglés == |
|||
En el cuento [[El escarabajo de oro|El Escarabajo de Oro]] de [[Edgar Allan Poe]] (publicado por primera vez en junio de 1843), se relata una historia que incluye una [[criptografía]] y la descripción del método para [[Criptoanálisis|resolver]] el mensaje [[cifrado por sustitución]] simple analizando frecuencias de letras. |
|||
== Véase también == |
|||
* [[Análisis de frecuencias]] |
|||
* [[Ley de Zipf]] |
|||
* [[Cifrado César]] |
|||
== Referencias == |
|||
* Las vocales ocuparán alrededor del 47% del texto. |
|||
{{listaref}} |
|||
* La E y la A son identificables fácilmente dado su porcentaje de aparición. |
|||
* Las consonantes más frecuentes son: L,S,N,D (aparecen con una frecuencia de un 30%) |
|||
* Las seis letras menos frecuentes son: V,Ñ,J,Z,X y K (sumadas tienen una frecuencia de poco más del 1%) |
|||
== Enlaces externos == |
|||
[[Categoría:Lingüística]] |
|||
* {{Cita web |url=http://www.kriptopolis.org/frecuencia-letras-castellano |título=Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad. |fechaacceso=17 de febrero de 2011 |urlarchivo=https://web.archive.org/web/20131216055136/http://www.kriptopolis.org/frecuencia-letras-castellano |fechaarchivo=16 de diciembre de 2013 }} |
|||
{{Control de autoridades}} |
|||
[[de:Buchstabenhäufigkeit]] |
|||
[[Categoría:Alfabetos]] |
|||
[[en:Letter frequencies]] |
|||
[[Categoría:Lingüística cuantitativa]] |
|||
[[fr:Fréquence d'apparition des lettres en français]] |
|||
[[Categoría:Ortografía]] |
Revisión actual - 02:05 16 ago 2024
La frecuencia de las letras del alfabeto es la cantidad de veces que aparecen en un texto promedio. Su cálculo está sujeto a interpretación ya que influyen varios parámetros:
- El estilo narrativo. Si hay muchos verbos en infinitivo, habrá muchas r.
- El vocabulario específico del documento. Si se habla de ríos, habrá muchas i.
- El tipo de documento. En pequeños anuncios se pueden encontrar muchos símbolos de monedas (€, $, £, etcétera), que es posible que estén ausentes en la mayor parte de otro tipo de documentos.
- Los parámetros técnicos. Se pueden calcular fácilmente estadísticas sobre textos informatizados, pero a menudo, estos no implican el uso de mayúsculas acentuadas (que a veces resultan complicadas de teclear). Además, algunos autores omiten las tildes.
- La presencia de caracteres no alfabéticos (signos de puntuación, cifras, paréntesis, símbolos matemáticos corrientes, etc.) pueden o no tenerse en cuenta. La coma y el punto, por ejemplo, son más frecuentes que más de la mitad de las letras.
Frecuencia de aparición de letras en español
[editar]Porcentaje de aparición de letras en español:[1]
Letra | A | B | C | D | E | F | G | H | I | J | K | L | M | N |
Porcentaje | 12,53% | 1,42% | 4,68% | 5,86% | 13,68% | 0,69% | 1,01% | 0,70% | 6,25% | 0,44% | 0,02% | 4,97% | 3,15% | 6,71% |
Letra | Ñ | O | P | Q | R | S | T | U | V | W | X | Y | Z | |
Porcentaje | 0,31% | 8,68% | 2,51% | 0,88% | 6,87% | 7,98% | 4,63% | 3,93% | 0,90% | 0,01% | 0,22% | 0,90% | 0,52% |
Ordenadas de mayor a menor frecuencia de aparición obtenemos: e, a, o, s, r, n, i, d, l, c, t, u, m, p, b, g, v, y, q, h, f, z, j, ñ, x, k, w.
A partir de los datos anteriores, se puede decir que:
- Las vocales ocuparán alrededor del 45% del texto.
- La e y la a son identificables fácilmente dado su porcentaje de aparición.
- Las consonantes más frecuentes son: s, r, n, d, l, c (sumadas tienen una frecuencia de un 37%)
- Las seis letras menos frecuentes son: z, j, ñ, x, k, w (sumadas tienen una frecuencia que apenas supera el 1,5%)
Ejemplo concreto: el Quijote
[editar]El texto del Quijote contiene 1.640.502 letras:
Letra | e | a | o | s | n | r | i | l | d | u | t | c | m | p |
Cantidad | 229.188 | 200.492 | 162.512 | 125.726 | 108.440 | 100.953 | 90.070 | 89.141 | 87.237 | 79.471 | 61.749 | 59.435 | 44.658 | 35.464 |
Porcentaje | 14,0% | 12,2% | 9,9% | 7,7% | 6,6% | 6,2% | 5,5% | 5,4% | 5,3% | 4,8% | 3,8% | 3,6% | 2,7% | 2,2% |
Letra | q | y | b | h | v | g | j | f | z | ñ | k | w | x | |
Cantidad | 32.483 | 25.115 | 24.146 | 19.920 | 17.855 | 17.225 | 10.530 | 7.581 | 6.491 | 4.241 | 377 | 2 | 1 | |
Porcentaje | 2,0% | 1,5% | 1,5% | 1,2% | 1,1% | 1,0% | 0,6% | 0,5% | 0,4% | 0,3% | 0,1% | 0,0% | 0,0% |
La Regenta, de Leopoldo Alas (Clarín)
[editar]Se ha incluido la frecuencia del espacio o separador de palabras, así como las de los signos de puntuación " . , ; : "
Hay que señalar los siguientes resultados:[2]
1. El separador o espacio es el signo más abundante, casi duplicando a la letra más frecuente.
2. La letra a es algo más abundante que la letra e.
3. Los signos de puntuación “,” y “.” son más abundantes que la letra q y siguientes. En cambio, como cabía esperar, los signos “;” y “:” son menos abundantes, aunque el punto y coma supera a la ñ y los dos puntos a la k.
Letra | espacio | a | e | o | s | r | n | i | l | d | u | t | c | m | p | b |
Cantidad | 305.290 | 192.666 | 176.252 | 128.009 | 101.317 | 89.243 | 87.585 | 86.284 | 83.524 | 67.215 | 57.662 | 53.937 | 52.346 | 36.500 | 33.970 | 26.658 |
Porcentaje | 17,599% | 11,107% | 10,160% | 7,379% | 5,841% | 5,145% | 5,049% | 4,974% | 4,815% | 3,875% | 3,324% | 3,109% | 3,018% | 2,104% | 1,958% | 1,537% |
Letra | . | , | q | v | g | h | y | f | j | z | ; | ñ | x | : | k | w |
Cantidad | 26.079 | 24.447 | 17.773 | 15.491 | 15.202 | 13.796 | 13.619 | 8.454 | 6.428 | 5.549 | 3.658 | 3.501 | 1.224 | 941 | 59 | 20 |
Porcentaje | 1,503% | 1,409% | 1,025% | 0,893% | 0,876% | 0,795% | 0,785% | 0,487% | 0,371% | 0,320% | 0,211% | 0,202% | 0,071% | 0,054% | 0,003% | 0,001% |
Total 1 734 699[2]
Frecuencia en el diccionario
[editar]Si se cuenta la frecuencia de aparición en un diccionario, la letra más frecuente resulta ser la a, pero en el lenguaje escrito hay una gran cantidad de palabras cortas (que, le, se, etc.) que contienen la e, por lo que el recuento en textos esta letra suele ser más abundante, aunque no siempre, como en el caso de la novela La Regenta antes citado.
Otros idiomas
[editar]El alineamiento de las letras en una máquina linotipia es ETAOIN SHRDLU, que corresponde aproximadamente a las doce letras más frecuentes en inglés.
Literatura en inglés
[editar]En el cuento El Escarabajo de Oro de Edgar Allan Poe (publicado por primera vez en junio de 1843), se relata una historia que incluye una criptografía y la descripción del método para resolver el mensaje cifrado por sustitución simple analizando frecuencias de letras.
Véase también
[editar]Referencias
[editar]- ↑ Fletcher Pratt, Secret and Urgent: the Story of Codes and Ciphers Blue Ribbon Books, 1939, pp. 254-255.
- ↑ a b Agustín (administrador de Kriptópolis). «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 2 de mayo de 2015.
Enlaces externos
[editar]- «Frecuencia de las letras en castellano: "La Regenta" - Kriptópolis, criptografía y seguridad.». Archivado desde el original el 16 de diciembre de 2013. Consultado el 17 de febrero de 2011.