Distribución binomial
Distribución binomial | ||
---|---|---|
Función de masa de probabilidad Función de probabilidad | ||
Función de distribución acumulada Función de distribución de probabilidad | ||
Parámetros |
número de ensayos (entero) probabilidad de éxito (real) | |
Dominio | ||
Función de probabilidad (fp) | ||
Función de distribución (cdf) | ||
Media | ||
Mediana | Uno de [1] | |
Moda | ||
Varianza | ||
Coeficiente de simetría | ||
Curtosis | ||
Entropía | ||
Función generadora de momentos (mgf) | ||
Función característica | ||
En teoría de la probabilidad y estadística, la distribución binomial o distribución binómica es una distribución de probabilidad discreta que cuenta el número de éxitos en una secuencia de ensayos de Bernoulli independientes entre sí con una probabilidad fija de ocurrencia de éxito entre los ensayos. Un experimento de Bernoulli se caracteriza por ser dicotómico, esto es, solo dos resultados son posibles, a uno de estos se le denomina “éxito” y tiene una probabilidad de ocurrencia y al otro se le denomina “fracaso” y tiene una probabilidad . [2]
La distribución binomial se utiliza con frecuencia para modelizar el número de aciertos en una muestra de tamaño n extraída con reemplazo de una población de tamaño N. Si el muestreo se realiza sin reemplazo, las extracciones no son independientes, por lo que la distribución resultante es una distribución hipergeométrica, no una distribución binomial. Sin embargo, para N mucho mayores que n, la distribución binomial sigue siendo una buena aproximación, y se utiliza ampliamente.
Definición
Notación
Si una variable aleatoria discreta tiene una distribución binomial con parámetros y con entonces escribiremos .
Función de Probabilidad
Si entonces su función de probabilidad está dada por
para , siendo
el coeficiente binomial y se lee “las combinaciones de en “.
En ocasiones, para calcular las probabilidades binomiales se utiliza la siguiente fórmula recursiva para calcular en términos de
Función de Distribución Acumulada
La función de distribución acumulada de una variable aleatoria está dada por
También puede ser expresada en términos de la función beta incompleta como
que es equivalente a la función de distribución acumulada de la distribución F.
La distribución binomial es la base del test binomial de significación estadística.
Experimento binomial
Existen muchas situaciones en las que se presenta una experiencia binomial. Cada uno de los experimentos es independiente de los restantes (la probabilidad del resultado de un experimento no depende del resultado del resto). El resultado de cada experimento ha de admitir sólo dos categorías (a las que se denomina éxito y fracaso). El valor de ambas posibilidades ha de ser constante en todos los experimentos, y se denotan como y respectivamente o como y de forma alternativa.
Se designa por a la variable que mide el número de éxitos que se han producido en los experimentos.
Cuando se dan estas circunstancias, se dice que la variable sigue una distribución de probabilidad binomial.
Ejemplo
Supongamos que se lanza 51 veces un dado de 6 caras y queremos calcular la probabilidad de que el número 3 salga 20 veces.
En este problema un ensayo consiste en lanzar el dado una vez. Consideramos un éxito si obtenemos un 3 pero si no sale 3 lo consideramos como un fracaso. Defínase como el número de veces que se obtiene un 3 en 51 lanzamientos.
En este caso tenemos por lo que la probabilidad buscada es
Propiedades
Si es una variable aleatoria discreta tal que entonces
La primera de ellas es fácil de demostrar, por definición de Esperanza
el primer término de la suma, es decir, para el término vale cero por lo que podemos iniciar la suma en
Dado que
para .
Reemplazando lo anterior en la expresión de obtenemos
Haciendo el cambio de índice obtenemos
Finalmente por la fórmula de Newton (Teorema del binomio)
Obtenemos
- .
Distribuciones Relacionadas
Suma de Binomiales
Si y son variables aleatorias independientes con la misma probabilidad entonces la variable aleatoria también es una variable aleatoria con distribución binomial con parámetros y , es decir
Distribución Bernoulli
Si son variables aleatorias independientes e idénticamente distribuidas tales que entonces
Lo anterior es equivalente a decir que la distribución Bernoulli es un caso particular de la distribución Binomial cuando , es decir, si entonces .
Distribuciones limitantes
Teorema límite de Poisson
Si y es tal que el producto entre ambos parámetros tiende a , entonces la distribución de la variable aleatoria binomial tiende a una distribución de Poisson de parámetro .
Teorema de De Moivre-Laplace
Si es una variable aleatoria con media y varianza entonces
conforme , esta aproximación es buena si y .
Propiedades reproductivas
Si son variables aleatorias independientes tales que con entonces
Inferencia estadística
Estimación de parámetros
Cuando se conoce n, el parámetro p puede estimarse utilizando la proporción de aciertos:
Este estimador se encuentra utilizando estimador de máxima verosimilitud y también el método de los momentos. Este estimador es insesgado y uniforme con mínima varianza, demostrado mediante el Teorema de Lehmann–Scheffé, ya que se basa en un estadístico mínimo suficiente y completo (es decir: x). También es consistente tanto en probabilidad como en MSE.
También existe un estimador de Bayes de forma cerrada para p cuando se utiliza la distribución Beta como conjugada de la probabilidad a priori. Cuando se utiliza un a priori, el estimador medio posterior es:
El estimador de Bayes es asintóticamente eficiente y a medida que el tamaño de la muestra se aproxima a infinito (n → ∞), se aproxima a la solución de máxima verosimilitud. El estimador de Bayes es sesgado, cuánto depende de los priores, admisible y consistente en probabilidad.
Para el caso especial de utilizar la distribución uniforme estándar como prior no informativo, , el estimador de la media posterior se convierte en:
(Un Media posterior sólo debería conducir al estimador estándar). Este método se denomina regla de sucesión, que fue introducido en el siglo XVIII por Pierre-Simon Laplace.
Cuando se estima p con sucesos muy raros y un n pequeño (por ejemplo: si x=0), entonces utilizar el estimador estándar conduce a lo que a veces es poco realista y poco deseable. En estos casos existen varios estimadores alternativos.[3] Una forma es utilizar el estimador de Bayes, lo que lleva a:
Otro método consiste en utilizar el límite superior del intervalo de confianza obtenido mediante la regla de tres:
Intervalos de confianza
Incluso para valores bastante grandes de n, la distribución real de la media es significativamente no normal.[4] Debido a este problema se han propuesto varios métodos para estimar intervalos de confianza.
En las ecuaciones para intervalos de confianza que se presentan a continuación, las variables tienen el siguiente significado:
- n 1 es el número de aciertos de n, el número total de ensayos.
es la proporción de aciertos
- es el cuantil de una distribución normal estándar (es decir, probit) correspondiente a la tasa de error objetivo . Por ejemplo, para un nivel de confianza del 95% el error = 0,05, por lo que = 0,975 y = 1,96.
Método de Wald
Puede añadirse una corrección de continuidad de 0,5/n.[aclaración requerida]
Método de Agresti-Coull
[5]
Aquí la estimación de p se modifica a
Este método funciona bien para y .[6] Ver aquí para .[7] Para utilizar el método de Wilson (puntuación) a continuación.
Método de Wilson (puntuación)
La notación de la fórmula siguiente difiere de las fórmulas anteriores en dos aspectos:[8]
- En primer lugar, zx tiene una interpretación ligeramente diferente en la fórmula siguiente: tiene su significado ordinario de 'el cuantil x de la distribución normal estándar', en lugar de ser una abreviatura de 'el (1 - x)-ésimo cuantil'.
- En segundo lugar, esta fórmula no utiliza un más-menos para definir los dos límites. En su lugar, se puede utilizar para obtener el límite inferior, o utilizar para obtener el límite superior. Por ejemplo: para un nivel de confianza del 95% el error = 0,05, por lo que se obtiene el límite inferior utilizando , y se obtiene el límite superior utilizando .
- Error al representar (error de sintaxis): {\displaystyle \frac{ \widehat{p\,} + \frac{z^2}{2n} + z \sqrt{ \frac {\widehat{p\,}(1 - \widehat{p\,})}{n} + \frac{z^2}{4 n^2} } }{ 1 + \frac{z^2}{n} } [9]
Comparación
El método llamado "exacto" (Clopper-Pearson) es el más conservador.[4] (Exacto no significa perfectamente exacto; más bien, indica que las estimaciones no serán menos conservadoras que el valor verdadero).
El método de Wald, aunque suele recomendarse en los libros de texto, es el más sesgado.[aclaración requerida]
Véase también
- Distribución Bernoulli
- Distribución Binomial Negativa
- Distribución de Poisson
- Distribución Normal
- Distribución Gamma
- Distribución Beta
Referencias
- ↑ Hamza, K. (1995). The smallest uniform upper bound on the distance between the mean and the median of the binomial and Poisson distributions. Statist. Probab. Lett. 23 21–25.
- ↑ Wadsworth, G. P. (1960). Introduction to Probability and Random Variables. New York: McGraw-Hill. p. 52.
- ↑ Razzaghi, Mehdi (2002). «Sobre la estimación de la probabilidad de éxito binomial con ocurrencia cero en la muestra». Journal of Modern Applied Statistical Methods 1 (2): 326-332. doi:10. 22237/jmasm/1036110000
|doi=
incorrecto (ayuda). - ↑ a b Brown, Lawrence D.; Cai, T. Tony; DasGupta, Anirban (2001), html «Estimación de intervalos para una proporción binomial», Statistical Science 16 (2): 101-133, doi:10.1214/ss/1009213286, consultado el 5 de enero de 2015 Parámetro desconocido
|citeseerx=
ignorado (ayuda). - ↑ Agresti, Alan; Coull, Brent A. (May 1998), «La aproximación es mejor que la 'exacta' para la estimación por intervalos de proporciones binomiales», The American Statistician 52 (2): 119-126, JSTOR 2685469, doi:10.2307/2685469, consultado el 5 de enero de 2015.
- ↑ {cite web|last1=Gulotta|first1=Joseph|title=Método de intervalos de Agresti-Coull|url=https://pellucid. atlassian.net/wiki/spaces/PEL/pages/25722894/Agresti-Coull+Interval+Method#:~:text=El%20Método%20Agresti%2DCoull%20Interval%20,%2C%20o%20por%20100%2C000%2C%20etc|website=pellucid. atlassian.net|access-date=18 May 2021}
- ↑ {cite web|title=Intervalos de confianza|url=https://www.itl.nist.gov/div898/handbook/prc/section2/prc241.htm%7Cwebsite=itl.nist.gov%7Caccess-date=18 May 2021}
- ↑ Wilson, Edwin B. (June 1927), «Probable inference, the law of succession, and statistical inference», Journal of the American Statistical Association 22 (158): 209-212, JSTOR 2276774, doi:10. 2307/2276774
|doi=
incorrecto (ayuda), archivado desde el original el 13 de enero de 2015, consultado el 5 de enero de 2015 Parámetro desconocido|url-status=
ignorado (ayuda). - ↑ {cite book | Capítulo = Intervalos de confianza | chapter-url = http://www.itl.nist.gov/div898/handbook/prc/section2/prc241.htm | Título = Engineering Statistics Handbook | Editor = NIST/Sematech | año = 2012 | access-date = 2017-07-23 }}
Bibliografía
- Hirsch, Werner Z. (1957). «Binomial Distribution—Success or Failure, How Likely Are They?». Introduction to Modern Statistics. New York: MacMillan. pp. 140-153.
- Neter, John; Wasserman, William; Whitmore, G. A. (1988). Applied Statistics (Third edición). Boston: Allyn & Bacon. pp. 185-192. ISBN 0-205-10328-6.
- Patrick Bogaert (2005). Probabilités pour scientifiques et ingénieurs. De Boeck Supérieur. p. 402. ISBN 2-8041-4794-0.
Enlaces externos
- Wikimedia Commons alberga una categoría multimedia sobre Distribución binomial.
- Tablas de la distribución binomial, hasta n=20, en formato PDF.
- Calculadora Distribución binomial
- Cálculo de la probabilidad de una distribución binomial con R (lenguaje de programación)
- Generación estadística de la distribución binomial con números aleatorios usando Python (lenguaje de programación)
- Interactive graphic: Univariate Distribution Relationships
- Binomial distribution formula calculator
- Difference of two binomial variables: X-Y or |X-Y|
- Querying the binomial probability distribution in WolframAlpha