Diferencia entre revisiones de «Análisis de la varianza»
m Categorizando en Análisis ¿nos ayudas? |
m Función de sugerencias de enlaces: 3 enlaces añadidos. |
||
(No se muestran 150 ediciones intermedias de más de 100 usuarios) | |||
Línea 1: | Línea 1: | ||
En [[estadística]], el '''análisis de la varianza''' o '''análisis de varianza''' ('''ANOVA''', según terminología inglesa) es una colección de [[modelo estadístico|modelos estadísticos]] y sus procedimientos asociados, en el cual la [[varianza]] esta particionada en ciertos componentes debidos a diferentes [[variable explicativa|variables explicativas]]. Las técnicas iniciales del analisis de varianza fueron desarrolladas por el [[estadístico]] y [[genetista]] [[Ronald Fisher|R. A. Fisher]] en los años 1920 y 1930 y es algunas veces conocido como '''Anova de Fisher''' o '''analisis de varianza de Fisher''', debido al uso de la [[distribución F]] de Fisher como parte del [[contraste de hipótesis]]. |
|||
En [[estadística]], el '''análisis de la varianza''' (ANOVA por sus sigloides en inglés, '''AN'''alysis '''O'''f '''VA'''riance) es una colección de [[modelo estadístico|modelos estadísticos]] y sus procedimientos asociados, en el cual la [[varianza]] está particionada en ciertos componentes debidos a diferentes variables explicativas. Se utiliza de forma intensiva en el análisis y [[diseño de experimentos]] para evaluar el efecto de tratamientos en la variabilidad de la variable respuesta. |
|||
El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones. |
|||
Desarrollada por el genetista [[Ronald Fisher|R. A. Fisher]] en los años 1920 y 1930, se conoce también como "Anova de Fisher" o "análisis de varianza de Fisher" debido al uso de la [[distribución F]] de Fisher como parte del [[contraste de hipótesis]]. |
|||
== Visión general == |
|||
== Introducción == |
|||
El análisis de la varianza parte del concepto de [[regresión lineal]], cuya funcionalidad amplía. Así, un análisis de la varianza permite determinar, por ejemplo, si diferentes tratamientos médicos (es decir, un grupo de más de dos tratamientos) muestran diferencias significativas en sus resultados o si por el contrario puede suponerse que sus medias poblacionales no difieren. De este modo el análisis de la varianza permite superar las limitaciones de hacer contrastes bilaterales por parejas entre todos los tratamientos posibles, lo que sería un mal método para determinar si un conjunto de variables con ''n'' > 2 difieren entre sí. El primer concepto fundamental es suponer que todo valor observado puede expresarse mediante la siguiente función: |
|||
{{ecuación| |
|||
<math>y_{ij} = \mu + \tau_i + \epsilon_{ij}</math> |
|||
||left}} |
|||
Donde: |
|||
:<math>y_{ij}</math> sería el valor observado (variable dependiente) [valor ''j''-ésimo del tratamiento ''i''-ésimo], y <math>\tau_i</math> es el efecto del tratamiento ''i''. |
|||
:<math>\mu</math> sería una constante que en la recta de regresión equivale a la ordenada en el origen, |
|||
:<math>\tau_i</math> es una variable que varía de tratamiento a tratamiento. |
|||
:<math>\epsilon_{ij}</math> es una [[variable aleatoria]] que añade a la función cierto error que desvía la puntuación observada de la puntuación pronosticada. |
|||
Por tanto, a la función de pronóstico la podemos llamar "media del tratamiento ''i''": |
|||
{{ecuación| |
|||
<math>y_i = \mu + \tau_i</math> |
|||
||left}} |
|||
Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas, más el error aleatorio (<math>y_{ij} = y_i + e_{ij}</math>). A partir de esa idea, se puede operar: |
|||
# Restamos a ambos lados de la ecuación (para mantener la igualdad) la media de la variable dependiente: |
|||
{{ecuación| |
|||
<math>y_{ij} - \overline{y} = y_i + e_{ij} - \overline{y}</math> |
|||
||left}} |
|||
# Operando se llega finalmente a que: |
|||
{{ecuación| |
|||
<math>\sum_i\sum_j (y_{ij} - \overline{y})^2 = n \sum_i(y_i - \overline{y})^2 + \sum_i \sum_j (y_{ij} - y_i)^2</math> |
|||
||left}} |
|||
Esta ecuación se reescribe frecuentemente como: |
|||
{{ecuación| |
|||
<math>SS_{total} = SS_{fact} + SS_{error}\,</math> |
|||
||left}} |
|||
de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es comparar la variación total de un conjunto de muestras y descomponerla como: |
|||
{{ecuación| |
|||
<math>SS_{total} = SS_{fact} + SS_{int}\,</math> |
|||
||left}} |
|||
Donde: |
|||
:<math>SS_{fact}\,</math> es un número real relacionado con la varianza, que mide la variación debida al "factor", "tratamiento" o tipo de situación estudiado. |
|||
:<math>SS_{int}\,</math> es un número real relacionado con la varianza, que mide la variación dentro de cada "factor", "tratamiento" o tipo de situación. |
|||
En el caso de que la diferencia debida al factor o tratamiento no sea estadísticamente significativa puede probarse que las varianzas muestrales son iguales: |
|||
{{ecuación| |
|||
<math>\hat{s}_{fact} = \frac{ SS_{fact} }{a-1}, \qquad |
|||
\hat{s}_{int} = \frac{ SS_{int} }{a(b-1)} </math> |
|||
||left}} |
|||
Donde: |
|||
:<math>a\,</math> es el número de situaciones diferentes o valores del factor se están comparando. |
|||
:<math>b\,</math> es el número de mediciones en cada situación se hacen o número de valores disponibles para cada valor del factor. |
|||
Así lo que un simple test a partir de la [[Distribución F|F de Snedecor]] puede decidir si el factor o tratamiento es estadísticamente significativo. |
|||
=== Visión general === |
|||
Existen tres clases conceptuales de estos modelos: |
Existen tres clases conceptuales de estos modelos: |
||
#El [[Modelo de efectos fijos]] |
# El [[Modelo de efectos fijos]] supone que los datos provienen de [[distribución normal|poblaciones normales,]] las cuales podrían diferir únicamente en sus medias. (Modelo 1) |
||
#El [[Modelo de efectos aleatorios]] |
# El [[Modelo de efectos aleatorios]] supone que los datos describen una jerarquía de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento. (Modelo 2) |
||
#El [[Modelo de efectos mixtos]] |
# El [[Modelo de efectos mixtos]] describe situaciones que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3) |
||
== Supuestos previos == |
=== Supuestos previos === |
||
El ANOVA parte de algunos supuestos o hipótesis que han de cumplirse: |
|||
* La [[variable dependiente]] debe medirse al menos a nivel de intervalo. |
|||
El ANOVA parte de algunos supuestos que han de cumplirse: |
|||
* Independencia de las observaciones. |
|||
*La [[variable dependiente]] debe medirse al menos a nivel de intervalo. |
|||
* La distribución de los residuales debe ser [[curva normal|normal]]. |
|||
*Independencia de las observaciones. |
|||
* [[Homocedasticidad]]: homogeneidad de las varianzas. |
|||
*La distribución de los residuales debe ser [[curva normal|normal]]. |
|||
*[[Homocedasticidad]]: homogeneidad de las varianzas. |
|||
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de [[regresión lineal]]) |
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de [[regresión lineal]]) |
||
{{ecuación| |
|||
<math> SS_{\hbox{Total}} = SS_{\hbox{Error}} + SS_{\hbox{Factores}} </math> |
|||
||left}} |
|||
El número de [[Dimensión|grados de libertad]] (gl) puede separarse de forma similar y corresponde con la forma en que la [[Distribución Chi-cuadrada|distribución chi-cuadrado]] (χ² o Ji-cuadrada) describe la suma de cuadrados asociada. |
|||
{{ecuación| |
|||
<math> gl_{\hbox{Total}} = gl_{\hbox{Error}} + gl_{\hbox{Factores}} </math> |
|||
||left}} |
|||
== Tipos de modelo == |
|||
: <math> SS_{\hbox{Total}} = SS_{\hbox{Error}} + SS_{\hbox{Factores}} </math> |
|||
=== Modelo I: Efectos fijos === |
|||
El modelo de ''efectos fijos'' de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal. |
|||
Este modelo se supone cuando el investigador se interesa únicamente por los niveles del factor presentes en el experimento, por lo que cualquier variación observada en las puntuaciones se deberá al error experimental. |
|||
El número de [[grados de libertad]] (gl) puede separarse de forma similar y se corresponde con la forma en que la [[Distribución Chi-cuadrada|distribución chi-cuadrado]] describe la suma de cuadrados asociada. |
|||
=== Modelo II: Efectos aleatorios (componentes de varianza) === |
|||
: <math> gl_{\hbox{Total}} = gl_{\hbox{Error}} + gl_{\hbox{Factores}} </math> |
|||
Los modelos de ''efectos aleatorios'' se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del [[instrumento de medición]]. |
|||
Este modelo se supone cuando el investigador está interesado en una población de niveles, teóricamente infinitos, del factor de estudio, de los que únicamente una muestra al azar (''t'' niveles) están presentes en el experimento. |
|||
== Modelo de efectos fijos == |
|||
== Grados de libertad == |
|||
El modelo de ''efectos fijos'' de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal. |
|||
Los grados de libertad pueden descomponerse al igual que la suma de cuadrados. Así, GLtotal = GLentre + GLdentro. Los GLentre se calculan como: a - 1, donde a es el número de tratamientos o niveles del factor. Los GLdentro se calculan como N - a, donde N es el número total de observaciones o valores de la variable medida (la variable respuesta). |
|||
== |
== Pruebas de significación == |
||
El análisis de varianza lleva a la realización de pruebas de [[significación estadística]], usando la denominada [[distribución F]] de Snedecor. |
|||
== Tablas ANOVA == |
|||
Los modelos de ''efectos aleatorios'' se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición. |
|||
Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados de libertad y la F, se procede a elaborar una tabla que reúna la información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma: |
|||
{| class="wikitable" |
|||
== Grados de libertad == |
|||
|- |
|||
! Fuente de variación !! Suma de cuadrados !! Grados de libertad !! Cuadrado medio !! F |
|||
Por ''grados de libertad'' "degrees of freedom" entendemos el número efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el número de datos que sean combinación lineal de otros. |
|||
|- |
|||
| Intergrupo || <math>SS_{\hbox{Factores}}</math> || t - 1 || <math>T = \frac{SS_{\hbox{Factores}}}{t - 1}</math> || <math>F = \frac{T}{E}</math> |
|||
== Pruebas de significación == |
|||
|- |
|||
| Intragrupo o Error || <math>SS_{\hbox{Error}}</math> || N - t || <math>E = \frac{SS_{\hbox{Error}}}{N - t}</math> || |
|||
|- |
|||
| Total || <math>SS_{\hbox{Total}}</math> || N - 1 || || |
|||
|} |
|||
== Bibliografía == |
|||
El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada [[distribución F]] de Snedecor. |
|||
* {{cita libro |
|||
|apellidos= M.R. Spiegel; J. Schiller; R. A. Srinivasan |
|||
|año= 2007 |año-original= |título= Probabilidad y Estadística |título-trad= Schaum's Outline of Theory and Problems of Probability and Statistics |url= |serie= Schaum |página= |páginas= 335-371 |capítulo= 9. Análisis de la varianza |edición= 2ª |ubicación= |lugar-publicación= México D.F. |editorial= McGraw-Hill |isbn= 978-970-10-4231-1 |fechaacceso=25 de enero de 2011}} |
|||
* {{cita libro |
|||
|apellidos= F. J. Tejedor Tejedor |
|||
|año= 1999 |año-original= |título= Análisis de varianza |título-trad= |url= |serie= Schaum |página= |páginas= |capítulo= |edición= |ubicación= |lugar-publicación= Madrid |editorial= La Muralla S.A. |isbn= 84-7635-388-X |fechaacceso= }} |
|||
[[Categoría:Estadística]] |
|||
[[Categoría:Análisis]] |
|||
{{Control de autoridades}} |
|||
[[ar:تحليل الفرق]] |
|||
[[Categoría:Análisis de la varianza]] |
|||
[[bg:Дисперсионен анализ]] |
|||
[[Categoría:Diseño experimental]] |
|||
[[cs:Analýza rozptylu]] |
|||
[[Categoría:Contraste de hipótesis]] |
|||
[[de:Varianzanalyse]] |
|||
[[Categoría:Estadística paramétrica]] |
|||
[[en:Analysis of variance]] |
|||
[[eu:Bariantza analisi]] |
|||
[[fr:Analyse de la variance]] |
|||
[[gl:Análise da varianza]] |
|||
[[hu:Varianciaanalízis]] |
|||
[[id:Analisis varians]] |
|||
[[it:Analisi della varianza]] |
|||
[[ja:分散分析]] |
|||
[[ko:분산분석]] |
|||
[[lv:Dispersiju analīze]] |
|||
[[nl:Variantie-analyse]] |
|||
[[pl:Analiza wariancji]] |
|||
[[pt:Análise de variância]] |
|||
[[sl:Analiza variance]] |
|||
[[su:Analisis varian]] |
|||
[[sv:Variansanalys]] |
|||
[[ta:மாறும் அளவுப் பகுப்பாய்வு]] |
|||
[[tr:Varyans analizi]] |
|||
[[zh:方差分析]] |
Revisión actual - 12:04 23 dic 2024
En estadística, el análisis de la varianza (ANOVA por sus sigloides en inglés, ANalysis Of VAriance) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza está particionada en ciertos componentes debidos a diferentes variables explicativas. Se utiliza de forma intensiva en el análisis y diseño de experimentos para evaluar el efecto de tratamientos en la variabilidad de la variable respuesta.
Desarrollada por el genetista R. A. Fisher en los años 1920 y 1930, se conoce también como "Anova de Fisher" o "análisis de varianza de Fisher" debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.
Introducción
[editar]El análisis de la varianza parte del concepto de regresión lineal, cuya funcionalidad amplía. Así, un análisis de la varianza permite determinar, por ejemplo, si diferentes tratamientos médicos (es decir, un grupo de más de dos tratamientos) muestran diferencias significativas en sus resultados o si por el contrario puede suponerse que sus medias poblacionales no difieren. De este modo el análisis de la varianza permite superar las limitaciones de hacer contrastes bilaterales por parejas entre todos los tratamientos posibles, lo que sería un mal método para determinar si un conjunto de variables con n > 2 difieren entre sí. El primer concepto fundamental es suponer que todo valor observado puede expresarse mediante la siguiente función:
Donde:
- sería el valor observado (variable dependiente) [valor j-ésimo del tratamiento i-ésimo], y es el efecto del tratamiento i.
- sería una constante que en la recta de regresión equivale a la ordenada en el origen,
- es una variable que varía de tratamiento a tratamiento.
- es una variable aleatoria que añade a la función cierto error que desvía la puntuación observada de la puntuación pronosticada.
Por tanto, a la función de pronóstico la podemos llamar "media del tratamiento i":
Podemos resumir que las puntuaciones observadas equivalen a las puntuaciones esperadas, más el error aleatorio (). A partir de esa idea, se puede operar:
- Restamos a ambos lados de la ecuación (para mantener la igualdad) la media de la variable dependiente:
- Operando se llega finalmente a que:
Esta ecuación se reescribe frecuentemente como:
de un factor, que es el caso más sencillo, la idea básica del análisis de la varianza es comparar la variación total de un conjunto de muestras y descomponerla como:
Donde:
- es un número real relacionado con la varianza, que mide la variación debida al "factor", "tratamiento" o tipo de situación estudiado.
- es un número real relacionado con la varianza, que mide la variación dentro de cada "factor", "tratamiento" o tipo de situación.
En el caso de que la diferencia debida al factor o tratamiento no sea estadísticamente significativa puede probarse que las varianzas muestrales son iguales:
Donde:
- es el número de situaciones diferentes o valores del factor se están comparando.
- es el número de mediciones en cada situación se hacen o número de valores disponibles para cada valor del factor.
Así lo que un simple test a partir de la F de Snedecor puede decidir si el factor o tratamiento es estadísticamente significativo.
Visión general
[editar]Existen tres clases conceptuales de estos modelos:
- El Modelo de efectos fijos supone que los datos provienen de poblaciones normales, las cuales podrían diferir únicamente en sus medias. (Modelo 1)
- El Modelo de efectos aleatorios supone que los datos describen una jerarquía de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento. (Modelo 2)
- El Modelo de efectos mixtos describe situaciones que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)
Supuestos previos
[editar]El ANOVA parte de algunos supuestos o hipótesis que han de cumplirse:
- La variable dependiente debe medirse al menos a nivel de intervalo.
- Independencia de las observaciones.
- La distribución de los residuales debe ser normal.
- Homocedasticidad: homogeneidad de las varianzas.
La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal)
El número de grados de libertad (gl) puede separarse de forma similar y corresponde con la forma en que la distribución chi-cuadrado (χ² o Ji-cuadrada) describe la suma de cuadrados asociada.
Tipos de modelo
[editar]Modelo I: Efectos fijos
[editar]El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal.
Este modelo se supone cuando el investigador se interesa únicamente por los niveles del factor presentes en el experimento, por lo que cualquier variación observada en las puntuaciones se deberá al error experimental.
Modelo II: Efectos aleatorios (componentes de varianza)
[editar]Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición.
Este modelo se supone cuando el investigador está interesado en una población de niveles, teóricamente infinitos, del factor de estudio, de los que únicamente una muestra al azar (t niveles) están presentes en el experimento.
Grados de libertad
[editar]Los grados de libertad pueden descomponerse al igual que la suma de cuadrados. Así, GLtotal = GLentre + GLdentro. Los GLentre se calculan como: a - 1, donde a es el número de tratamientos o niveles del factor. Los GLdentro se calculan como N - a, donde N es el número total de observaciones o valores de la variable medida (la variable respuesta).
Pruebas de significación
[editar]El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F de Snedecor.
Tablas ANOVA
[editar]Una vez que se han calculado las sumas de cuadrados, las medias cuadráticas, los grados de libertad y la F, se procede a elaborar una tabla que reúna la información, denominada "Tabla de Análisis de varianza o ANOVA", que adopta la siguiente forma:
Fuente de variación | Suma de cuadrados | Grados de libertad | Cuadrado medio | F |
---|---|---|---|---|
Intergrupo | t - 1 | |||
Intragrupo o Error | N - t | |||
Total | N - 1 |
Bibliografía
[editar]- M.R. Spiegel; J. Schiller; R. A. Srinivasan (2007). «9. Análisis de la varianza». Probabilidad y Estadística [Schaum's Outline of Theory and Problems of Probability and Statistics]. Schaum (2ª edición). México D.F.: McGraw-Hill. pp. 335-371. ISBN 978-970-10-4231-1.
- F. J. Tejedor Tejedor (1999). Análisis de varianza. Schaum. Madrid: La Muralla S.A. ISBN 84-7635-388-X.