Análisis de la varianza

En estadística, el análisis de la varianza o análisis de varianza (ANOVA, según terminología inglesa) es una colección de modelos estadísticos y sus procedimientos asociados, en el cual la varianza esta particionada en ciertos componentes debidos a diferentes variables explicativas. Las técnicas iniciales del analisis de varianza fueron desarrolladas por el estadístico y genetista R. A. Fisher en los años 1920 y 1930 y es algunas veces conocido como Anova de Fisher o analisis de varianza de Fisher, debido al uso de la distribución F de Fisher como parte del contraste de hipótesis.

El análisis de varianza sirve para comparar si los valores de un conjunto de datos numéricos son significativamente distintos a los valores de otro o más conjuntos de datos. El procedimiento para comparar estos valores está basado en la varianza global observada en los grupos de datos numéricos a comparar. Típicamente, el análisis de varianza se utiliza para asociar una probabilidad a la conclusión de que la media de un grupo de puntuaciones es distinta de la media de otro grupo de puntuaciones.

Visión general

Existen tres clases conceptuales de estos modelos:

El Modelo de efectos fijos asume que los datos provienen de poblaciones normales las cuales podrían diferir unicamente en sus medias. (Modelo 1)
El Modelo de efectos aleatorios asume que los datos describen una jerarquía de diferentes poblaciones cuyas diferencias quedan restringidas por la jerarquía. Ejemplo: El experimentador ha aprendido y ha considerado en el experimento sólo tres de muchos más métodos posibles, el método de enseñanza es un factor aleatorio en el experimento. (Modelo 2)
El Modelo de efectos mixtos describen situaciones que éste puede tomar. Ejemplo: Si el método de enseñanza es analizado como un factor que puede influir donde están presentes ambos tipos de factores: fijos y aleatorios. (Modelo 3)

Supuestos previos

El ANOVA parte de algunos supuestos que han de cumplirse:

La variable dependiente debe medirse al menos a nivel de intervalo.
Independencia de las observaciones.
La distribución de los residuales debe ser normal.
Homocedasticidad: homogeneidad de las varianzas.

La técnica fundamental consiste en la separación de la suma de cuadrados (SS, 'sum of squares') en componentes relativos a los factores contemplados en el modelo. Como ejemplo, mostramos el modelo para un ANOVA simplificado con un tipo de factores en diferentes niveles. (Si los niveles son cuantitativos y los efectos son lineales, puede resultar apropiado un análisis de regresión lineal)

SS_{\hbox{Total}}=SS_{\hbox{Error}}+SS_{\hbox{Factores}}

El número de grados de libertad (gl) puede separarse de forma similar y se corresponde con la forma en que la distribución chi-cuadrado describe la suma de cuadrados asociada.

gl_{\hbox{Total}}=gl_{\hbox{Error}}+gl_{\hbox{Factores}}

Modelo de efectos fijos

El modelo de efectos fijos de análisis de la varianza se aplica a situaciones en las que el experimentador ha sometido al grupo o material analizado a varios factores, cada uno de los cuales le afecta sólo a la media, permaneciendo la "variable respuesta" con una distribución normal.

Modelo de efectos aleatorios

Los modelos de efectos aleatorios se usan para describir situaciones en que ocurren diferencias incomparables en el material o grupo experimental. El ejemplo más simple es el de estimar la media desconocida de una población compuesta de individuos diferentes y en el que esas diferencias se mezclan con los errores del instrumento de medición.

Grados de libertad

Por grados de libertad "degrees of freedom" entendemos el número efectivo de observaciones que contribuyen a la suma de cuadrados en un ANOVA, es decir, el número total de observaciones menos el número de datos que sean combinación lineal de otros.

Pruebas de significación

El análisis de varianza lleva a la realización de pruebas de significación estadística, usando la denominada distribución F de Snedecor.