La verificación del supuesto de normalidad podría hacerse graficando un histograma de los residuales. Si se satisface el supuesto de NID  para los errores, esta gráfica deberá aparecer como una muestra de una distribución normal con centro en cero. Desafortunadamente, cuando se trabaja con muestras pequeñas, suelen ocurrir fluctuaciones significativas, por lo que la aparición de una desviación moderada de la normalidad no implica necesariamente una violación seria de los supuestos. Las desviaciones marcadas de la normalidad son potencialmente serias y requieren análisis adicional.

Un procedimiento en extremo útil es construir una gráfica de probabilidad normal de los residuales. Recuerde que en el capítulo 2 se utilizó una gráfica de probabilidad normal de los datos originales para verificar el supuesto de normalidad cuando se usó la prueba t. En el análisis de varianza, por lo general es más eficaz (y directo) hacer lo mismo con los residuales. Si la distribución fundamental de los errores es normal, esta gráfica tendrá la apariencia de una línea recta. Para visualizar la línea recta, deberá prestarse más atención a los valores centrales de la gráfica que a los valores extremos.

En la tabla 3-6 se muestran los datos originales y los residuales de los datos de la resistencia a la tensión del ejemplo 3-1. La gráfica de probabilidad normal se muestra en la figura 3-4. La impresión general que surge al examinar esta representación es que la distribución de los errores puede tener un ligero sesgo, con la cola derecha siendo más larga que la izquierda. La tendencia de la gráfica de probabilidad normal a curvarse hacia abajo ligeramente del lado izquierdo implica que la cola izquierda de la distribución de los errores sea un tanto más delgada de lo que se anticiparía con una distribución normal; es decir, los residuales negativos no son tan grandes (en valor absoluto) como se esperaba. Sin embargo, esta gráfica no muestra una desviación marcada de la distribución normal.

En general, las desviaciones moderadas de la normalidad no son motivo de gran preocupación en el análisis de varianza de efectos fijos (recuerde el análisis de las pruebas de aleatorización de la sección 3-3.2). Una distribución de los errores que tiene colas considerablemente más gruesas o delgadas que la distribución normal es motivo de mayor preocupación que una distribución sesgada. Puesto que la prueba F sólo se afecta ligeramente, se dice que el análisis de varianza (y los procedimientos relacionados como las comparaciones múltiples) es robusto con respecto al supuesto de normalidad. Las desviaciones de la normalidad hacen por lo general que tanto el verdadero nivel de significación como la verdadera potencia difieran ligeramente de los valores anunciados, con la potencia siendo generalmente más baja. El modelo de los efectos aleatorios que se revisará en el capítulo 12 se afecta en forma más severa por la no normalidad.



Una anomalía muy común que suele ponerse de manifiesto en las gráficas de probabilidad normal es un residual que es mucho más grande que cualquier otro. A un residual así se le llama con frecuencia punto atípicoLa presencia de uno o más puntos atípicos puede introducir serias distorsiones en el análisis de varianza, por lo que cuando se localiza un punto atípico potencial, se requiere una investigación atenta. En muchas ocasiones, la causa del punto atípico es un error en los cálculos o un error al codificar o copiar los datos. Si no es ésta la causa, las circunstancias experimentales que rodean esta corrida particular deben estudiarse con atención. Si la respuesta atípica ocurre en un valor particularmente deseable (alta resistencia, costo bajo, etc.), el punto atípico puede ser más informativo que el resto de los datos. Deberá tenerse cuidado de no rechazar o descartar una observación atípica a menos que se tengan razones no estadísticas de peso para hacerlo. En el peor de los casos, puede terminarse con dos análisis; uno con el punto atípico y uno sin él.

Existen varios procedimientos estadísticos formales para detectar puntos atípicos (por ejemplo, ver Barnett y Lewis [8], John Y Prescott [60] y Stefansky [107]). Puede hacerse una verificación aproximada de los puntos atípicos examinando los residuales estandarizados:



Si los errores  son , los residuales estandarizados deberán ser aproximadamente normales con media cero y varianza unitaria. Por lo tanto, cerca de 68% de los residuales estandarizados deberán estar incluidos dentro de los límites , cerca de 95% de ellos deberán estar incluidos dentro de  y virtualmente todos ellos deberán estar incluidos dentro de . Un residual mayor que 3 o 4 desviaciones estándar r a partir de cero es un punto atípico potencial.

Para los datos de la resistencia a la tensión del ejemplo 3-1, la gráfica de probabilidad normal no produce indicio alguno de puntos atípicos. Además, el residual estandarizado mayor es:


el cual no deberá ser motivo de preocupación.


Última modificación: viernes, 26 de enero de 2024, 17:35