Suponga que el interés se encuentra en comparar todos los pares de a medias de tratamientos y que las hipótesis nulas que quieren probarse son para toda . A continuación, se presentan cuatro métodos para hacer estas comparaciones.

Prueba de Tukey

Suponga que, después de un análisis de varianza en el que se ha rechazado la hipótesis nula de la igualdad de las medias de los tratamientos, quieren probarse todas las comparaciones de las medias por pares:


para toda . Tukey [111d] propuso un procedimiento para probar hipótesis para las que el nivel de significación global es exactamente cuando los tamaños de las muestras son iguales y es a lo sumo cuando los tamaños de las muestras no son iguales. Este procedimiento puede usarse también para contraer los intervalos de confianza para las diferencias en todos los pares de medias. Para estos intervalos, el nivel de confianza simultáneo es de  por ciento cuando los tamaños de las muestras son iguales y de al menos  por ciento cuando los tamaños de las muestras no son iguales. Se trata de un procedimiento excelente para curiosear sobre los datos cuando el interés se centra en pares de medias.

El procedimiento de Tukey hace uso de la distribución del estadístico del rango studentizado:


donde  y  son las medias muestrales mayor y menor, respectivamente, sacadas de un grupo de  medias muestrales. La tabla VIII del apéndice contiene los valores de , los puntos porcentuales  superiores de , donde  es el número de grados de libertad asociados con . Para tamaños de las muestras iguales, la prueba de Tukey declara que dos medias son significativamente diferentes si el valor absoluto de sus diferencias muestrales excede:

De manera equivalente, podría construirse una serie de intervalos de confianza de por ciento para todos los pares de medias de la siguiente manera:


Cuando los tamaños de las muestras no son iguales, las ecuaciones 3-35 y 3-36 quedan como:

y


respectivamente. A la versión para tamaños de las muestras diferentes se le llama en ocasiones el procedimiento Tukey-Kramer.

Cuando se utiliza cualquiera de los procedimientos para probar las medias por pares, ocasionalmente se encuentra que la prueba  global del análisis de varianza es significativa, pero la comparación de las medias por pares falla para revelar cualquier diferencia significativa. Esta situación ocurre porque la prueba considera simultáneamente todos los contrastes posibles en los que intervienen las medias de los tratamientos, no sólo las comparaciones por pares. Es decir, en los datos a la mano, quizá no todos los contrastes significativos sean de la forma .

Algunos paquetes de software de computadora presentan comparaciones por pares con intervalos de confianza. Para el procedimiento de Tukey, estos intervalos se calcularían con la ecuación 3-36 o la 3-38, dependiendo de si los tamaños de las muestras son iguales o no.

La deducción del intervalo de confianza de Tukey de la ecuación 3-36 para tamaños de las muestras iguales es directa. Para el estadístico del rango studentizado se tiene:

Si  es menor o igual que , debe ser verdadero que  para cada par de medias. Por lo tanto:


Al reordenar esta expresión para aislar  entre las desigualdades se llegará al conjunto de intervalos de confianza simultáneos de  por ciento dados en la ecuación 3-38.

El método de la diferencia significativa mínima (LSD) de Fisher

En este procedimiento se utiliza el estadístico  para probar :


Suponiendo una hipótesis alternativa de dos colas, los pares de medias  y  se declararían significativamente diferente si . A la cantidad:


se le llama diferencia significativa mínima. Si el diseño es balanceado, , y:


Para usar el procedimiento LSD de Fisher, simplemente se compara la diferencia observada entre cada par de promedios con la LSD correspondiente. Si , se concluye que las medias poblacionales  y  difieren.

Observe que el riesgo global a puede inflarse de manera considerable al utilizar este método. Específicamente, cuando se hace más grande, el error tipo I del experimento (el cociente del número de experimentos en los que se comete al menos un error tipo I y el número total de experimentos) se hace grande.

Prueba del rango múltiple de Duncan

Un procedimiento muy utilizado para comparar todos los pares de medias es la prueba del rango múltiple desarrollada por Duncan [41]. Para aplicar la prueba del rango múltiple de Duncan cuando los tamaños de las muestras son iguales, los promedios de los tratamientos se arreglan en orden ascendente, y el error estándar de cada promedio se determina como:


Para tamaños de las muestras desiguales, se sustituye  en la ecuación 3-42 con la media armónica  del , donde:


Observe que si . En la tabla de Duncan de los rangos significativos (tabla VII del apéndice) se obtienen los valores  para =, donde  es el nivel de significación y  es el número de grados de libertad del error. Estos rangos se convierten en un conjunto de  rangos mínimos de significación (por ejemplo, ) para  calculando:


Entonces, se prueban las diferencias observadas entre las medias, empezando con la más grande contra la menor, la cual se compararía con el rango mínimo de significación . Después se calcula la diferencia de la mayor y la segunda menor y se compara con el rango mínimo de significación . Estas comparaciones se continúan hasta que todas las medias se han comparado con la media mayor. Por último, se calcula la diferencia entre la segunda media mayor y la menor y se compara con el rango mínimo de significación . Este proceso se continúa hasta que se han considerado las diferencias entre todo los  pares de medias posibles. Si una diferencia observada es mayor que el rango de significación mínima correspondiente se concluye que el par de medias en cuestión es significativamente diferente. Para evitar contradicciones, ninguna de las diferencias entre un par de medias se considera significativa si las dos medias en cuestión se localizan entre otras dos medias que no difieren significativamente.

En la prueba del rango múltiple de Duncan se requiere una diferencia observada más grande para detectar pares significativamente diferentes de medias, cuando el número de medias incluidas en el grupo aumenta. Para dos medias, el valor crítico  será exactamente igual al valor LSD de la prueba . Los valores  de la tabla VII del apéndice se eligen de tal modo que se obtenga un nivel de protección especificado. Es decir, cuando se comparan dos medias que están p pasos aparte, el nivel de protección es , donde  es el nivel de significación especificado para dos medias adyacentes. Por lo tanto, el índice de error de reportar al menos una diferencia significativa incorrecta entre dos medias es , cuando el tamaño del grupo es . Por ejemplo, si , entonces  es el nivel de significación para comparar el par de medias adyacentes,  es el nivel de significación para medias que están un paso aparte, y así sucesivamente.

En general, si el nivel de protección es a, las pruebas de las medias tienen un nivel de significación que es mayor o igual que . Por consiguiente, el procedimiento de Duncan tiene una gran potencia; es decir, es muy eficaz para detectar diferencias entre medias cuando existen diferencias reales. Por esta razón, la prueba del rango múltiple de Duncan es muy popular.

La prueba de Newman-Keuls

Esta prueba fue creada por Newman [90]. Debido a que un interés renovado en la prueba de Newman fue generado por Keuls [64], al procedimiento se le llama la prueba de Newman-Keuls. Operacionalmente, el procedimiento es similar a la prueba del rango múltiple de Duncan, salvo porque las diferencias críticas entre las medias se calculan en una forma un tanto diferente. Específicamente, se calcula una serie de valores críticos.


donde  es el punto porcentual a superior del rango studentizado para grupos de medias de tamaño  y con  grados de libertad del error. Una vez que se calculan los valores  con la ecuación 3-45, los pares de medias extremos en los grupos de tamaño  se comparan con  exactamente igual que en la prueba del rango múltiple de Duncan.

¿Qué método de comparación por pares debe usarse?

Ciertamente, una pregunta lógica en este punto es qué método de comparación por pares debe usarse. Desafortunadamente, no hay una respuesta precisa para esta pregunta, y los especialistas en estadística están con frecuencia en desacuerdo en cuanto a la utilidad de los diferentes procedimientos. Carmer y Swanson [24] han realizado estudios de simulación Montecarlo con varios procedimientos de comparaciones múltiples, incluyendo algunos que no se han considerado aquí. Estos autores reportan que el método de la diferencia significativa mínima es una prueba muy eficaz para detectar diferencias reales en las medias si se aplica sólo después de que la prueba  en el análisis de varianza sea significativa en 5%. Reportan asimismo un buen desempeño en la detección de diferencias reales con la prueba del rango múltiple de Duncan. Esto no es motivo de sorpresa, ya que estos dos métodos son los más poderosos de los que se han comentado aquí. Sin embargo, estos métodos no incluyen el índice de error en el modo del experimento. Debido a que el método de Tukey efectúa un control sobre el índice de error global, muchos experimentadores prefieren su uso.

La prueba de Newman-Keuls es más conservadora que la prueba del rango múltiple de Duncan por cuanto a que el índice de error tipo I es menor. Específicamente, el error tipo I del experimento es para todas las pruebas que incluyen el mismo número de medias. Por consiguiente, debido a que es por lo general bajo, la potencia de la prueba de Newman-Keuls casi siempre es menor que la de la prueba del rango múltiple de Duncan. Para demostrar que el procedimiento de Newman-Keuls lleva a una prueba con menor potencia que la prueba del rango múltiple de Duncan, se observa por una comparación de las tablas VII y VIII del apéndice que para  se tiene . Es decir, es "más difícil" declarar que un par de medias es significativamente diferente al utilizar la prueba de Newman-Keuls que cuando se usa el procedimiento de Duncan. Esto se ilustra a continuación para el caso en que :

Como se señaló antes, existen otros procedimientos de comparaciones múltiples. Algunos artículos que describen estos métodos son los de Miller [78], O'Neill y Wetherill [91] y Nelson [89]. También se recomienda el libro de Miller [77].

APENDICE (TABLA VII y VIII)





Última modificación: martes, 30 de enero de 2024, 14:48