M. en I. AMBIENTAL: 10.4.1.- Prueba de Significación de la Regresión

La prueba de significación de la regresión es un procedimiento para determinar si existe una relación lineal entre la variable de respuesta y y un subconjunto de los regresores x₁, x₂, ..., x_k. Las hipótesis apropiadas son

El rechazo de H₀ de la ecuación 10-20 implica que almenas uno de los regresores x₁, x₂, ..., x_kcontribuye de manera significativa al modelo. El procedimiento de prueba incluye un análisis de varianza en el que se hace la partición de la suma de cuadrados total SS_T en una suma de cuadrados debida al modelo (o a la regresión) y una suma de cuadrados debida a los residuales (o al error), es decir,

y en rechazar H₀ si F₀ excede a F_{a, k, n-k-1}. De manera alternativa, podría usarse el enfoque del valor P para la prueba de hipótesis y, por lo tanto, rechazar H₀ si el valor P del estadístico F₀ es menor que a. Por lo general la prueba se resume en una tabla del análisis de varianza como la tabla 10-6. Es sencillo encontrar una fórmula para calcular SS_R. En la ecuación 10-16 se estableció una fórmula para calcular SS_E; es decir,

Por lo tanto, la suma de cuadrados de regresión es

mientras la suma de cuadrados del error es

y la suma de cuadrados total es

Estos cálculos casi siempre se realizan con software de regresión. Por ejemplo, en la tabla 10-4 se muestra una parte de la salida de Minitab para el modelo de regresión de la viscosidad del ejemplo 10-1.

La sección superior de esta presentación es el análisis de varianza del modelo. La prueba de significación de la regresión en este ejemplo incluye las hipótesis

El valor P de la tabla 10-4 para el estadístico F (ecuación 10-22) es muy pequeño, por lo que se concluiría que al menos una de las dos variables-la temperatura (x₁) y la velocidad de alimentación (x₂)-tiene un coeficiente de regresión diferente de cero.

En la tabla 10-4 se presenta también el coeficiente de determinación múltiple R², donde

Como en los experimentos diseñados, R² es una medida de la cantidad de reducción en la variabilidad de y que se obtiene al utilizar las variables de regresión x₁, x₂, ..., x_k en el modelo. Sin embargo, como se señaló antes, un valor grande de R² no implica necesariamente que el modelo de regresión sea adecuado. Siempre que se agregue una variable al modelo, R² se incrementará, independientemente de que la variable adicional sea estadísticamente significativa o no. Por lo tanto, es posible que los modelos que tienen valores grandes de R² produzcan predicciones pobres de nuevas observaciones o estimaciones pobres de la respuesta media.

Puesto que R² siempre se incrementa cuando se agregan términos al modelo, algunos constructores de modelos de regresión prefieren usar el estadístico R² ajustada definido como

En general, el estadístico R² ajustada no siempre se incrementará cuando se agreguen variables al modelo. De hecho, sise agregan términos innecesarios, el valor de R²_ajustada se decrementará con frecuencia.

Por ejemplo, considere el modelo de regresión de la viscosidad. La R² ajustada para el modelo semuestra en la tabla 10-4. Se calcula como que está muy cerca de la R² ordinaria. Cuando la diferencia entre R² y R²_ajustada es considerable, existe un buen riesgo de que se hayan incluido en el modelo términos no significativos.

Última modificación: viernes, 15 de marzo de 2024, 21:24