En ocasiones se encuentra que un subconjunto pequeño de los datos ejerce una influencia desproporcionada sobre el modelo de regresión ajustado. Es decir, las estimaciones o predicciones de los parámetros pueden depender más del subconjunto influyente que de la mayoría de los datos. Sería conveniente localizar estos puntos influyentes y valorar su impacto en el modelo. Si estos puntos influyentes son valores "malos", deberán eliminarse. Por otra parte, quizá no haya nada malo con estos puntos. Pero si controlan propiedades clave del modelo, sería deseable saberlo, ya que podría afectar el uso del modelo. En esta sección se describen e ilustran algunas medidas útiles. de influencia.

Puntos de acción de palanca

La localización de los puntos en el espacio x es importante para determinar las propiedades del modelo. En particular, las observaciones apartadas tienen potencialmente acciones o brazos de palanca desproporcionados sobre las estimaciones de los parámetros, los valores predichos y los estadísticos de resumen usuales.

La matriz gorro H=X(X'X)-1X' es muy útil para identificar las observaciones influyentes. Como ya se señaló, H determina las varianzas y covarianzas de y' y e, ya que V(y') σ2H y V(e) = σ2(I - H). Los elementos hii de H pueden interpretarse como la cantidad de acción de palanca ejercida por yi sobre y'i. Por lo tanto, la inspección de los elementos de H puede .revelar puntos que son potencialmente influyentes en virtud de su localización en el espacio x. La atención suele centrarse en los elementos de la diagonal hii

Puesto que ni=1hii= rango(H) = rango(X) = p, el tamaño promedio de los elementos de la diagonal de la matriz H es p/n. Como guía aproximada, entonces, si un elemento hii de la diagonal es mayor que 2p/n, la observación i es un punto con acción de palanca alta. Para aplicar lo anterior al modelo de la viscosidad del ejemplo 10-1, observe que 2p/n = 2(3)/16 = 0.375. En la tabla 10-3 se dan las diagonales gorro hii para el modelo de primer orden; puesto que ninguna de las hii excede 0.375, se concluiría que no hay puntos de acción de palanca en estos datos.

Influencia sobre los coeficientes de regresión

Las diagonales gorro identificarán los puntos potencialmente influyentes debido a su localización en el espacio x. Es deseable considerar la localización del punto y la variable de respuesta cuando se mide la influencia. Cook [32a, b] ha sugerido el uso de una medida  β' del cuadrado de la distancia entre la estimación de mínimos cuadrados basada en todos los n puntos y la estimación obtenida al eliminar el punto i, por ejemplo β'(i). Esta medida de la distancia puede expresarse como


Un valor de referencia razonable paraD¡ es la unidad. Es decir, en general las observaciones para las que D¡ > 1 se consideran influyentes.

El estadístico D¡ se calcula en realidad a partir de


Observe que, aparte de la constante p, D¡ es el producto del cuadrado del residual studentizado i-ésimo y hii/(1-hii). Puede demostrarse que este cociente es la distancia del vector x¡ al centroide de los datos restantes. Por lo tanto, D¡ está compuesto por un componente que refleja la medida en que el modelo ajusta la observación i-ésima yi y un componente que mide qué tan alejado está ese punto del resto de los datos. Cualquiera de los componentes (o ambos) puede contribuir a un valor grande de D¡.

En la tabla 10-3 se muestran los valores de D¡ para el ajuste del modelo de regresión a los datos de la viscosidad del ejemplo 10-1. Ninguno de estos valores de D¡ excede 1, por 10 que no hay evidencia sólida de observaciones influyentes en estos datos.


Última modificación: lunes, 18 de marzo de 2024, 20:09