EJERCICIO DE REGRESION LINEAL MULTIPLE El gerente de ventas de una compañía de refacciones para automóviles, quiere desarrollar un modelo para predecir, en el mes de junio, las ventas anuales totales para una región. Si las ventas regionales se pueden predecir, entonces se podrán estimar las ventas totales de la compañía. El número de distribuidoras de la región que mantiene en inventario las refacciones de la compañía y el número de automóviles registrados para cada región, desde el primero de junio, son las dos variables de predicción que el gerente quiere investigar. Este obtiene los siguientes datos. Región 1 2 3 4 5 6 7 8 9 10 11
Ventas (millones) y 52.3 26.0 20.2 16.0 30.0 46.2 35.0 3.5 33.1 25.2 38.2
Número de distribuidoras 2011 2850 650 480 1694 2302 2214 125 1840 1233 1699
Número de automóviles reg. 24.6 22.1 7.9 12.5 9.0 11.5 20.5 4.1 8.9 6.1 9.5
a) Analice la matriz de correlación b) ¿Son válidos los coeficientes de regresión? c) ¿Cuál es el error involucrado en el pronóstico para región 1 d) Indique cómo se calculó el error estándar de la estimación e) ¿Cómo puede mejorar esta ecuación de regresión? Análisis de Regresión Múltiple ----------------------------------------------------------------------------Variable dependiente: Y ----------------------------------------------------------------------------Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------CONSTANTE 10,1093 7,21956 1,40026 0,1990 X2 0,0109889 0,00520014 2,11319 0,0675 X3 0,19466 0,639844 0,304231 0,7687 ----------------------------------------------------------------------------Análisis de Varianza ----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------Modelo 1043,66 2 521,832 4,91 0,0405 Residuo 849,564 8 106,196 ----------------------------------------------------------------------------Total (Corr.) 1893,23 10 R-cuadrado = 55,1262 porcentaje R-cuadrado (ajustado para g.l.) = 43,9077 porcentaje Error estándar de est. = 10,3051 Error absoluto medio = 6,22424 Estadístico de Durbin-Watson = 2,45921 (P=0,1735) Autocorrelación residual en Lag 1 = -0,401176
Y = 10,1093 + 0,0109889*X2 + 0,19466*X3
Matriz de correlación de los estimadores de los coeficientes ----------------------------------------------------------------------------CONSTANTE X2 X3 CONSTANTE 1,0000 0,7390 0,5480 X2 0.7390 1,0000 0.6700 X3 0.5480 0.6700 1,0000 ----------------------------------------------------------------------------y
X2
X3
Pronóstico
ME
52,3
2011
24,6
36,51
15,79
26
2850
22,1
36,51
-10,51
20,2
650
7,9
36,51
-16,31
16
480
12,5
36,51
-20,51
30
1694
9
36,51
-6,51
46,2
2302
11,5
36,51
9,69
35
2214
20,5
36,51
-1,51
3,5
125
4,1
36,51
-33,01
33,1
1840
8,9
36,51
-3,41
25,2
1233
6,1
36,51
-11,31
38,2
1699
9,5
36,51
1,69
a) El número de distribuidoras se relaciona con las ventas anuales y es una buena variable de predicción potencial. El número de automóviles registrados tiene una relación moderada con las ventas anuales y, debido a la multicolinealidad , no será un buen predictor junto con el número de distribuidoras b) NO, la multicolinealidad está presente y causa que los coeficientes de regresión no sean confiables. c) el error involucrado en el pronóstico para la región 1 es 15.79 d) Del análisis de varianza obtenemos el valor de residuo =10.3
e) Se deben probar nuevas variables de predicción El gerente decide investigar una nueva variable de predicción: el ingreso personal en la región. Los datos para esta nueva variable son:
Región 1 2 3 4
Ingreso Personal (miles de millones) 98.5 31.1 34.8 32.7
5 6 7 8 9 10 11
68.8 94.7 67.6 19.7 67.9 61.4 85.6
f) ¿Es el ingreso personal por región una buena variable de predicción potencial? g) ¿Qué porcentaje de la varianza en las ventas se explicará usando solamente el ingreso personal como variable de predicción? h) ¿Qué porcentaje de la varianza en las ventas se explicará usando las tres variables de predicción? i) ¿Explica la ecuación de predicción de la ejecución número 1 un porcentaje significativo de la varianza en las ventas? Pruebe a un nivel de significancia del 5% j) Realice una prueba con un nivel de significancia del 5% para determinar si se debe usar cada una de las tres variables de predicción k) Realice una prueba con un nivel de significancia del 5% para determinar si el ingreso personal y el número de distribuidoras deben usarse para predecir las ventas. l) realice una prueba con un nivel de significancia del 5% para determinar si el ingreso personal y el número de automóviles registrados deben usarse para predecir las vetas m) ¿Qué modelo debe usar el gerente? n) Interprete el coeficiente de regresión estimados para la ecuación del punto j o) ¿Son válidos estos coeficientes de regresión? p) Analice la exactitud de este modelo Ejecución 1 Análisis de Regresión Múltiple ----------------------------------------------------------------------------Variable dependiente: Y ----------------------------------------------------------------------------Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------CONSTANTE -3,9177 2,29017 -1,71066 0,1309 X2 0,00238409 0,00157212 1,51648 0,1732 X3 0,457426 0,167499 2,73091 0,0293 X4 0,400576 0,0377914 10,5996 0,0000 ----------------------------------------------------------------------------Análisis de Varianza ----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------Modelo 1843,4 3 614,467 86,32 0,0000 Residuo 49,8268 7 7,11812 ----------------------------------------------------------------------------Total (Corr.) 1893,23 10 R-cuadrado = 97,3682 porcentaje R-cuadrado (ajustado para g.l.) = 96,2402 porcentaje Error estándar de est. = 2,66798 Error absoluto medio = 1,65087 Estadístico de Durbin-Watson = 2,01049 (P=0,4483) Autocorrelación residual en Lag 1 = -0,013595
Ejecución 2 Análisis de Regresión Múltiple ----------------------------------------------------------------------------Variable dependiente: Y ----------------------------------------------------------------------------Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------CONSTANTE -4,0269 2,46799 -1,63165 0,1414 X3 0,620922 0,13821 4,49259 0,0020 X4 0,430169 0,0348932 12,3281 0,0000 ----------------------------------------------------------------------------Análisis de Varianza ----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------Modelo 1827,03 2 913,516 110,40 0,0000 Residuo 66,1964 8 8,27455 ----------------------------------------------------------------------------Total (Corr.) 1893,23 10 R-cuadrado = 96,5035 porcentaje R-cuadrado (ajustado para g.l.) = 95,6294 porcentaje Error estándar de est. = 2,87655 Error absoluto medio = 2,18538 Estadístico de Durbin-Watson = 2,17004 (P=0,2940) Autocorrelación residual en Lag 1 = -0,100016
Ejecución 3 Análisis de Regresión Múltiple ----------------------------------------------------------------------------Variable dependiente: Y ----------------------------------------------------------------------------Error Estadístico Parámetro Estimación estándar T P-Valor ----------------------------------------------------------------------------CONSTANTE -1,60819 2,86116 -0,562076 0,5895 X2 0,00514754 0,00161745 3,1825 0,0129 X4 0,385301 0,0502448 7,66847 0,0001 ----------------------------------------------------------------------------Análisis de Varianza ----------------------------------------------------------------------------Fuente Suma de cuadrados GL Cuadrado medio Cociente-F P-Valor ----------------------------------------------------------------------------Modelo 1790,32 2 895,158 69,59 0,0000 Residuo 102,913 8 12,8641 ----------------------------------------------------------------------------Total (Corr.) 1893,23 10 R-cuadrado = 94,5642 porcentaje R-cuadrado (ajustado para g.l.) = 93,2052 porcentaje Error estándar de est. = 3,58666 Error absoluto medio = 2,57292 Estadístico de Durbin-Watson = 1,0611 (P=0,0568) Autocorrelación residual en Lag 1 = 0,298956 Matriz de correlación de los estimadores de los coeficientes ----------------------------------------------------------------------------CONSTANTE X2 X3 X4 CONSTANTE 1,0000 0,739 0.548 0.936 X2 0.739 1,0000 0.670 0.556 X3 0.548 0.670 1,0000 0.281 X4 0.936 0.556 0.281 1,0000 -----------------------------------------------------------------------------
f) Si, el ingreso personal tiene una fuerte relación con las ventas anuales g) h) i) Las hipótesis nula y alternativa son:
En la salida del análisis de varianza de la ejecución 1, se observa que el p-valor del modelo es 0.000 y como , por tanto se rechaza la hipótesis nula y el gerente concluye que la ecuación de regresión muestral explica un porcentaje significativo de la varianza en las ventas j) Las hipótesis adecuadas son:
El ingreso personal ( es una variable significativa, lo mismo que el número de registros ( ya que el p-valor es 0.000 y 0.0293 por el contrario el número de distribuidoras no es una variable significativa k) Las variables que deben probarse están en la ejecución número 3. Las hipótesis adecuadas son:
La hipótesis nula se rechaza de acuerdo con los p-valores 0.0129 y 0.0001 respectivamente, por tanto el gerente concluye que ambas variables explican una parte significativa de la varianza en las ventas. l) Las variables que deben probarse están en la ejecución número 2. adecuadas son:
Las hipótesis
La hipótesis nula se rechaza de acuerdo con los p-valores 0.0020 y 0.000 respectivamente, el gerente concluye que ambas variables explican una porción significativa de la varianza en las ventas.
m) El gerente de ventas debe elegir el modelo que incluye a los automóviles registrados y al ingreso personal por que explican un mayor porcentaje de la varianza n) La ecuación es . Si el número de automóviles registrados en la región aumenta en un millón, mientras que el ingreso personal se mantiene constante, las ventas aumentarán en un promedio de 620.920. Si el ingreso personal aumenta en mil millones, mientras que el número de automóviles registrados se deja constante, las ventas aumentarán en promedio de 430.170 o) Los coeficientes de regresión deben ser válidos, ya que las variables 3 y 4 tiene una relación muy fuerte entre ellas ( de manera que la multicolinealidad no es un problema. p) El modelo explica el 96.5% de la varianza en las ventas y debe ser bastante adecuado. Cada pronóstico se aleja alrededor de 2.877 millones (el valor de la desviación estándar de la estimación) (Ejecución número 2)