Ejercicio Nº1
La tabla muestra los datos para una muestra de 12 parejas sobre la cantidad de hijos que tienen y la cantidad de hijos que habían establecido querían en el momento del matrimonio.
PAREJA
1 2 3 4 5 6 7 8 9 10 11 12
HIJOS QUE TIENE
4 3 0 4 4 3 0 ? 3 1
HIJOS QUE QUERÍA
3
?
3 3 0 ? 2 3 0 ? 2 1
3
?
Lamentablemente un virus computacional afectó la base de datos, lo que hizo imposible conocer los datos de la familia 8 y 12, además se perdió el nº de hijos que quería la familia 4. Sin embargo se encontró un modelo hecho con la base de datos original, el cual se muestra a continuación:
Yi = 0.2142857 + 1.14286 Xi r2 = 0.677249
Se (2) = 0.24949
Suma total de cuadrados = 27
La media de X es 2
La media de Y es 2.5
SE PIDE: 1. Varianza de X y Varianza de Y 2. Obtener un intervalo de confianza al 95% de confianza para beta 3. ¿Existe relación significativa en su modelo? 4. Un dato encontrado a última hora da cuenta que la familia 4 antes de casarse manifestó intención de tener hijos: ¿es posible reconstruir la tabla original con la información rescatada?
Resolución
1. Para poder calcular la varianza para ambas variables tenemos que considerar primero los datos faltantes para la variable Y puesto que solo faltan dos. Además considerar todas las relaciones y fórmulas posibles asociadas a una regresión simple de los datos recogidos.
Para calcular la sumatoria de x e y tenemos lo siguiente:
∑ 𝒙𝒊 = 𝒑𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒙 ∗ 𝒏 = 𝟐 ∗ 𝟏𝟐 = 𝟐𝟒
∑ 𝒚𝒊 = 𝒑𝒓𝒐𝒎𝒆𝒅𝒊𝒐 𝒅𝒆 𝒚 ∗ 𝒏 = 𝟐. 𝟓 ∗ 𝟏𝟐 = 𝟑𝟎 Sabemos además que:
SCT (suma de cuadrados totales) = 27 𝑆𝐶𝑇 = ∑ 𝑦𝑖 2 −
(∑ 𝑦𝑖)2 𝑛
= 27 = ∑ 𝑦𝑖 2 −
302 12
→
∑ 𝑦𝑖 2 = 102
-
Debido a que son dos datos los faltantes para la variable y los llamaremos a y b, los cuales deben cumplir según la tabla que: 17 = 𝑎2 + 𝑏 2
Y también que: 𝑎+𝑏 =5 Completando cuadrados para la primera ecuación= 17 = (𝑎 + 𝑏)2 − 2𝑎𝑏 17 = 52 − 2𝑎𝑏 4 = 𝑎𝑏 Y sabiendo que como máximo su suma debe ser 5, los números faltantes son 5 y 1.
Tomando los datos en Excel tenemos que la varianza calculada es de :
Varianza
4 3 0 4 4 3 0 5 3 1 3 1 2,81060606
𝑠𝑦2 =2,810606061 Para poder calcular la varianza de x, tenemos las siguientes relaciones:
𝑟=
𝑠𝑥𝑦 𝑠𝑥 ∗𝑠𝑦
Y además 𝑏2 =
𝑠𝑥𝑦 𝑠𝑥2
Si dividimos ambos factores: 𝑏2 𝑠𝑦 = 𝑟 𝑠𝑥 Reemplazando términos tenemos que: 1.14286 √0.677249
=
√2,810606061 𝑠𝑥
De esto obtenemos que la varianza de x es igual a : 𝑠𝑥2 = 1.2072053 5. Obtener un intervalo de confianza al 95% de confianza para beta
El intervalo de confianza lo definimos como: 𝑏2 ± 𝑡𝑛−2,𝛼/2 ∗ 𝑆𝐸(𝐵2) 𝐵𝑢𝑠𝑐𝑎𝑚𝑜𝑠 𝑒𝑛 𝑙𝑎 𝑡𝑎𝑏𝑙𝑎 𝑡 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 𝑝𝑎𝑟𝑎 𝑡10,0,025 = 2.2281 Intervalo de confianza se estima como: 1.14286 ± 2.2281 ∗ 0.24949 𝐼𝐶 = [ 0,586971 , 1.698748]
3. ¿Existe relación significativa en su modelo?
Sabemos que SCT = SCR + SCE
𝑆𝐶𝐸 𝑆𝐶𝑇 SCE 0.677249 = 1 − 27 𝑅2 = 1 −
𝐷𝐸𝑆𝑃𝐸𝐽𝐴𝑁𝐷𝑂 𝑜𝑏𝑡𝑒𝑛𝑒𝑚𝑜𝑠 𝑞𝑢𝑒: 𝑆𝐶𝐸 = 8,714304 Por tanto 𝑆𝐶𝑅 = 27 − 8,714304 = 18,285696
Realizamos tabla Anova para ver significancia del modelo: Fuentes
Suma de
Grados de
cuadrados
libertad
MC
OBSERVADO
Regresión
18,285696
1
18,285696
Error
8,714304
10
0,087143
Total
27
11
Al
F
209,83
95% 𝐹0,05,1,10= 4,965
Por tanto F observado es mayor que el F estadístico (4,965), por tanto podemos indicar que el modelo es significativo.
4. Un dato encontrado a última hora da cuenta que la familia 4 antes de casarse manifestó intención de tener hijos: ¿es posible reconstruir la tabla original con la información rescatada?
No es posible reconstruir por lo menos la variable x, a pesar de que con la respuesta se deduzca que ninguno de los tres valores faltantes sería 0. Falta información sobre la suma de los 𝑥 2 para poder generar al menos una tabla genérica para la variable x. La regresión solo nos estima una posibilidad, por tanto no es 100% segura usarla.
Ejerccicio Nº2
La línea del mercado de capitales (LMC) de la teoría del portafolio postula, para portafolios eficientes, una relación lineal entre el retorno esperado y el riesgo (medido por la desviación estándar) como la siguiente: Ei = β1 + β2σi Donde Ei = retorno esperado sobre el portafolio i y σi = desviación estándar del retorno. Dados los siguientes datos sobre retorno esperado y desviación del retorno de los portafolios de 34 fondos mutuos en los Estados Unidos durante el período 1954-1963, verifique si los datos apoyan la teoría.
Datos en términos absolutos: ∑σi = 578
∑Ei = 476
∑σiEi = 8337,7
E 14 17
Datos en términos de desviación: ∑σi2 = 596.76
∑Ei2 = 179.44
Para analizar la relación directa de lo anterior, solo debemos buscar el valor de la pendiente de beta 2 para saber si la relación expuesta en la teoría es la correcta, para ello necesitamos obtener la sumatoria tanto para el retorno como para la desviación de sus sumas al cuadrado. Dato que tenemos datos en términos de desviación realizaremos los siguientes cálculos:
Tenemos inicialmente que: 4762 179,44 = ∑ 𝐸𝑖 − 34 2
De lo anterior tenemos que: ∑ 𝑦𝑖 2 = 6843,44 para el retorno esperado.
De la misma manera para x o la desviación estándar del retorno. 596,76 = ∑ 𝜎𝑖 2 −
5782 34
De lo anterior tenemos que: ∑ 𝑥𝑖 2 = 10422,76
Calculamos beta o pendiente de la regresión:
𝑏2 =
34 ∗ 8337,7 − 578 ∗ 476 = 0,4117233 34 ∗ 10422,76 − 5782
Podemos concluir finalmente que la teoría expresada para portafolios eficientes, con una relación lineal entre el retorno esperado y el riesgo es cierta y de manera positiva.
Podemos obtener el coeficiente de intercepto b1= 𝑏1 = 14 − 17 ∗ 0,4117233 = 7,0007~7 Por tanto el modelo de portafolio queda expresado como:
𝑬𝒊 = 𝟕 + 𝟎, 𝟒𝟏𝟏𝟕𝟐𝟑𝟑𝝈𝒊 Ejercicio Nº 3 Aerolíneas Ibérica S.A. analiza la posibilidad de ingresar al mercado español de transporte aéreo. Para esto, le encarga a usted el estudio de un modelo de regresión capaz de pronosticar la demanda de pasajeros, con el objetivo de determinar el atractivo de este mercado. Para realizar el análisis, usted cuenta con las siguientes series de datos correspondientes a los Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000
Y 52,46 61,85 71,24 80,63 90,02 100,71 108,62 116,29 126,70 138,61
X 11,40 11,87 10,89 10,85 11,39 12,23 12,60 13,34 14,34 15,42
millones de pasajeros españoles que prefirieron la vía aérea como medio de transporte y el producto interno bruto per cápita en miles de euros. Se pide: a)
Coeficientes Estimados del Modelo de Regresión.
b) Coeficiente de determinación y Coeficiente de correlación. c)
Pruebe la significancia estadística de la pendiente y del intercepto a un 5%.
d) Pruebe la significancia estadística del modelo a un 5%. e)
Los intervalos de confianza para cada uno de los parámetros y para 2 al 95%
f)
Pronostique la cantidad de pasajeros transportados, suponiendo que el PIB español es 12.6 miles de euros.
g) Pruebe que la pendiente sea mayor que cero al 5% nivel de significancia. h) Determine si existe una relación positiva entre las variables del modelo.
Para poder responder las preguntas anteriores resolveremos mediante Excel (Regresión lineal y análisis de varianza) y contrastaremos:
Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0,86920886 0,75552403 0,72496454 14,9172541 10
ANÁLISIS DE VARIANZA Regresión Residuos Total
Grados de libertad Suma de cuadrados Promedio de los cuadradosF 1 5501,48426 5501,48426 24,72305314 8 1780,19575 222,524469 9 7281,68001
Estadístico Coeficientes Error típico
t
Probabilidad
Valor crítico de F 0,001090053
Inferior
Superior
95%
95%
-
-
-
Intercepción
-107,44367 40,9299034 2,62506532 0,030410304 201,828196 13,0591434
X
16,2596855 3,27010042 4,97222819 0,001090053
8,7188204 23,8005506
Tabla 1: Intercepto y Pendiente A) Coeficientes Estimados del Modelo de Regresión. 𝒀 = −𝟏𝟎𝟕, 𝟒𝟒𝟑𝟔𝟕 + 𝟏𝟔, 𝟐𝟓𝟗𝟔𝟖𝟓 ∗ 𝑿
B) Coeficiente de determinación y Coeficiente de correlación.
C) Pruebe la significancia estadística de la pendiente y del intercepto a un 5%.
Según los datos arrojados por el análisis de varianza tenemos que:
Valor p Intercepción 0,0304103 X 0,00109005 Concluimos que para ambos se rechaza la hipótesis de que no son significativos y por tanto son influyentes dentro del modelo.
D) Pruebe la significancia estadística del modelo a un 5%.
De análisis de varianza anterior obtenemos que Fisher observado es de 24,72 y el valor P para el modelo en estudio es equivalente a 0,001 (menor a 0,05) por lo que rechazamos la hipótesis nula y confirmamos que el modelo es significativo. E) Los intervalos de confianza para cada uno de los parámetros y para 2 al 95% Estadístico Coeficientes Error típico t
Inferior Probabilidad 95%
-
-
Superior 95% -
Intercepción
-107,44367 40,9299034 2,62506532 0,030410304 201,828196 13,0591434
X
16,2596855 3,27010042 4,97222819 0,001090053 8,7188204
23,8005506
Del análisis de coeficientes anterior tenemos que el intervalo de confianza para el intercepto es de:
𝐼𝐶 𝐼𝑁𝑇𝐸𝑅𝐶𝐸𝑃𝐶𝐼Ó𝑁 = [−201,82 , −13,059 ] 𝐼𝐶 𝑋(𝐵2) = [ 8,7188 ,
23,8]
F) Pronostique la cantidad de pasajeros transportados, suponiendo que el PIB español es 12.6 miles de euros. 𝒀 = −𝟏𝟎𝟕, 𝟒𝟒𝟑𝟔𝟕 + 𝟏𝟔, 𝟐𝟓𝟗𝟔𝟖𝟓 ∗ 𝑿 𝐷𝐷𝐴 = −107,44367 + 16,2596 ∗ 12.6 = 97,42729 Según el pronóstico la cantidad de pasajeros es de 97,42 millones de personas aproximadamente.
G) Pruebe que la pendiente sea mayor que cero al 5% nivel de significancia. Para analizar lo anterior debemos considerar los siguientes datos obtenidos en Excel, las varianzas y covarianzas respectivas:
Var y Var x 809,075557 2,31213444 Varxy 37,5945789 Teniendo como estadístico de prueba:
𝑡𝑒 =
𝑏2 ∗ √𝑠𝑥𝑥 𝑠𝑒
𝑠𝑦𝑦 − 𝑏2 ∗ 𝑠𝑥𝑦 809,075557 − 16,259685 ∗ 37,5945 𝑠𝑒 = √ 𝑦 𝑝𝑎𝑟𝑎 𝑒𝑠𝑡𝑒 𝑐𝑎𝑠𝑜 → √ = 4,97243 𝑛−2 10 − 2
𝑡𝑒 =
16,259685 ∗ 1,5205 = 6,180 4
𝑡 𝑠𝑡𝑢𝑑𝑒𝑛𝑡 𝑎𝑝𝑟𝑜𝑝𝑖𝑎𝑑𝑜 𝑎 = 0,05 𝑦 8 𝑔𝑟𝑎𝑑𝑜𝑠 𝑑𝑒 𝑙𝑖𝑏𝑒𝑟𝑡𝑎𝑑 𝑡 = 1,8595 Por tanto rechazamos la hipótesis de que es menor o igual a 0 b2, y por tanto es correcto decir que la pendiente es mayor a 0.
H) Determine si existe una relación positiva entre las variables del modelo.
De lo anterior y del análisis hecho en G, podemos indicar que las variables presentan una relación positiva es decir a mayor producto percapita bruto mayor será el aumento de pasajeros en las distintos transportes.
Ejercicio Nº 4 Dados los siguientes datos de una lechería SEMANA NIVEL SEMANAL DE PRECIO DE GASTOS EN VENTAS (MILES DE LITROS) VENTA en centavos PUBLICIDAD de dólar por litro cientos de dólares 1 10 130 9 2 6 200 7 3 5 170 5 4 12 150 14 5 10 160 15 6 15 120 12 7 5 160 6 8 12 140 10 9 17 100 15 10 20 110 21 SUMA 112 1440 114 a) Confeccione un modelo en dos variables que resulte adecuado para la situación justifique adecuadamente e interprete resultados. b) Para su modelo calcule r y r². interprete
c) d) e) f)
El precio explica las ventas de leche? Establezca un intervalo de confianza para el parámetro relevante. Efectué un pronóstico de la cantidad de leche vendida si el precio fuese de US$ 1,63 Efectué un pronóstico de la cantidad de leche vendida si el precio fuese de US$ 3,00 explique
a) Confeccione un modelo en dos variables que resulte adecuado para la situación justifique adecuadamente e interprete resultados. Las variables elegidas fueron venta y precio, puesto que es de la segunda la demanda que se tendrá semanal y por tanto los niveles de utilidades generados de una empresa. Analizando los datos en Excel tenemos que:
Intercepción PRECIO DE VENTA en centavos de dólar por litro
Coeficientes 32,1359223 -0,14538835
Modelo estimado: 𝑵𝒊𝒗𝒆𝒍 𝒔𝒆𝒎𝒂𝒏𝒂𝒍 𝒅𝒆 𝒗𝒆𝒏𝒕𝒂𝒔 = 𝟑𝟐, 𝟏𝟑𝟓𝟗 − 𝟎, 𝟏𝟒𝟓𝟒 ∗ 𝒑𝒓𝒆𝒄𝒊𝒐 b) Para su modelo calcule r y r². Interprete
Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0,86348897 0,7456132 0,71381485 2,72545311 10
Del resultado anterior obtuvimos que la relación prevista para el modelo es negativa (si uno aumenta el otro disminuye) y que el modelo explica en un 74,56% los datos reales.
c) ¿El precio explica las ventas de leche?
ANÁLISIS DE VARIANZA Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crítico de F Regresión 1 174,175243 174,175243 23,4481722 0,00128432 Residuos 8 59,4247573 7,42809466 Total 9 233,6 Del análisis de varianza para una regresión podemos concluir que el precio sí explica las ventas de la leche puesto que el modelo es totalmente significativo, ya que el valor crítico o p valor es mucho menor a alfa = 0,05 para contrastar el estudio.
d) Establezca un intervalo de confianza para el parámetro relevante.
Coeficientes Error típico Estadístico t Probabilidad Inferior 95% Superior 95% Intercepción 32,1359223 4,40858773 7,2893916 8,4753E-05 21,9697008 42,3021439 PRECIO DE VENTA en centavos -0,14538835 de dólar0,03002445 por litro -4,84233128 0,00128432 -0,21462486 -0,07615184
Del análisis de coeficientes, podemos indicar ambos parámetros son significativos y que por tanto ambos son influyentes en el modelo puesto que su probabilidad es menor a 0,05 rechazando la hipótesis de no significancia. El intervalo de confianza para la pendiente es igual a : 𝐼𝐶 = [−0,214624863 , −0,076151836] El intervalo de confianza para la intersección es : 𝐼𝐶 = [21,9697008 , 42,30214386]
e) Efectué un pronóstico de la cantidad de leche vendida si el precio fuese de US$ 1,63 𝑵𝒊𝒗𝒆𝒍 𝒔𝒆𝒎𝒂𝒏𝒂𝒍 𝒅𝒆 𝒗𝒆𝒏𝒕𝒂𝒔 = 𝟑𝟐, 𝟏𝟑𝟓𝟗 − 𝟎, 𝟏𝟒𝟓𝟒 ∗ 𝒑𝒓𝒆𝒄𝒊𝒐 Para el precio: 1,63 US$*100 𝑵𝒊𝒗𝒆𝒍 𝒔𝒆𝒎𝒂𝒏𝒂𝒍 𝒅𝒆 𝒗𝒆𝒏𝒕𝒂𝒔 = 𝟑𝟐, 𝟏𝟑𝟓𝟗 − 𝟎, 𝟏𝟒𝟓𝟒 ∗ 𝟏𝟔𝟑 Por tanto la cantidad demanda será de 8435,7 litros de leche aproximadamente.
f) Efectué un pronóstico de la cantidad de leche vendida si el precio fuese de US$ 3,00 explique. Para el precio: 3,00 US$*100 𝑵𝒊𝒗𝒆𝒍 𝒔𝒆𝒎𝒂𝒏𝒂𝒍 𝒅𝒆 𝒗𝒆𝒏𝒕𝒂𝒔 = 𝟑𝟐, 𝟏𝟑𝟓𝟗 − 𝟎, 𝟏𝟒𝟓𝟒 ∗ 𝟑𝟎𝟎
Si el precio fuese de 3 dólares (300 dólares en centavos) la cantidad de leche que se venderá matemáticamente es de -11,48, por lo que si lo situamos en la realidad, no se venderá puesto que el precio está muy por encima de lo que la gente realmente compraría.
Ejercicio Nº 5
EFECTUE UN MODELO LINEAL CON LAS TRES VARIABLES MENCIONADAS EN EL EJERCICIO 4, CALCULANDO TODOS LOS INDICADORES VISTOS A LA FECHA. COMENTE C/R AL CASO SIMPLE. Se aplica la función de regresión en Excel y con ella obtendremos lo siguiente:
Coeficientes Intercepción 16,4063651 PRECIO DE VENTA en centavos de dólar por litro -0,0824758 GASTOS EN PUBLICIDAD cientos de dólares 0,5851009
Error típico Estadístico t Probabilidad 4,34251935 3,77807531 0,00690962 0,02196057 -3,75563086 0,00711547 0,13367182 4,37714473 0,00324572
El Modelo obtenido se expresa como: 𝑁𝑖𝑣𝑒𝑙 𝑑𝑒 𝑣𝑒𝑛𝑡𝑎 = 16,4063 − 0,0825𝑃𝑉 + 0,5851 ∗ 𝐺𝑃 Donde PV = precio de venta y GP= gasto en publicidad. Del modelo anterior podemos decir todas las variables son significativas ya que ocurre que sus p valores o probabilidades son menores a 0,05, para un nivel de confianza del 95%. Al analizar el modelo general tenemos que:
Estadísticas de la regresión Coeficiente de correlación múltiple Coeficiente de determinación R^2 R^2 ajustado Error típico Observaciones
0,96536447 0,93192856 0,91247958 1,50719642 10
El modelo tiene una relación lineal directa con el gasto en publicidad e inversa con el precio, ajustándose en un 93,19% a los datos, por tanto es un modelo que explica significativamente los reales.
ANÁLISIS DE VARIANZA Regresión Residuos Total
Grados de libertad Suma de cuadrados Promedio de los cuadradosF Valor crítico de F 2 217,698513 108,849256 47,9165743 8,2296E-05 7 15,9014872 2,27164103 9 233,6
Para un nivel de confianza del 95% el modelo en general es significativo, puesto que su valor crítico o p valor es mucho menor que 0,05 y se rechaza la hipótesis nula de no significancia. Dicho de otro modo es un buen modelo predictivo.