EJERCICIOS PROPUESTOS DE ECONOMETRIA III MODELOS DE RESPUESTA CUALITATIVA Y MODELOS DE VARIABLE DEPENDIENTE LIMITADA Por Beatriz GONZÁLEZ LÓPEZ-VALCÁRCEL Jorge V. PÉREZ RODRÍGUEZ (LICENCIATURA EN ECONOMIA)
Octubre 2007
PARTE I. PROBLEMAS PROPUESTOS
1. Una empresa de seguros encuentra que la probabilidad de poseer un seguro de hogar
frente a no poseerlo, puede escribirse mediante mediante una relación lineal definida por el siguiente modelo: sˆi
= 0.07 + 0.0002 y i + 0.004 E i
donde, si es una variable dicotómica que vale uno si el individuo i-ésimo posee un seguro y cero en caso de no poseerlo; y i es la renta en miles de pesetas y E i es la edad del asegurado. Si la renta bruta anual fuese de 4 millones de pesetas y la edad del asegurado de 30 años, entonces: a) ¿Cuál es la probabilidad de NO poseer un seguro?. b) ¿Cuál es el incremento de probabilidad, si la renta de dicho individuo aumentase en 200.000 pesetas?. 2.S e ha estudiado la posibilidad de que el hecho de que una familia tenga la vivienda en
propiedad o no (Y) dependa de variables como los ingresos de los individuos (INGRESOS, en miles de pesetas mensuales); si trabaja (TRABFIJO), que es una variable dicotómica que toma el valor uno si el cabeza de familia trabaja y cero en caso contrario; el sexo (SEXO), que también es dicotómica, tomando valor 1 si es hombre y cero si es mujer; y la edad (EDAD), que representa la edad del cabeza de familia. El siguiente cuadro recoge los valores de dichas variables para dos individuos elegidos al azar de la muestra. i
Y
Sexo
Edad
Ingresos
Trabfijo
9 18
1 0
1 0
39 46
250 80
0 0
Además, se conocen los siguientes resultados de la estimación de un modelo logit y probit: Variables
Logit
Probit
Constante Sexo Edad Ingresos Trabfijo
-4.73 0.16 0.01 0.0194 0.02
-2.66 0.16 0.004 0.0113 0.015
Se pide: a) Calcular las probabilidad de tener vivienda en propiedad en los dos modelos y para los dos individuos. b) Calcular los ODDS de cada individuo, para cada modelo. c) Calcular los efectos marginales para el individuo 9 en el modelo logit; y para el individuo 18 en el modelo probit.
1
PARTE I. PROBLEMAS PROPUESTOS
1. Una empresa de seguros encuentra que la probabilidad de poseer un seguro de hogar
frente a no poseerlo, puede escribirse mediante mediante una relación lineal definida por el siguiente modelo: sˆi
= 0.07 + 0.0002 y i + 0.004 E i
donde, si es una variable dicotómica que vale uno si el individuo i-ésimo posee un seguro y cero en caso de no poseerlo; y i es la renta en miles de pesetas y E i es la edad del asegurado. Si la renta bruta anual fuese de 4 millones de pesetas y la edad del asegurado de 30 años, entonces: a) ¿Cuál es la probabilidad de NO poseer un seguro?. b) ¿Cuál es el incremento de probabilidad, si la renta de dicho individuo aumentase en 200.000 pesetas?. 2.S e ha estudiado la posibilidad de que el hecho de que una familia tenga la vivienda en
propiedad o no (Y) dependa de variables como los ingresos de los individuos (INGRESOS, en miles de pesetas mensuales); si trabaja (TRABFIJO), que es una variable dicotómica que toma el valor uno si el cabeza de familia trabaja y cero en caso contrario; el sexo (SEXO), que también es dicotómica, tomando valor 1 si es hombre y cero si es mujer; y la edad (EDAD), que representa la edad del cabeza de familia. El siguiente cuadro recoge los valores de dichas variables para dos individuos elegidos al azar de la muestra. i
Y
Sexo
Edad
Ingresos
Trabfijo
9 18
1 0
1 0
39 46
250 80
0 0
Además, se conocen los siguientes resultados de la estimación de un modelo logit y probit: Variables
Logit
Probit
Constante Sexo Edad Ingresos Trabfijo
-4.73 0.16 0.01 0.0194 0.02
-2.66 0.16 0.004 0.0113 0.015
Se pide: a) Calcular las probabilidad de tener vivienda en propiedad en los dos modelos y para los dos individuos. b) Calcular los ODDS de cada individuo, para cada modelo. c) Calcular los efectos marginales para el individuo 9 en el modelo logit; y para el individuo 18 en el modelo probit.
1
3. Obtener la expresión del algoritmo de Newton-Raphson mediante los minimos cuadrados, y para el modelo: yt = α e β xt + ut , siendo utu na perturbación aleatoria iid. 4. Un banco pretende caracterizar las empresas que cumplen puntualmente todos los
plazos de devolución de los créditos que reciben. Tras crear una variable Y i, que toma valor 1 cuando las empresas cumplieron dichos compromisos y cero en caso contrario, se estimaron los siguientes modelos: Y i
ln
= 0.069 − 0.018 x1i + 0.049 x 2i + 0.057 x3i pi
1 − pi
= −1.66 − 0.32 x1i + 0.62 x 2i − 0.90 x3i
donde x1i es el ratio (en porcentaje) entre el valor nominal de la deuda viva de la empresa y el valor total del activo; x 2i es el ratio (en porcentaje) entre los beneficios después de impuestos y el valor total del activo; y x 3i es el valor del activo (como indicador del tamaño de la empresa). Se pide: a) ¿Qué modelos han sido estimados?. b) Interprétense los coeficientes estimados en ambos modelos. c) Suponga que el individuo i-ésimo posee los siguientes valores de las variables: x1i = 9.7% , x 2i = 7.8% , x3i = 0.6 . Calcule la probabilidad de que se incumplan los compromisos en ambos modelos. Además, obtenga los efectos marginales. 5. En una encuesta realizada en junio de 2001 a diez alumnos de 4º curso se les
preguntó si aprobaron o no la asignatura de Macroeconomía, Macroeconomía, así como la calificación que obtuvieron en la asignatura de Econometría, con los siguientes resultados: Aprobaron Macroeconomía
Calificación Econometría
Sí Sí No Sí No No Sí Sí No No
8 8 6 6 6 5 5 4 4 4
Se pide: a) Especificar y estimar por mínimos cuadrados ordinarios un modelo lineal que evalúe el efecto que la calificación de Econometría tiene sobre la probabilidad de aprobar Macroeconomía.
2
b) Interpretar los valores estimados para cada uno de los coeficientes del modelo. ¿Cuál es la calificación que debe alcanzarse en Econometría para tener una probabilidad de 0.80 0.80 de aprobar Macroeconomía?. Macroeconomía?. c) Obtener una estimación eficiente del modelo especificado en a). d) Si un alumno obtuvo 9.5 en Econometría, ¿Cuál es la probabilidad de aprobar Macroeconomía?. 6. Demostrar que las estimaciones de mínimos cuadrados ordinarios de los modelos
lineales de probabilidad en el caso de alternativas múltiples: = α 1 + β 1 xi + u i1 Pi 2 = α 2 + β 2 xi + u i 2 Pi 3 = α 3 + β 3 xi + u i 3 Pi1
satisfacen
3
3
∑α = 1 y ∑ β = 0 . i
i
i =1
i =1
7. Sea N 1 el número de individuos con Y i = 1 y N 2 el número de individuos con Y i = 0 , 2
demostrar que el R d e Effron es equivalente a 1 −
N
N
∑ (Y − Pˆ ) N N i
1
i
2
.
2 i =1
8. Suponga una distribución z ~ N (µ , σ ) , la cuál se encuentra truncada en el punto
4.605. Se sabe que E [ z z > 4.605] = 4.956 y el grado de truncamiento es del 95%. Calcule µ y σ . 9. Suponemos que la demanda de entradas a los conciertos (VENTAS) que se celebran
en una ciudad depende del precio (PRECIO), de las condiciones meteorológicas (METEO), que pueden ser favorables (0) o desfavorables (1) y del renombre del grupo que actúa, medido en una una escala de 1 a 5 (RATING). Los conciertos se celebran en un recinto que tiene capacidad para 23.000 espectadores. Se ha estimado el modelo y los resultados son: +---------------------------------------------+ | Limited Dependent Variable Model - CENSORED | | Maximum Likelihood Estimates | | Dependent variable VENTAS | | Weighting variable ONE | | Number of observations 90 | | Iterations completed 6 | | Log likelihood function -522.4057 | | Threshold values for the model: | | Lower=-infinity Lower=-infinit y Upper=23000.0000 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Primary Index Equation for Model Constant 29588.03508 590.39079 50.116 .0000 PRECIO -4.879326375 .16399481 -29.753 .0000 2952.8667 RATING 1940.032493 122.51143 15.836 .0000 3.1555556 METEO -4513.019466 268.57781 -16.803 .0000 .18888889 Disturbance standard deviation Sigma 923.1196055 81.283308 11.357 .0000
Se pide: a) Calcular los efectos marginales evaluados en la media de las variables. 3
b) Si un grupo posee un rating igual a 5, y actúa en un día con meteorología favorable y un fan paga un precio de 5000 ptas., ¿cuáles son las predicciones de la ventas considerando la censura?. 10. En el modelo TOBIT: yi*
∂ E [ yi / xi , yi* ∂ xi
= xi' β + ui , ¿A qué será igual el valor obtenido para > 0] ∂ E [ yi / xi , y i* < 0] ?. ¿Y si ?.Demostrarlo en ambos casos. ∂ xi
11. Una muestra de 2000 individuos se dispone para las siguientes variables: CR i son los
créditos personales (es una variable dicotómica que toma valor 1 si el crédito no resulta fallido y 0 en caso contrario); RN i es la renta anual en miles de dólares; TC i es el número de tarjetas de crédito (es una variable dicotómica que toma valor 1 si el individuo las posee y 0 si no las tiene) y EDi es la edad del cabeza de familia. Se estima el siguiente modelo de probabilidad lineal: CR I
= 0.07 + 0.02 RN I + 0.004 ED I + 0.14TC I
Se pide: a) Interpretar los parámetros de este modelo. b) Si el individuo i-ésimo tiene 54 años, posee 10000 dólares y tiene tarjeta de crédito ¿cuál es la probabilidad de que si se le concede un crédito éste no resulte fallido?. 12. Un análisis empírico trata de estudiar los factores explicativos del empleo juvenil. Con
esta finalidad, se especifica un modelo probit donde la variable depediente representa el status que tienen en la fuerza laboral los jóvenes de una muestra con edades comprendidas entre 16-21 años. Esta variable se define como status (1=ocupado, 0=parado). Las variables explicativas utilizadas son las siguientes variables dicotómicas: sexo (1=varón), estudios (1=superiores o medios), residencia (1=urbana), edad1 (1=16-17), edad2 (1=1819). Los resultados proporcionados en el análisis son: Parámetro
Beta
e.s.
beta
e.s.
Constante Sexo Estudios Residencia Edad1 Edad2
0.50 1.05 1.27 0.06 -0.65 -0.14
0.02 0.08 0.08 0.09 0.23 0.08
0.80 ------
0.01 ------
Log.F.V.
-200.3
-210.3
a) ¿Qué se trata de explicar con este modelo?, ¿Qué significado tienen los parámetros estimados?, ¿Podemos decir que el modelo es significativo?. b) Comente, de manera breve, las características y/o diferencias del modelo probit respecto a otros modelos susceptibles de aplicarse a este tipo de datos. c) Teniendo en cuenta la siguiente información, f ( x I ' β ) = 0.2 , donde f es función de densidad evaluada en x, ¿podría calcular la tasa de discriminación laboral sufrida por las mujeres respecto a los hombres?.
4
13. Con los resultados de una encuesta de la Fundación FOESSA realizada en 1960, se
elabora un modelo logit para explicar la posesión o no de un autómovil en un colectivo de 2414 personas. Como variable explicativa se considera la autoasignación de los individuos a una clase social. Las clases son: alta, media alta, media, media baja y baja. Se obtienen los siguientes resultados:
= 1.22 − 1.68 D1i − 2.88 D2i − 4.17 D3i − 11.69 D4i (e.s.) (0.51) (0.52) (0.52) (0.52) (10.46) yˆ i
siendo, D1 (1=clase media alta), D 2 (1=clase media), D 3 (1=clase media baja) y D 4 (clase baja). Calcular la probabilidad que pronostica el modelo para la posesión de automóvil en cada una de las cinco clases. 14. En el análisis de los resultados de un plan de ocupación en donde la variable dependiente Y se le asigna el valor 1 cuando el individuo ha encontrado trabajo y 0, en
caso contrario; se especifica un modelo logit que incorpora, además de un término independiente, las siguientes variables explicativas: la edad del individuo (E t) y la experiencia profesional (EP t). Con este objetivo, se realiza una encuesta a 379 individuos, obteniendo la siguiente información: E=0,EP=0 E=0,EP=1 E=1,EP=0 E=1,EP=1 Total Respuestas Afirmativas (Y=1)
68
50
14
19
151
Total Respuestas
89
83
43
164
379
Donde: Et=1 para más de 40 años, y 0 para menos de 40 años. EP t=1 sin experiencia, y 0 con experiencia. Se pide: a) Si con los datos de la encuesta tuviera que estimar el modelo, escriba los elementos de la matriz de datos X y los del vector de la variable endógena del modelo necesarios para dicho fin. b) Una vez realizada la estimación por el método de máxima verosimilitud, se obtienen las siguientes estimaciones de los parámetros (entre paréntesis aparecen los errores estándar): ˆ0 β
= 1.30(0.22),
ˆ1 β
= −2.23(0.26),
ˆ2 β
= −0.98(0.26)
¿Cuál será la probabilidad estimada por el modelo de que encuentre trabajo un individuo menor de 40 años y sin experiencia?. 15. Se quiere estudiar si los clientes de un banco utilizan o no los cajeros automáticos. El
estudio se hace para una muestra de 100 individuos. Se pide: a) Proponer un modelo logit que estudia esta relación en función de si los clientes tienen más o menos de 35 años, de si su nivel de ingresos anuales es superior o no a 1.750.000 ptas y del nivel de movilidad del cliente. ( NOTA: Se considera que un cliente es móvil si en el periodo de 10 años ha vivido como mínimo en tres ciudades). 5
Definir las variables de manera que la categoría base sea un individuo de menos de 35 años, no móvil y con un nivel de ingresos menor a 1.750.000. b) Comenta los problemas de la estimación por MCO de este modelo y las posibles soluciones. c) La estimación por máxima verosimilitud proporciona los siguientes resultados: Parámetros
t
Constante Años Ingresos Movilidad
-0.880 -0.882 1.216 1.129
TEST RV
χ2=18.915
-1.733 -1.621 2.468 2.223
1) Interpreta los resultados. 2) ¿Cuál es el aumento de probabilidad asociado a la edad? (se conoce que 47 de los 100 individuos utilizarán los cajeros). 3) ¿Cuál es la probabilidad de que un individuo de 28 años, con un nivel de ingresos anual de 2.600.000 y no móvil, utilice los cajeros automáticos?. 16. Retomando el ejercicio 1. Si la renta bruta anual fuese de 3 millones de pesetas y la
edad del asegurado de 30 años, entonces, ¿cuál es la respuesta correcta?: a) ¿Es la probabilidad de poseer un seguro igual al 79% y la varianza de la perturbación en el modelo transformado bajo heterocedasticidad para este individuo es igual a la unidad?. b) ¿Es el incremento de probabilidad igual a 0.07 cuando aumentan en mil pesetas las renta de los individuos?. c) ¿Es la probabilidad de no poseer un seguro igual al 21% y la varianza de la perturbación en el modelo de probabilidad transformado igual a 0.1659?. 17. Para explicar la elección del tipo de centro (privado o público) en el ámbito de la
enseñanza universitaria, se ha estimado por MCO un modelo de regresión utilizando como variable dependiente a CENTRO (=1, privado). Por otro lado, las variables explicativas empleadas son: EDUCP (=1 si el cabeza de familia tiene estudios universitarios) y, además, cuatro categorías de renta definidas por las siguientes variables ficticias: RENTA1 (=1, renta familiar < 1000), RENTA2 (=1, renta familiar entre 1000-1500), RENTA3 (=1, renta familiar entre 1500-2000), RENTA4 (=1, renta familiar entre 2000-3000). La renta familiar está expresada en miles de pesetas y se toma como categoría base las rentas familiares superiores a 3000. a) ¿Qué diferencias sustanciales hay en la especificación y estimación de este modelo frente a un modelo no lineal?. b) ) Qué significado tiene un valor -0.0815 para el parámetro de la variable RENTA1?.
6
18. Con el fin de predecir la crisis de las compañías de seguros en Estados Unidos se
elaboraron distintos modelos logit utilizando diversos ratios considerando que la empresa puede quebrar o no. Uno de estos modelos, relacionaba el ratio del inmovilizado sobre el neto patrimonial (X1), las inversiones en filiales sobre el neto patrimonial (X 2), y la variación de los ingresos procedentes de las operaciones (X 3). Los resultados más simples obtenidos determinan que el índice estimado es igual a: ˆi Z
= 0.0040 X 1i + 0.0312 X 2i + 0.4967 X 3i
conociéndose que el valor del logaritmo de verosimilitud del modelo sin restringir es 919 y el modelo restringido 900. Se pide: a) Verificar si el modelo es significativo globalmente. b) ¿Cuál es la probabilidad de que una empresa de seguros quiebre suponiendo los ratios entre el inmovilizado/neto patrimonial y las inversiones en filiales/neto patrimonial sean la unidad y la variación en los ingresos sea nula?. c) Suponga ahora, que se estima otro modelo logit añadiendo una nueva variable, que representa la variación en el ratio reservas/primas totales (X 4), tal que ˆi Z
= 0.0380 X 1i + 0.0240 X 2i + 0.5674 X 3i + 0.0382 X 4i
¿Cuál sería la probabilidad de que la empresa quiebre cuando el ratio de reservas es unitario, X1=1.5, X2=1 y X3=0?. 19.D emostrar que tanto en el modelo probit como logit, si denotamos por L 0 el valor de la
función de verosimilitud que se obtiene cuando sólo se estima una constante, restringiendo los demás coeficientes a cero, se tiene: ln L0 = N [ p ln p + (1 − p ) ln(1 − p )] donde p es la proporción de observaciones muestrales con Y i =1 . ¿Puede extenderse este resultado a otros modelos?. 20.S ea el siguiente modelo no lineal: y t
= α + β 1e β 2 x + u t t
Suponiendo normalidad en la distribución del término de perturbación del modelo, así como homocedasticidad y no autocorrelación, obtenga las expresiones analíticas de los algoritmos numéricos de optimización, tanto por MC como por MV, para: a) b) c) d)
Descenso más rápido. Newton-Raphson. Gauss-Newton. Scoring.
7
21. Sea un modelo de regresión truncada con truncación superior en el punto a
≠0.
Deduzca su función de verosimilitud. 22. Se ha estimado un modelo probit de elección de modo de transporte para ir al
trabajo (1=coche propio; 0= guagua). Las variables explicativas son sexo (1= hombre), con coeficiente estimado igual a 0.5 y edad, con coeficiente estimado igual a 0.03. La constante estimada es 0.2. Calcule la probabilidad estimada por el modelo de que una mujer de 60 años vaya a trabajar en su coche. 23. Sea un modelo de probabilidad lineal dicotómico con una sola variable explicativa X: Y i = α + β X i + U i . Demuestra que es heterocedástico, y calcula la expresión de las
varianzas de las perturbaciones. 24. Calcula la esperanza de la distribución de una variable X que es N(200, 120) y
censurada inferiormente en el punto a=200. 25. Formula la hipótesis de independencia de las alternativas irrelevantes en el contexto
de un modelo que incorpora dicha hipótesis. Pon un ejemplo para explicar intuitivamente dicha hipótesis e indica qué consecuencias tiene su incumplimiento. 26. Lee lo que sigue, que es un resumen extractado de un artículo, para contestar las
preguntas. Autores: Enrique García Pérez y Benjamín Manchado. Título: Un modelo econométrico del fraude académico en una universidad española Resumen: El fraude académico es un fenómeno que, en un futuro próximo, adquirirá
gran interés en España, debido a la implantación de los Reglamentos de Disciplina Académica en las Universidades. En el presente trabajo empírico se estudian los factores determinantes de las modalidades de fraude global y fraude específico en exámenes, mediante la estimación de modelos de elección discreta logit multinomiales, a partir de una muestra obtenida en la Facultad de Ciencias Económicas y Empresariales de una universidad española. La variable que desempeñó el papel de endógena (FRAUDE) podía tomar los siguientes valores: 0 si el alumno declaró que no cometió fraude, 1 si el alumno admitió defraudar en exámenes pero no en trabajos, 2 si declaró haber engañado sólo en trabajos, y 3 si respondió afirmativamente en ambas preguntas. El número de observaciones para cada categoría de la variable fue de 78, 87, 18 y 60, respectivamente. Mediante esta variable endógena, estudiamos aquellos factores que permiten discriminar entre no engañar (categoría 0), fraude específico (categorías 1 y 2) y generalizado (categoría 3). Las variables explicativas incluidas en las especificaciones que se propusieron trataron de aproximarse a los beneficios y costes esperados del comportamiento, elegido en cada caso por los alumnos, de fraude académico. Se podría distinguir, al igual que en Nowell y Laufer (1997), entre características individuales y de la clase de cada estudiante. Kerkvliet (1994), por su parte, emplea variables de rendimiento académico, hábitos personales y características socioeconómicas. 8
Las variables consideradas en el estudio son: -
-
-
VERENGEX es una variable dicotómica que toma el valor 1 si el alumno observó a algún otro alumno defraudando en un examen, durante el tiempo que llevaba en la Universidad, y 0 si no lo observó. COLECTIVO mide el número de alumnos que cada encuestado consideró que defraudaban habitualmente en un examen, en distintos intervalos que son 0-1, 2-5, 6-10, 11-15 y más de 15, tomando, por tanto, valores entre 1 y 5. En las encuestas de Bunn et al.( 1992) y Mixon (1996) se recoge esta variable en forma de porcentaje pero, en nuestro caso, se consideró más conveniente esta codificación. AMIGOS se usa para recoger, de alguna forma, el entorno de amistades del alumno. La respuesta se codificó como 1 si el alumno conocía a alguien que defraudase sistemáticamente en los exámenes y 0, caso de no conocerlo. SEVER responde a la pregunta sobre la severidad percibida en las sanciones impuestas por parte de la Universidad, en caso de detectarse el fraude académico. Se consideró cuantitativa en orden creciente de severidad, entre los valores 1 y 5. ESPONT recoge la importancia que las distintas situaciones contextuales tienen a la hora de producirse el fraude, ya fuera espontáneamente o por temor (valor 1), frente al hecho de actuar de manera premeditada, que se recoge con el valor 0. POSICION indica la influencia de la colocación física en el aula sobre el fraude tomando valor 1 si se respondió afirmativamente y 0, en caso contrario. La influencia de la colocación es una variable ampliamente señalada como influyente a la hora de analizar el fraude en el aula. PROBLEMA es dicotómica con valores 1 si el fraude no era percibido como un problema o era un problema leve, y 0 si era considerado un problema. SEXO recoge el sexo del encuestado, codificando 1 si era hombre y 0 si era mujer.
Responda a las siguientes cuestiones y diga si se cumple en los modelos estimados: a) La percepción de una baja probabilidad de ser sorprendido, ¿implicaría un menor coste esperado?. b) El número de alumnos que cada encuestado considera que defrauda, ¿debería estar positivamente correlacionada con el fraude, ya que un mayor número de estudiantes implicados supondría que la probabilidad de ser sorprendido sería baja y, de esta forma, los costes no serían muy altos?. c) Que el alumno conozca a alguien que defrauda en un examen, ¿influye de forma positiva a la hora de cometer el fraude en la Universidad?. d) ¿Es de suponer que, a una mayor severidad percibida, le correspondería un mayor coste esperado, por lo que debería estar correlacionada de forma negativa?. e) ¿Qué comportamiento espera de la variable ESPONT?. f) ¿POSICION tiene una influencia positiva o negativa?. g) ¿Se puede considerar que a menor conciencia moral del alumno (lo que significaría un valor de PROBLEMA=1), la propensión a defraudar sería mayor, por lo que esta variable debería estar positivamente correlacionada con el fraude?. h) ¿Existen diferencias significativas entre los hombres y las mujeres?. ¡Cuantifíquelo!. Los modelos econométricos que se emplearon para el análisis de los datos fueron de los denominados modelos de elección discreta, concretamente, modelos logit multinomiales. Los resultados de la estimación de los modelos logit multinomiales para FRAUDE son:
9
CONSTANTE 1 AMIGOS 1 VERENGEX 1 COLECTIVO 1
1
2
3
4
5
-2,8630* (3,682) 0,3733 (0,975) 1,5398* (2,232) 0,5004* (2,921)
-2,5341* (2,203) 0,3822 (0,903) 1,8674* (2,232) 0,4448* (2,400) -0,3633** (1,932) 0,7508 (1,636)
-2,4528* (2,074) 0,3764 (0,864) 1,9655* (2,306) 0,4360* (2,285) -0,4174* (2,063) 0,8866** (1,888) -0,0079 (0,019)
-2,5955* (2,120) 0,3763 (0,861) 1,9866* (2,333) 0,4096* (2,110) -0,4361* (2,114) 0,9177** (1,940) -0,0089 (0,022) 0,2926 (0,516) ----
-2,6945** (1,796) 0,5822 (1,201) 2,7467* (2,401) 0,2768 (1,339) -0,4449** (1,931) 0,6835 (1,325) -0,5761 (1,273) 0,2736 (0,457) 0,2146 (0,461)
-12,426 (0,092) -0,2404 (0,346) 10,949 (0,081) 0,1503 (0,483) -0,1864 (0,554) -0,0772 (0,114) 0,6304 (0,921) 0,2299 (0,254)
-13,451 (0,093) 0,0064 (0,008) 10,704 (0,074) 0,2142 (0,625) -0,0979 (0,240) -0,1242 (0,165) 1,0165 (1,160) 0,6821 (0,583) -0,3490 (0,453)
SEVER 1
---
PROBLEMA 1
---
SEXO 1
---
POSICION 1
---
___
ESPONT 1
---
-----
-----
-13,624 (0,068) 0,1112 (0,173) 11,866 (0,059) 0,1446 (0,494) ---
-12,105 (0,090) -0,1901 (0,276) 10,968 (0,082) 0,1019 (0,338) -0,0752 (0,234) -0,1923 (0,290)
-12,301 (0,091) -0,2328 (0,335) 10,920 (0,081) 0,1707 (0,562) -0,1724 (0,516) -0,1007 (0,151) 0,6287 (0,919)
CONSTANTE 2 AMIGOS 2 VERENGEX 2 COLECTIVO 2 SEVER 2
___
___
PROBLEMA 2
----
SEXO 2
---
___
POSICION 2
---
___
ESPONT 2
---
----
----
-4,5128* (3,733) 1,2867* (2,875) 1,9376** (1,756) 0,5720* (2,950)
-5,5000* (3,553) 1,2667* (2,630) 2,0732** (1,807) 0,5533* (2,672) -0,2618 (1,224) 2,1469* (3,313)
-5,1343* (3,227) 1,2721* (2,506) 2,3030* (1,962) 0,4853* (2,245) -0,2636 (1,119) 2,2066* (3,316) -0,8960** (1,858)
CONSTANTE 3 AMIGOS 3 VERENGEX 3 COLECTIVO 3
___
SEVER 3
----
PROBLEMA 3
----
SEXO 3
---
__
POSICION 3
---
___
ESPONT 3
---
___
___
52,9518 (9)* 215 47,44%
59,8239 (15)* 187 49,20%
62,4953 (18)* 177 49,72%
CHI-CUADRADO (G.L.) Nº OBSERVACIONES % DE CLASIFICADOS CORRECTAMENTE
___
---
-6,0046* (3,456) 1,2121* (2,370) 2,3597* (2,005) 0,4209** (1,904) -0,3072 (1,275) 2,2454* (3,375) -0,8724** (1,800) 1,3078 (1,510)
-6,2749* (3,352) 1,4919* (2,631) 2,2295** (1,799) 0,4575* (1,964) -0,2480 (0,947) 1,8553* (2,669) -1,0986* (2,099) 1,1850 (1,330) 0,8445 (1,576)
65,2330 (21)* 177 49,15%
65,2276 (24)* 154 49,35%
_____
Notas: Entre paréntesis aparecen los t-valores asintóticos en valor absoluto. Los coeficientes han sido normalizados para el valor de FRAUDE=0. * Indica significación al 5%. ** Indica significación al 10%.
10
27. Defina la función de razón de fallo e indique para qué se usa. ¿Cómo es la función
de razón de fallo en el caso de una distribución exponencial?. ¿Qué significa?. 28. Diferencia entre un modelo logit multinomial y un modelo logit condicional de
McFadden. 29. Para el modelo logit multinomial, deduzca la expresión del efecto marginal de un cambio en la variables explicativa xk sobre la probabilidad de elección de la alternativa
j, de entre las J del conjunto de elección. 30. ¿Qué es truncación incidental (llamada también truncamiento selectivo?. Defínala y
ponga un ejemplo. 31. En un modelo logit multinomial no ordenado, hay tres alternativas (A, B y C),
actuando la tercera como categoría de referencia. Se ha estimado el modelo por máxima verosimilitud, con los resultados siguientes:
⎛ P A ⎞ ⎟⎟ = −0.5 − 0.8 x1 + 0.2 x2 ⎝ PC ⎠ ⎛ P ⎞ Ln⎜⎜ B ⎟⎟ = −0.2 + 1.3 x1 − 0.26 x2 ⎝ PC ⎠ Ln⎜⎜
Un conocido tuyo tiene x1 = 4 y x2 = 20 . Estima las probabilidades que, según el modelo, tiene de elegir A, B y C. 32. ¿Cuál es el modelo probabilístico que especifica una razón de fallo
constante?…………………..…………. . Para dicho modelo, aplicado a la duración de la carrera de Económicas, se tiene que la duración media estimada de la carrera es 5,2 años. Calcula el valor estimado de la función de supervivencia para t=4 años e interpreta el resultado. 32. Se ha estimado un modelo probit de elección de modo de transporte para ir al
trabajo (1=coche propio; 0= guagua). Las variables explicativas son sexo (1= hombre), con coeficiente estimado igual a 0.5 y edad, con coeficiente estimado igual a 0.03. La constante estimada es 0.2. Calcule la probabilidad estimada por el modelo de que un hombre de 47 años vaya a trabajar en guagua. 33. Escribe la función de verosimilitud de un modelo tobit de regresión censurada con
censuración doble, inferior en a 1y superior en a 2. 34. Con datos de una muestra de familias españolas (renta; número de miembros que
trabajan; habitat rural o urbano) queremos estimar la demanda de vivienda: gasto en compra de vivienda. Especifique los posibles modelos que podría utilizar y discuta las propiedades de unos y otros, indicando cuál prefiere y por qué. 35.H emos estimado un modelo logit binomial por MV, con los siguientes resultados: Variable
Coeficiente
Error Estándar
11
Datos del Individuo i
Constante X1 X2
0.6 -0.46 0.72
0.63 0.104 0.032
5 4
Calcula el efecto marginal de X1 sobre la probabilidad de que el individuo i elija la alternativa 1 (Y=1). 36. Sea la siguiente muestra de N=425 votantes. La variable dependiente representa el
voto en un referendum sobre un nuevo impuesto específico sobre la enseñanza pública (Y=1 =Si, Y=O= NO). La lista de variables independientes y resultados de la estimación logit son: VARIABLE
CONSTANTE SEXO CASADO OTRO E35-49 E50-64 E65 PUB1 PUB2 PUB3 PUB4 PUB5 PRIV MAESTRO AÑOS LRENTA LPRECIO
Definición (para las variables dummy, categoría =1)
mujer casado con esposo/a conviviente separado, viudo, divorciado edad entre 35 y 49 años edad entre 50 y 64 años mas de 65 años 1 hijo estudiando en la escuela pública 2 hijos estudiando en la escuela pública 3 hijos estudiando en la escuela pública 4 hijos estudiando en la escuela pública 5 o más hijos estudiando en la escuela pública 1 o mas hijos estudiando en la escuela privada si es maestro en escuela pública o privada Número de años que lleva viviendo en la región LOG.(renta familiar anual en $) LOG(precio de la enseñanza pública en $)
Coeficiente Error estándar
-23.15(*) 0.24 1.13 1.09 0.08 0.61 1.04 1.44(*) 1.39(*) 1.3(*) 2.0(*) 2.16(*) -0.56 3.07(*) -0.02(*) 2.14(*) -1.21(*)
3.84 0.24 1.13 1.47 0.3 0.41 0.79 0.34 0.35 0.42 0.58 0.79 0.42 0.84 0.01 0.37 0.44
La ecuación está estimada por MV (errores estándar asintóticos entre paréntesis, un * indica coeficiente significativo al 5%): a) Calcula el "score" o "logit" estimado de un hombre, no maestro, divorciado de 40 años con sus 6 hijos en una escuela pública gratuita que se ha mudado a la región este mismo año y tiene una renta de 10.000$. Calcula su probabilidad estimada de votar Si. b) Ahora repite los cálculos si ese hombre no tuviera hijos. ¡Compara los resultados!. c) ¿Y si no tuviera hijos y fuera maestro de escuela?. d) Calcula el "riesgo relativo" de votar Si de los maestros respecto a los no maestros. Interprétalo. (Riesgo relativo = cociente entre los odd-ratios de ambas categorías). e) Interpreta el coeficiente de los años de residencia. f) Si no estuvieran en el modelo las tres variables continuas, ¿cómo se podría estimar?. 37. Tenemos los siguientes datos agrupados referidos a una muestra de 1000 empresas.
Suponemos que la probabilidad de “éxito” depende de X según un modelo logit. X es una variable controlable por la empresa.
12
Número de grupo
X
Proporción muestral de éxitos en el grupo
1 2 3 4 5 6 7 8 9 10
160 250 170 365 210 206 203 305 270 340
11 74 8 87 62 83 48 84 71 79
Se pide: a) Si una empresa quiere alcanzar el éxito el 95% de las veces, ¿qué valor debe fijar para X?. b) Si cada unidad de X cuesta 20000 ptas., ¿puede esperar la empresa que alcanzará su objetivo con un presupuesto de 8 millones de ptas.?. c) Según el modelo estimado, ¿cuál es el valor marginal de la unidad 301 de X, en términos del aumento de la probabilidad de éxito?. 38.P on un ejemplo de modelo de respuesta cualitativa:
Binomial :…… Multinomial no ordenado:………. Multinomial ordenado:………. De decisión secuencial anidado:…….. NOTA: Se trata de definir su variable dependiente y dar una idea de las variables independientes que podrían intervenir
39. Demuestra que en el modelo logit estimado por MV la suma de las probabilidades
estimadas por el modelo (para los n individuos de la muestra) es el número de individuos con Y=1. 40.O btén el estimador MV del MLP binomial. 41. Hemos empleado modelos binomiales de elección discreta para estimar la
probabilidad de la mujer casada de participar en el mercado laboral (Yi=1, SI trabaja; Yi=0, NO trabaja). La muestra contiene 753 mujeres, de las cuales trabajan 428. Las variables explicativas son la experiencia laboral en años, el nivel educativo en años y el número de hijos. Los coeficientes estimados aparecen en la tabla siguiente. Considera a la mujer i, sin hijos, que ha estudiado 10 años y tiene una experiencia laboral de 1 año y a la mujer media, y rellena la tabla . COEFICIENTES DE LOS MODELOS (BETA)
13
CONSTANTE HIJOS EDUCAC EXPERI
MLP
PROBIT
LOGIT
MEDIA MUESTRAL
-0.084 -0.167 0.04 0.018
-1.763 -0.486 0.122 0.055
-2.946 -0.788 0.201 0.096
0.24 12.3 10.6
Probabilidad de trabajar estimada MODEL O
Mujer i
Mujer media
MLP PROBIT LOGIT
Efecto marginal sobre la prob de un año más de estudios Mujer i Mujer media
XXXXXXX
XXXXXXX
Además, conocemos las probabilidades de trabajar estimadas: 0.3015, 0.3128, 0.334, 0.5587, 0.5808, 0.5878. Y, los efectos marginales sobre las probabilidades de trabajar son: 0.04, 0.0423, 0.0487. 42. La truncación, ¿hace que la varianza aumente o disminuya?. Discuta la pregunta. 43. Sea una variable Z distribuida N ( ,σ ) . Se sabe que la esperanza truncada con
truncación inferior en el punto a=25 es igual a 6.85. El grado de truncación es del 90%. Calcular y σ . 44. Si tenemos una muestra censurada, ¿qué crees que es mejor y por qué, estimar un
modelo de regresión truncado o un modelo tobit censurado?. Discuta la pregunta. 45. Una empresa de seguros encuentra que la probabilidad de poseer un seguro de hogar
frente a no poseerlo, puede escribirse mediante una relación lineal definida por el siguiente modelo: sˆi
= 0.07 + 0.0002 y i + 0.004 E i
donde, si es una variable dicotómica que vale uno si el individuo i-ésimo posee un seguro y cero en caso de no poseerlo; y i es la renta en miles de pesetas y E i es la edad del asegurado. Si la renta bruta anual fuese de 3 millones de pesetas y la edad del asegurado de 30 años, entonces: a) ¿Cuál es la probabilidad de poseer un seguro?. b) ¿Cuál es el incremento de probabilidad, si la renta de dicho individuo aumentase en 100.000 pesetas?. 46. Se ha estudiado la posibilidad de que el hecho de que una familia tenga la vivienda
en propiedad o no (Y) dependa de variables como los ingresos (INGRESOS) de los individuos (en miles de pesetas mensuales); si trabaja (TRABFIJO), que es una variable dicotómica que toma el valor uno si el cabeza de familia trabaja y cero en caso contrario; el sexo (SEXO), que también es dicotómica, tomando valor 1 si es hombre y cero si es mujer; y la edad (EDAD), que representa la edad del cabeza de familia. El siguiente cuadro recoge los valores de dichas variables para dos individuos elegidos al azar de la muestra.
14
i
Y
Sexo
Edad
Ingresos
Trabfijo
9 18
1 0
1 0
39 46
250 80
0 0
Además, se conocen los siguientes resultados de la estimación de un modelo logit y probit: Variables
Logit
Probit
Constante Sexo Edad Ingresos Trabfijo
-4.73 0.16 0.01 1.94 0.02
-2.66 0.16 0.004 1.13 0.015
Se pide: d) Calcular las probabilidad de tener vivienda en propiedad en los dos modelos y para los dos individuos. e) Calcular los ODDS de cada individuo, para cada modelo. f) Calcular los efectos marginales para el individuo 9 en el modelo logit; y para el individuo 18 en el modelo probit. 47.R ealizar un breve comparación entre los algoritmos Scoringy Descenso Rápido. 48.S ea el siguiente modelo de ecuaciones simultáneas: y1t = γ 21 y2t + β 11 x1t + β 21 x2t + u1t y2 t = γ 12 y1t + β 22 x2 t + u2t
cuya matriz de momentos (es desviaciones respecto a la media) es: y1 y2 x1 x2
y1
y2
x1
x2
12 6 3 0
6 16 2 4
3 2 4 0
0 4 0 1
Se pide: a) Indentificar el sistema sin restricciones y estimar adecuadamente los parámetros de la segunda ecuación del sistema. b) Identificar el sistema considerando la restricción: β 11 = β 21 y estimar los coeficientes de la primera ecuación considerando dicha restricción. 49. Se ha relacionado el logaritmo del índice Financial Times (FT) con el logaritmo del
índice Dow Jones (DJ), y obtenido los siguientes resutados por MCO: Estimación de la ecuación Dependent Variable: LOG(FT)
Included observations: 153 Variable C
Coefficient
Std. Error
t-Statistic
Prob.
1 .09 89 82
0 .0 36 14 1
3 0. 40 81 6
0 .0 00 0
15
LOG(DJ)
0.754361
R-squared Adjusted R-squared S.E. of regression Sum squared resid
0.984697 0.984596 0.049031 0.363006
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion
0.007653
98.57209
Log likelihood Durbin-Watson stat
245.2512 0.444218
F-statistic Prob(F-statistic)
0.0000 4.639985 0.395047 -3.179754 -3.140140 9716.456 0.000000
Test de raíz unitaria para el residuo de la regresión PP Test Statistic
-4.423605
1% 5% 10%
-3.4743* -2.8805 -2.5768
*MacKinnon critical values for rejection of hypothesis of a unit root.
Se pide: a) Especifique, si existe, el vector de cointegración; así como el orden de cointegración de las variables. b) Valorar la existencia de contegración entre los dos índices, en los tres niveles críticos de Engle y Granger, que son: 1%0 .511, 5%0 .386 y 10%0 .322. 50. En el modelo TOBIT: yi*
= xi' β + ui , cuando existe censura superior o inferior en ∂ E [ yi / xi , yi* < 0] ∂ E [ y i / xi , y i* > 0] cero, ¿A qué será igual el valor obtenido para y ?. ∂ xi ∂ xi 51. Derivar la función de verosimilitud * * * 2 yi = µ + ε i ; yi = yi si yi > 0 ; ε i ~ N (0,σ ) y el
para el modelo: correspondiente a * * * 2 y i = µ + ε i ; y i = y i si y i < 0 ; ε i ~ N (0, σ ) . Además, obtenga las expresiones del vector gradiente para ambos. 52. Un banco pretende caracterizar las empresas que cumplen puntualmente todos los
plazos de devolución de los créditos que reciben. Tras crear una variable Y i, que toma valor 1 cuando las empresas cumplieron dichos compromisos y cero en caso contrario, se estimaron los siguientes modelos: Y i
ln
= 0.069 − 0.018 x1i + 0.049 x 2i + 0.057 x3i p i
1 − pi
= −1.66 − 0.32 x1i + 0.62 x 2i − 0.90 x3i
donde x1i es el ratio (en porcentaje) entre el valor nominal de la deuda viva de la empresa y el valor total del activo; x 2i es el ratio (en porcentaje) entre los beneficios después de impuestos y el valor total del activo; y x 3i es el valor del activo (como indicador del tamaño de la empresa). Se pide: a) ¿Qué modelos han sido estimados?. b) Interprétense los coeficientes estimados en ambos modelos. c) Suponga que el individuo i-ésimo posee los siguienets valores de las variables: x1i = 9.7% , x 2i = 7.8% , x3i = 0.6 . Calcule la probabilidad de que se
16
incumplan los compromisos en ambos modelos. Además, Obtenga los efectos marginales. 53. Realícese una comparación entre los algoritmos "Descenso Rápido" y " Gauss Newton". 54. Atendiendo al enunciado del ejercicio 49, se han obtenido los siguientes resultados,
aplicando el método bietápico de Engle y Granger. Dependent Variable: DLOG(FTSE100) Sample(adjusted): 1988M08 2000M03 Included observations: 140 after adjusting endpoints Variable
Coefficient
DLOG(FT(-1)) DLOG(DJ(-1)) DLOG(FT(-2)) DLOG(DJ(-2)) DLOG(FT(-12)) DLOG(DJ(-12)) RESID01(-1)
0.162826 -0.099776 -0.163138 0.093377 -0.041340 0.043033 -0.205430
R-squared Durbin-Watson
0.83430 2.011624
t-Statistic 1.990719 -2.778151 -3.287065 2.706378 -2.365320 2.350196 -2.488271
Se pide a) ¿Qué tipo de modelo ha sido estimado?. b) Escriba la ecuación estimada y valore la posible existencia de una relación de equilibrio a largo plazo. 55.U tilizando el siguiente sistema de ecuaciones: y1t + γ 21 y 2 t + β 11 xt + u1t
=0
γ 12 y1t + y 2t + β 12 xt + u 2t
=0
Se pide: a) Identificar el sistema de ecuaciones, si β 11 = β 12 = β , γ 12 = 0 . b) Identificar el sistema de ecuaciones, si β 11 = β 12 = β , γ 21 = 2 .
56.S ea el siguiente sistema de ecuaciones simultáneas: y1t
= β 11 x1t + β 21 x 2t + u1t
y 2 t
= β 12 x1t + β 22 x2t + u 2t
17
en el que E [u1t ] = E [u 2t ] = 0 , var (u1t ) = σ 12 , var (u 2t ) = σ 22 , cov(u1t , u 2t ) = 0 , y cuya matriz de momentos (en desviaciones respecto a la media) es: y1 y2 x1 x2
y1
y2
x1
x2
120
80 90
20 25 10
45 30 5 20
Se pide: a) Estímense los parámetros del sistema de ecuaciones de forma eficiente. b) Manteniendo iguales las hipótesis iniciales, pero suponiendo que σ 12 = σ 22 , ¿Cuál sería la expresión del estimador del sistema de ecuaciones?. c) Manteniendo iguales las hipótesis iniciales, pero suponiendo que cov(u1t , u 2t ) = σ 12 , ¿Cuál sería la expresión del estimador para el sistema de ecuaciones?. 57.
Suponemos que la demanda de entradas a los conciertos (VENTAS) que se celebran en una ciudad depende del precio (PRECIO), de las condiciones meteorológicas (METEO), que pueden ser favorables (0) o desfavorables (1) y del renombre del grupo que actúa, medido en una escala de 1 a 5 (RATING). Los conciertos se celebran en un recinto que tiene capacidad para 23.000 espectadores. Se ha estimado el modelo y los resultados son: +---------------------------------------------+ | Limited Dependent Variable Model - CENSORED | | Maximum Likelihood Estimates | | Dependent variable VENTAS | | Weighting variable ONE | | Number of observations 90 | | Iterations completed 6 | | Log likelihood function -522.4057 | | Threshold values for the model: | | Lower=-infinity Upper=23000.0000 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Primary Index Equation for Model Constant 29588.03508 590.39079 50.116 .0000 PRECIO -4.879326375 .16399481 -29.753 .0000 2952.8667 RATING 1940.032493 122.51143 15.836 .0000 3.1555556 METEO -4513.019466 268.57781 -16.803 .0000 .18888889 Disturbance standard deviation Sigma 923.1196055 81.283308 11.357 .0000
Se pide: a) Calcular los efectos marginales evaluados en la media de las variables. b) Si un grupo posee un rating igual a 5, y actúa en un día con meteorología favorable y un fan paga un precio de 5000 ptas, ¿cuáles son las predicciones de la ventas considerando la censura?. 58. Suponga que una variable no observable, y i* , se encuentra censurada entre dos puntos a y b, siendo a
censurada en ambos lados?.
18
59. Se tiene la siguiente tabla de resultados para el modelo de regresión: LPVPi
= β 1 + β 2 CC i + β 3 POTECIAi + β 4 PLAZAS i + β 5 CONSURBi + u i ,
donde LPVP=(logaritmo del precio de venta al público), CONSURB=(consumo urbano de gasolina), PLAZAS=(número de plazas), POTENCIA=(potencia) y CC=(centímetros cúbicos del motor). +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Li mi t ed Dependent Vari abl e Model - TRUNCATE | | Maxi mumLi kel i hood Esti mates | | Dependent var i abl e LPVP | | Wei ght i ng var i abl e ONE | | Number of obser vat i ons 89 | | I t erati ons compl et ed 4 | | Log l i kel i hood f uncti on 10. 36396 | | Thr eshol d val ues f or t he model : | | Lower= 14. 7710 Upper =+i nfi ni t y | | Observat i ons aft er t r uncat i on 89 | +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + | Vari abl e | Coef f i ci ent | St andard Err or | b/ St . Er. | P[ | Z| >z] | Mean of X| +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + Pri mary I ndex Equat i on f or Model Const ant 13. 99540073 . 23644489 59. 191 . 0000 . CC . 2469698762E- 03 . 70523122E- 04 3. 502 . 0005 2798. 2135 POTENCI A . 6146523460E- 02 . 15073046E- 02 4. 078 . 0000 130. 57303 PLAZAS . 5854436861E- 01 . 26134858E- 01 2. 240 . 0251 5. 4494382 CONSURB - . 4132447336E- 01 . 17188130E- 01 - 2. 404 . 0162 13. 296629 Di st ur bance st andar d devi ati on Si gma . 2557355692 . 24599767E- 01 10. 396 . 0000 .
Se pide: a) Obtén el valor del ratioi nverso de Mills para el individuo medio. b) Calcula el efecto marginal evaluado en la media para la variable PLAZAS. c) ¿A qué consideras es igual la varianza de la variable LPVP?. Calcula su valor. 60. En un modelo logit multinomial no ordenado, que determina los perfiles
diferenciados de los fumadores, los exfumadores y los que nunca han fumado, se dispone de información acerca de las variables: FUMA (=0 si fuma ; =1 si exfumador; =2 si nunca ha fumado); ALCOHOL (=1 si ha bebido en la última semana; 0 en otro caso); EDAD = Edad en años cumplidos y SEXO (variable ficticia =1 hombre; 0 mujer). +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Mul t i nomi al Logi t Model | | Maxi mumLi kel i hood Esti mates | | Dependent vari abl e FUMA | | Number of obser vat i ons 6161 | | I t erati ons compl et ed 6 | | Log l i kel i hood f uncti on - 5312. 833 | | Restr i cted l og l i kel i hood - 6156. 510 | +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +- - - - - - - - +- - - - - - - - - - - - - +- - - - - - - - - - - - - - - +- - - - - - - +- - - - - - - - +- - - - - - - - - - + | Vari abl e| Coef f i ci ent | St andard Err or| b/ St . Er. | P[ | Z| >z]| Mean of X| +- - - - - - - - +- - - - - - - - - - - - - +- - - - - - - - - - - - - - - +- - - - - - - +- - - - - - - - +- - - - - - - - - - + Characteristics in numerator of Prob[Y = 1]
Const ant - 3. 640533526 SEXO . 6886612269 EDAD . 4619101884E- 01 ALCOHOL - . 4462521624
. 19250329 . 98854654E- 01 . 25459570E- 02 . 90439443E- 01
- 18. 912 6. 966 18. 143 - 4. 934
. 0000 . . 0000 . 48401234 . 0000 43. 751826 . 0000 . 52410323
Characteristics in numerator of Prob[Y = 2]
Const ant - . 7178729803 SEXO - 1. 084755046 EDAD . 3373685387E- 01 ALCOHOL - . 8573745420
. 12564652 . 67757546E- 01 . 18930611E- 02 . 64989954E- 01
Se pide: 19
- 5. 713 - 16. 009 17. 821 - 13. 192
. 0000 . 0000 . 0000 . 0000
. . 48401234 43. 751826 . 52410323
a) Evaluar la significación conjunta del modelo. b) Estimar las probabilidades, para el individuo medio de la muestra, de ser fumador, exfumador y nunca haber fumado. c) Disponiendo de la siguiente información, evalúe las predicciones del modelo: Fr equenci es of actual & predi ct ed out comes Predi ct ed out come has maxi mumpr obabi l i t y. -----Act ual -----0 1 2 ----- Tot al
Predi cted --------------0 1 2 --------------1391 51 836 342 102 452 793 38 2156 --------------2526 191 3444
+ | + | | | + |
----Tot al ----2278 896 2987 ----6161
d) Considerando el siguiente vector de variables explicativas para el i-ésimo individuo: xi' = [1 1 36 1] , ¿cuál será el odd de ser exfumador y de no haber fumado nunca?. Interprételo. 61. Se dispone de información sobre: LPRECIO = logaritmo del precio de mercado de la vivienda habitual en propiedad en 1998. PROPIE = 1 si la familia es propietaria de la vivienda; 0 en caso contrario. TRABFIJO = 1 si el cabeza de familia tiene trabajo fijo; 0 en caso contrario. SEXO = 1 si el cabeza de familia es hombre 0 en caso contrario. EDAD = edad del cabeza de familia en años. HIJOS = nº de hijos que conviven con la familia. INGRESO = ingresos familiares mensuales en 1997 (ingresos anuales / 12). EDUCA = años de educación del cabeza de familia. MOVIL = número de años que
llevan viviendo en la ciudad actual. Se estima un modelo de selección muestral, obteniéndose los resultados siguientes: +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Sampl e Sel ecti on Model | | Probi t sel ect i on equat i on based on PROPI E | | Sel ect i on rul e i s: Obser vat i ons wi t h PROPI E = 1 | | Res ul t s of s el ec t i on: | | Data poi nts Sumof wei ght s | | Dat a set 1123 1123. 0 | | Sel ected sampl e 697 697. 0 | +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Sampl e Sel ecti on Model | | Two st age l east squares r egr essi on Wei ght i ng var i abl e = none | | Dep. var . = LPRECI O Mean= 16. 18272434 , S. D. = . 8333333897 | | Model si ze: Observat i ons = 697, Parameters = 9, Deg. Fr. = 688 | | Resi dual s: Sum of squares= 290. 2310590 , Std. Dev. = . 64950 | | Fi t : R- squar ed= . 391667, Adj ust ed R- squared = . 38459 | | ( Note: Not usi ng OLS. R-s quared i s not bounded i n [ 0, 1] | | Model t est: F[ 8, 688] = 55. 37, Prob val ue = . 00000 | | Di agnost i c: Log- L = - 683. 6765, Rest r i cted( b=0) Log- L = - 861. 4217 | | LogAmemi yaPr Cr t . = -. 850, Akai ke I nf o. Cr t . = 1. 988 | | St andard err or corr ected f or sel ecti on. . . . . . 68767 | +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + | Vari abl e | Coef f i ci ent | St andard Err or | b/ St . Er. | P[ | Z| >z] | Mean of X| +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + Const ant 1. 753797810 1. 3912725 ** ** * TRABFI J O . 4356437681 . 68409420E- 01 ** ** * . 73027260 SEXO - . 5062113124E- 01 . 66550751E- 01 ** ** * . 83500717 EDAD . 8875735718E- 02 . 24876340E- 02 ** ** * 41. 364419 HI J OS - . 7482653581E- 01 . 18528622E- 01 ** ** * 1. 8952654 EDUCA . 2583800339E- 01 . 95730846E- 02 ** ** * 13. 298422 MOVI L . 1485053775E- 02 . 21997061E- 02 ** ** * 35. 981349 LI NGRESO 1. 029119343 . 10064208 ** ** * 13. 015925 LAMBDA . 4532492445 . 15652247 * **** . 29951337
Se pide:
20
a) Comente brevemente el método de estimación de Heckman. ¿Porqué se aplica en este caso? y ¿Qué ratio inverso de Mills utilizaría en este modelo?. b) Evalúe la significación de los coeficientes estimados. ¿Cuál es la interpretación del parámetro de la variable SEXO y EDAD?. c) ¿A qué es igual la estimación de ρ ˆ ?. Por lo tanto, ¿cree usted que debería aplicarse el modelo Tobit?. d) ¿Cuál es el precio medio de mercado de la vivienda habitual en propiedad en 1998?. 62. Considere el siguiente sistema de ecuaciones simultáneas: y1t + γ 31 y3t + β 11 x1t + u1t = 0 y 2t + γ 32 y 3t + γ 42 y 4t + β 12 x1t + β 22 x2t + β 32 x3t + u 2t = 0
γ 13 y1t + γ 23 y 2t + y3t + β 23 x 2t + β 33 x3t + u 3t = 0 γ 14 y1t + γ 24 y 2t + y 4t + β 14 x1t + u 4t = 0
Se pide: a) Analizar la identificación del sistema. b) Analizar la identificación del modelo considerando la siguiente restricción: 2γ 13 − 3γ 23 + 4 β 23 = 0 . 63. Defina la función de razón de fallo e indique para qué se usa. ¿Cómo es la función
de razón de fallo en el caso de una distribución exponencial?. ¿Cuál es su significado en este caso?. 64. Se tiene el siguiente modelo no lineal simple: y t = e β 1 xt + u t . Utilizando los mínimos cuadrados no lineales, escriba los elementos del algoritmo de Newton-Raphson para la
primera iteración. 65. Demuestre que en el modelo logit binomial para N individuos, donde yi es una variable endógena que toma valor 0 o 1, y la función índice es igual a I i = xi′ β (siendo xi′ un vector fila que contiene las características del i-ésimo individuo y β un vector de
parámetros desconocidos), la función de verosimilitud puede escribirse como: ∑=1 y ( x′ β ) N L = e ∏ [1 + e x′β ]. N
i
i
i
i
i =1
66. Suponga que existe censura superior e inferior en los puntos a y b. Construya, bajo
el supuesto de normalidad, el logaritmo de verosimilitud que permita, mediante su maximización, la estimación de los parámetros en el modelo yi* = xi′β + ui . 67. A partir de la siguiente información sobre el número de visitas al médico en las últimas dos semanas ( DVISITS), el sexo de las personas que han sido encuestadas (SEXO = 1 si es mujer y cero si es hombre), la edad del individuo en número años divididos por 100 ( EDAD), la edad al cuadrado ( EDAD2), la renta anual en miles de pesetas (RENTA), si posee un seguro público ( SPUB = 1 si posee seguro público y cero en caso contrario), y si está jubilado ( JUBIL = 1 si está jubilado y cero en caso
contrario).
21
Los resultados de la estimación máximo verosímil son: +---------------------------------------------+ | Poisson Regression | | Maximum Likelihood Estimates | | Dependent variable DVISITS | | Weighting variable ONE | | Number of observations 1000 | | Iterations completed 7 | | Log likelihood function -973.6213 | | Restricted log likelihood -1178.649 | | Chi-squared 410.0552 | | Degrees of freedom 6 | | Significance level .0000000 | | Chi- squared = 551.23707 RsqP= .4429 | | G - squared = 699.07657 RsqD= .3697 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Constant -.7900618450 .11221447 -7.041 .0000 SEXO .2182756364E-01 .71371673E-01 .306 .7597 .48300000 EDAD .9496278280 .33929493 2.799 .0051 .41413000 EDAD2 .4508287253E-01 .43719734E-01 1.031 .3025 .26519850 RENTA .1594314240E-03 .24396592E-04 6.535 .0000 1442.4560 SPUB -.6376025892 .10604556 -6.013 .0000 .79700000 JUBIL 1.096445780 .20492877 5.350 .0000 .19700000
Evaluando los resultados en la media, se pide: a) ¿Cuál es el valor medio del número de visitas al médico en las últimas dos semanas?. ¿Y la varianza?. b) ¿Cuál es el efecto marginal de la variable EDAD?. c) ¿Cuál es la probabilidad de que el individuo medio no haya ido al médico en los últimos quince días?. Y, ¿que haya ido 3 veces?. 68. ¿Cuál es el modelo probabilístico que especifica una razón de fallo constante?. Para
dicho modelo, aplicado a la duración de la carrera de Económicas, se tiene que la duración media estimada de la carrera es 5,2 años. Calcula el valor estimado de la función de supervivencia para t =4 años e interpreta el resultado. 69. Suponga el siguiente modelo: yt
= α + β g ( xt ) + ut , donde g ( xt ) =
xt λ − 1
λ
. Demuestre
si existe o no, una solución analítica al problema de maximización de la función del logaritmo de verosimilitud. 1 70. Se tiene el siguiente modelo no lineal simple: yt = x β t
+ ut . Utilizando los mínimos cuadrados no lineales, escriba los elementos del algoritmo de Gauss-Newton para la primera iteración.
71. En el siguiente modelo IS - LM : IS : yt = α 0
+ α 1r t + u1t LM : yt = β 0 + β 1 M t + β 2 r t + u2 t donde yt es la renta, r t es el tipo de interés (ambas variables endógenas), M t es la masa monetaria (como variable exógena), u1t ~ N 0,σ 12 , u2t ~ N 0,σ 22 y las covarianzas
22
entre los errores de ambas ecuaciones se denota por σ 12 . ¿A qué es igual el sesgo de α ˆ 1 ?.
= 0,1,2,...,10 el número de veces que las personas han visitado un determinado balneario durante los dos últimos años. Se estima un modelo de Poisson considerando como variable explicativa el número de noches de estancia en ese lugar. Los resultados de máxima verosimilitud así como un listado para las primeras 10 observaciones de la muestra son los siguientes: 72. Sea yi
+---------------------------------------------+ | Poisson Regression | | Maximum Likelihood Estimates | | Dependent variable VECES | | Weighting variable ONE | | Number of observations 3831 | | Iterations completed 7 | | Log likelihood function -7247.789 | | Restricted log likelihood -7518.572 | | Chi-squared 541.5661 | | Degrees of freedom 1 | | Significance level .0000000 | | Chi- squared = 12900.53321 RsqP= .0628 | | G - squared = 10168.03678 RsqD= .0506 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Constant -.3276808869 .24715869E-01 -13.258 .0000 NOCHES .4537878664E-01 .15657352E-02 28.982 .0000 10.552858 Observation Observed Y 1 .00000 2 .00000 3 .00000 4 .00000 6 .00000 7 3.0000 8 .00000 9 7.0000 10 2.0000
Predicted Y .99002 .99002 .99002 1.0360 .99002 .99002 1.1871 1.0360 .99002
Residual -.9900 -.9900 -.9900 -1.0360 -.9900 2.0100 -1.1871 5.9640 1.0100
x(i)b -.0100 -.0100 -.0100 .0353 -.0100 -.0100 .1715 .0353 -.0100
Se pide: a) ¿Cuál es el promedio de veces que han visitado el balneario?. b) Obtenga la probabilidades para el 6º y 10º individuo. ¿Cuál es la probabilidad de que un individuo (en media) venga más de 1 vez?. c) ¿Qué es la sobredispersión?. Contrastar la sobredispersión del modelo. Para ello, utilice las expresiones sugeridas por Cameron y Trivedi (1990): zˆi = α + ui y ˆi + ui , siendo zˆi = ( yi − λ ˆi )2 − yi (λ ˆi 2 ). zˆi = β λ (1) Establezca las hipótesis nula y alternativa a contrastar en ambos casos y su significado. (2) Realice una evaluación del rechazo o aceptación, atendiendo a los siguientes resultados:
z
= 4.7725 ,
N
N
∑ λ ˆ = 4632 , ∑ zˆ λ ˆ = 16915.97 , 2 i
i
i =1
i
y
finalmente
i =1
e1′e1
= 491649 .7 y e′2e2 = 495026 3. son las sumas de cuadrados de los errores en el primer y segundo modelo, respectivamente. [ NOTA: El lado derecho de ambas ecuaciones, tanto la constante en la primera ecuación como λ ˆi en la segunda ecuación, está dividido por 2 ]. 73.S ea el siguiente sistema de ecuaciones aparentemente no relacionadas:
23
= α 1 + β 1 x1t + u1t y2t = β 2 x2t + u2t y1t
donde var (u1t ) = σ 12 , var (u2t ) = σ 22 x2t y cov(u1t u2t ) = σ 12 = 0 . Bajo estas condiciones, estime los coeficientes de las ecuaciones, proporcionando la expresión de cada uno de ellos. 74. Sea yi ~ Bernoulli(Pi ) , siendo Pi la probabilidad de que yi =1 . En el modelo lineal
de probabilidad de observaciones repetidas en el que se forman m-grupos, ¿cuál es var p j , siendo p j la proporción muestral de respuestas afirmativas dentro del grupo jésimo?. Si los grupos son del mismo tamaño y, además, cada uno de estos es igual a 10, ¿cuál será la varianza máxima de dicha proporción?. 75. Responda a las siguientes cuestiones:
a) Se dispone de información sobre n individuos. Suponga que existe truncamiento inferior en el punto a y que yi = β 0 + ui , donde ui ~ N (0,σ u2 ). Obtenga las expresiones de
∂ LnL ∂ LnL y en este modelo. ∂ β ∂σ u2
b) Explique el significado del truncamiento inferior en el punto r , considerando que yi ~ Poisson (µ i ) , siendo i = exp(xi′ β ) . Obtenga la expresión de E [ yi yi ≥ r ] . c) ¿Qué diferencias sustanciales existen entre la censura y truncamiento?. Explíquelo brevemente. 76. En el método de Cutler y Ederer, el rango t se divide en K intervalos, j=1,..,K . Estos
intervalos tienen igual amplitud. A partir de los siguientes resultados parciales: Estimated Survival Function DURACION EN EL PARO (EN Duration variable is Status is given by variable ESTADO Number of observations in stratum = 608 Number of observations exiting = 539 Number of observations censored = 69 Survival Enter Cnsrd At Risk Exited .0- 194.7 608 25 595 407 194.7- 389.3 176 23 164 79 389.3- 584.0 74 5 71 22 584.0- 778.7 47 8 43 16
DÍAS)
Survival Rate 1.0000 ( .000) .3165 ( .019) .1645 ( .016) .1139 ( .014)
Hazard Rate .0053 ( .000) .0032 ( .000) .0019 ( .000) .0023 ( .001)
Se pide:
a) ¿Qué significa que la tasa hazard sea igual a 0.0032?. Y, ¿Qué significa que la tasa de supervivencia sea igual a 0.1139?. c) ¿Qué significa que el número de individuos censurados sea 5?. 77. Atendiendo al enunciado del ejercicio 61, se trata de especificar y estimar un modelo que
explique la cantidad invertida en la vivienda habitual por parte de las familias. La estimación del modelo en dos etapas de Heckman obtiene los siguientes resultados. +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Bi nomi al Probi t Model | | Maxi mumLi kel i hood Esti mates |
24
| Dependent var i abl e PROPI E | | Wei ght i ng var i abl e ONE | | Number of obser vat i ons 1123 | | I t erati ons compl et ed 7 | | Log l i kel i hood f uncti on - 373. 0777 | | Restr i cted l og l i kel i hood - 745. 3807 | | Chi - squared 744. 6061 | | Degr ees of f r eedom 2 | | Si gni f i cance l evel . 0000000 | | Resul t s r etai ned f or SELECTI ON model . | +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + | Vari abl e | Coef f i ci ent | St andard Err or | b/ St . Er. | P[ | Z| >z] | Mean of X| +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + I ndex functi on for probabi l i t y Const ant - 2. 227412200 . 14573711 - 15. 284 . 0000 . TRABFI J O 1. 021115011 . 12018962 8. 496 . 0000 . 65805877 I NGRESO . 6585780215E- 05 . 39261072E- 06 16. 774 . 0000 398436. 14 +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Sampl e Sel ecti on Model | | Probi t sel ect i on equat i on based on PROPI E | | Sel ect i on rul e i s: Obser vat i ons wi t h PROPI E = 1 | | Res ul t s of s el ec t i on: | | Data poi nts Sumof wei ght s | | Dat a set 1123 1123. 0 | | Sel ected sampl e 697 697. 0 | +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + | Sampl e Sel ecti on Model | | Two st age l east squares r egr essi on Wei ght i ng var i abl e = none | | Dep. var . = LPRECI O Mean= 16. 18272434 , S. D. = . 8333333897 | | Model si ze: Observat i ons = 697, Parameters = 9, Deg. Fr. = 688 | | Resi dual s: Sum of squares= 290. 2310590 , Std. Dev. = . 64950 | | Fi t : R- squared= . 391667, Adj ust ed R- squared = . 38459 | | ( Note: Not usi ng OLS. R-s quared i s not bounded i n [ 0, 1] | | Model t est: F[ 8, 688] = 55. 37, Prob val ue = . 00000 | | Di agnost i c: Log- L = - 683. 6765, Rest r i cted( b=0) Log- L = - 861. 4217 | | LogAmemi yaPr Cr t . = -. 850, Akai ke I nf o. Cr t . = 1. 988 | | St a ndar d er r or c or r ec t ed f o r s e l ec t i on. . . . . | .68767 | Corr el at i on of di sturbance i n regressi on | .65910 | and Sel ect i on Cr i t er i on ( Rho) . . . . . . . . . . . . . . | +- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - + +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + | Vari abl e | Coef f i ci ent | St andard Err or | b/ St . Er. | P[ | Z| >z] | Mean of X| +- - - - - - - - - +- - - - - - - - - - - - - - +- - - - - - - - - - - - - - - - +- - - - - - - - +- - - - - - - - - +- - - - - - - - - - + Const ant 1. 753797810 1. 3912725 1. 261 . 2075 . TRABFI J O . 4356437681 . 68409420E- 01 6. 368 . 0000 . 73027260 SEXO - . 5062113124E- 01 . 66550751E- 01 - . 761 . 4469 . 83500717 EDAD . 8875735718E- 02 . 24876340E- 02 3. 568 . 0004 41. 364419 HI J OS - . 7482653581E- 01 . 18528622E- 01 - 4. 038 . 0001 1. 8952654 EDUCA . 2583800339E- 01 . 95730846E- 02 2. 699 . 0070 13. 298422 MOVI L . 1485053775E- 02 . 21997061E- 02 . 675 . 4996 35. 981349 LI NGRESO 1. 029119343 . 10064208 10. 226 . 0000 13. 015925 LAMBDA . 15652247 2. 896 . 0038 . 29951337 .4532492445
Se pide: d) ¿Cuál es la probabilidad de que el individuo medio tenga la vivienda en propiedad?. e) ¿Y si el individuo medio tuviese un ingreso anual de 5 millones y tuviera trabajo fijo?. f) ¿Existe sesgo de selección?. Explique brevemente el truncamiento selectivo en términos de este modelo. 78.S ea el siguiente sistema de ecuaciones aparentemente no relacionadas:
= α 1 + β 1 y1t + u1t y 2t = β 2 x 2t + u 2t y1t
donde var (u1 ) = σ 12 I T , var (u 2 ) = σ 22 I T y σ 12 = 0 . Bajo estas condiciones, estime los coeficientes de las ecuaciones, proporcionando el valor de cada uno de ellos. 79.S ea el siguiente sistema de ecuaciones simultáneas:
25
= γ 1 y 2t + β 11 x1t + u1t y 2t = γ 2 y1t + β 22 x 2t + β 32 x3t + u 2t y1t
Estimar por MCI las ecuaciones del modelo, conociendo la siguiente matriz de productos cruzados de las variables: y1 y2 x1 x2 x3
y1
y2
x1
x2
x3
20
6 10
4 3 5
3 6 2 10
5 7 3 8 15
80. Considere que yi ~ Poisson (µ i ) , siendo µ i = µ = exp(β 0 ) . Obtenga la expresión de E [ y i y i
> r ] , siendo r e l punto de truncamiento inferior.
81. Se dispone de información de una encuesta de Turismo para la isla de Tenerife en el
año 1999. La siguiente tabla de resultados recoge la estimación de un modelo logit binomial para el número de VECES que un turista ha visitado la isla de Tenerife hasta 1999 (=0 si no la ha visitado hasta la vez presente; =1 si la visitado más de una vez, sin incluir la presente). La regresión se realiza frente al número de noches (NOCHES) y el gasto en pesetas realizado en el viaje (GASTOS). MODELO I +---------------------------------------------+ | Multinomial Logit Model | | Maximum Likelihood Estimates | | Dependent variable VECES | | Weighting variable ONE | | Number of observations 2703 | | Iterations completed 4 | | Log likelihood function -1861.149 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Characteristics in numerator of Prob[Y = 1] Constant .1922286745 .38646475E-01 4.974 .0000
MODELO II +---------------------------------------------+ | Multinomial Logit Model | | Maximum Likelihood Estimates | | Dependent variable VECES | | Weighting variable ONE | | Number of observations 2703 | | Iterations completed 6 | | Log likelihood function -1744.843 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Characteristics in numerator of Prob[Y = 1] Constant -1.003536689 .10705899 -9.374 .0000 NOCHES .1276876219 .10680396E-01 11.955 .0000 10.794673 GASTOS -.6216886838E-06 .16365883E-06 -3.799 .0001 77314.730 Predicted Values Observation Observed Y 1 1.0000 2 1.0000 3 .00000 4 1.0000
(* => observation was not in estimating sample.) Predicted Y Residual x(i)b Pr[Y=1] .00000 .00000 .00000
1.0000 .0000 1.0000
26
-.1098 -.1103 -.1383
.4726 .4724 .4655
5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
.00000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 1.0000 .00000 1.0000 .00000 1.0000 1.0000
.00000 .00000 .00000 1.0000 .00000 .00000
.0000 1.0000 1.0000 .0000 1.0000 1.0000
-.1098 -.1100 -.1099 .7837 -.2375 -.1100
.4726 .4725 .4726 .6865 .4409 .4725
.00000 .00000 1.0000 1.0000 .00000 .00000 .00000 1.0000 .00000
1.0000 1.0000 .0000 .0000 .0000 1.0000 .0000 .0000 1.0000
-.1100 -.1099 .9113 .7835 -.2375 -.1099 -.1102 .7835 -.1099
.4725 .4726 .7133 .6864 .4409 .4726 .4725
Se pide: a) En el Modelo I, ¿Cuánto vale la probabilidad del individuo 1º?. ¿Y la del 5º?. b) Evaluar la significación estadística de los coeficientes del Modelo II. Globalmente, ¿Es el Modelo II estadísticamente significativo?. c) En el Modelo II, calcular el efecto marginal de la variable NOCHES para el individuo medio. Interprete el resultado. d) En el Modelo II, ¿Cuál es la probabilidad estimada por el modelo de que el individuo 1º no haya venido y que el 11º haya venido al menos una vez?. Para ello, tenga en cuenta que el individuo 1º pasa 7 noches y dice que gasta solamente 400 pesetas; mientras que el 11º pasa 10 noches y gasta también 400 pesetas. ¿Cuáles son sus valores predichos y residuos, respectivamente?. e) En el Modelo II, ¿Cuál es el odd d e los individuos 19 y 20?. f) En el Modelo II, ¿Cuál es el efecto marginal de la variable GASTOS para los individuos 14 y 18?. Interprete el resultado. g) Si en toda la muestra existe un 45% de personas que visitaron más de una vez la isla de Tenerife hasta 1999, ¿cuál es el % de aciertos y no aciertos del modelo II, para los primeros veinte individuos?. 82. Responda brevemente y de manera justificada a las siguientes cuestiones:
1.1) (0.5 puntos) Demuestre que el odd de un modelo logit binomial de k-variables explicativas no es independiente del resto de las variables (tanto continuas como discretas). Justifique su respuesta. 1.2) (0.25 puntos) Sea Φ −1 ( pi ) = 0 . ¿Cuánto vale la probabilidad?. Y, ¿Si ln
pi
1 − pi
= 0 ?.
1.3) (0.25 puntos) En un modelo logit multinomial con tres alternativas ( j = 0,1,2 ), ¿A qué es igual el odd-ratio entre la alternativa 0 y 2?. Justifique su respuesta. 1.4) (0.5 puntos) En el modelo de Poisson, si xi′ β = ln β 0 , siendo β 0 una constante, ¿A qué es igual P(Y i ≤ 1) sabiendo que yi = 0,1,2,3,4,56, ?. Justifique su respuesta. 1.5) (0.5 puntos) Es cierta la afirmación de que en un modelo de regresión truncado, sea el truncamiento superior o inferior, el efecto marginal no es inferior con respecto al caso en que no exista truncamiento. Justifique su respuesta. 27
1.6) (0.5 puntos) Sea y una variable censurada inferiormente en 0. Si esta variable es N (0,1) , entonces, ¿A qué es igual E [ y ] ?. 1.7) (0.5 puntos) Sea x ~ U (0,1) una variable aleatoria truncada superiormente en el 1⎤ ⎡ punto 1 3 y f ( x ) = 1 , ¿Cuánto vale E ⎢ x x < ⎥ ?. 3⎦ ⎣ 1.8) (0.5 puntos) En un sistema de dos ecuaciones SUR, cuando X 1 = X 2 = X 0 , es decir, todos los regresores contenidos en X i son iguales para las 2-ecuaciones, ¿A qué es igual el estimador MCO?. ¿Coincide con el estimador MCO de ecuación por ecuación?. ¿Es eficiente?. Justifique su respuesta. 1.9) (0.25 puntos) Los métodos de estimación de información completa en los modelos de ecuaciones simultáneas son, en general: (a) Sesgados e ineficientes asintóticamente; (b) Sesgados, consistentes pero ineficientes asintóticamente; (c) Sesgados, inconsistentes y eficientes asintóticamente; (d) Ninguna de las anteriores. ¡Elegir una respuesta! . 1.10) (0.25 puntos) ¿Bajo qué condiciones coinciden el estimador MC2E y MC3E?. Enumere al menos dos condiciones. 83. Suponga los siguientes datos de un modelo de Poisson que trata de explicar la
incidencia de la antigüedad de los barcos sobre el número de accidentes navales ( y i ). Estos datos son: Barco 1 2 3 4 5
y i
0 0 3 4 6
( xi′ β ˆ ) 1.79 1.78 1.85 1.85 1.87
Calcular la probabilidad asociada al número de accidentes del 3 er y 4º barco así como el efecto marginal que les corresponde, sabiendo que el coeficiente de la variable que representa la antigüedad de los barcos es 0.00006. 84. Se dispone de información sobre las siguientes variables: MODE, que es una
variable dicotómica 0/1 para cuatro alternativas: 1=avión, 2=tren, 3=bus, 4=coche; TTME, es el tiempo de espera en la terminal (aeropuerto o estación) en minutos; GC, es una medida del coste total, calculada como la suma del precio o coste directo del transporte más el coste de oportunidad del tiempo del viaje; HINC, es la renta familiar en miles de u.m.; AASC, es una variable ficticia que recogerá la constante específica de la alternativa Avión; TASC, es una variable ficticia que recogerá la constante específica de la alternativa Tren; BASC, es una variable ficticia que recogerá la constante específica de la alternativa Bus; y T_HINC es HINC x TASC. Se obtienen los siguientes resultados de la estimación de un logit condicional: +---------------------------------------------+ | Discrete choice (multinomial logit) model | | Maximum Likelihood Estimates | | Dependent variable Choice | | Weighting variable ONE | | Number of observations 210 | | Iterations completed 6 | | Log likelihood function -191.3419 | | Log-L for Choice model = -191.3419 | | R2=1-LogL/LogL* Log-L fncn R-sqrd RsqAdj | | No coefficients -291.1218 .34274 .33642 | | Constants only -283.7588 .32569 .31920 |
28
| Response data are given as ind. choice. | | Number of obs.= 210, skipped 0 bad obs. | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ TTME -.0979 .10528918E-01 -9.251 .0000 GC -.0114 .45838244E-02 -2.491 .0128 AASC 5.7753 .66299023 8.711 .0000 TASC 5.2830 .59420314 8.891 .0000 BASC 3.2163 .45585715 7.056 .0000 T_HINC -.0476 .12376830E-01 -3.843 .0001
Y se dispone adicionalmente de la información del primer individuo de la muestra: Individuo 1
MODE TTME GC HINC
Avión Tren Autobús Coche
0 0 0 1
69 34 35 0
70 71 70 30
35 35 35 35
Se pide, calcular la probabilidad asignada por el modelo para la elección de ir en autobús. 85. Se dispone de la información sobre las siguientes variables: PRIV = decisión de
tener al menos un hijo en colegio privado (=1,si; = 0, no). YRS = años vividos en la comunidad. INC = Logaritmo de la renta. PTAX = logaritmo de los impuestos pagados sobre la propiedad. TAX = voto (0=no) sobre un impuesto de la propiedad. A continuación, aparecen los resultados de la estimación del siguiente modelo de Elección Discreta, en el que la variable endógena es TAX. +-----------------------------------------------------------------------+ | Dependent variable is binary, y=0 or y not equal 0 | | Ordinary least squares regression Weighting variable = none | | Dep. var. = TAX Mean= .6375000000 , S.D.= .4837550902 | | Model size: Observations = 80, Parameters = 5, Deg.Fr.= 75 | | Residuals: Sum of squares= 15.35904939 , Std.Dev.= .45253 | | Fit: R-squared= .169220, Adjusted R-squared = .12491 | | Model test: F[ 4, 75] = 3.82, Prob value = .00703 | | Diagnostic: Log-L = -47.5022, Restricted(b=0) Log-L = -54.9178 | | LogAmemiyaPrCrt.= -1.525, Akaike Info. Crt.= 1.313 | +-----------------------------------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Constant -.6501299531E-01 1.4267090 -.046 .9637 PRIV -.2026390498 .15401512 -1.316 .1883 .12500000 YRS -.3577810684E-02 .55246021E-02 -.648 .5172 8.7750000 INC .4727635679 .14558071 3.247 .0012 9.9677200 PTAX -.5698400912 .18646276 -3.056 .0022 6.9372738 Normal exit from iterations. Exit status=0. +---------------------------------------------+ | Binomial Probit Model | | Maximum Likelihood Estimates | | Dependent variable TAX | | Weighting variable ONE | | Number of observations 80 | | Iterations completed 5 | | Log likelihood function -44.60409 | | Restricted log likelihood -52.38744 | | Chi-squared 15.56671 | | Degrees of freedom 4 | | Significance level .3659252E-02 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Index function for probability Constant -1.438212331 4.5332519 -.317 .7510 PRIV -.6254668928 .45015770 -1.389 .1647 .12500000 YRS -.9763633978E-02 .16139813E-01 -.605 .5452 8.7750000 INC 1.678640394 .58167049 2.886 .0039 9.9677200 PTAX -2.123845389 .75134583 -2.827 .0047 6.9372738 Frequencies of actual & predicted outcomes Predicted outcome has maximum probability.
29
----- Actual -----0 1 -----Total
Predicted ---------- + 0 1 | ---------- + 12 17 | 7 44 | ---------- + 19 61 |
----Total ----29 51 ----80
Se pide: a) ¿Cuál es la probabilidad de votar NO para el primer individuo, sabiendo que su score es 0.2263?. ¿Cuál es la probabilidad de votar SI para el 10º individuo, sabiendo que su scoree s 0.9015?. b) ¿Cuál es el efecto marginal de las variables PTAX e INC, evaluado éste en la media de las observaciones individuales?. c) Si la probabilidad del individuo 8º fuese 0.6159, su renta fuese 2980.96 unidades monetarias, tuviese dos hijos en un colegio privado y los impuestos pagados sobre la propiedad fuesen de 148.41 unidades monetarias, ¿cuántos años habría vivido en la comunidad?. Suponga conocidos los valores de los parámetros obtenidos de la estimación del modelo. d) ¿Cuál es el porcentaje de predicciones incorrectas?. 86. Sea yi = 0,1,2 el número de veces de una variable Y. Se estima un modelo de Poisson, considerando como variables explicativas X1, X2 y X3. Los resultados de la estimación son los siguientes: +---------------------------------------------+ | Poisson Regression | | Maximum Likelihood Estimates | | Dependent variable Y | | Weighting variable ONE | | Number of observations 15 | | Iterations completed 7 | | Log likelihood function -16.92002 | | Restricted log likelihood -20.22488 | | Chi-squared 6.609709 | | Degrees of freedom 3 | | Significance level .8543482E-01 | | Chi- squared = 9.40329 RsqP= .3283 | | G - squared = 11.77968 RsqD= .3594 | +---------------------------------------------+ +---------+--------------+----------------+--------+---------+----------+ |Variable | Coefficient | Standard Error |b/St.Er.|P[|Z|>z] | Mean of X| +---------+--------------+----------------+--------+---------+----------+ Constant .7551347557 .27109082 2.786 .0053 X1 .5086108632 .24598851 2.068 .0387 .26233333 X2 -.3799382583 .26275370 -1.446 .1482 -.20766667 X3 -.3219574305 .31345480 -1.027 .3044 -.30813333
Se pide: a) ¿Cuál es la probabilidad para los individuos 1º, 2º y 5º de la muestra, sabiendo que sus respectivos números de veces son 1, 0 y 2, así como sus parámetros λ ˆi son iguales a 0.36169, 0.44244 y 1.7826, respectivamente?. b) ¿Cuál es el efecto marginal de las variables X1 y X2, evaluado en la media de las observaciones individuales?. c) Suponiendo que el individuo 10º ha venido 0 veces, y la probabilidad estimada por el modelo es de 12.50%, ¿Cuánto vale la media y varianza condicional estimada por el modelo para este individuo?. 87. Suponga que un individuo tiene la posibilidad de elegir entre dos alternativas (=1 si
la elige, =0 en caso contrario). Suponga también que los datos muestrales de 14 individuos se agrupan en 5 grupos para la variable x j . Estos datos aparecen resumidos 30
en la siguiente tabla para las proporciones muestrales pˆ j , los valores de x j , las puntuaciones x j′ β ˆ = β ˆ0 + β ˆ1 x j y el tamaño muestral de cada grupo n j . pˆ j
x j
ˆ x j′ β
n j
0.84 0.10 0.15 0.95 0.98
6 4 3 8 10
1.72 -2.17 -1.66 3.00 4.30
3 2 4 3 2
Se pide que, con los datos anteriores, escriba la expresión del estimador eficiente usando esta información -en su forma matricial-, que es necesaria para estimar un modelo probit con observaciones repetidas. 88. Un estadio de fútbol, con capacidad para 60000 espectadores, se ha llenado el 25%
de los partidos en él celebrados a lo largo de la competición, con una cifra media de asistencia (incluidos los partidos en los que se llenó el estadio) de 40000 espectadores. ¿Cómo estimaría la media y varianza de la demanda de localidades?. ¿Cómo cambiaría su respuesta si la cifra de 40000 espectadores no incluyese los partidos en que se llenó el estadio?. Justifique brevemente su respuesta. 89. El logaritmo de la variable ingresos tiene distribución normal, y = log x , con media µ y desviación σ . Sabiendo que el grado de truncamiento es del 98% y que los
ingresos de todos los hogares encuestados están por encima de 100000 euros con media de 142000 euros para los más acaudalados, tal que: E [ y y > log100] = log142 ≡ E [ y y > 4.605] = 4.956 , ¿Cuál es el valor de y σ ?. ¿Y el ingreso medio?. 90. Sea el siguiente modelo de ecuaciones simultáneas: ct = α 1 yt + α 2 mt −1 + u1t it = β 1 yt + β 2 r t + u2 t yt ≡ ct + it
donde las variables endógenas son c t (consumo), ii (inversión) e yt (renta). Las otras variables son predeterminadas ( r t es el tipo de interés, y mt es la masa monetaria), y uit , i=1,2, los residuos de ambas ecuaciones, distribuidos iid (0,σ i2 ) . Se pide: a) Identificar el modelo. b) Obtener la forma reducida para la ecuación de consumo, inversión y renta.
31
PARTE II
CUESTIONES TIPO TEST
1. Se ha estimado un modelo probit de elección de modo de transporte para ir al trabajo
(1=coche propio; 0= guagua). Las variables explicativas son sexo (1= hombre), con coeficiente estimado igual a 0.5 y edad, con coeficiente estimado igual a 0.03. La constante estimada es 0.2. Según el modelo, la probabilidad de que una mujer de 60 años vaya a trabajar en su coche es: a) b) c) d)
Menor del 90%. Mayor que la de un hombre de 30 años. Menor que la del modelo logit equivalente. Ninguna de las anteriores.
2. Sea un modelo de duración del paro (en meses). Si la función de supervivencia
estimada en t=4 vale 0.68: a) La probabilidad de estar más de cuatro meses en paro es 0.68. b) La probabilidad de estar cuatro o menos meses en el paro es mayor que 0.68. c) La probabilidad de que pasados cuatro meses en paro se consiga trabajo en el siguiente intervalo de tiempo es 0.32. d) Ninguna de las anteriores. 3. Creeemos que la nota media del expediente de un alumno de Economía depende
linealmente del género (hombre=1), de la nota media del bachillerato, de las horas de estudio semanales y de características socioeconómicas del entorno familiar. Tenemos una muestra aleatoria de los alumnos que han pedido una beca entre cuyos requisitos se exige tener una nota media de expediente de 6 o mayor. Este es un caso de: a) Modelo tobit de regresión censurada con censuración inferior en el punto 6. b) Modelo tobit de regresión censurada con doble censuración, inferior en el punto 6 y superior en el punto 10. c) Modelo de regresión truncada con truncación inferior en el punto 6. d) Modelo de regresión truncada con doble truncación, inferior en el punto 6 y superior en el punto 10. 4. En el caso anterior, el estimador del género de MCO es -0.8. Podemos interpretar
que: a) En promedio y ceteris paribus los chicos tienen 0.8 puntos menos de media de expediente que las chicas. b) Considerando solo la población de alumnos cuya nota media es igual o mayor que 6, en promedio y ceteris paribus los chicos tienen 0.8 puntos menos de media de expediente que las chicas. c) Como el estimador de MCO coincide en este caso particular con el de MV (por el teorema de Frobenius), podemos hacer inferencia a la población, pero solo a la de mujeres ya que para ellas GENERO=0. 32
d) Ninguna de las anteriores. 5. Sea un modelo de probabilidad lineal dicotómico con una sola variable explicativa X: Y i = α + β X i + U i .
a) Si se estima por MCO, los estimadores son insesgados, consistentes y eficientes. b) El valor esperado de la variable dependiente condicionada a X se interpreta como un scoreq ue es función no lineal de la probabilidad de Y=1. c) Es heterocedástico, siendo la varianza de las perturbaciones igual a α (1 − α ) + β X (1 − 2α − β X ) . d) Ninguna de las anteriores. 6.El modelo de utilidad aleatoria U ij
= Z 'ij α + c'i δ j + ε ij ; j = 12,
a) Supone que la función de utilidad que le reporta la alternativa j al individuo i es una función de distribución. b) Implica, dados los supuestos habituales de racionalidad del consumidor, que la probabilidad de elegir la alternativa 1 es, en último término, una función de densidad normal. c) Da lugar al modelo probit binomial si las utilidades aleatorias ε ij de ambas alternativas para el individuo i siguien distribuciones normales idénticas e independientes. d) Da lugar al modelo probit binomial si las utilidades aleatorias ε ij de ambas alternativas para el individuo i siguien distribuciones normales independientes, con idénticas varianzas entre individuos aunque con varianzas diferentes entre alternativas. 7. Se ha estimado un modelo logit binomial con una constante (valor estimado = 2) y
una variable explicativa X (coeficiente estimado = -0.8). El 35% de los individuos de la muestra ha elegido "actuar" (alternativa Y=1): a) El modelo estima que la probabilidad de que una persona caracterizada por X=2.5 elija "actuar" es exactamente del 50%. b) El odd-ratio de la variable X es 2.2255. c) Si X aumenta en una unidad, la probabilidad de "actuar" disminuye en 0.8. d) Si X aumenta en una unidad, el odd-ratio disminuye en 0.8. 8.H emos estimado un modelo logit binomial por MV, con los siguientes resultados: Variable
Coeficiente
Error Estándar
Individuo i
Constante X1 X2
1.7 -0.5 0.6
0.3 0.04 0.002
4 3
El efecto marginal de X2 sobre la probabilidad de que el individuo i elija la alternativa 1 (Y=1= es: a) 0.6 b) 1.5 33
c) 0.08949 d) 0.817574 9. En un modelo logit multinomial no ordenado con tres alternativas (la tercera es la de referencia), el efectto marginal de xk sobre la probabilidad de elección de la alternativa
j es: a) Pij (1 − Pij ) β jk . J −1
b) Pij ( β ik − ∑ Pij β jk ) . h =1
2
c) Pij ( β jk − ∑ Pih β hk ) . h =1
d) Ninguna de las anteriores. 10. En un modelo de regresión truncada con truncación inferior, si el grado de
truncación estimado para los valores medios muestrales es 0.5: a) El efecto marginal sobre la esperanza de Y en la subpoblación muestreada es 0.36338 veces el coeficiente de la regresión truncada estimado por MV. b) El efecto marginal sobre la esperanza de Y en la subpoblación muestreada es 0.6366 veces el coeficiente de la regresión truncada estimado por MV. c) El efecto marginal sobre la esperanza de Y en la subpoblación muestreada es 0.7978 veces el coeficiente de la regresión truncada estimado por MV. d) El efecto marginal sobre la esperanza de Y en la subpoblación muestreada es el coeficiente de la regresión truncada estimado por MV. 11.E l concepto de truncamiento selectivo inferior consiste en que:
a) Una variable solo se observa si otra variable con la que está correlacionada está por debajo de un valor fijo dado. b) Una variable solo se observa si otra variable con la que está correlacionada está por encima de un valor fijo dado. c) Es un modelo de regresión que mezcla el truncamiento con la censuración. d) Es un modelo de regresión que ha pasado una selectividad previa de forma que los valores que no alcancen un determinado nivel de la variable endógena no pueden entrar en la muestra. 12. Una variable X está distribuída N(200, 120). Está censurada inferiormente en el
punto a=200. La esperanza de la distribución censurada es: a) b) c) d)
295.7461. 312.8446. 162.7740. 185.3312.
13. Con datos de las 3000 mayores empresas españolas por volumen de ventas
queremos estimar un modelo explicativo de las ventas (en logaritmo) válido para todas las empresas españolas, en función de los gastos en publicidad, la plantilla, dummies de sector y algunos ratios financieros. En este caso: 34
a) Los estimadores MCO son ELIO pero deben obtenerse mediante un algoritmo iterativo de optimización no lineal. b) Habrá que utilizar MCG porque las perturbaciones son heterocedásticas. c) Como es una muestra censurada, debemos emplear el modelo tobit y estimarlo por MV. d) Como es una muestra truncada, debemos obtener el estimador MV del modelo de regresión truncada. 14. Considera la elección por el consumidor racional entre una cesta compuesta de
bienes y las horas semanales de ocio. El IRPF grava en un porcentaje fijo las rentas del trabajo pero hay un mínimo exento: a) La frontera del conjunto de oportunidades tiene tres segmentos lineales y, dependiendo de la forma de las curvas de indiferencia, la combinación óptima de ambos bienes puede ser una solución de esquina, una de codo o dos tipos diferentes de tangencia. b) El conjunto de oportunidades tiene una frontera con agujeros. e) La frontera del conjunto de oportunidades es de tal forma que todos los individuos que deciden trabajar por debajo del límite de horas sujeto al IRPF tendrán una solución de esquina. d) En la especificación econométrica del correspondiente modelo de horas trabajadas deberemos emplear un modelo tobit de regresión censurada con un punto de censuración fijo igual al mínimo exento del impuesto. 15. Sea una distribución normal de media 20 y desviación igual a 15, truncada
superiormente en el punto 30: a) b) c) d)
La media truncada es 15.45632 y la varianza truncada es inferior a 225. La media truncada es 15.45632 y la varianza truncada es superior a 225. La media truncada es 9.2065 y la varianza truncada es inferior a 225. Ninguna de las anteriores.
16.H emos estimado por MV un modelo de regresión truncada inferiormente en el punto
a. El coeficiente estimado de la variable explicativa X: a) Es un estimador consistente del efecto marginal de X, sobre Y en la subpoblación observada. b) Es un estimador consistente del efecto marginal de X, sobre Y correspondiente a la subpoblación no observada. c) Es un estimador consistente del efecto marginal de X, sobre Y correspondiente a toda la población. d) Es menor que el efecto marginal de X, sobre Y correspondiente a la subpoblación observada. 17. Sea un modelo de oferta laboral de mujeres casadas, que explica las horas anuales
trabajadas a partir de una muestra aleatoria de la población que contiene trabajadoras y no trabajadoras. Una estrategia adecuada (consistente) de estimación de los efectos del número de hijos pequeños sobre las horas ofertadas es:
35
a) Estimar por MV un modelo de dos ecuaciones, una probit que estima la probabilidad de trabajar y otra censurada (censuración incidental según la primera ecuación) que estima las horas ofertadas. b) Estimar por MV un modelo de regresión truncada, con truncación inferior en cero horas trabajadas. c) Estimar por MV un modelo tobit de regresión censurada, con censuración inferior en cero horas trabajadas. d) Estimar primero por MCO un modelo de salarios con la submuestra de trabajadoras y luego un modelo de regresión censurada de las horas trabajadas en el que los salarios sombra figuren como explicativos. 18. En el modelo tobit de regresión censurada inferiormente en el punto cero, la
estimación del efecto marginal de X sobre el valor esperado de Y correspondiente a toda la población: a) Puede descomponerse aditivamente en dos componentes que traducen el cambio en la media de Y para la submuestra positiva y el cambio en la probabilidad de pertenecer a ella respectivamente. b) Es el vector de coeficientes estimados. c) Es el producto del vector de coeficientes estimados por la probabilidad de no pertenecer a la submuestra positiva y la estimación es idéntica para todos los individuos de la muestra. d) Ninguna de las anteriores. 19. En las dos preguntas siguientes sólo una de las alternativas es FALSA. Debes
señalar la alternativa FALSA: 1) La función de hazard o tasa de fallos condicional en t: a) Mide la tasa de fallos en el intervalo t+ )t dado que se ha llegado hasta el instante t sin fallar. b) Si es constante, corresponde a una distribución exponencial. c) Es el cociente entre las funciones de densidad y de supervivencia en t. d) Depende de t en los enfoques paramétricos, aunque no necesariamente en los no paramétricos. 2) El modelo de Cox: a) Es un modelo semiparamétrico de duración. b) Supone que la tasa de fallo condicional en el momento t es proporcional a una función lineal de las variables exógenas. c) Si no hay variables exógenas en el modeo, se convierte como caso particular en un modelo no paramétrico de duración. d) Implica que el logaritmo de la tasa de fallo condicional en el momento t es una función lineal de las variables exógenas. 20. ¿Qué se entiende, en el contexto de modelos de elección discreta, por datos
agrupados (o por observaciones repetidas)?:
36
a) La muestra constituye dos grupos, según la elección que hayan realizado. b) Los datos se agrupan previamente para evitar la heterocedasticidad. c) Hay grupos de individuos idénticos en las características X, que son cualitativas o discretas. d) Las observaciones repetidas sobran y por tanto se borran del fichero. 21.E n caso de datos agrupados con suficientes observaciones por clase:
a) Tanto el MLP como el modelo logit se pueden estimar eficientemente por MCO. b) Para estimar el modelo logit hay que emplear el método de máxima verosimilitud. c) Tanto el MLP como el modelo logit se pueden estimar eficientemente por MCG, introduciendo información sobre las varianzas (heterocedásticas) de las perturbaciones aleatorias de cada clase. d) Ninguna de las anteriores. 22.E l riesgo relativo de dos modalidades de un atributo:
a) Es el cociente entre las probabilidades de actuar y de no actuar en los dos supuestos o circunstancias que se comparan. b) Si el intervalo de confianza del riesgo relativo contiene el valor uno, esto indica que la variable explicativa (el atributo en cuestión) influye significativamente en la probabilidad de actuar. e) El riesgo relativo en el modelo probit depende solamente del coeficiencte beta estimado y por tanto es constante para todos los individuos de la muestra, mientras que en el modelo logit el riesgo relativo depende también de las características X que definen al individuo y de su probabilidad de actuar. f) El riesgo relativo es mayor en la zona intermedia de la función de distribución logística que en las colas. 23.L a sensibilidad de un modelo de elección discreta es:
a) b) c) d)
El porcentaje de predicciones correctas en el grupo de los que han elegido Y=0. El porcentaje de predicciones correctas en el grupo de los que han elegido Y=1. El porcentaje global de aciertos, o bondad global del ajuste. Las variaciones de la probabilidad frente a incrementos marginales de X.
24. En un modelo probit, los coeficientes de regresión no tienen una interpretación
directa en términos de efectos sobre la probabilidad de elección, pero: a) Los riesgos relativos, exp( β k ) , son independientes de las probabilidades y de las características X de los individuos. b) La diferencia entre los coeficientes de dos variables explicativas mide el efecto relativo unitario de ambas sobre la probabilidad de elección. c) El cociente entre los coeficientes de dos variables explicativas mide el efecto relativo unitario de ambas sobre la probabilidad de elección. d) Se relacionan mediante una fórmula excata (de Amemiya) con los obtenidos en un modelo logit.
37
25. Un modelo logit multinomial no ordenado estima las probabilidades de elección
entre J alternativas exhaustivas y mutuamente excluyentes. Para ello a) Se estiman J ecuaciones logit binomiales independientes. b) Se admite implícitamente la hipótesis de las alternativas irrelevantes. c) Se admite implícitamente la hipótesis de las alternativas irrelevantes que establece que la probabilidad relativa de elegir dos opciones cambia si se modifica el conjunto de elección, es decir, otras alternativas no consideradas en la comparación. d) Se toma la primera o la última alternativa como referencia pero no debe tomarse nunca una intermedia como referencia. 26.E n el modelo dicotómico de probabilidad lineal no restringido:
a) Las perturbaciones aleatorias son heterocedásticas, siendo su varianza Pi . b) La varianza de la perturbación aleatoria es Pi (1 − Pi ) . c) Las predicciones de individuos fuera de la muestra pueden caer fuera del intervalo (0,1) aunque las predicciones para los individuos de la muestra siempre caen en dicho intervalo. d) Los estimadores MCO son sesgados e inconsistentes. 27. La función de verosimilitud de un modelo logit dicotómico cuya única variable explicativa sea la constante, estimado para una muestra con n1 individuos con Y=1 y n2
individuos con Y=0: a) Es mayor o igual que la del modelo con la constante y otros regresores. b) Su valor es diferente de la función de verosimilitud del modelo probit con solo la constante. c) Su logaritmo neperiano es n1 LnP + n2 Ln(1 − P ) , siendo P la probabilidad global estimada de Y=1. d) No puede calcularse a menos que n1 < n2 . 28. Hemos estimado dos modelos logit multinomiales no ordenados alternativos. La
variable dependiente tiene cuatro categorías. El primer modelo contiene dos variables explicativas además de la constante y el segundo tiene cinco variables explicativas además de la constante. Para contrastar el modelo modelo 1 contra el modelo 2 y bajo la hipótesis nula el estadístico de prueba χ 2 tiene ……….. grados de libertad. 29.Q ueremos estimar los determinantes de la elección de centro comercial para hacer la
compra mensual de alimentación de las familias de una gran ciudad. Hay cuatro grandes centros comerciales. Las variables explicativas son un índice de precios relativos, la distancia en kilómetros desde el hogar y la renta familar. Un modelo adecuado para esta situación es: a) b) c) d)
Modelo logit condicional de McFadden. Modelo logit multinomial ordenado. Modelo logit multinomial no ordenado. Modelo tobit.
38
30. Hemos estimado un modelo logit multinomial no ordenado con tres alternativas de
elección (1,2,3). Tomando como referencia la alternativa 1, los coeficientes estimados de X, en las dos ecuaciones son respectivamente 1.2 y -0.8. Si volviéramos a estimar el modelo tomando como referencia la alternativa 3: a) Los dos estimadores serían iguales a los obtenidos pero con los signos cambiados. b) El estimador en la ecuación de Y=1 sería 0.8 y en la ecuación de Y=2 sería 2. c) El estimador en la ecuación de Y=1 sería -1.2 y en la ecuación de Y=2 sería 0.4. d) El estimador en la ecuación de Y=1 sería 0.4 y en la ecuación de Y=2 sería -1.2. 31. En un modelo logit binomial de decisión de aseguramiento de la vivienda (Y i=1,
indica que el individuo i ha decidido asegurarse), el coeficiente de la variable explicativa ficticia vivienda en propiedad (X i=1, indica que el individuo i posee una vivienda en propiedad; X i=0, indica que el individuo i posee una vivienda en régimen de alquiler) vale 0.69315. Esto indica que:
a) Los propietarios de vivienda tienen el doble de odd de asegurarse (probabilidad de asegurarse relativa a no hacerlo) que los que viven en una vivienda alquilada. b) Los propietarios de vivienda tienen un 69.31% más de probabilidad de asegurarse que de no asegurarse. c) Los que tienen la casa asegurada tienen un riesgo relativo de ser propietarios de su vivienda igual al doble que los que no tienen seguro. d) Los que tienen la casa asegurada tienen una probabilidad relativa de ser propietarios de su vivienda un 69% superior respecto a 1 grupo de los que no tienen seguro. 32.E n referencia a los modelos de elección cualitativa binomial:
a) En el MLP se cumple siempre que la media muestral de las probabilidades estimadas por el modelo coincide con la proporción muestral de éxitos, pero esto no siempre ocurre en el modelo logit. b) En el modelo logit se cumple siempre que la media muestral de las probabilidades estimadas por el modelo coincide con la proporción muestral de éxitos, pero esto no siempre ocurre en el MLP. c) Tanto en el modelo logit como en el MLP se cumple siempre que la media muestral de las probabilidades estimadas por el modelo coincide con la proporción muestral de éxitos. d) Tanto en el modelo logit como en el MLP, la probabilidad de éxito (Y=1) evaluada para los valores medios muestrales de las X coincide con la proporción muestral de éxitos. 33. La hipótesis de independencia de las alternativas irrelevantes en los modelos logit
multinomiales: a) Es una propiedad muy interesante de los modelos logit multinomiales que permite abreviar mucho los cálculos.
39