EXAMENES ESTADISTICA RESUELTOS

Ejercicio 1

1 de 8

http://www.uned.es/111044/examenes/Febrero 2001/ feb2001-1semana .htm

Estadística aplicada a las Ciencias Sociales Febrero 2001 (1ª Semana) Ejercicio1. La distribución que figura a continuación muestra el número de años de experiencia docente que presenta una muestra de profesores titulares de una universidad determinada. Años de experiencia Menos de 1 año 1-2 años 3-4 años 5-6 años 7-8 años a) b) c) d)

Frecuencia 350 1300 1500 1500 1500

Represente gráficamente la distribución. Calcule la moda, la media y la mediana. Calcule la medida de dispersión más adecuada. Comente los resultados.

Ejercicio 2. Un jugador de baloncesto tiene la probabilidad de encestar una canasta de 0,75. Si realiza una serie de 20 lanzamientos, ¿cuál es la probabilidad de que acierte exactamente 15 canastas? ¿y 16 ó más canastas en esa misma serie? Ejercicio 3. En una encuesta del CIS sobre uso de los teléfonos móviles realizada en septiembre de 2000 y aplicada a una muestra de 2500 españoles, 910 declararon que utilizaban el teléfono móvil todos los días. La media de edad de este grupo de usuarios es de 31,7 años y la desviación típica de 6,3 años. La edad se distribuye normalmente. Calcular: a) El número de usuarios de teléfono móvil con 38 o más años. b) El número de usuarios entre 25 y 35 años. c) El porcentaje de usuarios menores de 35 años. d) ¿Entre qué edades alrededor de la media se moverá el 90% de los casos? Ejercicio 4. En un municipio de 1.500.000 habitantes, se conoce que el 60% suelen realizar sus compras en grandes almacenes. Se ha realizado una encuesta sobre la posibilidad de mantener abiertos dichosa establecimientos todos los domingos del año, con una muestra de 900 personas y un nivel de confianza del 95,5%. a) ¿qué error máximo se ha admitido? b) ¿Qué tamaño debería tener la muestra para que con el mismo nivel de confianza el error admitido fuera del 2%? c) ¿Qué ocurriría con el tamaño de la muestra si deseáramos aplicar un 99,7% de nivel de confianza? Explique las ventajas e inconvenientes de la ampliación y reducción del nivel de confianza.

Soluciones

06/04/2012 11:47

Ejercicio 1

2 de 8


Ejercicio 1. a) Para representar gráficamente los datos hay que tener en cuenta que los intervalos no son iguales. En este caso no es correcto utilizar las frecuencias relativas como alturas de los polígonos, sino que se deben calcular las alturas de modo que las áreas de cada polígono sean proporcionales a las frecuencias relativas. Si el área de un rectángulo es igual al producto de la base y la altura, dado que queremos que el área S sea igual al porcentaje de casos en cada intervalo y conocida la base b (amplitud de cada intervalo), la altura h se obtiene de Años experiencia menos de 1 año 1-2 3-4 5-6 7-8

Base b 1 2 2 2 2

Área S (%) 5,69 21,14 24,39 24,39 24,39

Altura h 5,69 10,57 12,2 12,2 15,2

El gráfico muestra una distribución asimétrica (negativa), al estar más concentrados los casos en los valores altos de la variable. Es decir, en los intervalos de mayor valor en años de experiencia se reúnen más casos que en los de menor experiencia. El número de casos en cada categoría aumenta al incrementarse los años de experiencia hasta el intervalo 3-5, para permanecer luego constante.

b) Cálculo de la media, moda y mediana

06/04/2012 11:47

Ejercicio 1

3 de 8


Media: es necesario calcular las marcas de clase xi , o puntos medios de cada intervalo. Años experiencia

xi

n

xi n

menos de 1 año 1-2 3-4 5-6 7-8 Total

0,5 2 4 6 8

350 1300 1500 1500 1500 6150

175 2600 6000 9000 12000 29775

La media será:

Para calcular la mediana hay que obtener las frecuencias acumuladas: Años experiencia menos de 1 año 1-2 3-4 5-6 7-8

n

Na

350 1300 1500 1500 1500 6150

350 1650 3150 4650 6150

La mediana: La moda: puede ser definida como el valor de la variable tal que su frecuencia es superior a la del valor anterior y a la del valor posterior. Esto quiere decir que puede haber varias modas relativas, siendo la moda absoluta la mayor de ellas. En este caso, tres de las categorías presentan un valor máximo idéntico, ninguno de los tres valores de la variable cumple la condición antes enunciada. Ante las dificultades para calcular la moda a partir de distribuciones con datos agrupados conviene aplicar el criterio propuesto por García Ferrando (p.89) para obtener el valor de la moda calculando el punto medio de la clase que contiene la mayor frecuencia. Al haber tres categorías contiguas con la máxima frecuencia, puede estimarse la moda considerando que el intervalo modal es la suma de los tres intervalos. El intervalo modal sería por tanto el que contiene los valores de la variable entre 3 y 9, siendo su punto medio 6.

c) La medida de dispersión más adecuada es la desviación típica, al estar medida la variable años de experiencia en escala de intervalo.

06/04/2012 11:47

Ejercicio 1

4 de 8


xi 0.5 2 4 6 8 Total

xi2 0.25 4 16 36 64

ni 350 1300 1500 1500 1500

xi2 ni 87.5 5200 24000 54000 96000 179287.5

d) No se da una agrupación de los casos alrededor de la media demasiado alta. Los casos están repartidos de forma muy homogénea. Llama la atención el corto recorrido de la variable no habiéndose recogido en la muestra ningún caso con más de 9 años de experiencia. Para obtener un análisis más detallado sería necesario conocer la antigüedad de la universidad y la política de contratación en los últimos años.

Ejercicio 2. Se trata de una distribución binomial a) Siendo la probabilidad de encestar p= 0,75 y la de no encestar q= 0,25 Siendo las combinaciones posibles de fallos y aciertos para 15 aciertos sobre 20 intentos:

La probabilidad de obtener exactamente 15 canastas de 20 intentos es:

P(X=15) = 15.504 (0,75)15 (0,25)20-15 = 0,2023 b) la probabilidad de acertar 16 o más canastas será la suma de las probabilidades de obtener 16, 17, 18, 19 y 20. Operando de forma análoga al caso anterior, se obtiene: P(X=16)= 0,189685 P(X=17)= 0,133896 P(X=18)= 0,066948 P(X=19)= 0,021141 P(X=20)= 0,003171 Por tanto, P(X≥16)= 0,189685+0,133896+0,066948+0,021141+0,003171= 0,41484

06/04/2012 11:47

Ejercicio 1

5 de 8


Ejercicio 3. De los 2500 usuarios sólo 910 utilizan el teléfono a diario. Centrándose en este colectivo y sabiendo que tienen una edad media de 31,7 años y una desviación típica de 6,3 podemos utilizar las tablas de la curva normal para calcular el porcentaje de casos que quedan entre la media y un valor dado. a) Primero es necesario calcular el número de unidades de desviación típica que separa al valor 38 de la media:

Consultando la tabla “áreas bajo la curva normal” obtenemos que el valor Z=1 se corresponde con el valor 0,3413; es decir, el 34,13% de los casos se encuentran entre la media y una unidad de desviación típica, es decir, entre 31,7 y 38 años. Pero como queremos conocer el porcentaje de casos que exceden de 38 es necesario restar ese valor de 0,5 ya que el área bajo la curva normal es igual a la unidad y en la tabla sólo se presentan la mitad de los valores (los valores positivos de Z). 0,5-0,3413=0,1587

Como se pide el número de usuarios, es necesario calcular el 15,87% de los 910 usuarios, lo que arroja un valor de 144 usuarios de 38 o más años.

b) Es necesario calcular la proporción de casos que quedan entre el valor 25 y la media. Después debe calcularse la proporción de casos que quedan entre la media y el valor 35. La proporción de casos entre 25 y 35 será la suma de los dos cálculos anteriores.

que en las tablas se corresponde a 0,3554

06/04/2012 11:47

Ejercicio 1

6 de 8


que en las tablas se corresponde a 0,1985

La proporción de casos comprendidos entre los 25 y los 35 años será entonces la suma: 0,1985 + 0,3554 = 0,5539. Es decir, que el 55,39% de los casos estarán comprendidos en el intervalo de edad señalado. Expresado en número de usuarios será el 55,39% de 910 = 504 c) Basándonos en el cálculo del apartado b), sabemos que la proporción de casos entre la media y el valor 35 es 0,1985. Si añadimos 0,5 correspondiente a todos los valores menores a la media: 0,1985 + 0,5 = 0,6985. Expresado en porcentaje, el 69,85% de los usuarios que utilizan el teléfono móvil todos los días tiene menos de 35 años.

d) Como el 90% de los casos está repartido por igual a ambos lados de la media, y las tablas nos dan solamente los valores positivos de Z, hallaremos el valor correspondiente a la mitad de 0,9; es decir, de 0,4500 que en la tabla es Z=1,65. ; despejando el valor de x se obtienen los dos valores de la variable edad

06/04/2012 11:47

Ejercicio 1

7 de 8


correspondientes al Z obtenido, con signo positivo y negativo.

El extremo superior del intervalo sería:

de forma análoga se obtiene el valor a la izquierda de la media. En este caso el valor de Z es negativo.

Por tanto podemos afirmar que el 90% de los usuarios habituales de teléfono móvil alrededor de la media se encuentra entre los 21 y los 43 años. Ejercicio 4. a) Utilizando la fórmula del tamaño muestral para poblaciones “infinitas”, puede despejarse el valor del error.

El valor de Z correspondiente al nivel de confianza del 95,5 se obtiene dividiendo 0,9550 entre 2 con lo que se obtiene 0,4775 que en las tablas “área bajo la curva normal” coincide con el valor Z = 2. Los valores de p = 0,6 y q = 0,4 se obtienen del enunciado: 60% de personas que hacen sus compras en grandes almacenes y consecuentemente 40% de personas que no las hacen.

despejando e tenemos: el error admitido sería del 3,27% b) Directamente de la formula utilizada en el apartado a)

El número de unidades muestrales necesarias con un nivel de confianza del 95,5% y un error admitido del 2% es de 2.400

06/04/2012 11:47

Ejercicio 1

8 de 8


c) El Z correspondiente al nivel de confianza del 99,7% se obtendría: dividiendo 0,9970 entre 2 y buscando en las tablas de la curva normal el valor de Z para el valor obtenido:

que en la tabla se corresponde con Z = 2,96 volviendo a la fórmula del tamaño muestral:

Como puede verse el tamaño de la muestra aumenta de forma sensible al incrementar el nivel de confianza. Un nivel de confianza del 99,7% significa que ese porcentaje de las muestras posibles arrojaría un valor de p que estaría comprendido entre + 2,96 y – 2,96 unidades de desviación típica, y sólo un 0,03% de las muestras nos darían un valor más extremo. Al aumentar el nivel de confianza aumenta la proporción de muestras posibles que arrojarían valores comprendidos en el intervalo, pero también crecería la magnitud del intervalo. También aumentaría el tamaño de la muestra necesaria, si quisiéramos mantener el error máximo admitido en el mismo nivel.

06/04/2012 11:47

Ejercicio 1

1 de 9

http://www.uned.es/111044/examenes/Febrero 2001/feb2001-2semanax.htm

Estadística aplicada a las Ciencias Sociales

Febrero 2001 (2ª Semana) Ejercicio1. En un estudio sobre defensa y política exterior realizado en noviembre de 1977, se trabajó con una muestra de 1211 personas. De ellas, 546 consideraban que la razón por la que seguía existiendo la OTAN radicaba en que “los Estados Unidos quieren controlar el sistema de defensa europeo”. Esta respuesta se distribuía por edad del siguiente modo: Edad % 18-29 31,3 30-49 38,5 50-64 17,2 65 y más 13,0 (N=546) a) Calcula la distribución de frecuencias acumuladas y relativas acumuladas. b) Halla la mediana y la media de la distribución. c) Calcula la medida de dispersión más adecuada. d) Representa gráficamente la distribución de frecuencia relativas. De acuerdo a la misma, describe su forma. Da una interpretación de la misma. Ejercicio 2. En tres aulas distintas se da la composición de alumnos en función de su clase social, según la siguiente tabla. Aula Baja Media Alta Total A 10 5 5 20 B 20 20 20 60 C 10 20 10 40 a)

¿Cuál es la probabilidad de que al extraer al azar un sujeto de cada aula, al menos uno de ellos sea de clase social alta? b) ¿Cuál es la probabilidad de que al extraer un sujeto de cada aula, al menos uno de ellos sea de clase social baja o media? Ejercicio 3. En una universidad española que tiene en nómina a 725 profesores, la media de años de trabajo es de 7,3 y la desviación típica de 4,2 Suponiendo que se distribuyan normalmente: a) ¿A cuantas unidades de desviación típica se encuentra un profesor que lleva 10 años en la universidad respecto a la media del colectivo? b) ¿Qué número de profesores lleva menos de tres años en la universidad? c) ¿Cuál será el menor número de años trabajados por los 100 profesores que llevan el máximo número de años en la universidad? Ejercicio 4. En un estudio sobre el maltrato a mujeres queremos realizar una encuesta dirigida al colectivo femenino. ¿Qué tamaño deberá tener la muestra sabiendo que el total de habitantes de más de 16 años es de 32.000 y que el 53,8% son mujeres? Nivel de confianza = 95,5%. Error máximo = 3%.

Soluciones Ejercicio 1. a) Antes de calcular las frecuencias acumuladas necesitamos conocer las frecuencias absolutas. Lo haremos a partir de los porcentajes que es el único dato que tenemos. Lo haremos mediante la relación:

06/04/2012 11:49

Ejercicio 1

2 de 9


La frecuencia relativa es el porcentaje dividido entre cien, y N el número total de casos. En este caso N=546.

18-29 30-49 50-64 65 y más

% 31,3 38,5 17,2 13,0

n 171 210 94 71

fra 0,313 0,698 0,870 1

En la tabla anterior se han calculado también las frecuencias relativas acumuladas. Para ellos se ha utilizado:

b) La mediana la calculamos mediante la fórmula:

18-29 30-49 50-64 65 y más

n 171 210 94 71

Na 171 381 475 546

Como N/2=271, el intervalo de la mediana será el de 30 a 49 años.

Para el cálculo de la media debemos calcular las marcas de clase. Por ejemplo para el primer intervalo, Li el límite inferior es 18 y Ls el límite superior es 29,9999 30. (Por ejemplo una persona con 29 años 9 meses y siete días, se dice que tiene 29 años). En este caso:

El último intervalo que es abierto se cerró en 89 años (Ls=90).

06/04/2012 11:49

Ejercicio 1

3 de 9


Así obtenemos la tabla:

18-29 30-49 50-64 65 y más Total

Xi 24 40 57,5 77

n 171 210 94 71 546

NXi 4104 8400 5405 5467 23376

La media será:

c) En este caso como se trata de una variable continua “edad”, una buena solución es la varianza o la desviación típica. El cálculo de la varianza lo haremos con ayuda de la siguiente tabla:

18-29 30-49 50-64 65 y más Total

Xi

n

24 40 57,5 77

171 210 94 71 546

n(Xi)2 98496,0 336000,0 310787,5 420959,0 1166242,5

Utilizaremos por comodidad de cálculo, la fórmula:

06/04/2012 11:49

Ejercicio 1

4 de 9


06/04/2012 11:49

Ejercicio 1

5 de 9


d) Para la representación gráfica en un histograma hay que tener en cuenta que los intervalos, tienen distinta amplitud, por ello habrán de calcularse las alturas “h”. La base “b” de la figura es Base=Ls-Li. El área “a” en este caso serán las frecuencias relativas.

18-29 30-49 50-64 65 y más

Base 12 20 15 25

Área 31,3 38,5 17,2 13,0

h 2,6 1,9 1,1 0,5

Pulsar aquí para ver gráfico

Sobre el histograma se ha superpuesto un polígono de frecuencias para mostrar de forma más clara el tipo de distribución. El gráfico muestra que se trata de una distribución fuertemente asimétrica (positiva), y unimodal. Se corresponde con el tipo de curva “J”. Es decir los casos de la variable están muy concentrados en el extremo inferior descendiendo el número de casos a medida que aumenta la edad.

06/04/2012 11:49

Ejercicio 1

6 de 9


¿Quiere esto decir que los jóvenes suponen en mayor medida que los mayores que los “Estados Unidos quieren controlar el sistema de defensa europeo”? Con los datos que tenemos no podemos afirmarlo así, puesto que en la población general también hay más jóvenes que mayores.

Ejercicio 2. a) En este ejercicio se obtiene una muestra de tres elementos en la que cada elemento pertenece a un estrato (aula). Si denotamos con “1” cuando el elemento seleccionado es de clase alta y con un “0” en el caso contrario, existen 23=8 muestras posibles:

Muestra 1 Muestra 2 Muestra 3 Muestra 4 Muestra 5 Muestra 6 Muestra 7 Muestra 8

A 1 1 1 0 0 1 0 0

Aula B 1 1 0 1 1 0 0 0

C 1 0 0 0 1 1 1 0

La suma de la probabilidad que tiene cada muestra de ser seleccionada es la unidad. De las ocho muestras en 7 hay un individuo de clase alta. Resulta más cómodo calcular la probabilidad de obtener la muestra en la que no hay nadie de clase alta y obtener el complemento a la unidad de dicha probabilidad. Este resultado sería idéntico que la suma de la probabilidad de las siete primeras muestras. P(A,B,C)=(0,0,0) se calcula mediante el producto de la probabilidad de obtener un individuo que no sea de clase alta en cada aula, ya que se trata de selecciones independientes. Las probabilidades son: PA(1)=5/20=0,25 PB(1)=20/60=0,333 PC(1)=10/40=0,25

PA(0)=0,75 PB(0)=0,667 PC(0)=0,75

Por tanto la probabilidad pedida será: P=1-(PA(0)x PB(0)x PC(0))=1-(0,75x0,667x0,75)=1- 0,375=0,625=62,5% b)

El razonamiento es idéntico al anterior. Si denotamos con “1” cuando el elemento pertenece a la clase baja o media y con “0” cuando pertenece a la clase alta tenemos:

PA(0)=5/20=0,25 PB(0)=20/60=0,333 PC(0)=10/40=0,25

PA(1)=0,75 PB(1)=0,667 PC(1)=0,75

P=1-(PA(0)x PB(0)x PC(0))=1-(0,25x0,333x0,25)=1- 0,021= 0,979=97,9% (En este caso hemos calculado la probabilidad de que la muestra esté compuesta por tres elementos de clase alta y hemos hallado su complemento respecto a la unidad.) Ejercicio 3. 06/04/2012 11:49

Ejercicio 1

7 de 9


a)

b)

06/04/2012 11:49

Ejercicio 1

8 de 9


Área(0-1)=0,3413 P(x<3)=0,5-0,3413=0,1587 Luego 715x0,1587=115 profesores

c)

El área pintada corresponde con los cien profesores más antiguos. Dicho área vale:

El valor pedido es el límite inferior del área sombreada “x”. En primer lugar vamos a hallar el valor Z correspondiente. Como desde la media hasta el extremo superior el área es ½, el área no sombreada valdrá: 0,5-0,1379=0,3621 Dicho área se corresponde con un Z=1,09 Despejando x obtenemos que:

06/04/2012 11:49

Ejercicio 1

9 de 9


Así obtenemos que los cien profesores más antiguos llevan como mínimo 11,9 años. 4. Ejercicio En primer lugar calculamos cual es la población femenina, o universo de nuestra encuesta. N=32300x0,538=17377,4 Tomamos un valor entero como N=17377. Como no tenemos ninguna información sobre la característica de estudio, supondremos el caso más desfavorable p=q= ½. A continuación aplicamos la fórmula de poblaciones finitas:

Con n=1044 obtendremos un error inferior al 3% para un nivel de confianza del 95,45%

06/04/2012 11:49

Examen de Estadística Aplicada a las Ciencias Sociales

1 de 6

http://www.uned.es/111044/examenes/febrero 2002/Febrero2002 1sem...

Examen de Estadística Aplicada a las Ciencias Sociales Enero 2002 1ª Semana Ejercicio 1. El total anual de fallecidos menores de 40 años en accidentes de tráfico en los años 1980 y 1998 figura en la tabla siguiente que recoge la distribución por edades: Grupos de edad 0-4 5-9 10-14 15-19 20-24 25-29 30-34 35-39

1980

1998

190 195 167 632 705 450 445 338

69 68 83 581 827 697 533 437

A) Represente gráficamente los datos. B) Calcule las medidas de tendencia central y dispersión más adecuadas. C) Comente los resultados comparando los datos de 1980 y 1998. Ejercicio 2. En una carrera ciclista de 50 Kilómetros participan 10.300 corredores. A los 10 Km. El número de corredores es de 9.000; a los 20 Km., el número de corredores es de 7.500; a los 30 Km., llegan 5.000 corredores y concluyen la carrera 3.200 corredores. A) ¿Qué probabilidad tiene un corredor que inicia la prueba de llegar a los 30 Km.? B) ¿Qué probabilidad tiene un corredor que ha alcanzado los 20 Km. De llegar a los 30 Km.? C) ¿Qué probabilidad tiene un corredor que inicia la prueba de completarla? Ejercicio 3. En una facultad de Ciencias Políticas y Sociología, la media de edad de los matriculados es de 26 años, con una desviación típica de 4,7 años. Sabiendo que existen 7.800 alumnos matriculados y suponiendo que dicha población se ajusta al patrón de la distribución normal, a) ¿Cuál es la probabilidad de extraer al azar de entre los matriculados un alumno mayor de 35 años? b) ¿Cuántos alumnos tendrán entre 24 y 28 años? c) ¿Cuántos tendrán menos de 24 años? d) ¿Cuál es la edad mínima del 20% de los matriculados de mayor edad? Ejercicio 4. La UNED quiere realizar un estudio sobre el porcentaje de egresados que se han incorporado al mercado de trabajo a partir de los 20.000 licenciados que han obtenido su título entre el año 1990 y 2000. Para ello piensa dedicar 3.500.000 pesetas en realizar la encuesta. El coste de cada entrevista se sitúa en 5.000 pesetas ¿Cuál será el margen de error si se establece un nivel de confianza de Z=2 (95,5%)

EJERCICIO 1. A) La representación gráfica mediante líneas permite comparar ambas series de datos de la forma sencilla y clara. Al ser diferente el número de casos de ambos períodos, se representan las frecuencias relativas.

06/04/2012 11:52


2 de 6


B) Dado que la variable de las series está medida con nivel de intervalo, conviene utilizar la media y la desviación típica como medidas de tendencia central y dispersión. Para calcular las medias, definiremos las marcas de clase para cada categoría, y construiremos una tabla con el producto de cada marca de clase por la frecuencia correspondiente. Utilizando los subíndices 1 y 2 para diferenciar las series de 1980 y 1998, Marca de clase

Frec. 1980

xini 1980

Frec. 1998

xini 1998

2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 Totales

190 195 167 632 705 450 445 338 3122

475 1462,5 2087,5 11060 15862,5 12375 14462,5 12675 70460

69 68 83 581 827 697 533 437 3295

172,5 510 1037,5 10167,5 18607,5 19167,5 17322,5 16387,5 83372,5

En cuanto a las marcas de clase utilizadas para el cálculo, es necesario hacer notar que los intervalos de la tabla están representados de forma que el límite superior de un intervalo parece no coincidir con el límite inferior del siguiente. Cuando se presentan los datos resumidos, se han redondeado los valores; cuando leemos que un intervalo comprende, por ejemplo, de 5 a 9 años, hemos incluido desde 5 hasta 9,999 es decir hemos tomado años cumplidos, con lo que la marca de clase será 7,5.

años ;

años.

Para calcular la desviación típica a partir de los datos agrupados, construimos columnas con la diferencia 06/04/2012 11:52


3 de 6


de cada uno de los valores de la variable respecto a la media, elevadas al cuadrado y multiplicadas por la frecuencia en cada categoría. Para el año 1980, Marca de clase

Frecuencia=n

(x-media)

(x-media)2

(x-media)2ni

2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 Totales

190 195 167 632 705 450 445 338 3122

-20,0688661 -15,0688661 -10,0688661 -5,06886611 -0,06886611 4,93113389 9,93113389 14,9311339

402,759387 227,070726 101,382065 25,6934037 0,00474254 24,3160814 98,6274203 222,938759

76524,2835 44278,7915 16930,8048 16238,2311 3,34349162 10942,2366 43889,202 75353,3006 284160,194

años

De forma análoga se calcula para el año 1998, Marca de clase

Frecuencia=n

(x-media)

(x-media)2

(x-media)2ni

2,5 7,5 12,5 17,5 22,5 27,5 32,5 37,5 Totales

69 68 83 581 827 697 533 437 3295

-22,8027314 -17,8027314 -12,8027314 -7,80273141 -2,80273141 2,19726859 7,19726859 12,1972686

519,96456 316,937246 163,909932 60,8826175 7,85530336 4,82798925 51,8006751 148,773361

35877,5546 21551,7327 13604,5243 35372,8008 6496,33588 3365,10851 27609,7598 65013,9588 208891,775

años. Si hemos de comparar la dispersión en ambas distribuciones, al tener medias diferentes, utilizaremos el coeficiente de variación como medida de dispersión relativa: para cada uno de los períodos.

Coeficiente variación

Año 1980 42,27

Año 1998 31,46

D) A la vista de la representación gráfica y las medidas de tendencia central y dispersión, cabe destacar la elevación de las edades de las personas fallecidas en accidente, y el incremento de las muertes, desde 1980 hasta 1998. Dado que no disponemos de más información que la edad de los fallecidos y su número, debemos dirigir la atención a otros aspectos del fenómeno. Cabe suponer que la diferencia se debe a la menor proporción de niños en el año 1998 respecto del 1980. Asimismo el incremento de muertos en accidente, puede estar relacionado con el mayor número de conductores y vehículos. Aunque no debemos despreciar otras causas y deberíamos dirigir 06/04/2012 11:52


4 de 6


también la mirada hacia los hábitos en la conducción, las medidas de seguridad dirigidas a los niños, la edad a la que se obtiene el carnet de conducir etc, para un análisis más detallado. EJERCICIO 2. A) La probabilidad de que al elegir un corredor al azar, éste haya llegado a los 30 Km, será el cociente del numero de corredores que alcanza esa distancia dividido por el número total de corredores:

B) De forma análoga, la probabilidad de que un corredor que ha alcanzado los 20 Km llegue a los 30, considera el número de casos posibles los 7.500 que llegan a los 20 Km y el de casos favorables los 5.000 que llegan a los 30 Km:

B) Teniendo en cuenta que sólo acaban la carrera 3.200, y que la inician 10.300.:

EJERCICIO 3. A) Dado que la población se ajusta al patrón de la curva normal, hallaremos la proporción de casos que superen el valor 35. Para ello calculamos el valor Z para x=35, y obtendremos mediante las tablas de la curva normal, la proporción de casos que se encuentran entre la media y el valor 35. Como lo que queremos es saber la proporción de casos por encima de 35, debemos restar el valor de la tabla para el Z dado de 0,5.

que en las tablas se corresponde con el valor 0,4719. Es decir, que el 47,19% de los casos se encuentran entre la media y el valor 35. Si restamos 0,4719 de 0,5 obtenemos 0,0281, que es la probabilidad de encontrar al azar a un alumno de más de 35 años.

B) Calculamos primero el área entre la media y el valor 28 en las tablas se corresponde con el valor 0,1664

06/04/2012 11:52


5 de 6


como la curva es simétrica y 24 está a la misma distancia de la media que 28, el cálculo de Z para 24 produce un resultado idéntico, por lo que el área entre 24 y 28 será la suma de ambos valores 0,1664+0,1664=0,3328.

El 33,28% de los casos queda comprendido en dicho intervalo: el número de alumnos pedido es el 33,28% de 7.800, es decir: 2.596 alumnos. C) Utilizando el cálculo del apartado anterior, el número de los que tienen menos de 24 años será 0,5-0,1664=0,3336. El 33,36% de 7.800, resulta 2.602 alumnos.

D) La edad mínima la obtenemos utilizando la fórmula de los números Z , pero despejando el valor de la variable. En las tablas buscaremos el valor Z que se corresponde con el valor 0,3000 pues la tabla nos ofrece el área entre la media y un valor de la variable y necesitamos el área entre ese valor y el extremo de la curva (50%-20%=30%).

si despejamos x, queda:

06/04/2012 11:52


6 de 6


años. Será el valor a partir del cual se encuentra el 20% de los alumnos de más edad. EJERCICIO 4. Si tenemos un presupuesto y se gasta entero en las encuestas, sabiendo que cada entrevista cuesta 5.000 Ptas., se podrán hacer 700. Utilizaremos la fórmula del tamaño muestral y despejaremos el margen de error: Considerando que se trata de una población finita (N<100.000), utilizaremos la fórmula aunque se podría utilizar la fórmula para poblaciones infinitas al ser n muy pequeño en relación a N y resultar el factor de corrección muy próximo a la unidad. Teniendo en cuenta que no conocemos los valores de p y q para la población, calculamos suponiendo el caso menos favorable de p = q = 0,5 sustituyendo los valores: despejándole valor de e, obtenemos el margen de error solicitado: e = 0,0371.

06/04/2012 11:52

Ejercicio 1

1 de 9


Examen de Estadística Aplicada a las Ciencias Sociales Enero 2002 2ª Semana Ejercicio 1. Después de extraer una muestra aleatoria de 450 estudiantes que aprobaron las últimas pruebas de Selectividad de Madrid, se obtuvo la siguiente distribución de frecuencias de sus calificaciones: Calificación 5,0-5,9 6,0-6,9 7,0-7,9 8,0-8,9 9,0-9,9 a) b) c) d)

Número de casos 170 130 70 60 20

Calcule la distribución de frecuencias relativas y relativas acumuladas. ¿Cuál es la nota media de los aprobados en selectividad de esta muestra? Calcule la dispersión relativa de esta distribución. ¿Podría describir, sin hacer cálculo alguno, la forma de esta distribución?

Ejercicio 2. El partido X de un país consigue el 20% de los votos en unas elecciones. Se lleva a cabo un sondeo a 15 electores: a) ¿Qué probabilidad existe de que entre los encuestados no haya ningún votante de ese partido? b) Probabilidad de que no haya más de cuatro votantes al partido X. c) Probabilidad de que al menos 3 voten a ese partido. d) Calcular la media y la desviación típica del número de votantes a dicho partido entre los 15 ciudadanos entrevistados. Ejercicio 3. Las notas de una asignatura en un curso siguen una distribución normal, con media 6,4 y desviación típica 2,5. Calcule: a) La probabilidad de que un alumno obtenga menos de 5 puntos. b) ¿Cuántos alumnos de un grupo de 200 obtendrá sobresaliente con un 8,5 o más? c) ¿Cuál será la nota a partir de la cual se aprueba, si suspende el 30% de los alumnos de ese curso? Ejercicio 4. Un Centro de Investigación de Temas de Paz y Seguridad decide realizar una encuesta a los españoles mayores de 18 años acerca de su opinión sobre la intervención militar en Afganistán. ¿Cuántos elementos deberá tener la muestra sabiendo que se tolera un error máximo de un 3,5% y se ha de contar con un nivel de confianza del 95%?

*************** Ejercicio 1 a)

La frecuencia relativa de cada categoría será el resultado de dividir la frecuencia absoluta “n” de cada

categoría entre el total de casos. Así, La frecuencia relativa acumulada en la categoría “j” será la suma de las frecuencias relativas de la propia categoría y de las categorías anteriores.

06/04/2012 11:53

Ejercicio 1

2 de 9


Los cálculos se realizan en la tabla siguiente: Calificación 5,0-5,9 6,0-6,9 7,0-7,9 8,0-8,9 9,0-9,9 Total

b)

n 170 130 70 60 20 450

fr 0,378 0,289 0,156 0,133 0,044 1

fra 0,378 0,667 0,822 0,956 1,000

El cálculo de la media cuando los datos están agrupados será el producto de la frecuencia por el valor medio de la categoría o marca de clase dividido por el total de casos:

La tabla siguiente nos ayuda en los cálculos parciales: Xc 5,5 6,5 7,5 8,5 9,5 Total

c)

n 170 130 70 60 20 450

n Xc 935 845 525 510 190 3005

La dispersión relativa vendrá dada por el Coeficiente de Variación o cociente de la desviación típica entre la media, medido en porcentaje:

La desviación típica la calculamos con ayuda de la tabla: Xc 5,5 6,5 7,5 8,5 9,5 Total

n 170 130 70 60 20 450

(Xc)2 30,25 42,25 56,25 72,25 90,25

n(Xc)2 5142,5 5492,5 3937,5 4335,0 1805,0 20712,5

06/04/2012 11:53

Ejercicio 1

3 de 9


Entonces: d)

Se trata de una distribución claramente asimétrica, los casos se concentran en los valores más bajos. Es por ello una distribución unimodal asimétrica positiva. Su representación gráfica sería una línea descendente de izquierda a derecha.

06/04/2012 11:53

Ejercicio 1

4 de 9


Ejercicio 2

Se trata de una distribución binomial con p=0,2 y n=15 Dado que nq=12 >5 utilizaremos la aproximación normal para el cálculo. Para comenzar calculamos la media y la desviación típica de la distribución: Media: np=12x0,2=3 Desviación Típica:

a) Se pide p(x=0)

Por tanto la probabilidad pedida será la diferencia entre las áreas de valores: Z(x-0,5)-Z(x+0,5)

Consultando los valores en tablas P(x=0)= F(-2,26)- F (-1,61)=0,4881-0,4463=0,0418 P(x=0)=4,18%

06/04/2012 11:53

Ejercicio 1

5 de 9


b) Se pide p(x<5)

Por tanto El valor de su área correspondiente es: F(0,97)=0,3340 Por lo tanto p(x<5) será 0,5+0,3340=0,8340 P(x<5)=83,4%

c) Se pide p(x>2)

Por tanto El valor de su área correspondiente es: F(-0,32)=0,1255 Por lo tanto p(x>2) será 0,5+0,1255=0,6255 P(x>2)=62,55%

06/04/2012 11:53

Ejercicio 1

6 de 9


d) Cálculo ya realizado: Media:3 Desviación Típica: 1,55

06/04/2012 11:53

Ejercicio 1

7 de 9


Ejercicio 3 Se trata de una distribución normal con a) Se pide p(x<5)

=6,4 y Sx=2,5

Por tanto El valor de su área correspondiente es: F(-0,56)=0,2123 Por lo tanto p(x<5) será 0,5-0,2123=0,2877 P(x<5)=28,77%

06/04/2012 11:53

Ejercicio 1

8 de 9


b) Se pide p(x>8,5)

Por tanto El valor de su área correspondiente es: F(0,84)=0,2995 Por lo tanto p(x>8,5) será 0,5-0,2995=0,2005 P(x>8,5)=20,05% Para N=200, el número de alumnos con calificación mayor de 8,5 será: 200x0,2005=40

06/04/2012 11:53

Ejercicio 1

9 de 9


c) Se pide conocer “y” dada la siguiente relación p(x
El valor de p es el resultado de Fy=0,5-0,3. Por lo tanto, el área es 0,2 y el valor de su correspondiente Z es: -0,525

Si despejamos:

Tenemos que -0,525x2,5+6,4=y Entonces y=5,0875

Ejercicio 4 Considerando el caso más desfavorable cuando p=q=0,5. El tamaño “n” de la muestra vendrá dado por la fórmula:

06/04/2012 11:53

Soluciones Examen Febrero 2003 1ª Semana

1 de 7

http://www.uned.es/111044/examenes/febrero 2003/Soluciones Exame...

FACULTAD DE CIENCIAS POLÍTICAS Y SOCIOLOGÍA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Febrero 2003 (1ª Semana) MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...) DURACIÓN: 2 Horas. PUNTUACIÓN: Ejercicios 1 y 3= máximo 3 puntos; ejercicios 2 y 4: máximo 2 puntos.

EJERCICIO 1.- A continuación tiene las dos distribuciones por sexo y edad de los parados españoles (sin empleo anterior) {abril 2002}

Grupos de edad < 20 años 20 – 24 años 25 – 29 años 30 – 44 años > 44 años

Hombres Mujeres Frecuencia 17.654 10.943 9.322 11.106 14.216

Frecuencia 20.902 34.448 26.834 52.854 41.274

a)

¿Qué población (la de hombres o la de mujeres) presenta una edad media mayor?¿Cuál está más envejecida en términos medios? b) ¿Qué media representa con más fidelidad a su población? ¿Por qué? c) Realice las representaciones gráficas de las frecuencias ordinarias d) ¿Cómo ha resuelto el problema de los intervalos abiertos (1º y último) para el cálculo de la media? Explíquelo.

EJERCICIO 2.Un jugador de baloncesto tiene una estadística de 64/120 en tiros libres. Si realiza una serie de veinte lanzamientos, ¿cuál es la probabilidad de que acierte exactamente en 15? ¿y 16 ó más veces en esa misma serie?

EJERCICIO 3.En una muestra de 1800 niños de 12 años se observó una altura media de 150 cm con una desviación típica de 7,0. Suponiendo que las alturas se distribuyen de acuerdo con la curva normal, queremos saber: a) El número de niños que tienen una altura inferior a 150 cm b) El porcentaje de niños cuya altura se encuentra entre 140cm y 160 cm. c) La probabilidad de encontrar a un niño cuya altura sea superior a 160cm.

EJERCICIO 4.Un Instituto de Investigación ha de encargarse de realizar un encuesta para acercarse al problema de la violencia doméstica. Para ello toman como universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño muestral les sería necesario utilizar si el máximo error muestral permitido es del 0,8%, para un nivel de confianza del 95,5% y una varianza de p=q=50%?

Soluciones Examen Febrero 2003 1ª Semana Ejercicio 1 Cálculo de las medias: Para realizar el cálculo de las medias es necesario cerrar los intervalos abiertos. Un criterio razonable es

06/04/2012 11:54


2 de 7


considerar la edad mínima legal para trabajar, que en España es de 16 años, como límite inferior del primer intervalo, y considerar los 65 años como el límite superior del último intervalo, ya que prácticamente no hay parados, sin empleo anterior que superen esa edad. Al tener los datos agrupados en categorías, para hacer los cálculos hallamos las marcas de clase Xc, o puntos medios, de cada intervalo. Las medias para hombres y mujeres serán entonces:

Edad

Xc

16-19 20-24 25-29 30-44 45-64

Hombres ni 18,00 22,50 27,50 37,50 55,00

Total

Edad 16-19 20-24 25-29 30-44 45-64

Xc

17654 10943 9322 11106 14216

317772,00 246217,50 256355,00 416475,00 781880,00

63241

2018699,50

Mujeres ni 18,00 22,50 27,50 37,50 55,00

Total

Xc ni

Xc ni

20902 34448 26834 52854 41274

376236 775080 737935 1982025 2270070

176312

6141346

La población femenina en paro presenta una media de edad más alta que la de hombres. No obstante, los valores medios deben considerarse a la luz de la dispersión de los valores y comprobar hasta qué punto la media representa bien los datos del colectivo.

Calculamos a continuación las desviaciones típicas de ambas distribuciones:

Hombres Xc 18 22,5 27,5 37,5 55

Xc-Media -13,92 -9,42 -4,42 5,58 23,08

(Xc-Media)2 (Xc-Media)2 ni 193,79 3421115,59 88,75 971194,93 19,54 182179,28 31,13 345709,18 532,65 7572184,46 Suma = 12492383,46

06/04/2012 11:54


3 de 7


Mujeres Xc 18 22,5 27,5 37,5 55

Xc-Media -16,83 -12,33 -7,33 2,67 20,17

(Xc-Media)2 (Xc-Media)2 ni 283,33 5922060,96 152,08 5239014,34 53,76 1442651,78 7,12 376152,37 406,74 16787687,92 Suma = 29767567,35

La distribución de mujeres paradas presenta una dispersión menor que la de hombres, pero como las distribuciones que queremos comparar tienen medias diferentes, es necesario que la comparación tenga en cuenta esta diferencia, por lo que utilizaremos el Coeficiente de Variación:

Obtenemos a continuación los coeficientes: Coeficientes de Variación Hombres 44,03 Mujeres 37,30 Puede observarse que existe mayor variación entre los datos de los hombres que entre los de las mujeres, por lo que la media de las mujeres representa con más fidelidad a su población. Ejercicio 2. Se puede calcular mediante la distribución binomial, ya que se trata de una variable dicotómica en una sucesión de eventos con una probabilidad de 64/120 para cada suceso aislado (es decir, p=0,53 y q=0,47) La probabilidad de que se consigan 15 canastas exactamente es:

siendo La probabilidad de conseguir 16 o más canastas, es la suma de las probabilidades de conseguir 16, 17, 18, 19 y 20 canastas respectivamente.

06/04/2012 11:54


4 de 7


La probabilidad de obtener 16 o más canastas será la suma de los cálculos anteriores:

El cálculo se puede hacer de otra manera, con una aproximación mediante la distribución normal, con media

y desviación típica

Para aproximar una distribución binomial mediante una distribución normal, hay que utilizar la corrección de continuidad, ya que la binomial es discreta mientras que la normal es continua. Para calcular la probabilidad de que se encesten exactamente 15 canastas, el uso de la corrección equivale a suponer, que 15 es la marca de clase del intervalo 14,5- 15,5 Por tanto buscamos el área bajo la curva normal entre los valores Z correspondientes a 14,5 y 15,5

El área entre la media y el valor Z14,5 es 0,4599 El área entre la media y el valor Z15,5 es 0,4861 Por tanto la probabilidad buscada será la diferencia: 0,4861-0,4599= 0,0262 es decir, la probabilidad de que el jugador enceste exactamente 15 veces es del 2,62%

En el caso de la probabilidad de encestar 16 o más veces en 20 intentos sería:

Obsérvese que para tener en cuenta la continuidad de la curva normal, se resta 0,5 al ser 16 superior a la media (en caso contrario se restaría 0,5)

06/04/2012 11:54


5 de 7


Si miramos en las tablas de la curva normal 0,1 para un Z = 2,2 obtenemos un área de 0,4861. Como las tablas nos ofrecen el área acumulada desde la media hasta ese punto, si queremos conocer el área entre ese punto y el infinito, debemos restar el valor de 0,5 (ya que el área bajo la curva normal es 1 y la media divide la curva en dos partes simétricas) 0,5-0,4861=0,0139 (valor aproximado al que hemos calculado con la distribución binomial)

Ejercicio 3 Ya que las alturas de los alumnos de la muestra se distribuyen según la curva normal, utilizamos la tabla de “áreas bajo la curva normal”. Calculamos la distancia entre el valor que queremos considerar y la media de la distribución. Dividimos ese valor entre la desviación típica y así obtenemos esa distancia medida en unidades de desviación, es decir en puntuaciones “Z” o “normalizadas”. Posteriormente obtenemos las áreas correspondientes en las tablas de la curva normal. El número de niños por debajo de los 150 cm de estatura, es la mitad de todos los niños, ya que el valor 150 es el valor medio, y en una curva normal ese valor, divide la distribución en dos partes iguales.

Por lo tanto, el número de niños por debajo de 150 cm de estatura, será 900 niños.

El porcentaje de niños que tienen entre 140 y 160 cm, se obtendrá sumando las áreas correspondientes a los valores Z obtenidos para 140 y 160.

el área entre la media y el valor 140 es 0,4251

06/04/2012 11:54


6 de 7


el área entre la media y el valor 160 es 0,4251

Por lo tanto, el porcentaje de niños cuya altura está comprendida entre 140 y 160 cm, será la suma de los porcentajes representados por las áreas halladas, 0,4251+0,4251=0,8502 es decir, el 85,2% de los niños de la muestra tienen una estatura comprendida entre 140 y 160 cm. La probabilidad de encontrar un niño cuya altura sea superior a 160 cm, se obtiene restando el porcentaje de niños que se encuentran entre la media y 160 (que ya hemos calculado anteriormente, 42,51%) del porcentaje de niños por encima de la media, que es el 50% 50 - 42,51 = 7,49%

Ejercicio 4 Utilizaremos la fórmula de “poblaciones infinitas” para hallar el tamaño muestral requerido para no superar el error del 0,8 %

06/04/2012 11:54


7 de 7


Siendo 2 el valor de Z para un Nc del 95,5%

Obsérvese que al haber elegido un margen de error muy pequeño, la muestra resulta de un tamaño muy grande. Si se pudiera renunciar a ese grado de precisión en las estimaciones, se reduciría sustancialmente el tamaño de la muestra: Supongamos que admitimos un error del doble del valor propuesto, es decir e = 1,6 %, comprobaremos que el tamaño muestral se reduce a 3.907 unidades.

06/04/2012 11:54

Ejercicio 1

1 de 9

http://www.uned.es/111044/examenes/febrero 2003/exestfeb03.htm

Nótese que las frecuencias relativas suman más de la unidad, exactamente 1,019. Esto se debe a que la FACULTAD CIENCIAS POLÍTICAS SOCIOLOGÍA cuestión es de respuesta múltiple, DE es decir un entrevistado podíaYseñalar más de un país como amenaza. Las frecuencias absolutas suman más del valor de n=757, concretamente 771. Estos 771 no son ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES entrevistados, que sólo hay 757, sino el número de respuestas, en este caso países mencionados. Febrero 2003 (2ª Semana) MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...) DURACIÓN: 2 Horas. PUNTUACIÓN: Ejercicios 1 y 3= máximo 3 puntos; ejercicios 2 y 4: máximo 2 puntos. EJERCICIO 1.En el Barómetro de septiembre de 2002 del Centro de Investigaciones Sociológicas, ante la pregunta relativa a la existencia de algún país que amenace la paz en España, se obtuvo la siguiente distribución de frecuencias: Países

Porcentaje

Marruecos Estados Unidos Irak Países árabes e Islámicos

67% 19% 8,2% 7,7%

Teniendo en cuenta que de una muestra total de 2484 españoles, sólo 757 afirmaron creer en la existencia de una amenaza a la seguridad española por parte de algún otro país., y que de estos últimos se obtuvo la distribución de frecuencias anterior: a) b) c)

Calcule la distribución de frecuencias ordinaria y relativa. Represente gráficamente la distribución de frecuencias relativas Observe las categorías de respuesta utilizadas por los investigadores y piense si es posible mejorarlas. ¿Propondría alguna alternativa? d) Calcule la razón entre los que piensan que la amenaza procede de Marruecos frente a los que piensan que viene de Estados Unidos.

EJERCICIO 2.¿Cuál será la probabilidad de obtener cinco o menos aciertos en una prueba de examen tipo test compuesta por 20 preguntas y cuatro opciones de respuesta por pregunta?

EJERCICIO 3.Los resultados del examen de septiembre de 2002 de una asignatura dieron una puntuación media de 5,3 y una desviación típica de 1,9 sobre un total de 425 alumnos presentados a examen. Suponiendo una distribución normal en los resultados: a) ¿Cuál es la probabilidad de seleccionar a un alumno con una puntuación de 7 o más? b) ¿Cuántos alumnos habrán tenido una puntuación de 5 o menos? c) ¿A partir de qué puntuación se encuentra el 25% de los alumnos peor puntuados?

EJERCICIO 4.Un investigador pretende llevar a cabo una encuesta sobre el uso del tiempo por parte de los habitantes de un determinado municipio de 75.438 habitantes. El Ayuntamiento de dicho municipio le ha concedido para llevar a cabo dicha encuesta una subvención de 12.000 €. Si cada entrevista tiene un precio de 18 euros, ¿Cuál será el error muestral que tendrá que asumir en este estudio, para un nivel de confianza del 95,5% y una varianza p=q= 0,5?

Soluciones Examen Febrero 2003 2ª Semana Ejercicio 1

06/04/2012 11:55

Ejercicio 1

2 de 9


a)

Las frecuencias relativas son los propios porcentajes expresado en tantos por uno. Las frecuencias absolutas se obtienen a partir de las relativas mediante el producto de estas por el número de casos “n”. En este ejercicio n=757, que son quienes han respondido a esta pregunta.

Así,

Marruecos Estados Unidos Irak Países árabes e islámicos

b)

fri 0,670 0,190 0,082 0,077

ni 507 144 62 58

Para la distribución gráfica puede utilizarse los gráficos de barras, áreas, sectores e incluso en este caso el mapa.

PAÍSES CITADOS COMO AMENAZA

Fuente: Estudio CIS, Septiembre 2002


06/04/2012 11:55

Ejercicio 1

3 de 9


Fuente: Estudio CIS, Septiembre 2002.


Fuente: Estudio CIS, Septiembre 2002.

c)

La codificación de las respuestas dadas por los investigadores resulta confusa por la ambigüedad de la última categoría. La equivalencia entre países islámicos y árabes es sesgada ideológicamente, porque un término se refiere a situación geográfica –árabes- y otro a prácticas religiosas –islam-. (Nótese, por ejemplo que no se dice: países americano católicos).

d)

La razón viene dada por el cociente entre la frecuencia de ambas casillas. En este caso: Es decir por cada entrevistado que señala que EEUU es una amenaza para España hay más de tres que piensan lo mismo respecto de Marruecos.

06/04/2012 11:55

Ejercicio 1

4 de 9


Ejercicio 2 Se trata de calcular la probabilidad para x £5 en una distribución binomial, de n=20 y p=0,25. En este caso, como la media es 5, puede utilizarse la aproximación normal. Mediante la aproximación normal calculamos los parámetros:

Para x=5 el valor en unidades Z vendrá determinado por:

Aplicando la corrección de continuidad

Las tablas señalan que el área para Z=0,26 es p=0,1026, y como x=5,5 se encuentra a la derecha de la media, la probabilidad será: 0,5+0,1026=0,6026=60,26%.

06/04/2012 11:55

Ejercicio 1

5 de 9


La solución mediante la distribución binomial, aunque mucho más compleja, es más exacta:

X=0 X=1 X=2 X=3 X=4 X=5

1 20 190 1140 4845 15504

1 0,25 0,0625 0,015625 0,00390625 0,00097656

0,00317121 0,00422828 0,00563771 0,00751695 0,01002260 0,01336346

0,00317121 0,02114141 0,06694781 0,13389562 0,18968545 0,20233115 0,61717265

En este caso la probabilidad es 61,7% ligeramente superior a la obtenida mediante la aproximación normal.

06/04/2012 11:55

Ejercicio 1

6 de 9


Ejercicio 3 a) El área señalada será, el complemento del área Z al valor 0,5.

Para este Z el área es: 0,3133 así la probabilidad pedida es: 0,5-0,3133=0,1867 Es decir, el 18,67%

06/04/2012 11:55

Ejercicio 1

7 de 9


b) En primer lugar hay que calcular la probabilidad señalada. Esta será el complemento a un medio del área Z.

Para este Z el área es: 0,0636 así la probabilidad pedida es: 0,5-0,0636=0,4364 Es decir, el 43,64% que equivale a 425x0,4364=185 alumnos.

06/04/2012 11:55

Ejercicio 1

8 de 9


c) En este caso conocemos el valor del área y hay que calcular x. En primer lugar de las tablas deducimos que un área de 25% tiene un valor “z” correspondiente Z=-0,675. (Nótese que tiene valor negativo porque está a la izquierda de la media).

Por lo tanto:

La nota que se corresponde con el primer cuartil es por tanto un “4”.

06/04/2012 11:55

Ejercicio 1

9 de 9


Ejercicio 4 Con dicho presupuesto el número máximo de encuestas será:

Es decir, 666 encuestas. El error para poblaciones finitas viene dado por:

Sin embargo en este caso como supera con creces la relación, N>20n podemos prescindir del factor corrector de poblaciones finitas. (Tendrá un valor casi idéntico a la unidad). Así:

Por tanto, el máximo error será del 3,87%

06/04/2012 11:55

Estadística Aplicada a las Ciencias Sociales

1 de 6

http://www.uned.es/111044/examenes/Febrero 2004/febrero2004-1.htm

Estadística Aplicada a las Ciencias Sociales Febrero 2004 (1ª Semana) Ejercicio 1. A continuación tiene dos distribuciones por sexo y salario declarado en el primer empleo tras obtener la licenciatura de un grupo de titulados por la UNED. Salario en € < de 600 De 601 a 900 De 901 a 1200 De 1201 a 3000 > de 3000

a) b) c) d)

Hombres en % 10,1 16,7 9,3 57,2 6,7 (N=96)

Mujeres en % 17,8 23,8 26 31,2 1,2 (N=96)

¿Qué población (la de hombres o la de mujeres) presenta un salario medio mayor? ¿Qué porcentaje de varones gana más de 900 €? Realice la representación gráfica de las frecuencias ordinarias de las mujeres. ¿Cómo ha resuelto el problema de los intervalos abiertos (1º y último) para el cálculo de la media? Explíquelo.

Ejercicio 2. En un municipio se encontró que el 30% de 1.605 personas tomadas como muestra, tenían sólo estudios primarios. Con objeto de realizar una prueba en la zona se seleccionan 6 personas y se desea conocer. a) Número medio de personas que espera tengan estudios primarios de las seis elegidas. b) Probabilidad de que tres de las seis tengan estudios más altos que primarios. c) Probabilidad de que ninguno tengan estudios primarios. Ejercicio 3. En una muestra de 700 contratados de distintas ONG’S asturianas se observó un salario medio de 930 €, con una desviación típica de 126 €. Suponiendo que los salarios se distribuyen de acuerdo al patrón de la curva normal, calcula: a) El número de contratados que tienen un salario inferior a 600 €. b) El porcentaje de contratados con salarios entre 750 y 850 €. c) La probabilidad de encontrar a un contratado con salario superior a 1200 €. Ejercicio 4. Un investigador pretende realizar un estudio mediante encuesta para conocer algo mejor las actitudes de los españoles hacia el control de los contenidos de los programas de las televisiones públicas. Para ello toman como universo poblacional al conjunto de españoles de 18 o más años. ¿Qué tamaño muestral les sería necesario utilizar si el máximo error muestral permitido es del 2%, para un nivel de confianza del 95,5% y una varianza máxima de p=p=50%?

SOLUCIONES: Ejercicio 1. a) Para conocer las medias de ambas distribuciones a partir de las tablas, necesitamos cerrar los intervalos abiertos. Un criterio razonable, entre los posibles, para cerrar los intervalos sería es considerar el salario mínimo, 450 € al mes establecer el límite del intervalo superior, en 4.500 €, en el supuesto de que en muy

06/04/2012 11:56


2 de 6


pocos casos la primera retribución será superior a esa cantidad y elevar la cuantía distorsionaría el valor de la media que pretendemos calcular. Con estos límites calculamos los puntos medios de los intervalos la distribución: Salario en € (450+600)/2 (600+900)/2 (900+1200)/2 (1200+3000)/2 (3000+4500)/2

Marcas de clase Xi 525 750 1050 2100 3750

Convirtiendo los porcentajes en frecuencias absolutas podemos calcular la media para los hombres:

Xi 525 750 1050 2100 3750

Ni 10 16 9 55 6 96

Ni*Xi 5250 12000 9450 115500 22500 164700

De manera análoga calculamos la media para las mujeres: Xi 525 750 1050 2100 3750

Ni 17 23 25 30 1 96

Ni*Xi 8925 17250 26250 63000 3750 119175

Puede verse la gran diferencia entre los salarios medios de ambas poblaciones, el salario medio de los hombres es aproximadamente 1,4 veces el de las mujeres. b) El porcentaje de varones que gana más de 900 € podemos obtenerlo directamente de la tabla sumando los porcentajes de las tres categorías superiores: % de hombres que ganan más de 900 73,2

% de mujeres que ganan más de 900 58,4

c) La representación gráfica en un histograma, Al tratarse de intervalos desiguales la mejor forma de ofrecer una representación gráfica sería haciendo que las áreas correspondientes a cada polígono sean 06/04/2012 11:56


3 de 6


proporcionales al número de licenciadas en cada intervalo, dividiendo los porcentajes (s) por la amplitud de cada intervalo (b), para obtener así la altura de los polígonos: h=s/b

Ejercicio 2. a) Los cálculos se pueden hacer mediante la distribución binomial suponiendo que todas las personas de la muestra tienen bien estudios primarios o superiores a estos, clasificando a las personas de la muestra en esas categorías con unas probabilidades respectivamente de 0,3 y 0,7

Si p = 0,3 y n =6 la media pedida = pn aproximadamente 2 (1,8) b) Si consideramos que la probabilidad de tener más de estudios primarios es p = 0,7 puede calcularse mediante la fórmula:

c) La probabilidad de que ninguno tenga estudios primarios será:

06/04/2012 11:56


4 de 6


Siendo p la probabilidad de tener sólo estudios primarios = 0,3

Los cálculos podrían haberse sustituido por la consulta de las tablas de la distribución de probabilidad binomial. Ejercicio 3. a) Utilizando las tablas de áreas bajo la curva normal, podemos obtener la proporción de contratados que se encuentra entre el valor medio y otro valor dado. Teniendo en cuenta que n=700

podemos saber a cuántas unidades de desviación estándar se encuentra el valor 600

En las tablas, la proporción de casos entre la media y 2,62 unidades de desviación es 0,4956 como queremos saber la proporción de casos más allá de ese valor, y sabiendo que el área bajo la curva es la unidad, restamos de 0,5 0,5-0,4956=0,0044 a continuación, calculamos el número de casos 0,0044*700 = 3,08 aproximadamente 3.

b)

Tenemos que hallar la diferencia de los valores en las tablas correspondientes a los valores Z de las coordenadas para 850 y 750.

que en las tablas se corresponde con un área de 0,2357 de manera análoga

que en las tablas se corresponde con 0, 4236 por tanto el restando obtenemos 0,4236-0,2357=0,1879 es decir el 18,79% de los contratados tiene un salario comprendido entre los 750 y los 850 €

06/04/2012 11:56


5 de 6


c) hallaremos el área que se encuentra entre el valor Z y el final de la curva

el valor de la tabla es 0, 4838 restando de 0,5 obtenemos esa probabilidad p = 0,5 - 0,4838 = 0,0162

Ejercicio 4.

06/04/2012 11:56


6 de 6


Se trata de calcular el tamaño muestral para Z = 2 y e= 0,02 con P=Q

Necesitaremos una muestra de 2500 unidades para no superar el 2% de error, con una probabilidad del 95,5%.

06/04/2012 11:56

Ejercicio 1

1 de 9

http://www.uned.es/111044/examenes/Febrero 2004/examen2004estadi...

Ejercicio 1. a) Los datos de la distribución vienen en porcentajes. En primer lugar convertimos los porcentajes en frecuencias relativas dividiendo por cien:

fr

Porcentaje Menos de 1 hora

19,8

Entre 1 y 2 horas

45% 0,386 38,6

0,198

Entre 2 y 3 horas

22,9

0,229

Entre 3 y 4 horas

8,9

0,089

Más de 4 horas

9,8

0,098

100,0

1,000

45%

La relación entre frecuencias absolutas y relativas es: Por tanto: Como N=2411 tenemos que:

fri

Porcentaje

fi

Menos de 1 hora

19,8

0,198

477

Entre 1 y 2 horas

38,6

0,386

931

Entre 2 y 3 horas

22,9

0,229

552

Entre 3 y 4 horas

8,9

0,089

215

Más de 4 horas

9,8

0,098

236

100,0

1,000

2411

El cálculo las frecuencias relativas acumuladas:

fr

fra

Menos de 1 hora

0,198

0,198

Entre 1 y 2 horas

0,386

0,584

Entre 2 y 3 horas

0,229

0,813

Entre 3 y 4 horas

0,089

0,902

Más de 4 horas

0,098

1

1,000

06/04/2012 11:57

Ejercicio 1

2 de 9


b)

Para la distribución gráfica tenemos que explicitar los límites de clase. Ello lo haremos en este caso convirtiendo las horas a minutos. Así menos de una hora será entre 0 y menos de 60 minutos (59,9999... minutos) , entre una y 2 horas será entre 60 y menos de 120 minutos (119,9999... minutos) etc. Para el último intervalo –“más de cuatro horas”- hay que tomar una decisión sobre su límite superior. Una solución posible es el límite absoluto, en este caso 24 horas. Dicho límite parece excesivo, nadie puede con regularidad estar 24 horas viendo la televisión. Una solución razonable puede ser tomar 12 horas, la proporción de personas que pasan más de 12 horas frente a un televisor parece que tiene ser insignificante. Sin embargo, esta solución no es del todo correcta porque supone una distribución muy uniforme de la población en el tramo entre 4 y 12 horas. A la vista de los datos parece lógico pensar que habrá más personas entre cuatro y cinco horas, que entre 5 y 6, y éstas a su vez serán más que las que estén entre 6 y 7 y así sucesivamente. Es decir parece lógico pensar que es una distribución que en el último intervalo tiene una distribución monótona descendente. Para tener en cuenta este hecho, pensando que el intervalo es entre 4 y 12 horas, y teniendo que la marca de clase en el caso de distribución uniforme estaría en 8 horas[1], podemos rebajar el intervalo superior, hasta 8 horas de forma que la marca de clase estaría alrededor de 6 horas, algo que parece bastante más razonable en la medida en que se ajusta más al comportamiento observado de la distribución. (La reflexión anterior se realiza sin tener en cuenta ninguna otra información.)

Procediendo así, la distribución quedará:

Linf

Lsup

Xc

fr

h

Menos de 1 hora

0

60

30

0,198

0,198

Entre 1 y 2 horas

60

120

90

0,386

0,386

Entre 2 y 3 horas

120

180

150

0,229

0,229

Entre 3 y 4 horas

180

240

210

0,089

0,089

Más de 4 horas

240

480

360

0,098

0,025

1,000

Como los intervalos son todos iguales excepto el último que tiene una amplitud cuatro veces mayor, calcularemos la altura del histograma para la representación de forma que h=fr para los primeros intervalos y para el último será h=fr/4.

Y la gráfica de la distribución:

Consumo medio de televisión. España 2003

06/04/2012 11:57

Ejercicio 1

3 de 9


Fuente: Barómetro Octubre 2003. CIS. Elaboración propia c) El cálculo de la media viene determinado por:

Xci

fi

Xci fi

Menos de 1 hora

30

477

14321,34

Entre 1 y 2 horas

90

931

83758,14

Entre 2 y 3 horas

150

552

82817,85

Entre 3 y 4 horas

210

215

45061,59

Más de 4 horas

360

236

113413,44

2411

339372,36

TOTAL

Luego: El consumo medio en día laborable son 140 minutos. Este tiempo son aproximadamente 2 horas y 20 minutos. d) Esta cuestión se ha comentado en el apartado b).

06/04/2012 11:57

Ejercicio 1

4 de 9


Ejercicio 2 Se trata de una distribución binomial, que dadas las magnitudes empleadas sólo puede resolverse mediante una aproximación a la distribución normal. Calculamos en primer lugar la media: La desviación típica:

Nos preguntan por la probabilidad de que suspendan 2500 candidatos. Por lo tanto, como la distribución normal es una distribución continua, deberemos buscar la probabilidad o área comprendida entre los valores 2499,5 y 2500,5. (Vid. figura)

El valor Z para x=2499,5 será:

y para 2500,5

El área entre Z(103,509) y Z(103,496) resulta despreciable y la probabilidad de que suspendan exactamente 2500 ridícula. (Menor de uno por cada 1.000.000.000.000.000=10-15). Nótese que el gráfico se ha exagerado, y realmente el área que se busca sería una línea inapreciable, casi un punto, en el extremo de la cola asintótica.

06/04/2012 11:57

Ejercicio 1

5 de 9


Para x=10000 procederemos de la misma forma: El valor Z para x=9999,5

Y para x=10000,5

Los datos muestran, al igual que en el caso anterior, que resulta casi seguro que no suspenderán exactamente 10000 opositores.

06/04/2012 11:57

Ejercicio 1

6 de 9


Ejercicio 3. a) La representación gráfica nos ayuda a plantear la cuestión:

La probabilidad pedida es el área de color rojo, a la derecha de 35. P(x>35). Como la edad está registrada en edad cumplida, mayor de 35 significa con 36 y más. P(x ³ 36). El valor Z para x=36 nos señalará el área de color morado. Por tanto el área pedida será el complemento a 0,5.

La tabla nos señala que el área para Z=1,25 es: 0,3944 (área de color morado) Por lo tanto la probabilidad buscada, área de color rojo, será: P(x ³ 36)=0,5-0,3944=0,1056. El 10,56% de los usuarios, que en total de efectivos supone: Np=820x0,1056=86,59 Es decir 87 elementos de la muestra tendrán más de 35 años.

06/04/2012 11:57

Ejercicio 1

7 de 9


b) Representamos gráficamente el enunciado:

Se trata de calcular y sumar las dos áreas representadas en color naranja. El valor Z asociado a x=22:

La tabla nos indica que el área desde x=22 hasta la media es: 0,1664 El valor Z asociado a x=32

La tabla nos indica que el área desde x=32 hasta la media es: 0,2794 Por lo tanto la probabilidad de que P(22 £ x ³ 32)=0,1664+0,2794=0,4458 Por lo tanto Np=820x0,4458=365,56 Es decir, 366 entrevistados se encuentran entre las edades de 22 y 32 años.

06/04/2012 11:57

Ejercicio 1

8 de 9


C) Como en los anteriores apartados la representación gráfica aclara el planteamiento.

El 90% central de los casos ha sido representado mediante el área de color naranja. Es decir a cada lado de la media dejará el 45% de los casos. Las áreas representadas en negro suponen el 5% de los casos en cada lado. Se trata ahora de encontrar el valor x, que corresponda a un z, cuya área sea igual a 0,450. Las tablas nos indican que el área 0,450 se encuentra entre los valores Z=1,64 y 1,65. El valor medio entre ambos Z=1,645 será el que utilizaremos. Dados los valores de la distribución tenemos que:

Es decir entre 11,9 y 29,3 años se encontrarán el 90% de los casos.

06/04/2012 11:57

Ejercicio 1

9 de 9


Ejercicio 4 El ejercicio no señala ningún dato para la varianza. Suponiendo que lo que interesa al investigador es conocer una proporción, puede suponerse el caso de máxima varianza, es decir, p=q=0,5. Por tanto pq=0,25 a) Se trata de una muestra aleatoria en una población finita. La fórmula que liga el tamaño muestral, error y nivel de confianza es:

El error será en este caso e=3,7% b) En este caso z=3 y z2=9 Procediendo como en el caso anterior:

En este caso el error es mayor e=5,5%. Para un tamaño muestral fijo (n) la exigencia de un nivel de confianza mayor aumenta el intervalo de error admitido. [1] Xc=(4+12)/2=8

06/04/2012 11:57

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES

1 de 5

http://www.uned.es/111044/examenes/Febrero 2005/febrero2005 1 se...

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Sociología: 111044 Ciencias Políticas:121046 Febrero de 2005. 1ª PP. 1ª Semana.

Ejercicio 1. En la siguiente tabla aparecen los datos de la población de personas con más de 65 años en la Comunidad Autónoma de Andalucía, según el censo de población y viviendas de 2001. Edad

Número de personas 65-69 341.214 70-74 292.027 75-79 213.166 80-84 121.822 85-89 59.827 90 ó más 25.925 Total 1.053.981

Calcule la Mediana de la distribución de edades y el rango intercuartílico.

Ejercicio 2. Calcule la probabilidad de superar un examen tipo “test” contestando al azar: el examen se compone de 10 preguntas, con tres respuestas alternativas, de las cuales sólo una de ellas es la correcta. Para superar el ejercicio el alumno debe responder correctamente al menos cinco de las preguntas del test.

Ejercicio 3. Dado el conjunto de números {1,2,3,4,5} forme todas las combinaciones posibles de tres elementos. Calcule la media de cada combinación. Calcule la media y la desviación típica de la distribución de las medias obtenidas..

Ejercicio 4. Realice los siguientes cálculos del diseño de una muestra aleatoria para hacer una encuesta de opinión a los estudiantes de una Facultad de Derecho que cuenta con 19.060 matriculados: El presupuesto para la realización de las entrevistas es de 6.000 € , el coste de cada entrevista es de 20 €. Suponiendo que P = Q y estableciendo el nivel de confianza en el 95% ¿Qué margen de error deberemos asumir con el tamaño muestral que permite el presupuesto? Si decidiéramos reducir el margen de error a la mitad ¿qué presupuesto necesitaríamos?

********************************

Soluciones Ejercicio 1. Para calcular la mediana es necesario elaborar la distribución de las frecuencias acumuladas, para saber en qué intervalo se encuentra el valor mediano.

Edad 65-69

ni 341214

Na 341214

06/04/2012 11:59


2 de 5

70-74 75-79 80-84 85-89 90 o más Total

292027 213166 121822 59827 25925 1053981


633241 846407 968229 1028056 1053981

La mitad de los casos son 1.053.981 / 2 = 526.992,5 valor que se encuentra comprendido en el segundo intervalo, entre las edades 70 y 74 años. Conocido el intervalo aplicaremos la fórmula para el cálculo de la mediana:

años

El recorrido intercuartílico será la diferencia entre Q3 y Q1

años

años Por tanto el recorrido buscado es Q3-Q1 78,68 - 68,86 = 9,83 años Ejercicio 2. Se debe calcular la probabilidad mediante una distribución binomial. La probabilidad de acertar la respuesta correcta a cada pregunta es de 1/3 El número de preguntas es 10 y se supera el examen con 5 o más respuestas correctas. Por lo tanto la probabilidad es:

Cada probabilidad se obtiene según la fórmula:

Pero al ser n = 10 podemos evitar los engorrosos cálculos consultando las tablas de distribución de probabilidad binomial y la probabilidad buscada puede obtenerse de forma abreviada sumando las seis cantidades:

Si se prefiere hacer cada cálculo:

06/04/2012 11:59


3 de 5


Sumando los valores obtenidos tenemos

Es necesario señalar que las diferencias en los resultados utilizando bien las tablas o bien el cálculo, son debidas a que en las tablas se obtienen los valores para p = 0,33 mientras en los cálculos manuales hemos podido introducir más decimales p = 0,3333333 ya que la probabilidad de acertar cada pregunta es 1/3.

Ejercicio 3. Enumeramos en primer lugar las combinaciones de los cinco elementos tomados de tres en tres: a b c d e f g h i j

1 1 1 1 1 1 2 2 2 3

2 2 2 3 3 4 3 3 4 4

3 4 5 4 5 5 4 5 5 5

Sumando los tres números de cada línea y dividiendo por tres obtenemos la media de cada combinación, cuya suma dividida por el número de casos combinaciones será la media de las medias.

1 1 1 1 1 1 2 2 2

2 2 2 3 3 4 3 3 4

3 4 5 4 5 5 4 5 5

Suma 6 7 8 8 9 10 9 10 11

Medias 2,00 2,33 2,67 2,67 3,00 3,33 3,00 3,33 3,67

06/04/2012 11:59


4 de 5

3 4 5

12 Total


4,00 30,00

La media de las diez medias será 30 / 10 = 3

La desviación típica es la suma del cuadrado de las diferencias entre los valores de la variable, en este caso las medias de cada combinación, y la media de todas las medias:

Procedemos a calcular la desviación típica de la distribución de las medias. Para ello construimos una tabla con las diferencias entre cada media y la media de las medias al cuadrado:

1 1 1 1 1 1 2 2 2 3

2 2 2 3 3 4 3 3 4 4

3 4 5 4 5 5 4 5 5 5

Suma 6 7 8 8 9 10 9 10 11 12 Totales

Medias 2,00 2,33 2,67 2,67 3,00 3,33 3,00 3,33 3,67 4,00 30,00

Media de las medias 3,00 3,00 3,00 3,00 3,00 3,00 3,00 3,00 3,00 3,00

Diferencia -1,00 -0,67 -0,33 -0,33 0,00 0,33 0,00 0,33 0,67 1,00

Diferencia al cuadrado 1,00 0,44 0,11 0,11 0,00 0,11 0,00 0,11 0,44 1,00 3,33

Ejercicio 4. La limitación del presupuesto dedicado a realizar las entrevistas 6.000€ con un coste por entrevista de 20€ determina una muestra de 6000/20=300 unidades muestrales. Partiendo de la fórmula del tamano muestral para poblaciones finitas podemos despejar el valor del error e.

Siendo Z=1,96 para un nivel de confianza del 95%

06/04/2012 11:59


5 de 5


Si queremos reducir ese error a la mitad 0,05613/2=0,02807 Regresamos a la primera fórmula e introducimos los valores:

Para reducir el error a la mitad necesitamos una muestra casi cuatro veces mayor, con lo que el presupuesto necesario sería de 1146 x 20 = 22920 €.

06/04/2012 11:59

Ejercicio 1

1 de 6


ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Sociología: 111044 Ciencias Políticas:121046 Febrero de 2005. 1ª PP. 2ª Semana. TIEMPO: 2 Horas. MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

Ejercicio 1. En la siguiente tabla se presentan los datos de personas que han sufrido envenenamientos accidentales por ingestión de drogas y medicamentos en España durante 1999. (Fuente: Instituto Nacional de Estadística). Edad 0-15 16-34 35-54 55-74 75 y más Total

N.º Mujeres 4391 3699 3663 3221 2271 17245

N.º Varones 4917 3421 1269 906 830 11343

Calcule las medias de ambas distribuciones y comente los resultados.

Ejercicio 2. Represente gráficamente los datos del ejercicio anterior, teniendo en cuenta que los intervalos de edad no son iguales. Ejercicio 3. El PSOE obtuvo en las últimas elecciones generales el 42,64% de los votos. Si seleccionáramos al azar a 20 electores: a) ¿Qué probabilidad existe de que ninguno de los 20 hubiera votado a ese partido? b) ¿Cuál sería la probabilidad de que al menos 3 hubieran votado a ese partido?. c) ¿Y la probabilidad de que todos fueran votantes del PSOE? Ejercicio 4. En una gran empresa (6.500 trabajadores), la media de edad de los empleados es de 32 años, con una desviación típica de 5,7 años. Suponiendo que las edades de dicha población se ajustan al patrón de la distribución normal, a) ¿Cuál es la probabilidad de extraer al azar entre los trabajadores uno que tenga más de 45 años? b) ¿Cuántos trabajadores tendrán entre 40 y 50 años? c) ¿Cuál es la edad mínima del 20% de los trabajadores de mayor edad?

SOLUCIONES Ejercicio 1. Como no disponemos de los datos originales, para calcular las medias a partir de los datos agrupados en intervalos necesitamos cerrar el último intervalo. Podemos utilizar diferentes criterios, bien referidos a la

06/04/2012 11:59

Ejercicio 1

2 de 6


estructura de los datos o a las características y hábitos de la población. Por ejemplo, podemos considerar que habrá personas de edad muy avanzada que superen los 105 años, pero serán pocas. Si escogiéramos el valor 105 como límite del intervalo superior, el valor medio que nos serviría como marca de clase para calcular la media, superaría la esperanza de vida. Sería preferible fijarlo en los 95 años que nos proporciona una marca de clase más próxima a la esperanza de vida de hombres y mujeres. Conviene no dejar fuera del límite demasiados casos, y no tratar de incluir casos extremos que desvirtuarían el sentido de la media. Pero también podríamos tener en cuenta que el colectivo de las personas de más edad consume más fármacos, aunque no conocemos el origen concreto de las intoxicaciones, que tanto pueden producirse en el ámbito de tratamiento médico como en situaciones de toxicomanía. Para simplificar, podemos cerrar ambos intervalos superiores en los 95 años ya que aunque según la tabla en ese colectivo el número de intoxicaciones es especialmente alto, llegando en el caso de las mujeres al 13% del total de intoxicaciones, no dejaríamos fuera demasiados casos ( si lo cerramos en los 100 años no obtendríamos una media muy diferente). Procedamos considerando el límite de 95 años. Construimos la tabla con las marcas de clase y el producto de las mismas por la frecuencia de cada intervalo:

Edad 0-15 16-34 35-54 55-74 75-95 Totales

Nº Mujeres 4391 3699 3663 3221 2271 17245

Xc 8 25,5 45 65 85

xni 35128 94324,5 164835 209365 193035 696687,5

La edad media de las mujeres será:

Procdemos del mismo modo para calcular la edad media de los hombres:

Edad 0-15 16-34 35-54 55-74 75-95 Totales

Nº Varones 4917 3421 1269 906 830 11343

Xc 8 25,5 45 65 85

xni 39336 87235,5 57105 58890 70550 313116,5

Como podemos ver existe una diferencia importante entre las edades medias de los de las personas que han sufrido intoxicaciones y que ya era evidente en la lectura directa de la tabla con los datos agrupados. A la vista de este primer dato de las medias surge una primera explicación para esta gran diferencia podría consistir en atribuirla a la conocida mayor longevidad de la población femenina y a la mayor dependencia de los fármacos de las personas de más edad. Por otra parte, los hombres presentan una distribución en la que las intoxicaciones son mucho más frecuentes que las de las mujeres en las edades menores, lo que nos remite a los hábitos y la relación social con las sustancias tóxicas. Pero no obstante un análisis más fino exigiría conocer los tipos de intoxicación de forma pormenorizada. 06/04/2012 11:59

Ejercicio 1

3 de 6


Ejercicio 2. Para realizar la representación gráfica de ambas distribuciones podemos dibujar polígonos de frecuencias, pero como los intervalos de edad no son iguales deberemos construirlos de forma que las áreas de los polígonos que representan a cada grupo de edad sean proporcionales al número de casos. Esto se consigue estableciendo las alturas de los rectángulos mediante la distribución en porcentajes y la fórmula del área de un rectángulo: Area (“S”, equivalente al porcentaje de casos en el intervalo) = Base (“b”amplitud del intervalo de edades) x altura polígonos (“h”). Conocida el área y la base de los rectángulos la altura vendrá dada por : h = S/b Gráfico Mujeres Edad Nº Mujeres 0-15 4391 16-34 3699 35-54 3663 55-74 3221 75-95 2271 Total 17245

S 25,46 21,45 21,24 18,68 13,17 100

b 15 15 20 20 20

h=S/b 1,697 1,430 1,062 0,934 0,659

Gráfico Varones Edad Nº Varones 0-15 4917 16-34 3421 35-54 1269

S 43,35 30,16 11,19

b 15 15 20

h=S/b 2,89 2,01066667 0,5595

06/04/2012 11:59

Ejercicio 1

4 de 6


55-74 75 y más Total

906 830 11343

7,99 7,32 100,01

20 20

0,3995 0,366

La representación gráfica de ambas distribuciones nos muestra que las intoxicaciones son mucho más frecuentes en los tramos de edad inferiores a los 35 años, siendo más frecuentes en el caso de los varones.

Ejercicio 3. Se trata de calcular las probabilidades mediante el modelo de la distribución binomial en la que p = 0,4264 y q = 1-p = 0,5736 Siendo el número de pruebas 20. a) Se trata de calcular la probabilidad de que entre veinte electores seleccionados al azar ninguno de ellos sea votante del PSOE:

Es muy improbable que al seleccionar al azar veinte electores, resulte que ninguno de ellos sea votante del PSOE b) La probabilidad de que al menos 3 de los seleccionados sea votante del PSOE, sería la suma de las probabilidades para x = 3, 4, 5, 6,......20 pero es más corto el cálculo si sumamos las probabilidades de que x = 0, 1 y 2 y restarlo de la unidad:

06/04/2012 11:59

Ejercicio 1

5 de 6


La probabilidad buscada es:

Casi con certeza encontraremos tres votantes del PSOE. c) La probabilidad de que los veinte seleccionados sean votantes del PSOE sería:

Es muy improbable que entre veinte electores elegidos al azar todos ellos sean votante del PSOE. También podrían hacerse los cálculos de las probabilidades haciendo una aproximación a la distribución binomial mediante la distribución normal, pues tanto el producto de np como el de nq son superiores a 5. Ejercicio 4. a) En el supuesto de que las edades de la población se distribuyen normalmente, podemos calcular la probabilidad mediante las tablas de áreas bajo la curva normal, que nos proporciona las probabilidades asociadas a cada valor de la variable. Como la edad está registrada como edad cumplida, una persona que haya cumplido más de 45 años, tendrá al menos 46. Utilizando la fórmula de las puntuaciones Z normalizadas:

Consultando las tablas, para ese valor de Z obtenemos 0,4931 que es la probabilidad de obtener un valor situado entre la media 32 y el valor 46. Como lo que queremos es la probabilidad de obtener valores superiores a los contenidos en ese intervalo, deberemos restar 0,4931 del total de la tabla 0,5 Por lo tanto la probabilidad buscada será: 0,5 - 0,4931 = 0,0069 En el siguiente gráfico podemos tener una imagen aproximada de esa área

06/04/2012 11:59

Ejercicio 1

6 de 6


b) De manera análoga podemos obtener la diferencia entre la media y los valores 40 y 50 medida en unidades de desviación típica Z.

Valor que se corresponde en las tablas con una probabilidad de 0,4192

Valor que se corresponde en las tablas con una probabilidad de 0,4992 La probabilidad de encontrar valores comprendidos entre 40 y 50 será: 0,4992-0,4192=0,08 Como el tamaño de la población es de 6.500 el 8% de esa cantidad será 0,08 x 6500 = 520 trabajadores c) Consultando las tablas es sencillo identificar el valor Z que deja un 30% de los casos entre dicho valor y la media. Siendo probabilidad total representada en las tablas 0,5 buscaremos el valor Z correspondiente a 0,3 que dejará por debajo el 30% de los casos y por encima el 20% El valor más próximo a 0,3 en las tablas es 0,2996 que se corresponde con un Z de 0,84

Despejando x en la fórmula años

06/04/2012 11:59

Ejercicio 1

1 de 4

http://www.uned.es/111044/examenes/Febrero 2006/Estadisfebrero20...

Estadística Aplicada a las Ciencias Sociales Febrero 2006 1ª Semana Ejercicio 1. En la siguiente tabla figura la población de la provincia de Huesca en el último censo, clasificada por grupos de edad. Calcule media y la mediana de la distribución de edades. Población de Huesca Edad n.º personas 0-9 16593 10-19 19323 20-29 28480 30-39 31084 40-49 28597 50-59 23160 60-69 22272 70-79 23921 80 ó más 13072 Total 206502

Ejercicio 2. Los responsables de los servicios sociales de un municipio conocen que sólo el 16% de las personas mayores se inscriben en las actividades programadas por el ayuntamiento. Para realizar una encuesta se selecciona previamente una pequeña muestra de 20 unidades. a) ¿Cuántas personas inscritas en las actividades cabe esperar que encontremos entre las 20 personas seleccionadas. b) Calcular la probabilidad de que ninguna de las 20 personas seleccionadas esté inscrita. c) Calcular la probabilidad de que al menos 2 de las 20 seleccionadas estén inscritas. Ejercicio 3. Dada una distribución normal de media 25 y desviación típica 6, calcular: - El porcentaje de casos que se encuentren entre los valores 20 y 26 - El porcentaje de casos que se encuentran por debajo del valor 16. - El valor de la variable que delimita el 10% de las puntuaciones más altas. Ejercicio 4. Un investigador dispone de 20.000 € para realizar las entrevistas de una encuesta en una gran ciudad y decide gastarlos en su totalidad. El cuestionario se administrará mediante entrevistas telefónicas, siendo el coste de cada entrevista de 20 €. ¿Qué margen de error deberá asumir considerando un nivel de confianza del 95% y p = q = 0,5?

SOLUCIONES Ejercicio 1. Para calcular la media hallamos las marcas de clase o puntos medios de cada intervalo Xc. Posteriormente multiplicamos cada marca de clase por la frecuencia correspondiente al intervalo (Para cerrar el intervalo “80 y más” establecemos el límite superior en 100 años para no dejar fuera muchos casos al tratarse de

06/04/2012 12:00

Ejercicio 1

2 de 4


una población envejecida). Hallamos el sumatorio de todos estos productos y dividimos el sumatorio por el número de casos en la población

Edad 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-100 Total

n.º personas 16593 19323 28480 31084 28597 23160 22272 23921 13072 206502

xc 5 15 25 35 45 55 65 75 90

ni xc 82965 289845 712000 1087940 1286865 1273800 1447680 1794075 1176480 9151650

Para calcular la mediana construimos una tabla con las frecuencias acumuladas Na: Edad 0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80 o más Total

nº personas 16593 19323 28480 31084 28597 23160 22272 23921 13072 206502

Na 16593 35916 64396 95480 124077 147237 169509 193430 206502

Dividimos el total de casos entre dos para buscar el intervalo en el que se encuentra el valor mediano de la distribución: 206.502 / 2 = 103.251 El intervalo que se corresponde con ese valor de Na es el que incluye las edades comprendidas entre los 40 y los 50 años.

Ejercicio 2. El ejercicio puede resolverse mediante la distribución binomial P = 0,16 Q = 1-0,16=0,84 N.º Pruebas = 20 a) Las personas que cabe esperar que estén inscritas de las veinte seleccionadas se calculará multiplicando la probabilidad de estar inscrito por 20, es decir, que por término medio, las personas inscritas serán :

06/04/2012 12:00

Ejercicio 1

3 de 4


0,16 * 20 = 3,2 b) La probabilidad de que no encontremos a ningún inscrito entre los veinte seleccionados sería:

c) La probabilidad de que al menos dos estén inscritos se puede calcular como:

Como ya conocemos la probabilidad de que x sea igual a 0, calculamos la probabilidad de que alcance el valor 1

Por tanto la probabilidad de que x alcance “al menos” el valor 2 será:

Ejercicio 3.

a) Primero necesitamos conocer la distancia entre cada valor de la variable y la media expresada en términos de desviación típica, es decir los valores de la variable expresados en unidades Z

El valor 20 se encuentra a 0,8333 unidades de desviación típica de la media 25 y el signo nos indica que se encuentra a la izquierda de la media. El valor 26 se encuentra a 0,1667 unidades de desviación típica del valor 25 de la media.

Si representamos los valores gráficamente observamos cómo la zona sombreada en color rojo representa la distancia entre la media 25 y el valor 25, mientras que la zona sombreada en naranja representa la distancia entre la media y el valor 20.

06/04/2012 12:00

Ejercicio 1

4 de 4


En las tablas de áreas bajo la curva normal obtendremos las proporciones o porcentajes de la curva que se corresponden con esos valores Z Un valor Z de 0,8333 se corresponde aproximadamente con el 29,67% de los casos Un valor Z de 0,1667 se corresponde aproximadamente con el 6,75% de los casos Por tanto el porcentaje de casos que quedan comprendidos entre los valores 20 y 26 será la suma de ambos valores: el 36,42% de los casos b) Para hallar el porcentaje de casos que se encuentran por debajo del valor 16, calculamos el valor Z correspondiente a ese valor:

En las tablas de la curva normal ese valor de Z =1,5 se corresponde aproximadamente con el valor 0,4332 Como las tablas nos proporcionan la distancia en unidades Z entre la media y un valor de la variable, los valores por debajo de ese valor, se calculará restando el área obtenida de 0,5 El área buscada será 0,5-0,4332=0,0668 es decir el 6,68% de los casos. c) Para hallar el valor de la variable que delimita el 10% de los valores más altos buscaremos directamente en las tablas el valor que resulta de restar 0,10 del total de la tabla 0,5 Buscando el valor de Z correspondiente a 0,40 en las tablas obtenemos Z = 1,29 A la inversa que en los casos anteriores, hallaremos el valor X para ese Z: Por encima de ese valor se encuentran el 10% de los valores más altos.

Ejercicio 4. Dado que disponemos de 20.000 € y que cada entrevista cuesta 20 €, podemos hacer 1.000 entrevistas. Utilizando la fórmula del tamaño muestral para poblaciones “infinitas” despejamos e.

el error con ese presupuesto será aproximadamente del 3,1%

06/04/2012 12:00

Ejercicio 1

1 de 4


Estadística Aplicada a las Ciencias Sociales Febrero 2006. 2ª Semana

Preguntas Ejercicio 1. En la siguiente tabla figura la población de la provincia de Palencia en el último censo, clasificada por grupos de edad. Calcule moda y la mediana de la distribución de edades. Población Palencia Edad Nº personas 0-9 12635 10-19 18361 20-29 24426 30-39 25990 40-49 26229 50-59 19618 60-69 17701 70-79 19158 80 ó más 10025 Total 174143

Ejercicio 2. ¿Cuál será la probabilidad de obtener cinco o menos aciertos en una prueba de examen tipo test compuesta por 20 preguntas y cinco opciones de respuesta alternativa a cada pregunta? Ejercicio 3. Los resultados del examen de Matemáticas en un instituto arrojaron una puntuación media de 5,3 (puntuando sobre 10) y una desviación típica de 1,9 sobre un total de 355 alumnos presentados. Suponiendo una distribución normal en los resultados: a) ¿Cuál es la probabilidad de seleccionar a un alumno con una puntuación de 8 o más? b) ¿Cuántos alumnos habrán tenido una puntuación de 5 o menos? c) ¿A partir de qué puntuación se encontrará la cuarta parte de los alumnos con menores calificaciones? Ejercicio 4. Una fundación decide realizar una encuesta para conocer la sensibilidad de la población femenina respecto a la violencia doméstica. Para ello se toma como universo poblacional el conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño muestral sería necesario utilizar si el máximo error que se pretende asumir es del 3%, para un nivel de confianza del 95,5%, siendo p = q =0,5?

SOLUCIONES Ejercicio 1. La moda es el valor más frecuente. De la tabla se deduce que estará en el intervalo 40-49 años, que es el que concentra más casos. Cuando los datos están agrupados se utiliza la siguiente fórmula para señalar el

06/04/2012 12:00

Ejercicio 1

2 de 4


valor modal (con intervalos de igual amplitud):

El valor modal serán 44,3 años. La mediana es el valor que divide la población estudiada en dos grupos de igual tamaño. En nuestro caso será el número de casos que se encuentran por encima y por debajo del valor mediano. Para su cálculo es necesario en primer lugar calcular la distribución de frecuencias acumulada:

0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80 y + Total

fi 12635 18361 24426 25990 26229 19618 17701 19158 10025 174143

fia 12635 30996 55422 81412 107641 127259 144960 164118 174143

El valor mediano se encontrará en el intervalo 40-49 años. Para su cálculo utilizamos la fórmula:

el valor mediano será 42,2 años.

Ejercicio 2 Se trata de una distribución binomial en la que p=1/5=0,2 Por tanto:

06/04/2012 12:00

Ejercicio 1

3 de 4


Por lo tanto Así la probabilidad de obtener 5 o menos aciertos será de un 80,4%

********************************************************************************************** De forma más sencilla puede calcularse mediante la aproximación a la distribución normal. La media será: y la desviación típica: Entonces, el valor z con corrección de continuidad, será:

El área correspondiente a este z, según tablas es: Por lo tanto la probabilidad solicitada será 0,5+0,2967=0,7967=79,67%

06/04/2012 12:00

Ejercicio 1

4 de 4


Ejercicio 3 a)

La probabilidad de seleccionar a un alumno con x mayor o igual a 8.

El área de este z será, según tablas, Área = 0,4222 El área o probabilidad pedida es la que se encuentra entre Z = 1,42 y el extremo superior. Por tanto p = 0,5-0,4222=0,0778 Es decir la probabilidad de seleccionar a un alumno con nota 8 o superior es 7,78% b)

Número de alumnos con x menor o igual a 5.

El área de este z será, según tablas, Área = 0,0636 El área o probabilidad pedida es la que se encuentra entre Z = -0,16 y el extremo inferior. Por tanto p=0,5-0,0636=0,4364 Así el número con puntuación igual o inferior a 5 será: 355x0,4364=154,9. Es decir 155 alumnos. c) Valor del primer cuartil. El valor z del primer cuartil – área = 0,25- es: Z = -0,675 Como:

Entonces:

El 25% de los alumnos con nota más baja han obtenido 4 puntos o menos.

Ejercicio 4 El tamaño muestral para una población infinita viene determinado por la siguiente fórmula:

Con n = 1112 podemos estimar la proporción solicitada con un nivel de confianza del 95,5% y un error inferior al 3%.

06/04/2012 12:00

Ejercicio 1

1 de 4

http://www.uned.es/111044/examenes/Febrero 2007/Febrero 2007 1 s...

Febrero 2007 1ª Semana Ejercicio 1. Las medidas que se representan a continuación corresponden a las alturas en centímetros de 40 niños. 157 162 152 160 154 148 149 169 163 157 a) b) c)

159 159 148 156 159 155 164 153 154 162

155 156 157 154 162 158 163 155 168 161

166 145 151 158 163 159 157 151 162 156

Construya una distribución de frecuencias agrupadas en al menos cuatro categorías. Represente gráficamente la distribución. Calcule la media de la distribución.

Ejercicio 2. Dado un conjunto de números {0,1,2,3,4,5}, calcule: a) ¿De cuántas maneras diferentes pueden ordenarse los seis números del conjunto? b) Cuál es el número de combinaciones posibles de los elementos tomados de dos en dos. c) Realice el mismo cálculo del apartado anterior, tomando los elementos de tres en tres.

Ejercicio 3. Se sabe que el 35% de los alumnos de sociología de la UNED visitan alguna vez la web de su facultad. Si elegimos al azar 4 alumnos de entre los matriculados en sociología, calcule las probabilidades de obtener respectivamente 0,1,2,3,4 alumnos que hayan visitado la web, y represente gráficamente la distribución.

Ejercicio 4. Un investigador se dispone a realizar una encuesta entre los 1500 miembros de una cooperativa agraria, para conocer la proporción de cooperativistas dispuestos a modificar los estatutos. Dispone de una partida presupuestaria de 5.000 € para realizar las entrevistas, cuyo coste individual es de 25 €, calcule, para un nivel de confianza del 95,5%: a) ¿Qué tamaño muestral se necesitaría para estimar la proporción con un error del 5%, si se desconocen los valores de p y de q? b) ¿Qué pasaría con el tamaño muestral si se supiera que la proporción de cooperativistas favorables al cambio de estatutos fuera de 0,75 ? _____________________________________________________________________________

Soluciones Ejercicio 1. La distribución de frecuencias permite resumir y ordenar una colección de datos para poder tener una visión del

06/04/2012 12:01

Ejercicio 1

2 de 4


conjunto. Una distribución posible podría ser esta: Altura 145-149 150-154 155-159 160-164 165-169 TOTAL

ni 4 7 16 10 3 40

Para ver de forma intuitiva la distribución y poder comparar las categorías visualmente, se podría representar la distribución mediante un histograma:

Como tenemos un listado de las medidas, para calcular la media bastará con sumar, directamente de la tabla original, todas las alturas y dividirlas por el número de casos.

= 6297

Y la media será:

Aunque en este caso tenemos el listado de datos originales y sólo son 40 datos, también podría calcularse la media a partir de la tabla de las frecuencias agrupadas, calculando el punto medio de cada intervalo y multiplicándolo por el número de casos del intervalo. Altura 145-149 150-154 155-159 160-164 165-169 TOTAL

Xc

ni

Xcni

147 152 157 162 167

4 7 16 10 3 40

588 1064 2512 1620 501 6285

06/04/2012 12:01

Ejercicio 1

3 de 4


La media obtenida así sería como sigue:

La diferencia entre los resultados obtenidos por este segundo método es debida al agrupamiento de los datos. El hecho de tomar la marca de clase como valor que representa a todos los elementos del intervalo, produce ese error. (Para calcular las marcas de clase, al tratarse de una variable continua, hemos de suponer que los datos de las alturas de la tabla original se han redondeado, de forma que el límite inferior nominal de, por ejemplo el primer intervalo 145-149 se corresponde con 144,5 pues cualquier valor inferior como 144,49999 se habría redondeado al entero inferior 144.) Ejercicio 2. a) Dado el conjunto de seis elementos {0,1,2,3,4,5}, el cálculo del número de formas diferentes en que pueden ordenarse es igual a las permutaciones de 6 elementos: P6 = 6! = 6·5·4·3·2·1 = 720 b) Las combinaciones posibles de los elementos tomados de dos en dos:

c)Las combinaciones, tomando los elementos de tres en tres:

Ejercicio 3. El supuesto se presta al cálculo mediante la distribución binomial, puesto que se trata de sucesos discretos dicotómicos. Para P = 0,35 las probabilidad de obtener respectivamente 0,1,2,3,4 alumnos que hayan visitado la web se calcula mediante la fórmula:

06/04/2012 12:01

Ejercicio 1

4 de 4


Las cinco probabilidades podrían representarse mediante un histograma como sigue:

Ejercicio 4. Como la población es pequeña utilizaremos la fórmula del tamaño muestral para poblaciones “finitas”, y como no se conoce p, se utilizará p = q = 0,5

es decir 316 unidades muestrales. En el caso de p = 0,75 el cálculo sería:

Como puede verse, el tamaño muestral se reduce sustancialmente al añadir la información sobre P, respecto al caso de la mayor incertidumbre que supone el tomar p = q = 0,5

06/04/2012 12:01

Febrero 2007 2ª semana

1 de 4


Febrero 2007 2ª semana Ejercicio 1. En la siguiente tabla se representan las alturas, en centímetros, de 40 niños Altura 145-149 150-154 155-159 160-164 165-169 Total a) b)

Nº niños 4 7 16 10 3 40

Calcule la media y la mediana de la distribución de las alturas del grupo de 40 niños. Calcule la Desviación típica de la distribución

Ejercicio 2. Dado un conjunto de números {0,1,2,3,4,}, calcule: a) ¿De cuántas maneras diferentes pueden ordenarse los cinco números del conjunto? b) ¿Cuál es el número de combinaciones posibles de los elementos tomados de dos en dos? c) Realice el mismo cálculo del apartado anterior, tomando los elementos de tres en tres.

Ejercicio 3. Dada una población de 8.000 personas se han extraído todas las muestras posibles de tamaño 800 mediante un cálculo informático, y se ha hallado la media de ingresos para cada muestra. Las medias de todas las muestras se distribuye normalmente con una media de 15.000 € y una desviación típica de 4.800 €, calcule: a) ¿Que proporción de las muestras estarán por encima de los 16.000 €? b) Entre qué valores de la variable alrededor de la media se encuentra el 50% central de las muestras? c) ¿Qué porcentaje de muestras tendrían una media inferior a los 10.000 €?

Ejercicio 4. En un municipio con 20.000 hogares desea conocer la proporción actual de hogares que poseen servicio de banda ancha de internet. Un estudio anterior sobre el uso de internet sitúa esa proporción en el 12%. El investigador encargado dispone de una partida presupuestaria de 18000 € para realizar las entrevistas y piensa gastarlo en su totalidad, siendo el coste de cada entrevista de 25 €. Teniendo en cuenta que se va a emplear un nivel de confianza del 95,5% : a) Calcule el error muestral admitido, dada la limitación del presupuesto. b) ¿Cuál sería el error muestral si el presupuesto para ese fin se amplía un 20%?

Soluciones Ejercicio 1. Para calcular la media de la distribución estableceremos primero las marcas de clase o puntos medios de cada intervalo sumando el límite superior y el inferior de cada intervalo y dividiendo por 2. Altura 145-149 150-154 155-159 160-164

Xc 147 152 157 162

06/04/2012 12:01


2 de 4

165-169


167

Después multiplicamos cada marca de clase por la frecuencia absoluta del intervalo Xc 147 152 157 162 167

Altura 145-149 150-154 155-159 160-164 165-169

ni 4 7 16 10 3 40

Xcni 588 1064 2512 1620 501 6285

La media será entonces:

Una vez obtenida la media, hallamos la desviación típica, hallando las diferencias al cuadrado de cada marca de clase respecto a la media, para multiplicar cada diferencia al cuadrado por la frecuencia de cada intervalo: 2

2

(xi-media) (xi-media) ni 102,515625 410,0625 26,265625 183,859375 0,015625 0,25 23,765625 237,65625 97,515625 292,546875 1124,375

La desviación típica será la raíz de la varianza:

La Desviación típica será entonces:

El cálculo de la mediana requiere de la distribución de frecuencias acumuladas para saber en qué intervalo se encuentra el estadístico: Altura 145-149 150-154 155-159 160-164 165-169

ni

Na

4 7 16 10 3 40

4 11 27 37 40

El valor de la variable que divide la distribución en dos partes iguales (20 casos) se encuentra en el intervalo 155-159, por tanto ya podemos calcular:

En el caso del cálculo de la media y la mediana, al tratarse de una variable continua hemos de suponer que los datos de las alturas de la tabla original se han redondeado, de forma que el límite inferior nominal del intervalo que contiene la mediana (155) se corresponde con 154,5 pues cualquier valor inferior como 154,49999 se habría redondeado al entero inferior 154. Para conocer mejor el problema de los límites reales en la creación de categorías

06/04/2012 12:01


3 de 4


para variables de intervalo, véase: http://www.uned.es/111044/examenes/cuestiones%20resueltas /El%20problema%20de%20los%20limites%20de%20categorias.htm Ejercicio 2. Las diferentes formas de ordenar un conjunto de elementos puede calcularse mediante las permutaciones de los 5 elementos del conjunto:

Las combinaciones de los cinco elementos tomados de dos en dos se calcularía mediante la fórmula:

Realizando el mismo cálculo del apartado anterior, tomando los elementos de tres en tres obtenemos:

Ejercicio 3. Al ser una distribución normal, con media 15.000 y desviación típica 4.800, podemos utilizar las tablas de las áreas bajo la curva normal para hacer los cálculos. Comenzaremos por convertir los valores de la variable a unidades de desviación típica o números “Z” a) La proporción de muestras que estarán por encima de los 16.000€ será:

El valor 16.000 se encuentra a poco más de dos décimas de la unidad de desviación típica. Ese valor Z puede ser consultado en la tabla de áreas bajo la curva normal y tomando el valor más próximo de la tabla obtenemos un área de 0,0832. Como la tabla nos proporciona la proporción de casos que queda entre un valor de la variable y la media, debemos restar ese valor de 0,5 que es la mitad del área de la curva normal que, completa es igual a la unidad. Por tanto la proporción de casos por encima de 16.000 será :

Aplicando el mismo razonamiento calcularemos los valores de la variable que encierran el 50% central de los casos: Como las tablas que utilizamos sólo contienen media distribución (porque es simétrica y una mitad es igual que la otra cambiada de signo), buscaremos en la tabla el valor de Z que se corresponde con el 25% de los casos sobre la media: Buscando entre los valores de las áreas en la tabla encontramos que el valor más próximo a 0,2500 es 0,2486 correspondiente al valor Z 0,67. Interpolando llegamos al valor Z=0,674 De forma que despejando en la fórmula de los valores Z tenemos que sustituyendo los valores obtenemos el límite superior e inferior del intervalo: (11.760;18.240) límite superior e inferior del intervalo

06/04/2012 12:01


4 de 4


Por último, para conocer el porcentaje de casos que quedan por debajo del valor 10.0000€, volvemos a utilizar la fórmula de los valores Z

El valor negativo nos indica que el valor 10.000 se encuentra a 1,04 unidades de desviación típica de la media por la izquierda. Buscando en las tablas la proporción de casos que quedan entre ese valor Z y la media es 0,3508, es decir aproximadamente el 35% de los casos, pero como se pregunta por el porcentaje de casos POR DEBAJO de 10.000, habrá que restar ese porcentaje de 0,5: Aproximadamente el 15% de los casos quedarán por debajo de los 10.000€ Ejercicio 4. Si se gasta en su totalidad el presupuesto podremos hacer 18.000/25 = 720 entrevistas con ese dinero Dado ese tamaño muestral podemos calcular el error asumido despejando e de la fórmula del tamaño muestral para poblaciones finitas:

un error del 2,38% Si se ampliara el presupuesto un 20%, los 18.000 € pasarían a ser de 21.600€ En ese caso la muestra posible con ese presupuesto sería 21.600/25 = 864 Aplicando el mismo procedimiento tendríamos:

es decir, el 2,16% El error asumido se reduce ligeramente, apenas unas décimas, al aumentar el tamaño muestral .

06/04/2012 12:01

Estadística aplicada a las ciencias sociales. Examen Febrero de 2008 primera semana Ejercicio 1. - En la siguiente tabla, se representan los datos de las edades de los trabajadores de una gran empresa. Grupos de edad 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 TOTAL

Nº trabajadores 320 1.652 2.046 2.454 1.950 1.102 945 341 31 10.841

a) Calcule las frecuencias relativas, para cada grupo de edad. b) Calcule la mediana de la distribución. c) Calcule los cuartiles 1º y 3º Ejercicio 2.- Los usuarios de una instalación deportiva presenta la siguiente distribución según la edad: Edad Menos de 20 Entre 20 y 25 Más de 25

Usuarios 31 15 10

a) ¿qué probabilidad hay de que, al extraer al azar sucesivamente y sin reposición 3 usuarios, el primero tenga menos de 20 años, el segundo entre 20 y 25 y el tercero más de 25 b) ¿qué probabilidad hay de que, al extraer al azar sucesivamente y sin reposición 5 usuarios, todos sean menores de 20 años? Ejercicio 3. De un conjunto de 20 asalariados cuyos salarios son conocidos, se ha obtenido mediante el cálculo combinatorio que se pueden formar 15.504 grupos distintos de 5 asalariados. Mediante un ordenador se ha calculado el salario medio de cada uno de los grupos de 5 asalariados. Sabiendo que los 15.504 salarios medios obtenidos de todos grupos posibles se distribuyen normalmente con un valor medio de 1.100 € y desviación típica de 130 €, calcule: a) b)

Qué porcentaje de grupos de 5 tendrán una media comprendida entre 1.000 y 1.500 €. Entre que valores alrededor de la media de la distribución muestral se encuentra el 50% central de los grupos. Ejercicio 4.- En una determinada ciudad Deseamos conocer la proporción actual de hogares con más de un coche. Por los datos de un estudio anterior sabemos que del total

de 30.521 hogares, 12.530 tenían más de un coche. Estableciendo un Nivel de Confianza del 95,5% y un error absoluto e = 4%, calcular: a) El tamaño de la muestra requerido para realizar la estimación. b) El tamaño de la muestra, si desconociéramos los datos anteriores sobre el número coches por hogar.

SOLUCIONES: Ejercicio 1. a) para calcular las frecuencias relativas de cada grupo de edad bastará con dividir el número de trabajadores en una categoría por el total de trabajadores. Grupos de edad

Nº trabajadores

fr

21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 TOTAL

320 1.652 2.046 2.454 1.950 1.102 945 341 31 10.841

0,0295 0,1524 0,1887 0,2264 0,1799 0,1017 0,0872 0,0315 0,0029 1,0000

b) Para calcular la mediana necesitamos calcular las frecuencias acumuladas Grupos de edad

Nº trabajadores

Na

21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 TOTAL

320 1.652 2.046 2.454 1.950 1.102 945 341 31 10.841

320 1.972 4.018 6.472 8.422 9.524 10.469 10.810 10.841

La mediana de una distribución es el valor de la variable que divide la distribución ordenada de las edades en dos partes iguales, de forma que habrá tantos valores por encima como por debajo de este valor. Por tanto si dividimos los 10.841 casos por 2 obtenemos que la mitad de los trabajadores será 5.420,5. La categoría de edad que incluye el caso 5.420 es la que va desde los 35 a los 40 y contendrá la edad mediana.

Como los datos están agrupados en categorías será necesario calcular la edad concreta de ese intervalo que deja la mitad de los casos por encima y la mitad por debajo, mediante la forumla:  5  10.841  C N = 38,86 Me = Li +  − N a −1  ⋅ i = 36 +  − 4.018  ⋅  2.454  2  ni 2

c) Los cuartiles se calculan siguiendo la misma lógica, de forma que el primer cuartil Q1 será la edad que deje por debajo el 25% de los casos y por encima el 75%  5  10.841  C N = 32,80 Q1 = Li +  − N a −1  ⋅ i = 31 +  − 1.652  ⋅  2.046  4  ni 4 Para el tercer cuartil Q3 tendremos que:  5  3 ⋅10.841  C  3N = 45,25 Q3 = Li +  − 6.472  ⋅ − N a −1  ⋅ i = 41 +  4  1.950   ni  4

Ejercicio 2. a) para conocer la probabilidad de obtener al azar a un usuario de menos de 20 años calcularemos los casos favorables (hay 31 usuarios de menos de 20 años) divididos por los casos posibles (todos los usuarios de cualquier edad que son 31+15+10=56)

31 = 0,55 56 Como se hacen extracciones sin reposición al hacer la segunda extracción ya no habrá 56 usuarios sino que quedarán sólo 55 y la probabilidad de obtener un usuario de entre 20 y 25 años estará condicionada a que ya se haya extraído antes uno de menos de 20: P1 (< 20 años) =

15 = 0,27 55 de la misma forma la probabilidad de obtener al azar uno de más de 25 estará condicionada por las dos extracciones anteriores: P2 (entre 20 y 25 años / < 20) =

P3 (> 25 / entre 20 y 25 años / < 20) =

10 = 0,185 54

Conocidas esas tres probabilidades, la probabilidad de que se produzcan los tres eventos sucesivamente se calculará multiplicando las tres probabilidades anteriores: P = P1 * P2 * P3 = 0,55 * 0,27 * 0,185 = 0,028

b) Como en el apartado anterior, se trata de probabilidades condicionadas a la ocurrencia de eventos anteriores.

p1 =

Casos favorables 31 = = 0,5536 Casos posibles 56

p2 =

Casos favorables 31 − 1 = = 0,5455 Casos posibles 56 − 1

p3 =


p4 =


p5 =


Como en el anterior caso, la probabilidad de que se produzcan los cinco eventos es igual al producto de las probabilidades: P = p1 * p2 * p3 * p4 * p5 = 0,5536 * 0,5455 * 0,5370 * 0,5283 * 0,5192 = 0,0445 Ejercicio 3. Mediante la curva normal tipificada podemos saber la proporción de casos que se encuentran entre un valor dado y la media. Utilizando la fórmula de las puntuaciones tipificadas Z : a) Las tablas de área bajo la curva normal nos dan la proporción de casos entre un valor dado de la variable y la media, medido en unidades de desviación típica. Por tanto podemos calcular el porcentaje de casos que quedan entre el valor 1.000 y la media 1.100 y sumarlo al porcentaje de casos que hay entre la media y el valor 1.500. Z1.000 =

xi − x 1.000 − 1.100 = = −0,7692 S 130

Consultando las tablas ese valor de Z se corresponde con el valor 0,2794, es decir, que habrá un 27,94% de asalariados que cobren entre 1.000 y 1.100 €. Tomamos el valor sin tener en cuenta el signo, puesto que las tablas de la curva normal al ser una función simétrica utiliza sólo el cuadrante positivo. A continuación calcularemos la proporción de casos que habrá entre la media y el valor 1.500: Z1.500 =

xi − x 1500 − 1.100 = = 3,0769 S 130

Este segundo valor de Z se corresponde con la proporción 0,4999 o bien el 49,9% de los casos.

Por tanto el porcentaje de asalariados cuyo sueldo varía entre los 1.000 y los 1.500€ será la suma de los porcentajes anteriores: 27,94%+49,99%=77,93%

b) Para realizar este cálculo emplearemos la mismo fórmula de los valores Z pero despejando en este caso el valor de la variable: xi = Z ⋅ S ± x

Al ser la media el valor central de la curva, el 50% central de los casos corresponderá con la suma de un 25% a la izquierda de la media y un 25% a la derecha. Para conocer el valor Z correspondiente al 25% de los casos consultamos la tabla y obtenemos un valor Z=0,68 que sustituido en la fórmula anterior nos permite saber el salario que corresponde a ese valor Z, de forma que sumando y restando obtendremos los valores por debajo y por encima de la media que limitan en 50% de los casos alrededor de la media: xi = Z ⋅ S − x = 0,68 ⋅ 130 − 1.100 = 1.011,6 xi = Z ⋅ S + x = 0,68 ⋅ 130 + 1.100 = 1.188,4

Ejercicio 4. a) A partir de los datos del enunciado podemos conocer la proporción de hogares con más de un coche: casos favorables 12.530 p= = = 0,41 casos posibles 30.521

por tanto q =1-p = 0,59 Dado que se trata de una población finita, para calcular el tamaño muestral necesario utilizaremos la fórmula: Z 2 pqN 2 2 ⋅ 0,41 ⋅ 0,59 ⋅ 30.521 n= 2 = = 593,25 e ( N − 1) + Z 2 pq 0,04 ⋅ (30.520) + 2 2 ⋅ 0,41 ⋅ 0,59

b) Si desconociéramos la proporción de hogares con más de un coche, consideraríamos el caso más desfavorable, es decir p = q = 0,5 por tanto el tamaño muestral se calcularía de forma análoga al caso anterior, como sigue: n=

Z 2 pqN 2 2 ⋅ 0,5 ⋅ 0,5 ⋅ 30.521 = = 612,48 e 2 ( N − 1) + Z 2 pq 0,04 ⋅ (30.520) + 2 2 ⋅ 0,5 ⋅ 0,5

Como puede observarse, el desconocimiento sobre la proporción de hogares con más de un coche significaría la necesidad de un tamaño muestral mayor, para un nivel de confianza y un error determinados.

Estadística Aplicada a las ciencias Sociales Examen Febrero de 2008 segunda semana Ejercicio 1.- En la siguiente tabla, se tiene el número de alumnos de educación de adultos matriculados en el curso graduado escolar en un Municipio para el curso 2005/2006, por grupos de edad y modalidad de la enseñanza según los horarios escogidos. Edad De 18 a 19 De 20 a 24 De 25 a 34 De 35 a 44 De 45 a 54 Más de 55 TOTAL

Modalidad Modalidad Intensiva Extensiva 175 200 180 116 49 13 733

110 135 157 25 3 1 431

Calcule la edad media y la desviación típica de los alumnos de la modalidad intensiva y la mediana de la distribución de la modalidad extensiva. Ejercicio 2.- En una empresa la media de años de antigüedad de los 895 empleados, es de 11 años y la desviación típica de 3,1. Suponiendo que la distribución de años de antigüedad fuera una distribución normal calcule: a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 2 años en la empresa, respecto a la media del colectivo? b) ¿Qué número de trabajadores lleva menos de diez años en la empresa? c) ¿Cuál será el límite inferior de antigüedad para los 300 trabajadores que llevan más años en la empresa?

Ejercicio 3.- Una empresa tiene tres departamentos A, B y C, con 20, 7 y 12 trabajadores respectivamente. Para organizar los turnos de vacaciones decidimos seleccionar al azar, sucesivamente y sin reposición, a tres trabajadores entre los 39 de la empresa, calcule: a) La probabilidad de que el primer seleccionado pertenezca al departamento C b) La probabilidad de que el segundo pertenezca al departamento B. c) La probabilidad de que el tercero no pertenezca al departamento A.

Ejercicio 4.- Un Instituto de Investigación debe realizar un encuesta para conocer la opinión de las mujeres sobre el tratamiento informativo de la violencia de género. Para ello toman como universo poblacional al conjunto de las mujeres españolas de 18 ó más años. ¿Qué tamaño muestral sería necesario utilizar si el máximo error muestral permitido es del 5%, para un nivel de confianza del 95,5% y considerando p=q=50%?

SOLUCIONES Ejercicio 1. Dada la tabla de la distribución de las edades de los matriculados en el curso de graduado escolar en la modalidad intensiva, calcularemos la edad media mediante la fórmula: n

x=

∑x n

i i

i =1

n Como los datos están agrupados en categorías por grupos de edad, hallaremos en primer lugar las marcas de clase o puntos medios de cada intervalo que representarán a cada grupo de edad en los cálculos. Para cada intervalo procedemos tomando el límite inferior del intervalo, sumando el límite inferior del siguiente y dividiendo por dos: Grupos de Marca de Edad clase Xc De 18 a 19 19 De 20 a 24 22,5 De 25 a 34 30 De 35 a 44 40 De 45 a 54 50 Más de 55 60 TOTAL

Modalidad Intensiva 175 200 180 116 49 13 733

A continuación multiplicamos la marca de clase de cada intervalo por la frecuencia para obtener después el sumatorio de los productos: ni

Xc 19 22,5 30 40 50 60

175 200 180 116 49 13 733

Total

xi*ni 3325 4500 5400 4640 2450 780 21095

n

x=

∑x n

i i

i =1

n

=

21.095 = 28,78 733

Conocida la media podemos calcular la varianza o suma al cuadrado de las desviaciones a la media, ayudándonos de la siguiente tabla:

Edad De 18 a 19 De 20 a 24 De 25 a 34 De 35 a 44 De 45 a 54 Más de 55 TOTAL

∑ (x

V=

(xi-media)2 (xi-media)2*ni

Xc

media

(xi-media)

19

28,779

-9,7789905 95,6286542 16735,01449

22,5

28,779

-6,2789905 39,4257211 7885,144215

30

28,779 1,22100955 1,49086432 268,3555777

40

28,779 11,2210095 125,911055 14605,68242

50

28,779 21,2210095 450,331246 22066,23107

60

28,779 31,2210095 974,751437 12671,76869 74232,19645

2

n

i =1

Modalidad Intensiva 175 200 180 116 49 13 733

i

)

− x ni N

=

74232,196 = 101,272 733

La desviación típica será entonces: S = V = 101,272 = 10,0634

Para obtener la mediana de la distribución de edades de la modalidad extensiva procedemos a calcular las frecuencias acumuladas: Edad

ni

Na

De 18 a 19 De 20 a 24 De 25 a 34 De 35 a 44 De 45 a 54 Más de 55 TOTAL

110 135 157 25 3 1 431

110 245 402 427 430 431

Dividiendo por dos en número de casos (431/2=215,5) vemos que el número acumulado de la mitad de los casos está en el intervalo “De 20 a 24 años” y procedemos a calcular mediante la fórmula:  5  431 c N = 23,91 Me = Li +  − N a −1  i = 20 +  − 110   135  2  ni 2

Ejercicio 2. Al tratarse de una distribución normal, utilizaremos la fórmula de las puntuaciones tipificadas Z y las tablas de áreas bajo la curva normal. a) Las puntuaciones Z normalizadas consisten en expresar la diferencia entre un valor de la variable y la media de la distribución, medida en unidades de desviación típica. Podemos obtener el dato pedido directamente de la fórmula:

Z=

xi − x 2 − 11 = = −2,90 S 3,1

b) Calcularemos primero el número de unidades Z que existen entre los 10 años y la media xi − x 10 − 11 = = −0,32 S 3,1 Consultando las tabla de la curva normal obtenemos la proporción de casos que hay entre ese valor y la media (obviando el signo, ya que la curva es simétrica y las tablas se refieren sólo a los valores positivos de Z) 0,1255 o el 12,55% Pero como se pide hallar la proporción de casos con MENOS de 10 años, sabiendo que la tabla representa el 50% de los casos restaremos el valor obtenido para hallar la proporción de casos por debajo de 10: Z=

0,5-0,1255=0,3745 Vemos que el 37,45% de los casos están por debajo de los 10 años de antigüedad, que expresado en número de trabajadores será el 37,45% de los 895 empleados, es decir 335. c) Para hallar el límite inferior de años de antigüedad de los 300 trabajadores que levan más años en la empresa comenzaremos por calcular la proporción que suponen los 300 trabajadores sobre el conjunto de la empresa:

300 = 0,3352 895 Como el área que proporcionan las tablas se refieren al valor acumulado entre la media y un punto, debemos restar 0,5-0,3352=0,1648 Consultando las tablas de la curva normal, obtenemos el valor Z correspondiente a esa proporción: aproximadamente Z=0,425 Conocido Z, podemos despejar xi de la fórmula: xi − x S xi = Z ⋅ S + x = 0,425 ⋅ 3,1 + 11 = 12,31 podemos asegurar entonces que los 300 trabajadores con mayor antigüedad, superan los 12 años. Z=

Ejercicio 3. Al tratarse de selecciones al azar sucesivas y sin reposición, calcularemos las probabilidades de la siguiente manera:

a) La probabilidad de que al extraer un trabajador pertenezca al departamento C será igual al número de trabajadores de ese departamento dividido por en conjunto de los trabajadores de la empresa: p=

Casos en el Dpto. C 12 = = 0,31 Total de trabajadores 39

b) Para hallar la probabilidad de que el segundo trabajador pertenezca al departamento B, al haber seleccionado ya un trabajador sin reposición, se deberá tener en cuenta que el número de trabajadores se ha minorado en una unidad. Podemos plantear que hay dos posibilidades: que el primer seleccionado fuera de B y que no fuera de B (que fuera de A o de C). Calcularíamos entonces la probabilidad de que en la primera extracción hubiera sido de B y que la segunda también. Al ser sucesos independientes, se trata de un producto de probabilidades:

P( B & B' ) = P( B) * P( B' ) =

7 6 * = 0,1795 * 0,1579 = 0,0283 39 38

La probabilidad de que el segundo fuera de B no habiendo sido en primero B (que fuera de A o C) sería

P ( B) * P ( B') =

7 32 * = 0,1795 * 0,8421 = 0,1511 39 38

Como el suceso se puede verificar de ambas formas, la probabilidad de que ocurra será la suma de las probabilidades:

P ( B & B' ) + P( B & B') = 0,02834 + 0,15114 = 0,17948 Como podemos ver, al ser sucesos independientes, obtenemos el mismo resultado que si hubiéramos calculado directamente p=

7 Casos en el Dpto. B = = 0,17948 Total de trabajadores 39

c) La probabilidad de seleccionar a un tercer trabajador que no pertenezca al Dpto. A, significa que deberá pertenecer a los departamentos B o C. Como en el caso anterior, independientemente de lo que hubiera sucedido antes, podemos evitar el cálculo de las cuatro posibilidades de ocurrencia diferentes del suceso y calcular directamente:

p=

Casos en los Dptos. B y C (7 + 12) 17 = = = 0,48718 Total de trabajadores 39 39

Ejercicio 4. Al tratarse de una población mayor de 100.000 utilizaremos la fórmula del tamaño muestral para poblaciones infinitas: Tomando p = q = 0,5, considerando que el nivel de confianza del 95,5% se corresponde aproximadamente con un Z=2 y que el error permitido en forma de proporción será e = 0,05 Z 2 pq 2 2 ⋅ 0,5 ⋅ 0,5 = 400 n= 2 = e 0,05 2

FEBRERO 2009 1ª Semana Ejercicio 1. En la siguiente tabla figuran los datos del I.N.E. sobre los condenados en España durante 2006, según la edad de comisión del primer delito. EDAD De 18 a 20 años De 21 a 25 años De 26 a 30 años De 31 a 35 años De 36 a 40 años De 41 a 50 años De 51 a 60 años De 61 a 70 años Más de 70 años Total

ni 9.077 14.902 15.097 14.288 13.534 18.839 7.124 2.083 580 95.524

Calcule la moda y la mediana de la edad de comisión del primer delito de los condenados y represente los datos de la tabla mediante un histograma, teniendo en cuenta la diferente amplitud de los intervalos. Ejercicio 2. En la siguiente tabla figuran los datos del INE sobre los 1.806 expedientes de suicidios consumados en España durante 2007.

Edad De 13 a 19 De 20 a 29 De 30 a 39 De 40 a 49 De 50 a 59 60 y más Total

Ambos sexos Varón Mujer 33 22 11 180 147 33 306 233 73 295 228 67 273 202 71 719 556 163 1.806 1.388 418

Si seleccionamos al azar 10 expedientes entre los 1.806, calcule: ¿Cuál es la probabilidad de que todos sean de varones mayores de 39 años? ¿Cuál es la probabilidad de que al menos la mitad sean de mujeres? ¿Cuál es la probabilidad de que ninguno de los expedientes seleccionados corresponda a una mujer? Ejercicio 3. Dada una distribución normal con media 5,6 y desviación típica 1,3 calcule el porcentaje de casos que quedan por debajo del valor 4. Calcule también el número de casos que quedan por encima de 7,2. Ejercicio 4. Un investigador necesita realizar una encuesta en un municipio para estimar la proporción de vecinos que escuchan determinado programa en la radio local. Para ello toma como universo poblacional al conjunto de los 16.580 adultos del municipio. ¿Qué tamaño muestral les sería necesario utilizar si el máximo error que admite es del 3%, para un nivel de confianza del 95,5%, considerando p = q = 50%?

RESPUESTAS Ejercicio 1. Para calcular las medidas de tendencia central debemos, en primer lugar, cerrar el intervalo superior “más de 70 años”. Podemos suponer que los delitos cometidos por personas de más de 80 años, serán excepcionales y que si cerramos el intervalo en ese punto apenas dejaremos fuera algún caso atípico (como se trata de una cuestión práctica de cálculo de estadísticos y no se plantean cuestiones técnicas referidas al derecho penal o al delito en las edades avanzadas, cualquier criterio planteado puede ser válido). Con esa decisión obtendremos la siguiente tabla: Edad 18 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 50 51 a 60 61 a 70 71 a 80 Total

amplitud 3 5 5 5 5 10 10 10 10

ni 9077 14902 15097 14288 13534 18839 7124 2083 580 95524

Marca Clase 19,5 23,5 28,5 33,5 38,5 46 56 66 76

Calcularemos en primer lugar la edad media del colectivo: La fórmula de la mediana es N  C Me  Li    N a 1   i 2  ni

Construimos una columna para calcular las frecuencias acumuladas e identificar el intervalo que contiene la mediana, valor que divide la distribución en dos partes iguales Edad 18 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 50 51 a 60 61 a 70 71 a 80 Total

amplitud 3 5 5 5 5 10 10 10 10

ni 9.077 14.902 15.097 14.288 13.534 18.839 7.124 2.083 580 95524

Na 9.077 23.979 39.076 53.364 66.898 85.737 92.861 94.944 95.524

Si dividimos el total de casos por la mitad obtenemos: 95.524 / 2 = 47.762 Al estar ordenados los casos por la edad, podemos ver que la categoría de edad que contiene el caso número 47.762 es el grupo “de 31 a 35 años” Tomando los datos de la tabla obtenemos la mediana de la edad  C  95.524  5 N  39.076   34,04 Me  Li    N a 1   i  31   2  ni  2  14.288

A continuación calcularemos el valor modal de la distribución mediante la fórmula: Mo  Li 

ni 1  C i 1  Ci ni 1  C i 1  ni 1  C i 1

Tomaremos como clase modal la de mayor frecuencia “de 41 a 50 años”, y por tanto el límite inferior para nuestro cálculo serán los 41 años: Mo  Li 

ni 1  C i 1 7.124  5  10  43,08 años  C i  41  ni 1  C i 1  ni 1  C i 1 7.124  5  13.534  10

En este punto es necesario recordar las salvedades que se expresan en la página 41 del libro de problemas resueltos acerca de las dificultades para calcular exactamente el valor de la Moda partiendo de datos agrupados. Para la representación gráfica, al tener intervalos de amplitud desigual debemos construir el histograma de forma que las áreas de cada rectángulo (S) sean proporcionales a las frecuencias. Construiremos una tabla para determinar la altura h de los rectángulos: Edad 18 a 20 21 a 25 26 a 30 31 a 35 36 a 40 41 a 50 51 a 60 61 a 70 71 a 80 Total

amplitud (b) 3 5 5 5 5 10 10 10 10

ni 9077 14902 15097 14288 13534 18839 7124 2083 580 95524

% (S)

h=S/b

9,50

3,17

15,60

3,12

15,80

3,16

14,96

2,99

14,17

2,83

19,72

1,97

7,46

0,75

2,18

0,22

0,61

0,06

100,00

Calculadas las alturas procedemos a representar gráficamente los datos:

Ejercicio 2. El ejercicio se resuelve mediante la distribución binomial a) Hallaremos en primer lugar p y q a partir de los datos de la tabla: Los varones de más de 39 años serán 228+202+556=986 Los 986 casos de varones mayores de 39 años suponen respecto al total de los 1.806 casos una proporción de p = 0,55 y por tanto q = 0,45 10  p( x  10)     0,5510  0,451010  1  0,5510  1  0,5510  0,00253 10  b) Procedemos como en el caso anterior calculando p: La probabilidad de que al extraer al azar un expediente del conjunto obtengamos el de una mujer se calcula dividiendo el total de mujeres entre el total de casos: p = 418/1806 = 0,23 y por tanto q = 0,77 La probabilidad de obtener “al menos” la mitad o “la mitad o más” mujeres será la suma de obtener 5, 6, 7, 8, 9 o 10 mujeres de cada 10 Podemos obtener esas probabilidades calculando los seis sumandos como en el caso anterior o bien consultando directamente las tablas de la distribución binomial al final del libro de problemas resueltos (página 256 para p = 0,23 y n =10):

p( x  5)  0,0439  0,0109  0,0019  0,0002  0  0  0,0569 (Al consultar las tablas observamos que para determinados valores de p no figuran los algunos casos por ser valores muy próximos a 0, y al utilizar sólo cuatro decimales

serían 0, por ejemplo, para p = 0,23 como es nuestro caso vemos que se omiten los valores para x = 10 y sólo figuran hasta el valor 9). c) Consultando directamente la tabla obtenemos: p( x  0)  0,0733

Ejercicio3. Para obtener el porcentaje de casos que quedan por debajo del valor 4 convertiremos la diferencia del punto a la media en números Z o unidades de desviación típica: x  x 4  5,6   1,23 1,3 S Para este valor de Z (prescindiendo del signo), en la tabla obtenemos un área de 0,3907 Como la tabla de áreas bajo la curva normal nos ofrece la distancia entre un valor de la variable y la media, medido en unidades de desviación típica (en este caso la distancia entre 4 y 5,6 tomando como unidad de medida 1,3), para hallar el área a la izquierda del valor 4 debemos restar de 0,5 Z

Por tanto el porcentaje buscado será 0,5-0,3907=0,1093 o el 10,93% En el segundo caso, el número de casos que quedan por encima del valor 7,2 se obtendrá de forma análoga: x  x 7,2  5,6   1,23 1,3 S y al ser equidistante la probabilidad buscada será como en el caso anterior el 10,93% de los casos. Z

(Aunque se pide número de casos, al no conocer el total de casos se expresa también en forma de porcentaje)

Ejercicio 4. Aplicando directamente la fórmula del tamaño muestral para poblaciones finitas tenemos: n

N Z2  pq ( N  1)  e 2  Z 2  p  q

Siendo: N = 16.580 e = 0,03 p = q = 0,5 Z=2

(Para un nivel de confianza del 95,5% en las tablas saldría interpolando Z = 2,005 pero para simplificar usaremos Z = 2) Sustituyendo los valores: N Z2  pq 16.580  2 2  0,5  0,5 16.580 n    1.041,4 2 2 2 2 ( N  1)  e  Z  p  q 16.580  1  0,03  2  0,5  0,5 15,92 Para no superar el error establecido tomaremos 1.042 unidades.

Febrero 2009 2ª Semana Ejercicio 1. En la siguiente tabla se muestra la estadística de los suicidios consumados en España durante 2006 según el sexo y la edad.

Edad De 13 a 19 De 20 a 29 De 30 a 39 De 40 a 49 De 50 a 59 60 y más Total

Ambos sexos Varón Mujer 33 22 11 180 147 33 306 233 73 295 228 67 273 202 71 719 556 163 1.806 1.388 418

Calcule las edades medias y las desviaciones típicas de varones y de mujeres.

Ejercicio 2. Con los datos del ejercicio anterior, calcule los coeficientes de variación de las edades para hombres y mujeres, comparando las dispersiones de ambos grupos en función de sus valores medios. Comente el resultado obtenido.

Ejercicio 3. Una población de 2500 estudiantes ha realizado un test sobre el uso y conocimiento de internet. Las puntuaciones obtenidas se distribuyen normalmente, con una media de 10 puntos y una Varianza de 9 puntos. a) Calcule el porcentaje de estudiantes que consiguen una puntuación superior a 15 b) Calcule el número de estudiantes que obtienen una puntuación comprendida entre los 8 y los 12 puntos c) Calcule la probabilidad de que al escoger un alumno al azar, su puntuación sea inferior a 3 puntos.

Ejercicio 4. Para conocer la satisfacción con los servicios municipales en una población de 13.200 hogares, queremos realizar una encuesta a una muestra representativa. ¿Cuántos hogares debemos seleccionar para no superar el error del 4% si establecemos el nivel de confianza en el 95%? Considere p = q

RESPUESTAS Ejercicio 1. Para calcular las medias necesitamos en primer lugar cerrar el intervalo abierto “60 años o más”. Desgraciadamente a tabla, obtenida de la web del INE, no detalla los valores a partir de los 60 años. Como podemos ver el número de suicidios aumenta con la edad, y la tasa de suicidios de personas con edades avanzadas será muy superior que para las edades inferiores, por tanto tiene sentido llevar el límite superior de ese intervalo hasta

un valor alto. Hemos cerrado el intervalo en los 95 años, conscientes de que se trata de una aproximación. Construimos una tabla para calcular las medias con la fórmula: n

X 

x i 1

ii

 ni

N

Edad 13 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 95 Total

Xc 16,5 25 35 45 55 77,5

n

x

X Hombres 

i 1



76.653  55,23 1.388



23.114  55,30 418

N n

X Mujeres 

 ni

ii

x i 1

 ni

ii

N

Hombres 22 147 233 228 202 556 1388

Mujeres 11 33 73 67 71 163 418

Xc*ni Hombres Xc*ni Mujeres 363 181,5 3675 825 8155 2555 10260 3015 11110 3905 43090 12632,5 76653 23114

Como podemos ver, a pesar de las mayores frecuencias de suicidios en los hombres, las edades medias casi coinciden. Para calcular las desviaciones típicas de ambos colectivos emplearemos la fórmula:

 x n

S

i 1



2

i

 x  ni N

Construiremos las tablas que nos faciliten los cálculos: Edad 13 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 95 Total

Xc 16,5 25 35 45 55 77,5

ni Hombres 22 147 233 228 202 556 1388

Media 55,23 55,23 55,23 55,23 55,23 55,23

(xc-media)2*ni 32992,62 134296,42 95313,55 23839,89 10,27 275861,16 562313,92

 x n

S Hombres 

i 1

 x  ni N

Edad 13 a 19 20 a 29 30 a 39 40 a 49 50 a 59 60 a 90 Total

Xc 16,5 25 35 45 55 77,5

 x n

S Mujeres 



2

i

i 1



562.313,92  20,13 1.388

ni Mujeres 11 33 73 67 71 163 418



Media 55,30 55,30 55,30 55,30 55,30 55,30

(xc-media)2*ni 16556,98 30290,27 30072,64 7103,41 6,25 80357,16 164386,72

2

i

 x  ni N



164.386,72  19,83 418

Como podemos ver la dispersión de las edades también es muy semejante en ambos casos, con un valor ligeramente superior en el caso de los hombres. Ejercicio 2.

A partir de los datos del ejercicio anterior podemos comparar los coeficientes de variación de ambas distribuciones, en forma de porcentajes. CV 

S  100 X

CV Hombres 

20,13 S  100   100  36,45% 55,23 X

CVMujeres 

19,83 S  100   100  35,86% 55,30 X

Dada la similitud en las medias y las desviaciones típicas, apenas se aprecian diferencias en los coeficientes de variación

Ejercicio 3.

Mediante la curva normal estándar podemos calcular las proporciones, convirtiendo nuestros datos particulares en puntuaciones Z

xi  X S Como tenemos el valor de la Varianza (9), la desviación típica será: S  V  9  3 Z

a)

xi  X 15  10   1,667 S 3

Z

Para ese valor de Z en la tabla tendremos la proporción 0,4525 Como la tabla de áreas bajo la curva normal ofrece la proporción de casos entre un valor de x y la media y lo que buscamos es la proporción entre ese valor x y el final de la curva, restaremos de 0,5 el valor de la tabla: 0,5-0,4525 = 0,0475 En porcentaje es el 4,75% de los casos b) Como los valores 8 y 12 están cada uno a un lado de la media, por encima y por abajo, calcularemos las diferencias para ambos valores y las sumaremos: xi  X 8  10   0,667 S 3 que en la curva normal se corresponde con una proporción de 0,2486 Z1 

xi  X 12  10   0,667 S 3 que igualmente en la curva normal se corresponde con una proporción de 0,2486 Z2 

La proporción buscada será 0,2486 * 2 = 0,4972 En número de casos será 0,4972 * 2.500 = 1.243 c) La probabilidad buscada se puede obtener consultando en la tabla el valor Z para x=3 Y restando de 0,5 x  X 3  10 Z i   2,333 que en la tabla arroja una proporción de 0,4901 S 3 Por lo tanto la probabilidad buscada es 0,5-0,4901 = 0,0099 que expresado en % sería aproximadamente el 1% Ejercicio 4

Al tratarse de una población “finita” o inferior a 100.000 utilizaremos la fórmula que incorpora la corrección para poblaciones finitas n

N Z2  pq 13.200  1,96 2  0,5  0,5   574,18 N  1  e 2  Z 2  p  q 13.200  1  0,04 2  1,96 2  0,5  0,5

para no superar el error del 4% utilizaremos 575 unidades muestrales.

a) Dada la naturaleza de los datos el análisis de varianza permite respo...

1 de 7

http://www.uned.es/111044/examenes/Junio 2001/solucion.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Sociología: 111044 Ciencias Políticas:121046 Junio 2001. 2ªPP. 1ª Semana. TIEMPO: 2 Horas. MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…) Ejercicio 1. Una ONG que tiene 64 oficinas repartidas por todo el país. Dicha ONG tiene un servicio de atención telefónica dedicada a la orientación juvenil en temas sexuales. Un técnico de la organización ha establecido que la relación entre el número de folletos distribuidos y el total de llamadas recibidas en cada uno de los centros tiene una relación lineal cuyos datos son: Y=0,01x Siendo el coeficiente de determinación de 0,64. El número medio de llamadas efectuadas durante el mes anterior fue de 20 siendo el número medio de folletos distribuidos de 2000 durante el mismo periodo. a) Represente gráficamente la función anterior b) Calcule la expresión que permite conocer el número de folletos necesarios a distribuir para alcanzar un número determinado de llamadas. Ejercicio 2. La tabla siguiente muestra los resultados de una encuesta realizada en un barrio en función del sexo a la pregunta: ¿Cuál es su parecer con el emplazamiento del nuevo ferial?

Muy Bien Bien Indiferente Mal Muy Mal

Varones 25 25 100 25 25

Mujeres 50 100 50 75 25

a) b)

Calcule la proporción de mujeres del conjunto poblacional que les parece bien o muy bien el nuevo emplazamiento ¿Puede afirmarse, para el total poblacional, que a las mujeres les parece mejor que a los varones el nuevo emplazamiento? c) Justifique su respuesta teniendo en cuenta que los resultados provienen de una muestra aleatoria. Ejercicio 3. Un investigador piensa que existen variaciones en la fecundidad en función de la condición socieconómica de las familias. Para ello selecciona a seis mujeres de 50 años pertenecientes a tres niveles de condición socioeconómica. El número total de hijos nacidos por mujer se refleja en la siguiente tabla. Nivel Socioeconómico Alto Medio Bajo 2 3 1 1 1 1 3 3 2 2 4 4 1 3 1 1 1 1 a) b)

A partir de estos datos señale si la teoría del investigador se cumple en este caso. Señale si se observa algún sentido en la relación entre fecundidad y nivel socioeconómico. Comente los resultados

Ejercicio 4 Una semana antes de las elecciones al parlamento de una comunidad autónoma, dos periódicos regionales publican los resultados de distintas encuestas realizadas de forma independiente. Como puede observar los resultados que ofrece cada periódico son divergentes. Periódico “El Día y la Noche”: Votos al partido ZYX= 42%. (n=1800) Periódico “El Informante”. Votos al partido ZYX=36%. (n=6800) a)

Estos resultados dispares, ¿Son debidos a los distintos tamaños muestrales empleados?

06/04/2012 11:50


2 de 7

b)


Razone su respuesta.

06/04/2012 11:50


3 de 7


RESPUESTAS EJERCICIO 1. a)

Si estudiamos la recta obtenida deducimos que cada 100 folletos se produce una llamada. Se trata de una función lineal, en la que no existe término independiente, por lo tanto la recta pasará por el origen de coordenadas. Para representar dicha función podemos dar algunos valores, tal y como se hace en la tabla siguiente: Folletos Llamadas (y) (x) 0 0 100 1 200 2 300 3 400 4 500 5 600 6 700 7 800 8 900 9 1000 10

Y el gráfico correspondiente:

b)

Lo que se pide es obtener la recta de regresión que coloque a “x” como variable dependiente:

Si tenemos en cuenta que:

06/04/2012 11:50


4 de 7


Tenemos que: Y por tanto: Como dicha recta debe pasar por el punto que determinan las medias:

Luego: Así la recta buscada será: EJERCICIO 2. a)

Para realizar dicho ejercicio, en primer lugar calculamos los totales marginales:

Muy Bien Bien Indiferente Mal Muy Mal

Varones 25 25 100 25 25

Total

200

Mujeres 50 100 50 75 25

300

La proporción de mujeres a quienes les parece bien o muy bien el nuevo emplazamiento será:

Es decir un 50% b)

La proporción de hombres será:

Un 25%. Para estudiar si en el total poblacional se mantienen las diferencias observadas en la muestra, realizaremos una prueba de hipótesis en la que contrastaremos la igualdad de proporciones.

Comenzaremos calculando la proporción media:

Su error típico será:

Ahora calculamos la diferencia entre ambas proporciones en unidades Z:

06/04/2012 11:50


5 de 7


El valor de Z señala que en la población existen, con un nivel de confianza mayor del 99%, diferencias significativas entre la opinión que sobre la ubicación del recinto ferial tienen hombres y mujeres. c) Los resultados muestran que efectivamente las opiniones de varones y mujeres son distintas. El importante tamaño muestral utilizado (n=500) nos permite asegurar esto con gran confianza.

EJERCICIO 3. a)

Dada la naturaleza de los datos el análisis de varianza permite responder a esta cuestión. En primer lugar calculamos los totales marginales, los cuadrados de estos y las medias: Nivel Socioeconómico Alto Medio Bajo

Total 2

Total Media

2 1 3 2 1 1 10 100

3 1 3 4 3 1 15 225

1 1 2 4 1 1 10 100

1,67

2,5

1,67

Total

35 425

En primer lugar calculamos la suma total de cuadrados:

La tabla siguiente nos ayuda en el cálculo: Total 4 1 9 4 1 1 20

9 1 9 16 9 1 45

1 1 4 16 1 1 24

89

06/04/2012 11:50


6 de 7


Luego: La suma de cuadrados entre grupos será:

=70,83-68,06=2,77 Y la suma de cuadrados dentro de los grupos, será: SCd=SCt-SCent SCd=20,94-2,77=18,17 Los grados de libertad serán: Glent=k-1=3-1=2 Gld=N-k=18-3=15 Así obtenemos que: Grados de Libertad Entre Dentro TOTAL

Suma de Varianza Cuadrados 2 2,77 1,385 15 18,17 1,211 17 20,94

Por tanto:

Como para un nivel de confianza del 95% el valor teórico de F=3,68 es mayor que el aquí obtenido no puede afirmarse a la vista de estos datos que exista relación entre el nivel socioeconómico y la fecundidad. b)

Al observar las medias de cada uno de los grupos se aprecia una relación curvilínea entre fecundidad y nivel socioeconómico, en el sentido de que las familias medias tendrían una fecundidad más elevada que las situadas en los extremos de la escala. Sin embargo las observaciones efectuadas anteriormente no permiten extrapolar dicha afirmación al conjunto poblacional. El investigador si desea probar su teoría deberá aumentar el tamaño muestral.

Ejercicio 4. a)

Para responder a esta cuestión vamos a contrastar la hipótesis de que no existen variaciones entre ambos resultados, obtenidos de dos muestras independientes.

Para ello calculamos en primer lugar la proporción media:

06/04/2012 11:50


7 de 7


El error típico de la proporción media será:

Ahora calculamos la diferencia entre ambas proporciones en unidades Z:

El valor obtenido muestra que para niveles de confianza superiores al 99% no podemos considerar que ambas muestras se refieran a la misma población. b) A tenor de lo anterior la explicación más probable es que el universo definido para cada encuesta sea distinto o que se hayan realizado en momentos muy distintos en el tiempo. Lo que esta claro es que la disparidad de resultados no puede atribuirse al tamaño muestral empleado, sino seguramente a que una o tal vez las dos encuestas estén mal realizadas. Es decir hayan incluido muestras sesgadas o parciales respecto al universo de estudio.

06/04/2012 11:50


1 de 6

http://www.uned.es/111044/examenes/solujunio20012.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Sociología: 111044 Ciencias Políticas:121046 Junio 2001. 2ªPP. 2ª Semana. TIEMPO: 2 Horas. MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…) EJERCICIO 1. En la encuesta-barómetro del CIS de octubre de 2000, 1225 entrevistados (de un total de 2500) manifestaron que el Presidente del Gobierno D. José María Aznar no les inspira confianza. En enero de 2001 fueron 1313 entrevistados (también de 2500) los que afirmaron lo mismo. ¿Podemos decir con una probabilidad de acertar de 0,95 que entre octubre y enero ha aumentado en el seno de la población española la desconfianza en el Presidente del Gobierno? Llamemos a la probabilidad de encontrar un individuo que ‘desconfía’ del Presidente del Gobierno en la muestra de octubre de 2000 (o a la proporción de estos individuos en dicha muestra) «p1». Y a la probabilidad de encontrarlo en la muestra de enero de 2001 «p2». Y al tamaño de la primera muestra «n1» y siendo el de la segunda «n2»

p1 =

= 0,49

p2 =

= 0,53

Como vemos p1 < p2 . Lo que queremos saber es si esta desigualdad se mantiene en el total de la Población española, es decir si P1 < P2. Estamos, como es obvio, ante una prueba de hipótesis o un contraste con dos muestras. Como lo que queremos saber es si el sentido de la desigualdad se mantiene en la Población, la prueba será unilateral. Considerando como hipótesis nula (H0) que P1 = P2 y como hipótesis alternativa que P1 < P2 . Jugar con una probabilidad de acertar del 0,95 quiere decir que fijamos un nivel de confianza del 95 % . Como las muestras son suficientemente grandes la distribución muestral considerada será «normal». El valor de la distribución muestral a considerar será

Como n1 = n2 , entonces

. Por lo tanto:

q = 1 – 0,51 = 0,49

[q = p - 1] 06/04/2012 11:50


2 de 6


Siendo el error típico:

El «z» empírico (ze) que necesitamos para el contraste será:

El «z» crítico (zc) para una prueba unilateral con un nivel de confianza del 95% es: zc= -1,645

Como ze está en la zona de rechazo al ser su valor absoluto superior al de zc, aceptamos la hipótesis alternativa. Podemos, por lo tanto, decir (con una probabilidad de acertar del 0,95) que, entre los meses considerados, ha aumentado la desconfianza de la Población española hacia el Presidente del Gobierno.

EJERCICIO 2. En Marzo de este año el Gabinete de Prospección Sociológica del Gobierno Vasco hizo públicos los resultados de una encuesta preelectoral. En la provincia de Vizcaya (que cuenta con unos 980 mil habitantes), un 23,5% de los 1330 individuos entrevistados pensaban votar al PP. El PP obtuvo en Vizcaya en las anteriores elecciones vascas de octubre de 1998 un 20,2% de los votos. Con los resultados de la encuesta de marzo de este año ¿podemos decir con un error de ± 2% que la población vasca ha cambiado (en lo que al voto al PP se refiere)? La proporción de votantes del PP en la muestra (de marzo de 2001) es p = 0,235. La proporción de éstos en la Población vizcaína (según los resultados de las elecciones del 98) es P = 0,202. Este ejercicio lo podemos resolver de dos maneras: A. ESTIMACIÓN Sabemos que p = P ± error. Y de igual modo: P = p ± error. Para un error de ± 2%, es decir, en términos de proporción, de ± 0,02, el intervalo de confianza que nos permite decir que no existe diferencia (significativa) entre el estadístico (muestral) y el parámetro( poblacional) es el siguiente:

06/04/2012 11:50


3 de 6

0,235 ± 0,02


à [0,215 ; 0,255]

Como se ve, el valor 0,202 queda fuera de este intervalo. Por lo tanto podemos decir (admitiendo un error máximo del 2%) que la población a la que corresponde la muestra es distinta a la población que votó en 1998: el número de votantes al PP ha cambiado (de 1998 a 2001) en la población vizcaína. B. CONTRASTE DE HIPOTESIS Calcularemos el error típico para obtener el «z» empírico a contrastar

Necesitamos ahora calcular el «z» crítico para un error de ± 0,02. Sabemos que

error = z · σp.

En este caso: 0,02 = zc · 0,011

Como /zc/ < /ze/ , es decir, como el valor «z» empírico está en la zona de rechazo de la hipótesis nula, que sostiene que no hay diferencias entre la población de la muestra y la que ya conocemos, tenemos que admitir (con un error máximo de ± 2%) que la población de la muestra es distinta en lo que a la proporción de votantes del PP se refiere. EJERCICIO 3. En un estudio sobre religiosidad en España encontramos los siguientes datos: Sexo varón Mujer católico/a practicante católico/a no practicante

18-29

edad 30-45 46-65

> 65

560

920

140

230

530

770

840

710

470

460

350

170

Averigüe con qué presenta más asociación la religiosidad, si con el sexo o con la edad. Tenemos que medir la asociación, por un lado, entre las variables sexo y religiosidad y, por otro, entre edad y religiosidad. Para ello tendremos que utilizar el mismo coeficiente en los dos casos (para permitir la comparabilidad). Hay que tener en cuenta que la edad se puede utilizar como variable nominal: toda variable cuyo nivel 06/04/2012 11:50


4 de 6


máximo de medición sea intervalar puede contemplarse también en niveles de medición más básicos: ordinal y nominal. Veamos con una distribución teórica χ2 la posible asociación. 1. ASOCIACIÓN RELIGIOSIDAD/SEXO Calcularemos la tabla de frecuencias esperadas en cada casilla (que nos define la no asociación entre las variables).

católico/a practicante católico/a no practicante total

varón

Mujer

total

684

796

1480

716

834

1550

1400

1630

3030

Calcularemos la chi-cuadrado (χ2), basándonos en las diferencias entre la tabla de frecuencias observadas y la tabla de frecuencias esperadas.

χrs2= 22,48 + 19,32 + 21,47 + 18,44 = 81,71 Para poder decir más acerca de la asociación entre sexo y religiosidad utilizamos un coeficiente estandarizado que nos permita la comparación del grado de asociación entre otras variables. Utilizamos, por ejemplo, el V de Cramer (que en este caso tendría el mismo valor que el coeficiente Ф).

La asociación es muy baja. 2. ASOCIACIÓN RELIGIOSIDAD/EDAD De igual modo, calcularemos en este caso la tabla de frecuencias esperadas en cada casilla.

católico/a practicante Católico/a no practicante total

18-29

30-45

46-65

> 65

total

327

369

471

503

1670

283

321

409

437

1450

610

690

880

940

3120

Calcularemos la chi-cuadrado (χ2) para ver si existe asociación.

06/04/2012 11:50


5 de 6


χre2 = 106,94 + 52,36 + 7,39 + 141,73 + 123,57 + 60,19 + 8,51 + 163,13 χre2 = 663,82 Usamos como en el caso anterior la V de Cramer para estandarizar el grado de asociación.

CONCLUSIÓN Como podemos ver, la religiosidad está mucho más asociada con la edad que con el sexo.

EJERCICIO 4. En una determinada e imaginaria provincia la edad media de las mujeres es de 47 años (con una desviación típica de 10 años) y el número medio de hijos de éstas es de 3,2 (con una desviación típica de 1 hijo). El coeficiente de correlación ‘r’ entre la edad de las mujeres y el número de hijos es de 0,4. Halle la recta que permite predecir el número de hijos conociendo la edad de la mujer. Llamemos a la «edad» de las mujeres variable «x» y al «nº de hijos» de éstas variable «y» La recta que se nos pide es: y = a + bx Tendremos que calcular los parámetros «a» y «b» que la definen. Sabemos que y que Entonces ;

sxy= 4

Y

Como el punto

pertenece a la recta y = a + bx :

3,2 = a + 0,04 · 47

06/04/2012 11:50


6 de 6


a = 3,2 – 1,88 = 1,32. Por lo tanto, la ecuación de la recta que se nos pide será: y = 1,32 + 0,04 x

06/04/2012 11:50


1 de 4

http://www.uned.es/111044/examenes/junio 2002/junio2002IIs.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES JUNIO 2002. PRIMERA SEMANA. SOLUCIONES. Ejercicio 1. En un artículo referido a una región mediterránea leemos lo siguiente: “A partir de los datos de una encuesta probabilística, para un nivel de confianza del 99% la edad media de las madres cuando tienen el primer hijo se encuentra en el intervalo (27,2 años y 29,3 años)” a) a) ¿Podría señalar cuál es el intervalo para esa muestra con un nivel de confianza del 95,45%? b) b) ¿Sería capaz de decir cuántas entrevistas se han realizado? *** En este ejercicio partimos del intervalo de confianza. Dicho intervalo se construye mediante la suma y la resta al valor del estadístico, en este caso de una media, del error muestral. En primer lugar calculamos el valor central del intervalo, que será el valor de dicho estadístico: El punto medio del intervalo: Es decir, en la muestra la edad media de las madres al primer hijo es 28,25 años. El error muestral será la diferencia entre los extremos del intervalo respecto al valor del estadístico: 29,3-28,25=1,05 (También puede calcularse como la diferencia respecto al extremo inferior 28,25-27,2=1,05). Por lo tanto B, el error muestral, es 1,05. El error muestral es el producto del error típico por el nivel de confianza: Expresado en notación algebraica:

En nuestro caso, como el nivel de confianza es del 99%, Z=2,58, y por tanto:

El error típico será: El intervalo para un nivel de confianza del 95,45% vendrá dado por el producto del error típico por Z=2

Y por lo tanto el intervalo será:

b) No, a partir de los datos disponibles, media y error típico no puede obtenerse “n”. Para ello habría hecho falta conocer la desviación típica o la varianza de la edad al primer nacimiento. Ejercicio 2.

06/04/2012 11:53


2 de 4


Un periodista está investigando un presunto fraude en un concurso de gimnasia rítmica. A partir de las actas de las votaciones ha conseguido la siguiente información, de las votaciones realizadas por los tres jueces a los cuatro candidatos finalistas: Juez 1 Juez 2 Juez 3 A 1 4 2 B 3 2 4 C 2 1 3 D 4 3 1 En dicha fase de concurso cada juez puntuaba con un uno al mejor participante y con un cuatro al peor. Dicho periodista le pide a usted un informe sobre la posibilidad de que haya algún juez que haya mantenido criterios discrepantes respecto a los otros en las valoraciones de los finalistas. ¿Podría ayudarle? ***

Podemos comparar los criterios de evaluación de los jueces de dos en dos, analizando la asociación entre ellos, utilizando para ello el coeficiente “rho” (r) de Spearman. Juez 1

Juez 2

D

1 3 2 4

4 2 1 3

-3 1 1 1

Juez 1

Juez 3

D

1 3 2 4

2 4 3 1

-1 -1 -1 3

Juez 2

Juez 3

D

4 2 1 3

2 4 3 1

2 -2 -2 -2

D2 9 1 1 1

D2 1 1 1 9

D2 4 4 4 4

06/04/2012 11:53


3 de 4


Está claro que el juez 1 es el que más discrepa frente a los criterios de los otros dos.

Ejercicio3. Un investigador selecciona aleatoriamente trescientas viviendas en alquiler en un determinado barrio, y a partir de estos datos encuentra una clara relación inversa entre el precio del alquiler y la distancia a la estación de ferrocarril. Según sus cálculos el coeficiente de determinación es 0,49. Calcule para un nivel de significación del 0, 5 un intervalo para el coeficiente r de Pearson. *** 2 El coeficiente de determinación (r ) sabemos que es 0,49. R por lo tanto será 0,7 o bien –0,7 Como nos dicen que la relación entre las variables es inversa ( es decir, a más distancia a la estación menor será el precio del alquiler), r =-0,7 Para un nc = 95% [z = 1,96], el intervalo será: Conocido r, obtenemos Zr a partir de las tablas de valores de Z para valores dados de r El valor r = 0,7 se corresponde con un Zr = 0,8673

Convirtiendo de nuevo los valores de Z a valores R mediante la tabla, tenemos que el intervalo pedido para el coeficiente de correlación en la población sería (-0,639;-0,760)

Ejercicio 4. Una socióloga está investigando la discriminación laboral de las mujeres. Ha realizado una encuesta a 400 familias en las que trabajan los dos cónyuges. Cuando ha preguntado el tiempo de desplazamiento desde el hogar hasta el lugar de trabajo, ha encontrado los siguientes resultados:

Tiempo medio de desplazamiento diario Desviación típica

Varones 35 minutos

Mujeres 56 minutos

8 minutos

14 minutos

¿Puede decirnos si a partir de estos datos puede señalarse que las mujeres ocupan los puestos de trabajo en localizaciones más remotas que los varones? *** Se trata de una prueba de hipótesis de diferencias de medias. En primer lugar calculamos los errores típicos al cuadrado para varones y para mujeres:

Varones:

Mujeres:

0,49

06/04/2012 11:53


4 de 4


El error típico de la diferencia:

Por tanto la diferencia de medias en unidades Z será:

El elevado valor de Z señala claramente que existen diferencias en los tiempos de desplazamiento laboral y que las mujeres ocupan puestos de trabajo más lejanos a sus domicilios respecto a sus parejas.

06/04/2012 11:53


1 de 4

http://www.uned.es/111044/examenes/junio 2002/junio 2002 2 semana.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES JUNIO 2002. SEGUNDA SEMANA. SOLUCIONES. Ejercicio 1. En los `barómetros´ del CIS se pide a los ciudadanos españoles que se sitúen políticamente en una escala que va de 1 (posición más a la izquierda) al 10 (posición más a la derecha). El valor central de la escala es el 5,5. En febrero de 1998, en una muestra de 1905 entrevistados se obtuvo un valor medio de 4,75 y una desviación de 1,86. Un año más tarde, en febrero de 1999, con una muestra de 1751 entrevistados, el valor medio fue de 4,88 y la desviación típica de 1,79. ¿Podemos decir (con un 95% de probabilidades de acertar) que la población española se ha desplazado a la derecha entre 1998 y 1999? ***

Se trata, claro está, de una prueba de hipótesis. Se trata de comparar los valores medios de lo que podemos llamar 'autoposicionamiento político' de dos muestras extraidas de dos poblaciones supuestamente distintas (la p. española de 1998 y la de 1999) y ver si existen o no diferencias significativas entre ellos. Como nos dan el sentido de la diferencia (la media de 1999 es mayor que la de 1998; y esto es lo que nos permite hablar de derechización de la población española), la prueba será unilateral. La 'significatividad' de la diferencia vendrá dada por el nivel de confianza. Y en este caso, el nivel de confianza con el que hemos de trabajar es del 95 %. Por lo tanto, el valor "z" asociado a este nc (el 'z teórico') será "1,645". En este contraste o prueba de hipótesis, trabajamos con la distribución muestral configurada por la diferencia entre las medias. Ahí el error típico será:

; donde

e igualmente

Por lo tanto,

Calculamos el 'z empírico' para contrastar.

;

Como , ze está en la zona de rechazo de la hipótesis nula, hipótesis que sostiene que no hay diferencias significativas. Por lo tanto, hemos de aceptar la hipótesis alternativa (sí hay diferencias: ). Podemos decir, con un nivel de confianza del 95%, que la población española se ha derechizado

06/04/2012 11:53


2 de 4


entre 1998 y 1999. Ejercicio 2. Tenemos los siguientes datos de cuatro individuos de un grupo: Edad (en años) 13,1 11,2 12,0 13,2

Individuo 1 Individuo 2 Individuo 3 Individuo 4

Estatura (en metros) 1,40 1,20 1,20 1,45

a)

¿Cuál será el coeficiente de correlación entre la edad y la estatura? (utilice al menos 3 decimales) b) ¿Cuál sería el coeficiente de correlación si tuviésemos sólo 2 individuos? *** a) En primer lugar calculamos las medias, varianzas y covarianza de ambas variables: Edad Individuo 1 Individuo 2 Individuo 3 Individuo 4

13,1 11,2 12,0 13,2 49,5

Altura 1,40 1,20 1,20 1,45 5,25

X2 171,61 125,44 144,00 174,24 615,29

Y2 1,96 1,44 1,44 2,10 6,94

XY 18,34 13,44 14,40 19,14 65,32

La media será:

La varianza será:

La covarianza:

Entonces:

06/04/2012 11:53


3 de 4


b) Con sólo 2 individuos “r” sería igual a 1. Ejercicio 3. Según el censo de población de 1991, en la Comunidad de Madrid encontramos un total de 289.804 parados, de los cuales 128.186 son hombres y 161.618 son mujeres. Según la encuesta de Población Activa en el primer trimestre de 1991, en la Comunidad de Madrid encontramos entre los entrevistados a 620 hombres parados y 730 mujeres paradas. a)

Estime para la población la proporción de hombres parados sobre el total de parados a partir de los datos obtenidos en la encuesta. b) Estime también la proporción de mujeres paradas. *** a) Para estos datos, la proporción de hombres parados (sobre el total de parados) en la población de la Comunidad de Madrid estará comprendida entre unos parámetros que dependerán del nivel de confianza que consideremos. Como aquí no se nos da ninguno, fijamos uno, que bien puede ser, por la generalidad con la que se usa, del 95 % (pero cualquier otro nos valdría: eso sí, obtendríamos resultados diferentes con cada uno de ellos). La muestra de 'población parada' estaría formada por 620 + 730 individuos (n = 1350). La proporción de hombres parados en la muestra sería de 620 / 1350 (p = 0,46). La proporción de hombres parados en la población madrileña (P) estaría comprendida en el intervalo definido de la siguiente manera: P = p ± z · σp Siendo el error típico σp = Para los datos que tenemos σp =

. = 0,013565.

Por lo tanto, P = 0,46 ± 1,96 · 0,013565 = 0,46 ± 0,0266 = [ Estimamos, por lo tanto, que el parámetro poblacional, en este caso, la proporción de hombres parados sobre el total de parados en la Comunidad de Madrid estará comprendida entre estos valores, o en términos porcentuales, la población masculina parada supondrá entre el 43,34 % y el 48,66 % del total de parados. Como el total de parados de la población en valores absolutos es de 289.804, según nuestra estimación, el número de varones parados en la Comunidad de Madrid estaría entre 125.601 y 141.019. Podemos ver que nuestra estimación ha sido acertada, ya que este número es de 128.186. b) Si la población masculina parada estimábamos que estaría entre el 43,34% y el 48,66%, se supone que la femenina estará entre el 56,66% y el 51,34%. Comprobémoslo. Aunque no hubiese hecho falta hacer nada más.

06/04/2012 11:53


4 de 4


La proporción de mujeres paradas en la muestra sería p = 0,54. σp sería la misma que para los varones: σp =

= 0,013565

Y el intervalo de estimación sería: P = 0,54 ± 1,96 · 0,013565 = 0,54 ± 0,0266 = [ Ejercicio 4. a) ¿Sería estadísticamente posible encontrar una correlación r = 0,9 en una población de asalariados y asalariadas entre las variables “sexo” y “salario”? b)¿Y una correlación r = -0,3? c)Argumente sus respuestas sólo desde el punto de vista de la estadística teórica. *** a) El coeficiente de correlación está definido para variables medidas a nivel de intervalo y como la variable “sexo” es del tipo nominal, no tiene sentido hablar de correlación estadística, independientemente de cual sea la relación entre ambas variables. b) Por las mismas razones que en el punto anterior, r carece de sentido para explicar la relación entre sexo y salario.

06/04/2012 11:53

junio 2003 1 s

1 de 6

http://www.uned.es/111044/examenes/Junio 2003/junio2003.htm

Facultad de Ciencias Políticas y Sociología Estadística Aplicada a las Ciencias Sociales Examen de Junio 2003. 2ª Prueba Presencial. 1ª Semana.

Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.) Duración: 2 Horas.

Ejercicio 1 Una organización ecologista establece un sistema de 400 puntos de control repartidos aleatoriamente a lo largo de la costa afectada por los vertidos de un petrolero hundido. En la semana anterior encontraron que el 20% de los puntos de muestreo estaba afectado por el vertido. En la semana actual es el 42%. ¿Puede señalarse para un nivel de significación del 5% que el vertido llegado hasta la costa ha crecido durante la última semana? Ejercicio 2 A partir de los datos siguientes: a) Calcule una recta de regresión que permita estimar ‘la tasa de delincuencia’ de una ciudad cuando se conoce ‘la tasa de paro’. b) Comente los resultados sobre la relación que se observa entre paro y delincuencia. Tasa de paro Tasa de delincuencia Ciudad A 12 6 Ciudad B 10 5 Ciudad C 16 4 Ciudad D 20 4 Ciudad E 10 6

Ejercicio 3 El servicio de atención de calidad de un hospital ha realizado una encuesta de satisfacción con el servicio a 120 varones y a 90 mujeres. El 45% de los varones han expresado distintos motivos de queja por la atención recibida mientras que sólo lo han hecho el 38% de las mujeres entrevistadas. A la vista de los datos, ¿Puede sostenerse que existen diferencias en la percepción del servicio entre varones y mujeres? Explique su respuesta. Ejercicio 4 La siguiente tabla muestra el número de minutos de televisión consumidos para una muestra de 8 familias de tres barrios residenciales de distintos niveles de estatus socioeconómico. Bajo Estatus Socioeconómico Medio Alto

120 240 60

245 300 125

480 125 340

355 100 210

240 300 300

625 250 400

440 90 90

240 220 200

A la vista de los resultados anteriores podría señalar si existe relación entre el estatus socioeconómico y el consumo de televisión. Ejercicio 1

Se trata de una prueba de hipótesis unilateral del estadístico de la proporción para dos muestras. Para calcular el error típico se utiliza la proporción media:

06/04/2012 11:55

junio 2003 1 s

2 de 6


Dado que n1=n2 la fórmula se simplifica a una media aritmética:

Así: Y el error típico será, teniendo en cuenta que n1=n2:

El estadístico Z tomará el valor:

El valor de Z es tan elevado que, sin necesidad de observar la tabla, puede rechazarse la hipótesis nula. Con un nivel de confianza superior incluso al 99%, puede asegurarse que el vertido ha crecido durante la última semana.

06/04/2012 11:55

junio 2003 1 s

3 de 6


Ejercicio 2. Para obtener la recta de regresión calculamos las columnas de cuadrados y productos cruzados y la fila de los sumatorios.

X

X2

Y 12

6

10

5

16

4

20

4

10

6

68

25

Y2

XY

144

36

72

100

25

50

256

16

64

400

16

80

100

36

60

1000

129

326

A partir de estos datos calculamos las medias, las varianzas y la covarianza:

Por tanto,

La recta será: y=7,53-0,186x b) Los datos muestran una relación inversa o negativa entre paro y delincuencia. Obsérvese que la covarianza es negativa. Ejercicio 3

06/04/2012 11:55

junio 2003 1 s

4 de 6


Se trata de una prueba bilateral de diferencia de proporciones Para calcular el error típico se utiliza la proporción media:

Y el error típico será

El estadístico Z tomará el valor:

Para un nivel de significación del 95% en una prueba bilateral el valor crítico del estadístico es 1,96. El valor de la prueba en este caso es claramente inferior, por lo tanto no puede rechazarse la hipótesis nula. Ello quiere decir que estadísticamente en función del tamaño muestral utilizado no puede sostenerse que existen diferencias en la valoración de la atención sanitaria que realizan varones y mujeres.

06/04/2012 11:55

junio 2003 1 s

5 de 6


Ejercicio 4 El análisis de varianza permitirá contestar a la pregunta. En primer lugar calculamos las sumas de cuadrados:

X1

X2

X3

120

240

60

245

300

125

480

125

340

355

100

210

240

300

300

625

250

400

440

90

90

240

220

200

2745

1625

1725

7535025

2640625

2975625

941878,125

330078,125

371953,125

1643909,38

14400 60025 230400 126025 57600 390625 193600 57600 1130275

57600 90000 15625 10000 90000 62500 8100 48400 382225

3600 15625 115600 44100 90000 160000 8100 40000 477025

1989525

6095

Las medias serán:

06/04/2012 11:55

junio 2003 1 s

6 de 6


La Suma Cuadrados Total:

La suma de cuadrados entre grupos:

3 La suma de cuadrados dentro de los grupos= 441648,958-96033,333=345615,625

Origen de la variación Grados de libertad Entre Grupos Dentro de grupos TOTAL

Suma de cuadrados 2 21 23

Estimación de varianza 96033,333 48016,667 345615,625 16457,887 441648,958

El valor otenido de F es menor que el teórico para un nivel de confianza del 95%, por tanto la conclusión es que no pueden señalarse a partir de esta muestra diferencias entre el consumo televisivo y el estatus socioeconómico. Valores de F2,21 para: p=5% 3,47 P=1% 5,78 p=0,1% 9,77

06/04/2012 11:55

Facultad de Ciencias Políticas y Sociología

1 de 5

http://www.uned.es/111044/examenes/junio 2004/primera junio.htm

Facultad de Ciencias Políticas y Sociología Estadística Aplicada a las Ciencias Sociales [Políticas: 111044 / Sociología: 121046] JUNIO 2004 1ª SEMANA. Original.

Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.) Duración: 2 Horas. Cada ejercicio se evaluará sobre 2,5 puntos.

_________________________________________________________________________ Ejercicio 1 Una muestra aleatoria de 225 madrileños reveló que sólo 18 de ellos poseían DVD. ¿Podemos decir con estos datos que menos del 10 % de los madrileños poseen DVD? (Considere un nivel de significación del 95%) En primer lugar tenemos que calcular es el porcentaje de los entrevistados que poseen DVD. P = 18/225 = 0,08 Para a continuación ver si el 10 % está dentro del intervalo de confianza considerado en la estimación. Aquí, se nos señala un nivel de significación del 95 %, o lo que es lo mismo un nivel de confianza del 5 %. El dato no es erróneo, puesto que el nivel de ‘significación’ puede oscilar entre 0 y 100. Aunque mucha gente puede haber creído que se hablaba de nivel de ‘confianza’. Consideraremos, por lo tanto, ambos casos. a) Con un nivel de significación del 95 %. Calculamos el error típico.

; A un nivel de significación del 95 % le corresponde un valor Z aproximado a 0,06. Por lo tanto el intervalo de confianza oscilará entre los siguientes valores: 0,08 ± 0,06 · 0,018. Es decir, entre 7,89 % y 8,11 %. Entre estos valores estará el valor de la población para el nivel de significación considerado. Siempre por debajo del 10 %. Podemos afirmar que menos del 10 % de la población no tienen DVD.

b) Con un nivel de significación del 5 %, esto es, con un nivel de confianza del 95 %. Z sería aquí igual a 1,96. El intervalo de confianza oscilará entre: 0,08 ± 1,96 · 0,018. Esto es entre 4,46 % y 11,55 %. Lo que quiere decir que no podemos asegurar que el parámetro poblacional se encuentre por debajo del 10 %. 06/04/2012 11:58


2 de 5


Ejercicio 2 En una encuesta hemos obtenido los siguientes resultados al cruzar el estado de la población activa con su estado civil:

Ocupado Parado

Soltero 102 6

Casado 638 27

¿Puede explicarse la distinta incidencia del paro entre solteros y casados como resultado de una variación puramente aleatoria? Esto se puede ver por la diferencia de proporciones. Suponemos que las extracciones de solteros y casados son independientes. Así tendremos una muestra de solteros (1) y otra de casados (2), en donde las proporciones de parados son las siguientes. p1 = 6/108 = 0,0556 p2 = 27/665 = 0,0406 Buscamos saber si la diferencia en la proporción de parados entre solteros y casados es debida a factores aleatorios, es decir, si dicha diferencia no es significativa estadísticamente, si podemos decir para la población que no hay diferencias en las proporciones de parados solteros y parados casados. Para ello definiremos un nivel de confianza. Por ejemplo, el 95 %. Hubiésemos podido coger cualquier otro, entre 0 y 100. En este caso los valores críticos de Z son ± 1,96. La distribución muestral de la diferencia entre dos proporciones muestrales (p1 - p2) es normal, siendo n1 y n2 suficientemente grandes, y tiene una media igual a "p1 - p2" y una desviación típica σp

σp=

siendo p una media ponderada de las dos proporciones muestrales, esto es, y

q = 1- p

El estadístico de prueba es

Z= _______________

06/04/2012 11:58


3 de 5


q = 1 - 0,0427 = 0,9573

σp=

Por lo tanto,

Z=

Como el Z empírico obtenido está dentro de la región crítica, podemos decir que las proporciones de parados son iguales para los solteros y para los casados, esto es, que las diferencias obtenidas en las muestras son puramente aleatorias.

06/04/2012 11:58


4 de 5


Ejercicio 3 La siguiente tabla muestra la evolución conjunta de los valores medios de la renta y del consumo privado ‘per cápita’ en los Estados Unidos de América (en dólares). Año Renta Consumo 1980 9722 8783 1981 9769 8794 1982 9725 8818 1983 9930 9193 a) Calcula el coeficiente de correlación entre ‘renta’ y ‘consumo’ y dé una interpretación de éste. b) En el caso de que hubiésemos contado con los datos (no agrupados por año) de los individuos, ¿cómo hubiese sido dicho coeficiente?: ¿mayor o menor que el obtenido? ¿Por qué razón? Llamemos a la Renta "X" y al Consumo "Y". = 9786,5 $ = 8885,75 $ X

Y

9722 9769 9725 9930

8738 8794 8818 9193

X-64,5 -17,5 61,5 143,5

X-

)2 = 28.844

Y-

)2 = 129.240,74

X-

)(Y -

Y-147,75 -91,75 -67,75 307,25

(X -

)2

4160,25 306,25 3782,25 20595,25

(Y -

)2

21830,06 8418,06 4590,06 94402,56

(X -

) (Y ) 9529,875 1605,625 4166,625 44090,375

) = 59.392,5

El coeficiente de correlación será

El coeficiente que correlaciona renta y consumo es altísimo, lo que quiere decir que una y otro están muy relacionados o se encuentran muy 'asociados': a cada incremento de renta le corresponderá un incremento lineal del consumo. ¿A qué se debe esta altísima correlación? Aparte de la relación funcional entre ambas variables tenemos que tener en cuenta lo que se ha llamado "falacia ecológica" o "correlación ecológica" [en el Manual de Sánchez Carrión, páginas 44-47 y 536-537]. Al considerar 'unidades agregadas' la correlación siempre será más alta que si tenemos en cuenta 'unidades individuales'. Nunca se deben mezclar unidades de nivel

06/04/2012 11:58


5 de 5


individual y agregado en un mismo análisis. Y no podemos establecer conclusiones individuales partiendo de unidades agregadas.

Ejercicio 4 Un encuesta del CIS (estudio 2315) realizada en 1999 entrevistó a 938 mujeres residentes en municipios rurales de 18 a 49 años y a 2733 mujeres residentes en municipios urbanos del mismo grupo de edad. De las entrevistadas rurales 148 dijeron estar en paro mientras que 503 mujeres urbanas se consideraron paradas. Estime para un nivel de significación del 5% la proporción de paradas rurales en el conjunto de la población española. Las mujeres rurales en paro supone el 15,78 % del total de mujeres rurales. A un nivel de significación del 5 % le corresponde una Z igual a 1,96.

El error típico que tendríamos que considerar sería La proporción de paradas en la población estaría entre 0,1578 ± 1,96 · 0,0119 Es decir entre 0,1345 y 0,1811.

06/04/2012 11:58

Ejercicio 1

1 de 4

http://www.uned.es/111044/examenes/junio 2004/soluciones junio2004.htm

Facultad de Ciencias Políticas y Sociología Estadística Aplicada a las Ciencias Sociales JUNIO 2004 2ª SEMANA. Ejercicio 1 En una muestra de 100 individuos hemos obtenido unos ingresos medios de 1400 € al mes (con una varianza de 160.000). Con esta muestra, ¿podría afirmarse que los ingresos medios en la población son 1.500 €? ¿Con qué nivel de significación podría afirmarse esto? Ejercicio 2 Un test nos mide el aprendizaje del castellano (entre 0 y 100) de unas muestras de estudiantes extranjeros en España procedentes de 3 países distintos. Los resultados obtenidos en los 13 estudiantes seleccionados son los siguientes: A 29 64 33 40

PAÍSES B 90 66 73 55

C 45 59 51 44 55

¿Son las tres poblaciones representadas en las muestras diferentes en cuanto al grado medio de aprendizaje del castellano? Ejercicio 3 Un encuesta del CIS (estudio 2315) realizada en 1999 entrevistó a 938 mujeres residentes en municipios rurales de 18 a 49 años y a 2733 mujeres residentes en municipios urbanos del mismo grupo de edad. De las entrevistadas rurales 148 dijeron estar en paro mientras que 503 mujeres urbanas se consideraron paradas. Señale, con un nivel de confianza del 95%, si la incidencia del paro era más elevado en las mujeres urbanas respecto a las rurales. Ejercicio 4 La siguiente tabla elaborada a partir de la Encuesta de Calidad de Vida en el trabajo (MTASS, trienio 1999-01) clasifica a los asalariados en el sector privado por el tipo de contrato y sexo.

No Fijos Fijos

Varones 2320 3545

Mujeres 1459 1787

a)

Señale la variable independiente y calcule los porcentajes de la tabla en función de esta b) Haga un comentario conciso de estos datos. RESPUESTAS

Ejercicio 1 Se trata de calcular la distancia, en unidades Z, entre el valor muestral y el valor de referencia. Dicho de otra forma, para qué nivel de confianza el intervalo comprenderá al valor de referencia.

06/04/2012 11:58

Ejercicio 1

2 de 4


En primer lugar calculamos el error típico del estadístico de la media:

El valor del estadístico Z será:

Es decir el valor de referencia estará a 2,5 unidades de desviación estándar. Para Z=2,5 el valor del área, desde la media, es: 0,4938 Por lo tanto la probabilidad de rechazo de la hipótesis nula, considerando una prueba bilateral, es 1-(0,4938*2)=1-0,9876=0,0124. Podemos afirmar con un 98,76% de nivel de confianza que la media de ingresos es distinta de 1500 euros. Ejercicio 2 Se trata de un análisis de varianza con tres grupos. Calculamos los datos necesarios: A

B

C

X1

X2

X3

29 64 33 40

Media

166 41,5

90 66 73 55

45 59 51 44 55

284 254 71 50,8

841 4096 1089 1600

704

8100 4356 5329 3025

2025 3481 2601 1936 3025

7626 20810 13068 41504

Total grados de libertad: N-1=13-1=12 Grados de libertad entre grupos k-1=3-1=2 Grados de libertad dentro de grupos: N-k=13-3=10

06/04/2012 11:58

Ejercicio 1

3 de 4


Tabla de varianza: Suma de Grados de Cuadrados libertad Varianza Entre Grupos 1831,89231 2 915,946154 Dentro de Grupos 1547,8 10 154,78 TOTAL 3379,69231 12 Cálculo estadístico F:

El valor crítico para el estadístico es: Con 5% de significación F=4,10 Por lo tanto, como el valor empírico es mayor que el crítico concluimos que existen diferencias en el aprendizaje de los alumnos según nacionalidad con un nivel de confianza del 95%. Ejercicio 3 Se trata de una prueba unilateral de diferencia de proporciones. Calculamos las proporciones de cada submuestra: ni Rurales Urbanas Total

ai 938 2733 3671

pi 148 503 651

0,158 0,184 0,177

H0 : H1 : Para el cálculo del error típico de la diferencia de proporciones, calculamos primero la media de las proporciones. Ya lo tenemos calculado en la última fila de la tabla anterior. La media de las proporciones es la proporción del total de la muestra. Obsérvese que:

El error típico de la diferencia de proporciones es:


06/04/2012 11:58

Ejercicio 1

4 de 4


Como el valor crítico es 1,645 puede rechazarse la hipótesis nula para un nivel de significación del 95%. Puede afirmarse, con un nivel de confianza del 95% que el paro de las mujeres urbanas es mayor que el de sus homólogas rurales.

Ejercicio 4 La variable independiente es el sexo. Por lo tanto los porcentajes habrá que calcularlos sobre el total de cada columna.

No Fijos Fijos Total

Varones Mujeres 39,6 44,9 60,4 55,1 100% 100%

La tabla muestra diferencias entre el tipo de contrato y el sexo del trabajador en el sentido de una inserción laboral menos estable y por tanto más precaria para las mujeres que para los hombres.

06/04/2012 11:58

FACULTAD DE CIENCIAS POLÍTICAS SOCIOLOGÍA

1 de 5

http://www.uned.es/111044/examenes/Junio 2006/2semanajun2006.htm

Estadística Aplicada a las Ciencias Sociales Exámenes 2ª semana junio 2006 Ejercicio 1. Los ingresos medios anuales de los asalariados españoles en 2002 según el nivel de estudios se refleja en la siguiente tabla: Ingresos (€/año) 12.903 15.640 21.634 25.760 32.997

1. Sin estudios 2. Educación primaria 3. Educación secundaria 4. Diplomados universitarios 5. Estudios universitarios superiores

Si considera el nivel de estudios como variable de rango, numerado del 1 al 5 tal como aparece en la tabla, calcule el coeficiente de correlación entre las ‘ganancias’ y los ‘estudios’.

Ejercicio 2. La tabla siguiente muestra las tasas de paro de 12 municipios españoles en función del tamaño poblacional de los mismos. Municipios <10.000 hab.

Municipios 50.000 hab. 12,9% 11,0% 9,2% 15,3%

6,4% 12,1% 8,2% 13,0%

entre

10.001

y

Municipios >50.000 hab. 18,2% 17,1% 6,3% 22,3%

Estudie si existe alguna relación entre el paro y el tamaño demográfico y calcule el estadístico más pertinente para ello.

Ejercicio 3. La tabla siguiente señala el número de parados en un municipio clasificados por edad: >de 25 años En paro Trabajando a) b) c)

De 25 a 34 años 800 600

800 400

De 35 a 44 años 400 1800

De 45 a 54 años 400 2000

De 55 a 64 años 600 1800

Señale cuál se la variable independiente en esta relación Calcule la distribución de porcentajes en dirección de la variable independiente Haga un comentario de los resultados

Ejercicio 4. Un investigador obtiene datos sobre una pequeña muestra de pacientes que han sufrido un transplante de corazón durante los últimos cinco años. Los tiempos de espera desde el diagnóstico hasta la operación son los señalados en la tabla siguiente: Paciente Meses en lista de espera

A 22

B 13

C 36

D 16

E 41

F 18

G 21

H 3

I 12

J 15

Calcule mediante un intervalo de confianza cuál será el tiempo medio de espera para un transplante en el conjunto de la población. Utilice un nivel de significación del 5%.

Soluciones de los ejercicios del examen

06/04/2012 12:01


2 de 5


Ejercicio 1. Se trata de calcular el coeficiente de correlación entre nivel de estudios y salarios. Como el nivel de estudios es una variable ordinal conviene considerar la variable de ingresos también como ordinal y utilizar el coeficiente no paramétrico “Rho de Spearman”. En primer lugar convertimos la variable ingresos a nivel ordinal: Nivel de Estudios

Ingresos

Sin Estudios Educación Primaria Educación Secundaria Diplomados Universitarios Estudios Universitarios Superiores

12903 15640 21634 25760 32997

Nivel de estudios (Rango) 1 2 3 4 5

Ingresos (Rango) 1 2 3 4 5

Vista la información, de las variables a nivel ordinal, no hace falta hacer cálculo alguno para determinar que el valor del coeficiente “Rho de Spearman” Rho=+1. Es decir existe una relación positiva entre nivel de estudios e ingresos. (Si se hubiera calculado el coeficiente “r de Pearson” con estudios como rango e ingresos como variable de rango, el valor obtenido hubiera sido r=+0,99. Nótese no obstante que la relación obtenida es una relación de grupos y no de individuos, es decir, si conociéramos el nivel de estudios de un individuo no podríamos pronosticar sus ingresos, simplemente podríamos obtener la media de su grupo. Véase al respecto los comentarios sobre “falacia ecológica”). Ejercicio 2.

El ejercicio presenta la información de 12 casos de la variable “tasa de paro” en tres grupos. Para determinar si la pertenencia a los grupos tiene influencia en el valor de la variable dependiente (tasa de paro) utilizaremos un análisis de varianza con un solo factor (ANOVA). H 0: H 1:

Disponemos la tabla para los cálculos. Municipios entre 10.001 Municipios < y 50.000 Municipios 10.000 hab. hab. >50.000 hab. X1 X2 X3

Suma Media

6,4 12,1 8,2 13 39,7 9,925

12,9 11 9,2 15,3 48,4 12,1

18,2 17,1 6,3 22,3 63,9 15,975

Calculamos en primer lugar la Suma de Cuadrados entre Grupos:

06/04/2012 12:01


3 de 5


SCent= La tabla nos ayuda: X1

Suma

X2 6,4 12,1 8,2 13 39,7

Suma

X3 12,9 11 9,2 15,3 48,4

18,2 17,1 6,3 22,3 63,9

152

SCent= Glent=K-1=3-1=2 La Suma Total de Cuadrados:

SCtot= En la tabla siguiente calculamos el valor al cuadrado de los valores: Suma

Suma

40,96 146,41 67,24 169 423,61

166,41 121 84,64 234,09 606,14

331,24 292,41 39,69 497,29 1160,63

2190,38

SCtot= GLtot=N-1=12-1=11 La suma de Cuadrados dentro de los grupos será: SCdent=SCtot-SCent=265,046667-75,1316667=189,915 GLdent=GLtot-GLent=11-2=9

La tabla siguiente resume los cálculos realizados y nos permite obtener la varianza entre y dentro de los grupos:

06/04/2012 12:01


4 de 5

Entre grupos Dentro de grupos TOTAL


Suma de Grados Cuadrados Libertad 75,1316667 189,915 265,046667

de Varianza: SC/GL 2 37,5658333 9 21,1016667 11

El valor de F será:

El valor crítico de F2,9 es Para Ns=5%, F2,9=4,26 Para Ns=1%, F2,9=8,02 Como el valor obtenido es menor que el crítico no podemos rechazar la hipótesis nula, por lo tanto con un nivel de confianza del 99% podemos señalar que no hay relación entre el paro y el tamaño demográfico de los municipios. Ejercicio 3.

Se trata de una tabla bivariable con la distribución de la población activa dividida en ocupados y parados por grupos de edad. a)

La variable independiente es la edad. La edad puede influir en la ocupación, la inversa no es posible. b) Para calcular los porcentajes hacemos cada grupo de edad –variable independiente- 100%. La tabla muestra los resultados:

Parados Ocupados TOTAL

c)

66,7 33,3 100%

57,1 42,9 100%

18,2 81,8 100%

16,7 83,3 100%

25,0 75,0 100%

Comentario. Se observa una relación inversa entre paro y edad, o directa entre ocupación y edad. A mayor edad la ocupación es mayor, a excepción de las edades de prejubilación en las que se observa un descenso de la ocupación. El acceso al mercado laboral es tardío hasta bien entrada en la treintena las tasas de paro son muy elevadas. Los datos expresan una integración difícil en el mercado laboral y un rechazo por parte del mercado de las edades elevadas.

Ejercicio 4. Se trata de un intervalo del estadístico de la media para una muestra muy pequeña. Como n es claramente menor de 30, utilizaremos la distribución “t de Student”. En primer lugar calculamos la media de la distribución.

06/04/2012 12:01


5 de 5


Para calcular el error típico de la media necesitamos conocer la varianza de la población, como no la conocemos utilizamos la varianza de la muestra: xi

TOTAL

22 13 36 16 41 18 21 3 12 15 197

5,29 44,89 265,69 13,69 453,69 2,89 1,69 278,89 59,29 22,09 1148,1

El error típico de la media será:

El valor de t para 9 grados de libertad y un nivel de confianza del 95% es según tablas: t9=2,262 Por tanto el intervalo será:

El intervalo será: 11,62 <

> 27,78

06/04/2012 12:01


1 de 6

http://www.uned.es/111044/examenes/junio 2007/2007junio1semanab.htm

Estadística Aplicada a las Ciencias Sociales Examen Junio 2007 1ª Semana. Ejercicio 1. En los barómetros del CIS se pregunta a los encuestados su ubicación política en una escala de 10 posiciones, donde 1 representa la posición más a la izquierda y 10 la posición más a la derecha. Los resultados de esta pregunta en dos de estos barómetros son los siguientes: Octubre 2005

S =1,68

n = 1898

Enero 2007

S =1,71

n = 1982

a) ¿Podríamos decir que ha evolucionado la población española hacia la izquierda durante 2006? (considere un nivel de confianza del 95% b) ¿Y si consideramos un nivel de confianza del 99%? Ejercicio 2. Un investigador desea comprobar la incidencia de una determinada campaña publicitaria sobre los hábitos de la conducción. Para ello elabora un test con 25 items sobre la percepción de riesgos en la carretera que se puntúa entre 0 y 100 (100 puntos significa alta percepción de riesgo). El investigador selecciona aleatoriamente una muestra de 100 individuos y realiza el test antes y después de la campaña publicitaria. Obtiene los siguientes resultados: Puntuación antes de la Puntuación después de la campaña campaña Media 45 65 Varianza 144 360 Para un nivel de confianza del 95%, señale si considera que la campaña ha sido efectiva. Ejercicio 3. La siguiente tabla muestra la información de 420 cuestionarios de una encuesta reciente sobre intención de voto en un municipio de 48.000 habitantes, así como los resultados electorales de las elecciones celebradas hace dos años. A partir de estos datos, señale si el Partido Comarcal revalidará su victoria electoral. Elecciones 2005 Resultados encuesta 2007 Partido Comarcal 40% 36% Federación Democrática 35% 34% Partido independiente 15% 20% Otras candidaturas 10% 10% Ejercicio 4. Una multinacional elige aleatoriamente 7 de los países en los que actúa para estudiar cómo influyen los gastos en publicidad sobre las ventas. Obtiene los siguientes resultados para cada país (en millones de dólares) Ventas 20 25 24 30 32 40 28 Gastos en publicidad 0,2 0,2 0,2 0,3 0,3 0,4 0,3 ¿En qué grado los gastos en publicidad determinan las ventas?

Soluciones Ejercicio 1. Se trata de realizar una prueba de hipótesis para comparar las dos muestras. Enunciamos la hipótesis nula en el sentido de que no hay diferencia entre las medias, y la hipótesis alternativa en el sentido de que la media de 2007 es menor que la media de 2005.

06/04/2012 12:01


2 de 6


Para poner a prueba la hipótesis nula utilizaremos el estadístico:

Para lo cual necesitamos antes calcular el error típico de la diferencia de medias :

Donde:

El error típico de la distribución muestral :

El valor Z empírico será entonces:

06/04/2012 12:01


3 de 6


Para un nivel de confianza del 95% y siendo la prueba unidireccional, el valor tipificado de referencia será Zc = 1,65 y como Ze>Zc, se rechaza Ho

Para un nivel de confianza del 99%, el valor tipificado de control será Zc = 2,33 y como Ze
Ejercicio 2. De forma análoga al ejercicio anterior, aunque con el sentido contrario en la desigualdad, enunciaremos las hipótesis de la siguiente manera:

Y procederemos con los cálculos de la misma manera, teniendo en cuenta que esta vez se nos proporcionan las varianzas y no las desviaciones típicas:

Podemos entonces calcular el Z empírico:

Para un nivel de confianza del 95%, Zc = 1,65 Como Ze>Zc, se rechaza la hipótesis nula, por tanto podemos establecer que la campaña publicitaria tuvo el efecto deseado. Ejercicio 3. Revalidar la victoria debe interpretarse como ser el partido más votado. Por tanto la comparación debe hacerse entre los porcentajes obtenidos por los dos primeros partidos en la encuesta de 2007. Llamando p1 a la proporción de intención de voto al “partido comarcal”, 0,36 y p2 a la proporción de intención de voto a la “federación democrática” 0,34, comprobaremos mediante una prueba de hipótesis 06/04/2012 12:01


4 de 6


si la desigualdad en los valores p1 y p2, obtenidos a partir de la muestra, pueden extenderse a la población, para un nivel de confianza dado. Enunciamos la hipótesis nula en el sentido de la ausencia de diferencias en intención de voto en la población, y la hipótesis alternativa en el sentido de que P 1 es mayor que P2.

Emplearemos el estadístico: Comenzamos por calcular la proporción conjunta ponderada:

A continuación obtenemos el valor del error típico de la distribución muestral de las proporciones para dos muestras

Y finalmente el valor Ze empírico:

Si elegimos un nivel de confianza del 95%, y al estar enunciada la hipótesis alternativa en forma de desigualdad, la prueba será unidireccional y por tanto el valor Z de contraste será Zc = 1,65 Como el valor Ze
06/04/2012 12:01


5 de 6


Para lo cual construiremos las tablas que nos faciliten los cálculos, llamando “X” a las ventas e “Y” a los gastos en publicidad: X 20 25 24 30 32 40 28 199

Y 0,2 0,2 0,2 0,3 0,3 0,4 0,3 1,9

Obtenemos así las medias de ambas variables:

-8,428571 -3,428571 -4,428571 1,571429 3,571429 11,57143 -0,428571

-0,07143 -0,07143 -0,07143 0,028571 0,028571 0,128571 0,028571

71,0408163 11,755102 19,6122449 2,46938776 12,755102 133,897959 0,18367347 251,714286

0,00510204 0,00510204 0,00510204 0,00081633 0,00081633 0,01653061 0,00081633 0,03428571

0,602040816 0,244897959 0,316326531 0,044897959 0,102040816 1,487755102 -0,012244898 2,785714286

La correlación entre los gastos en publicidad y las vengas es muy alta, pero para contestar a la pregunta de “en qué grado los gastos en publicidad determinan las ventas” utilizaremos el coeficiente de determinación:

Podemos decir que el gasto en publicidad explica el 89,92% de la variación de los datos.

06/04/2012 12:01


6 de 6


06/04/2012 12:01


1 de 5

http://www.uned.es/111044/examenes/junio 2007/soluciones jun 2007 ...

Estadística Aplicada a las Ciencias Sociales Junio 2007 segunda semana Ejercicio 1. Un investigador desea comprobar la incidencia de una determinada campaña publicitaria sobre hábitos de conducción. Para ello elabora un test con 25 items sobre percepción de riesgos en carretera que puntúa entre 0 y 100. (100 puntos significa alta percepción del riesgo). El investigador selecciona aleatoriamente una muestra de 10 individuos y realiza el test antes y después de la campaña publicitaria. Obtiene los siguientes resultados:

A B C D E F G H I J

Puntuación antes de la campaña 30 45 22 56 32 10 14 34 22 75

Puntuación después de la campaña 28 75 60 48 60 10 22 38 64 69

Para un nivel de confianza del 95%, señale si considera que la campaña ha sido efectiva. Ejercicio 2. Un investigador desea comprobar la incidencia de una determinada campaña publicitaria para aumentar la práctica de determinadas tareas domésticas en los hombres. Para ello elabora una encuesta que mide la participación en dichas tareas y clasifica a los entrevistados en activos e inactivos en tareas domésticas. La encuesta se realiza antes y después de la campaña a una muestra aleatoria de 1000 hombres. Obtiene los siguientes resultados:

Antes de la campaña publicitaria

Participan en tareas domésticas No participan en tareas domésticas

Después de la campaña publicitaria Participan en tareas No participan en domésticas tareas domésticas 250 50 100

600

Señale si observa alguna incidencia de dicha campaña. ¿puede cuantificar el impacto de la campaña? Ejercicio 3. Un investigador obtiene los siguientes datos absolutos en una encuesta de opinión sobre la ampliación de una carretera en un parque natural: De 18 a 34 años De 36 a 54 De 55 años y más A favor 20 60 50 Indiferentes 34 100 40 En contra 46 80 20 Responda a las siguientes preguntas: a) ¿Qué proporción de entrevistados tienen menos de 55 años? b) Calcule el intervalo de confianza para el total de la muestra para la proporción de quienes están a

06/04/2012 12:02


2 de 5


favor (utilice un nivel de significación del 1%). c) ¿Cuál de los tres grupos de edad es el que muestra mayor indiferencia respecto a la ampliación de la caretera? Ejercicio 4. Sobre una muestra aleatoria hemos estudiado la tolerancia hacia las prácticas de fraude fiscal, obteniendo los siguientes resultados: Tolerancia Alta Baja

Hombres 260 240

Mujeres 240 260

a) Calcule la X2 Para ver si el sexo y la tolerancia están asociados. b) Si la muestra hubiese sido de 100 personas (en lugar de 1000) y la distribución porcentual de los casos fuese idéntica a la anterior ¿obtendríamos la misma asociación entre “tolerancia” y “sexo”? SOLUCIONES Ejercicio 1. Como tenemos la puntuación para cada individuo, podemos comparar la media de las diferencias observadas con el supuesto de la inexistencia de diferencias. Si entendemos la efectividad de la campaña como un aumento de la percepción de riesgo, podemos enunciar las siguientes hipótesis:

La prueba a realizar es unilateral con un nivel de significación de 0,05 y al tratarse de una muestra pequeña usaremos la distribución t de Student.

Calcularemos en primer lugar las diferencias:

A b c d e f g h i j

Después 28 75 60 48 60 10 22 38 64 69 474

Antes 30 45 22 56 32 10 14 34 22 75 340

Diferencia -2 30 38 -8 28 0 8 4 42 -6 134

La media de las diferencias es:

06/04/2012 12:02


3 de 5


Necesitamos calcular la desviación típica:

-15,4 16,6 24,6 -21,4 14,6 -13,4 -5,4 -9,4 28,6 -19,4

237,16 275,56 605,16 457,96 213,16 179,56 29,16 88,36 817,96 376,36 3280,4

Calculamos a continuación la desviación estándar de la distribución muestral de las diferencias:

Podemos entonces calcular la prueba:

Podemos ahora hacer el contraste entre el estadístico calculado y el de referencia: Para un nivel de significación de 0,05 y nueve grados de libertad, siendo la prueba unilateral el valor de tc en las tablas es 1,833. Como el valor empírico te es mayor que el de contraste tc, está en la zona de rezazo de la hipótesis nula.

Ejercicio 2. Al ser una tabla de variables nominales de 2x2, podemos determinar la asociación mediante el estadístico de la Q de Yule. Nombrando las casillas de la tabla como sigue: A C

B D

Podemos calcular el coeficiente:

06/04/2012 12:02


4 de 5


Como el coeficiente varía entre –1 y +1 el valor obtenido indica una relación fuerte entre las variables. En este caso, el valor +1 significaría que no ha habido cambios, esto es, que los que participaban antes son exactamente los mismos que los que participan después. Es decir, la campaña no ha producido ningún cambio. Observando estos resultados (1-0,9355) podemos señalar que el impacto de la campaña ha sido relativo, en la medida en que hay poca variación en la participación de los varones en las tareas domésticas antes y después de la campaña. Ejercicio 3. a) la proporción de entrevistados de menos de 55 años se obtiene de la tabla original: sumando las columnas de las categorías de edades, la suma de las columnas “de 18 a 34” y “de 36 a 54”

b)

(100+240) dividido entre el total de casos, que son 450: De forma análoga obtenemos la probabilidad de los que están a favor, sumando la fila de “a favor” (20+60+50) y dividiendo entre el total de casos (450), es decir p = 0,2889. Pero como estamos trabajando con una muestra y se nos pide el valor de esa proporción en la población, debemos expresarlo en forma de intervalo:

; debemos entonces calcular la

desviación de la distribución muestral de las proporciones: por tanto podemos establecer el intervalo para Z = 2,57 como sigue: y el intervalo será: (0,2340: 0,3438) c) Para saber cuál de los tres grupos de edad muestra una mayor indiferencia, debemos calcular los porcentajes de la tabla por columnas

A favor indif En contra

18 a 35 20% 34% 46% 100%

36 a 54 25% 42% 33% 100%

55 y más 45% 36% 18% 100%

En la fila de los indiferentes, la proporción mayor corresponde a la categoría “36 a 54” con un porcentaje del 42% Ejercicio 4. La Ji-cuadrado compara las frecuencias observadas con las frecuencias que tendríamos si no hubiera asociación. Para ello calculamos una tabla en las que, a partir de los subtotales las frecuencias de las casillas, hallamos las frecuencias esperadas en el caso de ausencia de asociación.

La tabla de las frecuencias esperadas será:

Alta Baja Total

Hombres 250 250 500

Mujeres 250 250 500

Total 500 500 1000

Una vez obtenida la tabla de las frecuencias esperadas podemos proceder al cálculo de la Ji-cuadrada:

06/04/2012 12:02


5 de 5


Ayudándonos de una tabla obtenemos los términos del sumatorio: fo 260 240 240 260

fe 250 250 250 250

fo-fe 10 -10 -10 10

(fo-fe) 100 100 100 100

2

2

(fo-fe) /fe 0,4 0,4 0,4 0,4 1,6

Como el valor obtenido es distinto de 0 podemos decir que existe asociación. Para cuantificar esa asociación, utilizaremos la V de Cramer.

Si la muestra hubiese sido de 100 personas y se hubiese conservado la distribución porcentual obtendríamos el mismo resultado:

El resultado de la Ji-Cuadrado hubiese sido menor, debido a los menores valores de las frecuencias absolutas, pero la cuantificación mediante la V de Cramer hubiera sido idéntica:

06/04/2012 12:02

Examen Estadística Aplicada a las Ciencias Sociales Junio 2008 Primera semana

Soluciones al examen de Estadística Aplicada a las Ciencias Sociales Junio 2008 Primera semana Ejercicio 1. Para analizar la asociación entre el nivel de estudios y la renta calcularemos el estadístico Ji-cuadrado. Compararemos la frecuencia observada en cada celda de la tabla, con la frecuencia que cabría esperar para esas celdas en el supuesto de que no existiera asociación. Obtenemos los totales marginales de la tabla de frecuencias observadas: Baja Media Alta Total

Primarios 600 200 100 900

Secundarios Universitarios 400 100 600 200 300 600 1300 900

Total 1100 1000 1000 3100

Para obtener las frecuencias esperadas en ausencia de asociación asignamos a cada celda el valor: fe =

Baja Media Alta Total

Subtotal fila × Subtotal columna N Total

Primarios 319,35 290,32 290,32 900

Secundarios Universitarios 461,29 319,35 419,35 290,32 419,35 290,32 1300 900

Total 1100 1000 1000 3100

Hemos asignado a cada casilla de la tabla el número de casos que correspondería según el número de casos en la columna y la fila respecto a los 3.100 casos. A primera vista puede comprobarse que para la casilla “Estudios Primarios/Clase Baja”, el número de los que poseen ambas características es 600 casos, mientras que si las características estuvieran distribuidas en proporción a sus totales marginales serían sólo 319. Para conocer las diferencias entre las frecuencias esperadas y las observadas en el conjunto de la tabla, calculamos el valor de χ 2 Para cada celda de la tabla calculamos las diferencias entre las frecuencias observadas y las esperadas, elevadas al cuadrado para que tengan signo positivo y expresadas en unidades de frecuencias esperadas:

( fo −

fe ) fe

2

Baja Media Alta Total

Primarios 246,63 28,10 124,77 399,49

Secundarios Universitarios 8,14 150,67 77,82 28,10 33,97 330,32 119,93 509,09

Total 405,44 134,02 489,06 1028,52

Seguidamente sumamos los valores obtenidos para cada celda: fe ) = 1.028,52 ∑ fe El hecho de que el valor de χ 2 sea diferente de cero indica que existen diferencias entre las frecuencias esperadas y observadas y por tanto hay algún tipo de asociación. Para cuantificar esa asociación utilizaremos un coeficiente estandarizado que varía entre 0 y 1: la V de Cramer

χ

V =

2

( fo −

=

χ2 = N ( K − 1)

2

1.028,52 = 0,4073 3.100( 3 − 1)

Podemos contrastar a continuación si esta asociación puede ser generalizada a la población de la que proviene la muestra: Para ello comparamos el valor empírico obtenido para χ 2 = 1.028,52 con el valor de la crítico de la distribución de χ 2 en las tablas. Calculamos los grados de libertad de la tabla: gl = ( f − 1)(c − 1) = (3 − 1)(3 − 1) = 4 En las tablas de la distribución para un nivel de significación de 0,05 y 4 grados de libertad obtenemos un valor crítico de 9,488 ampliamente superado por nuestro valor empírico. Podemos concluir que la asociación observada entre el tipo de estudios y la clase social puede ser generalizada a la población de origen de donde se extrajeron los 3.100 casos observados. Ejercicio 2. Si consideramos las variables de la tabla anterior a nivel ordinal, podemos emplear el coeficiente gamma para estimar el grado de asociación entre las dos variables. Este coeficiente nos permite reducir el error al predecir el orden de los casos de una variable conociendo el de la otra. B M A

P 600 200 100

S U 400 100 600 200 300 600

Para realizar los cálculos localizaremos en primer lugar la “diagonal positiva” o línea que une las celdas que contienen los valores “Alto-Alto” y “Bajo Bajo”. La diagonal

dependerá de cómo hayamos situado las categorías de las variables en la tabla y en este caso será: B M A

P X

S

U

X X

La diagonal contraria o negativa será: P B M A

S

U X

X X

Denominamos “s” el final de la diagonal positiva y “d” el final de la diagonal contraria o negativa: B M A

P S

S

U

D

Partiendo de la tabla original calcularemos el número de pares concordantes:

600*(600+200+300+600)=1.020.000

400*(200+600)=320.000

200*(300+600)=180.000

600*600=360.000 Los pares concordantes Ns suman 1.020.000+320.000+180.000+360.000=1.880.000

Calculamos a continuación el número de pares discordantes:

100*(600+200+400+100)=130.000

300*(200+100)=90.000

200*(400+100)=100.000

600*100=60.000 Los pares discordantes Nd suman 130.000+90.000+100.000+60.000=380.000

El coeficiente gamma será entonces:

γ =

N s − N d 1.880.000 − 380.000 1.500.000 = = = 0,6637 N s + N d 1.880.000 + 380.000 2.260.000

El valor del coeficiente nos indica que conociendo el orden de la clase social, podemos predecir el orden del nivel de estudios reduciendo el error de la predicción un 66%. La asociación entre las dos variables es notable y el signo positivo nos indica que el orden de una variable ayuda a predecir el orden de la otra. Ejercicio 3. La proporción poblacional de participación es el cociente entre las 16.403 personas que votaron y el censo en aquel año 2004.

16.403 = 0,78 21.012 La encuesta a una muestra de 120 electores estima una participación de p= 0,68. La proporción obtenida en la encuesta es menor que la proporción efectiva de voto en 2004, pero para saber si la proporción de votantes ha disminuido realmente y esta diferencia observada no es debida al azar, realizaremos una prueba de hipótesis: P=

H 0 p = P = 0,78 H 1 p ≤ 0,78 Al preguntarnos si la proporción ha disminuido, la prueba de hipótesis se enuncia en términos de desigualdad y la hipótesis alternativa afirma que (menor que). Utilizaremos como referencia la curva normal con un nivel de confianza del 95% (ns: 0,05) lo que en una prueba unilateral se corresponde con un valor Zc de -1,65. Podemos calcular el Valor Z empírico que compara las proporciones poblacional y muestral en unidades de dispersión de la distribución muestral de las proporciones: p− P σ p Calculamos primero el error muestral considerando que el factor de corrección para N− n poblaciones finitas es 0,994 , aproximadamente la unidad ≈1 N−1 Ze =

P⋅ Q 0,78 ⋅ (1 − 0,78) = = 0,0378 n 120 y comparamos ahora las proporciones: p − P 0,68 − 0,78 Ze = = = − 2,66 σ p 0,0378 Como Ze < Zc rechazamos la hipótesis nula y con una probabilidad de un 5% de equivocarnos y que sea verdadera

σ

p

=

Ejercicio 4. a) Conocida la recta de regresión de los sueldos de las mujeres en función de los de sus maridos podemos estimar la media de ingresos de las mujeres, sustituyendo los ingresos de los maridos x, por su valor medio: y = − 2.200 + 0,65 ⋅ x y = − 2.200 + 0,65 ⋅ 32.300 = 18.795

b) Conociendo el coeficiente de correlación y la recta que representa los ingresos de las mujeres en función de los ingresos de sus maridos podemos conocer la recta que expresa los ingresos de los maridos, conocidos los de sus mujeres: El coeficiente de correlación es r = 0,688 y la recta que representa los ingresos de las mujeres a partir de los de sus maridos: y = − 2.200 + 0,65 ⋅ x Necesitamos hallar los parámetros de la recta que representa los sueldos de los maridos a partir de los de sus mujeres: x = a '+ b' y en primer lugar calcularemos el valor de b’. Conocido r y b podemos obtener b’: r=

b ⋅ b' Sustituyendo los valores conocidos: 0,688 =

0,65 ⋅ b' y despejando b’

0,688 2 = 0,728 0,65 Sabemos también que la recta de regresión buscada contendrá los puntos medios de X y de Y: tenemos que b' =

x = a '+ b' y de manera que sustituyendo los valores que conocemos obtendremos la ecuación que nos permite determinar a’: 32.300 = a '+ 0,728 ⋅ 18.795 despejando a’: a ' = 32.300 − (0,728 ⋅ 18.795) = 18.613 La recta buscada será entonces: x = 18.613 + 0,728 ⋅ y

Examen Estadística Aplicada a las Ciencias Sociales Junio 2008 segunda semana

Soluciones al examen de Estadística Aplicada a las Ciencias Sociales Junio 2008 Segunda semana

Ejercicio 1. Para determinar si ha aumentado la intención de voto realizaremos una prueba de hipótesis de la siguiente manera: Siendo P = 0,377 la proporción de votantes en 2004 (un dato poblacional) y p la proporción de votantes en la encuesta (dato muestral), enunciamos la hipótesis nula en el sentido de que la proporción permanece igual, enunciando la hipótesis alternativa en términos de desigualdad, considerando que la proporción ha crecido. Por tanto utilizaremos una prueba unilateral. H0 p=P H1 p>P Se trata de comparar las proporciones hallando la diferencia entre P y p en unidades de la desviación típica de la distribución muestral de las proporciones para nuestros datos. Hallamos primero esa desviación típica de la distribución muestral:

σp =

PQ = n

0,377 ⋅ 0,623 = 0,0199 600

A continuación hallamos el valor Ze empírico

Ze =

p−P

σp

=

0,389 − 0,377 = 0,60 0,0199

Para una prueba unidireccional y un nivel de confianza del 95,5%, el Zc crítico será: Zc = 1,7 Como el valor empírico de Ze es menor que el de Zc crítico, aceptamos la hipótesis nula y determinamos que no ha aumentado la intención de voto al PP en la población de la que se extrajo la muestra. Ejercicio 2. Como se trata de pacientes diferentes cada año, tomamos las dos series como muestras independientes. Para determinar si ha variado el tiempo medio de espera enunciamos la prueba de hipótesis analizando la diferencia entre las medias de ambas series: H 0 : µ1 = µ 2 H 1 : µ1 ≠ µ 2

Calculamos la media y la desviación típica de cada distribución, que reflejamos en la siguiente tabla:

Muestra 2006

Muestra 2007

n1 =9

n2 =9

Media1 =9,33

Media2 =9,22

S1=6,41

S2=8,34

Al tratarse de muestras pequeñas, para el cálculo de la prueba utilizaremos la distribución t de Student sobre la diferencia entre las medias: te =

x1 − x 2

σ x −x 1

2

Siendo:

σ x − x = σ x2 + σ x2 1

2

1

2

Calculamos entonces las dispersiones muestrales: S1 6,41 σ x1 = = = 2,27 n1 − 1 9 −1

S2

σx =

n2 − 1

2

=

8,33 9 −1

= 2,95

Sustituyendo los valores:

σ x − x = σ x2 + σ x2 = 2,27 2 + 2,95 2 = 3,72 1

2

te =

1

2

x1 − x 2

σ x −x 1

2

=

9,33 − 9,22 = 0,0299 3,72

El valor crítico de t para ns:0,05 y gl = n1+n2-2 =16 en una prueba bilateral es: tc = 2,120 Al ser el valor empírico menor que el crítico decidimos aceptar la hipótesis nula. La media de meses en lista de espera no ha variado en la población Ejercicio 3.

Para calcular la asociación entre las variables “sexo” y “uso de internet”, comenzaremos por expresar los datos de la tabla en frecuencias absolutas en lugar de en porcentajes, y agrupando en la categoría “no” a los que no hayan contestado “si”, por ser un número de casos insignificantes, evitando así las casillas con valor 0 o con un número de casos muy pequeño:

Hombres 569 640 1209

Si No

Mujeres 536 725 1261

Total 1105 1365 2470

A continuación calculamos las frecuencias esperadas para cada celda de la tabla según la expresión:

feij =

Total fila ⋅ Total columna N total

Obteniendo la siguiente tabla de frecuencias esperadas en el caso de ausencia de asociación: Hombres 541 668 1209

Si No

A continuación calcularemos el valor de

Mujeres 564 697 1261

Total 1105 1365 2470

χ2

Construiremos una nueva tabla en la que figure en cada celda el valor:

( fo − fe )2 fe Hombres 1,5 1,2 2,7

Si No Total

Mujeres 1,4 1,2 2,6

Total 2,9 2,4 5,3

Sumando los valores de la tabla obtenemos un valor de χ 2 = 5,3 Un valor distinto de 0 nos indica la existencia de algún tipo de asociación, y para cuantificarla emplearemos el coeficiente φ

φ=

χ2 N

=

5,3 = 0,0462 2.470

La asociación es muy pequeña si consideramos que el coeficiente empleado varía entre 0 y 1. El valor de χ 2 = 5,3 es significativo para ns: 0,05 y gl = (2-1)(2-1)=1

Ejercicio 4.

En la tabla en la que se clasifican a las 2.700 personas de la muestra aparecen sólo 500 personas de renta baja con estudios primarios, lo que supone un 18,52% de los casos. Como se trata de una estimación mediante una muestra, el valor para la población vendrá dado en forma de intervalo y con una probabilidad asignada o nivel de confianza dado. Para obtener los extremos de ese intervalo utilizaremos la expresión:

P = p ± Zσ p Siendo

σp =

p⋅q = n

0,1852 ⋅ 0,8148 = 0,0074 2.700

Sustituyendo los valores en la fórmula del intervalo obtendremos los límites inferior y superior donde se encontrará la proporción en la población con una probabilidad del 95% (Z=1,96)

P = p ± Zσ p = 0,1852 ± 1,96 ⋅ 0,0074 El intervalo buscado será entonces (17% : 20%)

Soluciones al examen de Estadística Aplicada a las Ciencias Sociales Junio 2009 1ª Semana Ejercicio 1. Una agente de igualdad está interesada en conocer las diferencias salariales en España entre hombres y mujeres (brecha salarial) en las empresas de un sector. Realiza una encuesta a 400 trabajadores y otra a un número igual de trabajadoras que ocupan un puesto de trabajo similar al de los hombres y obtiene los siguientes resultados: salario medio Desviación típica 58000 15200 49400 12300

Hombres Mujeres

A partir de estos datos ¿puede afirmarse que las mujeres españolas que trabajan en ese sector cobran menos que los hombres cuando realizan el mismo trabajo? Ejercicio 2. Un investigador encuentra que en un determinado sector el “salario bruto anual” (Y) mantiene la siguiente relación con los “años de antigüedad en la empresa” (X) Para los hombres:

Y = 35.000+1.500·X

Para las mujeres:

Y = 32.000+1.200·X

Represente en el mismo eje cartesiano ambas rectas. Si un trabajador y una trabajadora son contratados a la vez ¿cuál será la diferencia de salario entre ambos diez años más tarde? Ejercicio 3. Entre los pacientes de una determinada consulta de un centro de salud hemos seleccionado aleatoriamente a 8 y les hemos preguntado en junio por su grado de satisfacción (de 1 a 10). En diciembre, tras un cambio en la consulta, hemos vuelto a interrogar a los mismos pacientes y hemos obtenido resultados distintos, como observamos en la tabla siguiente:

Pacientes Junio Diciembre

1 6 5

2 8 9

3 5 5

4 4 7

5 6 6

6 5 6

7 4 4

8 3 2

¿Puede decirse, con un nivel de confianza del 95%, que ha aumentado la satisfacción de los pacientes? Ejercicio 4. Una muestra de 100 personas (de una población de 200.000) nos da unos ingresos medios de 42.000€ con una desviación típica de 10.000€. Halle el intervalo en el que se encontrarán, con un 90% de probabilidad, los ingresos medios de todas las muestras de 100 individuos que podemos extraer de la misma población.

RESPUESTAS Ejercicio 1. Para saber si en la población se da la misma desigualdad entre las medias de hombres y mujeres que en la muestra realizaremos un contraste de hipótesis unilateral de diferencia entre medias. La hipótesis nula de partida establece la igualdad de las medias en la población y la alternativa que la media salarial de hombres es superior a la de mujeres: H 0 : h  m H1 : h   m A continuación establecemos el criterio de aceptación o rechazo de la hipótesis nula para un nivel de confianza que establecemos en el 95% de una distribución normal. Consultando las tablas de área bajo la curva normal, y siendo la prueba unilateral, buscamos el valor crítico de Z, que para un 95% es Zc = 1,645

Calculamos a continuación la prueba estadística a partir de los datos de las dos muestras: Ze 

x1  x 2

 x x 1

2

Obtenemos primero las desviaciones típicas de las distribuciones muestrales para ambas muestras:

x  1

x  2

S x1 n1  1 S x2 n2  1



15.200



12.300

399

399

 760,95  615,77

 x  x   x2   x2  (760,95) 2 ·(615,77) 2  978,89 1

2

1

2

Por tanto el valor Z empírico será:

Ze 

x1  x 2

 x x 1



2

58.000  49400  8,78 978,89

El valor obtenido permite rechazar la hipótesis nula de igualdad entre medias de hombres y mujeres incluso para un nivel de significación menor que 0,01 (Zc=2,33). Ejercicio 2. Para representar las rectas en un gráfico debemos dar valores a la variable independiente X (tiempo) y obtener así los valores de la variable dependiente Y (salario). Bastará con obtener dos valores para cada recta. El primer valor X=0 nos proporciona el punto de corte del eje de ordenadas y la recta, y el valor X=10 nos proporciona el salario tras diez años de antigüedad. Para los hombres Y=35.000+1.500·X

Para las mujeres Y=32.000+1.200·X

X=0 ; Y= 35.000

X=0 ; Y=32.000

X=10 ; Y=35.000+(1.500)·(10)=50.000

X=10 ; Y=32.000+(1.200)·(10)=44.000

Resumiendo en una tabla: Hombres X Y 0 35.000 10 50.000

Mujeres X Y 0 32.000 10 44.000

Una vez obtenidos los valores de Y para cada valor de X en las dos rectas, tomaremos cada par de valores (xi,yi) como las coordenadas de los puntos que llevaremos a la representación gráfica:

Cada pareja de puntos determina la recta correspondiente: Recta hombres

(0, 35000) ; (10, 50000)

Recta de mujeres

(0, 32000) ; (10, 44000)

La diferencia entre los salarios brutos anuales al cabo de 10 años sería de 6.000 €. Obsérvese que al ser el coeficiente b (la pendiente) superior en la recta de hombres (1500) que en la de mujeres (1200), la diferencia no puede sino aumentar con los años según el modelo lineal. Ejercicio 3. Realizaremos una prueba de hipótesis para comprobar el posible aumento de la satisfacción en la población de pacientes. Al tratarse de muestras repetidas a las mismas personas utilizaremos para el cálculo de la prueba la media de la diferencia x d entre los valores antes y después en cada individuo. La hipótesis nula se enuncia en el sentido de que no hay diferencias en la población, y por tanto la media de las diferencias es cero. Y la hipótesis alternativa en el sentido de que la media de las diferencias es mayor que cero. H 0 : d  0 H1 : d  0

Utilizaremos la distribución t de Student por haber un número pequeño de casos en la muestra

t

x d  d

d

Xd Pacientes 1 2 3 4 5 6 7 8

Junio 6 8 5 4 6 5 4 3

Diciembre 5 9 5 7 6 6 4 2

xd

-1 1 0 3 0 1 0 -1

Totales

(X d  X d )

0,375 0,375 0,375 0,375 0,375 0,375 0,375 0,375

3

S xd 

 x) 2

n

d 

3

d

3  0,375 8

Xd 

i

1,890625 0,390625 0,140625 6,890625 0,140625 0,390625 0,140625 1,890625 11,875

X

 (x

-1,375 0,625 -0,375 2,625 -0,375 0,625 -0,375 -1,375

( X d  X d )2

S xd n 1

 

11,875  1,2183 8

1,218 7

 0,46

Calculamos a continuación el valor empírico de te que compararemos con el valor crítico dado por el nivel de significación del 0,05 y 7 grados de libertad: tc = 1,895

te 

xd  d

d



0,375  0  0,8143 0,46

Por tanto al ser te < tc no podemos rechazar la hipótesis nula y concluimos que no ha habido cambios significativos en la satisfacción de los pacientes de la población. Ejercicio 4.

Para construir el intervalo debemos convertir el nivel de significación en puntuación tipificada Z. Para un nivel de confianza del 90%, puesto que las tablas sólo representan la mitad de la curva, dividimos por dos el nivel de confianza 0,90/2 = 0,45 y buscamos en la tabla el valor de Z más próximo para ese valor: Z=1,645 Obtenemos a continuación el valor de la desviación típica de la distribución muestral de las medias:

x 

Sx n 1



10.000 100  1

 1.005,04

El intervalo será:

  x  Z x  42.000  1,645  1.005,04 Restando y sumando el error de estimación Z x a la media x , obtenemos los límites del intervalo: Límite inferior: 40.346,71 Límite superior: 43.653,29 Los límites definen el intervalo dentro del cual se encontrarán el 90% de las medias que podríamos obtener de todas las muestras posibles de esa población.

Examen de Estadística Aplicada a las Ciencias Sociales Junio 2009 2ª Semana Ejercicio 1. A partir de una encuesta de 1.200 personas (obtenidas por muestreo aleatorio simple) sabemos que la edad media de la población de un determinado país se encuentra, con una probabilidad del 95%, entre los 34,6 y los 36,2 años ¿Cuál es el máximo error que podemos cometer al hacer esta afirmación? Ejercicio 2. La siguiente tabla nos muestra las ventas de un producto de una empresa multinacional y los gastos de publicidad de ésta en 9 países distintos (en millones de euros). País Ventas Publicidad

A 20 0,2

B 25 0,2

C 24 0,2

D 30 0,3

E 32 0,3

F 40 0,4

G 28 0,3

H 50 0,5

I 40 0,4

¿Existe asociación entre los gastos de publicidad y las ventas? Ejercicio 3. El estudio 2475 del CIS, sobre discriminación, ofrece los siguientes resultados a la pregunta “¿En alguna ocasión se ha sentido discriminado por razón de...?”

Sexo Edad Religión Ideas Políticas No tener dinero Orientación sexual

Muchas Alguna veces vez 1,6 9,1 1,4 9,0 0,1 2,0 1,2 7,7 2,0 8,0 0,3 0,8

Nunca o casi nunca 88,9 89,3 97,5 90,5 89,6 98,2

N.S 0,2 0,2 0,3 0,2 0,2 0,2

N.C. 0,1 0,2 0,2 0,4 0,2 0,4

(n) (2487) (2487) (2487) (2487) (2487) (2487)

¿Cuántos entrevistados se han sentido discriminados muchas o alguna vez por sus “ideas políticas”? ¿Podemos afirmar (con un nivel de significación del 0,05) que los españoles se sienten más discriminados por “no tener dinero” que por sus “ideas políticas”? Ejercicio 4. El estudio del CIS 2753 preguntó por el grado de satisfacción de los jóvenes españoles en sus relaciones de pareja, obteniéndose los siguientes resultados:

Hombre Mujer Total

Mucho Bastante 28,50 37,00 36,80 39,50 32,50 38,20

Poco 11,60 7,70 9,70

Nada 2,60 2,60 2,60

No procede 20,00 13,10 16,60

N.S 0,30 0,30 0,30

N.C. 0,10 0,10 0,10

Total (N) (741) (701) (1442)

La respuesta “no procede” señala a quienes no tienen pareja. Vuelva a calcular los porcentajes de hombres y mujeres eliminando las categorías “no procede”, “no sabe” (N.S.) y “no contesta” (N.C.)

¿Observa alguna diferencia en los nada satisfechos entre los hombres y las mujeres de ambas tablas?

SOLUCIONES Ejercicio 1. En este caso conocemos el intervalo de estimación. El límite superior del intervalo es el valor del estadístico más el error, y el límite inferior el valor del estadístico menos el error. El valor del estadístico es el centro del intervalo. En este caso:

x

36,2  34,6 70,8   35,4 2 2

Así la edad media obtenida en la muestra ha sido 35,4 años. El error será: e  Ls  x  36,2  35,4  0,8 El error máximo es 0,8 años. (El mismo resultado se obtiene restando al estadístico el límite inferior del intervalo).

Ejercicio 2 La asociación entre dos variables de intervalo se denomina correlación y se mide mediante el coeficiente “r” de Pearson. r

S xy SxSy



 ( x  x)( y  y)  ( x  x)  ( y  y ) 2

2

En la tabla siguiente se detallan los cálculos, que comenzamos con el cómputo de las medias: y

y

x

x

i



289  32,11 9

i



2,8  0,31 9

n

n

Y A B C D E F G H I Total

X 20 25 24 30 32 40 28 50 40 289

0,2 0,2 0,2 0,3 0,3 0,4 0,3 0,5 0,4 2,8

-12,11 -7,11 -8,11 -2,11 -0,11 7,89 -4,11 17,89 7,89

-0,11 -0,11 -0,11 -0,01 -0,01 0,09 -0,01 0,19 0,09

1,3321 0,7821 0,8921 0,0211 0,0011 0,7101 0,0411 3,3991 0,7101 7,8889

146,6521 50,5521 65,7721 4,4521 0,0121 62,2521 16,8921 320,0521 62,2521 728,8889

0,0121 0,0121 0,0121 0,0001 0,0001 0,0081 0,0001 0,0361 0,0081 0,0889

Entonces, r

 ( x  x)( y  y)  ( x  x)  ( y  y ) 2

 2

7,8889  0,98 0,0889 728,8889

La correlación es positiva y muy elevada entre la inversión en publicidad y las ventas obtenidas. Ejercicio 3. Tomaremos de la tabla del CIS los casos que van a ser objeto de comparación, es decir los porcentajes de personas que han contestado “muchas veces” o “alguna vez” a las preguntas sobre la discriminación por las “ideas políticas” y por “no tener dinero”.

Ideas Políticas No tener dinero

Muchas veces 1,2 2,0

Alguna vez 7,7 8,0

Total (%) 8,9 10,0

a) Directamente podemos calcular el número de personas que se han sentido discriminadas muchas o alguna vez por sus ideas políticas: El 8,9% de 2.487 son 221 encuestados b) Expresándolo en forma de proporciones, llamaremos p1 a la proporción de los que dicen haber sido discriminado por las ideas políticas muchas veces o alguna vez, y p2 la proporción de los que dicen haber sido discriminados muchas veces o alguna vez por no tener dinero: p1  0,089 p 2  0,10

Considerando que tenemos dos muestras independientes del mismo tamaño (2.487) contrataremos la diferencia entre ambas proporciones mediante una prueba de hipótesis: H o : p1  p2 H 1 : p1  p 2

Prueba unilateral n.s. = 0,05 por lo que Zc = 1,645 Para calcular el error típico de la distribución muestral de las diferencias entre proporciones hallaremos la proporción conjunta: p1  n1  p 2  n2 0,089  2.487  0.1 2.487   0,0945 2  2.487 n1  n2 Q  1  P  1  0,0945  0,9055 P

Calculamos a continuación el error típico de la distribución muestral  p

1 1  2     0,0945  0,9055     0,0083  2.487   n1 n2 

 p  P  Q  

Calculamos a continuación el valor de Ze que compararemos con el valor crítico dado por el nivel de significación: p1  p 2

0,089  0,10  1,326 p 0,0083 El valor absoluto del Z empírico |-1,326| es menor que el valor crítico de Z (1,645) por lo que aceptamos la hipótesis nula: la diferencia entre ambas proporciones no es significativa en la población de la que provienen las muestras. Ze 



Ejercicio 4. Partiendo de la tabla original,

Hombre Mujer Total

Mucho Bastante 28,5 37 36,8 39,5 32,5 38,2

Poco 11,6 7,7 9,7

Nada 2,6 2,6 2,6

No procede 20 13,1 16,6

N.S 0,3 0,3 0,3

N.C. 0,1 0,1 0,1

Total (741) (701) (1442)

debemos eliminar las repuestas “No procede”, “No Sabe” y “No Contesta”, descontándolas del total de casos y reelaborando los porcentajes. En primer lugar pasaremos los porcentajes a número de casos:

Hombre Mujer

Mucho Bastante 211,19 274,17 257,97 276,90

Poco 85,96 53,98

Nada 19,27 18,23

No procede 148,20 91,83

N.S 2,22 2,10

N.C. 0,74 0,70

Total (741) (701)

Eliminamos los datos de las categorías que queremos excluir y recalculamos los totales:

Hombre Mujer

Mucho Bastante 211,19 274,17 257,97 276,90

Poco 85,96 53,98

Nada 19,27 18,23

Total 590,58 607,07

Finalmente volvemos a expresar los datos en forma de porcentajes por filas:

Hombre Mujer Total

Mucho Bastante 35,76 46,42 42,49 45,61 39,17 46,01

Poco 14,55 8,89 11,69

Nada 3,26 3,00 3,13

Total (591) (607) (1198)

En cuanto a las diferencias entre hombres y mujeres que manifiestan estar “nada satisfechos” observamos ahora una pequeña diferencia entre hombres y mujeres (3,26% frente al 3%) respecto a la tabla original, en la que ambos valores eran iguales, pero dada la magnitud de las diferencias no es necesaria la prueba de hipótesis.

EJERCICIOS RESUELTOS

1 de 6

http://www.uned.es/111044/examenes/EJERESUS01.htm

EJERCICIOS RESUELTOS ESTADISTICA APLICADA A LAS CIENCIAS SOCIALES 1er parcial. Septiembre de 2001-06-19 TIEMPO: 2 horas MATERIAL: Todo tipo de material (libros, apuntes y máquinas de calcular) INDIQUE EN SU EXAMEN LA CARRERA EN LA QUE ESTA MATRICULADO CIENCIAS POLÍTICAS O SOCIOLOGÍA

EJERCICIO 1 Los miembros de una cooperativa de viviendas tienen las siguientes edades: 42 60 60 38 60 63 21 66 56 57 51 57 44 45 35 30 35 47 53 49 50 49 38 45 28 41 47 42 53 32 54 38 40 63 48 33 35 61 47 41 55 53 27 20 21 42 21 39 39 34 45 39 28 54 33 35 43 48 48 27 53 30 29 53 38 52 54 27 27 43 28 63 41 23 58 56 59 60 40 24 Elabore una tabla de frecuencias. Calcule la media y la desviación típica. SOLUCIÓN: Para elaborar una tabla de frecuencias es condición imprescindible establecer una serie de clases o categorías (intervalos) a las que vamos a adjudicar a cada uno de los ochenta miembros de la cooperativa. El investigador puede seguir diferentes criterios en función del objetivo del estudio. Una tabla de frecuencias elaborada a partir de estos datos podría ser la siguiente: Edad 20-29 30-39 40-49 50-59 60-69 Total

n 14 17 22 18 9 80

Cálculo de la media: Puede calcularse directamente sumando las edades de todos los miembros de la cooperativa y dividiendo por el total que en este caso es ochenta, el resultado es una media de 43,29. También: Edad

xi

ni

xini

20-29 30-39 40-49 50-59 60-69 Total

25 35 45 55 65

14 17 22 18 9 80

350 595 990 990 585 3510

06/04/2012 11:51


2 de 6


, por tanto, podemos decir que la media es de casi 44 años. Cálculo de la desviación típica: Edad

xi

ni

20-29 30-39 40-49 50-59 60-69 Total

25 35 45 55 65

14 17 22 18 9 80

-18,875 -8,875 1,125 11,125 21,125

356,2656 78,7656 1,2656 123,7656 446,2656

4987,71875 1339,01563 27,84375 2227,78125 4016,39063 12598,75

Sx = La desviación típica es de 12,5 años

EJERCICIO 2 Explique las similitudes y diferencias de estas distribuciones: Edad 20-29 30-39 40-49 50-59 60-69 Total

n_ 14 17 22 18 9 80

Edad 20-29 30-39 40-49 50-59 60-69 Total

n__ 43 ---37 80

SOLUCIÓN: La media y la desviación típica de la primera distribución, ha sido calculada en el primer ejercicio. Calculamos a continuación los mismos estadísticos para la segunda distribución. Cálculo de la media: Edad

xi

ni

xini

20-29 30-39 40-49 50-59 60-69

25 35 45 55 65

43 37

1075

2405

80

3480

Total

Cálculo de la desviación típica:

06/04/2012 11:51


3 de 6


Edad

xi

ni

20-29 30-39 40-49 50-59 60-69

25 35 45 55 65

43 37

Total

80

-18,875 -8,875 1,125 11,125 21,125

356,2656 78,7656 1,2656 123,7656 446.2656

15319,4219 16511,8281 31831,25

La similitud de ambas distribuciones radica fundamentalmente en que tienen la misma amplitud y casi el mismo valor medio. La diferencia es que las frecuencias de la segunda se distribuyen en los intervalos extremos dejando vacíos los del medio. Ello aparece perfectamente reflejado en la desviación típica de 19,9, aproximadamente 20 años. 43 + 20 hacen 63, aproximadamente la mitad del último intervalo, 43 – 20 hacen 23, aproximadamente la mitad del primer intervalo. Recuérdese que la desviación típica es la raíz de la media de las distancias al cuadrado, de cada uno de los elementos de la distribución respecto de la media aritmética. EJERCICIO 3 En una pregunta del CIS sobre la edad hasta la que consideran convenientes los padres controlar los programas y el tiempo de televisión de los hijos, la media fue de 15,4 años y la desviación típica de 2,11. Teniendo en cuenta que las respuestas se distribuyen aproximadamente como la curva normal y que van de los 7 a los 24 años, calcular: a)-Cuantos respondieron que la edad debe ser hasta los 13 años b)-Cuantos dijeron que debe estar entre 14 y 17 años. c)-Cuantos respondieron que debe estar por encima de los 19 años

SOLUCIÓN: a)

Sx = 2,1

06/04/2012 11:51


4 de 6


Consultando las tablas de la curva normal comprobamos que entre la media y un desviación típica de 1,13 encontramos un área de 0,3708 que si situaría a la izquierda de la curva por tener signo negativo. Si el área que queremos calcular es el que queda a la izquierda del valor -1,13, es decir, los de menos de 13 años, restamos a 0,5 (que es la superficie de la mitad de la curva) 0,3708 y obtenemos el resultado de 12,92% 0,5-0,3708= 0,1292 b)

06/04/2012 11:51


5 de 6


Las áreas correspondientes a estos valores z son 0,2454 y 0,2734 respectivamente. Como en este caso nos preguntan por el área comprendida entre las unidades z –0,66 y 0,75 sumaremos ambas con el resultado de del 51,88% 0,2454+0,2734 = 0,5188

c)

El área correspondiente es de 0.4554 y los que están por encima de 1,7 unidades z se obtienen restando de 0,5, el 0,4554 de las tablas. 0,5-0,4554 = 0,0446, es decir el 4,46%.

Ejercicio 4 Calcule el tamaño muestral de una encuesta realizada por CIS sobre la Unión Europea que incluía todas las provincias excepto Ceuta y Melilla. El error teórico era de + 2, con un intervalo de confianza de 95,5% y P=Q en el supuesto de un muestreo aleatorio simple. SOLUCIÓN Utilizamos la fórmula para muestras infinitas en la que intervienen los tres factores determinantes del tamaño muestral: la probabilidad con la que queremos trabajar (z), el grado de concentración, dispersión de la población (pq) y el error que estamos dispuestos a asumir. 06/04/2012 11:51


6 de 6


06/04/2012 11:51


1 de 4

http://www.uned.es/111044/examenes/2psep01.htm

Estadística Aplicada a las Ciencias Sociales Septiembre 2001 2ª PP. Ejercicio 1. Según el barómetro realizado por el CIS en abril de 2001, el 16,5% de los 2.494 entrevistados manifestó creer que dentro de un año la situación económica del país sería mejor. a) Estimar el intervalo en el que se encontrará la proporción real de los que piensan que la situación mejorará, utilizando un nivel de confianza del 95% b) Realice el mismo cálculo para un nivel de significación del 0,02. c) Compare los dos intervalos obtenidos y comente los resultados.

a) siendo p= 0,165 la proporción de los que piensan que la situación económica mejorará, se trata de estimar el intervalo en el que se encontrará el valor P en la población. El intervalo se construye sumando y restando al valor en la muestra el error absoluto, con lo que obtendremos el extremo superior e inferior del intervalo. Siendo necesitamos calcular Z y El valor de Z lo obtenemos a partir del nivel de confianza establecido: consultando las tablas del áreas bajo la curva normal, y considerando que las tablas solo presentan la mitad de la curva por ser simétrica, buscaremos en ellas el valor de Z correspondiente a la mitad de 0,95 es decir, el valor Z correspondiente a 0,475 es 1,96. Para el cálculo del error típico de la distribución muestral de las proporciones

, utilizaremos la

fórmula: sabiendo que q = 1- p , sustituimos en la fórmula anterior los valores :

volviendo a la fórmula del intervalo con los valores calculados: operando obtenemos los valores inferior y superior del intervalo pedido: la proporción en la población se encomtrará en el intervalo( 0,150 y 0,180) con una probabilidad del 95%. b) El nivel de significación del 0,02 se corresponde con un nivel de confianza del 98% por lo que el cálculo es análogo al del apartado anterior, modificando el valor de Z que en este caso es Z = 2,33 el intervalo pedido será entonces el comprendido entre ( 0,148 y 0,182 ) c) comparando ambos intervalos observamos que al aumentar el nivel de confianza también aumenta la amplitud del intervalo del valor poblacional. Lo que se gana en certeza (probabilidad de que al obtener muestras al azar, la proporcion medida en la muestra quede dentro del intervalo) se pirede en precisión (la amplitud del intervalo es mayor).

Ejercicio 2. En una encuesta sobre perfiles actitudinales se pregunto a 2.500 personas (una muestra de 1.260 mujeres y otra de 1.240 hombres): ¿cómo prefiere pasar Vd. Su tiempo libre? Los resultados de esta pregunta se reflejan en la siguiente tabla de porcentajes:

Con su familia

% MUJERES 64

% HOMBRES 59

06/04/2012 11:51


2 de 4

Con sus amigos Solos Con mucha gente Depende


16 9 4 7 100 (1260)

25 6 4 6 100 (1240)

¿Se puede asegurar, con un nivel de confianza del 95%, que la diferencia entre las proporciones de mujeres y hombres que prefieren pasar su tiempo libre solos, es válida para la población de la que se extrajeron las muestras?

Llamando p1 a la proporción de mujeres que prefieren pasar su tiempo libre solas y p2 a la misma proporción en los hombres, podemos establecer las hipótesis de trabajo. La hipótesis nula se enunciaría en el sentido de que no existen diferencias entre las proporciones de mujeres y hombres, y la hipótesis alternativa sostendría que sí existen diferencias: siendo p1 la proporción de mujeres y p2 la de hombres;

Al trartarse de determinar si existen diferencias significativas sin especificar la dirección del sesgo (una relación de “mayor o menor que” entre las proporciones), utilizaremos una prueba bilateral con un nivel de confianza del 95%. Siendo las muestras suficientemente grandes podemos utilizar la distribución normal. Comenzaremos los cálculos hallando el valor de la proporción conjunta o proporción ponderada de las dos muestras:

por tanto, q =1 – p = 1- 0,075 = 0,925 a continuación calculamos el error típico de la distribución muestral:

Calculamos a continuación el valor empírico de Ze:

podemos entonces proceder al contraste entre el valor empírico obtenido de Ze y el valor teórico Zc obtenido de las tablas para el nivel de confianza dado: para un nivel de confianza del 95% Zc= 1,96 y habiendo obtenido para Ze un valor muy superior, podemos si duda rechazar la hipótesis nula y afirmar que las diferencias entre las muestras son significativas. Ejercicio 3. En un estudio sobre calidad de la enseñanza se obtuvieron tres muestras de estudiantes pertenecientes a tres CCAA, entre los presentados a los exámenes de selectividad. Establezca mediante un contraste de hipótesis, si existen diferencias en las calificaciones obtenidas según la Comunidad Autónoma de pertenencia, para el total de los presentados en las tres CCAA, con un nivel de significación del 0,05.

06/04/2012 11:51


3 de 4


Cataluña 5 4,6 6,8 3,5 7,5

Comunidad de Madrid 5,4 4,6 7,3 6,7 5,8

País Vasco 8,2 6,1 5,3 4,6 6,8

Se trata de un análisis simple de la varianza con tres muestras y una variable independiente. Se enuncia una hipótesis nula que afirma que no existen diferencias significativas en las calificaciones obtenidas, según la Comunidad Autónoma y las diferencias observadas son debidas al azar. Y una hipótesis alternativa que niega la anterior:

Llamando x1 a las calificaciones obtenidas en Cataluña, x2 a las obtenidas en Madrid y x3 a las obtenidas en el País Vasco calculamos: ;

; ;

;

calculando a continuación la Suma total de cuadrados :

La suma de cuadrados entre grupos:

y por último la suma de cuadrados dentro de los grupos:

Grados de libertad: -del total glt=N-1=15-1=14 (siendo N el número de casos) -entre grupos glent=k-1=3-1=2 (siendo k el número de grupos) -dentro de los grupos gld=N-k=15-3=12 Podemos entonces estimar la varianza:

06/04/2012 11:51


4 de 4


-entre grupos

-dentro de los grupos Procedemos al cálculo de la F de Fisher:

Podemos comparar la F calculada con la F teórica de las tablas para 12 y 2 grados de libertad: El valor de F calculado es 0,35 y el obtenido en las tablas es 3,88 Al ser menor el valor calculado que el teórico hemos de aceptar la hipótesis nula y concluir que no hay diferencias significativas en las calificaciones según la cumunidad autónoma. Ejercicio 4. En un estudio sobre la situación económica de los hogares de una determinada región, se observó la relación entre los ingresos mensuales de una muestra de 350 jóvenes trabajadores y los ingresos mensuales de sus padres. Habiéndose calculado el coeficiente de correlación de Pearson, r = 0,75 , calcule el error típico del coeficiente Z de Fischer y, construya un intervalo para el coeficiente de correlación en la población “ρ”, con un nivel de confianza del 95%.

El intervalo pedido viene dado por la fórmula: a partir del coeficiente de correlación y mediante las tablas de valores de Z para valores dados de R Al valor r = 0,75 le corresponde un Zr = 0,9730 Calculando el error típico del coeficiente Z de Fisher según la fórmula:

podemos hallar el intervalo en términos de Zr

obteniendo el siguiente intervalo comprendido entre los valores: (0,8678 y 1,0782) los valores de los extremos del intervalo pueden volver a ser transformados mediante las tablas para obtener los valores del coeficiente de correlación en la población: resultando un intervalo con los valores ( 0,7 y 0,792 ).

06/04/2012 11:51

Ejercicio 1

1 de 4

http://www.uned.es/111044/examenes/septiembre 2002/soluciones sep...

ESTADISTICA APLICADA A LAS CIENCIAS SOCIALES 1er parcial. Septiembre de 2002 TIEMPO: 2 horas MATERIAL: Todo tipo de material (libros, apuntes y máquinas de calcular) INDIQUE EN SU EXAMEN LA CARRERA EN LA QUE ESTA MATRICULADO EJERCICIO 1 Los recientes resultados pertenecen a una encuesta del CIS sobre el voto declarado en las elecciones autonómicas de 31 de mayo de 2001. Total % 18 a 24 años 10 25 a 34 años 18 35 a 44 años 19 45 a 54 años 17 55 a 64 años 15 65 años y más 21 (N) (absolutos) (2127)

PNV/EA% 9 17 20 17 13 24 (819)

PSE/EE% 5 13 14 24 20 24 (182)

PP/UA% 12 15 18 15 18 22 (137)

IU/EB% 21 29 25 15 7 3 (122)

EH% 16 36 19 15 8 6 (120)

Calcule la media de edad de los votantes del PNV/EA, del PP/UA de IU/EB y de EH. Comente los resultados. Calcule la desviación típica de los votantes del PNV/EA EJERCICIO 2 Con los datos del ejercicio anterior, calcule el coeficiente de variación de los votantes del PNV/EA y de los votantes de EH. Comente los resultados. EJERCICIO 3 Un bombo de lotería contiene 6 bolas rojas, 4 bolas blancas y 5 azules. Determine la probabilidad de extraer aleatoriamente: -una bola roja -una bola blanca -una bola azul -una bola No roja -una bola roja o blanca EJERCICIO 4 El barómetro del CIS de diciembre del 2000 fue una encuesta a la población española de ambos sexos de 18 años y más excluyendo Ceuta y Melilla. -Calcule el tamaño muestral teniendo en cuenta que el nivel de confianza fue del 95,5%, P=Q y el error teórico + 2 -Si se desea incluir la población de Ceuta y Melilla, ¿el tamaño de la muestra sería el mismo?

Respuestas Ejercicio 1. Para calcular la media, calculamos las marcas de clase Xc de cada intervalo. Y cerramos el último intervalo en 90 años, en el supuesto de que habrá muy pocos casos por encima de esa edad y no se alterará sustancialmente el valor de los estadísticos. Obviamente sería preferible disponer de los datos

06/04/2012 11:54

Ejercicio 1

2 de 4


originales. También se puede utilizar un criterio en función de la esperanza de vida de la población. Los cálculos de la media para el caso del PNV/EA, serían, Edad 18 a 24 25 a 34 35 a 44 45 a 54 55 a 64 65 y más

Xc

ni

Xc ni

21,5 30 40 50 60 77,5

74 139 164 139 106 197 819

1591 4170 6560 6950 6360 15267,5 40898,5

Por lo tanto la edad media de los que han declarado haber votado al PNV es:

Procediendo de forma análoga obtenemos el resto de las medias:

Formaciones políticas PNV/EA PP/UA IU/EB EH

Edades medias 49,94 49,63 37,21 38,84

Puede observarse una diferencia sustancial en las edades medias de los votantes a los distintos partidos, mucho menor en el caso de IU/EB, y en menor medida en el de EH, que en el resto de los partidos. No obstante se hace necesario calcular las dispersiones respecto a los valores medios, para poder establecer el significado de las medias. Cálculo de las desviaciones típicas para PNV/EA : Edad

ni

Xc

(Xc-Media)

(Xc-Media)2

(Xc-Media)2ni

18 a 24 25 a 34 35 a 44 45 a 54 55 a 64 65 y más

74 139 164 139 106 197 819

21,5 30 40 50 60 77,5

-28,437 -19,937 -9,937 0,063 10,063 27,563

808,662969 397,483969 98,743969 0,003969 101,263969 759,718969

59841,0597 55250,2717 16194,0109 0,551691 10733,9807 149664,637 291684,512

La desviación típica de las edades para el PNV/EA, es por tanto:

06/04/2012 11:54

Ejercicio 1

3 de 4


Ejercicio 2. El coeficiente de variación nos permite comparar las dispersiones de dos distribuciones con diferentes medias.

Calculando la desviación típica para EH de la misma manera que hemos hecho para PNV/EA, obtenemos el valor : 14,8 Calculamos según la fórmula anterior los coeficientes de variación y obtenemos los siguientes valores:

Formaciones políticas PNV/EA EH

Media 49,94 38,84

Desviación típica 18,87 14,8

Coeficiente variación 37,79 38,10

de

Los datos absolutos mostraban una mayor dispersión respecto a la media en el caso del PNV/EA. Sin embargo al poner la desviación en términos relativos, en función de la media de cada grupo, podemos observar que al contrario, existe una dispersión ligeramente superior en el caso de EH.

Ejercicio 3. El bombo contiene 15 bolas en total, de las cuales 6 son rojas, 4 blancas y 5 azules. Utilizando la definición clásica de probabilidad dada por Laplace, la probabilidad de obtener una bola de un color determinado vendrá dada por el cociente entre el número de casos favorables y el de los casos posibles: La probabilidad de extraer al azar una bola roja, será

de forma análoga obtenemos la probabilidad de extraer una bola blanca:

y la probabilidad de extraer una bola azul:

La probabilidad de extraer una bola que no sea roja, dado que se trata de sucesos excluyentes (cada bola es de un solo color) será la suma de las probabilidades de extraer una bola blanca y de extraer una bola azul:

Tambien se puede calcular:

06/04/2012 11:54

Ejercicio 1

4 de 4


De la misma manera, la probabilidad de extraer una bola que sea roja o blanca: P(roja o blanca) = P(roja)+P(blanca) = 0,4 + 0,2667 = 0,6667

Ejercicio 4. Utilizando la fórmula para hallar el tamaño muestral en poblaciones “infinitas”

Para un nivel de confianza del 95,5% el valor de Z es igual a 2 Sustituyendo los datos en dicha fórmula se obtiene:

La inclusión de Ceuta y Melilla no haría variar el tamaño muestral, dado que el tamaño de la población no interviene en el cálculo.

06/04/2012 11:54

Ejercicio 1

1 de 5

http://www.uned.es/111044/examenes/septiembre 2002/sept2002-2pp.htm

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Sociología: 111044 Ciencias Políticas:121046 Septiembre de 2002. 2ªPP. TIEMPO: 2 Horas. MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…) Ejercicio 1. En el barómetro del CIS de Abril de 2002, se estima que la intención de voto al Partido Popular es del 42,4% mientras que en el barómetro del mismo mes para el año 2001, la intención del voto al PP fue del 43,5%. En ambas encuestas se utilizó el mismo tamaño muestral: 2.500 unidades. Realice una prueba de hipótesis con un nivel de confianza del 95,5%, para determinar si la diferencia observada en la intención de voto entre ambas muestras es significativa.

Ejercicio 2. Se ha realizado una encuesta entre madres que han establecido una nueva relación de pareja. Se ha preguntado a las mujeres acerca de la relación entre sus hijos y sus nuevas parejas y se han obtenido los siguientes datos: La madre considera a su nueva pareja como: Tipo de pareja Matrimonio Unión de hecho Total

Un verdadero padre 60 55 115

Un segundo padre 60 56 116

Un amigo 55 87 142

Total 175 198 373

Calcule la asociación entre las dos variables y realice una prueba de hipótesis para conocer si la asociación obtenida en la muestra es significativa, con un nivel de confianza del 95%.

Ejercicio 3. En una encuesta sobre movilidad social se han cruzado los datos del nivel de estudios de los encuestados con los de sus padres, obteniéndose la siguiente tabla:

Hijos Superiores Medios Primarios Total

Primarios 30 60 75 165

Padres Medios 50 55 39 144

Superiores 69 49 31 149

Total 149 164 145 458

Calcule el coeficiente de asociación Gamma y comente el resultado.

Ejercicio 4. En la siguiente tabla se tiene el Gasto en consumo nacional, para diferentes años (en miles de millones de euros): Año Gasto

1997 272,62

1998 284,89

1999 ?

2000 310,34

2001 318,79

No disponiendo de los datos para el año 1999, se propone el cálculo de la recta de regresión para poder estimar

el gasto de ese año. (para simplificar los cálculos asigne el valor x=0 para el año 1997; x=1 para 1998; x=2 para 1999 y así sucesivamente para cada año)

Ejercicio 1 Se trata de un contraste de dos muestras para el estadístico de la proporción.

06/04/2012 11:54

Ejercicio 1

2 de 5


La hipótesis nula señala que Ho:p1=p2 En primer lugar se calcula la proporción media[1]:

0,4295 El error típico de la diferencia de proporciones:


Como Z es menor que 2, las diferencias no son significativas para el nivel de significación prefijado. A la vista de los datos no es posible afirmar que entre Abril de 2001 y 2002 se haya modificado la intención de voto al Partido Popular.

Ejercicio 2 En primer lugar calculamos el valor del estadístico Ji-cuadrado. Para ello calculamos las frecuencias esperadas: Frecuencias observadas fo Un verdadero Un segundo Padre padre Un amigo TOTAL Matrimonio 60 60 55 Unión de Hecho 55 56 87 TOTAL 115 116 142

175 198 373

Frecuencias esperadas Un verdadero Un segundo Padre padre Un amigo TOTAL Matrimonio 53,9544236 54,4235925 66,6219839 Unión de Hecho 61,0455764 61,5764075 75,3780161 TOTAL 115 116 142

175 198 373

(fo-fe) Un verdadero Un segundo Padre padre Un amigo TOTAL Matrimonio 6,04557641 5,57640751 -11,6219839 Unión de Hecho -6,04557641 -5,57640751 11,6219839 TOTAL 0 0 0

0 0 0

(fo-fe)2

06/04/2012 11:54

Ejercicio 1

3 de 5


Un verdadero Un segundo Padre padre Un amigo Matrimonio 36,5489941 31,0963207 135,07051 Unión de Hecho 36,5489941 31,0963207 135,07051

Un verdadero Un segundo Padre padre Un amigo TOTAL Matrimonio 0,67740496 0,57137574 2,02741651 3,27619721 Unión de Hecho 0,5987165 0,50500381 1,79190853 2,89562885 TOTAL 1,27612146 1,07637956 3,81932504 6,17182606

Así Para 2 grados de libertad y un nivel de significación de 0,05 el valor del estadístico obtenido, es mayor que el que cabría esperar en el caso de independencia estadística, por lo tanto las diferencias encontradas en los datos pueden extrapolarse a la población. Como estadístico de asociación se puede calcular la V de Cramer o el coeficiente de Contingencia:

Siendo el valor máximo de este coeficiente: La relación entre ambos será: El valor obtenido, tanto en V como en C, indica una asociación despreciable entre ambas variables. Así, aunque las relaciones encontradas en la tabla puedan inferirse respecto a la población, la asociación es tan débil que realmente puede considerarse que no hay en la práctica diferencias en la percepción que tienen las madres sobre las relaciones entre sus hijos y sus nuevas parejas según el tipo de unión.

Ejercicio 3 Para que la interpretación del coeficiente Gamma resulte más clara, conviene reordenar la tabla de forma que ambas variables se oriente en el mismo sentido, en este caso en sentido creciente: Primarios Superiores Medios Primarios TOTAL

Medios 30 60 75 165

Superiores 50 55 39 144

69 49 31 149

TOTAL 149 164 145 458

Tal y como están ordenadas ambas variables la diagonal que señala asociación positiva entre ambas variables es:

06/04/2012 11:54

Ejercicio 1

4 de 5


X

Y

Determinada la diagonal, el cálculo de los pares concordantes será:

30 60 75

50 55 39

69 49 31

75 (50+69+55+49)= 75 x 223= 16725 30 60 75

50 55 39

69 49 31

39 (69+49) = 39 x 118 = 4602 30 60 75

50 55 39

69 49 31

60 (50+69)= 60 x 119 = 7140 30 60 75

50 55 39

69 49 31

55 (69) = 3795 Así los pares concordantes Ns =16725+4602+7140+3795=32262 Para los pares discordantes, procediendo de igual forma:

30 60 75

50 55 39

69 49 31

30 (55+49+39+31)= 30 x 174 = 5220

06/04/2012 11:54

Ejercicio 1

5 de 5


30 60 75

50 55 39

69 49 31

50 (49+31) = 50 x 80 = 4000 30 60 75

50 55 39

69 49 31

60 (39+31)= 60 x 70= 4200 30 60 75

50 55 39

69 49 31

55 (31) = 1705 Así los pares discordantes Nd = 5220+4000+4200+1705=15125 Por tanto Gamma.

La asociación entre ambas variables es moderada, y por el signo positivo muestra una relación directa entre estudios paternos y nivel de estudios alcanzado por los hijos, todo ello en consonancia con la teoría del “capital cultural” de Bourdieu.

Ejercicio 4. Este ejercicio se realiza de forma sencilla teniendo en cuenta que se solicita el valor de la variable “y” en el caso en el que la variable x alcanza su valor medio. Teniendo en cuenta que la recta de regresión pasa por el punto de ambas medias, la solución será la media de la variable “y”. Así:

[1] Dado que el tamaño muestral de ambas encuestas es idéntico el cálculo anterior puede simplificarse:

06/04/2012 11:54

Ejercicio 1

1 de 7

http://www.uned.es/111044/examenes/Septiembre 2003/sep1ppsolu.htm

FACULTAD DE CIENCIAS POLÍTICAS Y SOCIOLOGÍA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Septiembre de 2003 (1ª Prueba Personal) MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...) DURACIÓN: 2 Horas. Resuelva los cuatro ejercicios que se proponen a continuación. 1. En la siguiente tabla, se tienen los datos acerca de la edad de los profesores de enseñanza pública no universitaria en la Comunidad Murciana para el curso 2002/2003. Grupos de edad 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 Más de 65 TOTAL a) b) c)

Nº Profesores 475 1.652 2.046 2.454 2.506 2.390 1.945 1.149 212 38 14.867

Calcule las frecuencias relativas, para cada grupo de edad. Calcule la mediana de la distribución. Represente gráficamente las frecuencias absolutas.

2. Con los datos del problema anterior, calcule la edad media del profesorado y la desviación típica, comente los resultados.

3. Sabemos que el porcentaje de viviendas con teléfono en un municipio es del 95% ¿Qué probabilidades tendríamos, al seleccionar 10 viviendas del municipio al azar, de que dos de ellas carezcan de teléfono?

4. Calcule el tamaño muestral deberíamos emplear para realizar una encuesta en la ciudad de Guadalajara, (68.248 habitantes) con el fin de conocer la proporción de ciudadanos favorables a la implantación de un nuevo sistema de recogida selectiva de basura. Considere un nivel de confianza del 95,5% , un error máximo admisible del 5%? y P=Q.

SOLUCIONES Ejercicio 1

a)

Las frecuencias relativas son la proporción en tanto por uno de las frecuencias absolutas de cada categoría sobre el total de casos. En notación matemática:

En el primer caso, grupo de 21 a 25, el resultado será:

Los resultados se detallan a continuación: Grupo de

Frecuencia

Frecuencia

06/04/2012 11:55

Ejercicio 1

2 de 7


Edad (“i”) 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 Más de 65 TOTAL b)

Absoluta (fi) 475 1652 2046 2454 2506 2390

Relativa (fri) 0,03194996 0,11111858 0,13762023 0,16506356 0,16856124 0,16075873

1945 1149 212

0,13082666 0,07728526 0,01425977

38 14867

0,002556 1

Para el cálculo de la mediana y de otras medidas de tendencia central o de dispersión es necesario, en el caso de intervalos, obtener las marcas de clase. Para ello deben tenerse en cuenta dos hechos acerca de la naturaleza y codificación de los datos, el primero sobre los límites reales, y el segundo sobre el intervalo de cierre en las categorías abiertas.

Como la variable es la edad de un colectivo profesional debe tenerse en cuenta que la codificación de los datos se realiza en función de la edad cumplida. Es decir, en este caso el valor inferior de la categoría es el límite real inferior. Sin embargo esto no sucede con el superior. Por ejemplo una persona que tenga de edad exacta 25 años y 11 meses y 25 días, se habrá codificado en edad cumplida como una persona de 25 años y por tanto estará en el primer intervalo. Es decir en este caso el primer intervalo tiene como límite inferior 21, mientras que el límite superior es 25,99999999 26 El caso del último intervalo, su límite real inferior será 66, obsérvese que quienes están entre 65 y 66 años, estarán en el intervalo 61 y 65. El límite superior será 70 años. (Si bien en este colectivo profesional la edad de jubilación es de 65 años, cuando estos profesionales ocupan ciertos cargos de gestión pueden retrasar la misma hasta el momento de cumplir 70 años. A partir de los límites reales, la marca de clase será el punto medio de ambos, es decir:

Para el primer intervalo de 21 a 25 años, obtendremos:

El resto de los límites reales y marcas de clase se detallan a continuación: Grupo de Edad

Límite Real Inferior Linf

Límite Real Superior Lsup

Marca de Clase Xi

fi

21 a 25 26 a 30

21 26

26 31

23,5 28,5

475 1652

31 a 35 36 a 40 41 a 45 46 a 50

31 36 41 46

36 41 46 51

33,5 38,5 43,5 48,5

2046 2454 2506 2390

51 a 55 56 a 60 61 a 65 Más de 65 TOTAL

51 56 61 66

56 61 66 70

53,5 58,5 63,5 68

1945 1149 212 38 14867

La mediana es aquel valor de la variable que deja por encima de él al 50% de los casos, y por debajo del mismo a la otra

06/04/2012 11:55

Ejercicio 1

3 de 7


mitad. Para su cálculo se parte de la distribución de frecuencias acumuladas y observando en que intervalo se acumulan ya la mitad de los casos. En este caso, la mitad de los casos son: 14867/2=7433,5 Como puede observarse, la mediana estará entre 41 y 45 años que son los valores en los que se acumulan los primeros 7433,5 casos. (Hasta 40 años hay 6627 casos y hasta 45 hay 9133, por lo tanto los 7433,5 estarán entre ambos límites)

21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 Más de 65 TOTAL

fi

fa

475 1652 2046 2454 2506

475 2127 4173 6627 9133

2390 1945 1149 212 38 14867

11523 13468 14617 14829 14867

El cálculo preciso lo ofrece la siguiente fórmula: (C es la amplitud del intervalo: C=LSup-Linf=46-41=5)

Por lo tanto la edad mediana será de alrededor de 42 años y medio.

06/04/2012 11:55

Ejercicio 1

4 de 7


c)

La representación gráfica correcta es mediante un histograma. Todos los intervalos tienen la misma amplitud 5, a excepción del último que sólo tiene 4 (70-66=4).

El histograma es una representación de áreas proporcional a las frecuencias. Es decir el área=f. Como él área de un rectángulo es base por altura (bxh), tendremos que h=f/b, en nuestro caso las alturas de los rectángulos serán h=f/5, la quinta parte de las frecuencias, excepto en el último caso en que serán la cuarta parte. La siguiente tabla nos proporciona las alturas para la representación gráfica.

Frecuencia (fi)=área 21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 Más de 65

475 1652 2046 2454 2506 2390 1945 1149 212 38

Amplitud (Base=b)

Altura (h=fi/b) 5 5 5 5 5 5 5 5 5 4

95 330,4 409,2 490,8 501,2 478 389 229,8 42,4 9,5

Distribución por edad del profesorado de enseñanza pública no universitaria. Comunidad Murciana. Curso 2002/03

06/04/2012 11:55

Ejercicio 1

5 de 7


Ejercicio 2.

En el caso de distribuciones agrupadas en intervalos el cálculo de la media se realiza mediante el sumatorio del producto de las frecuencias por las macas de clase, como estas ya fueron calculadas en el ejercicio anterior, tenemos que:

Grupo de Edad

Marca de Clase Xi

fi

Xifi

21 a 25 26 a 30 31 a 35 36 a 40 41 a 45 46 a 50 51 a 55

23,5 28,5 33,5 38,5 43,5 48,5 53,5

475 1652 2046 2454 2506 2390 1945

11162,5 47082 68541 94479 109011 115915 104057,5

56 a 60 61 a 65 Más de 65 TOTAL

58,5 63,5 68

1149 212 38 14867

67216,5 13462 2584 633510,5

Entonces, la edad media será:

La desviación tipica puede ser rápidamente calculada mediante:

La tabla siguiente nos ayuda: Grupo de Edad

Marca de Clase Xi

fi

21 a 25 26 a 30

23,5 28,5

475 1652

552,25 812,25

262318,75 1341837

31 a 35 36 a 40 41 a 45 46 a 50 51 a 55 56 a 60 61 a 65 Más de 65 TOTAL

33,5 38,5 43,5 48,5 53,5 58,5 63,5 68

2046 2454 2506 2390 1945 1149 212 38 14867

1122,25 1482,25 1892,25 2352,25 2862,25 3422,25 4032,25 4624

2296123,5 3637441,5 4741978,5 5621877,5 5567076,25 3932165,25 854837 175712 28431367,3

Sustituyendo tenemos que:

06/04/2012 11:55

Ejercicio 1

6 de 7


Se trata de una distribución claramente simétrica en la que media, mediana y moda coinciden. Los datos obtenidos hasta ahora señalan una composición del profesorado murciano que puede resumirse como una población que ni está envejecida ni está juvenilizada. Es decir se observa que los profesores murcianos están concentrados en edades intermedias. Para algunos sería una población de docentes óptima en la medida en que concentran experiencia y dinamismo, es decir son lo suficientemente mayores sin dejar de ser jóvenes. De cara al futuro, en un contexto de bajo crecimiento de este colectivo, puede señalarse en un intervalo a medio plazo una clara tendencia al envejecimiento de este colectivo. Los pocos activos en edades prejubilares no permitirán, en la medida en que vayan jubilándose una incorporación significativa de jóvenes, y por tanto la forma simétrica irá progresivamente conviertiéndose en una distribución asimétrica, por el desplazamiento del “centro de gravedad” de la distribución, del grueso del colectivo de profesores, hacia la derecha.

Ejercicio 3. Se trata de una distribución binomial. El enunciado indica que dos viviendas se encuentren sin teléfono en una selección de 10 viviendas, es decir se solicita la proababilidad de que al menos 2 estén sin teléfono, o lo que es lo mismo que sean 2, 3, 4... 9 o 10. (Si hay cuatro sin teléfono hay también dos). Como el cálculo de la suma de probabilidades desde p=2 hasta p=10 resulta engorroso, haremos lo siguiente calcularemos la probabilidad inversa es decir la probabilidad de obtener menos de dos viviendas sin teléfono, pues la probabilidad que buscamos será el complemento a la unidad de dicha cantidad. Por tanto calcularemos 1-((p=0)+(p=1)) La fórmula binomial:

En este caso p=0,05 es decir la probabilidad de que una casa no tenga teléfono. Así obtenemos que la probabilidad de que entre 10 una casa no tenga teléfono es:

Así la probabilidad de que en una selección de 10, menos de dos no tengan teléfono es: P(x<2)=0,59873694+0,3151247=0,91386164 Por lo tanto la probabilidad de que al menos 2 no tengan teléfono será: 1-0,91386164=0,08613836 Es decir un 8,6%

Ejercicio 4. Se trata de calcular un tamaño para el estadístico de la proporción en el caso de una población finita.

06/04/2012 11:55

Ejercicio 1

7 de 7


Con n=398 se satisfacen suficientemente los requerimientos de la encuesta.

06/04/2012 11:55

Ejercicio 1

1 de 6


FACULTAD DE CIENCIAS POLÍTICAS Y SOCIOLOGÍA ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Septiembre de 2003 (2ª Prueba Personal) MATERIAL PERMITIDO: Todo tipo de material (Libros, apuntes, calculadoras...) DURACIÓN: 2 Horas.

Resuelva los cuatro ejercicios que se proponen a continuación.

1. Una muestra aleatoria de n = 50 estudiantes, de los 2.100 que componen la población objeto de estudio, ha sido entrevistada para conocer la opinión acerca del cambio del sistema de evaluaciones. Veintisiete estudiantes respondieron a favor del cambio. Estime el número de estudiantes que estaría a favor del cambio, en el conjunto de la población, con un nivel de confianza del 95,5%

2. Según los datos obtenidos en una encuesta del CIS sobre política internacional, realizada en febrero de 2002, el 52% de los 1.202 hombres entrevistados, manifestaba prestar “bastante” atención a las noticias sobre cuestiones y acontecimientos sucedidos en otros países, mientras que entre las 1.285 mujeres entrevistadas, ese porcentaje era del 50% . ¿Puede decirse, con un nivel de confianza del 95% , que existen diferencias significativas entre las proporciones de hombres y mujeres “bastante” atentos a ese tipo de noticias? ¿Y si contrastamos la hipótesis aplicando un nivel de significación de 0,01?

3. En un estudio del CIS, sobre política internacional, realizado en febrero de 2002, se preguntó a una muestra de 2.471 personas acerca de la atención que prestaban a las noticias, cuestiones o acontecimientos que suceden en otros países. Las respuestas a la pregunta aparecen resumidas en la tabla siguiente:

Mucha Bastante Poca Ninguna

Bajo 52 368 332 138 890

Nivel de estudios Medio 99 664 382 66 1211

Alto 86 233 40 11 370

Calcule para esta muestra la asociación entre el nivel de estudios y el grado de atención prestada a las cuestiones internacionales. 4. En un estudio sobre la movilidad social en una determinada comarca, se observó la relación entre los ingresos mensuales de una muestra de 500 jóvenes trabajadores y los ingresos mensuales de sus padres. Habiéndose obtenido un coeficiente de correlación de Pearson, r = 0,85 para los datos de la muestra, construya un intervalo para el coeficiente de correlación en la población “ρ”, con un nivel de confianza del 98%. SOLUCIONES Ejercicio 1. Se trata de estimar el parámetro poblacional a partir de los resultados obtenidos en una muestra. El parámetro a estimar en este caso es la proporción de los que estám a favor del cambio en el sistema de

06/04/2012 11:56

Ejercicio 1

2 de 6


evaluaciones. El valor buscado se encontrará en el intervalo:

La proporción en la muestra será:

siendo q = 1-p = 0,46 Dado el nivel de confianza del 95,5%, el valor de Z será 2. El error típico de la proporción podemos calcularlo mediante la expresión:

; ya que N>20n (2100>20*50)

Volviendo con estos valores a la fórmula inicial obtenemos los límites del intervalo en el que se encontrará la proporción de estudiantea a favor del cambio tenemos: (0,40 : 0,68) El intervalo expresado en número de alumnos es ( 840 : 1428)

Ejercicio 2. Compararemos los valores obtenidos en las dos muestras, de hombres y de mujeres, realizando una prueba de hipótesis que compruebe si las diferencias entre las proporciones según el género son suficientemente grandes como para considerar que no son debidas al azar, sino a una diferencia en la población de la que se extrajeron las muestras.

Siendo p1la proporción de hombres bastante interesados en las noticias internacionales y p2 la de las mujeres. Como no se establece el sentido de la posible diferencia, hacemos una prueba bilateral para un nivel de confianza del 95% Dado que las muestras son suficientemente grandes (N>20n) utilizaremos como referencia la distribución normal. Es necesario calcular la proporción conjunta para ambas muestras según la expresión:

06/04/2012 11:56

Ejercicio 1

3 de 6


Calculamos a contibuación el error típico de la distribución:

Pasamos a contrastar la hipótesis mediante la comparación de las unidades normalizadas de la distribución muestral teórica Zc y el valor empírico de obtenido de los datods muestrales Ze Zc para una prueba bilateral y un nivel de confianza del 95% será igual a +/- 1,96

Se acepta la hipotesis nula de que no existen diferencias entre hombres y mujeres, ya que el valor empírico no sobrepasa el límite de la zona de rechazo de la hipótesis H0 al ser Ze< Zc Con un nivel de significación menor, se acepta también la hipótesis nula, al ser los límites de la zona de aceptación mayores. Ejercicio 3. Se pide calcular la asociación entre dos variables ordinales, por lo que utilizaremos el coeficiente de asociacióm gamma.

Dado que las categorias en las tablas están dispuestas de modo que la diagonal que va desde la parte inferior izquierda a la parte superior derecha de la tabla, señala la asociación positiva, procedemos al cálculo de los pares concordantes y discordantes. Ns: cálculo de los pares concordantes 52 368 332 138

99 664 382 66

86 233 40 11

138 (99+664+233+382+40) = 207.552 52 368 332 138

99 664 382 66

86 233 40 11

66 (86+233+40) = 23.694 52 368 332 138

99 664 382 66

86 233 40 11

06/04/2012 11:56

Ejercicio 1

4 de 6


332 (99+86+664+233) = 359.224 52 368 332 138

99 664 382 66

86 233 40 11

382 (86+233) = 121.858 52 368 332 138

99 664 382 66

86 233 40 11

368 (99+86) = 68.080 52 368 332 138

99 664 382 66

86 233 40 11

664 (86) = 57.104 La suma de todos los productos de los pares concordantes será: 837.512 Nd: cálculo de los pares discordantes: 52 368 332 138

99 664 382 66

86 233 40 11

52 (664+233+382+40+66+11) = 72.592 52 368 332 138

99 664 382 66

86 233 40 11

99 (233+40+11) = 28.116 52 368 332 138

99 664 382 66

86 233 40 11

368 (382+40+66+11) = 183.632 52 368 332 138

99 664 382 66

86 233 40 11

664 (40+11) = 33.864

06/04/2012 11:56

Ejercicio 1

5 de 6


52 368 332 138

99 664 382 66

86 233 40 11

332 (66+11) = 25.564 52 368 332 138

99 664 382 66

86 233 40 11

382 (11) = 4.202 La suma de los productos de los pares discordantes es 347.970

El coeficiente nos indica que existe una asociación moderada entre la ordenación de las categorías de ambas variables. En términos de “reducción proporcional del error” podemos decir que, conociendo el orden de la variable “nivel de estudios”, es posible reducir el error en el ordenamiento de la variable “grado de atención a las noticias internacionales” en un 41,29%. Ejercicio 4. Conocido el valor del estadístico r en la muestra, podemos acotar los extremos del intervalo en el que se encontrará el valor poblacional con una probabilidad dada. La fórmula que nos permite hallar ese intervalo es:

Zr lo obtenemos de las tablas de “valores Z para valores dados de R”. La tabla convierte los valores de r en valores tipificados Zr. En nuestro caso, r = 0,85 se corresponde en las tablas con el valor Zr= 1,2561 El nivel de confianza del 98% nos refiere al valor Z de la curva normal igual a 2,33 La unidad de desviación del estimador la obtenemos mediante Por tanto el intervalo en valores normalizados sería:

Sumando y restando, obtenemos el intervalo: (1,3606 : 1,1516) Convirtiendo de nuevo los valores tipificados Z en valores R mediante la tabla, obtenemos el intervalo en el que se encuentra el estadístico poblacional Z 1,3606 1,1516

r 0,877 0,818

06/04/2012 11:56

Ejercicio 1

6 de 6


06/04/2012 11:56


1 de 4

http://www.uned.es/111044/examenes/Septiembre 2004/Sep 2004 1pp...

Facultad de Ciencias Políticas y Sociología Estadística Aplicada a las Ciencias Sociales (111044 y 121046) Septiembre 2004. 1ª Prueba Presencial. Ejercicio 1. En el Barómetro del Centro de Investigaciones Sociológicas, de diciembre de 2003, se preguntó a los entrevistados:“Actualmente, entre todos los miembros del hogar (incluido el entrevistado) y por todos los conceptos, ¿de cuántos ingresos netos disponen por término medio en su hogar al mes?” Las respuestas de los entrevistados que contestaron a la pregunta se presentan en la siguiente tabla:

Ingresos

%

Menos o igual a 300 euros De 301 a 600 euros De 601 a 900 euros De 901 a 1200 euros De 1201 a 1800 euros De 1801 a 2400 euros De 2401 a 3000 euros De 3001 a 4500 euros De 4501 a 6000 euros Más de 6000 euros

1,9 13,9 19,8 23,3 20,5 10,3 5,3 2,8 1,9 0,3

(N=1690) a) Calcule el primer cuartil de la distribución de los ingresos declarados por los hogares de la muestra. b) Calcule la mediana de la distribución. c) Comente los resultados

Ejercicio 2. 2 Las edades de los encuestados en el estudio 2.557 del CIS, se distribuyen según la siguiente tabla: Edades 18-24 25-34 35-44 45-54 55-64 65 y +

% 12.5 21.0 18.2 15.2 12.5 20.6 (N) (2499)

Represente gráficamente los datos y comente la forma de la distribución. Ejercicio 3. Según el último censo, de las 163.442 personas censadas en la provincia de Ávila, 1.847 tienen noventa o más años. Si seleccionásemos a 20 personas al azar entre los censados en Ávila ¿cuál sería la probabilidad de que dos de ellas tuvieran más de ochenta y nueve años? Ejercicio 4.

Dada una distribución normal con media 45,64 y desviación típica 24,03 calcule el porcentaje de casos que se encontrarán entre los valores 18 y 65.

SOLUCIONES 1 El cuartil y la mediana se pueden calcular a partir de las tablas de frecuencias relativas expresadas en porcentajes. Los datos agrupados en intervalos de ingresos están ordenados y podemos calcular las frecuencias relativas acumuladas Na. Ingresos €

%

% acumulado

06/04/2012 11:58


2 de 4


1-300 301-600 601-900 901-1200 1201-1800 1801-2400 2401-3000 3001-4500 4501-6000 6001 o más

1,9 13,9 19,8 23,3 20,5 10,3 5,3 2,8 1,9 0,3 100

1,9 15,8 35,6 58,9 79,4 89,7 95 97,8 99,7 100

En la taba observamos que los tres primeros intervalos están agrupadas el 35,6% de las familias de la muestra que tienen menores ingresos. Por tanto el primer cuartil estará contenido en el tercer intervalo de 601 a 900 €. Los límites reales del intervalo serán 600,5 y 900,5. Utilizando la fórmula del cuartil podemos calcular el valor en Euros por debajo del cual se encuentra exactamente ese 25% de las familias de la muestra, para ello tomaremos como valor de N = 100 y la frecuencia acumulada en porcentajes:

Se obtendría el mismo resultado si calculamos la frecuencia acumulada en número de casos para N = 1690 :

Un 25% de las familias entrevistadas dicen no superar los 739,89 € de ingresos al mes. Procediendo de manera análoga calculamos el segundo cuartil o Mediana:

El 50% de las familias entrevistadas dicen no superar los 1.085,91 €.

2 La representación gráfica tiene que servir como resumen visual que permita conocer la mayor cantidad de información de forma clara y concisa. Un histograma nos dará la idea de cuantos casos quedan en cada intervalo y además una visualización de la amplitud de los intervalos. Como estos intervalos no son iguales, es preciso asignar a cada intervalo de edad el área proporcional a los casos que lo componen. Edades 18-24 25-34 35-44 45-54 55-64 65y +

Nº casos 312 525 455 380 312 515

S 12,5 21 18,2 15,2 12,5 20,6

b 7 10 10 10 10 20

h 1,79 2,1 1,82 1,52 1,25 1,03

Siendo b, la amplitud del intervalo o base del polígono de cada intervalo de edad, S la superficie de cada polígono y h la altura calculada mediante la fórmula:

06/04/2012 11:58


3 de 4


3 Primero calculamos la proporción de personas de más de 90 años en la población:

Sabiendo que sólo una de cada 100 de las personas de esa población supera los 90 años, la probabilidad de que al seleccionar 20 personas dos de ellas superen los 90 puede calcularse mediante la distribución binomial. Si queremos conocer la probabilidad de seleccionar a dos o más personas de más de 90, calculamos la probabilidad de no encontrar ninguna persona mayor de 90

Después la de encontrar a una sola persona

La probabilidad buscada es la suma de todas las demás posibilidades de encontrar 2, 3, 4, 5, o más personas, y se puede calcular por la diferencia respecto a la totalidad, es decir, la unidad:

4 A partir de las tablas de áreas bajo la curva normal, podemos conocer el porcentaje de casos en los que la variable medida se aleja de la media una cantidad dada. Al ser una curva simétrica, las tablas nos proporcionan sólo la media curva con valores positivos, para una media igual a 0 y una desviación típica de 1 (Normal (0,1)). Las probabilidades asociadas a cada valor Z nos representa la probabilidad de encontrar un valor que se aleje de la media una distancia dada. Normalizando los datos de nuestra distribución normal, podemos calcular la distancia en unidades tipificadas Z entre 18 y la media 45: Z1 = 18 – 45 / 24 = -1,150 y la distancia entre la media y 65: Z2 = 65 – 45 / 24 = 0,806 El porcentaje de casos buscado sería la suma de las áreas correspondientes a esos valores Z en valor absoluto: En la tabla para Z = 1,15 el área es 0, 3749, el 37,49% de los casos se encuentran entre el valor 18 y la

06/04/2012 11:58


4 de 4


media. Para Z = 0,81 el área es 0,2910, el 29,1 % de los casos se encuentran entre la media y el valor 65. Por tanto entre 18 y 65 se encuentran el 66,59% de los casos de nuestra distribución.

06/04/2012 11:58

Una conocida fábrica de automóviles fabrica una pieza que debe tener u... http://www.uned.es/111044/examenes/Septiembre 2004/exasep042ppc.htm

1 de 5

Facultad de Ciencias Políticas y Sociología Estadística Aplicada a las Ciencias Sociales (111044 y 121046) Septiembre 2004. 2ª Prueba Presencial. Material permitido: Todo tipo de material. (Libros, apuntes, máquinas electrónicas de cálculo.) Duración: 2 Horas.

E Ejercicio 1.Una conocida fábrica de automóviles fabrica una pieza que debe tener una altura entre 83,5 cmts. y 82,3 cmts. El departamento de control de calidad realizó mediciones a 100 piezas escogidas al azar con el siguiente resultado = 83,02 y S=0,11. Varias horas más tarde se realizó una segunda medición con el siguiente resultado = 83,2 y S=0,25. En cual de las dos mediciones la producción está bajo control, es decir, las desviaciones se encuentran dentro de lo esperado. b)- Explique qué es una distribución teórica. Solución En los procedimientos de inducción estadística se emplean datos de tres distribuciones : la distribución de la población, la de los datos de la muestra y la distribución teórica de referencia. Obtendremos una muestra aleatoria de objetos de la población, consideraremos la distribución teórica de todas las muestras posibles, y estableceremos un intervalo calculado a partir de la media muestral y de la desviación típica de la distribución teórica de todas las muestras. La desviación típica de esa distribución muestral es igual a la poblacional dividida por la raíz del tamaño de la muestra. Pero si se desconoce ese valor poblacional puede ser aproximado partir de la muestra Muestra nº 1.Puesto que la fábrica trabaja con un nivel de confianza del 99,7, tomaremos un intervalo de + 3 unidades de desviación típica :

= 83,02 + 3 x 0,011 = 83,05 y 82,99 El intervalo viene fijado por el valor más bajo 82,99 cmts y el valor más alto 83,05 cmts. Como la fábrica acepta valores entre 82,3cmts. y 83, 5 ctms. podemos decir que la producción está bajo control. Muestra nº 2.Hacemos lo mismo que con la anterior.

= 83,2 + 3 x 0,025 = 83,125 y 83,275 Ambos valores están dentro del margen de variación aceptado por la empresa, por lo que

06/04/2012 11:59


2 de 5

podemos afirmar que la producción está también bajo control.

b) Una distribución teórica es el conjunto de frecuencias posibles de un fenómeno, por ejemplo la tirada al aire de una moneda o la extracción de bolas de una urna. Sin duda la más conocida es la curva normal. Ejercicio2.Un laboratorio farmacéutico experimenta la eficacia de dos fármacos A y B para combatir el SIDA. Los resultados con 200 pacientes fueron los siguientes:

Fármaco A Fármaco B

Produjo mejoría 75 65 140

No produjo mejoría 25 35 60

100 100 200

a) Calcule la tabla de contingencia y explique si las diferencias observadas pueden deberse al azar o por el contrario son significativas. B) Explique por qué en Estadística unas veces se habla de nivel de confianza y otras de nivel de significación. a) Tabla de contingencia. Se calcula a partir de los absolutos, por ejemplo, la primera posición a la izquierda de la tabla :

Fármaco A Fármaco B

Produjo mejoría 70 70 140

No produjo mejoría 30 30 60

100 100 200

Para saber si las diferencias estre las frecuencias esperadas (tabla de contingencia) y las observadas son significativas, utilizaremos el test

=

=

=

2,38

En la tabla de distribuciones teóricas para comprobamos que para un nivel de significación de 0,05 (probabilidad del 95,5%) y un grado de libertad, el valor es de 3,84 como el valor que hemos calculado del es de 2,38 es decir, inferior al valor teórico, consideramos que las diferencias NO son significativas y pueden deberse al azar. b)- Aunque el nivel de confianza y el nivel de significación se complementan (ambos suman 100) normalmente se habla de nivel de confianza cuando trabajamos con muestras en las que se busca la representatividad. Es decir, que sean un buen reflejo de la población. Se habla de nivel de significación cuando se hacen experimentos con muestras y lo que deseamos es saber si las diferencias entre dos o más colectivos son significativas, es decir, queremos tener alguna garantía de que las diferencias no se deben al puro azar.

06/04/2012 11:59


3 de 5

Ejercicio 3. En 1993 la edad media de 6 grupos de enfermos y la estancia media en el hospital fue la siguiente: Edad media del enfermo 47 43 64 61 51 42

Estancia media del enfermo (días) 9 9 12 15 11 12

¿Existe correlación? Calcule la recta de regresión.

Cálculo : x

y

47 43 64 61 51 42 TOT. 308

xy

9 9 12 15 11 12 68

2209 1849 4096 3721 2601 1764 16240

81 81 144 225 121 144 796

423 387 768 915 561 504 3558

= 51,3 = 11,3 Calculamos el coeficiente de la recta b que es la razon de la covarianza de x y por la varianza de x.

= =

= 74,98

06/04/2012 11:59


4 de 5

=

=

= 4,98

= 0,69

El coeficiente de correlación de Pearson (0,69) indica una correlación entre la edad del enfermo y el tiempo de recuperación (o de estancia) importante. La recta de regresión es

Puesto que la pendiente de la recta b tiene un valor de 0,18, calcularemos la constante a (punto en el que la recta corta el eje de la y) a partir de los valores medios de la x y la y, los únicos valores que pertenecen a la recta.

=

La recta de regresión será

Ejercicio 4. Un estudiante de sociología de la medicina realiza un estudio sobre el tiempo de recuperación de 15 enfermos y los clasifica según tres tipos de enfermedades. Trabaja con un nivel de significación del 0,05 y construye la siguiente tabla : Origen de la variación Entre grupos Dentro de los grup. TOTAL

Grados de libertad

Suma de cuadrados

2 12 14

0,28 7,8 8,08

Estimación de varianza 0,14 0,65

a)Determine si existen diferencias significativas entre los tres grupos de enfermos. b)Comente los resultados y explique la diferencia entre pruebas de hipótesis y análisis de varianza. Solución : Para saber si las diferencias que aprecen en la tabla son o no significativas, utilizaremos la prueba diseñada por Roland Fisher que lleva su nombre. El valor F es una razón entre la varianza entre grupos y la varianza dentro de los grupos :

=

= 0,21

En la tabla de valores teóricos F, encontramos para 2 grados de libertad entre grupos y 12 grados de libertad dentro de los grupos, un valor de 3,88, superior a nuestro F empírico, por tanto No podemos afirmar que las diferencias sean significativas. Se acepta la hipótesis Nula.

06/04/2012 11:59


5 de 5

b)Aunque los datos originales a partir de los que se ha elaborado la tabla indican la mayor rapidez de recuperacíon de uno de los grupos, no podemos afirmar que dicha diferencia sea estadísticamente relevante. Entre las pruebas de hipótesis y el análisis de varianza no existe más diferencia que el procedimiento de cálculo, mas sencillo en caso de las pruebas de hipótesis porque se refieren a una o dos muestras. No obstante, el objetivo de ambos análisis es el mismo.

06/04/2012 11:59

Ejercicio 1

1 de 5

http://www.uned.es/111044/examenes/Septiembre 2005/examen septie...

ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Ciencias Políticas: 111044 Sociología: 121046 Septiembre 2005. 1ª P. P.

Ejercicio 1. En la siguiente tabla figura la población del municipio de Getafe en el último censo, por grupos de edad. Calcule la edad media y la edad mediana de la población. Edad Personas 0-9 13.108 10-19 15.989 20-29 32.030 30-39 24.786 40-49 18.850 50-59 23.794 60-69 12.792 70-79 6.882 80 y más 3.248 Total 151.479

Ejercicio 2. En un municipio se sabe que el 6% de los 600 hogares, tiene conexión a internet. Con objeto de realizar un estudio se seleccionan al azar 10 hogares y se desea conocer: a) Número medio de hogares que se espera posean la conexión entre los 10 seleccionados. b) Probabilidad de que 3 de los 10 hogares seleccionados tengan conexión. c) Probabilidad de que ninguno de los 10 tenga conexión a internet.

Ejercicio 3. Una empresa que tiene en nómina a 1.650 empleados, la media de años de antigüedad es de 12,6 y la desviación típica de 4,1 Suponiendo que se distribuyan normalmente: a) ¿A cuantas unidades de desviación típica se encuentra un trabajador que lleva 5 años en la empresa, respecto a la media del colectivo? b) ¿Qué número de trabajadores lleva menos de seis años en la empresa? c) ¿Cuál será el límite inferior de antigüedad para los 800 trabajadores que llevan más años en la empresa?

Ejercicio 4. Calcule el tamaño muestral necesario para realizar una encuesta de opinión de ámbito nacional. El error teórico que hemos decidido asumir es del + 2%, con un intervalo de confianza de 95,5% y consideramos P = Q

SOLUCIONES Ejercicio 1 Para el cálculo de la media aplicaremos:

06/04/2012 12:00

Ejercicio 1

2 de 5


siendo xi la marca de clase o punto medio de cada categoría. Como se trata de la variable edad no existe redondeo al intervalo superior, es decir una persona de 9 años y 11 meses no se computa dentro de la categoría de 10 años, sino de 9 años, al igual que otra que tuviera 9 años y un día, por ejemplo. En el primer intervalo el extremo superior será 9,9999 10. El mismo razonamiento aplicaremos al resto de los intervalos. Como el último intervalo es abierto habrá que cerrarlo o tomar alguna decisión sobre su punto medio. Una solución aceptable en este caso es tomar como límite superior la edad de 99 años, ya que la proporción de población centenaria resulta muy reducida. (Otra solución alternativa podría ser utilizar como marca de clase la esperanza de vida, si bien para ello deberíamos recurrir a información externa). Procediendo de esta forma: Edad

Li

0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80 y más

Ls 0 10 20 30 40 50 60 70 80

n 10 20 30 40 50 60 70 80 99

5 15 25 35 45 55 65 75 89,5

Total

xn

13108 15989 32030 24786 18850 23794 12792 6882 3248

65540 239835 800750 867510 848250 1308670 831480 516150 290696

151479

5768881

Así la media será:

El valor de la mediana es aquel valor de la variable que divide a la población en dos grupos iguales. Para nuestra población:

Calculamos en primer lugar la distribución de frecuencias acumuladas: Edad

Li

Ls

n Na

0-9 10-19 20-29

0 10 20

10 20 30

5 15 25

13108 15989 32030

13108 29097 61127

06/04/2012 12:00

Ejercicio 1

3 de 5


30-39 40-49 50-59 60-69 70-79 80 y más

30 40 50 60 70 80

40 50 60 70 80 99

35 45 55 65 75 89,5

Total

24786 18850 23794 12792 6882 3248 151479

85913 104763 128557 141349 148231 151479 ------

La edad mediana se encontrará dentro del intervalo de 30 a 39 años. Aplicando la fórmula, obtendremos su valor:

Ejercicio 2. Se trata de una distribución binomial en la que hay que calcular: a) la media Probablemente si seleccionamos 10 hogares ni siquiera obtengamos un hogar con conexión. b) La probabilidad de obtener tres hogares con conexión en una selección de 10:

La probabilidad de obtener tres hogares con conexión es muy pequeña, tan sólo 1,68% c) La probabilidad de que ninguno de los 10 hogares seleccionados tenga conexión:

Por el contrario la probabilidad de que ninguno de los hogares seleccionados tenga conexión es alta p=53,86%

Ejercicio 3 Se trata de una distribución normal, con

y Sx = 4,1 en la que hay que calcular:

a) La distancia en unidades Z de x = 5.

b) El número de trabajadores con menos de 6 años en la empresa. Para ello deberemos calcular en primer lugar la distancia en unidades Z, posteriormente el área, y por último convertir el área o proporción obtenida en unidades. La distancia en unidades Z será:

06/04/2012 12:00

Ejercicio 1

4 de 5


El área bajo la curva normal entre 6 y la media será consultando las tablas: Área 6-media = 0,4463. Como queremos el área entre 6 y el extremo inferior el área será: 0,5-0,4463 = 0,0537 Es decir el 5,37% de la plantilla tendrá menos de 6 años de antigüedad, por tanto: 1650 x 0,0537 = 88,6 89 trabajadores tendrán menos de 6 años de antigüedad. C) La antigüedad de los 800 trabajadores más veteranos de la empresa. En este caso habrá que proceder de forma inversa al apartado anterior. Primero pasar de unidades a proporciones para obtener el área y así obtener la distancia. Los 800 trabajadores más veteranos suponen casi la mitad de la plantilla. 800 / 1650 = 48,5%. El área que queda entre la media y los 800 más veteranos será el correspondiente a: 50% - 48,5% = 1,5%. Buscamos en la tabla el valor en unidades Zx que desde la media corresponde con un Áreax de 0,015. Encontramos que estará entre Za= 0,03 y Zb= 0,04. Haciendo interpolación lineal obtenemos que:

siendo la diferencia D entre el Zx buscado y Za

El valor de Z que se corresponde con el área 0,015 será:

Como sabemos Z y queremos conocer x, tendremos que:

Por tanto los 800 más veteranos tendrán más de 12,75 años de antigüedad.

Ejercicio 4. Se trata de un muestreo irrestricto aleatorio de la proporción en población infinita para el caso de máxima varianza. Así:

06/04/2012 12:00

Ejercicio 1

5 de 5


06/04/2012 12:00


1 de 5


ESTADÍSTICA APLICADA A LAS CIENCIAS SOCIALES Ciencias Políticas: 111044 Sociología: 121046 Septiembre 2005. 2ª P. P. TIEMPO: 2 Horas. MATERIAL: Todo tipo de material. (Calculadoras, libros, apuntes…)

Ejercicio 1. En la siguiente tabla se recogen los datos del alumnado español que terminó los estudios universitarios durante 2002 por Sexo y Tipo de estudios. Tipo de estudios Arquitectura e ingenierías técnicas Diplomatura Licenciatura Arquitectura e ingeniería TOTAL

Mujeres 5904 34138 55089 5109 100240

Hombres 14762 12377 31039 11931 70109

Total 20666 46515 86128 17040 170349

Calcule la asociación entre el sexo y el tipo de estudios.

Ejercicio 2. Una encuesta sobre intención de voto de abril de 2005 administrada a 2.350 entrevistados atribuye al PP un 20,4 % de los votos. Un estudio similar en el mismo mes, con una muestra de 2.477 entrevistados, asigna al PP el 21,8 % de los votos. ¿Existe una diferencia significativa entre ambas muestras, para un nivel de significación del 0,05?

Ejercicio 3. En un estudio comparativo se aplicaron 3 métodos diferentes para enseñar las matemáticas. Se obtuvieron tres muestras de 6 estudiantes pertenecientes a cada uno de los tres institutos donde se habían impartido estos nuevos métodos y se registraron las calificaciones obtenidas con el mismo tipo de examen, como figuran en la siguiente tabla. Método 1 6,2

Método2 5,8

Método 3 4,7

5,5

5,6

8,2

4,6

4,6

6,1

6,8

7,3

5,3

4,2

6,7

4,6

7,5

5,8

6,8

Establezca mediante un contraste de hipótesis, si existen diferencias en las calificaciones obtenidas según el método seguido, para el total de los presentados en los tres Institutos, con un nivel de significación del 0,05.

Ejercicio 4. La edad media de los trabajadores de un sector industrial es de 36 años, con una desviación típica de 6 años. Y el salario medio de dichos trabajadores es de 1.350€ con una desviación típica de 400€. El coeficiente de correlación entre la edad de los trabajadores del sector y el importe de los salarios es r = 0,6 a) Calcule la recta de regresión que permitiría hacer predicciones sobre los salarios conociendo la edad. b) Según esa recta, ¿cuál sería el salario de un trabajador de 45 años?

SOLUCIONES Ejercicio 1. Para dos variables nominales y números de categorías diferente en cada variable, usaremos el coeficiente de asociación V de Cramer. Calculamos en primer lugar el valor de Ji-cuadrado para los datos:

06/04/2012 12:00


2 de 5


En primer lugar calculamos las frecuencias esperadas para cada casilla de la tabla, que para la primera casilla sería:

de forma análoga obtendríamos las frecuencias esperadas para cada casilla con lo que tendríamos la siguiente tabla de frecuencias: foij

feij

5904 34138 55089 5109 14762 12377 31039 11931

12160,6810 27371,2414 50681,0766 10027,0010 8505,3190 19143,7586 35446,9234 7012,9990

2

(fo-fe) 39146056,6 45789022 19429788,6 24186734,2 39146056,6 45789022 19429788,6 24186734,2 Ji-cuadrado=

2

(fo-fe) /fe 3219,0678 1672,8880 383,3736 2412,1603 4602,5383 2391,8512 548,1375 3448,8433 18678,8601

Al ser el valor del estadístico distinto de cero podemos considerar que existe alguna asociación, pero para cuantificarla de forma estandarizada es necesario usar otro estadístico. La V de Cramer nos proporciona un coeficiente cuyo valor está comprendido entre 0 y la unidad.

Siendo K el valor inferior de filas o columnas. En este caso el menor valor son las columnas=2, por tanto (K-1)=2-1=1 El valor de V nos indica que existe una asociación moderada entre la variable género y la variable de estudios universitarios. Ejercicio 2. Para comparar ambas muestras enunciaremos las hipótesis para el contraste de modo que:

n.s.=0,05 n.c.=95% lo que nos proporciona un valor Z de referencia de 1,96 conocemos de los datos muestrales que p1=0,204 y p2=0,218 Para el contraste utilizaremos el estadístico Z

06/04/2012 12:00


3 de 5


siendo

y sustituyendo los valores, tenemos:

Calculamos ahora el valor de Z empírico

Como el valor calculado es menor al de la distribución normal de referencia para n.c.=95% (Z=1,96) podemos concluir que las diferencias observadas entre las proporciones de las muestras no son significativas Ejercicio 3. El análisis de la varianza, que nos permite conocer qué parte de la varianza total corresponde a las diferencias de los valores de la variable dentro de cada grupo y qué parte corresponde a las variaciones entre grupos. Para comprobar si existen diferencias en las calificaciones entre los grupos comenzamos por enunciar las hipótesis acerca de las medias de los grupos:

Comenzamos confeccionando las tablas para obtener las sumas de los cuadrados GRUPOS

x1

6,2 5,5 4,6 6,8 4,2 7,5 TOTALES 34,8 Cuadrados 1.211,04

x2

x3

5,8 5,6 4,6 7,3 6,7 5,8 35,8 1.281,64

4,7 8,2 6,1 5,3 4,6 6,8 35,7 1.274,49

TOTALES 16,7 19,3 15,3 19,4 15,5 20,1 106,3

06/04/2012 12:00


4 de 5


Una vez obtenidos los cuadrados de los sumatorios de los valores en cada columna, elevamos al cuadrado cada valor de la variable obtenemos los sumatorios de los valores al cuadrado. x12 38,44 30,25 21,16 46,24 17,64 56,25 209,98

x22 33,64 31,36 21,16 53,29 44,89 33,64 217,98

x32 22,09 67,24 37,21 28,09 21,16 46,24 222,03

TOTALES 94,17 128,85 79,53 127,62 83,69 136,13 649,99

Procedemos entonces a calcular la Suma de Cuadrados Total

La suma de cuadrados entre grupos

y la suma de cuadrados dentro de los grupos

Los grados de libertad glt = 18 –1 = 17 glent = 3 –1 = 2 gld = 18 – 3 = 15 Dividiendo las sumas de cuadrado entre los grados de libertad obtenemos las varianzas

Utilizaremos el estadístico F de Fisher Para un nivel de significación de 0,05 y los grados de libretad entre grupos y dentro de los grupos las tablas de la distribución nos proporcionan el valor de referencia Fc =6,36 para el contraste de la hipótesis: El valor empírico para el estadístico Fe

Como Fe < Fc se acepta la hipótesis nula y se admite que las diferencias entre los grupos que han utilizado los distintos métodos de enseñanza no son significativas.

06/04/2012 12:00


5 de 5


Ejercicio 4. Sabemos que el coeficiente de correlación se puede calcular mediante la expresión:

Conocemos r, Sx y Sy de modo que podemos calcular la covarianza

conocida la covarianza podemos calcular el coeficiente b de la recta pedida

Por construcción de la recta de regresión sabemos que los valores medios de las variables pertenecen a dicha recta, por lo que podemos utilizar los valores de la media para obtener el coeficiente a, una vez conocido b:

Y despejando a,

Por tanto la recta pedida será:

Para conocer el salario que correspondería a una edad de 45 años sustituimos en la fórmula:

06/04/2012 12:00

Ejercicio 1

1 de 4

http://www.uned.es/111044/examenes/Septiembre 2007/Estadistica 200...

Septiembre 2007 2PP Ejercicio 1. En una encuesta realizada por el CIS sobre Opinión Pública y Política Fiscal, el 23% contestó que es el Gobierno central quien administra mejor el dinero que se recauda de los impuestos. El 21% contestó que son los gobiernos autonómicos, y el 15% los Ayuntamientos. Estime entre que valores estarán en la población real esos porcentajes. (Población entrevistada: 2.483, nivel de confianza 95,45%) Solución: Intervalo de confianza para la proporción:

Con ayuda de la siguiente tabla calculamos el error típico de la proporción para las diferentes proporciones. Como Nc=95,45% Z=2, por tanto:

p 0,23 0,21 0,15

N 2483 2483 2483

0,01689083 0,01634801 0,01433167

0,21310917 0,19365199 0,13566833

0,24689083 0,22634801 0,16433167

Los intervalos serán: Gobierno Central: Gobierno Autonómico: Ayuntamientos:

21,3% : 24,7% 19,3% : 22,6% 13,6% : 16,4%

Ejercicio 2. Un sondeo realizado en Francia sostiene que para el 47% de los electores socialistas Ségolène Royal es la persona que mejor representa los valores de la izquierda, mientras que uno de sus rivales afirma que puede no pasar del 45%. ¿Es creíble tal afirmación a la vista de los datos de la encuesta? (n= 1450, n.s. = 0.05) Solución: Se trata de un contraste de hipótesis de proporción. Prueba unilateral: Ho: p=0,45 H1: p>0,45 En primer lugar calculamos el error típico de la proporción:

El estadístico Z será igual a:

Mirando el valor de Z en la tabla obtenemos que el área correspondiente es: 0,4357, como la prueba es unilateral la probabilidad de que “p” sea igual o menor que 0,45 es 93,57%, valor 06/04/2012 12:02

Ejercicio 1

2 de 4


que es menor de 95%, por lo tanto no podemos rechazar la hipótesis nula. Es posible, aunque la probabilidad es baja, (p=6,43%) que Segolen no supere el 45% de los votos. (El Z crítico para Nivel de Confianza del 95% es 1,645)

06/04/2012 12:02

Ejercicio 1

3 de 4


Ejercicio 3. Una encuesta realizada en Francia el 21 de mayo de 2007 por la empresa TNS Sofres daba una intención de voto para la UMP, el partido de Nicolás Sarkozy, del 40%, en tanto que al partido Socialista le daba el 28%. Un instituto de estudios vinculado al socialismo francés sostenía por el contrario, que la intención de voto de la UMP es del 38% y la del partido socialista del 32%. ¿Son significativas esas diferencias? (Realice dos pruebas de hipótesis, una para la UMP y otra para el PS) El tamaño de la muestra de TNS-Sofres fue de 1.500 y la del Instituto socialista fue de 2.500. Solución: Son dos pruebas de hipótesis, en este caso ambas bilaterales: Para el partido UPM Ho: p1-p 2=0 H1: p1-p 2>0

En primer lugar calculamos la proporción media:

El error típico de la diferencia de proporciones:

El valor de Z:

Procedemos de la misma manera para el partido Socialista:

El error típico de la diferencia de proporciones:

El valor de Z:

Mientras que los resultados son coincidentes para el partido UMP, para el partido Socialista las diferencias son significativas en ambos sondeos.

06/04/2012 12:02

Ejercicio 1

4 de 4


Ejercicio 4. Un jugador desconfiado lanza un dado 60 veces, y anota los siguientes resultados: Numero

Frecuencias esperadas

1 2 3 4 5 6

10 10 10 10 10 10

Frecuencias observadas 6 9 11 5 16 13

Diferencia fo-fe -4 -1 1 -5 6 3

Compruebe si los resultados están dentro de lo que cabe esperar de un dado perfecto. Utilice la prueba del Ji-cuadrado (χ2)con un nivel de significación de 0,05 y 6-1 grados de libertad.

Solución: En este caso la hipótesis nula es Ho: fe-fo=0 H1: fe-fo>0

Calculamos el valor del Estadístico Ji-Cuadrado:

La tabla nos ayuda en el cálculo;

1 2 3 4 5 6 Total

10 10 10 10 10 10

6 9 11 5 16 13

-4 -1 1 -5 6 3

16 1 1 25 36 9

1,6 0,1 0,1 2,5 3,6 0,9 8,8

El valor de la distribución para 5 grados de libertad y Ns=5% es: 11,070, por lo tanto no podemos rechazar la hipótesis nula. Las diferencias son debidas al azar. No podemos concluir que el dado sea defectuoso.

06/04/2012 12:02

EXAMENES ESTADISTICA RESUELTOS

Recommend Documents