Análisis de Regresión y Correlación Lineal Trabajo Colaborativo Estadística Descriptiva
Victor Alfonso Galvez Guevara Código: 1113650569 Luis Alejandro Gómez Cuellar Código: 1110449696 Código:
Grupo: 100105_257
Presentado a: Oscar Andrés Salamanca
Universidad Nacional Abierta y a Distancia Santiago de Cali Noviembre 2017
INTRODUCCION Este trabajo se fundamenta en el reconocimiento y profundización en la temática propuesta dentro de la unidad 2 y el desarrollo de algunas de las temáticas estudiadas a lo largo del proceso académico del curso estadística descriptiva. descr iptiva. Para el desarrollo de esta actividad fue necesario poner en práctica conceptos de gran importancia tales como media aritmética, mediana rango, varianza, desviación, mediana, entre otros conceptos estudiados a lo largo del periodo académico con el propósito de que el aprendizaje sea más dinámico y se facilite más.
JUSTIFICACION Con la realización de los ejercidos pertinentes del trabajo colaborativo acuerdo con la guía de actividades lograremos comprender con detalles los temas que hemos visto durante el estudio de las medidas de dispersión, Regresión y Correlación lineal Simple y la realización del diagrama de dispersión.
OBJETIVOS El siguiente trabajo tiene como objetivo principal estudiar la unidad dos fases cuatro, donde se suministra una serie de datos estadísticos y a partir de esto elaborar a una investigación, mediante las variantes seleccionadas y la realización del diagrama de dispersión de dichas variables determinando el tipo de asociación entre las variables, así como encontrar el modelo matemático y porcentaje de explicación del modelo y el grado de relación de las dos variables.
DESARROLLO DE LA ACTIVIDAD VICTOR ALFONSO GALVEZ Análisis de correlación lineal simple de las dos variables cuantitativas seleccionadas Victor Alfonso Galvez Guevara
Año 2.001 2.001 2.001 2.001 2.001 2.001 2.001 2.001 2.001 2.001 2.001 2.001 2.002 2.002 2.002 2.002 2.002 2.002 2.002 2.002 2.002 2.002 2.002 2.002 2.003
Año Tasa de desempleo (%)
Tasa de desemple o (%) 16,69 17,31 15,71 14,59 14,23 15,23 15,02 14,71 14,28 14,59 13,55 13,84 17,87 15,85 14,95 16,14 14,43 16,25 15,41 15,78 14,56 14,81 14,71 15,77 16,12
2.003 2.003 2.003 2.003 2.003 2.003 2.003 2.003 2.003 2.003 2.003 2.004 2.004 2.004 2.004 2.004 2.004 2.004 2.004 2.004 2.004 2.004 2.004 2.005 2.005 2.005 2.005
16,28 12,98 14,80 12,89 14,14 14,44 14,43 14,26 13,70 12,91 12,19 17,00 15,69 13,62 14,68 13,75 14,00 12,94 13,09 12,51 12,59 11,78 12,07 13,22 14,23 12,95 12,06
2.005 2.005 2.005 2.005 2.005 2.005 2.005 2.005 2.006 2.006 2.006 2.006 2.006 2.006 2.006 2.006 2.006 2.006 2.006 2.006 2.007 2.007 2.007 2.007 2.007 2.007 2.007
12,31 11,52 12,00 11,75 11,17 9,96 10,21 10,33 13,41 13,00 11,34 12,01 11,88 10,61 12,39 12,79 12,89 11,35 10,94 11,78 13,90 12,83 11,93 10,90 11,53 11,16 11,16
2.007 2.007 2.007 2.007 2.007 2.008 2.008 2.008 2.008 2.008 2.008 2.008 2.008 2.008 2.008 2.008 2.008 2.009 2.009 2.009 2.009 2.009 2.009 2.009 2.009 2.009 2.009 2.009 2.009 2.010 2.010 2.010 2.010 2.010 2.010 2.010 2.010 2.010 2.010
10,73 10,84 10,05 9,42 9,89 13,08 11,99 11,22 11,13 10,84 11,17 12,06 11,22 10,95 10,12 10,80 10,61 14,25 12,49 11,99 12,14 11,66 11,34 12,63 11,74 12,16 11,55 11,08 11,31 14,62 12,59 11,81 12,24 12,04 11,64 12,68 11,16 10,57 10,15
2.010 2.010 2.011 2.011 2.011 2.011 2.011 2.011 2.011 2.011 2.011 2.011 2.011 2.011 2.012 2.012 2.012 2.012 2.012 2.012 2.012 2.012 2.012 2.012 2.012 2.012 2.013 2.013 2.013 2.013 2.013 2.013 2.013 2.013 2.013 2.013 2.013 2.013 2.014
10,79 11,12 13,56 12,86 10,87 11,19 11,24 10,91 11,54 10,08 9,74 9,00 9,22 9,82 12,48 11,87 10,36 10,86 10,71 10,03 10,86 9,75 9,94 8,85 9,25 9,55 12,07 11,79 10,21 10,17 9,42 9,24 9,88 9,27 8,98 7,79 8,48 8,44 11,10
2.014 2.014 2.014 2.014 2.014 2.014 2.014 2.014 2.014 2.014 2.014 2.015 2.015 2.015 2.015 2.015 2.015 2.015 2.015 2.015 2.015 2.015 2.015 2.016 2.016 2.016 2.016 2.016 2.016 2.016 2.016 2.016 2.016 2.016 2.016 2.017 2.017 2.017
10,68 9,73 8,97 8,80 9,19 9,29 8,90 8,35 7,86 7,71 8,72 10,79 9,86 8,86 9,50 8,93 8,25 8,84 9,09 8,98 8,19 7,27 8,59 11,91 10,00 10,14 9,02 8,85 8,88 9,85 8,99 8,51 8,29 7,51 8,74 11,73 10,50 9,70
Tasa de desempleo entre 2001 y 2017 20.00 y = -0.3925x + 800.08 R² = 0.67
18.00 16.00 14.00 O E L 12.00 P M E S E 10.00 D E D A 8.00 S A T
6.00 4.00 2.00 0.00 2,000
2,002
2,004
2,006
2,008
2,010
2,012
2,014
2,016
AÑOS
El tipo de asociación del diagrama de relación lineal descendente - Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable?
= + ; = 800.08– 0.3925 ² = 0.67 R²= Coeficiente de determinación = 67% no es tan confiable - Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables.
= ó = í 0,67 = 0.81% ó
2,018
- Relacionar la información obtenida con el problema Una vez realizado el informe que anualmente se estudia la tasa de desempleo anualmente, nos muestra una inclinación hacia abajo el cual se concluye que el desempleo en Colombia durante los años 2001 hasta 2017 ha disminuido en los últimos años.
LUIS ALEJANDRO GÓMEZ CUELLAR A partir de la base de datos suministrada, cada estudiante debe: -Identificar dos variables cuantitativas de la situación estudiada que puedan estar relacionadas. Variables seleccionadas:
Personas con empleo (Variable Dependiente (y)) Cantidad de Empresas (Variable Independiente (x))
- Realizar el diagrama de dispersión de dichas variables y determinar el tipo de asociación entre las variables.
Efecto del numero de empresas en Colombia en cada mes duante 2001 y Marzo de 2017 en el numero de personas con empleo. o e 30,000,000.00 l p m e n o c 25,000,000.00 s a n o s r 20,000,000.00 e p e d o r 15,000,000.00 e m 105,000 u N
y = 96.27x + 892744 R² = 0.969
155,000
205,000
255,000
305,000
355,000
Numero de empresas
Según el diagrama obtenido, las variables tienen una asociación de tipo directa, en donde mientras la variable Numero de empresas aumente, la variable Personas con empleo también aumentará, esto concuerda con el hecho lógico que mientras más empresas sea creadas, el número de personas con empleo aumentará, debido a la creación de plazas y así disminuirá progresivamente la tasa de desempleo. - Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable?
El modelo matemático para predecir el efecto de la variable Numero de empresas sobre el número de personas con empleo, es el siguiente:
= , + Y tiene un coeficiente de determinación de:
= , Esta ecuación, tiene un coeficiente de determinación ( ) de 0,969, lo cual indica un grado de confiabilidad del modelo de 96,9 ≅ 97%, lo cual es un muy alto porcentaje de confiabilidad y de seguridad del modelo estadísticamente hablando. - Determine el porcentaje de explicación del modelo y el grado de relación de las dos variables. Este modelo matemático tiene un coeficiente de correlación () de:
= √ = √, = ,
Por lo tanto, al tener un coeficiente de correlación tan alto y según la tabla de grado de correlación lineal, entre las dos variables existe una correlación excelente. Por lo tanto, se confirma que el número de empresas influye sustancialmente en el número de empleados. - Relacionar la información obtenida con el problema. Según los datos obtenidos en el análisis de correlación entre las variables Numero de empresas versus Número de empleados, se determina que, al haber un aumento del número de empresas, se genera por consiguiente más plazas de trabajo, esto trae consigo que el número de trabajadores
crezca, lo que demuestra el impacto directo que tiene una variable sobre la otra. Es por esto por lo que los gobiernos impulsan la creación o surgimiento de nuevos negocios y la incorporación al país de nuevas sedes de empresas extranjeras y por qué no de nuevas sucursales de empresas ya existentes, ya que esto, promueve la contratación de más personas y así disminuya el índice de desempleo y por consiguiente el número de personas sin empleo.
REFERENCIAS BIBLIOGRAFICAS Churchill, G.A.(2009).Análisis de Correlación y de Regresión Simple. Mexico City: Cengage Learning. Páginas 675 – 686 Recuperado de: http://go.galegroup.com/ps/i.do?id=GALE%7CCX4058900232&v=2.1&u=unad&it=r&p=GVR L&sw=w&asid=e558184ed89e57d11ede116134cfce41 Montero, J.M. (2007).Regresión y Correlación Múltiple. Madrid: Paraninfo. Páginas 191 – 225. Recuperado de:http://go.galegroup.com/ps/i.do?id=GALE%7CCX4052100012&v=2.1&u=unad&it=r&p=G VRL&sw=w&asid=47eaa8f46c19ad13af26a0a74e510de2 Pava, M. F. (15 de Noviembre de 2014) REGRESIÓN Y CORRELACIÓN [Entrada de Blog]. Recuperado de: http://estadisticadescriptivaunad100105.blogspot.com.co/2012/02/regresion-ycorrelacion.html?m=1
Pava, M. F. (14 de Octubre de 2014) LABORATORIO (REGRESIÓN Y CORRELACIÓN LINEAL- EXCELL) [Entrada de Blog]. Recuperado de: http://estadisticadescriptivaunad100105.blogspot.com.co/2011/08/laboratorio-regresion-ycorrelacion.html?m=1
Pava, M. F. (13 de Septiembre de 2014) LABORATORIO (Regresión lineal) [Entrada de Blog]. Recuperado de: http://estadisticadescriptivaunad100105.blogspot.com.co/2010/03/laboratorioregresion-lineal.html?m=1
Correlación lineal y análisis de regresión, Recuperado de, https://www.uoc.edu/in3/emath/docs/RegresionLineal.pdf
ANEXOS Laboratorio - Victor Alfonso Galvez Guevara Actividades para desarrollar 1. Este ejercicio práctico, pretende hacer la transferencia del conocimiento adquirido a partir de la elaboración del laboratorio de Regresión y Correlación Lineal, el cual se realizará utilizando el software gratuito INFOSTAT, que podrá descargar ingresando a Laboratorios Estadística Descriptiva: Infostat, Tutoriales, (Entorno de aprendizaje práctico). Los ejercicios prácticos también los podrán desarrollar utilizando la herramienta EXCEL, la cual aparece instalada por defecto en el Office de su computador. 2. En el entorno de aprendizaje Colaborativo Paso 4 – Descripción de la Información, cada estudiante deberá enviar la solución de los tres Ejercicios que aparecen a continuación:
2.1. Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. X (sal)
Y (Tensión)
1,6
98
2,3
102
3,3
109
4,2
113
4,6
115
5,0
120
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables
140 120 100
y = 6.1062x + 88.128 R² = 0.987
n 80 o i s n e 60 T
40 20 0 0
1
2
3
4
5
6
sal
El tipo de asociación del diagrama de relación lineal ascendente.
a. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable? El modelo matemático que permite predecir el efecto de una variable es =
Y= a+bx; Y=88.128+6.1062 R²=0.987 El grado de confiabilidad es aceptable porque R² se aleja un poco de 1
b. Determine el grado de relación de las dos variables. El grado de relación de las dos variantes es el 0.987 está retirado del 1 positivo
d. Si a un paciente se le administra una dosis de sal de 4,8. ¿Cuál es la tensión arterial esperada? 117 tensi ón
Y= 88.128+6.1062 (4.8) Y=117 2.2 En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se ha considerado que era importante ir anotando periódicamente el tiempo medio (medido en minutos) que se utiliza para realizar una pieza y el número de días desde que empezó dicho proceso de fabricación. Con ello, se pretende analizar como los operarios van adaptándose al nuevo proceso mejorando paulatinamente su proceso de producción.
Los siguientes datos representan dicha situación: X Y
12 45
23 30
35 27
42 25
53 23
65 21
70 20
a. Identifique la variable dependiente (y) y la variable independiente (x), realice el diagrama de dispersión y determine el tipo de asociación entre las variables
50 45 y = -0.3566x + 42.569 R² = 0.7963
40 35 30 25 20 15 10 5 0 0
10
20
30
40
50
60
70
80
b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable? Y= a+bx; Y= 42.569 -0.3566 R²= 0.7963 No es confiable, porque tiene un promedio muy minino
c. Determine el grado de correlación de las dos variables. El grado de correlación de las dos variables es de 0.7963
d. ¿Qué tiempo deberá tardarse un empleado cuando lleven 80 días? 14 días Y= 42.569 -0.3566 (80) Y= 14 2.3 Una Nutricionista de un hogar infantil desea encontrar un modelo matemático que permita determinar la relación entre el peso y la estatura de sus estudiantes. Para ello selecciona 10 niños y realiza las mediciones respectivas. A continuación, se presentan los resultados: Estatura 120 (cm) Peso 24 (kg)
124
107
118
112
110
115
104
110
116
23
19
24
21
19
22
16
20
23
a. Identifique la variable dependiente (y) y la variable independiente (x), realice el diagrama de dispersión y determine el tipo de asociación entre las variables
30 25 20 o s 15 e P
y = 0.386x - 22.751 R² = 0.8329
10 5 0 100
105
110
115
Estatura
120
125
b. Encuentre el modelo matemático que permite predecir el efecto de un a variable sobre la otra. ¿Es confiable?
El modelo matemático que permite predecir el efecto de una variable es =
Y=a+bx; Y=-22.751+0.386 R²=0.8329 El grado de confiabilidad es aceptable porque R² se aleja un poco de 1
c. Determine el grado de correlación de las dos variables. El grado de correlación de las dos variantes es 0.8329
d. Cuál es el peso que debería tener un estudiante que mida 120 cm? 24 kilos Y=-22.751+0.386 (120) Y= 24
Laboratorio - Luis Alejandro Gómez Cuellar Se quiere estudiar la asociación entre consumo de sal y tensión arterial. A una serie de voluntarios se les administra distintas dosis de sal en su dieta y se mide su tensión arterial un tiempo después. X (sal)
Y (Tensión)
1,6
98
2,3
102
3,3
109
4,2
113
4,6
115
5,0
a. Realice el diagrama de dispersión y determine el tipo de asociación entre las variables
Efectos del consumo de sal sobre la tension arterial 140 120 l a i r e t r A n ó i s n e T
5, 120
3.3, 109
1.6, 98
100
4.2, 113
80
4.6, 115
2.3, 102 y = 6,1062x + 88,128 R² = 0,987
60 40 20 0 0
1
2
3
4
5
6
Consumo de sal
Entre el consumo de sal frente a la tensión arterial, existe una relación directa o directamente proporcional, ya que al aumentar el consumo de sal se evidencia el aumento de la tensión arterial. Es por esto que los médicos recomiendan a pacientes con niveles de tensión altos, disminuir la ingesta de alimentos altos en sal o disminuir el nivel sal en su dieta para evitar situaciones de alteración cardiaca. b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable? Según la gráfica obtenida, se obtiene la siguiente ecuación:
y = 6,1062x + 88,128 Si se remplaza por el valor de la variable de sal es decir la cantidad de sal, se obtendrá el nivel de presión arterial.
R = 0,987 Según el coeficiente de determinación ( ) obtenido, este modelo matemático tiene un 98% de confiabilidad. Determine el grado de relación de las dos variables. El grado de Correlación es igual a:
= √ R = √0,987
R = 0,99 Según la tabla siguiente:
Por lo cual, estadísticamente al existir una correlación excelente entre las dos variables con un coeficiente de correlación de 99%, por lo cual se confirma que el consumo de sal tiene un efecto directo y preciso en el aumento de la tensión arterial. d. Si a un paciente se le administra una dosis de sal de 4,8. ¿Cuál es la tensión arterial esperada? Aquí se aplica la formula o ecuación obtenida en el punto b:
y = 6,1062x + 88,128 Al reemplazar el valor de con la cantidad de sal propuesta:
y = 6,1062(4,8) + 88,128 y = 29,30,97 + 88,128 = , Se espera que el paciente tenga una tensión arterial de 117,43. Gráficamente se vería de la siguiente manera junto con los datos anteriores.
Efectos del consumo de sal sobre la tension arterial 2.3, 102
120 l a i r e t r A n ó i s n e T
5, 120
4.6, 115
140 3.3, 109
100 4.2, 113
80
1.6, 98
60
4.8, 117.43
y = 6,1062x + 88,128 R² = 0,987
40 20 0 0
1
2
3
4
5
6
Consumo de sal
2.2 En un nuevo proceso artesanal de fabricación de cierto artículo que está implantado, se ha considerado que era importante ir anotando periódicamente el tiempo medio (medido en minutos) que se utiliza para realizar una pieza y el número de días desde que empezó dicho proceso de fabricación. Con ello, se pretende analizar como los operarios van adaptándose al nuevo proceso mejorando paulatinamente su proceso de producción. Los siguientes datos representan dicha situación: X Y
12 45
23 30
35 27
42 25
53 23
65 21
70 20
a. Identifique la variable dependiente (y) y la variable independiente (x), realice el diagrama de dispersión y determine el tipo de asociación entre las variables La variable dependiente (y) equivale al tiempo que tardan en realizar el proceso de fabricación, y la variable (x) es el número de días que han pasado
Tiempo de realizacion de una pieza frente a los dias trnascurridos desde el inico de la operacion. 50 45 40 ) 35 N I M30 ( O25 P M20 E T 15 10 5 0
12, 45 35, 27 53, 23
65, 21
23, 30
70, 20 42, 25
0
10
20
30
40
y = -0.3566x + 42.569 R² = 0.7963 50
60
70
80
DIAS TRANSUCRRIDOS
Según el grafico obtenido, se estima que existe una asociación inversa, en donde mientras más pasan los días desde que inicio dicha operación, los operarios son más rápidos en la realización de una pieza. b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable? El modelo matemático encontrado para predecir el efecto de del número de días transcurridos sobre el tiempo de fabricación de una pieza es el siguiente:
y = −0,3566x + 42,569 Y tiene un coeficiente de confiabilidad ( ) de 0,7963 es decir 79,63% de confiabilidad. c. Determine el grado de correlación de las dos variables. Como ya sabemos, el grado de correlación equivale a:
= √ R = √0,7963 R = 0,8923 Por lo tanto, existe un 89,23% de correlación, y esto es un indicador de una correlación aceptable estadísticamente hablando, por tanto, el tiempo transcurrido influye o esta correlacionado con el tiempo que se tarda en fabricar una pieza de manera aceptable, lo que puede indicar que debe haber otro factor que este influyendo o impactando aún más en la facilidad o rapidez con que se fabrica una pieza y no solamente la cantidad de días transcurridos.
d. Que tiempo deberá tardarse un empleado cuando lleven 80 días? Si utilizamos la ecuación o el modelo matemático hallado y reemplazamos el valor de x por 80 días, se puede determinar:
y = −0,3566x + 42,569 y = −0,3566 ∗ (80) + 42,569 y = −28,528 + 42,569 y = 14,041 Por lo cual se estima que pasados 80 días, los operarios deberían realizar una pieza en 14,04 minutos aproximadamente. 2.3 Una Nutricionista de un hogar infantil desea encontrar un modelo matemático que permita determinar la relación entre el peso y la estatura de sus estudiantes. Para ello selecciona 10 niños y realiza las mediciones respectivas. A continuación, se presentan los resultados: Estatura 120 (cm) Peso ( 24 kg)
124
107
118
112
110
115
104
110
116
23
19
24
21
19
22
16
20
23
a. Identifique la variable dependiente (y) y la variable independiente (x), realice el diagrama de dispersión y determine el tipo de asociación entre las variables La variable dependiente () es el peso (Kg) y la variable independiente () es la estatura (cm)
Relación entre la estatura (cm) y el peso (kg) en los estudiantes de una clase de Nutrición 30
120, 24
25
110, 20 112, 21 107, 19
) 20 g K ( 15 o s e P
116, 23 118, 24
124, 23
115, 22 110, 19
104, 16
10
y = 0.386x - 22.751 R² = 0.8329
5 0 100
105
110
115
120
125
Estatura (cm)
Entre la estatura y el peso de los estudiantes existe una variable directa, en donde mientras más estatura tengan los estudiantes, más peso tendrán, esto según los datos obtenidos por la nutricionista. b. Encuentre el modelo matemático que permite predecir el efecto de una variable sobre la otra. ¿Es confiable? Para esta situación, el modelo matemático es el siguiente:
= 0,386 − 22,751
Y tiene un coeficiente de determinación de:
= 0,8329 Lo cual indica que tiene una confiabilidad del 83,29%. Por lo cual se puede tomar como confiable. c. Determine el grado de correlación de las dos variables. El grado de correlación de las variables es el siguiente:
= √ = √0,8329 = 0,9126
Esto arroja un grado de correlación de 91,26%, el cual según la tabla indica una correlación excelente, por lo cual se define que la estatura impacta profundamente en el peso de la persona. d. Cuál es el peso que debería tener un estudiante que mida 120 cm? Si utilizamos el modelo matemático obtenido:
= 0,386 − 22,751 = 0,386 ∗ (120) − 22,751 = 46,32 − 22,751 = 23,569 Si un estudiante tiene como estatura 120 cm, este tendría un peso aproximado de 23,569 Kg