EJERCICIOS DE METODOS ESTADISTICOS PARA LA INVESTIGACION 2011 MUESTREO SISTEMÁTICO Ejemplo: Se desea elegir una muestra de 20 consultorios de una lista de 500 consultorios. N
500
n 20
k
N n
500 20
25
Se elige el primer consultorio en forma aleatoria entre el 1 y el 25. Supongamos que sea el consultorio número 12, entonces los consultorios seleccionados serán el: 12,
,
,
,
,
,
,
...
487(completar) 487(completar)
Sol. 12, 37, 62, 87, 112, 137, 162, 187, 212, 237, 262, 287, 312, 337, 362, 387, 412, 437, 462, 487
EJEMPLO 1 Variable Cualitativa o Atributo : Estado Civil Modalidades del Atributo : Casado, Soltero y Viudo Número de personas = ni = frecuencia absoluta de la categoría o clase i DISTRIBUCIÓN DE 9000 PERSONAS DE UNA POBLACIÓN POBLACIÓN X DE ACUERDO A SU ESTADO CIVIL ESTADO CIVIL NÚMERO DE PERSONAS SOLTERO 4500 CASADO 3000 VIUDO 1500 9000
EJEMPLO 2 Variable Cuantitativa Discreta Experimento Aleatorio: Se lanza un dado 100 veces x i = Número i que aparece en la cara superior del dado ni = Número de veces que se repite el número i que aparece en la cara superior del dado NÚMERO QUE APARECE EN LA CARA SUPERIOR DEL DADO 1 2 3 4 5 6
NÚMERO DE VECES QUE SE REPITE 21 18 15 20 16 10 100
1
x i 1 2 3 4 5 6
ni 21 18 15 20 16 10 100
N i 21 39 54 74 90 100
f i % 21 18 15 20 16 10 100
F i 0,21 0,39 0,54 0,74 0,90 1,00
f i 0,21 0,18 0,15 0,20 0,16 0,10 1,00
F i % 21 39 54 74 90 100
El número asociado a cada categoría o clase lo llamaremos frecuencia absoluta. k
ni n i 1
ni = frecuencia absoluta de la clase i
k númerode clases EJEMPLO 3 Variable Cuantitativa Continua 1,72 1,67 1,69 1,55 1,53 1,38 1,64 1,49 1,68 1,59 1,62 1,68
1,58 1,37 1,57 1,57
X = X = estatura, en metros, de alumno de un curso Z 1,81 1,47 1,62 1,47 1,72 1,77 1,64 1,65 1,85 1,65 1,64 1,63 1,80 1,60 1,83 1,65 1,66 1,73 1,65 1,64 1,78 1,58 1,71 1,59
1. Ordenar y completar la tabla de abajo 1.37 1.58 1.64 1.71
1.38 1.59 1.65 1.72
1.47 1.59 1.65 1.72
1.47 1.6 1.65 1.73
1.49 1.62 1.65 1.77
1.53 1.62 1.66 1.78
1.55 1.63 1.67 1.8
1.57 1.64 1.68 1.81
1.57 1.64 1.68 1.83
1.58 1.64 1.69 1.85
REGLAS GENERALES PARA FORMAR LOS INTERVALOS DE CLASE 1o ) Se determina el recorrido o rango de la variable Re Re diferencia entre el mayor y menor eno r valo va lo r de la variable X mayor X menor Re = 1,85 - 1,37 = 0,48 2 o ) Se divide el Recorrido por el número de intervalos deseados. (entre 5 y 20 intervalos)
(a) Suponga que se desean 5 intervalos de clase Re : 5 = 0,48 : 5 = 0,096 0,10 = amplitud de cada intervalo de clase. Se aproxima aumentando y dejando con el mismo número de decimales de los datos. INTERVALOS DE CLASE FRECUENCIA 1,37 – 1,46 2 1,47 – 1,56 5
2
1,57 – 1,66 1,67 – 1,76 1,77 – 1,86
19 8 6 40
DISTRIBUCIÓN DE 40 ALUMNOS DE UN CURSO Z DE ACUERDO A SU ESTATURA ESTATURAS NÚMERO DE ALUMNOS 1,365 - 1,435 2 1,435 - 1,505 3 1,505 - 1,575 4 1,575 - 1,645 12 1,645 - 1,715 10 1,715 - 1,785 5 1,785 - 1,855 4 40
AMPLITUD O LONGITUD DEL INTERVALO DE CLASE : es la diferencia entre el límite superior e inferior del intervalo de clase = ai Li l i MARCA DE CLASE : es el punto medio del intervalo de clase, se obtiene sacando el R r L l promedio entre los registros o los límites del intervalo de clase = xi i i i i 2 2 ESTAT ESTATURA URAS S 1,365 - 1,435 1,435 - 1,505 1,505 - 1,575 1,575 - 1,645 1,645 - 1,715 1,715 - 1,785 1,785 - 1,855
N MERO MERO DE ALUMNO ALUMNOS S 2 3 4 12 10 5 4 40
x i 1,4 1,47 1,54 1,61 1,68 1,75 1,82
REPRESENTACIÓN GRÁFICA DE UNA DISTRIBUCIÓN DE FRECUENCIAS El verdadero objetivo de dichas representaciones es facilitar en forma rápida la captación de los datos estadísticos.
3
EJEMPLO 4 Dibujar el Diagrama de Barras de la distribución de frecuencias del Ejemplo 1 5000
4500
s a n 4000 o s r e 3000 P e d o r 2000 e m u 1000 N
3000
1500
0 SOLTERO
CASADO
VIUDO
Estado Civil
GRÁFICO SECTORIAL O DE SECTORES O PIE O PASTEL Consiste en un círculo que se divide en sectores. Los 360° se reparten proporcionalmente. No se utiliza para variables ordinales EJEMPLO 5 Gráfico Sectorial de la distribución de frecuencias del Ejemplo 1 ESTADO CIVIL SOLTERO CASADO VIUDO
NÚMERO PERSONAS 4500 3000 1500 9000
DE
ÁNGULO EN GRADOS 180° 120° 60° 360°
% 50 33 17 100
DISTRIBUCIÓN DE 9000 PERSONAS DE UNA POBLACIÓN X DE ACUERDO A SU ESTADO CIVIL
17%
SOLTERO
50% 33%
CASADO VIUDO
4
EJEMPLO 6 Dibujar el Histograma de la distribución de frecuencias del Ejemplo 3 (con 7 intervalos de clase) 14 12
s o n 10 m u l A 8 e d 6 o r e m 4 u N
12 10
2 2
5
4
3
4
0
Intervalos de Clase
IV POLÍGONO DE FRECUENCIA EJEMPLO 7 Polígono de frecuencias de la distribución de frecuencias del Ejemplo 3 DISTRIBUCIÓN DE 40 ALUMNOS DE UN CURSO Z DE ACUERDO A SU ESTATURA S O 14 N 12 M U 10 L A 8 E 6 D O 4 R E 2 M 0 Ú N
1.33
1.40
1.47
1.54
1.61
1.68
ESTATURAS (METROS)
5
1.75
1.82
1.89
ESTADISTICO ESTADÍSTICO: expresión que permite cuantificar una característica de la población o de la muestra. ( I ) ESTADÍGRAF OS DE TENDENCIA CENTRAL (II) ESTADÍGRAFOS DE DISPERSIÓN
ESTADÍGRAF OS
(I) ESTADÍSTICOS O MEDIDAS DE TENDENCIA CENTRAL Es el valor que da una idea del centro de una distribución de frecuencias. (a) (i) MEDIA ARITMÉTICA Es muy importante, corrientemente se le llama promedio y corresponde a la suma de todos los valores de la variable dividida por el número total de ellos. En los siguientes ejemplos se calculará la media aritmética.
EJEMPLO 9 5
Sea A 1, 3, 7, 8,9 una muestra.
x
El promedio de los datos es de 5,6 unidades.
xi i 1
5
Calcular la media aritmética de los siguientes números 13,15,14, 17,19, 20, 24,22,13,21 Media= 17,8
EJEMPLO 10 Sea B 1,1,2,2,2,3,4,4,5,5 una muestra x i
ni
x i ni
1 2 3 4 5
2 3 1 2 2 10
2 6 3 8 10 29
5
x
xi ni i 1
10
2 6 3 8 10 29 2,9 10 10
6
1 3 7 8 9 5,6 5
El promedio de los datos es de 2,9 unidades.
EJEMPLO 11 Estaturas, en metros, de 40 alumnos de un curso Z ESTATURAS 1,365 1,435 1,435 1,505 1,505 1,575 1,575 1,645 1,645 1,715 1,715 1,785 1,785 1,855
N° DE ALUMNOS 2 3 4 12 10 5 4 40
x i 1,40 1,47 1,54 1,61 1,68 1,75 1,82
x i ni 2.8 4.41 6.16 19.32 16.8 8.75 7.28 65,52
Si los datos son de una muestra 7
x
xi ni i 1
40
2,80 4,41 6,16 19,32 16,80 8,75 7,28 65,52 1,638 metros 40 40
El promedio de estatura de los 40 alumnos del curso Z es de 1,638 metros.
EJEMPLO 12 La siguiente distribución de frecuencia indica el contenido de albúmina total circulante (en gramos) de 30 varones normales de edad comprendida entre 20 años y 29 años. Determine el contenido de albúmina media. Contenido de Albúmina 99,5 - 109,5 109,5 - 119,5 119,5 - 129,5 129,5 - 139,5 139,5 - 149,5 149,5 - 159,5
N° de varones 2 6 6 7 8 1 30
x i 104.5 114.5 124.5 134.5 144.5 154.5
x i ni 209 687 747 941,5 1156 154,5 3895
Si los datos son de una muestra 6
x
xi ni i 1
30
209 687 747 941,5 1156 154,5 3895 129,833 gramos 30 30
7
(b) MEDIANA Es un estadístico que divide la distribución en dos grupos con igual número de observaciones. (i) Si la serie tiene un número impar de términos, la mediana es el valor central. EJEMPLO 14 ORDENAR 2,10,13,5,7 2,5,7,10,13 Me 7 (ii) Si la serie tiene un número par de términos, la mediana es la media aritmética de los dos términos centrales. 57 EJEMPLO 15 1,2,5,7,10,13 6 Me 2
(c) MODA Moda, Modo o valor modal de la variable es el valor que más veces se repite y en consecuencia en una distribución de frecuencias es el valor de la variable que viene afectado por la máxima frecuencia. La moda no es una medida muy utilizada. En los siguientes ejemplos se calculará la moda.
EJEMPLO 18 A 5, 3, 2, 2, 4, 3, 2, 1 Sea EJEMPLO 19 B= 2, 4, 4, 5, 6, 7,7,8 EJEMPLO 20 B 1, 1, 2, 2, 3, 3 Sea
M o 2
unimodal
bimodal
No existe M o
CUANTILAS O FRACTILAS (a) CUARTILES: estadígrafo que divide la serie en cuatro partes iguales. Se tienen tres cuartiles Q1 , Q2 y Q 3. (b) DECILES: estadígrafo que divide la serie en 10 partes iguales. Se tienen 9 deciles D1 , D2 , D 3 ..... D9 . (c) PERCENTILES: estadígrafo que divide la serie en cien partes iguales. Se tienen noventa y nueve percentiles P1 , P2 , P3 ..... P99 . El uso de los percentiles sólo se justifica si existen muchos valores de la variable.
8
EJEMPLO 21 Sea A 7,7,8,9,10,12 ,15,22,22,24,25,25,26 n 13 3,25 3 supera a 3 datos Q1 9 4 4 n 13 supera a 6 datos Q 2 15 M e 6,5 6 2 2 3n 3 13 9,75 9 supera a 9 datos Q 3 24 4 4
(II) ESTADISTICOS DE DISPERSIÓN Consideremos los dos conjuntos de datos siguientes: A 4, 5, 5, 5, 6
B 1, 1, 1, 9, 9, 9
x A M eA 5
x B M eB 5
Los dos conjuntos tienen media aritmética y mediana igual a cinco, sin embargo, ellos son absolutamente diferentes. Mientras en A la mayoría de los datos tiene el valor cinco, en cambio en B los datos están alejados de este valor. Por lo tanto, se hace necesario encontrar una forma de expresar lo que ocurre en ambos casos. Para esto definimos un cierto tipo de estadígrafo que mide el grado de alejamiento o dispersión de los valores de las observaciones con respecto a un valor central, generalmente la media.
RANGO Es la diferencia entre el mayor y el menor valor de la variable.
Re X mayor X menor Es una medida de dispersión bastante imperfecta, aunque en determinadas ocasiones es una rápida y eficaz ayuda. El recorrido brinda una primera idea acerca de la heterogeneidad, pero tiene el inconveniente que sólo toma en cuenta los dos valores extremos, descuidando el conjunto de valores intermedios.
RECORRIDO RECORRIDO INTERCUART INTERCUART ÍLICO
R eQ Q3 Q1
RECORRI RECORRIDO DO RECORRI RECORRIDO DO
R eD D9 D1 R eP P99 P1
INTERD INTERDECI ECIL L INTERPE INTERPERCE RCE NTIL NTIL
DESVIACIÓN ESTANDAR (D.E.) Es la raíz cuadrada positiva del promedio de los cuadrados de las desviaciones de los valores de la variable con respecto a la media aritmética.
9
N
xi i 1
D.E . POBLACIONAL
x i 1
xi x i 1 n 1
N
n
2
N
n
D.E . MUESTRAL s
N
2
x i 1
2 i
k
2 i
2
xi ni i 1
n x n 1 n 1
xi2 ni i 1
xi x ni i 1 n 1
N
xi2 ni i 1
ni 6 11 6 7 9 11 50
xi ni 6 22 18 28 45 66 185
x i2 ni
6 44 54 112 225 396 837
Si los datos son de una población k
xi2 ni i 1
D.E . POBLACIONAL
N
2
837 185 1,746 50 50 2
Si los datos son de una muestra k
x D. E . MUESTRAL s
2 i
ni
i 1
n 1
n x
2
n 1
EJEMPLO 25 Estaturas, en metros, de 40 alumnos de un curso Z
10
837 49
50 185 / 50 49
2
n x n 1 n 1
EJEMPLO 23 x i 1 2 3 4 5 6
2
k
2
N
k
2
k
2
2
1,764
ESTATURAS 1,365 1,435 1,435 1,505 1,505 1,575 1,575 1,645 1,645 1,715 1,715 1,785 1,785 1,855
ni 2 3 4 12 10 5 4 40
x i 1,40 1,47 1,54 1,61 1,68 1,75 1,82
x i2 ni
3,92 6,4827 9,4864 31,1052 28,224 15,3125 13,2496 107,7804
Si los datos son de una población k
xi2 ni i 1
D.E . POBLACIONAL
N
2
Si los datos son de una muestra
107,7804 1,6382 0,10707 metros 40
k
D.E . MUESTRAL s
x i2 n i i 1
2
n x 107 ,7804 40 1,638 2 0,10844 metros n 1 n 1 39 39
VARIANZA Es el cuadrado de la desviación estándar. Observaciones: (1) La varianza es mayor o igual a cero. (2) La desviación estándar se expresa en las mismas unidades de la variable estudiada, mientras que la varianza se expresa en el cuadrado de la unidad de medida.
PROPIEDADES DE LA VARIANZA 1.- La varianza de una constante es cero. V ar K 0 2.- La varianza de una constante por una variable es la constante al cuadrado por la V ar KX K 2V ar X varianza de la variable. 3.- La varianza de una constante más o menos una variable es la varianza de la variable. V ar K X V ar X
V ar aX b a 2 V ar X
X es variable,
11
a y b son so n constantes
INFERENCIA ESTADÍSTICA (I) ESTIMACIÓN (a) ESTIMACIÓN PUNTUAL En la estimación puntual se usa un solo estadístico muestral.
1 2 x1 x 2
x
P p
P1 P2 p1 p 2 12
s12 2 2 2 s2
2 s 2
Un estimador es un procedimiento expresado a manera de regla o de fórmula por medio del cual se obtiene un valor numérico denominado estimación. n
xi Por ejemplo
x
i 1
representa el método por el cual se calcula una media
n
muestral es un estimador, pero el resultado numérico que se obtiene efectuando la operación indicada es una estimación.
(b) ESTIMACIÓN POR INTERVALOS Una estimación por intervalos consta de dos puntos, definidores de un intervalo, que, según nuestras estimaciones contienen el parámetro poblacional que nos interesa. Una estimación por intervalos recibe el nombre de Intervalo de Confianza (IC). INTERVALOS DE CONFIANZA PARA UNA MEDIA POBLACIONAL (A) Población distribuida Normal y varianza de la población conocida. X N , 2 2 conocida x z 0
x z 0
n
n
x z 0
n
= estimador = factor de confiabilidad = error típico del estimador
En términos generales un intervalo de confianza se puede expresar como 12
ESTIMADOR FACTOR DE CONFIABILI DAD DAD ERROR TÍPICO DEL DEL ESTIMADOR
Si N es conocido Se usa
N n = factor de corrección para población finita (c.p.f.) N 1 x z0
n
El c.p.f. se ignora si
EJEMPLO 26
N-n N -1
x z 0
n
N-n N -1
n 0,05 N
Un biólogo desea hacer una estimación, con un IC del 95%, de la cantidad promedio de agua que consume diariamente cierta especie animal en condiciones experimentales. El investigador supone que la población de valores de consumo diario de agua está normalmente distribuida y, con base en experiencias pasadas que la varianza de la población es de 4 gramos cuadrados. Una m.a. de 25 animales arrojó una media de 16,5 g. X cantidad de agua, en gramos, que consume diariament e cierta especie animal en condiciones e xperimentales. X N , 2 2 4 g 2 1 0,95 z 0 1,96 x 16,5 g n 25
x z 0
n
x z 0
n
Calcule los intervalos de confianza 4 25 15.716 17.284
16.5 1.96
16.5 1.96
4 25
El biólogo, puede afirmar con un nivel de confianza del 95% que la verdadera cantidad promedio de agua que consume diariamente la especie animal en condiciones experimentales está en algún punto comprendido entre 15,716 y 17,284 gramos.
13
(B) Población distribuida Normal y varianza de la población desconocida. X N , 2 2 desconocida N-n N-n s s x t 0 x t 0 N -1 n n N -1 n
xi2 i 1
2
n x s = varianza muestral n 1 n 1 Se usa la distribución t student con n 1 grados de libertad 2
EJEMPLO 27
Un psicólogo desea calcular el tiempo medio de respuesta de unos jóvenes a un determinado sonido, selecciona una m.a.s. de 25 universitarios para participar en el experimento. El tiempo medio de respuesta para la muestra es de 160 milisegundos con una desviación típica de 5 milisegundos. Suponiendo que el tiempo de respuesta de todos los individuos está normalmente distribuido. Construya el I de C del 99%.
X tiempo de respuesta, en milisegund os, de un joven jov en a un deter min ado sonido 2 desconocida X N , 2 1 0,99 t 0 2,7969 x 160 milisegund os s 5 milisegundos n 25 s s x t 0 x t 0 n n Calcule los intervalos de confianza:
5 25 157.2031 162.7969 160 2.7969
160 2.7969
5 25
El psicólogo puede afirmar con un 99% de confiabilidad, que el tiempo medio verdadero de respuesta para todos los individuos similares a los que se emplean en el experimento, está aproximadamente entre 157 y 163 milisegundos.
TAMAÑO DE MUESTRA para estimar la MEDIA de la población En cualquier investigación es de gran importancia que la muestra que se va a sacar sea de tamaño adecuado. Si se toma una muestra demasiado grande, se pierde dinero y otros recursos, por otra parte si la muestra es demasiado pequeña, produce resultados inútiles. Sabemos que un I de C se construye por medio de la fórmula general
14
ESTIMADOR FACTOR DE CONFIABILI DAD DAD ERROR TÍPICO DEL DEL ESTIMADOR
Si la población está normalmente distribuida, con varianza conocida. x z 0
n
x z 0
n
a la mitad de la amplitud del intervalo de confianza. n Si antes de sacar una muestra podemos especificar la amplitud del I. de C. que en último término quisiéramos construir, habremos determinado la magnitud deseada de
Observamos que
z 0
z 0
Al determinar amplitud deseada del I de C que buscamos, estamos n determinando qué tan cerca nos gustaría que estuviera nuestra estimación de la media verdadera
Si
d zo
n
z n o d
2
d mitad de la amplitud del intervalo de confianza deseado o qué tan cerca deseamos que se encuentre nuestra estimación de la media verdadera. z o valor de la tabla normal estandarizada correspondiente al nivel de confianza deseado desviación típica de la población de donde se va a sacar la muestra.
Si
2
es desconocido es necesario hacer una estimación de (i) muestra piloto. (1% del tamaño de la población) (ii) estudios previos
2
Si hay que sacar la muestra de una población finita
Si
N zo2 2 N n d zo n 2 2 zo d 2 N 1 n N 1
15
mediante
EJEMPLO 29 Un investigador a cuyo cargo está un departamento de educación física, desea hacer una estimación del consumo de oxígeno (en litros por minuto) de los estudiantes normales que estén entre los 17 y 21 años de edad, después de haber hecho un tipo especial de ejercicio. El investigador desea que su estimación se encuentre por lo menos a 0,1 litros de la media verdadera con un nivel de confianza del 95%. Los estudios que se han hecho indican que la varianza del consumo de oxígeno de éste tipo de sujetos, bajo las condiciones especificadas, es aproximadamente igual a 0,09 litros por minutos al cuadrado ¿qué tamaño debe tener la muestra que necesita éste investigador? X consumo de oxígeno (en litros por minuto) de estudiante normal que está entre los 17 y 21 años de edad, después de haber hecho un tipo especial de ejercicio. 0,09 0,3 d 0,10 1 - 0,95 z 1,96 Calcule el tamaño muestral
( ) ( )
El investigador necesita tomar una muestra de tamaño 35 por lo menos.
EJEMPLO 30 Un investigador de un colegio que tiene 2500 alumnos, desea hacer una estimación del tiempo promedio que gastan los estudiantes en el viaje entre el colegio y la casa. El investigador desea un intervalo de confianza del 99% y una estimación que esté comprendida entre un minuto y la media verdadera. Un pequeña muestra piloto dio una varianza de 25 minutos al cuadrado ¿qué tamaño debe tener la muestra que necesita el investigador?
X tiempo, en minutos que gasta un estudiante en el viaje entre el colegio y la casa.
d 1
2 25 s 2
1 - 0,99 z 2,575
N 2500
Calcule el tamaño muestral
Si
N zo2 2 N n d zo n 2 2 N 1 zo d 2 N 1 n
Una muestra de tamaño adecuado sería de por lo menos 156 estudiantes. 16
INTERVALO DE CONFIANZA PARA UNA PROPORCIÓN POBLACIONAL P
n 30
PQ N - n P z 0 N -1 n
P
PQ N - n P z 0 N -1 n
EJEMPLO 33 En un estudio sobre las razones que dan los alumnos suspendidos en el colegio, un investigador tomó una muestra de 200 estudiantes en una población de 1500 que habían sido suspendidos. De los 200 estudiantes suspendidos que fueron entrevistados, 140 manifestaron que habían fallado debido a dificultades económicas en su familia. El investigador quiere construir un intervalo de confianza del 95% para la verdadera proporción de jóvenes que habían fallado por esta razón. P proporción proporci ón de estudiantes suspendidos que han fallado por dificultad es económicas en su famili familiaa o X número de estudiantes suspendidos que han fallado por dificultad es económicas en su familia familia 140 n 200 Q q 0,3 0,7 0,13 0,05 se usa c.p.f. P p 200 N 1500
Calcule P
PQ N - n P z 0 N -1 n
P
PQ N - n P z 0 N -1 n
0,6408 P 0,7591 Tenemos un 95% de confianza de que este intervalo contenga a P, la verdadera proporción de estudiantes suspendidos que han fallado por dificultades económicas en su familia, puesto que, en un muestreo repetido, aproximadamente el 95% de los intervalos construidos de esta forma a partir de todas las muestras de tamaño 200 que se pueden sacar de la población de 1500 suspendidos incluirían a P.
17
(II) DOCIMASIA DE HIPÓTESIS Hipótesis se define como una afirmación o suposición que está sujeta a verificación o comprobación (no un hecho establecido). Por ejemplo: 1.- Un investigador puede proponer la hipótesis de que para enseñar biología el método A es superior al método B. 2.- Un fabricante de drogas puede plantear la hipótesis que un determinado medicamento es más efectivo que otro que se venía usando normalmente en el tratamiento de cierta enfermedad. Las hipótesis establecidas en esta forma proporcionan, con frecuencia, motivos para realizar una investigación, la que puede basarse en la experiencia y la observación, en la experimentación o en la intuición, y se denominan Hipótesis de Investigación. Generalmente hay que volver a plantear las hipótesis de investigación antes de verificarlas estadísticamente. Cuando ya se han planteado en forma conveniente de tal forma que se puedan comprobar, por medio de los métodos estadísticos, las hipótesis se llaman: Hipótesis Estadísticas. Las Hipótesis Estadísticas son afirmaciones sobre uno o más parámetros de una o más poblaciones. HIPÓTESIS HIPÓTE SIS NULA H 0 HIPÓTESIS HIPÓTE SIS ESTADÍSTIC AS HIPÓTE SIS ALTERNA ( HIPÓTESIS
H) 1
H 0 es la hipótesis que se debe comprobar, es una afirmación en la que se dice que no hay ninguna diferencia entre dos poblaciones, entre dos parámetros poblacionales o entre el valor verdadero de algún parámetro y su valor hipotético.
Para verificar una hipótesis examinamos los datos de la muestra tomada de la población pertinente y determinamos si son o no compatibles con la hipótesis nula. Si los datos de la muestra no son compatibles con H 0 Si los datos de la muestra son compatibles con H 0
H 0 se rechaza. H 0 no se rechaza.
Si H 0 no se rechaza, decimos que los datos particulares de la muestra no dan suficiente evidencia como para que concluyamos que H 0 es falsa. Si H 0 se rechaza, decimos que los datos particulares de la muestra sí dan suficiente evidencia como para hacernos concluir que la hipótesis nula es falsa y que la hipótesis alterna es verdadera.
18
Las hipótesis en los ejemplos anteriores serían: 1.-
H 0 : A B H 1 : A B El método A da un puntaje promedio mayor que el método B.
H 0 : P A P B H 1 : P A P B La proporción verdaderade casosque respondenfavorablemente a la nueva droga es mayor que la proporción que respondefavorablemente a la droga usual.
2.-
PROCEDIMIENTO (1) Planteamiento de las hipótesis Generalmente queremos obtener una conclusión rechazando H 0 , es decir preferimos que los datos de nuestra muestra apoyen a H 1 . En consecuencia, al determinar lo que debe ser la hipótesis alterna, debemos preguntarnos ¿qué deseo concluir? o ¿qué creo que es verdadero? La respuesta a estas preguntas constituye la expresión de H 1 . El planteamiento complementario de H 1 sirve de H 0 . (2) Selección del nivel de significación De los resultados que se obtienen en el análisis de los datos de la muestra, rechazamos o no la hipótesis nula. DECISIÓN ESTADÍSTICA Rechazo de H 0 No rechazo de H 0
CERTEZA
DE
H 0
Verdadera
Falsa
Error Tipo I Decisión Correcta
Decisión correcta Error Tipo II
Pcometer Error Tipo I PRe chazo de H 0 / H 0 es verdadero
Pcometer Error Tipo II P Aceptación de H 0 / H 0 es
falsa
Para la verificación de una hipótesis determinada preferiríamos que alfa y beta fueran pequeños. En virtud de la relación entre estas dos probabilidades, encontramos que, para un tamaño de muestra dado, una disminución de aumento de y viceversa. Siendo esto así, parece prudente que, en una situación determinada, tratemos de minimizar la probabilidad de cometer el error más serio. Desafortunadamente en muchas áreas de investigación, es difícil o imposible evaluar los dos tipos de error en cuanto a la 19
seriedad de cada uno de ellos. Entonces lo que se hace es seleccionar algún valor pequeño para digamos 0,05 ó 0,01 , el que se denomina nivel de significación. Cuando se escoge un nivel de significación igual a y se rechaza H 0 decimos que los resultados de la muestra son significativos. (3) Descripción de la poblacional que interesa y planteamiento de las suposiciones necesarias. Los procedimientos para la verificación de hipótesis dependen de las características de la distribución muestral (que está implícita) las que dependen en parte de la naturaleza de la población muestreada. Por esta razón, debemos investigar la naturaleza de la población muestreada para justificar la selección del procedimiento. Generalmente nos interesamos en conocer el tamaño aproximado de la población y en saber si se puede considerar distribuida aproximadamente normal. También deseamos establecer el hecho de que sea razonable suponer que la muestra tomada constituye una m.a.s. de la población de interés. (4) Especificación del estadístico de prueba y consideración de su distribución Un estadístico de prueba es una cantidad numérica que se calcula a partir de los datos de una muestra y que se utiliza para tomar la decisión de rechazar o no una hipótesis nula. (5) Especificaciones de las regiones de rechazo y aceptación Región de rechazo: consta de todos aquellos valores del estadístico de prueba que son de tal magnitud que, de ser el valor observado del estadístico de prueba igual a uno de ellos, la hipótesis nula se rechaza. Región de aceptación: es el complemento de la región de rechazo. Los tamaños de las regiones de rechazo y de aceptación están determinados por alfa. Por ejemplo Con el propósito de verificar una hipótesis sobre una media poblacional, se extrae una muestra de una población normalmente distribuida con varianza conocida.
20
Un valor calculado de zeta es significativo si nos lleva a rechazar una hipótesis nula. Llamamos valores críticos de un estadístico de prueba a aquellos valores que separan una región de rechazo de una región de aceptación.
21
Un valor " p" es el valor más pequeño de con el que se puede rechazar la hipótesis nula. (6) Recolección de datos y cálculo de los estadísticos necesarios Los datos que se necesitan para verificar las hipótesis formuladas y que satisfacen las suposiciones necesarias de la prueba, se deben recolectar en una forma adecuada. Una vez que se han recogido, se calcula el estadístico apropiado y el estadístico de prueba. (7) Decisión estadística Se compara el valor real calculado del estadístico de prueba con el valor crítico de éste. Si el valor calculado está en la región de rechazo, entonces se rechaza H 0 ; de lo contrario, no se rechaza. (8) Conclusión La decisión se expresa en función del estadístico de prueba, y la conclusión, en función del parámetro o la población a que se refiere la prueba.
EJEMPLO 39 En una reunión informativa, el gerente de un hotel “Concepción”, indicó que el número
promedio de habitaciones arrendadas por noche es mayor que 212. Uno de los funcionarios considera que esta cifra puede estar algo sobreestimada. Una muestra de 150 noches produce una media de 222,7 habitaciones y una desviación estándar de 45,5 habitaciones. Si estos resultados sugieren que el gerente ha “inflado” su información, será amonestado
severamente. ¿Cuál es el destino del gerente? (1) Planteamiento de la hipótesis H 0 : 212 H 1 : 212
(2) Selección del nivel de significación
0,05
(3) Descripción de la poblacional que interesa y planteamiento de las suposiciones necesarias
X número de habitaciones arrendadas por noche X ?
pero
n 150 30
(4) Especificación del estadístico de prueba y consideración de su distribución
22
Z c
x 0
N 0,1
n (5) Especificaciones de las regiones de rechazo y aceptación
RC z / z 1,645 RC REGIÓ REGIÓN N CRÍTICA O REGIÓN DRECHAZO (6) Recolección de datos y cálculo de los estadísticos necesarios
Z c
x 0
n
222 ,7 212 2,88 45,5 150
(7) Decisión estadística
Z c 2,88 RC RECHAZ RECHAZAMO AMOSS
H 0
(8) Conclusión El número promedio de habitaciones arrendadas por noche es mayor que 212 con p 0,002 Parece que el gerente no se ha excedido al estimar su tasa de ocupación y aparentemente no recibirá una reprimenda.
23
EJEMPLO 40 Un especialista en lectura cree que los estudiantes de clases no programadas obtienen puntajes superiores en pruebas de comprensión de lectura que los estudiantes de clases programadas. El puntaje medio obtenido en la prueba de comprensión de lectura por los estudiantes de clases programadas que entraron a cuarto año durante los 5 años anteriores fue de 4,25; un grupo de 81 estudiantes que asistió a clases no programadas durante sus 3 primeros años, obtuvo un puntaje en la prueba de comprensión de lectura de 5,30; con una desviación típica de 1,8. ¿ Proporcionan estos datos evidencia suficiente como para apoyar la hipótesis del especialista en lectura? ------------------- X puntaje de prueba de comprensión de lectura de estudiante de clase no programada H 0 : 4,25 H 1 : 4,25 0,05
X ?
pero
n 81 30
Calcule valor Z
̅ √ √
RC z / z 1,645
Z c 5,25 RC RECHAZ RECHAZAMO AMOSS
H 0
El puntaje promedio obtenido por los estudiantes de clases no programadas es mayor que 4,25 con p aproximadamente 0. Por lo tanto estos datos apoyan al especialista.
24
EJEMPLO 42 Una muestra aleatoria de 225 habitantes de departamentos reveló que 18 de ellos poseían perros. ¿Proporcionan estos datos evidencia suficiente como para concluir que menos del 10% de los habitantes de departamentos poseen perros? ------------------- X número de habitantes de departamentos que poseen perros. O P proporción de habitantes de departamentos que poseen perros. H 0 : P 0,10 H 1 : P 0,10 0,05
n 225 30
RC z / z 1,645
Calcule Z
1
Z c RC NO RECHAZAMOS
H 0
Los datos de la muestra no dan suficiente evidencia como para concluir que menos del 10% de los habitantes de departamentos poseen perros.
ALGUNOS USOS DEL CHI-CUADRADO 25
Con alguna frecuencia deseamos verificar la hipótesis nula de que: (a) los datos observados de una muestra son el resultado del hecho de que dos características de una población no tienen relación entre sí. Por ejemplo podemos plantear la hipótesis de que la actitud de las personas hacia un determinado grupo no tiene relación con su nivel de educación. (b) En varias poblaciones, la proporción de sujetos que tienen una determinada característica, es la misma. Por ejemplo podemos plantear la hipótesis de que en tres grupos, digamos de recursos económicos bajos, medios y altos, la proporción de personas con cierto conocimiento, es la misma. El análisis se basa en conteos o frecuencias y no medidas. Se definen categorías mutuamente excluyentes y se registran frecuencias observadas con los elementos se pueden incluir en estas categorías. Luego se comparan estas frecuencias observadas con las frecuencias que se esperarían si fueran en realidad verdaderas las condiciones hipotéticas Si la diferencia entre las frecuencias observadas y las esperadas es demasiado grande para atribuirlas a la casualidad cuando H 0 es verdadera, rechazamos H 0 de que la condición particular de interés es verdadera. Estudiaremos dos tipos de pruebas chi-cuadrado: I) 2 de Independencia II) 2 de Homogeneidad
I)
PRUEBA 2 DE INDEPENDENCIA
Un investigador puede estar interesado en saber, respecto de UNA POBLACIÓN, si dos criterios de clasificación están probablemente relacionados o no. Si concluimos que dos criterios de clasificación no están relacionados, decimos que son independientes. Dos criterios de clasificación son independientes si la distribución de un criterio no depende de la distribución del otro. H 0 : Los dos criterios de clasificación son independientes. H 1 : Los dos criterios de clasificación no son independientes.
1°) Se extrae una m.a. de sujetos de la población de interés y se escoge a cada sujeto de acuerdo con cada uno de los dos criterios de clasificación. (podemos denominar las diferentes categorías en que se divide un criterio como niveles de ese criterio) 2°) Los datos de la muestra se distribuyen en una tabla denominada Tabla de Contingencia, en la cual los niveles de un criterio de clasificación forman las filas y los niveles del otro criterio, las columnas. Las celdas que se encuentran en las intersecciones de las filas y las columnas contienen conteos o frecuencias de sujetos que se han clasificado en forma cruzada con base en los dos criterios.
26
PRIMER CRITERIO NIVELES 1 2 3 .
SEGUNDO CRITERIO NIVELES 2 3 . . .j . . . n12 n13 ... n1 j … n 22 n 23
1 n11 n21
n2c n31 n 3c
n32
n33
TOTAL c n1c … n2 j … … n3 j …
i. . F
TOTAL
n1 . n 2. n 3.
n i. n i1
ni 2
ni 3
… n ij …
n ic
n f 1
n f 2
n f 3
… n fj …
n fc
n .1
n .2
n .3
… n. j …
n.c
n f .
n
3°) Se calculan las frecuencias esperadas para cada una de las celdas de la tabla de contingencia suponiendo que H 0 es verdadera, es decir que los dos criterios de clasificación son independientes. f c O E 2 ij ij 4°) Comparamos c2 para su significación, con los valores * E i 1 j 1 ij tabulados de 2 . Oij frecuenci frecuenciaa observada
E ij frecuenci frecuenciaa esperada
Si c2 2 Re chazamo H 0
para los grados de libertad apropiado y el nivel escogido de significación Para encontrar la frecuencia esperada de una celda determinada, dividimos el producto de los totales marginales correspondientes por n E 11
n1. n.1
E ij
......
n grados de libertad f 1 c 1
ni. n. j n
Frecuencias esperadas pequeñas A veces descubrimos que las frecuencias esperadas de algunas de las celdas de una tabla de contingencia son muy pequeñas. Cuando esto sucede la distribución distribució n 2 puede no proporcionar una buena aproximación de la distribución. Aunque no hay un consenso general sobre lo que constituye una frecuencia esperada pequeña algunos autores
27
recomiendan que para tablas de contingencia con más de un grado de libertad se puede permitir una expectativa mínima de una observación por celda, si no más del 20% de las celdas tienen frecuencias esperadas menores que 5. Se pueden combinar celdas adyacentes para lograr una expectativa mínima. Tabla de contingencia de 2 2 Primer criterio de clasificación Segundo criterio de clasificación 1 2 1 a b a+b 2 c d c+d a+c b+d grados de libertad 2 1 2 1 1 nad bc2 2 c a bc d a c b d
II)
PRUEBA 2 DE HOMOGENEIDAD
Podemos verificar H 0 de que dos proporciones poblacionales son iguales por medio de la prueba chi- cuadrado de Homogeneidad. Se pueden disponer los datos en una tabla de contingencia de 2 2 utilizando las dos poblaciones como un criterio de clasificación y la característica de interés como el otro, siendo la presencia y la ausencia del criterio los dos niveles de clasificación. Calculamos el estadístico de prueba c2 a partir de los datos con la ecuación * y lo comparamos para su significación, con el valor de 2 tabulado con un grado de libertad. Observe que la hipótesis nula de que dos proporciones poblacionales sean iguales, que H 0 : P1 P2 escribimos en símbolos como puede expresarse en palabras así: “Las dos poblaciones son homogéneas respecto de la característica de interés”
Podemos establecer las hipótesis nula y alterna simbólicamente, de la siguiente manera: H 0 : P1 P2 H 1 : P1 P2 Es posible ampliar la prueba chi- cuadrado de homogeneidad para verificar hipótesis acerca de más de dos poblaciones. Es decir podemos verificar H 0 : P1 P2 P3 ..... Pc donde c es el número de poblaciones que se están considerando. Sacamos una m.a. de cada población y observamos en cada muestra el número de sujetos con la característica de interés.
28
EJEMPLO 48 Se desea saber si existe una asociación entre los factores género y color de cabello y se considera una m.a. de 100 personas (50 hombres y 50 mujeres) y se observa en cada caso si el individuo es rubio o moreno. GENERO
COLOR DE CABELLO RUBIO CASTAÑO MASCULINO 20(22) 30(28) 50 FEMENINO 24(22) 26(28) 50 44 56 100 H 0 : Color de cabello es independiente (o no es dependiente) del género. H 1 : Color de ca bello no es independiente del género. O11 20
E11
O21 24
E 21
c2
20 222 22
5044 100
5044 100
30 282 28
22
O12 30
22
O22 26
24 22 2 22
26 282 28
E12
5056
E 22
100
28
5056 100
28
0,64935
grados de libertad 2 1 2 1 1 RC 2 / 2 3,84 con 0,05 c2 RC
0,649 no es significativo al nivel 0,05
no podem pode mos rechazar H 0
Por lo tanto no hemos demostrado que las frecuencias observadas y aquellas calculadas basadas en una hipótesis de “no hay relación”son significativamente distintas.
Conclusión: Color de cabello no está asociado al género. En otras palabras los dos factores parecen ser independientes.
ANALISIS DE REGRESION LINEAL Y DE CORRELACION SIMPLE A menudo se presentan situaciones en que es de gran interés estudiar la relación entre dos variables, por ejemplo un profesor puede estar interesado en conocer de que manera se puede predecir el rendimiento en Biología de un estudiante con base en el puntaje obtenido en una prueba de conocimiento específica en Biología. Relaciones de esta naturaleza se pueden investigar por medio del análisis de regresión o análisis de correlación. El análisis de regresión se refiere a la naturaleza de las relaciones entre las variables y el análisis de correlación tiene que ver con la fuerza o intensidad de las relaciones.
29
Los conceptos de regresión y correlación fueron presentados por el científico inglés Sir Francis Galton (1822-1911) cuando hacía sus investigaciones sobre la herencia y otras áreas de la biología. Cuando las investigaciones de las relaciones está limitada solamente a dos variables, denominamos esos métodos analíticos como análisis de regresión y correlación simple. Si consideramos más de dos variables, denominamos entonces a las técnicas analíticas como análisis de regresión y correlación múltiple.
Modelo de regresión lineal simple
Simbolizamos las variables por las letras X e Y. X = variable independiente(en muchas situaciones puede ser controlada por el investigador) Por ejemplo el investigador puede seleccionar sólo ciertos valores de X para utilizarlos en el análisis. Y = variable dependiente Uno de los usos del análisis de regresión es construir un instrumento llamado ecuación de predicción, que nos permite predecir que valor asume probablemente Y cuando X toma un valor determinado. Por esta razón a veces llamamos a X variable de predicción y a Y variable repuesta. El estudio de la relación entre dos variables debe iniciarse con la construcción de un gráfico, denominado diagrama de dispersión que presenta la naturaleza de la relación. Se asignan los valores de la variable independiente al eje horizontal y los valores de la variable dependiente al eje vertical. La gráfica consta de puntos colocados en las intersecciones de líneas imaginarias que se extienden verticalmente desde cada valor de X y horizontalmente desde los valores correspondientes de Y. Los diagramas de dispersión son extremadamente útiles en el estudio de la relación entre dos variables. Modelo de Regresión Lineal Simple yi 0 1 xi i yi valor general de la var iable de respuesta Y 0 y 1 parámetros parámetros de la población 0 cons tan te de regresión 1 coeficient e de regresión xi cons tan te conocida o valor i general de la var iable independient e X i tér min o aleatorio de error i 1, n n número de valores A este modelo lo llamamos modelo de regresión lineal, puesto que la variable independiente está elevada a la primera potencia. Suposiciones 1.- La variable X puede ser una variable no aleatoria o una variable aleatoria. 2.- La variable Y es una v.a. y para cada valor de X hay una subpoblación de Y. 3.- Las medias de estas subpoblaciones están ubicadas todas en la misma línea recta. 4.- Los valores de Y correspondientes a un valor dado de X se escogen independientemente de aquellos valores de Y correspondientes a otro valor de Y. 5.- La variable X se mide sin error.
30
Estas cinco suposiciones son las mínimas del modelo. Cuando se hacen son válidos ciertos análisis descriptivos de los datos. En el análisis de regresión lineal simple se emplean métodos inferenciales válidos solamente cuando se pueden sostener las siguientes suposiciones adicionales 6.- Las subpoblaciones de los valores Y están normalmente distribuidas. 7.- Las subpoblaciones de los valores Y tienen todas la misma varianza. Las suposiciones que apoyan el modelo de regresión lineal simple pueden parecer un poco irreales. Pero afortunadamente existen muchas situaciones prácticas en las que el modelo yi 0 1 xi i y las suposiciones que lo apoyan se ajustan a los datos lo suficientemente bien como para producir resultados útiles. ¿Qué tanto se ajusta el modelo a una situación real?, es una decisión que el investigador debe tomar principalmente con base en el conocimiento que tenga de los datos y de los procesos por los cuales se generan. Si el modelo que se considera no es una representación razonable de la realidad, el investigador puede tener en cuenta otros modelos. En la mayoría de las situaciones, la verdadera línea de regresión poblacional es desconocida, sin embargo, se puede obtener una estimación de la línea a partir de los datos de la muestra y llegar a decisiones sobre la utilidad siempre que se hagan las suposiciones establecidas. La línea debe representar los datos de la muestra tanto como sea posible. Un método que generalmente se emplea es el de los Mínimos Cuadrados “la suma de las distancias verticales al cuadrado de los puntos del diagrama de dispersión respecto de la línea de mínimos cuadrados es menor que cualquier otra suma similar calculada en relación con una línea diferente”.
El método de mínimos cuadrados proporciona estimaciones de los parámetros poblacionales Ecuación de Regresión Lineal Simple Muestral yc b0 b1 x yc valor calculado de Y por sustitución de a lg ún valor de X en la ecuación eje Y b0 int ercepto de Y punto en el cual la línea cruza el eje b1 pendiente de la línea cantidad en que var ía yc cuando X var ía en una unidad xi yi x y x x yi y i i n 1 b1 donde b1 i 2 xi 2 xi x 2 xi n 1 0 b0 donde b0 yi b1 xi y b1 x n Uno de los principales objetivos del análisis de regresión consiste en obtener una ecuación que nos permita predecir el valor que probablemente toma Y dado un valor particular de X. La ecuación de mínimos cuadrados es una de las que se emplea con este propósito. Antes de utilizar la ecuación de regresión para la predicción desearíamos saber que tan útil podemos esperar que sea esta ecuación en el logro de estos objetivos. En otras palabras deseamos saber con que exactitud va a predecir la ecuación de Y para un valor particular de X.
31
La evaluación de la ecuación de regresión muestral nos permite determinar si la medida de dispersión de los valores Y respecto de la línea de los mínimos cuadrados está suficientemente cerca de cero como para garantizar su uso al predecir el valor probable de Y correspondiente a un valor dado de X. Para determinar qué proporción de la suma total de cuadrados está explicada por la regresión de Y respecto de X, calculamos una medida conocida como
Coeficiente de Determinación = razón entre la suma de cuadrados debida a la regresión y la suma total de cuadrados.
SCR yc y r SCT yi y 2
2
2
0 r 2 1
x y b1 xi yi i i n
y
2 i
yi 2 n
2
x y xi yi i i n 2 2 x y i i x 2 y 2 i i n n
r 2 0 No hay relación lineal entre X e Y. r 2 1 X e Y están perfectamente relacionados linealmente.
Podemos interpretar a como medida de la fuerza de la relación lineal entre los r 2 valores muestrales observados de X e Y. Sin embargo, nuestro interés primordial está en la verdadera relación entre X e Y que existe en la población. Por lo tanto, nos preguntamos si los datos de la muestra proporcionan evidencia suficiente para indicar la existencia de una relación lineal entre X e Y en la población. H 0 : X e Y no están relacionad as linealment e H 1 : X e Y están relacionad as linealment e
ANOVA F.deV. g.l. SC CM F c Regresión 1 SCR CMR CMR/CME Error n-2 SCE CME Total n-1 SCT
32
EJEMPLO 46 Un equipo de investigadores de un hospital psiquiátrico realizó un experimento para estudiar la relación que existe en pacientes esquizofrénico entre el tiempo de reacción a un estímulo particular y el nivel de la dosis de una droga. Los investigadores hicieron el experimento con dosis de 0,5; 1,0; 1,5; 2,0; 2,5 y 3,0 mg. Seleccionaron una m.a. de 18 pacientes en una población hospitalaria de esquizofrénico y asignaron al azar a cada paciente una de las dosis. Cada dosis fue administrada a un total de 3 pacientes. X = dosificación en mg Y = tiempo de reacción en milisegundo. La dosificación es una variable fija, puesto que los investigadores seleccionaron, anticipadamente su valor específico. La unidad de asociación es el paciente esquizofrénico y la muestra consiste en 18 unidades de asociación. X 0,5 0,5 0,5 1,0 1,0 1,0 1,0 1,5 1,5 1,5 2,0 2,0 2,0 2,0 2,5 2,5 2,5 2,5 3,0 3,0 3,0 Y 12 22 30 18 32 36 30 34 46 40 44 50 44 60 64 64 68 76
xi 31,5
yi 770
xi2 68,25
yi2 38508
xi yi 1595
Calcule b1
xi yi 1595 (31.5)(770) x y i i 247.5 n 18 b1 18.8571 2 2 13 . 125 ( 31 . 5 ) xi 68.25 xi2 n 18 b0 y b1 x 42,7778 18,8571 1,75 9,7779 yc b0 b1 x 9,7779 18,8571x
Ecuación de Regresión Lineal Simple Muestral
Calcule el valor de R2
xi yi b1 xi yi n
(31.5)(770 770 ) 4667 .13 18 SCR 0.838 838 r 2 2 2 5569 . 11 ( 770 77 0 ) SCT yi 2 38508 y i 18 n El 84 % de la variabilidad total presente en nuestros datos, se explica por la regresión.
18.8571 1595
H 0 : Dosificaci Dosificaci ón y Tiempo de Re acción no están relacionad as linealment e H 1 : Dosif Dosificaci icaci ón y Tiempo de Re acción están relacionad as linealment e F.deV. g.l. SC CM F c Regresión 1 4667,13 4667,13 82,79 Error 16 901,98 56,37 Total 17 5569,11
33
RC F / F 10,58 0,005 F c 82,79 RC Re chazo H 0 El tiempo de reacción y el nivel de dosificación están relacionados linealmente. Por lo tanto podremos utilizar, con seguridad, nuestra ecuación de regresión muestral para predecir el valor que Y probablemente tomará para un valor dado de X.
Modelo Bivariante Con alguna frecuencia el interés que hay en la relación entre dos variables X e Y se concentra en determinar si están o no relacionadas y en caso afirmativo en averiguar que tan fuerte es la relación. El investigador puede estar o no interesado en la predicción y en la estimación. La técnica apropiada que se emplea en esta situación es el análisis de correlación. En contraste con el análisis de regresión, el análisis de correlación requiere que X e Y sean v.a. Recordemos que en el análisis de regresión X puede ser aleatoria o fija. En la situación usual en que se emplea el análisis de correlación, el investigador toma una m.a. de unidades de asociación de la población de interés y hace dos mediciones asociaciones, una de X y una de Y, en cada unidad de asociación de la muestra. El investigador toma cualquier valor de X ( y también de Y) que esté en la muestra. No se hace ningún intento de limitar el análisis para los valores preseleccionados de X, como puede suceder con el análisis de regresión. Una población de valores X e Y en la que ambas son variables aleatorias, se denomina distribución bivariante. Modelo de correlación Vamos ahora a considerar un modelo de distribución bivariante. Como ciertas técnicas de correlación resultan apropiadas en el análisis de los datos de acuerdo con este modelo lo denominaremos modelo de correlación. Más específicamente lo podemos denominar modelo de correlación lineal simple puesto que participan dos variables que están relacionadas de manera lineal. No distinguimos las variables X e Y según sea una independiente y la otra dependiente. En realidad bajo el modelo de correlación podemos intercambiar las posiciones de Y y de X en yi 0 1 xi i la ecuación Suposiciones 1.- La distribución conjunta de X e Y es normal, llamada Normal Bivariante. 2.- Para cada valor de X hay una subpoblación de valores de Y normalmente distribuida. 3.- Las subpoblaciones de valores de Y tienen todas la misma varianza. 4.- Las medias de las subpoblaciones de Y están todas colocadas en la misma línea recta. 5.- Para cada valor de Y hay una subpoblación de valores de X que está normalmente distribuida. 6.- Las subpoblaciones de valores de X tienen todas las mismas varianza. 7.- Las medias de las subpoblaciones de valores X se encuentran todas en la misma línea recta El coeficiente de correlación es el parámetro que presenta el interés primordial en la correlación. Este parámetro es una medida de la correlación o relación lineal entre dos
34
variables que existe en una población bivariante. Puede asumir valores entre menos 1 y uno. Si es menos -1 la relación entre dos variable es perfectamente lineal e inversa. Si es 1 la relación es perfectamente lineal y directa. Si es 0 las dos variables no están correlacionadas. El coeficiente de correlación entre dos variables X e Y tendrá siempre el mismo signo que la pendiente de la ecuación de regresión de Y sobre X. Con base en estos hechos, debemos suponer que mientras más cerca esté el valor numérico del coeficiente de correlación a +1 o – 1, 1, más estrecha será la relación entre X e Y. Entonces, la magnitud de nos da una indicación de la fuerza que tiene la relación entre las dos variables. Rara vez conocemos . Sin embargo podemos estimar a a partir de los datos de una
r
muestra aleatoria de la población de interés. r
xi x yi y 2 2 xi x yi y
n xi yi xi yi n xi2 xi
2
xi yi xi yi r
n
n
x xi n n 2 i
2
2
n
y yi n n 2 i
n yi2 yi
2
XY
X Y
EJEMPLO 47 En un estudio preparado para investigar la relación que existe entre la creatividad y otras variables, un equipo de sicólogos administró a una muestra aleatoria de 20 estudiantes una prueba para medir el nivel de creatividad. Los investigadores solicitaron a cada estudiante que memorizaran un poema corto. La tabla muestra los puntajes obtenidos por los estudiantes en la prueba de creatividad y los puntajes que indican su habilidad en la memorización del poema. X puntaje de memorización Y puntaje de creatividad
X 13 85 27 69 76 30 39 32 13 58 84 27 56 49 88 79 51 37 24 59 Y 11 96 15 88 92 34 44 67 37 38 78 27 71 75 89 60 41 28 56 54
xi 996
yi 1101
xi2 60972
Calcule r
35
yi2 73681
xi yi 64498
xi yi xi yi r
n
xi
2
n
x i n
n
2
n
yi
2
n
y i n
2
√ √ √ La creatividad y la capacidad de memorización están correlacionadas.
36