ESTADISTICA EXPERIMENTAL PARA LA TOMA DE DECISIONES ANEXO APUNTES DE CLASE Maestría en Ingeniería Industrial PUCP Eduardo Carbajal López
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
INDICE INDICE ................................................................ ................................ ................................................................ ................................................... ................... 2 CONCEPTOS BÁSICOS DE ESTADÍSTICA .................................................................. .................................... .............................. 4 INTRODUCCIÓN............................................. ................................................................... ............................................ ............................................. .............................................. .........................4 ..4 DEFINICIONES............................................ .................................................................. ............................................ ............................................ ............................................. .............................4 ......4 ESTIMACIÓN PUNTUAL Y POR INTERVALOS ............................................ ................................................................... ............................................. ....................................6 ..............6
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ............................................ 7 MEDIDAS DE TENDENCIA CENTRAL CENTRAL .......................................... ................................................................ ............................................ ........................................7 ..................7 MEDIDAS DE DISPERSIÒ DISPERSIÒN N ............................................. ................................................................... ............................................ ............................................. .............................9 ......9
ALGUNAS DISTRIBUCIONES DE PROBABILIDAD .................................. . .................................................. ................. 13 REVISIÓN DE VARIABLES ALEATORIAS ........................................... ................................................................. ............................................ .......................................... ....................13 DISTRIBUCIÓN TRIANGULAR ............................................ .................................................................. ............................................ ............................................ ............................... .........14 DISTRIBUCIÓN UNIFORME (RECTANGULAR ) .......................................... ................................................................. ............................................. .................................. ............16 DISTRIBUCIÓN NORMAL ............................................ ................................................................... ............................................. ............................................ .................................. ............17 DISTRIBUCIÓN DE POISSON POISSON ............................................. .................................................................... ............................................. ............................................. .......................21 OTRAS DISTRIBUCI DISTRIBUCIONES ONES........................................... ................................................................. ............................................ ............................................ ............................... .........21 EJERCICIOS PROPUESTOS PROPUESTOS.......................................... ................................................................ ............................................ ............................................. ............................... ........24
INTERVALOS DE CONFIANZA ......................................................... ........................ ....................................................... ...................... 25 INTERVALO DE CONFIANZA PARA LA MEDIA ........................................... .................................................................. ............................................. .................................. ............25 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS .......................................... ................................................................. ............................... ........28
Página | 2
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
INDICE INDICE ................................................................ ................................ ................................................................ ................................................... ................... 2 CONCEPTOS BÁSICOS DE ESTADÍSTICA .................................................................. .................................... .............................. 4 INTRODUCCIÓN............................................. ................................................................... ............................................ ............................................. .............................................. .........................4 ..4 DEFINICIONES............................................ .................................................................. ............................................ ............................................ ............................................. .............................4 ......4 ESTIMACIÓN PUNTUAL Y POR INTERVALOS ............................................ ................................................................... ............................................. ....................................6 ..............6
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN ............................................ 7 MEDIDAS DE TENDENCIA CENTRAL CENTRAL .......................................... ................................................................ ............................................ ........................................7 ..................7 MEDIDAS DE DISPERSIÒ DISPERSIÒN N ............................................. ................................................................... ............................................ ............................................. .............................9 ......9
ALGUNAS DISTRIBUCIONES DE PROBABILIDAD .................................. . .................................................. ................. 13 REVISIÓN DE VARIABLES ALEATORIAS ........................................... ................................................................. ............................................ .......................................... ....................13 DISTRIBUCIÓN TRIANGULAR ............................................ .................................................................. ............................................ ............................................ ............................... .........14 DISTRIBUCIÓN UNIFORME (RECTANGULAR ) .......................................... ................................................................. ............................................. .................................. ............16 DISTRIBUCIÓN NORMAL ............................................ ................................................................... ............................................. ............................................ .................................. ............17 DISTRIBUCIÓN DE POISSON POISSON ............................................. .................................................................... ............................................. ............................................. .......................21 OTRAS DISTRIBUCI DISTRIBUCIONES ONES........................................... ................................................................. ............................................ ............................................ ............................... .........21 EJERCICIOS PROPUESTOS PROPUESTOS.......................................... ................................................................ ............................................ ............................................. ............................... ........24
INTERVALOS DE CONFIANZA ......................................................... ........................ ....................................................... ...................... 25 INTERVALO DE CONFIANZA PARA LA MEDIA ........................................... .................................................................. ............................................. .................................. ............25 INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS .......................................... ................................................................. ............................... ........28
Página | 2
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
PRUEBA DE HIPÓTESIS.............................................................. .............................. ........................................................... ........................... 31 TIPOS DE ERRORES ............................................. ................................................................... ............................................ ............................................ .......................................... ....................31 HIPÓTESIS UNILATERALES Y BILATERALES. .......................................... ................................................................ ............................................ ...................................... ................32 PROCEDIMIENTO GENERAL ............................................. ................................................................... ............................................ ............................................ ............................... .........33 HIPÓTESIS REFERENTE A UNA MEDIA ............................................ .................................................................. ............................................ .......................................... ....................36 HIPÓTESIS REFERENTE A DOS MEDIAS Y DOS VARIANZAS. ......................................... ............................................................... .......................................... ....................38 EJERCICIOS PROPUESTOS PROPUESTOS.......................................... ................................................................ ............................................ ............................................. ............................... ........41
ANÁLISIS DE VARIANZA ................................................................. ................................ ....................................................... ...................... 42 EXPERIMENTOS CON UN SOLO FACTOR .......................................... ................................................................ ............................................ .......................................... ....................42 DISEÑO CON BLOQUES ALEATORIZADOS ............................................ .................................................................. ............................................ ...................................... ................46 EXPERIMENTOS DE DOS FACTORES ........................................... .................................................................. ............................................. ............................................. .......................50 EJERCICIOS PROPUESTOS PROPUESTOS.......................................... ................................................................ ............................................ ............................................. ............................... ........54
ANÁLISIS DE REGRESIÓN ............................................... .............. ................................................................. ...................................... ...... 55 REGRESIÓN LINEAL SIMPLE.............................................. ................................................................... ............................................ ............................................ ............................... .........55 REGRESIÓN LINEAL MÚLTIPLE .......................................... ................................................................ ............................................ ............................................. ............................... ........58 EVALUACIÓN DE LA REGRESIÓN LINEAL.......................................... ............................................................... ............................................ .......................................... ....................59 EJERCICIOS PROPUESTOS PROPUESTOS.......................................... ................................................................ ............................................ ............................................. ............................... ........64
Página | 3
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
ESTADISTICA EXPERIMENTAL PARA LA TOMA DE DECISIONES.
CONCEPTOS BÁSICOS DE ESTADÍSTICA INTRODUCCIÓN El entorno en el que se desarrolla nuestra actividad profesional es cada vez más complejo y dinámico; los clientes siempre demandan mejores productos y es posible satisfacerlos porque la tecnología, transporte y comunicaciones se han desarrollado grandemente.
No sólo se trata de sobrevivir en el mercado como empresa o como persona en el puesto de trabajo, sino se trata de tener el ratio de mejora más creciente, el ratio de mejora de mayor pendiente.
El asunto es ¿cómo mejorar?. Este es un tema muy tratado, pero con un enfoque no adecuado. Son los métodos de mejora planteados desde los conceptos de calidad los que mejores resultados han obtenido en cuanto a los beneficios logrados después de la mejora, y todos ellos se basan en conceptos estadísticos. Es difícil explicar que en una organización todos deben tener conocimientos de estadística, quizás se pueda convertir hasta en una frustración, pero es necesarios que así sea.
Lógicamente no todos deben saber de diseño de experimentos o de análisis de regresión logística; de lo que se trata es que todos tengan “el pensamiento estadístico”, es decir, conocimientos de
herramientas estadísticas adecuadas para el trabajo y las decisiones que van a tomar.
DEFINICIONES Estadística: Es una ciencia que proporciona métodos, técnicas, procedimientos, para: recopilar, organizar, presentar, analizar datos con el fin de describirlos o de realizar generalizaciones válidas. Es una ciencia que nos permite organizar datos para obtener información que permita evaluar el desempeño del proceso que proporcionan los datos y finalmente tomar decisiones.
Pero ¿de dónde nace la estadística? … pues de a lgo que se comentaba en la introducción: la
variabilidad. Las cosas cambian, no existen en la naturaleza dos entidades con los mismos valores para una de sus dimensiones.
La estadística, pues, se encarga de recolectar datos de los distintos procesos en donde esta presenta la variación y analizarlos. Nos interesa que esto se realice con el objetivo de entender la variación, identificar sus causas y reducirla, como evidencia de mejora del proceso.
La estadística tradicionalmente se divide en Estadística Descriptiva y Estadística Inferencial, tal como se explica en el esquema de la página siguiente.
Página | 4
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
P OBLACIÓN Una población está formada por la totalidad de las observaciones en las cuales se tiene cierto interés. Si el conjunto de estas observaciones es enumerable se denomina población finita. Si no lo es, se denomina población infinita.
M UESTRA Una muestra es un subconjunto de observaciones seleccionadas de una población. Para que las inferencias sean válidas, la muestra debe ser representativa de la población. A menudo resulta atractivo seleccionar las observaciones más convenientes corno muestra o ejercitar el juicio en la selección de la muestra.
Es frecuente que estos procedimientos introduzcan un sesgo en la muestra, lo que trae como consecuencia que el parámetro de interés sea subestimado (o sobrestimado) por la muestra.
Por otra parte, no es posible describir de manera estadística el comportamiento de una muestra de este tipo. Para evitar estas dificultades, es deseable seleccionar una muestra aleatoria como el resultado de un mecanismo aleatorio.
En consecuencia, la selección de una muestra es un experimento aleatorio, y cada observación de la muestra es el valor observado de una variable aleatoria. Las observaciones en la población determinan la distribución de probabilidad de la variable aleatoria.
E STADÍSTICA Una estadística es cualquier función de las observaciones contenidas en una muestra aleatoria. Por ejemplo, si X1 , X2 , … , Xn es una muestra aleatoria de tamaño n, entonces la media muestral X , la
varianza muestral S2 , y la desviación estándar muestral S, son estadísticas.
Puesto que una estadística es una variable aleatoria, ésta tiene una distribución de probabilidad. Se conoce como distribución de muestreo a la distribución de probabilidad de una estadística.
Página | 5
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
E STIMADORES Una variable aleatoria se caracteriza o describe mediante su distribución de probabilidad. Tal distribución es descrita, a su vez, por sus parámetros. Por ejemplo, la media y la varianza 2 de la distribución normal son sus parámetros, mientras que es el parámetro de la distribución de Poisson. En el control estadístico de calidad se usa la distribución de probabilidad para describir o modelar alguna característica de la calidad, como la dimensión crítica de un producto, o la fracción de defectuosos en un proceso de manufactura. Por lo tanto, interesa hacer inferencias respecto a los parámetros de distribuciones de probabilidad.
Como suelen desconocerse los parámetros, es necesario disponer de procedimientos para estimarlos a partir de datos muestrales y para ello se utilizan dos tipos de estimaciones: puntual y por intervalo.
Valor Esperado o esperanza matemática - E(x):
x E ( x )
- variable aleatoria discreta
n
x
i
.p
i
i 1
x E ( x )
- variable aleatoria continua
x. f ( x).dx
ESTIMACIÓN PUNTUAL Y POR INTERVALOS Es la estimación del valor del parámetro por medio de un único valor obtenido mediante el cálculo o evaluación de un estimador para una muestra específica. El estimador se expresa mediante una fórmula. Por ejemplo, la media de la muestra: X
n
X n 1
i
i 1
es un posible estimador puntual de la media poblacional
A continuación se presenta estimadores puntuales de la media, de la proporción, de la varianza, de diferencia de promedios y de la diferencia de proporciones. Parámetro
Estimador puntual
X
S2
p
p
X1 X2
ˆ
Página | 6
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
p 1 - p2
S12
S22
p1 p2 ˆ
ˆ
Es probable que un sólo número no sea tan significativo como un intervalo, dentro del cual se espera encontrar el valor de un parámetro. Una estimación por intervalo de un parámetro es el intervalo limitado por dos estadísticas, de manera que incluye el verdadero valor del parámetro con cierta probabilidad. El intervalo estimado recibe el nombre de intervalo de confianza.
MEDIDAS DE TENDENCIA CENTRAL Y DE DISPERSIÓN MEDIDAS DE TENDENCIA CENTRAL Al describir grupos de observaciones, con frecuencia es conveniente resumir la información con un solo número. Este número que, para tal fin, suele situarse hacia el centro de la distribución de datos se denomina medida o parámetro de tendencia central o de centralización. Entre las medidas de tendencia central tenemos:
L A MEDIA O PROMEDIO La media, es la suma de los valores observados dividida entre el número de observaciones. Así pues si se tienen las temperaturas máximas para cada día de la última semana: 15, 16, 18, 17, 15, 16 y 19 °C, el promedio o la media de temperatura máxima para la semana será: n
Xi
X i 1 n
15 16 18 17 15 16 19 7
16 .57 C
donde Xi es la temperatura para cada día de la semana pasada.
Algunas propiedades del promedio son:
Su cálculo es muy sencillo y en él intervienen todos los datos. Su valor es único para una serie de datos dada. Se usa con frecuencia para comparar poblaciones, aunque es más apropiado acompañarla de una medida de dispersión.
L A M EDIANA Para calcular la mediana de un grupo de datos es necesario ordenarlos primero y luego identificar cuál es el valor que está en el medio. La mediana será el valor que tiene por debajo de él al 50% de las observaciones menores y por encima de él está el 50% de las observaciones mayores. En la tabla
Página | 7
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
siguiente tenemos el número de productos vendidos en cada uno de los 24 días, ordenados (no se olvide que si los datos no están ordenados de menor a mayor, es necesario ordenarlos primero). El 50% de 24 es 12, eso quiere decir que debemos encontrar un número que separe a los 12 primeros valores de ventas de los 12 últimos. Entre la posición 12 y la posición 13, que corresponden a los números 25 y 27 respectivamente, se debe encontrar la mediana de la siguiente forma:
Me
Posición
1
2
3 4
5
6
7
8
9
25
27 2
26
10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
Ventas 12 13 13 13 16 17 17 17 19 21 22 25 27 29 29 31 35 36 37 42 42 42 49 52 ordenadas 50% inferior
Me=26
50% superior
Si la cantidad de datos fuera impar, por ejemplo la venta de 23 días solamente, el valor de la mediana es más fácil determinarlo, tal como podemos ver en la siguiente tabla. El valor de la posición 12 tiene 11 datos por debajo y 11 datos por encima por lo que la Me=25.
Posición
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 21 22 23
Ventas 12 13 13 13 16 17 17 17 19 21 22 25 27 29 29 31 35 36 37 42 42 42 49 ordenadas 50% inferior
Me=25
50% superior
Las principales propiedades de la mediana son:
Es menos sensible que la media a oscilaciones de los valores de la variable Puede calcularse para datos agrupados en intervalos, incluso cuando alguno de ellos no está acotado. No se ve afectada por la dispersión. De hecho, es más representativa que la media aritmética cuando la población es bastante heterogénea. Suele darse esta circunstancia cuando se resume la información sobre los salarios de un país o una empresa. Hay unos pocos salarios muy altos que elevan la media aritmética haciendo que pierda representatividad respecto al grueso de la población. Sin embargo, alguien con el salario "mediano" sabría que hay tanta gente que gana más dinero que él, como que gana menos.
L A M OD A En un conjunto de datos, analizados individualmente, la moda es el valor que más se repite. Si se trata de datos agrupados en intervalos, podemos considerar que la moda es el centro del intervalo que tiene mayor frecuencia, es decir, el intervalo con más datos.
Página | 8
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Podría suceder que algunos datos no tengan moda o que tengan más de una moda (ver la tabla anterior de datos, en donde 13, 17 y 42 se repiten 3 veces cada uno, lo que nos indicaría que hay 3 modas).
La moda no es muy usada para cálculos matemáticos ni de control de procesos, pues es un parámetro muy básico y poco riguroso en su determinación.
Estas 3 medidas de tendencia central tienen sus ventajas y desventajas, que hacen sean aplicables en uno u otro caso; por eso las describimos en la siguiente tabla.
Media
Mediana
Moda
Característica principal
Es el centro de gravedad de los datos.
Da una idea de dónde están localizadas la mayoría de las observaciones
En relación al uso de los datos
Usa todas las observaciones
No usa todos los datos, y los valores extremos pueden ser importantes
No usa todos los datos, y los valores extremos pueden ser importantes
En relación al manejo de los datos
No es necesario clasificar los datos, pero sí hacer un cálculo con todos los datos
Es requerido poco cálculo, pero los datos deben estar clasificados y ordenados
No es necesario hacer cálculos ni clasificar las observaciones
Sobre los valores extremos
Pueden distorsionar el valor de la media
No es sensible a valores extrernos
No es influenciado por valores extremos
Valor real
Puede no ser un valor real, ya que es resultado de un cálculo
En algunos casos es un valor real
Es un valor real, porque se obtiene de las observaciones
Existencia
Siempre se puede determinar
Siempre se puede determinar
Los datos pueden no tener moda
Fórmula en Excel
=Promedio(Datos)
=Mediana(Datos)
=Moda(Datos)
Da una idea de dónde están localizadas la mayoría de las observaciones
Las medidas de tendencia central tienen como objetivo el sintetizar los datos en un valor representativo, sin embargo por si solas no siempre son representativas por la variabilidad de los valores de la muestra. Es por eso que se recomienda emplear una medida de tendencia tendencia central, en muchos casos junto con otra medida que nos de una idea del grado de dispersión de los datos.
MEDIDAS DE DISPERSIÒN Las medidas de dispersión nos dicen hasta que punto las medidas de tendencia central son representativas como síntesis como síntesis de la información. la información. Las Las medidas de dispersión cuantifican la separación, la
Página | 9
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
dispersión, la variabilidad de los valores de la muestra muestra respecto al valor central. Las medidas de dispersión empleadas con mayor frecuencia son:
EL RANGO El rango, es la diferencia entre el máximo valor y el mínimo valor del grupo de datos que se está analizando. Nos da una idea general de qué tan grande es la variación. Si entre los datos hay valores fuera de lo normal, extraños (a estos datos se les llama espurios), el rango se va a ver afectado porque ya sea el máximo valor (o el mínimo) va a ser más grande (más pequeño) de lo normal. En Excel el rango usa la siguiente fórmula: =Max(Datos)-Min(Datos). Si los datos fueran los de la temperatura con los que se halló la media, 15, 16, 18, 17, 15, 16 y 19 °C, el rango sería:
R = 19 – 15 = 4
E L RANGO INTERCUARTIL (RIC) Para definir el rango intercuartil, intercuartil , primero debemos decir que un cuartil es cuartil es aquel número que divide a los datos en una cuarta parte. En un grupo de datos, existen cuatro cuartos, y 3 fronteras que los dividen. Cada una de estas fronteras es un cuartil. En la tabla de datos siguiente se puede observar que, luego de ordenar los datos de menor a mayor, se puede identificar la media Me = 25 como se indicó antes. El primer cuartil Q 1 es el valor que divide la primera mitad en dos, es decir el que separa al 25% inferior del 75% superior: Q 1= 17. El tercer cuartil Q 3 es el valor que divide la segunda mitad en dos, es decir el que separa al 75% inferior del 25% superior: Q 3= 36. Así pues, la mediana es llamada también el segundo cuartil.
Posición
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
Ventas 12 13 13 13 16 17 17 17 19 21 22 25 27 29 29 31 35 36 37 42 42 42 49 ordenadas 25% inferior
Q 1 = 17
50% central
Q 3 = 36
25% superior
Una vez que hemos definido los cuartiles, el rango intercuartil intercuartil marca la amplitud que hay desde el primer al tercer cuartil, es decir, la amplitud del 50% central de los datos con los que se trabaja.
RIC = Q 3 –Q 1
Para el ejemplo el RIC es 19. En Excel la función para calcular el cuartil es =Cuartil(Datos, Número de Cuartil)
L A VARIANZA Y LA DESVIACIÓN ESTÁNDAR La varianza, es una medida que cuantifica el grado de concentración de los datos alrededor del centro cuando el centro es definido como la media. La forma de cálculo es:
Página | 10
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial n
2
S
x
x
2
i
i 1
n 1
donde n es la cantidad de datos que se usan para calcular el promedio x y xi es cada uno de esos datos.
Si consideramos los datos de las temperaturas máximas para cada día de la última semana como: 15, 16, 18, 17, 15, 16 y 19 °C, la varianza se calcula primero hallando la diferencia entre cada uno de los valores y el promedio, luego esa diferencia se eleva al cuadrado y finalmente se suma la tercera columna.
x
Temperatura x (°C)
i
x
x
x
2
i
(°C)
(°C2)
15
-1.57
2.47
16
-0.57
0.33
18
1.43
2.04
17
0.43
0.18
15
-1.57
2.47
16
-0.57
0.33
19
2.43
5.90 13.71
x =16.57
Al dividir la suma entre el total de datos menos uno se tiene el valor de la varianza n
S 2
x
x
2
i
i 1
n 1
13.71 6
2.2857 C 2
Usted puede darse cuenta que las unidades de las temperaturas son grados centígrados °C y que al elevar al cuadrado, la varianza termina con unidades de °C 2 Para evitar usar dos unidades distintas, en este ejemplo °C y °C2 se suele trabajar con la desviación estándar, que es la raíz cuadrada positiva de la Varianza. Para este caso la desviación estándar tiene un valor de s = 1.512.
Ejemplo 2.1 Se hace un estudio en el proceso de envase de fideos en bolsas de 250g. En la línea de envase 1 las bolsas tienen un peso promedio de 251g y una desviación estándar de 2.1g. Analizando solamente el valor de la desviación estándar no se puede decir que la variación que representa sea buena o no. La línea 2 también envasa el mismo producto y el promedio es 251.5g con una desviación estándar de 2.5g. Ahora sí, la desviación estándar nos permite analizar que la variación de los pesos en la línea de envase 1 es menor que en la línea 2, es decir, la línea 1 trabaja con menos variación.
Página | 11
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Después de hacer una limpieza, mantenimiento y calibración en la línea 2, resulta que se obtiene un promedio de 250g y una desviación estándar de 1.6g. Nos podemos dar cuenta que ha habido una mejora en el proceso, los pesos son menos dispersos, independientemente del promedio, que también se ha corregido.
La línea 1 también es usada para envasar productos de 500g. En promedio las bolsas tienen 502g y la desviación estándar de los pesos es 3.5g. ¿Qué pasó con el proceso? ¿Se dañó? Si comparamos los 2.1g con los 3.5 podemos concluir que ha aumentado la dispersión; pero ese análisis no está considerando que es una variación de bolsas pequeñas de fideos contra una variación de bolsas grandes. Para hacer ese análisis es necesario presentar primero el concepto de coeficiente de variación.
C OEFICIENTE DE V ARIACIÓN El coeficiente de variación compara la desviación estándar con la media, por lo que es útil para comparar la variabilidad de por lo menos dos grupos de datos que tienen promedios razonablemente distintos.
CV
S x
En el ejemplo que se discutía anteriormente, comparar las desviaciones estándares de 2.1g y 3.5g no se justifica cuando éstas son de procesos que tienen promedios muy distintos (práct icamente el doble). Si se calcula el coeficiente de variación (llamado también desviación estándar relativa RSD) se tiene que:
Línea 1 250g
Línea 1 500g
Promedio
251g
502g
Desviación estándar
2.1g
3.5g
Coef. de variación
0.008367
0.006972
Entonces, comparativamente, la línea 1 para 250g tiene mayor variación relativa que para 500g. Dicho de otra forma, la variación para 250g es de 0.84% del promedio, cuando para 500g es solamente el 0.7% (redondeando).
Página | 12
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
ALGUNAS DISTRIBUCIONES DE PROBABILIDAD Para una variable aleatoria, por ejemplo, el número de solicitudes de crédito inadecuadamente completadas, el peso de una bolsa de azúcar o el tiempo de atención de una llamada telefónica, que puede tomar un valor numérico, es necesario en muchos casos determinar la probabilidad de que tome un valor específico. Para ello se usan las distribuciones de probabilidad.
La utilidad de las distribuciones para nuestro curso están relacionadas con el cálculo de probabilidades y estadísticos para los intervalos de confianza y las pruebas de hipótesis, así como con la identificación de la desviación estándar asociada a la distribución de probabilidad para que se pueda usar en la determinación de la incertidumbre. Pero antes es necesario revisar algunos conceptos relacionados con las variables aleatorias.
REVISIÓN DE VARIABLES ALEATORIAS Se dice que una variable es aleatoria cuando los valores que asume la variable han sido antecedidos por una selección aleatoria de los objetos medidos o son resultado de un proceso al azar. Como en el experimento hay una serie de resultados posibles, estos siempre pueden expresarse numéricamente.
La variable aleatoria generalmente se representa con una letra mayúscula (X, Y, etc.) y el valor que toma la variable se denota con la respectiva letra minúscula. Por ejemplo, si lanzamos un dado y observamos que el resultado obtenido es 5, entonces en este caso:
X:
resultado al lanzar el dado una vez. (V.A.)
:
1, 2, 3, 4, 5, 6. (espacio muestral)
Como el resultado registrado fue 5, entonces x = 5
Estas variables pueden ser discretas, cuando el rango es un conjunto finito o infinito numerable, o continuas, cuando el rango es un conjunto infinito no numerable de valores.
F UNCIÓN DENSIDAD DE UNA VARIABLE ALEATORIA CONTINUA Se denomina función densidad f(x) de una variable aleatoria continua a la función que satisface:
Página | 13
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
f ( x ) 0 para todo x
f ( x).dx 1
P (a x b)
b
f ( x).dx a
En los dos siguientes puntos se presentan características y propiedades de los valores esperados y desviaciones estándar. Esos temas son solamente informativos, no es necesario que el nivel de entendimiento de estos temas sea alto.
V ALOR ESPERADO Y VARIANZA DE UNA VARIABLE ALEATORIA
Valor esperado
variable aleatoria discreta
x E ( x )
n
x . p i
i
i 1
variable aleatoria continua
x E ( x )
x. f ( x).dx
n
variable aleatoria discreta
2 x
( xi x ) 2 . pi i
Varianza variable aleatoria continua
variable aleatoria discreta Desviación estándar variable aleatoria continua
x2
x
x
1
( x ) 2 . f ( x).dx
n
( x i
1
i
x ) 2 . pi
( x ) 2 . f ( x).dx
DISTRIBUCIÓN TRIANGULAR Existen situaciones en las cuales es necesario asumir una distribución de probabilidad en función de algunos parámetros, como el rango y el valor de mayor probabilidad o moda. En estos casos se puede pensar en una distribución que tenga la forma de un triangulo, cuya área, como en todos los casos, sea igual a 1
Página | 14
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
mínimo (a)
moda (c)
máximo (b)
La función de densidad es:
, x a 0 2 x a , a x c b a b c f ( x) 2 b x , c x b b a b c , x b 0 Un caso particular de esta distribución y el que más se aplica para el cálculo de la Incertidumbre de las Mediciones, es cuando la moda c es el valor central entre a y b (c = (a+b)/2).
Para este caso la Media:
x E ( x)
ab 2
Varianza:
2 x
(a b) 2 24
Ejemplo 3.1 Se presume que la medida obtenida con un instrumento analógico, ya sea una escala como la de una pipeta o un reloj, sigue una distribución triangular. Por ejemplo, en la figura adjunta puede observarse que la medida no es 5 ni 6, es cualquier valor entre esas dos marcas. Se presume que la media y la varianza de esa medida es:
56 x E ( x) 2
5.5
2 x
(5 6) 2 24
0.04167
7 6 5
Página | 15
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial 4cc
DISTRIBUCIÓN UNIFORME (R ECTANGULAR) Esta distribución se usa cuando todos los posibles valores de la variable tienen igual probabilidad de ocurrencia. Muchas veces se usa cuando solamente se tiene como información el rango de la variable.
La función de densidad de probabilidad para una distribución Uniforme entre a y b esta dada por:
f ( x)
1 (b a)
x E ( x)
Media:
Varianza:
2 x
a b 2 ( a b) 2 12
Ejemplo 3.2 Se presume que la medida obtenida con un instrumento digital, visualizada en una pantalla como la de una balanza, sigue una distribución rectangular. Por ejemplo, en la figura adjunta puede observarse que la medida marca 45.3g, pero cualquier peso entre 45.25 y 45.34 (por practicidad se asume 45.35) va a tener la misma indicación en la pantalla. Se presume que la media y la varianza de esa medida es:
x
45.25 45.35 2
45.3 2 x
(45.25 45.35) 2 12
0.00083
45.3
Página | 16
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
DISTRIBUCIÓN NORMAL La mayoría de procesos industriales y de la naturaleza siguen una distribución normal, que está caracterizada por tener una media o promedio y una desviación estándar, es decir una medida de tendencia central y una de dispersión. Por ejemplo, una variable aleatoria como el largo de una antena de celular seguirá una distribución normal con media =75mm y desviación estándar =0.005mm. Eso quiere decir que algunas antenas de celular medirán 75mm y otras más o menos. Si se obtiene una muestra de antenas se espera que el promedio sea 75 y la desviación estándar 0.005mm.
La función de densidad de probabilidad para una distribución normal está dada por:
f ( x)
1 2
·e
1
x
2
·(
)2
Se dice que la variable aleatoria X sigue una distribución normal con parámetros y y se denota X ~ N (, 2). Pero en este caso no se puede calcular dicha integral a no ser que se usen métodos numéricos. Por eso se calculan las probabilidades con tablas. La forma de una distribución normal es:
Para aproximar una distribución de probabilidades a la distribución normal, la apariencia de la distribución debe ser simétrica y con forma de campana, las medidas de tendencia central deben coincidir y la dispersión de los datos debe tener un alcance de 3 .
Para hacer el cálculo de probabilidades y usar la tabla que se muestra en la página siguiente, es necesario realizar una estandarización. De lo que se trata es de transformar los datos de una
Página | 17
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
distribución normal cualquiera a una distribución normal estándar con media fórmula
Z
=0 y =1 usando la
x
Ejemplo 3.3 Por ejemplo, si se ha tomado una muestra de 100 pesos de bolsas de azúcar y se sabe que el promedio del peso es 500g y la desviación estándar 2.1g, se puede asumir que los pesos X siguen una distribución normal con =500 y =2.1. La variable X se puede transformar en otra variable llamada Z usando la ecuación anterior. Esta nueva variable Z sigue una distribución normal estándar en donde =0 y =1 y sus probabilidades se pueden calcular a partir de la siguiente tabla:
Página | 18
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial Areas bajo la curva normal estándar, desde --infinito a z = (x - media)/desv. Est z
0.00
0.01
0.02
-3.5 -3.4 -3.3 -3.2 -3.1 -3.0 -2.9 -2.8 -2.7 -2.6 -2.5 -2.4 -2.3 -2.2 -2.1 -2.0 -1.9 -1.8 -1.7 -1.6 -1.5 -1.4 -1.3 -1.2 -1.1 -1.0 -0.9 -0.8 -0.7 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3.0 3.1 3.2 3.3 3.4
0.000233 0.000337 0.000483 0.000687 0.000968 0.001350 0.001866 0.002555 0.003467 0.004661 0.006210 0.008198 0.010724 0.013903 0.017864 0.022750 0.028716 0.035930 0.044565 0.054799 0.066807 0.080757 0.096801 0.115070 0.135666 0.158655 0.184060 0.211855 0.241964 0.274253 0.308538 0.344578 0.382089 0.420740 0.460172 0.500000 0.539828 0.579260 0.617911 0.655422 0.691462 0.725747 0.758036 0.788145 0.815940 0.841345 0.864334 0.884930 0.903199 0.919243 0.933193 0.945201 0.955435 0.964070 0.971284 0.977250 0.982136 0.986097 0.989276 0.991802 0.993790 0.995339 0.996533 0.997445 0.998134 0.998650 0.999032 0.999313 0.999517 0.999663
0.000224 0.000325 0.000467 0.000664 0.000936 0.001306 0.001807 0.002477 0.003364 0.004527 0.006037 0.007976 0.010444 0.013553 0.017429 0.022216 0.028067 0.035148 0.043633 0.053699 0.065522 0.079270 0.095098 0.113140 0.133500 0.156248 0.181411 0.208970 0.238852 0.270931 0.305026 0.340903 0.378281 0.416834 0.456205 0.496011 0.543795 0.583166 0.621719 0.659097 0.694974 0.729069 0.761148 0.791030 0.818589 0.843752 0.866500 0.886860 0.904902 0.920730 0.934478 0.946301 0.956367 0.964852 0.971933 0.977784 0.982571 0.986447 0.989556 0.992024 0.993963 0.995473 0.996636 0.997523 0.998193 0.998694 0.999064 0.999336 0.999533 0.999675
0.000216 0.000313 0.000450 0.000641 0.000904 0.001264 0.001750 0.002401 0.003264 0.004397 0.005868 0.007760 0.010170 0.013209 0.017003 0.021692 0.027429 0.034379 0.042716 0.052616 0.064256 0.077804 0.093418 0.111233 0.131357 0.153864 0.178786 0.206108 0.235762 0.267629 0.301532 0.337243 0.374484 0.412936 0.452242 0.492022 0.547758 0.587064 0.625516 0.662757 0.698468 0.732371 0.764238 0.793892 0.821214 0.846136 0.868643 0.888767 0.906582 0.922196 0.935744 0.947384 0.957284 0.965621 0.972571 0.978308 0.982997 0.986791 0.989830 0.992240 0.994132 0.995603 0.996736 0.997599 0.998250 0.998736 0.999096 0.999359 0.999550 0.999687
0.03 0.000208 0.000302 0.000434 0.000619 0.000874 0.001223 0.001695 0.002327 0.003167 0.004269 0.005703 0.007549 0.009903 0.012874 0.016586 0.021178 0.026803 0.033625 0.041815 0.051551 0.063008 0.076359 0.091759 0.109349 0.129238 0.151505 0.176186 0.203269 0.232695 0.264347 0.298056 0.333598 0.370700 0.409046 0.448283 0.488033 0.551717 0.590954 0.629300 0.666402 0.701944 0.735653 0.767305 0.796731 0.823814 0.848495 0.870762 0.890651 0.908241 0.923641 0.936992 0.948449 0.958185 0.966375 0.973197 0.978822 0.983414 0.987126 0.990097 0.992451 0.994297 0.995731 0.996833 0.997673 0.998305 0.998777 0.999126 0.999381 0.999566 0.999698
0.04 0.000200 0.000291 0.000419 0.000598 0.000845 0.001183 0.001641 0.002256 0.003072 0.004145 0.005543 0.007344 0.009642 0.012545 0.016177 0.020675 0.026190 0.032884 0.040929 0.050503 0.061780 0.074934 0.090123 0.107488 0.127143 0.149170 0.173609 0.200454 0.229650 0.261086 0.294598 0.329969 0.366928 0.405165 0.444330 0.484047 0.555670 0.594835 0.633072 0.670031 0.705402 0.738914 0.770350 0.799546 0.826391 0.850830 0.872857 0.892512 0.909877 0.925066 0.938220 0.949497 0.959071 0.967116 0.973810 0.979325 0.983823 0.987455 0.990358 0.992656 0.994457 0.995855 0.996928 0.997744 0.998359 0.998817 0.999155 0.999402 0.999581 0.999709
0.05 0.000193 0.000280 0.000404 0.000577 0.000816 0.001144 0.001589 0.002186 0.002980 0.004025 0.005386 0.007143 0.009387 0.012224 0.015778 0.020182 0.025588 0.032157 0.040059 0.049471 0.060571 0.073529 0.088508 0.105650 0.125072 0.146859 0.171056 0.197662 0.226627 0.257846 0.291160 0.326355 0.363169 0.401294 0.440382 0.480061 0.559618 0.598706 0.636831 0.673645 0.708840 0.742154 0.773373 0.802338 0.828944 0.853141 0.874928 0.894350 0.911492 0.926471 0.939429 0.950529 0.959941 0.967843 0.974412 0.979818 0.984222 0.987776 0.990613 0.992857 0.994614 0.995975 0.997020 0.997814 0.998411 0.998856 0.999184 0.999423 0.999596 0.999720
0.06 0.000185 0.000270 0.000390 0.000557 0.000789 0.001107 0.001538 0.002118 0.002890 0.003907 0.005234 0.006947 0.009137 0.011911 0.015386 0.019699 0.024998 0.031443 0.039204 0.048457 0.059380 0.072145 0.086915 0.103835 0.123024 0.144572 0.168528 0.194894 0.223627 0.254627 0.287740 0.322758 0.359424 0.397432 0.436441 0.476078 0.563559 0.602568 0.640576 0.677242 0.712260 0.745373 0.776373 0.805106 0.831472 0.855428 0.876976 0.896165 0.913085 0.927855 0.940620 0.951543 0.960796 0.968557 0.975002 0.980301 0.984614 0.988089 0.990863 0.993053 0.994766 0.996093 0.997110 0.997882 0.998462 0.998893 0.999211 0.999443 0.999610 0.999730
0.07 0.000179 0.000260 0.000376 0.000538 0.000762 0.001070 0.001489 0.002052 0.002803 0.003793 0.005085 0.006756 0.008894 0.011604 0.015003 0.019226 0.024419 0.030742 0.038364 0.047460 0.058208 0.070781 0.085344 0.102042 0.121001 0.142310 0.166023 0.192150 0.220650 0.251429 0.284339 0.319178 0.355691 0.393580 0.432505 0.472097 0.567495 0.606420 0.644309 0.680822 0.715661 0.748571 0.779350 0.807850 0.833977 0.857690 0.878999 0.897958 0.914656 0.929219 0.941792 0.952540 0.961636 0.969258 0.975581 0.980774 0.984997 0.988396 0.991106 0.993244 0.994915 0.996207 0.997197 0.997948 0.998511 0.998930 0.999238 0.999462 0.999624 0.999740
0.08 0.000172 0.000251 0.000362 0.000519 0.000736 0.001035 0.001441 0.001988 0.002718 0.003681 0.004940 0.006569 0.008656 0.011304 0.014629 0.018763 0.023852 0.030054 0.037538 0.046479 0.057053 0.069437 0.083793 0.100273 0.119000 0.140071 0.163543 0.189430 0.217695 0.248252 0.280957 0.315614 0.351973 0.389739 0.428576 0.468119 0.571424 0.610261 0.648027 0.684386 0.719043 0.751748 0.782305 0.810570 0.836457 0.859929 0.881000 0.899727 0.916207 0.930563 0.942947 0.953521 0.962462 0.969946 0.976148 0.981237 0.985371 0.988696 0.991344 0.993431 0.995060 0.996319 0.997282 0.998012 0.998559 0.998965 0.999264 0.999481 0.999638 0.999749
0.09 0.000165 0.000242 0.000350 0.000501 0.000711 0.001001 0.001395 0.001926 0.002635 0.003573 0.004799 0.006387 0.008424 0.011011 0.014262 0.018309 0.023295 0.029379 0.036727 0.045514 0.055917 0.068112 0.082264 0.098525 0.117023 0.137857 0.161087 0.186733 0.214764 0.245097 0.277595 0.312067 0.348268 0.385908 0.424655 0.464144 0.575345 0.614092 0.651732 0.687933 0.722405 0.754903 0.785236 0.813267 0.838913 0.862143 0.882977 0.901475 0.917736 0.931888 0.944083 0.954486 0.963273 0.970621 0.976705 0.981691 0.985738 0.988989 0.991576 0.993613 0.995201 0.996427 0.997365 0.998074 0.998605 0.998999 0.999289 0.999499 0.999650 0.999758
Siguiendo con el ejemplo, si se desea saber la probabilidad de que una bolsa de azúcar pese menos de 495g, entonces debemos calcular P(X<495). Si X se transforma a Z, entonces:
Página | 19
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
X 495 500 P Z 2.38 2 . 1
P ( X 495) P
y en la gráfica es el área marcada en negro. Para buscar esa probabilidad se usa la tabla anterior buscando el valor –2.3 en la primera columna y moviéndose horizontalmente hasta encontrar la columna que corresponda a un encabezado de 0.08. El valor es 0.00866, lo que quiere decir que cada 1000 bolsas de azúcar en promedio 8.66 bolsas tendrán un peso menor a 495g
Si se quiere calcular la probabilidad que una bolsa pese más de 503g, entonces:
X 503 500 P Z 1.43 1 P Z 1.43 1 0.92364 0.07636 2.1
P ( X 503) P
Tener en cuenta que la tabla sólo permite calcular probabilidades del tipo P(X < x) y si fuera necesario calcular la P(X > x) entonces se cambia a P(X > x) = 1 - P(X < x).
Podemos decir que bolsas se azúcar con pesos que están por encima de 503g y por debajo de 495g son productos no conformes con las especificaciones. Entonces, ¿cuál es la probabilidad de que salga un producto no conforme con las especificaciones? (0.00866+0.07636=0.08502) ¿Cuál la probabilidad de que salga un producto conforme? (1-0.08502=0.91498).
Una propiedad importante de la distribución normal es que si X 1, X2, X3, . . . , Xk son k variables aleatorias independientes, tales que X i ~ N(i, i), para cada i = 1, 2, 3, . . ., k, entonces, la variable
Página | 20
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
aleatoria Y = c1X1 + c 2X2 + c3X3 + . . . + c kXk, (donde c1, c2, c3, . . . ck son constantes) está distribuida normalmente con:
Media:
Y = c1.1 + c2.2 + c3.3 + . . . + ck.k
Varianza:
Y2 = c12.12 + c22.22 + c32.32 + . . .+ ck2.k2
Esto permite estudiar, por ejemplo, el caso en que el peso de una caja (cartón solamente) sigue una distribución normal con =150g y =1.3g y tiene como contenido 12 frascos de perfumes. El peso de cada frasco sigue una distribución normal con =250g y =2.6g. Entonces, el peso de la caja llena sigue una distribución normal con =150+12x250=3150g y = 1.3 12 2.6 31.227 g. A partir de esto se puede determinar las probabilidades para la caja llena de 12 frascos considerando estos dos últimos parámetros. 2
2
2
DISTRIBUCIÓN DE POISSON La distribución de Poisson, se aplica a varios fenómenos discretos de la naturaleza (esto es, aquellos fenómenos que ocurren 0, 1, 2, 3, ... veces durante un periodo definido de tiempo o en un área determinada) cuando la probabilidad de ocurrencia del fenómeno es constante en el tiempo o el espacio. Ejemplos de estos eventos que pueden ser modelados por la distribución de Poisson incluyen:
El número de llamadas telefónicas en una central telefónica por minuto. El número de fallas detectadas en cada metro de tela El número de mutaciones de determinada cadena de ADN después de cierta cantidad de radiación.
La función de densidad de probabilidad para una distribución Poisson está dada por:
f ( x)
e x x!
Se dice que la variable aleatoria X sigue una distribución normal con parámetro λ y se denota X ~ Poisson (λ). Dado que esta es una variable aleatoria discreta X puede tomar valores de 0,1,2,3.... y la probabilidad acumulada hasta un número dado se calcula como la sumatoria de todos valores enteros menores evaluados en la función de densidad. Así entonces por ejemplo la probabilidad P(X < 3) si X es una variable aleatoria Poisson será:
P ( X 3) P ( X 0) P ( X 1) P ( X 2)
OTRAS DISTRIBUCIONES En la siguiente tabla se muestran otras importantes distribuciones de probabilidad.
Página | 21
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Distribución t-student Se dice que la variable aleatoria t sigue una distribución t con k grados de libertad
Para un valor de la variable aleatoria t,k es tal que el área a su derecha bajo la curva de la distribución t con k grados de libertad es igual a .
P (T t ,k ) t 2
t = E(t) = 0 Distribución Chi-cuadrado Se dice que X tiene una distribución chi cuadrado con k grados de libertad y se denota X ~ 2 (k)
Se dice que X tiene una distribución F con r1 y r2 grados de libertad (enteros positivos). Se denota X ~ F(r1,r2)
k k 2
Un valor de la variable aleatoria 2,k es tal que el área a su derecha bajo la curva de la distribución 2 con k grados de libertad es .
P (
2
x = E(x) = k Distribución F
2
, k
k 1 k 1 2 2 t 2 1 f (t ) k k k 2
) x2 2k
Un valor de la variable aleatoria x = F ,r1,r2 es tal que el área a su derecha bajo la curva de la distribución F con parámetros r1 y r2 es igual a .
P ( X F ,r 1 ,r 2 )
f ( x)
1 (1 / 2) x k / 2 1e (1 / 2) x x 0 (1 / 2) 0 en cualquier otro caso r 1
r 1 r 1 r 2 r 2 2 x ( r / 2) 1 f ( x) x 0; r 1 r 2 r 1 x (r r ) / 2 1 2 2 r 2 1
1
2
Página | 22
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Distribución Weibull
Existe una curva para cada par de valores y
Se dice que X tiene una distribución Weibull con parámetros y ( , >0). Se denota X ~ W (, ).
x = E(x) =
x2 2
f ( x )
1 x x e 0
/
0 y ; 0; 0 en cualquier otro caso
Página | 23
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Distribución Weibull
Existe una curva para cada par de valores y
Se dice que X tiene una distribución Weibull con parámetros y ( , >0). Se denota X ~ W (, ).
x = E(x) =
x2 2
f ( x )
1 x x e 0
0 y ; 0; 0
/
en cualquier otro caso
Página | 23
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS Ejercicio 1 Una empresa de fabricación de productos cerámicos dispone de tres centros de producción. En el centro A, el más grande y moderno, se hace un estudio de los m² de azulejo producidos al mes durante el año pasado, obteniéndose una media de producción mensual de 250 000 m² , con una desviación típica de 15.000 m² . Se sabe que el centro B, por tener maquinaria más anticuada que A, produce cada mes un tercio de la producción de A, y que el centro C, por tener un horno menos que B, produce cada mes 25.000 m² menos que B ¿Cual es la media y la varianza de la producción mensual de C?
Ejercicio 2 Un organismo de control ambiental, con motivos de denuncias reiteradas presentadas por vecinos de una fábrica, decide investigar el ruido que producen camiones pesados que circulan por una determinada calle. Para ello toma una muestra de 30 camiones registrando sus respectivos niveles de ruido en decibeles. Los resultados obtenidos fueron los siguientes:
a) Defina la variable en estudio, tipo y escala. b) ¿Cuál es el nivel de ruido superado por el 50 % de los camiones?.
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS Ejercicio 1 Una empresa de fabricación de productos cerámicos dispone de tres centros de producción. En el centro A, el más grande y moderno, se hace un estudio de los m² de azulejo producidos al mes durante el año pasado, obteniéndose una media de producción mensual de 250 000 m² , con una desviación típica de 15.000 m² . Se sabe que el centro B, por tener maquinaria más anticuada que A, produce cada mes un tercio de la producción de A, y que el centro C, por tener un horno menos que B, produce cada mes 25.000 m² menos que B ¿Cual es la media y la varianza de la producción mensual de C?
Ejercicio 2 Un organismo de control ambiental, con motivos de denuncias reiteradas presentadas por vecinos de una fábrica, decide investigar el ruido que producen camiones pesados que circulan por una determinada calle. Para ello toma una muestra de 30 camiones registrando sus respectivos niveles de ruido en decibeles. Los resultados obtenidos fueron los siguientes:
a) Defina la variable en estudio, tipo y escala. b) ¿Cuál es el nivel de ruido superado por el 50 % de los camiones?. c) Halle la moda e interprete. d) ¿Cuál es el nivel de ruido superado por el 75 % de todos los camiones? e) ¿Qué dispersión presenta el nivel de ruido? f) ¿Qué porcentaje de camiones supera los 85 decibeles? g)¿Qué cantidad de camiones produce hasta 86 decibeles? Ejercicio 3 Se realizó una investigación sobre la contaminación ambiental. Para ello se estudió la acidez del agua de lluvia caída en 40 localidades del país. Registrándose los siguientes niveles de pH:( pH pura 5,7 )
a) Defina la variable en estudio, tipo y escala. b) ¿cuál es el nivel de acidez más frecuente? c) ¿Cuál es el nivel de acidez no superado por el 25% de las localidades donde se registran los menores Ph ? Grafique. d) Halle la desviación estándar e interprete.
Página | 24
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
INTERVALOS DE CONFIANZA En muchas situaciones, una estimación puntual no proporciona información suficiente sobre un parámetro y resulta más significativo la estimación de un intervalo, dentro del cual se espera encontrar el valor de dicho parámetro. El intervalo estimado recibe el nombre de Intervalo de Confianza.
INTERVALO DE CONFIANZA PARA LA MEDIA Supongamos que se tiene una población con media desconocida y varianza 2. De esta población se toma una muestra aleatoria XI, X2 , ..., Xn de tamaño n. La media muestral X es un estimador puntual de la media poblacional Puede obtenerse un intervalo de confianza del 100 (1 - )% para al considerar la distribución de muestreo de la media muestral X la cual es normal si la población es normal y aproximadamente normal si se satisfacen las condiciones del límite central.
C ASO 1: V ARIANZA ( 2 ) CONOCIDA . Si X es la media muestral de una muestra aleatoria de tamaño n de una población con varianza conocida 2, un intervalo de confianza para del 100 (1 - ) por ciento está dado por: _
x - z 1 / 2
n
_
x z 1 / 2
n
Ejemplo 4.1: Se está analizando la resistencia a la ruptura de la fibra textil usada en la fabricación de cortinas. La experiencia pasada indica que la desviación estándar de la resistencia a la ruptura es 2psi. Se prueba una muestra de 9 observaciones y se encuentra que la resistencia a la ruptura promedio es 98psi. Encuentre el intervalo de confianza de dos colas con una confianza del 95%.
Datos:
X
Solución:
= 98
=2
n
=9
1-
= 95%
1-
2
= 0.975 por tabla: Z 1
2
= 1.96
Aplicar fórmula: 98 - (1.96
2 9
)
98 + (1.96
2 9
)
Página | 25
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Selección del Tamaño de Muestra La precisión del intervalo de confianza definido anteriormente es z1-
. Esto significa que al utilizar
/2
α
para estimar , el error E= - es menor o igual que z1-
con una confianza 100(1 - ). En los
/2
α
casos en los que es posible controlar el tamaño muestral, se puede elegir n de modo que se tenga una confianza del 100(1 - a) % de que el error al estimar sea menor que un error especificado E. La selección del tamaño n de la muestra, necesario para proporcionar un intervalo de confianza de la longitud requerida (2E), se obtiene cuando:
z 1 / 2
n
E
Al solucionar esta ecuación, obtenemos la siguiente fórmula:
z n 1 / 2 E
2
Ejemplo 4.2
Si se desea reducir a la mitad el intervalo hallado en el ejemplo anterior, ¿cuántas muestras adicionales se requieren?
Datos:
Solución:
= 98
X
=2
n
=9
1-
= 95%
Z1
= 5%
2
E = 1.96
E nuevo =
2 9
1.307 2
= 1.307
= 0.653
= 1.96 nnuevo =
1.96 2 0.653
2
= 35.982 = 36
Página | 26
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
C ASO 2: V ARIANZA ( 2 ) DESCONOCIDA . Si
y S son la media y la desviación estándar de una muestra aleatoria de tamaño n, tomada de una
distribución normal con varianza 2 desconocida, entonces un intervalo de confianza del 100 (1 - a) % para está dado por: _
x - t (1 / 2 )
s n
_
s
x t (1 / 2)
n
donde t1-/2, n-1 es el punto crítico superior que corresponde al porcentaje (n-1) grados de libertad.
/2 de la distribución t con
Ejemplo 4.3
Para el ejemplo anterior, suponga que no se conoce la desviación estándar y que el valor 2psi fue hallado con una muestra de tamaño 9.
Solución:
Datos:
X
= 98
s
=2
n
=9
1-
= 95%
= 5%
t 1n(1
/ 2)
= 2.306
98 - t n 1(1 / 2)
2 9
98 t n 1(1 / 2)
2 9
Ejemplo 4.4
Se tienen los siguientes datos referentes a una muestra de tamaño 10: n
1
2
3
4
5
6
7
8
9 10
Valor 55 57 56 57 56 55 57 58 55 56
Donde se obtiene una media de valor 56.2. Se solicita hallar el intervalo de confianza con
=5%.
Solución: Datos: n
X
= 56.2
n
= 10
1-
= 95%
= 5%
x
i
S 2
x
2
i 1
n 1
56.2 - t n 1(1 / 2)
1.033 10
1.0667
t 1n (1
56.2 t n1(1 / 2)
/ 2)
= 2.262
1.033 10
Página | 27
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Ejemplo 4.5
Para el ejemplo anterior, se desea obtener un error no mayor a 0.6. ¿Cuál será el tamaño de muestra necesario para cumplir con la condición anterior?
Datos:
Solución:
X
= 56.2
n
= 10
1-
= 95%
= 5%
Eactual = t 1n (1 / 2)
s
= 0.739, al ser mayor que el
n Edeseado se aplica la siguiente fórmula:
nnuevo = ( t n1(1
/ 2)
* s /Edeseado) 2
= 1.0667
S 2
t 1n(1
/ 2)
= 2.262
Para resolver este problema es necesario hacer un proceso iterativo. Se debe notar que para el cálculo del n nuevo el valor t y la desviación estándar muestral dependen de la muestra, dependen de n. Es decir, no se puede despejar n de la fórmula del Error E.
Es por ello que basándonos en un tamaño de muestra inicial, en este caso 10, calculamos la desviación estándar y que la muestra que se necesita es de 16, es decir los 10 datos y su desviación estándar no permiten lograr el error deseado. Es necesario tomar 6 datos adicionales (o 16 nuevas datos), además se debe hallar la desviación estándar de estos 16 datos, así como el valor del t1- α/2 respectivo. En esta oportunidad escogeremos realizar una muestra nueva, cuyos valores obtenidos son:
n valor
1 55
2 56
3 4 57 57
5 56
6 7 8 55 55 56
9 57
10 56
11 56
12 13 57 55
14 55
15 57
16 56
De la nueva muestra se pueden hallar los siguientes valores:
X = 56.077 S 2
= 0.794
t (1
/ 2)
Enuevo = 0.36 < Edeseado =0.6
=2.059
INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE DOS MEDIAS Supóngase que se tiene dos poblaciones independientes con medias desconocidas
1 y 2, y varianzas
12 y 22 respectivamente. Si bien X 1 X 2 es una estimación puntual de 1 - 2, se desea encontrar un intervalo de confianza del 100 (1- ) % para la diferencia de las medias 1 - 2 Página | 28
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
C ASO 1: V ARIANZAS CONOCIDAS . Si X 1 y X 2 son las medias de dos muestras aleatorias independientes de tamaños n1 y n2 tomadas de poblaciones que tienen varianzas conocidas 12 y 22 respectivamente, entonces un intervalo de confianza del 100 (1-) % para 1 - 2 es:
( x1 - x 2 ) Z 1 / 2
12 n1
22 n2
1 - 2 x1 - x 2 z 1 / 2
12
n1
22 n2
El nivel de confianza (1 - ) es exacto cuando las poblaciones son normales. Para poblaciones que no lo son, el nivel de confianza es aproximadamente válido para tamaños grandes de muestras.
C ASO 2: V ARIANZAS DESCONOCIDAS . Sean X 1 , X 2 , S12 y S22 las medias y las varianzas de dos muestras aleatorias de tamaños n1 y n2 respectivamente, tomadas de dos poblaciones normales con varianzas desconocidas. Para hallar el intervalo de confianza del 100 (1 - ) % para la diferencia entre medias 1 - 2, se van a distinguir dos situaciones: a) Si las varianzas poblacionales son desconocidas pero iguales
_
_
( x1 - x 2 ) - t n1 n2 -2, 1 / 2
_ _ 1 1 S - ( x1 - x2 ) t n n -2, 1 1 2 n1 n2 2 p
1
S
2
/ 2
n1
1
n2
(n1 - 1) S 1 (n2 - 1) S 2 2
2 p
2
1
S p
2
n1 n2 - 2
donde Sp es el estimado combinado de la desviación estándar común de la población.
b) Si no es razonable suponer que las varianzas son iguales, entonces el intervalo de confianza es: _
_
( x1 - x2 ) - t v , 1 / 2
_ _ s12 s 22 - ( x1 - x 2 ) t v, 1 / 2 1 2 n1 n2
s12 s 22 n1 n2
Página | 29
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial 2
S 12 S 22 n1 n2 2 v 2 2 S 12 S 22 n1 n2 n1 1 n2 1 donde son los grados de libertad
Ejemplo 4.5
Se investiga el diámetro de las varillas de acero fabricadas en dos máquinas de extrusión diferentes. Se seleccionan dos muestras aleatorias e tamaño n1=15 y n2=17, las medias muestrales son 8.73 y 8.68mm, y las varianzas muestrales son 0.32 y 0.40mm2. Construya el intervalo de confianza para la diferencia asumiendo que las varianzas son iguales y luego asumiendo que son diferentes. ¿Los intervalos incluyen al cero?
Varianzas iguales
Datos:
Solución:
X1
= 8.73
X2
= 8.68
s12
= 0.32
s 2
2
= 0.40
1
= 15
2
t n1 n2 - 2, 1 / 2 = 2.042
S p2
_
_
(15 - 1) 0.32 (17 - 1) 0.40 = 0.363 15 17 - 2
1
_ _ 1 1 - 2 ( x1 - x2 ) t n n -2, 1 n1 n2
( x1 - x2 ) - t n1 n2 -2, 1 / 2 S p2
1
2
1
/ 2
1 n1 n2
S p2
= 17
Varianzas diferentes
Datos:
Solución:
X1
= 8.73
X2
= 8.68
s1
2
= 0.32
s 2
2
= 0.40
1
= 15
2
= 17
2
0.32 0.40 15 17 = 32 v 2 2 2 0.32 0.40 15 17 15 1 17 1
_
_
t v , 1 / 2 = 2.037
_ _ s12 s 22 - ( x1 - x2 ) t v , 1 / 2 1 2 n1 n2
( x1 - x2 ) - t v , 1 / 2
s12 s 22 n1 n2
Página | 30
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
PRUEBA DE HIPÓTESIS Para realizar pruebas de hipótesis deberemos hacer alguna inferencia o suposición elaborada sobre algún parámetro de la población. Esta inferencia será nuestra hipótesis. Después tomaremos una muestra para ver si la hipótesis podría ser correcta. La hipótesis que contrastamos se llama hipótesis nula (Ho). La hipótesis nula se contrasta con la hipótesis alternativa (H1)
Después, a partir de los resultados obtenidos en nuestra muestra, o bien rechazamos la hipótesis nula a favor de la alternativa, o bien rechazamos la hipótesis nula y suponemos que nuestra estimación inicial del parámetro poblacional podría ser correcto.
El hecho de no rechazar la hipótesis nula no implica que ésta sea cierta. Significa simplemente que los datos de la muestra son insuficientes para inducir un rechazo de la hipótesis nula.
Contraste de Hipótesis. La hipótesis que se contrasta. Es rechazada o no en función de la información muestral. La hipótesis alternativa se especifica como opción posible si se rechaza la nula
TIPOS DE ERRORES
H 0 es cierta H 0 es falsa
Aceptar H 0
Rechazar H 0
No hay error
Error I ( )
Error
No hay error (1- )
Error Tipo I Ocurre cuando se rechaza una hipótesis H 0 que es verdadera. La probabilidad de error tipo I viene a ser la probabilidad de rechazar la H0 verdadera.
P(Error tipo I)
El valor es fijado por la persona que realiza la investigación (1-10%)
Error Tipo II Ocurre cuando se acepta una hipótesis H 0 que es falsa, la probabilidad de error tipo II es la probabilidad de aceptar una H0 que es falsa.
P(Error tipo II)
Página | 31
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Debido a que el valor real del parámetro es desconocido este error no puede ser fijado. Potencia de prueba o Poder de Prueba Es la probabilidad de rechazar una hipótesis planteada cuando esta es falsa. Potencia de la prueba = 1 - Como el valor de depende del valor del parámetro la potencia de prueba tampoco pude ser fijado, sin embargo se puede asumir un conjunto de valores del parámetro y para cada uno de ellos hallar el valor de la potencia de prueba. La curva que se genera se conoce como CURVA DE POTENCIA.
HIPÓTESIS UNILATERALES Y BILATERALES. Al construir pruebas de hipótesis, siempre se plantea la hipótesis nula como una igualdad, de modo que la probabilidad del error tipo 1 pueda controlarse en un valor específico. La hipótesis alternativa puede ser unilateral o bilateral, dependiendo de la conclusión que ha de obtenerse si se rechaza Ho
PRUEBA BILATERAL: Una prueba de cualquier hipótesis, tal como H0: = 0 H1:
0
recibe el nombre de prueba bilateral, debido a que es importante detectar diferencias a partir del valor hipotético de la media que se encuentren en cualquier lado de 0 . En una prueba de este tipo, la región crítica se separa en dos partes, con (usualmente) la misma probabilidad en cada cola de la distribución de la estadística de prueba.
PRUEBA UNILATERAL: Muchos problemas de prueba de hipótesis involucran de manera natural hipótesis alternativas unilaterales, tales como: H0: = 0 H1: > 0 ó H0: = 0 H1: < 0 Si la hipótesis alternativa es H1: > 0, la región crítica debe encontrarse en la cola superior de la distribución del estadístico de prueba, mientras que si la hipótesis alternativa es H 1: < 0, la región crítica debe encontrarse en la cola inferior de la distribución. En consecuencia, en ocasiones estas pruebas se conocen como pruebas de una cola.
Página | 32
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
PROCEDIMIENTO GENERAL 1.
Identificar el parámetro de interés
: parámetros ( , 2 , P , 1 - 2 , P 1 - P 2 , 12 / 22 )
: media ,
2: varianza
, p: proporción ,
p1 – p2: diferencia de proporciones
2.
,
1 – 2: diferencia de medias
21 / 22: cociente de varianzas
Planteo de la hipótesis.
H 0 : 0 H 0 : 0 H 0 : 0 H 1 : 0 H 1 : 0 H 1 : 0 3. Fijar el nivel de significación . Los valores usuales de son 1, 5, ó 10%
4. Pruebas estadísticas: dependiendo del parámetro a probar se usa un estadístico definido en la figura de la pàgina siguiente.
5. Pruebas estadísticas 2
Suposiciones para: ( , , 1
2 , 12 / 22 )
Poblacion(es) normalmente distribuida(s). Muestra(s) tomada(s) al azar.
Suposiciones para: ( p, p1 p2 ) Muestra(s) tomada(s) al azar. Muestras grandes.
Página | 33
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Hipótesis Nula
2
Región crítica
vs
H 1 :
0
Z 0
conocido
H 1 :
0
H 1 :
Z 0
0
H 0 :
Alternativa
0
Z
1
2
Z 1 Z 0 Z 1
H 0 : 2
0
vs
desconocido
H 1 :
0
T 0
H 1 :
0
H 1 :
T 0
0
t
1 ,n 1 2
t 1 ,n 1 T 0 t 1 ,n 1
2 vs
H 0 : 1 2 1
2 2
y conocidos
2 H 1 : 1 2 H 1 : 1 2 H 1 : 1
Z 0
Z
1
2
Z 1 Z 0 Z 1
Z 0
2 vs
H 0 : 1 2 1
desconocidos 2 2
2 vs
H 0 : 1 2 1
desconocidos 2 2
2 H 1 : 1 2 H 1 : 1 2
T 0
2 H 1 : 1 2 H 1 : 1 2
T 0
t 1 , n n 2 2 T 0 t 1 ,n n 2 T 0 t 1 ,n n 2
H 1 : 1
1
2
1 2
H 1 : 1
t
1
1 2
,df
2
t 1 ,df T 0 t 1 ,df
T 0
H 0 : 2
02
02 02 02
H 1 : 2 H 1 : 2 2
H 1 :
H 0 : 12
22
H 1 : 12 H 1 :
2 1
H 1 : 12
22 22 22
2
0
2
2 2 0 2 0
F 0
F
2
H 0 : p1
p0
p2
p0 H 1 : p p 0 H 1 : p p 0 H 1 : p
p2 H 1 : p1 p 2 H 1 : p1 p 2 H 1 : p1
0
2
1
2
,n 1
12 ,n 1 2 ,n 1
ó F 0
, n1 1, n2 1
F
1
2
, n1 1, n2 1
F 1 ,n 1, n 1 F 0 F ,n 1, n 1 F 0
H 0 : p
2
ó
,n 1
1
2
1
2
Z 0
Z
Z 0
Z 1
Z 0
Z 1
Z 0
Z
1
2
1
2
Z 0
Z 1
Z 0
Z 1
Página | 34
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
6. Regiones críticas Cola derecha: Cuando H1 contiene ">"
Cola izquierda: Cuando H1 contiene "<"
Doble cola: Cuando H1 contiene "≠"
7. Calcular las cantidades muestrales necesarias, sustituirlas en la ecuaciónp ara el estadístico de prueba y calcular el valor correspondiente.
8. Resultados y conclusiones.
Página | 35
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
HIPÓTESIS REFERENTE A UNA MEDIA Prueba de hipótesis de un promedio
Ejemplo 5.1 Las siguientes mediciones se registraron para el tiempo de secado, en horas, de cierta marca de pintura de látex:
3.4
2.5
4.8
2.9
3.6
2.8
3.3
5.6
3.7
2.8
4.4
4.0
5.2
3.0
4.8
Suponga que las mediciones representan una muestra aleatoria de una población normal, pruebe la hipótesis que el tiempo de secado es 4.5 horas.
Solución: Al tratarse de varianzas desconocidas se emplea el siguiente estadístico de prueba
Hipótesis
H0:
= 4.5
H1:
4.5
t
De los datos se obtiene:
X 0 S / n
3.787 4.5 0.971 / 15
Este valor debe ser comparado con t
2.85
1 , n 1 2
2.145
n 15
2.85 2.145 se rechaza la hipótesis nula, es
X 3.787
Como
S 0.971
decir, el tiempo promedio de secado es diferente a 4.5 horas.
La salida del MINITAB es la siguiente:
T-Test of the Mean
Test of mu = 4.500 vs mu not = 4.500
Variable x
N
Mean
StDev
SE Mean
T
P
15
3.787
0.971
0.251
-2.85
0.013
Página | 36
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Ahora ya sabemos que la media no es igual a 4.5, pero ¿es ésta mayor o menor a este valor?, para responder a esta pregunta haremos una prueba unilateral.
Solución: Hipótesis
Al tratarse de varianzas desconocidas se emplea el siguiente estadístico de prueba
H0:
= 4.5
H1:
< 4.5
t
X 0 S / n
3.787 4.5
0.971 / 15
2.85
De los datos se obtiene: Este valor debe ser comparado con t 1 , n 1
1.761
n 15 X 3.787 S 0.971
Como 2.85 1.761 se rechaza la hipótesis nula, es decir, el tiempo promedio de secado es inferior a 4.5 horas.
Ejemplo 5.2 De 100 momentos distintos, seleccionados al azar durante una semana de trabajo, se observa que un operador de una máquina realiza trabajo productivo en 80 de estas observaciones. Pruebe la hipótesis de que la proporción real que un operador realiza trabajo productivo es 0.90. Use = 0.05.
Solución: Al tratarse de una hipótesis con proporciones, es necesario resolver las siguientes fórmulas:
Hipótesis
H0:
= 0.9
H1:
0.9
De los datos se obtiene:
Z
n 100
1 n
0.9 0.1
0.8 0.9 0.03
100
0.03
3.33
El valor obtenido para Z debe ser comparado con el de Z
1
Como
2
3.33 1.96 Se rechaza la hipótesis nula.
Página | 37
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
HIPÓTESIS REFERENTE A DOS MEDIAS Y DOS VAR IANZAS. P RUEBA DE HIPÓTESIS DE COMPARACIÓN DE VARIANZAS Ejemplo 5.3 La American Car (AC) lleva a cabo un experimento para rebatir la aseveración de que los automóviles extranjeros dan más millas por galón que los autos americanos. Nicole Johnson, presidenta de la AC, piensa que tanto los promedios y las varianzas en el millaje son los mismos, para esto se lleva a cabo un estudio con 16 vehículos. Los resultados en millas por galón son:
Americano
Extranjero
34.2
35.3
32.5
32.6
37.1
37.1
34.1
34.1
31.9
31.9
31.3
36.4
32.0
35.7
33.3
33.3
Pruebe las hipótesis respectivas con un nivel de significación de normales)
= 0.05. (Asuma poblaciones
Prueba F para varianzas de dos muestras
Media Varianza Observaciones Grados de libertad F P(F<=f) una cola Valor crítico para F (una cola)
Americano 33.30 3.45 8 7 0.9910 0.4954 0.2641
Extranjero 34.55 3.49 8 7
Página | 38
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
P RUEBA DE HIPÓTESIS DE COMPARACIÓN DOS MEDIAS INDEPENDIENTES Prueba t para dos muestras suponiendo varianzas iguales
Media Varianza Observaciones Varianza agrupada Diferencia hipotética de las medias Grados de libertad Estadístico t P(T<=t) una cola Valor crítico de t (una cola) P(T<=t) dos colas Valor crítico de t (dos colas)
Americano 33.30 3.45 8 3.47 0 14 -1.3421 0.1005 1.7613 0.2009 2.1448
Extranjero 34.55 3.49 8
Two Sample T-Test and Confidence Interval
Two sample T for Millaje Vehículo
N
Mean
StDev
SE Mean
Americanos
8
33.30
1.86
0.66
Extranjero
8
34.55
1.87
0.66
95% CI for mu (Americanos)-mu (Extranjero):(-3.25,0.75) T-Test mu (Americanos)=mu Extranjero) vs not =):T= -1.34 P=0.20 DF=14 Both use Pooled StDev = 1.86
P RUEBA DE HIPÓTESIS DE COMPARACIÓN DE DOS MEDIAS RELACIONADAS Ejemplo 5.4 El departamento de ingeniería civil del Instituto Politécnico Y Universidad Estatal de Virginia compara una técnica de ensayo modificada (M-5 hr) para recuperar coliformes fecales en charcos de agua de lluvia en un área urbana con la técnica del número más probable (MPN). Se colecta un total de 12 muestras de charcos y se analizan con las dos técnicas. Los conteos de coliformes por 100 mililitros se registran en la siguiente tabla:
Página | 39
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Muestra
Conteo MPN
Conteo con M - 5hr
1
2300
2010
2
1200
930
3
450
400
4
210
436
5
270
4100
6
450
2090
7
154
219
8
179
169
9
192
194
10
230
174
11
340
274
12
194
183
Existen diferencias significativas en los conteos medios de coliformes fecales entre las técnicas M-5 hr y MPN. Suponga que las diferencias de conteos se distribuyen de forma aproximadamente normal. Use = 0.05.
Prueba t para medias de dos muestras emparejadas
Conteo MPN Conteo con M-5 hr Media 514.08 931.58 Varianza 398125.17 1479274.99 Observaciones 12 12 Coeficiente de correlación de Pearson 0.3057 Diferencia hipotética de las medias 0 Grados de libertad 11 Estadístico t P(T<=t) una cola Valor crítico de t (una cola) P(T<=t) dos colas Valor crítico de t (dos colas)
-1.2188 0.1242 1.7959 0.2484 2.2010
Página | 40
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS Ejercicio 1 Una máquina produce piezas metálicas de forma cilíndrica. Se toma una muestra de piezas cuyos diámetros son 1.01, 0.97, 1.03, 1.04, 0.99, 0.98, 0.99, 1.01, 1.03 centímetros. Con un nivel de significancia de .01. ¿Pruebe la hipótesis de que el diámetro promedio de piezas de esta máquina es de 1.009?
Ejercicio 2 Una muestra aleatoria de 8 cigarrillos de una marca determinada tiene un contenido promedio de nicotina de 2.6 miligramos y una desviación estándar de 0.9 miligramos. ¿Existe suficiente evidencia estadística para decir que el contenido promedio real de nicotina de esta marca de cigarros en particular es de 2.4 miligramos? Con
= .05.
Ejercicio 3 Se toma una muestra aleatoria de 12 agujas de tejer en un estudio de la dureza Rockwell de la cabeza de las agujas. Se realizan las mediciones de la dureza para cada una de las 12 piezas, de lo que se obtiene un valor promedio 48.50 con una desviación estándar de 1.5. Suponiendo que las mediciones están normalmente distribuidas, pruebe la hipótesis de que la dureza Rockwell promedio es menor 48.705. Con
= .05.
Ejercicio 4 Se compararon dos marcas de cigarrillos, C y D , respecto a su contenido de nicotina en miligramos, dieron los siguientes resultados.
Marca C
Marca D
= 40
= 50
= 14.3
= 15.7
= 2.9
= 3.8
Con un nivel de significancia de 0.01. Existe suficiente evidencia estadística para decir que hay diferencia entre las medias de contenido de nicotina para las dos marcas de cigarrillos.
Ejercicio 5 Se asume que se tienen la longitud del radio de 10 piezas antes y después de habérseles aplicado un tratamiento térmico, pruébese con un nivel de significancia de o.10, ¿ existe evidencia para decir que la media de la diferencia en los puntaje antes y después del tratamiento es diferente? Antes Después
9.0 7.3 6.7 9.2 8.2 8.5
5.3 8.7 6.3 7.9 7.3 4.9 8.9 5.8 8.2 7.8
8.0 8.5 9.5 8.0
Página | 41
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
ANÁLISIS DE VARIANZA EXPERIMENTOS CON UN SOLO FACTOR D ISEÑO COMPLETAMENTE ALEATORIZADOS Supongamos que el experimentador cuenta con los resultados de k muestras aleatorias independientes, cada una de tamaño n, de ka diferentes poblaciones (esto es, datos relativos a k tratamientos, k grupos, k métodos de producción, etc.) y le interesa probar la hipótesis de que las medias de esas k poblaciones son todas iguales.
Tratam.
Tratam.1
Tratam.2
...
Tratam.k
Total
1
Y11
Y21
...
Yk1
Y.1
2
Y12
Y12
...
Yk2
Y.2
3
Y13
Y23
...
Yk3
Y.3
.
.
.
...
.
.
.
.
.
...
.
.
.
.
.
...
.
.
N
y1n
y2n
...
ykn
y.n
Total
y1.
y2.
...
yk.
y..
Muestra
Donde. n
yi.
y
ij
j 1
k
, y. j
y
ij
k
, y..
i 1
n
k
n
y y y i.
i 1
. j
j 1
ij
i 1 j 1
Para probar la hipótesis de que las muestras se obtuvieron de k poblaciones con medias iguales, haremos varias suposiciones. Con más precisión, supondremos estar trabajando con poblaciones normales que tienen varianzas iguales. Si i denota la media de las i-ésima población y 2 indica la varianza común de las k poblaciones, podemos expresar cada observación y ij como i más el valor de un componente aleatorio; es decir podemos escribir
yij
i ij para i 1, 2, . .., k ; j 1, 2, ..., n
Para lograr uniformidad en las ecuaciones correspondientes a clases de diseño más complicados, se acostumbra reemplazar i por + i, donde es la media de las i y i es el efecto del i-ésimo
Página | 42
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial k
tratamiento; de ahí que
0 . Con estos nuevos parámetros, podemos escribir la ecuación i
i 1
modelo para el criterio de clasificación.
yij
i ij
para i 1, 2, . .., k ; j 1, 2, ..., n
donde:
yij :
La j- ésima observación en la i-ésima muestra
:
Parámetro de la media poblacional.
i :
Efecto del i-ésimo tratamiento.
ij :
Error aleatorio asociado a la observación yij.
ij N(0, 2)
TABLA DE ANALISIS DE VARIANZA
Fuente de variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
k
Tratamientos
K – 1 K(n – 1)
Error
SS (Tr )
nk - 1
i 1
n
y..2 kn
SSE SST SS (Tr )
k
Total
yi2.
SST
CM (Tr ) CME
SS (Tr )
Fc
F
Ft
CM ( Tr ) F(K-1,K(nCME
1),)
K 1 SSE
K ( n 1)
n
y 2 yij2 .. kn i 1 j 1
Página | 43
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Ejemplo 6.1 Las cifras siguientes son el número de errores realizados en cinco días consecutivos de trabajo por cuatro técnicos de un laboratorio fotográfico:
Técnico I
Técnico II
Técnico III
Técnico IV
6
14
10
9
14
9
12
12
10
12
7
8
8
10
15
10
11
14
11
11
Prueba con un nivel de significancia atribuirse al azar.
= 0.05 si las diferencias entre las cuatro muestras pueden
Solución. Tabla Resumen
G rupos
C uenta
S uma
Promedio
Varianza
Técnico I Técnico II Técnico III Técnico IV
5 5 5 5
49 59 55 50
9.8 11.8 11 10
9.2 5.2 8.5 2.5
Los totales para las cuatro muestras son, respectivamente, 49, 59, 55, y 50, el gran total es 213, y los cálculos con que se obtienen las sumas nec esarias son los siguientes:
4
5
y
2 ij
i 1 j 1
nk SST SS (Tr )
( 213) 2 2268.45 (5)(4)
(6) 2 (14) 2 (10) 2 . . . (11) 2 2268.45 114.55
( 49) 2 (59) 2 (55) 2 (50) 2 5
2268.45 12.95
La tabla del análisis de varianza es.
Fuente de variación
Suma de cuadrados
Cuadrado medio
4 – 1 = 3
12.95
4.32
Error
4(5 - 1)= 16
101.60
6.35
Total
5(4) – 1 = 19
114.55
Tratamientos
Grados de libertad
Fc
Ft
0.68
3.24
Página | 44
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Puesto que el valor obtenido para F es menor que 3.24, que corresponde al valor F0.05 con 3 y 16 grados de libertad, la hipótesis nula no puede ser rechazada con nivel de significación de 0.05; concluimos que no se puede rechazar la hipótesis de que los técnicos están logrando resultados consistentes.
La salida del MINITAB es:
One-way Analysis of Variance
Analysis of Variance Source
DF
SS
MS
F
P
Factor
3
12.95
4.32
0.68
0.577
Error
16
101.60
6.35
Total
19
114.55 Individual 95% CIs For Mean Based on Pooled StDev
Level
N
Mean
StDev
Técnico
5
9.800
3.033
Técnico
5 11.800
2.280
Técnico
5 11.000
2.915
Técnico
5 10.000
1.581
---+---------+---------+---------+--(-----------*-----------) (-----------*-----------) (-----------*-----------) (-----------*-----------) ---+---------+---------+---------+---
Pooled StDev =
2.520
8.0
10.0
12.0
14.0
Página | 45
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
DISEÑO CON BLOQUES ALEATORIZADOS Se supone que el experimentador tiene a su disposición mediciones relativas a a tratamientos distribuidos sobre b bloques. En primer término, consideraremos el caso en que hay exactamente una observación de cada tratamiento en cada bloque.
Tratamientos
Totales
Bloques
T1
T2
T3
...
Ti
...
Ta
B1
y11
y21
y31
...
yi1
...
ya1
y .1
y12
y22
y32
...
yi2
...
ya2
y. 2
y13
y23
y33
...
yi3
...
ya3
y.3
.
.
.
.
...
.
...
.
.
.
.
.
.
...
.
...
.
.
.
.
.
.
...
.
...
.
.
Y1j
y2j
y3j
...
yij
...
yaj
y. j
.
.
.
...
.
...
.
y1b
y2b
y3b
...
yib
...
Yab
y. b
y1.
y 2.
y 3.
...
y i.
...
y a.
y
B2
B3
B j . Bb Totales
..
Cada observación puede ser expresada con el siguiente modelo lineal.
yij
i j ij para
i 1,2,..., a ; j 1,2,..., b
donde: yij :
Es la observación relativa al i-ésimo tratamiento del j-ésimo bloque.
:
Es la gran media
i :
Es el efecto del i-ésimo tratamiento.
ij :
Es el efecto del j-ésimo bloque.
ij :
es el error aleatorio correspondiente a la observación yij.
Página | 46
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial a
También
i i 1
b
0
y
j
0
j 1
Página | 47
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
SUMA DE CUADRADOS a
SCTotal
b
y ij2
i 1 j 1 a
SCT
i 1 b
SCB
j 1
y..2 ab
y i2. b
y ..2 ab
y .2 j
y..2 ab
b
SCE SCTotal SCT SCB TABLA DE ANALISIS DE VARIANZA
Fuente de
Grados de
Suma de
variación
libertad
cuadrados
Tratamientos
a-1
SCT
CMT
Bloque
b-1
SCB
CMB
Error
(a - 1)(b - 1)
SCE
Total
ab - 1
SCTotal
Cuadrado medio
CME
SCT a 1 SCB b 1
F
F T
CMT
F B
CMB
CME
CME
SCE (a 1)(b 1)
Ejemplo 6.2 Se han tomado muestras de aguas subterráneas de cinco diferentes zonas de depósito de aguas tóxicas por cada una de tres agencias siguientes: la EPA, la compañía propietaria de los lugares de depósito y un asesor independiente dedicados a asuntos de ingeniería. Cada muestra fue analizada buscando detectar la presencia de cierto contaminante por todos los métodos de laboratorio que la agencia que recolectó la muestra suele emplear. Se consideraron los siguientes resultados:
Lugar A
Lugar B
Lugar C
Lugar D
Lugar E
Agente 1
23.8
7.6
15.4
30.6
4.2
Agente 2
19.2
6.8
13.2
22.5
3.9
Agente 3
20.9
5.9
14.0
27.1
3.0
¿Existe alguna razón para creer que los laboratoristas no son, en sus mediciones, consistentes entre sí? ¿Difiere una zona de depósito con respecto a cualquier otra en su nivel de contaminación? Utilice un nivel de significación de 0.05.
Página | 48
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Solución. Las hipótesis nula y planteada son.
H o : 1 2 3 H 1 : No todas las son iguales
H o : 1 2 3 4 5 H 1 : No todas las son iguales
El nivel de significación: = 0.05.
Criterio: Para tratamientos, se rechaza la hipótesis nula si F > 4.46, el valor de F 0.05 para 2 y 8 grados de libertad. Para bloques, se rechaza la hipótesis nula si F > 3.84, el valor de F 0.05 para 4 y 8 grados de libertad.
Tabla Resumen:
R E S UME N
C uenta
S uma
Promedio
Varianza
Agente 1 Agente 2 Agente 3
5 5 5
81.6 65.6 70.9
16.32 13.12 14.18
120.912 62.477 101.417
Lugar A Lugar B Lugar C
3 3 3
63.9 20.3 42.6
21.3 6.76666667 14.2
5.41 0.72333333 1.24
Lugar D Lugar E
3 3
80.2 11.1
26.7333333 3.7
16.5033333 0.39
Cálculos: a
Sustituyendo a = 3, b . = 5 y1. = 81.6, y2. = 65.6, y3. = 70.9 y.. = 218.1, y
b
y
2 ij
436.97 en las
i 1 j 1
expresiones para calcular la suma de cuadrados, obtenemos.
3
5
y
2 ij
i 1 j 1
a.b SST
(15)
3171.17
4336.97 3171.17 1165.80
SS (Tr ) SSB
(218.1) 2
(81.6) 2 5
(63.9) 2
(65.5) 2
...
5
(70.9) 2 5
3171.17 26.57
(11.1) 2
3171.17 1117.26 3 3 SSE SCT SC (Tr ) SCB 21.96
Página | 49
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
El cuadro de análisis de varianza es.
Fuente de variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
F
Ftab
Tratamiento
3 – 1 = 2
26.57
13.29
4.84
4.46
Bloques
5 – 1 = 4
1117.26
279.32
101.75
3.84
Error
(3-1)(5-1)=8
21.96
2.75
Total
(3)(5) – 1 = 14
1165.80
EXPERIMENTOS DE DOS FACTORES Cuando se identifica dos o más factores que actúan tanto de manera aislada como de manera conjunto en la variable respuesta es preferible analizar el modelo como un diseño factorial con dos o mas factores.
Terminología usada Respuesta: es el nombre genérico que se da a la característica estudiada. Factores: se designa de esta forma a las variables que se considera puedan afectar a la respuesta. Niveles: son los valores que toma un factor en un determinado experimento.
Ejemplo 6.3 Supóngase que se desea diseñar un muelle de manera que el número máximo de compresiones hasta la rotura sea lo mayor posible, y que para ello se pueda jugar con tres variables: la longitud, el grosor del alambre de partida y el tipo de acero del alambre (pueden existir un conjunto mayor de variables). Además se ha determinado que se experimentará con dos valores de longitud, 10cm y 15cm, y con dos niveles de grosor, diámetros de 5mm y 7mm, y con dos tipos de acero, A y B.
En este caso la respuesta (Y) será el número de compresiones hasta la rotura. El modelo para un experimento de dos factores es:
yijk i j
( ) ij ijk para i 1,2,..., a j 1,2,..., b k 1,2,..., n
donde: yij :
Variable respuesta.
:
Es la gran media
i :
Es el efecto en el nivel i-ésimo del factor A.
ij :
Es el efecto en el nivel j-ésimo del factor B.
ij :
Es el efecto de la interacción.
Página | 50
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
ij :
Es el error aleatorio correspondiente a la observación yij.
N:
Es el número de réplicas
SUMA DE CUADRADOS
r
SST
a
b
y
y..2 abr
2 ijk
k 1 i 1 j 1 a
SS (Tr )
b
i 1 j 1
y ij2.
y..2 abr
r
SSE SST SS (Tr )
SUBDIVISIÓN DE LA SUMA DE CUADRADOS DE TRATAMIENTOS
y .. 1 a SSA yi2.. br i 1 abr
2
y .. 1 b SSB y .2 j . ar j 1 abr
2
SS ( AB ) SS ( Tr ) SSA SSB TABLA DE ANALISIS DE VARIANZA
Grados de libertad
Suma de cuadrados
Cuadrado medio
a –1
SSA
CMA
b -1
SSB
CMB
(a – 1)(b – 1)
SS(AB)
CM(AB)
Error
ab (n - 1)
SSE
CME
Total
abn - 1
SST
Fuente de variación Efectos principales A B Interacción AB
F CMA CME CMB CME
CM ( AB ) CME
Página | 51
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Ejemplo 6.4 Para determinar las condiciones óptimas para un baño de galvanoplástico, los efectos de la concentración de sulfota y la de la temperatura del baño sobre la reflectividad del metal revestido se estudian en un experimento factorial 2x5. Los resultados de tres réplicas son los siguientes:
Reflectividad
Concentración (g/l)
Temperatura (°F)
Rép.1
Rép.2
Rép.3
Total
5
75
35
39
36
110
5
100
31
37
36
104
5
125
30
31
33
94
5
150
28
20
23
71
5
175
19
18
22
59
10
75
38
46
41
125
10
100
36
44
39
119
10
125
39
32
38
109
10
150
35
47
40
122
10
175
30
38
31
99
321
352
339
1012
Total
Analice esos resultados y determine la condición o condiciones del baño que producen la máxima capacidad de reflexión.
Solución. Las hipótesis nula y planteada son.
H o : α 1 = α 2 = 0
{ H o : ( αβ )11 = ( αβ )12
H o : β 1 = β 2 = β 3 = β 4 = β 5 = 0 = ... = ( αβ )25 = 0
El nivel de significación: = 0.05.
Criterio: Para el efecto principal del factor A: Si F> F(1,18) Para el efecto principal del factor B: Si F> F(4,18) Para el efecto interacción: Si F> F(4,18)
Página | 52
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Tabla Resumen RESUMEN
75
100
125
150
175
Total
5
Cuenta Suma Promedio Varianza
3 3 3 3 3 15 110 104 94 71 59 438 36.666667 34.666667 31.3333333 23.667 19.66666667 29.2 4.3333333 10.333333 2.33333333 16.333 4.333333333 50.74285714 10
Cuenta Suma Promedio Varianza
3 3 3 3 125 119 109 122 41.666667 39.666667 36.3333333 40.667 16.333333 16.333333 14.3333333 36.333
3 99 33 19
15 574 38.26666667 25.4952381
Total
Cuenta Suma Promedio Varianza
6 6 6 6 6 235 223 203 193 158 39.166667 37.166667 33.8333333 32.167 26.33333333 15.766667 18.166667 14.1666667 107.77 62.66666667
Resultados:
Fuente de variación
Grados de libertad
Suma de cuadrados
Cuadrado medio
F
p
A
1
616.53
616.533
44.04
0
B
4
591.2
147.8
10.56
0
Interacción
4
196.13
49.033
3.5
0.025
Error
20
280
14
Total
29
1683.87
Página | 53
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
EJERCICIOS PROPUESTOS Ejercicio 1 Consideremos cuatro compañías (A, B, C y D), cuyas acciones cotizan en bolsa. Seleccionamos de forma aleatoria las cotizaciones de estas acciones durante diferentes instantes de tiempo a lo largo de un mes. Así pues, para la compañía A se observa la cotización en cinco instantes aleatorios, para la B se observa en cuatro, para la C se observa en seis y, finalmente, para la compañía D, en cinco. En la tabla siguiente se da la cotización en pesetas de las diferentes acciones en los instantes de tiempo seleccionados:
Contraste el nivel del 5% si las cotizaciones medias de las acciones de cada una de las cuatro compañías se pueden considerar iguales. Confeccionad la tabla de análisis de la varianza.
Ejercicio 2 Los estudiantes de segundo curso de una escuela universitaria de ingeniería estuvieron repartidos de forma aleatoria en tres grupos. En cada grupo se enseñó estadística con una estrategia docente diferente. Al final del curso todos los alumnos hicieron el mismo examen. Se seleccionaron de forma aleatoria algunas cualificaciones obtenidas por algunos alumnos de los tres grupos. Los resultados son los siguientes:
Haga un análisis de la varianza e indique si puede asegurar a un nivel significativo del 0,05 que el resultado obtenido depende de la técnica de enseñanza utilizada.
Ejercicio 3 Una compañía necesita de cierto químico como materia prima y está buscando donde mandarlo a hacer. Antes de tomar una decisión, le pide a 4 laboratorios que le hagan 5 muestras. Vemos los resultados en alguna métrica en la siguiente tabla. ¿Hay una diferencia entre las medias de las poblaciones? Lab 1 4.13 4.07 4.04 4.07 4.05 Lab 2 3.86 3.85 4.08 4.11 4.08 Lab 3 4.00 4.02 4.01 4.01 4.04 Lab 4 3.88 3.89 3.91 3.96 3.92
Página | 54
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
ANÁLISIS DE REGRESIÓN El objetivo de muchas investigaciones estadísticas es hacer predicciones basados en ecuaciones matemáticas. Por ejemplo un ingeniero podría estar interesado en predecir la cantidad de óxido que se forma cobre la superficie de un metal cocido en un horno, durante una hora a 230 grados Celsius, o podría también predecir la magnitud de deformación en un anillo sometido a una fuerza de compresión de 1000 libras; justamente para dar respuesta a tales interrogantes será necesario contar con una regla funcional que relacione una variable con otra u otras variables y de este estudio se encarga el análisis de regresión.
REGRESIÓN LINEAL SIMPLE. El análisis de regresión lineal da como resultado una ecuación matemática que describe cierta relación determinada. La ecuación puede usarse para estimar o predecir los valores de una variable cuando se conocen o se suponen conocidos los valores de otra variable. En este caso es importante remarcar que la relación que se encontrará es lineal (exponente 1 de las variables) y es entre dos variables (X, Y) solamente, por eso se llama “simple”.
E L DIAGRAMA DE DISPERSIÓN El primer paso en el análisis de regresión, es construir una gráfica de los datos muestrales en un plano bidimensional. Esta gráfica se denomina diagrama de dispersión,
El diagrama de dispersión indica frecuentemente el tipo de tendencia de Y con respecto a X.
Ejemplo 7.1 En la tabla siguiente, X es la fuerza de tensión aplicada a un espécimen de acero en miles de libras y Y es el alargamiento resultante en milésimas de pulgada:
X
1
2
3
4
5
6
Y
14
33
40
63
76
85
Elabore el diagrama de dispersión de los datos
Página | 55
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
DIAGRAMA DE DISPERSION 90 Y
80 70 60 50 40 30 20 10 1
2
3
4
5
6
x
L A ECUACIÓN DE LÍNEA RECTA Dos importantes características de la línea recta son:
La pendiente de la recta b
El intercepto de la recta (el valor de y cuando x = 0)
La ecuación lineal es la siguiente:
y ˆi
a bx
E L MÉTODO DE LOS MÍNIMOS CUADRADOS El método más empleado para ajustar una línea recta a un conjunto de puntos es conocido como la técnica de los mínimos cuadrados, cuya recta resultante tiene dos características importantes:
La suma de las desviaciones verticales de los puntos con relación a la recta es cero; y
La suma de los cuadrados de las desviaciones es mínima (es decir, ninguna otra recta daría una menor suma de cuadrados de tales desviaciones)
Simbólicamente el valor que se minimiza es: n
( y y ) i
ˆ
2
i
i 1
Los valores de a y b que minimizan la suma de los cuadrados de las desviaciones, son las soluciones de las llamadas ecuaciones normales de la recta de regresión:
Página | 56
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
n yi na b xi i i n n n xi yi a xi b xi i i i n
1
1
2
1
1
1
Resolviendo las ecuaciones simultáneas para a y b tenemos:
n n n n xi y i xi y i i 1 i 1 i 1 b 2 n 2 n n xi xi i 1 i 1 a y b x A continuación se muestra una salida del MINITAB.
Regression Analysis
The regression equation is y = 1.13 + 14.5 x
Predictor Constant x
Coef
StDev
1.133
3.686
14.4857
S = 3.959
T
0.9465
P
0.31
0.774
15.31
0.000
R-Sq = 98.3%
R-Sq(adj) = 97.9%
Analysis of Variance Source
DF
SS
MS
Regression
1
3672.1
3672.1
Residual Error
4
62.7
15.7
Total
5
3734.8
F 234.25
P 0.000
Predicted Values Fit 37.35
StDev Fit 1.87
95.0% CI (32.15,42.55)
95.0% PI (25.19, 49.51)
Página | 57
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
REGRESIÓN LINEAL MÚLTIPLE El modelo lineal general para el análisis de regresión múltiple es el siguiente:
Y = β 0 + β 1 x1 + β 2 x2 + β 1 x1 + ... + β k xk + ε Y
: variable respuesta que se quiere predecir
0, 1,. ., k
: constantes.
x1, x2,... , xk : variables predictoras independientes que se miden sin error.
: es un error aleatorio que, para cualquier conjunto dado de valores de x1, x2,...,xk , tienen una distribución normal con media igual a cero y una varianza igual a 2. Los errores aleatorios, digamos , j asociados a cualquier par de valores son independientes.
E CUACIÓN DE REGRESIÓN MUESTRAL A partir de los datos de la muestra, se encuentran las estimaciones de los parámetros y se determina el hiperplano que mejor se ajusta al conjunto de datos llamado hiperplano de regresión muestral. La ecuación es la siguiente:
Y = b0 + b1 x1 + b2 x2 + +... + bk xk ˆ
Y
: valor estimado de la variable dependiente
b0, b1,. ., bk
: estimaciones muestrales de los parámetros poblacionales
x1, x2,... , xk : son variables predictoras
E STIMACIÓN DE LOS PARÁMETROS Para estimar los parámetros del análisis de regresión múltiple también se utiliza el método de mínimos cuadrados.
Y 1 = β 0 + β 1 x11 + β 2 x12 + β 3 x13 + ... + β k x1k + ε 1 Y 2 = β 0 + β 1 x 21 + β 2 x 22 + β 3 x 23 + ... + β k x 2 k + ε 2 . . .
Y n = β 0 + β 1 x n1 + β 2 x n 2 + β 3 x n3 + ... + β k x nk + ε n Y =
X
+
Página | 58
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
El estimador de mínimos cuadrado de es:
' ( X X ) -1 X 'Y
Y el modelo estimado es:
y X
ˆ
ˆ
ˆ
Las propiedades estadísticas del estimador
E ( ) ˆ
son:
' Cov( ) 2 ( X X )
1
ˆ
C OEFICIENTE DE REGRESIÓN ESTIMADO Los valores b0, b1,. ., bk se conocen como coeficientes de regresión estimados. Un coeficiente de regresión estimado específico mide el cambio promedio en la variable dependiente debido a un incremento de una unidad en la variable predictora relevante, manteniendo constantes las otras variables de predicción.
EVALUACIÓN DE LA REGRESIÓN LINEAL. A NÁLISIS DE VARIANZA Para probar la significancia de una regresión puede utilizarse el método del análisis de varianza. El procedimiento particiona la variabilidad total en la variable de respuesta en dos componentes:
n
y i 1
i
n
n
y y i y y i y i 2 2
2
ˆ
ˆ
i 1
i 1
Los dos componentes del lado derecho de la ecuación miden, respectivamente, la cantidad de la variabilidad en y¡ tomada en cuenta por la recta de regresión (suma de los cuadrados de la regresión) y la variación residual que queda sin explicar por la recta (suma de los cuadrados de los errores). De manera simbólica, podemos escribir la ecuación anterior como:
SST = SSR + SSE
Tabla de Análisis de Varianza Fuente
g.l.
SS
MS
Regresión
k
SSR
MSR = SSR / k
Error
(n – k -1)
SSE
MSE = SSE / (n - k -1)
Total
(n - 1)
SST
Página | 59
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Por tanto, si la hipótesis nula Ho: 1 = 2 = 3 …n = 0 se rechaza, el estadístico F
MS R MS E
que sigue la
distribución Fk, n-k-1, debe ser: F > F 1-, k, n-k-1 (valor crítico para un dado).
E RROR ESTÁNDAR DE LA ESTIMACIÓN El error estándar de la estimación mide la variabilidad, o dispersión, de los valores muestrales y observados alrededor del plano de regresión.
s y . x
SS E n p
MS E
donde p = k +1es el numero de parámetros a estimar.
C OEFICIENTE DE DETERMINACIÓN MÚLTIPLE (R 2 ) El coeficiente de regresión múltiple mide el porcentaje de la variabilidad en y que se puede explicar mediante las variables de predicción.
Un valor de R2 cercano a uno significa que la ecuación es muy exacta porque explica una gran porción de la variabilidad de y. Se define como:
R 2
SS R SS T
Si embargo si se introducen excesivas variables ala modelo el coeficiente de determinación incrementará su valor, por tal razón se suele calcular el coeficiente de determinación ajustado:
p(1 R ) 2
R ajustado R 2
2
n p 1
P RUEBAS DE HIPÓTESIS EN LA REGRESIÓN LINEAL MÚLTIPLE . Una vez que se ha recogido una muestra aleatoria se han medido las variables y se ha examinado la matriz de correlación para determinar aquellas combinaciones de variables que son de interés, se analizan los modelos con el mejor potencial. El objetivo es encontrar la mejor ecuación para predecir y después decidir si ésta ecuación satisface las necesidades de exactitud del analista.
Los valores t calculados son de particular importancia en la regresión múltiple porque constituyen la forma principal de detectar multicolinealidad. Si son suficientemente grandes, la correlación entre las dos variables predictoras no es un problema. Si uno o ambos valores t son menores que los valores t de tablas, la multicolinealidad está presente.
Pruebas individuales
Estadístico de prueba
H 0 : i 0
T
H 1 : i 0
i s i ˆ
ˆ
Página | 60
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Prueba conjunta
2 ,..., k 0 H 1 : j 0 H 0 : 1
Estadístico de prueba
F
MS R MS E
Página | 61
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Ejemplo 7.2 A doce especímenes de láminas de acero reducido en frío con contenidos diferentes de cobre y diferentes temperaturas de recocido se les mide su dureza con los siguientes resultados:
Dureza
Contenido
Temperatura
(Rockwell 30-T)
de cobre (%)
Del recocido (°F)
78.9
0.02
1000
65.1
0.02
1100
55.2
0.02
1200
56.4
0.02
1300
80.9
0.10
1000
69.7
0.10
1100
57.4
0.10
1200
55.4
0.10
1300
85.3
0.18
1000
71.8
0.18
1100
60.7
0.18
1200
58.9
0.18
1300
Ajuste una ecuación de la forma y = b 0 +b1x1 + b2x2, donde x1 representa el contenido de cobre, x 2 representa la temperatura de recocido y y representa la dureza.
Estime la dureza de una lámina de acero con un contenido de cobre de 0.05% y una temperatura de recocido de 1150 °F.
La salida de MINITAB se muestra a continuación.
Página | 62
Profesor : Eduardo Carbajal López Curso : Estadística Experimental para la Toma de Decisiones Maestría Ingeniería Industrial
Regression Analysis
The regression equation is Dureza = 161 + 33.0 Cobre - 0.0855 Temperatura
Predictor
Coef
StDev
T
P
161.34
11.43
14.11
0.000
32.97
16.75
1.97
0.081
-0.085500
0.009788
-8.74
0.000
Constant Cobre Temperat S = 3.791
R-Sq = 89.9%
R-Sq(adj) = 87.7%
Analysis of Variance Source
DF
SS
MS
F
P
Regression
2
1152.19
576.09
40.09
0.000
Residual Error
9
129.34
14.37
11
1281.53
Total
Source
DF
Seq SS
Cobre
1
55.65
Temperat
1
1096.54
Predicted Values Fit
StDev Fit
64.66
1.38
95.0% CI (61.54, 67.78)
95.0% PI (55.54, 73.78)
Página | 63