TECSUP - PFR
Estadística Aplicada a Laboratorios
Índice
Unidad I: 1. 2. 3. 4. 5. 6.
7.
8.
9. 10. 11.
Introducción ................................................................................................. 1 Variables discretas y continuas ....................................................................... 4 Redondeo de datos........................................................................................ 4 Cifras significativas ........................................................................................ 4 Funciones ..................................................................................................... 6 Distribución de frecuencias - proceso de tabulación de la información ................ 7 6.1. La representación de los datos: frecuencias .......................................... 9 6.2. Tabla de distribución de frecuencias ................................................... 13 6.3. Representaciones gráficas de la distribución de frecuencias .................. 15 6.4. Histogramas de frecuencias ............................................................... 16 6.5. Polígono de frecuencias ..................................................................... 16 6.6. Ojivas .............................................................................................. 17 Medidas de tendencia central ....................................................................... 19 7.1. La media aritmética........................................................................... 20 7.2. La mediana ...................................................................................... 22 7.3. La moda........................................................................................... 25 7.4. Cuartiles poblacionales y muestrales ................................................... 26 7.5. Percentiles poblacionales y muestrales ................................................ 26 Medidas de dispersión.................................................................................. 28 8.1. Rango .............................................................................................. 28 8.2. Desviación media .............................................................................. 29 8.3. Varianza y desviación estándar .......................................................... 32 8.4. Coeficiente de variación (PEARSON) ................................................... 34 Errores ....................................................................................................... 37 9.1. Clasificación de errores ...................................................................... 37 9.2. Cuantificación de los errores .............................................................. 40 Rechazo de un resultado (valores atípicos, outliners) ...................................... 41 10.1. Prueba de la Q.................................................................................. 41 10.2. Prueba de GRUBBS ........................................................................... 43 Regresión lineal simple. Análisis de regresión ................................................ 44 11.1. Cálculo de las líneas de ajuste y sus ecuaciones. ................................. 45 11.2. Coeficiente de correlación lineal de PEARSON. ..................................... 48
Unidad II: 1. 2. 3.
HERRAMIENTAS ESTADÍSTICAS DE CONTROL
TEORÍA Y APLICACIONES DE CÁLCULO DE PROBABILIDADES
Introducción ............................................................................................... 57 Distribución de probabilidad continua ............................................................ 59 Modelos de distribución de probabilidad de variables continuas ....................... 69 3.1. La distribución normal ....................................................................... 72
Estadística Aplicada a Laboratorios
TECSUP - PFR
Unidad III: ESTIMACIÓN ESTADÍSTICA Y PRUEBA DE HIPÓTESIS 1. 2. 3. 4.
Estimación estadística .................................................................................. 75 Métodos para la estimación de parámetros .................................................... 79 2.1 Estimación de un parámetro ............................................................... 80 2.2 Estimación por intervalos de confianza ................................................ 83 Prueba de una hipótesis acerca de un parámetro ............................................ 99 Pruebas de significatividad .......................................................................... 106 4.1 Prueba de la F................................................................................. 106 4.2 Prueba de la t de student ................................................................. 107
Unidad IV: 1.
2. 3. 4.
DISEÑO DE EXPERIMENTOS
Evaluación de consistencia de datos ............................................................ 113 1.1 Condiciones de repetibilidad ............................................................. 115 1.2 Condiciones de reproductibilidad....................................................... 115 1.3 Técnica gráfica de consistencias ....................................................... 116 1.4 Técnica numérica para valores atípicos (Prueba de COCHRAN) ............ 117 1.5 Estimación de la precisión ................................................................ 118 Análisis de varianza. ANOVA ...................................................................... 119 Gráfico de control ...................................................................................... 123 3.1 Gráficos de control de shewhart ....................................................... 124 Introducción al diseño estadístico de experimentos ....................................... 132 4.1 Comprender el problema y definir claramente el objetivo. ................... 137 4.2 Identificar los factores y el dominio experimental de interés. ............... 138 4.3 Planificar la experimentación. Elección del diseño experimental ........... 139 4.4 Realización de la experimentación..................................................... 141 4.5 Interpretar los resultados. ................................................................ 141
TECSUP – PFR
Estadística Aplicada a Laboratorios
UNIDAD I HERRAMIENTAS ESTADÍSTICAS DE CONTROL
1.
INTRODUCCIÓN La estadística es una ciencia matemática que se refiere a la colección, estudio e interpretación de los datos obtenidos en un estudio. Es aplicable a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales y es usada en la toma de decisiones en áreas de negocios e instituciones gubernamentales. La Estadística se divide en dos ramas: La estadística descriptiva, que se dedica a los métodos de recolección, descripción, visualización y resumen de datos originados a partir de los fenómenos en estudio. Los datos pueden ser resumidos numérica o gráficamente. Ejemplos básicos de descriptores numéricos son la media y la desviación estándar. Resúmenes gráficos incluyen varios tipos de figuras y gráficos. La inferencia estadística, que se dedica a la generación de los modelos, inferencias y predicciones asociadas a los fenómenos en cuestión teniendo en cuenta lo aleatorio e incertidumbre en las observaciones. Se usa para modelar patrones en los datos y extraer inferencias acerca de la población de estudio. Estas inferencias pueden tomar la forma de repuestas a preguntas si/no (prueba de hipótesis), estimaciones de características numéricas (estimación, pronósticos de futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen ANOVA, series de tiempo y minería de datos. Ambas ramas (descriptiva e inferencial) comprenden la estadística aplicada. Hay también una disciplina llamada estadística matemática, la cual se refiere a las bases teóricas de la materia. La palabra estadísticas también se refiere al resultado de aplicar un algoritmo estadístico a un conjunto de datos, como en estadísticas económicas, estadísticas criminales, etc. Al aplicar estadística a un problema científico, industrial o social, se comienza con un proceso o población a ser estudiado. Esta puede ser una población de personas en un país, de granos cristalizados en una roca o de bienes manufacturados por una fábrica en particular durante un periodo dado. También podría ser un proceso observado en varios instantes y los datos recogidos de esta manera constituyen una serie de tiempo.
1
Estadística Aplicada a Laboratorios
TECSUP – PFR
Por razones prácticas, en lugar de compilar datos de una población entera, usualmente se estudia un subconjunto seleccionado de la población, llamado muestra. Datos acerca de la muestra son recogidos de manera observacional o experimental. Los datos son entonces analizados estadísticamente lo cual sigue dos propósitos: descripción e inferencia. El concepto de correlación es particularmente valioso. Análisis estadísticos de un conjunto de datos puede revelar que dos variables (esto es, dos propiedades de la población bajo consideración) tiende a variar conjuntamente, como hubiera una conexión entre ellas. Por ejemplo un estudio del ingreso anual y la edad de muerte entre personas podrían resultar en que personas pobres tienden a tener vidas mas cortas que personas de mayor ingreso. Las dos variables se dicen a ser correlacionadas. Sin embargo, no se pude inferir inmediatamente la existencia de una relación de causalidad entre las dos variables; ver correlación no implica causalidad. El fenómeno correlacionado podría ser la causa de un tercero, previamente no considerado, llamado variable confundida. Si la muestra es representativa de la población, inferencias y conclusiones hechas en la muestra pueden ser extendidas a la población completa. Un problema mayor es el de determinar que tan representativa es la muestra extraída. La estadística ofrece medidas para estimar y corregir por aleatoriedad en la muestra y en el proceso de recolección de los datos, así como métodos para diseñar experimentos robustos como primera medida, ver diseño experimental. El concepto matemático fundamental empleado para entender la aleatoriedad es el de probabilidad. La estadística matemática (también llamada teoría estadística) es la rama de las matemáticas aplicadas que usa la teoría de probabilidades y el análisis matemático para examinar las bases teóricas de la estadística. El uso de cualquier método estadístico es valido solo cuando el sistema o población bajo consideración satisface los supuestos matemáticos del método. Mal uso de la estadística puede producir serios errores en la descripción e interpretación — afectando las políticas sociales, la practica médica y la calidad de estructuras tales como puentes y plantas de reacción nuclear. Incluso cuando la estadística es correctamente aplicada, los resultados pueden ser difícilmente interpretados por un no experto. Por ejemplo, la significancia estadística de una tendencia en los datos, la cual mide que tanto la tendencia puede ser causada por una variación aleatoria en la muestra. El conjunto de habilidades estadísticas básicas (y el escepticismo) que una persona necesita para manejar información en el día a día se refiere como cultura estadística. Métodos estadísticos Estudios experimentales y observacionales Un objetivo común para un proyecto de investigación estadística es investigar la causalidad, y en particular extraer una conclusión en el efecto que algunos cambios en los valores de predictores o variables independientes tienen sobre una respuesta o variables dependientes. Hay dos grandes tipos de estudios estadísticos para estudiar causalidad: estudios experimentales y observacionales.
2
TECSUP – PFR
Estadística Aplicada a Laboratorios
En ambos tipos de estudios, el efecto de las diferencias de una variable independiente (o variables) en el comportamiento de una variable dependiente es observado. La diferencia entre los dos tipos es la forma en que el estudio es conducido. Cada uno de ellos puede ser muy efectivo. Un estudio experimental envuelve el tomar mediciones del sistema bajo estudio, manipular el sistema y luego tomar mediciones adicionales usando el mismo procedimiento para determinar si la manipulación ha modificado los valores de las mediciones. En contraste, un estudio observacional no necesita manipulación experimental. Por el contrario, los datos son recogidos y las correlaciones entre predictores y la respuesta son investigadas. Un ejemplo de un estudio experimental es el famoso estudio de Hawthorne el cual pretendía probar cambios en el ambiente de trabajo en la planta Hawthorne de la Western Electric Company. Los investigadores estaban interesados en si al incrementar la iluminación en un ambiente de trabajo, la producción de los trabajadores aumentaba. Los investigadores primero midieron la productividad de la planta y luego modificaron la iluminación en un área de la planta para ver si cambios en la iluminación afectarían la productividad. La productividad mejoro bajo todas las condiciones experimentales (ver estudio de Hawthorne). Sin embargo, el estudio fue muy criticado por errores en los procedimientos experimentales, específicamente la falta de un grupo control y ciegamiento. Un ejemplo de un estudio observacional es un estudio que explora la correlación entre fumar y el cáncer de pulmón. Este tipo de estudio normalmente usa una encuesta para recoger observaciones acerca del área de interés y luego produce un análisis estadístico. En este caso, los investigadores recogerían observaciones de fumadores y no fumadores y luego mirarían los casos de cáncer de pulmón en ambos grupos. Los pasos básicos para un experimento son: Planeamiento estadístico de la investigación, lo cual incluye encontrar fuentes de información, selección de material disponible en el área y consideraciones éticas para la investigación y el método propuesto. Se plantea un problema de estudio. Diseñar el experimento concentrándose en el modelo y la interacción entre variables independientes y dependientes. Se realiza un muestreo consistente en la recolección de datos referentes al fenómeno o variable que deseamos estudiar. Se propone un modelo de probabilidad, cuyos parámetros se estiman mediante estadísticos a partir de los datos de muestreo. Sin embargo, se mantiene lo que se denominan "hipótesis sostenidas" (que no son sometidas a comprobación) Se valida el modelo comparándolo con lo que sucede en la realidad. Se utiliza métodos estadísticos conocidos como test de hipótesis y prueba de significación. Se producen estadísticas descriptivas. Inferencia estadística. Se llega a un consenso acerca de que dicen las observaciones acerca del mundo que observamos. Se utiliza el modelo validado para tomar decisiones o predecir acontecimientos futuros. Se produce un reporte final con los resultados del estudio.
3
Estadística Aplicada a Laboratorios
2.
TECSUP – PFR
VARIABLES DISCRETAS Y CONTINUAS Una variable es un símbolo, tal como x, h o b, que puede tomar un valor cualquiera de un conjunto determinado de ellos, llamado dominio de las variables. Si la variable que teóricamente puede tomar cualquier valor entre dos valores dados se llama variable continua, si no es así, se llama variable discreta. Ejemplo: En una familia el número N de hijos puede tomar cualquiera de los valores 0; 1; 2; 3;...; pero no puede ser 2,5 ó 3,84; por lo tanto N es una variable de tipo discreta. Ejemplo: La altura H de un individuo puede ser 1,50m, 1,52m ó 1,483m; dependiendo de la exactitud de la medida, en este caso H es una variable continua.
3.
REDONDEO DE DATOS Es una técnica que permite, ver o manejar una cifra con una determinada cantidad de números diferentes de cero.
72,8 redondeo al entero más próximo es 73. 72,8146 redondeando a dos decimales será 72,81. 72,465 redondeando a dos decimales será 72,46. 183,575 se redondea a 183,58. 116500000 redondeando con aproximación a millones será de 116000000.
Esta práctica es especialmente útil al minimizar la acumulación de errores de redondeo cuando se abarca un número grande de operaciones. Notación sistemática: 864000000 = 8,64 x 108 0,00003416 = 3,1416 x 10-5 (4000000)(0,00000000002) = (4 x 106)(2 x 10-10) = 8 x 10-4 0,00680000 6 10 3 8 10 4 48 101 12 10 3 0,04 4 10 2 4 10 2
4.
CIFRAS SIGNIFICATIVAS El eslabón más débil en la cadena de cualquier análisis está determinado por la medición que se efectúe con la menor exactitud. No vale la pena esforzarse en efectuar otras mediciones del análisis con mayor exactitud que esta medición limitante. El número de cifras significativas puede definirse como el número de dígitos necesarios para explicar los resultados de una medición conforme a la precisión medida.
4
TECSUP – PFR
Estadística Aplicada a Laboratorios
Cada dígito representa la cantidad real que especifica. Por ejemplo en el número 237 se tiene dos centenas, tres decenas y siete unidades. El dígito cero puede ser parte significativa de la medición o usarse simplemente para señalar el punto decimal. El número de cifras significativas en una medición es independiente del lugar que ocupa el punto decimal. Por ejemplo, considérese el número 92,067. Este número tiene cinco cifras significativas, sin importar el sitio en que se coloque el punto decimal; por ejemplo 92,067 micrómetros, 9,2067 cm., 0,92067 decímetros y 0,092067 metros tienen todos los mismos números de cifras significativas. Representan simplemente las distintas maneras (unidades) de expresar una medición. En el último número, el cero entre el punto decimal y el 9, se emplean tan sólo para indicar el lugar del punto decimal. No existe duda con respecto a que cualquier cero que se encuentre después del punto decimal es significativo, o que se usa para indicar el lugar del punto decimal. En el número 727,0 el cero no se emplea para indicar el lugar del punto decimal, pero forma parte significativa del número. Puede haber ambigüedad cuando el cero se encuentra otros dos números enteros distintos de cero; por ejemplo en el caso de 92,067. El número 936,600; es imposible determinar si uno, ambos o ninguno de los ceros se emplean para indicar el lugar del punto decimal o si son parte de la medición. En estos casos es mejor escribir únicamente las cifras significativas de las cuales se tiene certeza y después localizar el punto decimal por una expresión de 10 elevado a la potencia correspondiente. Son cifras significativas los dígitos necesarios para expresar los resultados de una medición con la precisión con que se hizo. No se tienen en cuenta, el número de ceros para situar el punto decimal. Ejemplo:
65,4 tiene 3 cifras significativas. 4,5300 tiene 5 cifras significativas. 0,00018 = 1,8 x 10-3 tiene 2 cifras significativas. 6,02 x 1023 tiene 3 cifras significativas.
Los números relacionados con enumeraciones o conteo, tan opuestos a medidas, son naturalmente exactos y tienen un ilimitado número de cifras significativas. No obstante, en algunos de estos casos puede ser difícil decidir que cifras son significativas, sin una más detallada información. Por ejemplo, el número186000000 puede tener 3; 4;...9; cifras significativas. Pero si se sabe que tiene cifras significativas sería preferible registrar el número como 186,00 millones o como 1,86x108.
5
Estadística Aplicada a Laboratorios
TECSUP – PFR
Cálculos con cifras significativas Adición y substracción En cálculos de sumas o restas de números, el resultado final no tiene más cifras significativas después del lugar decimal que las de los datos con menor número de ellas después del punto decimal. Ejemplo: Peso del frasco más las muestras Peso del frasco sólo Peso de las muestras
11,2169 g. 10,8114 g. 0,04055 g.
Ejemplo: Peso del frasco más las muestras Peso del frasco sólo Peso de las muestras
11,2169 g. 10,81 g. 0,04069 g.
El peso correcto de la muestra no es de 0,4069g. Sino de 0,41g. 3,16 + 2,7 = 5,9 83,42 – 72 = 11 47, 816 – 25 =22,816; si es exacto Multiplicación, división y extracción de raíces. En estos cálculos, el resultado final no puede tener más cifras significativas que los datos con menor número de ellas. Ejemplo: 73,24 x 4,52 = 331 1,684 / 0,023 = 72 38,7 6,22 8,416 x 50 = 420,8; si 50 es exacto. 5.
FUNCIONES Si cada valor que la variable x pueda tomar le corresponde un único valor de la otra variable y, decimos que y es función de x y escribimos y=f(x), y se lee: y es igual a f de x.
X es la variable independiente Y es la variable dependiente Ejemplo: La población total P del Perú es una función del tiempo t, y escribimos p=f(t). La tensión s de un muelle es función del peso w colocado al final del muelle, así: s=f(w). 6
TECSUP – PFR
Estadística Aplicada a Laboratorios
Si y=f(x), se acostumbra por ejemplo, a colocar f(3), cuando para calcular y, la variable x toma el valor 3. Si y = f(x) = x2 y f(3), luego y = 32 = 9 Coordenadas rectangulares Representaciones Una curva es una representación gráfica de la relación entre variables. Ejemplo: Gráficos de barras, histogramas, poligonales, etc. 6.
DISTRIBUCIÓN DE FRECUENCIAS - PROCESO DE TABULACIÓN DE LA INFORMACIÓN Planteamiento teórico-conceptual Luego que producto de la observación estadística se captaron los datos y atributos del fenómeno-objeto de estudio, se hace necesario proceder a tabular esta información con el objetivo de conocer estadísticamente el fenómeno. A este proceso de tabulación de la información se la llama distribución de frecuencias, y lo definiremos como un método para organizar y resumir datos en una tabla estadística. Para una mejor comprensión del tema es necesario adoptar las siguientes concepciones teóricas: Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o casas es lo que denominaremos población. Que se entiende como un conjunto de medidas cuando éstas provienen de una característica cuantitativa, o como el recuento de todas las unidades que presentan una característica común, siendo esta cualitativa. También se puede definir a la población como un conjunto de elementos o unidades. Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real (tangible y observable), como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo. A su vez cada elemento de la población tiene una serie de característica que puede ser objeto del estudio estadístico. Así por ejemplo, si consideramos como elemento a una persona, podemos distinguir en ella los siguientes caracteres: Sexo, edad, nivel de estudios, profesión, peso, altura, color de cabellos, etc. Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres. La población puede ser según su tamaño de dos tipos:
7
Estadística Aplicada a Laboratorios
TECSUP – PFR
Población finita: cuando el número de elementos es finito, por ejemplo el número de estudiantes de la Universidad de Panamá, o de una facultad o especialidad. Población infinita: cuando el número de elementos es infinito, o tan grande que pudiese considerarse infinitos. Como por ejemplo si se realizase un estudio sobre los productos disponibles en el mercado, hay tantos y de tantas cualidades y precios que esta población podría considerarse infinita. Cuando se toman todas las unidades o elementos de la población, se habla de una investigación exhaustiva o censo. Si sólo se investiga una parte, se le considera como investigación parcial o muestra. Ahora bien, normalmente en un estudio estadístico, no se puede trabajar con todos los elementos de la población sino que se realiza sobre un subconjunto de la misma. Este subconjunto puede ser una muestra, cuando se toman un determinado número de elementos de la población, sin que en principio tengan nada en común; o una subpoblación, que es el conjunto de la población formada por todos los elementos de la población que comparten una determinada característica, por ejemplo de los valores de pH y la subpoblación formada por los valores menores de 7. La muestra para que sea representativa de la población, requiere que las unidades o elementos sean seleccionadas al azar, en tal forma que cada una de ellas tenga la misma posibilidad de ser seleccionada. Para los símbolos utilizados en poblaciones se usan letras mayúsculas o griegas, en cambio para las muestras, se emplean letras minúsculas. Tipos de variables Los tipos de variables fundamentales, por lo menos para este tema, serán los siguientes: a. Variables Cuantitativas o Cardinales: susceptibles de medición cuantitativa; o sea son las que se describen por medio de números y las que a su vez comprenden: 1. Variable Cuantitativa Discretas: son aquellas cuyo conjunto de valores es a lo sumo numerable. Sus valores pueden representarse siempre por X1, X2, … , Xn.; y sólo se pueden asociar a un número entero, es decir, aquellas que por su naturaleza no admiten un fraccionamiento de la unidad Ejemplos:
Número de hijos en el hogar Páginas de un libro
8
TECSUP – PFR
Estadística Aplicada a Laboratorios
2. Variable Cuantitativa Continua: son aquellas que pueden tomar todos los valores de un intervalo de números reales, o sea que no se pueden expresar mediante un número entero, es decir, aquellas que por su naturaleza admiten que entre dos valores cualquiera la variable puede tomar cualquier valor intermedio. Ejemplos:
Variable temperatura en grados Celsius intervalos). Variable longitud en cm. (escala de razón). Variable peso. Variable tiempo
(escala
de
b. Variables Cualitativas (Atributos) u Ordinales: susceptibles de ordenación, pero no de medición cuantitativa, reflejan generalmente los atributos del fenómeno. Los atributos son aquellos caracteres que para su definición precisan de palabras, es decir, no le podemos asignar un número, y a su vez las podemos clasificar en:
Ordenables: aquellas que sugieren una ordenación, por ejemplo la graduación militar, el nivel de estudios, etc.
No Ordenables: aquellas que sólo admiten un ordenamiento alfabético, pero no establece orden por su naturaleza, por ejemplo el color del cabello, sexo, estado civil, etc.
Nota: no obstante en muchos casos el tratamiento estadístico hace que a variables discretas las trabajemos como si fuesen continua y viceversa (por ejemplo la edad de las personas –variable continua- se trabaja en años cumplidos – variable discreta-. En otros casos las variables cualitativas (atributos) se trabajan como variables cuantitativas, por ejemplo en los concursos de belleza se recurre a un sistema de calificación por puntos. 6.1.
LA REPRESENTACIÓN DE LOS DATOS: FRECUENCIAS Cuando se reúne gran cantidad de datos primarios es útil distribuirlos en clases y categorías y determinar las frecuencias de las clases, o sea, el número de elementos que pertenecen a una clase. El ordenamiento tabular de los datos por clases conjuntamente con las frecuencias de clases se denomina distribución de frecuencias El caso que se describe a continuación, variables discretas se denomina distribución por conteo de valores individuales. Supongamos que un determinado colectivo, representado por la variable estadística Xi, que para mayor sencillez consideraremos como unidimensional; sean los datos de esta variable (representativo cada uno de ellos de un suceso) X1, X2, … , Xn (supuesto que sean n los valores de la variable considerada.). 9
Estadística Aplicada a Laboratorios
TECSUP – PFR
Definiremos como frecuencia de un dato el número de veces que este aparece en el colectivo; consecuentemente, si una variable estadística toma r valores, cada uno de los cuales puede repetirse un cierto número de veces, podríamos decir que el número de datos representado por la variable serían N, siendo N la suma de las respectivas frecuencias de cada dato (N=ΣXi). Este valor N será denominado como frecuencia total, mientras que la frecuencia de cada dato recibirá el nombre de frecuencia absoluta o simplemente frecuencia (fi). La frecuencia absoluta nos habla del número de veces que un dato aparece en un colectivo, más ello no nos dice demasiado en orden al establecimiento de comparaciones sobre la importancia de este dato. Para obtener una idea de la importancia que un dato posee en el seno de un colectivo, puesto que no es suficiente concepto de frecuencia, se utiliza el concepto frecuencia relativa, que se definirá como: el coeficiente entre la frecuencia absoluta del dato considerado y la frecuencia total (fr=fi/ΣXi). Para efectos prácticos, asumiremos las siguientes definiciones de frecuencias:
Frecuencias absolutas: es el número de veces que aparece en la muestra dicho valor de la variable y se representa por fi.
Frecuencias relativas: es el cociente entre la frecuencia absoluta y el tamaño de la muestra. La denotaremos por fri
Frecuencias absoluta acumulada: para poder calcular este tipo de frecuencias hay que tener en cuenta que la variable estadística ha de ser cuantitativa o cualitativa ordenable. En otro caso no tiene mucho sentido el cálculo de esta frecuencia. La frecuencia absoluta acumulada de un valor de la variable, es el número de veces que ha aparecido en la muestra un valor menor o igual que el de la variable y lo representaremos por fa, se puede acumular, en la tabla estadística) en orden ascendente (fa↑) o descendente (fa↓).
Frecuencia relativa acumulada: al igual que en el caso anterior se calcula como el cociente entre la frecuencia absoluta acumulada dividido por el tamaño de la muestra (N) y la denotaremos por fra.
Resumiendo lo expuesto, si Xi es un valor de la variable, podemos representar por fi a su frecuencia y por fi/ΣXi a su frecuencia relativa (siendo ΣXi=N o la frecuencia total). Para el conjunto de los valores de la variable Xi tendríamos, así la tabla #1, compresiva de la información sobre dicha variable, a través de las respectivas frecuencias:
10
TECSUP – PFR
Estadística Aplicada a Laboratorios
Tabla 1: Variables Discretas Valores de la variable Xi (datos) X1 X2 … … Xn
frecuencias absolutas fi f1 f2 … … fn
Frecuencias relativas fi/N f1/N f2/N … … fn/N
Donde: N=Σfi y Σfi/N=1 Otro es el caso de las clases representadas en forma de intervalos, variables continuas, llamados intervalos de clases que poseen extremos llamados limite inferior y limite superior. Un intervalo se dice que es abierto o no cerrado, por un extremo si no contiene el límite correspondiente. La longitud, tamaño o amplitud de un intervalo de clases (C) es la diferencia entre los limites superior e inferior (C=lim sup – lim inf). El Recorrido (R) es la diferencia entre el dato mayor y el menor del conjunto da datos en estudio (R=Xn – X1) En el caso de variables continuas será necesario fijar intervalos de frecuencias para llegar a un resumen efectivo de la información original. A menudo es necesario representar una clase, o más particularmente, un intervalo por un único valor, este representará a todo el intervalo y se denominará marca de clases. Matemáticamente el punto medio de cada intervalo corresponde a lo que denominamos marca de clase, se denotará por Xi, y constituirá el valor representativo de cada intervalo. El número de observaciones que correspondan a cada intervalo se denominará frecuencias absolutas. Tabla 2: Variables Continuas Intervalos (C) X1-X2 X2-X3 … … Xn-1-Xn
Marcas de Clases Xi X1 X2 … … Xn
Frecuencias Absolutas fi f1 f2 … … fn
X’ – X” Xi = ------------- = Marca de clases 2 N = Σfi = Número de observaciones C = X’ – X” = Amplitud del intervalo
11
Estadística Aplicada a Laboratorios
TECSUP – PFR
Donde Por último, en el caso de variables no mensurables, dicha tabla adoptará una forma como la siguiente: Tabla 3: Variable Ordinales Variable Característica A Característica B … … Característica Z
Frecuencias fA fB … … fZ
Reglas Generales para construir las distribuciones de frecuencias por intervalos 1. Efectuar el arreglo ordenado (Ascendente o Descendente) de la población o muestra A = ( X1, X2, … , Xn ). 2. Obtener la frecuencia absoluta mediante la tabulación o conteo de los datos (homogenizar los datos). 3. Encontrar el rango o recorrido (R) de los datos: R = (valor mayor – valor menor) = Xn – X1. 4. Encontrar el número de clases o intervalos de clases (K). El número de clases debe ser tal que se evite el detalle innecesario, pero que no conduzca a la perdida de más información de la que puede ser convenientemente ignorada. Para este cálculo se utiliza la formula de Sturges K = 1 + 3.322 (log. N). 5. Determinar la amplitud de la clase (C): R C =--K Nota: el resultado siempre se aproxima al siguiente entero si excede al número entero obtenido, no importa el monto de la fracción excedida al entero. C = se lee “se aproxima a…” 6. El dato menor (X1) será el limite inferior de la primera clase. A él se le suma C y se obtiene el límite superior de la primera clase que también será el límite inferior de la segunda clase. Luego se suma nuevamente C y se obtiene el límite superior del segundo intervalo e inferior del tercero. Y así sucesivamente hasta que el limite superior corresponda o supere ligeramente el valor mayor (Xn), la cantidad de 12
TECSUP – PFR
Estadística Aplicada a Laboratorios
clases obtenidas deberá corresponder con el número K calculado mediante la formula de Sturges. 7. Una vez construidos los intervalos se calculan, mediante tabulación de acuerdo a los límites inferiores y superiores de las clases, las frecuencias absolutas, relativasp, orcentuales y acumulados correspondientes. 8. Con los datos obtenidos se procede a construir la tabla de distribución de frecuencia. 6.2.
TABLA DE DISTRIBUCIÓN DE FRECUENCIAS Una de los primeros pasos que se realizan en cualquier estudio estadístico es la tabulación de resultados, es decir, recoger la información de la muestra resumida en una tabla, que denominaremos distribución de frecuencias, en la que cada valor de la variable se le asocian determinados números que representan el número de veces que ha aparecido, su proporción con respecto a otros valores de la variable, etc. Por tanto, llamaremos distribución de frecuencias a un agrupamiento de datos en clases acompañada de sus frecuencias: frecuencias absolutas, frecuencias relativa o frecuencia porcentuales. En caso de que las variables estén al menos en escala ordinal aparecen opcionalmente las frecuencias acumuladas absolutas, y frecuencias acumuladas porcentuales. Las distribuciones de frecuencias varían en dependencia si corresponden a una variable discreta o a una variable continua. Ejemplo 1: Variable Continua Laboratorio de TECSUP estaba interesado en efectuar un análisis de sus valores. Uno de los factores que más interesaba a la administración era el de los pesos. Se escogió al azar una muestra aleatoria de 30 valores y se anotó como sigue: 77.97 43.66 32.67
13.02 17.97 89.19 12.18 8.15 34.40 43.13 79.61 90.99 29.75 7.42 93.91 20.64 21.10 17.64 81.59 60.94 43.97 43.66 51.69 53.40 68.13 11.10 12.98 38.74 70.15 25.68
Solución: 1. Efectuar el arreglo ordenado de la población o muestra: A= (7.42, 8.15, …, …, …, 90.99, 93.91) Donde: X1 = valor mínimo = 7.42 Xn= valor máximo = 93.91 2. Encontrar el rengo o recorrido de los datos: ―R‖ R = valor mayor – valor menor = Xn – X1 = 93.91 – 7.42 = 86.49
13
Estadística Aplicada a Laboratorios
TECSUP – PFR
3. Encontrar en número de clases ―K‖ , según la fórmula de Sturges: K=1+3.322(log N) Nota: en el ejemplo en estudio N=30 por cuanto que son 30 clientes en la muestra: K = 1 + 3.322 (log 30) = 1 + 3.322 (1.477) el log fue obtenido según calculadora = 1+ 4.9069 = 5.9069 ~ 6 aproximado al siguiente entero 4. Determinar la amplitud de la clase: ―C‖ R 86.49 C = -------- = ---------- = 14.415 K 6 Nota: obsérvese que se va a trabajar con una cifra significativa más cómoda, o sea como los datos están dados en centésimos, se calculo C hasta el milésimo para evitar que algún dato coincida con el límite de clases Clases 7.420 – 21.835 21.835 – 36.250 36.250 – 50.665 50.665 – 65.080 65.080 – 79.495 79.495 – 93.910 Total
P.M. fi fr fa↓ Xi 14.628 10 0.33 10 29.043 4 0.13 14 43.458 5 0.17 19 57.873 3 0.10 22 72.288 3 0.10 25 86.703 5 0.17 30 XXX 30 1.00 XXX
fa↑
fra↓
fra↑
30 20 16 11 8 5 XXX
0.33 0.46 0.63 0.73 0.83 1.00 XXX
1.00 0.67 0.54 0.37 0.27 0.17 XXX
Tabla 4.
Simbología utilizada: XI fi fr fa↓ fa↑ fra↓ fra↑
= Punto medio o marca de clases. = frecuencia absoluta. = frecuencia relativa. = frecuencia absoluta acumulada descendente. = frecuencia absoluta acumulada ascendente. = frecuencia relativa acumulada descendente. = frecuencia relativa acumulada ascendente.
Nota:
Obsérvese que el límite inferior de la primera clase es el valor mínimo ( X1=7.42 ) y el límite superior es el resultado de X1+C = 7.42+14.415 = 21.835.
14
TECSUP – PFR
6.3.
Estadística Aplicada a Laboratorios
El límite inferior de la siguiente clase es igual al límite superior de la clase anterior y el límite superior es el resultado de adicionarle nuevamente la amplitud de la clase (C).
Obsérvese que el límite superior de la última clase es igual al valor mayor (Xn=93.91).
REPRESENTACIONES FRECUENCIAS
GRÁFICAS
DE
LA
DISTRIBUCIÓN
DE
a. Los Cuadros estadísticos: La estadística es una disciplina que nos enseña a organizar los datos recogidos para poder analizar sus características y posteriormente inferir, a partir de las muestras tomadas, las características de la población investigada. Los cuadros o tablas corresponden a arreglos sistemáticos de los datos por filas y columnas y son un buen complemento del texto en los informes El primer procedimiento estadístico consiste en tabular los datos según el tipo de escala de medición utilizada. La tabulación de los datos conlleva a representar la información a través de tablas que de forma general contiene las siguientes partes fundamentales: 1.
Numeración (siempre que se presenten dos o más cuadros).
Título: es la descripción que precede al cuadro, la cuál deberá estar redactada en forma breve y clara, de tal manera que exprese su contenido, siguiendo el ordenamiento del mismo. Es necesario abarcar las características: Qué, Dónde, Cómo y Cuándo.
Encabezamiento: se refiere al número de atributos o variables que se quieren representar en el cuadro y se anotan como denominaciones de las columnas y subcolumnas; puede ser unidimensional, bidimensonial o multidimensional. Los títulos de las columnas van en mayúsculas y los subtítulos en minúsculas.
Cuerpo: es el conjunto de columnas y líneas que contiene el cuadro en orden vertical y horizontal, donde se colocan los datos sobre los hechos observados.
Pie: se refiere a la información adicional necesaria a saber: notas, llamadas, fuentes de información y otras. Se anotan en el espacio debajo de la línea inferior que limita el cuerpo del cuadro.
15
Estadística Aplicada a Laboratorios
TECSUP – PFR
b. Los Gráficos Estadísticos El gráfico es quizás el auxiliar más valioso y utilizado para expresar datos estadísticos, este elemento no le añade novedad a las tablas o cuadros estadísticos, es de fácil comprensión y accesible a un número mayor de usuarios. El gráfico además de expresar visualmente los hechos más importantes de la información numérica, permite una mejor y más fácil comprensión y ahorra tiempo y esfuerzo en el análisis de datos estadísticos al facilitar su apreciación visual en forma conjunta. 6.4.
HISTOGRAMAS DE FRECUENCIAS Un histograma es un gráfico que sirve para representar una distribución de frecuencias. Este gráfico está formado por un conjunto de rectángulos (caso de variables continuas) que tienen como base un eje horizontal (generalmente el eje de las abscisas o de las X), y como centro los puntos medios de las clases. Los anchos de las clases y las áreas de los rectángulos son proporcionales a las frecuencias de las clases. En el caso de las variables discretas el gráfico consiste de un conjunto de barras verticales en lugar de rectángulos, hallándose cada barra sobre la observación respectiva y con una altura proporcional a la frecuencia de la observación.
Figura 1. Histograma de frecuencias
6.5.
POLÍGONO DE FRECUENCIAS El polígono de frecuencias es un gráfico formado por líneas quebradas, que tiene los centros de las clases representadas en un eje horizontal (eje de las X) y las frecuencias de las clases en un eje vertical (eje de las Y). La frecuencia correspondiente a cada centro de clase se señala mediante un punto y luego los puntos consecutivos se unen por líneas rectas.
16
TECSUP – PFR
Estadística Aplicada a Laboratorios
Del correspondiente histograma se puede lograr el polígono de frecuencia uniendo los puntos medios de las bases superiores de cada rectángulo mediante líneas rectas.
Figura 2. Histograma y Polígono de Frecuencias
6.6.
OJIVAS Las ojivas se refieren a los gráficos que se construyen utilizando una distribución acumulativa de frecuencias, el orden de acumulación se aplica al cuadro de distribución de frecuencia y puede ser descendente (fa↓, fra↓) o ascendente (fa↑, fra↑). La figura que se forma al unir los puntos del polígono de frecuencias acumulativas es lo contrario del orden anunciado (por ejemplo si se utilizó el orden descendente en la acumulación de los datos en el cuadro, la ojiva resulta ser ascendente).
Figura 3. Frecuencias absolutas acumuladas y relativs acumuladas (Ojiva)
17
Estadística Aplicada a Laboratorios
TECSUP – PFR
Ejercicios Problema 1: Variable Continua En la siguiente tabla se presentan los pesos de 40 estudiantes de la Universidad de Panamá, con una aproximación de una libra. 138 146 168 146 161
164 164 126 173 145
150 140 138 142 135
132 147 176 147 142
144 136 163 135 150
125 148 118 153 156
149 152 154 140 145
157 144 165 135 126
Construya una tabla de distribución de frecuencias, indicando las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas.
Construya un histograma, un polígono de frecuencias y una ojiva de la distribución.
Problema 2: Variable Discreta Una encuesta entre un grupo de madres-solteras, para analizar los problemas económicos que enfrentan, en determinada comunidad; arrojó los siguientes resultados acerca del número de niños en el hogar. 1 1 2 3 2
4 1 1 1 5
2 2 1 3 1
3 1 2 4 4
5 4 1 1 2
3 1 2 1 3
5 2 3 3 1
3 1 2 5 2
3 4 3 4 5
5 1 3 2 1
Construya una tabla de distribución de frecuencias y sus respectivas representaciones gráficas.
Problema 3 Una compañía de transmisiones electrónicas registro como sigue el número de recibos de servicios prestados por cada una de sus 20 sucursales en el último mes: 808 335
641 459
628 727
731 848
641 229
446 347
342 309
545 649
910 575
568 757
La compañía piensa que una tienda realmente no puede esperar alcanzar financieramente el punto de equilibrio con menos de 456 servicios prestados mensualmente. Además su política es dar un bono financiero
18
TECSUP – PFR
Estadística Aplicada a Laboratorios
al gerente que genere más de 683 servicios al mes. Disponga los datos en un arreglo e indique cuántas sucursales no están consiguiendo el punto de equilibrio y cuántas ganan el bono. Problema 4 Una agencia de viajes ofrece precios especiales en ciertas travesías por el Caribe. Planea ofrecer varios de estos paseos durante la próxima temporada invernal en el hemisferio norte y desea enviar folletos a posibles clientes. A fin de obtener el mayor provecho por cada unidad monetaria gastada en publicidad, necesita la distribución de las edades de los pasajeros de travesías anteriores. Se consideró que si participaban pocas personas de un grupo de edad en los paseos no sería económico enviar un gran número de folletos a personas de ese grupo de edad. La agencia seleccionó una muestra de 40 clientes anteriores de sus archivos y se registró sus edades, como sigue: 77 54 58 63 45
7.
18 56 58 62 66
63 36 53 62 83
84 50 62 61 63
38 50 62 61 63
54 34 43 52 58
50 44 52 60 61
59 41 53 60 71
Organice los datos en una tabla de distribución de frecuencias de las edades de los clientes en la muestra.
¿Cuál grupo de edad presenta la mayor frecuencia relativa?, ¿Cuál la menor frecuencia relativa?.
Saque conclusiones que puedan ayudar a la agencia a planear una campaña de publicidad para los paseos invernales.
MEDIDAS DE TENDENCIA CENTRAL Otra forma de describir datos numéricos, las medidas de tendencia central, comúnmente conocidas como promedios. Estos promedios son la media aritmética, la mediana, y la moda. ¿Que es un promedio? A menudo necesitamos un solo número para representar una serie de datos. Este único número puede ser considerado como típico de todos los datos. La palabra promedio es usada frecuentemente en nuestro lenguaje diario, normalmente nos referimos a la media aritmética, pero podría referirse a cualquiera de los promedios. Un término mas preciso que promedio es una medida de tendencia central. 19
Estadística Aplicada a Laboratorios
7.1.
TECSUP – PFR
LA MEDIA ARITMÉTICA La medida de tendencia central mas ampliamente usada es la media aritmética, usualmente abreviada como media. Propiedades de la media aritmética 1. Puede ser calculada en distribuciones con escala relativa e intervalar.
Todos los valores son incluidos en el cómputo de la media. Una serie de datos solo tiene una media. Es una medida muy útil para comparar dos o más poblaciones. Es la única medida de tendencia central donde la suma de las desviaciones de cada valor respecto a la media es igual a cero. Por lo tanto podemos considerar a la media como el punto de balance de una serie de datos.
Desventajas de la media aritmética
Si alguno de los valores es extremadamente grande o extremadamente pequeño, la media no es el promedio apropiado para representar la serie de datos.
No se puede determinar si en una distribución de frecuencias hay intervalos de clase abiertos.
La media para datos agrupados Frecuentemente los datos estás agrupados y presentados en distribución de frecuencias. Si esto sucede es normalmente recuperar los datos crudos originales. Por consiguiente si calcular la media u otro estadístico es necesario estimarlo en distribución de frecuencias.
forma de imposible queremos base a la
La media aritmética de una muestra de datos organizados en una distribución de frecuencias se calcula de la siguiente manera:
Donde: _ X X f fX n
X = ΣfX n
simboliza la media de la muestra. es la marca de clase. es la frecuencia de clase. es la suma de los productos de f por X. es la suma de las frecuencias de clase.
20
TECSUP – PFR
Estadística Aplicada a Laboratorios
Ejemplo: Calcular la media aritmética de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 sacos de sulfato de calcio.
duración de las sacos (meses) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49
Número de sacos 2 1 4 15 10 5 3
Primeramente, calculamos la marca de clase, para después calcular el producto fX y proceder finalmente a calcular la sumatoria ΣfX y aplicar la fórmula.
LI 15 20 25 30 35 40 45
LS 19 24 29 34 39 44 49
X = Σfx n
X 17 22 27 32 37 42 47
F 2 1 4 15 10 5 3 n =40
= 1365 40
FX 34 22 108 480 370 210 141 fX = 1365 = 34.12
Para datos crudos, es decir datos no agrupados, la media es la suma de todos los valores dividida entre el número total de valores. Para encontrar la media de una muestra se usa la siguiente fórmula: X = Σx n
21
Estadística Aplicada a Laboratorios
TECSUP – PFR
Donde: X ΣX n
simboliza la media de la muestra. es la suma de todos los valores de la muestra. es el número de valores que tiene la muestra.
La media de la muestra, o cualquier otra medida basada en los datos de la muestra se le denomina estadístico.
Ejemplo: El peso neto del contenido de cinco botellas de perfume Giorgio seleccionadas de forma aleatoria de la línea de producción son (en gramos): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la media aritmética de las observaciones muestreadas?
X = Σx n
= 85.4+85.3+84.9+85.4+84.0 =85.0 5
La media de la muestra y la media de la población se calculan de la misma manera pero tienen diferente notación: µ=
ΣX N
Donde: µ simboliza la media de la población. N simboliza el tamaño de la población, es decir, el número total de observaciones en la población. Así como todas las medidas características de una muestra son llamadas estadísticos, las medidas características de una población se denominan parámetros.
7.2.
LA MEDIANA Cuando una serie de datos contiene uno o dos valores muy grandes o muy pequeños, la media aritmética no es representativa. El valor central en tales problemas puede ser mejor descrito usando una medida de tendencia central llamada mediana.
22
TECSUP – PFR
Estadística Aplicada a Laboratorios
Mediana. Es el punto medio de los valores de una serie de datos después de haber sido ordenados de acuerdo a su magnitud. Hay tantos valores antes que la mediana como posteriores en el arreglo de datos Ejemplo: El peso neto del contenido de cinco botellas de perfume Giorgio seleccionadas de forma aleatoria de la línea de producción son (en gramos): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la mediana de las observaciones muestreadas? 85.4 85.4 85.3 84.9 84.0
mediana =
X
Ejemplo: Una muestra de los volúmenes medidos en una titulación reveló estas cantidades: 35, 29, 30, 25, 32, 35 mililitros. ¿Cuál es la mediana?. 25 29 30 32 35 35
mediana
En este caso la mediana se calcula obteniendo la media de las dos observaciones centrales.
X = 30 + 32 = 31 2
Propiedades de la mediana: 1. Hay solo una mediana en una serie de datos.
No es afectada por los valores extremos ( altos o bajos). Puede ser calculada en distribuciones de frecuencia con intervalos abiertos, si no se encuentra en el intervalo abierto.
La mediana para datos agrupados Como no conocemos los datos crudos, es necesario estimar la mediana mediante los siguientes pasos:
23
Estadística Aplicada a Laboratorios
TECSUP – PFR
1. Calcular el valor n / 2
Localizar el intervalo de clase donde se encuentra la mediana (intervalo mediano). Esto se hace encontrando el primer intervalo de clase donde la frecuencia acumulada es igual o mayor que n / 2.
Aplicando la siguiente fórmula con los valores del intervalo mediano:
X = LSR +
( n / 2 ) – fa f
( tic )
Ejemplo: Calcular mediana de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 sacos de sulfato de calcio.
Duración de los sacos (meses) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49
Número de sacos 2 1 4 15 10 5 3
El valor de ( n / 2 ) = 40 / 2 = 20
El intervalo mediano es: LI 15 20 25 30 35 40 45 N=
LS 19 24 29 34 39 44 49
LSR 19.5 24.5 29.5 34.5 39.5 44.5 49.5
X 17 22 27 32 37 42 47
F 2 1 4 15 10 5 3 40
24
FA 2 3 7 22 32 37 40
intervalo mediano
TECSUP – PFR
Estadística Aplicada a Laboratorios
2. Aplicar la fórmula:
X = LSR +
7.3.
(n / 2)– fa f
(tic )
= 34.5 +
( 20 – 22 ) 15
(5)
= 33.83
LA MODA La moda es la medida de tendencia central especialmente útil para describir mediciones de tipo ordinal y nominal. La moda. Es frecuentemente.
el
valor
de
la
observación
que
aparece
más
Propiedades de la moda
La moda se puede determinar en todos los tipos de mediciones (nominal, ordinal, intervalar, y relativa). La moda tiene la ventaja de no ser afectada por valores extremos. Al igual que la mediana, puede ser calculada en distribuciones con intervalos abiertos.
Desventajas de la moda
En muchas series de datos no hay moda porque ningún valor aparece más de una vez. En algunas series de datos hay más de una moda, en este caso uno podría preguntarse ¿Cual es el valor representativo de la serie de datos?
Ejemplo El peso neto del contenido de cinco botellas de perfume Giorgio seleccionadas de forma aleatoria de la línea de producción son (en gramos): 85.4, 85.3, 84.9, 85.4, y 84.0. ¿Cuál es la moda de las observaciones muestreadas?. Moda = 85.4 La moda para datos agrupados Para datos agrupados en una distribución de frecuencia, la moda puede ser estimada por la marca de clase del intervalo que contenga la frecuencia de clase más grande. Si hay dos intervalos contiguos con frecuencia máxima la moda será la media aritmética de las dos marcas de clase. Si hay dos o más intervalos no contiguos con frecuencia de clase máxima habrá dos o más modas que serás las marcas de clase de dichos intervalos.
25
Estadística Aplicada a Laboratorios
TECSUP – PFR
Ejemplo: Calcular las modas de las siguientes distribuciones de frecuencia:
7.4.
X
F
X
F
5 10 15 20 25 30
4 3 15 9 10 7
5 10 15 20 25 30
4 8 6 7 8 8
moda = 15
hay dos modas: moda = 10
moda = (25+30) / 2 = 27.5
X
F
5 10 15 20 25 30
4 4 4 4 4 4
no hay moda
CUARTILES POBLACIONALES Y MUESTRALES Los cuartiles poblacionales dividen la distribución de frecuencias en cuartos. El segundo cuartil, q2, coincide con la mediana.
Figura 4.
Se define el primer cuartil muestral Q1 como el valor para el cual el 25% de las observaciones son menores o iguales que Q1 y el 75% de las observaciones son mayores o iguales que Q1. Se define el tercer cuartil muestral Q3 como el valor para el cual el 75% de las observaciones son menores o iguales que Q3 y el 25% de las observaciones son mayores o iguales que Q3. 7.5.
PERCENTILES POBLACIONALES Y MUESTRALES En general, para 0
q(0,5) = mediana.
26
TECSUP – PFR
Estadística Aplicada a Laboratorios
q(0,25) = Q1 primer cuartil (Lower Quartile). q(0,75) = Q3 tercer cuartil (Upper Quartile). Mediana Ordenamos los valores de menor a mayor:
La mediana es el valor medio de los dos centrales
Si elimináramos el valor 21.000 obtendríamos m = 950, valor muy cercano al obtenido (1.000). Cuando hay valores atípicos, la mediana es un valor más significativo que la media ya que está mucho menos influenciada por los valores atípicos.
Primer cuartil Q1 deja el 25% de los datos por debajo de él. En este caso el 25% de 10 datos es 2,5, por tanto tomamos como primer cuartil el tercer dato (después de ordenarlos). Q1 = 900
Tercer cuartil Q3 Deja el 75% de los datos por debajo de él. En este caso el 75% de 10 datos es 7,5, por tanto tomamos como tercer cuartil el octavo dato (después de ordenarlos). Q3 = 1200
En este caso el recorrido intercuartílico es: IQR = Q3 – = 1200 – 900 = 300
Figura 5.
27
Estadística Aplicada a Laboratorios
8.
TECSUP – PFR
MEDIDAS DE DISPERSIÓN
Figura 6.
Una vez que se han recogido los valores que toman las variables de nuestro estudio (datos), procederemos al análisis descriptivo de los mismos. Para variables categóricas o cualitativas, como el sexo por ejemplo, se quiere conocer el número de casos en cada una de las categorías, reflejando habitualmente el porcentaje que representan del total, y expresándolo en una tabla de frecuencias. Para variables numéricas, en las que puede haber un gran número de valores observados distintos, se ha de optar por un método de análisis distinto, respondiendo a las siguientes preguntas: a) b)
¿Alrededor de qué valor se agrupan los datos?. Supuesto que se agrupan alrededor de un número, ¿cómo lo hacen? ¿muy concentrados? ¿muy dispersos?.
Las medidas de centralización vienen a responder a la primera pregunta. La medida más evidente que podemos calcular para describir un conjunto de observaciones numéricas es su valor. 8.1.
RANGO En el caso de datos sueltos se obtiene buscando el máximo y el mínimo valor entre los datos, que se llaman valores extremos, y se realiza la diferencia.
28
TECSUP – PFR
Estadística Aplicada a Laboratorios
Ejemplo: Tenemos los siguientes datos, que representan los montos de 40 préstamos personales, en dólares, en una compañía financiera de consumidores: 900, 500, 450, 1900, 1200, 1250, 2500, 550, 1650, 1200, 1000, 550, 650, 600, 750, 1300, 850, 350, 1400, 700, 300, 1100, 300, 1600, 1500, 1000, 1800, 900, 500, 650, 2000, 1000, 2000, 450, 750, 850, 600, 3000, 350 y 1500. Rango = 3000 - 300 = 2700 Si disponemos de datos agrupados, no sabemos los valores máximos o mínimos, por lo que no podemos calcularlo. Ventajas:
Es fácil de calcular y es comúnmente usado como una medida burda, pero eficaz de variabilidad. Es comprensible para cualquier persona, aún cuando no conozca de estadística.
Desventajas:
8.2.
La desventaja más importante es que posiblemente deseemos saber más respecto a la dispersión de los datos, que lo que podemos obtener del rango, puesto que éste refleja únicamente los valores extremos, ignorando la información intermedia. No es aconsejable usarlo para muestras grandes, pues puede conducirnos a errores. Pero sí, por lo común, se lo utiliza en muestras pequeñas de 4 a 5 observaciones, sobre todo en el control estadístico de la calidad.
DESVIACIÓN MEDIA En teoría, la desviación puede referirse a cada una de las medidas de tendencia central: media, mediana o moda; pero el interés se suele centrar en la medida de la desviación con respecto a la media, que llamaremos desviación media. Puede definirse como la media aritmética de las desviaciones de cada uno de los valores con respecto a la media aritmética de la distribución, y de indica así: DM
xx N
29
Estadística Aplicada a Laboratorios
TECSUP – PFR
Nótese que se toman las desviaciones en valor absoluto, es decir, que la fórmula no distingue si la diferencia de cada valor de la variable con la media es en más o en menos. Ya se habrá advertido que esta expresión sirve para calcular la desviación media en el caso de datos sin agrupar. Veamos un ejemplo: Se tiene los valores 2, 2, 4, 4, 5, 6, 7, 8, 8. Averiguar la desviación media de estos valores.
x 2 2 4 4 4 5 6 7 8 8
xx
x
-3 3 -1 -1 -1 0 1 2 3 3
3 3 1 1 1 0 1 2 3 3
DM = 1,8 Veamos ahora cómo se calcula la desviación media en el caso de datos agrupados en intervalos.
n x DM i
N
Donde observamos que ahora las desviaciones van multiplicadas por las frecuencias de los intervalos correspondientes. Además, las desviaciones son de cada centro, o marca de clase, a la media aritmética. Es decir,
DM
n (x i
N
30
m
x)
TECSUP – PFR
Estadística Aplicada a Laboratorios
Ejemplo: Para hallar la desviación media de la siguiente tabla referida a las edades de los 100 empleados de una cierta empresa: Clase 16-20 20-24 24-28 28-32 32-36 36-40 40-44 44-48 48-52
ni 2 8 8 18 20 18 15 8 3
Veamos cómo se procede:
Clase
ni
xm
ni xm
xx
ni x x
16-20 20-24 24-28 28-32 32-36 36-40 40-44 44-48 48-52
2 8 8 18 20 18 18 8 3 100
18 22
36 176
16,72
33,44
DM = 6,09 La desviación media viene a indicar el grado de concentración o de dispersión de los valores de la variable. Si es muy alta, indica gran dispersión; si es muy baja refleja un buen agrupamiento y que los valores son parecidos entre sí. La desviación media se puede utilizar como medida de dispersión en todas aquellas distribuciones en las que la medida de tendencia central más significativas haya sido la media. Sin embargo, para las mismas distribuciones es mucho más significativa la desviación típica, que estudiaremos a continuación, y eso hace que el uso de la desviación media sea cada vez más restringido.
31
Estadística Aplicada a Laboratorios
8.3.
TECSUP – PFR
VARIANZA Y DESVIACIÓN ESTÁNDAR La varianza y la desviación estándar están basadas en las desviaciones respecto a la media. Varianza. Es la media aritmética de las desviaciones cuadradas de los datos respecto a la media. Desviación estándar. Es la raíz cuadrada de la varianza. Varianza y desviación estándar para datos agrupados Si los datos están agrupados en una distribución de frecuencia, la varianza y la desviación estándar de la muestra se pueden aproximar sustituyendo fx² por x² y fx por x. Las fórmulas quedarían de la siguiente manera:
Ejemplo: Calcular la varianza y la desviación estándar de la siguiente distribución de frecuencia del número de meses de duración de una muestra de 40 baterías para coche.
Duración de las baterías (meses) 15 - 19 20 - 24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49
Número de baterías 2 1 4 15 10 5 3
Primeramente, calculamos la marca de clase, para después calcular los productos fX y fx² para proceder finalmente a calcular las sumatorias SfX y fx² y aplicar las fórmulas.
32
TECSUP – PFR
Estadística Aplicada a Laboratorios
LI
LS
X
F
FX
FX2
15
19
17
2
34
578
20
24
22
1
22
484
25
29
27
4
108
2916
30
34
32
15
480
15360
35
39
37
10
370
13690
40
44
42
5
210
8820
45
49
47
3
141
6627
n=40
1365
48475
Varianza y Desviación Estándar para datos no agrupados Las fórmulas de la varianza de la población y de la muestra son ligeramente diferentes. (Recordemos que población es la totalidad de las observaciones estudiadas). Aparte de algunos símbolos, la fórmula de la varianza de la muestra varía ligeramente en el denominador. La raíz cuadrada de la varianza de la población es llamada desviación estándar de la población.
33
Estadística Aplicada a Laboratorios
TECSUP – PFR
Ejemplo: El peso neto del contenido de cinco botellas de perfume Giorgo seleccionadas de forma aleatoria de la línea de producción son (en gramos): 85.4, 85.3, 84.9 y 84.0. ¿Cuál es la varianza y la desviación estándar de las observaciones muestreadas? X 85.4 85.3 84.9 85.4 84.0 425.0 8.4
X2 7293.16 7276.09 7208.01 7293.16 7056.00 36126.42
COEFICIENTE DE VARIACIÓN (PEARSON) Otra medida que se suele utilizar es el coeficiente de variación (CV). Es una medida de dispersión relativa de los datos y se calcula dividiendo la desviación estándar muestral por la media y multiplicando el cociente por 100. Su utilidad estriba en que nos permite comparar la dispersión o variabilidad de dos o más grupos. El coeficiente de variación se utiliza para comparar la homogeneidad de dos series de datos, aún cuando estén expresados en distintas unidades de medida. Se debe destacar que a medida que el coeficiente de variación disminuye, se observa una mayor homogeneidad en los datos o lo que es lo mismo, los datos están más concentrados alrededor del promedio. Así, por ejemplo, si tenemos el peso de 5 pacientes (70, 60, 56, 83 y 79Kg) cuya medida es de 69,6Kg y su desviación estándar (S) = 10,44Kg y la talla de los mismo (150, 170, 135, 180 y 195cm) cuya medida es de 166cm y su desviación están de 21,3cm. La pregunta sería: ¿qué distribución es más dispersa, el peso o la talla? Si comparamos las desviaciones estándar observamos que la desviación de la talla es mucho mayor; sin embargo, no podemos comparar dos variables que tienen escalas de medidas diferentes, por lo que calculamos los coeficientes de variación: CV de la variable peso =
CV de la variable talla =
34
TECSUP – PFR
Estadística Aplicada a Laboratorios
Respuesta: La distribución más dispersa es la del peso.
1. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística elemental. 23 80 52 41 60 34
60 77 10 71 78 67
79 81 64 83 89 17
32 95 75 54 76 82
57 41 78 64 84 69
74 65 25 72 48 74
52 92 80 88 84 63
70 85 98 62 90 80
82 55 81 74 15 85
36 76 67 43 79 61
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética. la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 2. El gerente de calidad, una firma especializada en Lima quiere saber como están distribuidas los análisis (miligramos) realizados en el laboratorio. Seleccionó una muestra que son mostradas abajo.
1170 1332 1471 1826 1440 1119 1352
1207 1418 1399 1309 1421 1020 1340
1581 1949 1041 1426 1329 1400 1459
Miligramos del análisis 1277 1305 1472 1077 1403 1744 1532 1219 1379 821 1558 1118 1288 1394 1545 1032 1407 718 1457 1449 1442 1593 1962 1263 1823 1451 1138 1592
35
1319 896 1533 1289 1455 1788 982
1537 1500 1510 695 2051 1501 1981
1849 1671 1760 803 1677 1668 1091
Estadística Aplicada a Laboratorios
TECSUP – PFR
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética. la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 3. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible similares. 24 3 18
36 72 48
4 66 71
40 78 22
16 3 57
5 28 9
18 67 54
6 72 4
30 15 12
60 3 72
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética. la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 4. Los siguientes datos representan la duración de la vida, en segundos, de 50 moscas sometidas a un nuevo atomizador en un experimento de laboratorio controlado. 17 12 16 13 7
20 14 18 7 10
10 6 8 18 5
9 9 13 7 14
23 13 3 10 15
13 6 32 4 10
12 7 9 27 9
19 10 7 19 6
18 13 10 16 7
24 7 11 8 15
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética. la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 5. Se aplicó una encuesta donde se les pide indicar el número de muestras tomadas en un mes por los laboratoristas de una empresa. Los resultados son los siguientes: 3 2 5 4 9 4
5 4 6 14 4 3
2 2 4 3 1 5
36
3 5 3 5 4 7
3 3 2 6 2 3
4 3 2 3 4 5
1 3 6 4 3 6
8 0 3 2 5 2
4 3 5 4 0 2
TECSUP – PFR
Estadística Aplicada a Laboratorios
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética. la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 6. La compañía Primax tiene varias sucursales en la zona metropolitana. El número de cambios de aceite en la sucursal de un distrito de Lima en 20 días son: 66 70
98 62
55 66
62 80
79 94
59 79
51 63
90 73
72 71
56 85
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética. la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 9.
ERRORES Las mediciones que se realizan en la ciencia y la ingeniería tienen por objetivo el valor numérico de determinada magnitud. Este valor numérico no corresponde al valor real de la magnitud que se mide porque los resultados que se obtienen en el proceso de medición son aproximados debido a la presencia del error experimental. Para tratar de manera crítica dichos valores y obtener conclusiones provechosas es necesario valorar el error asociado a la magnitud en cuestión durante el proceso de medición. En la práctica no es posible determinar el error de la magnitud que se mide. La mayor dificultad radica en que la medición va acompañada de la interacción de gran cantidad de factores que influyen en uno u otro grado en el resultado de la medición. Sin embargo, sí es posible establecer los límites dentro de los cuales se encuentra el verdadero valor de la magnitud medida. Cuanto más próximos se encuentren los limites, más precisa será la medida. Es conveniente advertir que el objetivo del experimentador no es solo procurar que el error experimental sea lo más reducido posible, sino que sea lo suficientemente pequeño para no afectar las conclusiones que se puedan inferir de los resultados experimentales. 9.1.
CLASIFICACIÓN DE ERRORES El error experimental es inherente al proceso de medición, su valor solo se puede estimar .Dicho error se define como la diferencia entre el valor verdadero y el valor medido de la magnitud. Debido a que los errores pueden surgir por muy distintas causas, para analizarlos los científicos los han clasificado en dos amplias categorías: 37
Estadística Aplicada a Laboratorios
TECSUP – PFR
1. Errores sistemáticos. 2. Errores aleatorios o accidentales. Errores sistemáticos Los errores sistemáticos son los que en principio se pueden evitar, corregir o compensar. Estos alteran la medida porque no toman en cuenta alguna circunstancia que afecta al resultado siempre igual, dando lugar a un alejamiento hacia un sentido del valor verdadero. Se les llama sistemáticos porque son consistentes, pues cuando están presentes se obtienen valores que son más altos o más bajos que el valor verdadero. Los errores sistemáticos se pueden originar por: a) Defectos o falta de calibración de los instrumentos de medición. b) El estado del medio ambiente en que se realizan los experimentos. c) Malos hábitos y forma peculiar de realizar las observaciones por parte del experimentador. d) La limitada precisión de las constantes universales de las ecuaciones que se usan en el diseño y calibración de los instrumentos. No obstante, si se conoce la fuente de error sistemático se puede considerar su influencia en la magnitud que se mide, y en una serie de casos se puede excluir total o parcialmente, bien sea eliminando la fuente que lo provoca, o introduciendo la corrección. Es conveniente señalar que la eliminación de los errores sistemáticos en los resultados experimentales se logra en forma eficiente si se toma en cuenta lo siguiente: a) El experimentador debe esperar y descubrir la existencia de errores sistemáticos. b) Una vez detectado el error se estimará su influencia en el resultado. c) La importancia del error se valorará en función de la exactitud total que se desea y del costo y dificultad de las posibles alternativas para evitarlo. d) Finalmente se estudian los medios para eliminar o disminuir el error, para lo cual se deberá sustituir el equipo defectuoso, controlar las condiciones del experimento, cambiar totalmente el método de medición. La detección de errores sistemáticos es de gran importancia debido a que la presencia inadvertida de este tipo de errores puede conducir a un resultado aparentemente digno de confianza. Algunos errores determinados comunes son: 1. Errores instrumentales. Equipo defectuoso, pesas sin calibrar, material de vidrio sin calibrar.
38
TECSUP – PFR
Estadística Aplicada a Laboratorios
2. Impurezas en los reactivos. La cantidad de reactivo empleado y por tanto la cantidad de impurezas añadidas suelen ser proporcionales al tamaño de la muestra que se toma para el análisis. 3. Errores de operación. Estos incluyen los errores personales y pueden reducirse por la experiencia y cuidado del analista en las manipulaciones físicas que efectúa. Las operaciones en que presenta dichos errores incluyen la transferencia de soluciones, efervescencia durante la distribución de muestra, muestras que no están bien secas, etc. son difíciles de corregir. Otros errores personales son los errores matemáticos en los cálculos y los prejuicios al estimar mediciones. 4. Errores de método. Estos son los errores más graves de un análisis. La mayoría de los errores anteriores pueden reducirse al mínimo o corregirse, pero los errores inherentes al método no pueden cambiarse a menos que se modifiquen las condiciones de la determinación. Algunas fuentes de errores metódicos son las coprecipitaciones de impurezas, la ligera solubilidad del precipitado, las reacciones secundarias, las reacciones incompletas, las impurezas de los reactivos, etc. En algunos casos las correcciones serán relativamente sencillas, por ejemplo corriendo un ―blanco‖ de reactivo. La determinación de un blanco es un análisis que se hace únicamente a los reactivos obtenidos a los de la muestra. Cuando estos errores se hacen intolerables, el análisis deberá enfocarse de distinta manera. No obstante, en ciertos casos es necesario aceptar un método determinado por carecer de otro mejor. Errores aleatorios o accidentales Por lo general, los errores accidentales se deben a la suma de gran número de perturbaciones individuales y fluctuantes que se combinan para dar lugar a que la repetición de una misma medición en cada ocasión resulte en un valor distinto. Estos errores siempre están presentes en las mediciones y en ausencia de errores sistemáticos son causas de lecturas sucesivas que se dispersan alrededor del valor verdadero de la magnitud de la medida. Por ejemplo, al medir varias veces el período de un péndulo con la ayuda de un cronómetro se obtienen resultados ligeramente diferentes debido a la presencia de errores aleatorios. Estos errores pueden ser originados por el observador al leer la escala, por las pequeñas irregularidades del movimiento del péndulo, etc. Si no hay errores sistemáticos presentes, algunos resultados serán mayores y otros menores que el del valor verdadero. En general, los errores aleatorios no se pueden eliminar, pero sí estimar. Se debe observar que los errores sistemáticos y accidentales se diferencian en que los primeros producen efectos sistemáticos y los segundos efectos aleatorios. Las fuentes de error pueden originar tanto efectos sistemáticos como aleatorios. Por ejemplo, al operar un cronómetro no solo se podrá ponerlo en marcha y detenerlo en forma irregular al medir el período de un péndulo, introduciendo un error
39
Estadística Aplicada a Laboratorios
TECSUP – PFR
aleatorio, sino que se podrá tener la tendencia a ponerlo en marcha después y detenerlo antes, lo que conducirá a un error sistemático. Aunque no se puede determinar el valor del error aleatorio, producto de las fluctuaciones personales, de las alteraciones del medio ambiente, de la falta de calibración de algunos de los instrumentos que se utilizan, etc., sí es posible estimar su valor mediante métodos estadísticos. 9.2.
CUANTIFICACIÓN DE LOS ERRORES Error absoluto La diferencia entre el valor verdadero y el valor medido, con respecto al signo, es el error absoluto y se expresa en las mismas unidades que la medición. Si se analiza una muestra de 2,62 g. considerando un peso de 2,52 g., el error absoluto es –0,10g. Cuando el valor medido es el promedio de varias mediciones, el error se llama error medio. El error medio también puede calcularse tomando el promedio de la diferencia, con respecto al signo, de los resultados individuales de las pruebas, con respecto al valor verdadero. Error relativo El error absoluto o medio expresado como porcentaje del valor verdadero es el error relativo. El análisis anterior tiene un error relativo de (-0,10 / 2,62) x 100% = -3.8%, es necesario insistir en que ninguno de los números es realmente ―verdadero‖ y el error relativo o exactitud se basa en la media de dos conjuntos de mediciones. El error relativo puede expresarse en unidades distintas al porcentaje. En investigaciones muy exactas, generalmente los errores relativos son menores de 1% y es conveniente emplear unidades más pequeñas. Un error de 1% es equivalente a una parte de 100. También equivale a 10 partes de 1000. Esta última unidad se emplea comúnmente para expresar incertidumbres pequeñas. Es decir la incertidumbre se expresa en partes por millar, se abrevia ppm. El número 23 expresado en partes por millar del número 6725, será 23 partes por 6725 ó 3,4 ppmm. Las partes por millar se emplean a menudo para expresar la precisión de mediciones. Ejemplo: los resultados de un análisis son 36,97%, en comparación con el valor aceptado de 37,06%. ¿Cuál es el valor error relativo en partes por millar? Error absoluto = 39,97% - 37,06% = -0,09% Error relativo =
0,09 1000% 2,4ppm 37,06
40
TECSUP – PFR
Estadística Aplicada a Laboratorios
10. RECHAZO DE UN RESULTADO (VALORES ATÍPICOS, OUTLINERS) 10.1. PRUEBA DE LA Q Con frecuencia, al efectuar una serie de réplicas de análisis, uno de los resultados obtenidos será muy distinto de los otros. Habrá que decidir si debe rechazarse o tenerse en cuenta. Desafortunadamente, no existen criterios uniformes que puedan emplearse para decidir si un resultado sospechoso pueda atribuirse a error accidental o a variación aleatoria. La única base confiable para el rechazo es cuando puede decirse que se ha cometido algún error específico al obtener el dato dudoso. El resultado no debe conservarse cuando se sabe que se ha cometido un error para obtenerlo. Coeficiente de rechazo. Q en el nivel de confianza del 90 por ciento. Número de observaciones 3 4 5 6 7 8 9 10
Q 0,94 0,76 0,64 0,56 0,51 0,47 0,44 0,41 0,00
Tabla 5.
La expresión y el sentido común pueden servir también como base práctica para juzgar la validez de una observación particular, como una prueba estadística. Con frecuencia, el analista experto tendrá una buena idea de la precisión que pueda separase en determinado método y reconocerá los resultados sospechosos. Se han sugerido muchas pruebas estadísticas para determinar si una observación debe rechazarse. En todas ellas se establece el ámbito dentro del cual deberán encontrarse las observaciones estadísticamente significativas. La dificultad en todas ellas es determinar dicho ámbito. Cuando es demasiada pequeña se rechazarán datos correctos y cuando es demasiado grande se incluirán medidas erróneas en proporción demasiado elevada. La prueba del Q es una de las más correctas desde el punto de vista estadístico para números pequeños de observaciones y se recomienda cuando es necesario efectuar una comprobación. La relación Q se calcula ordenando los datos en orden ascendente de valor. La diferencia entre el número sospecho y se vecino más cercano se divide por el ámbito, es decir, la diferencia entre el número mayor y el número a menor. Refiriéndose a la figura siguiente Q . w
41
Estadística Aplicada a Laboratorios
TECSUP – PFR
w a
Esta relación se compara con los valores tabulados de Q. Si es igual o mayor que el valor tabulado, se puede rechazar la observación sospechosa. En la tabla de valores de Q, se dan los valores tabulados de Q en el nivel de confianza de 90%. Cuando Q excede al valor tabulado en un número determinado de observaciones, entonces la observación dudosa puede rechazarse con el 90% de confianza de que se ha cometido algún error en su obtención. Ejemplo: Se reportaron los siguientes conjuntos de análisis de cloruros en alícuotas tomadas por separado de un suero. Aparentemente uno de los valores es erróneo. Determínese si puede atribuirse esto a algún error accidental 103; 106; 107; 114 meq/litro. El resultado sospechoso es 114. Difiere de su vecino más cercano, 107, por 7 meq/litro. El ámbito es 114 – 103 o sea 11 meq/litro. Q será igual a 7/11=0,64. El valor tabulado para cuatro observaciones es 0,76. Como el valor calculado para Q es menor que el valor tabulado para Q, no debe rechazarse el resultado sospechoso. Cuando se efectúan pocas mediciones (por ejemplo de tres a cinco) la discrepancia de mediciones debe ser bastante para que pueda rechazarse alguna de ellas según este criterio y es probable, que se incluyan resultados erróneos. Esto provocaría un cambio significativo de la media aritmética, porque la media es muy influenciada por los valores discordantes. Por este motivo se ha sugerido que la mediana se reporte en vez de la media cuando no pueda rechazarse un número discordante por haberse efectuado pocas mediciones. La mediana presenta la ventaja de no estar muy influenciada por los valores discrepantes. En el ejemplo anterior, la mediana sería el promedio de los valores centrales 106 107 106 . Esto se compara con una media de 108, que está más 2 influencia por el número sospechoso. Se sugiere el siguiente procedimiento para interpretar los datos cuando se efectúan de tres a cinco mediciones, si la precisión es considerablemente más baja de lo esperado y cuando una de las observaciones difiere bastante del conjunto de datos. 1. Estimar la precisión que puede razonablemente esperarse para el método para decidir si un número en particular es en realidad dudosa.
Comprobar los datos que permitieron obtener dicho número para observar si puede identificarse algún error definido.
42
TECSUP – PFR
Estadística Aplicada a Laboratorios
De ser posible efectúese otro análisis. Si el nuevo resultado concuerda con los datos previamente obtenidos, probablemente deba rechazarse el resultado sospechoso.
Cuando no puedan obtenerse nuevos datos, hágase la prueba del Q, reportar la mediana en vez de la media cuando el conjunto de datos sea pequeño.
10.2. PRUEBA DE GRUBBS Determinaremos si una o dos observaciones de un conjunto de datos son atípicos de acuerdo a la norma ISO/TEC 5725-2 Consideraciones de aplicación:
Utilización de materiales homogéneos. Se asume que el conjunto de datos responde a una distribución normal. Homogeneidad en las varianzas.
Una observación atípica
Dado un conjunto de datos xi donde i= 1.... p, dispuestos en orden ascendente, se determinará si la observación más grande (xp) es un valor atípico, para ello se calcula:
Gp
(x p x) s
Similarmente se calcula para la observación pequeña:
G1
( x x1 ) s
Luego se aplica el siguiente criterio de decisión: a) Si la estadística de prueba es menor o igual a su valor crítico de 5%, el item probado es aceptado. b) Si la estadística de prueba es mayor que su valor crítico de 5%, y menor a su valor crítico de 1% el item probado es rezagado. c) Si la estadística de prueba es mayor que su valor crítico de 1%, el item probado, se le llama atípico.
43
Estadística Aplicada a Laboratorios
TECSUP – PFR
11. REGRESIÓN LINEAL SIMPLE. ANÁLISIS DE REGRESIÓN Se considera que dos variables cuantitativas están relacionadas entre sí cuando los valores de una de ellas varían de forma sistemática con respecto a los valores homónimos de la otra; en otras palabras, si tenemos dos variables, A y B, existe relación entre ellas si al aumentar los valores de A también lo hacen los de B, o por el contrario si al aumentar los valores de A disminuyen los de B. Si ponemos en relación las dos variables A y B, compuestas por los valores representados de la tabla azul, obtenemos el siguiente gráfico:
Figura 7.
Un gráfico de dispersión como el mostrado arriba es la forma más sencilla de comprobar la relación entre las dos variables. En él hemos grafiado también la tendencia de la distribución, plasmada como una recta que trata de ajustarse a los puntos del gráfico. Más adelante estudiaremos cómo trazar esta recta de dos formas distintas. Definición de Relación entre Variables La relación entre dos variables cuantitativas queda representada mediante la línea de mejor ajuste, que es la que esquematiza las condiciones de la nube de puntos y de la relación. Los componentes elementales de una línea de ajuste y por extensión de una relación entre dos variables son: · La fuerza. · El sentido. · La Forma
44
TECSUP – PFR
Estadística Aplicada a Laboratorios
La fuerza mide el grado en que la línea representa a la nube de puntos. Si la nube es estrecha y alargada una línea recta representará adecuadamente a la nube de puntos y a la relación y por tanto ésta será fuerte. Si por el contrario, la nube de puntos tiene una tendencia elíptica o circular, una línea recta que trate de representar a la misma será consecuencia de una relación débil y poco representativa, con amplios residuos. El sentido de la relación se refiere a cómo varían los valores de B con respecto a A. Si al crecer los valores de la variable A lo hacen los de B, será una relación positiva (a valores bajos de A le corresponden valores bajos de B). Si al aumentar A, disminuye B, será una relación negativa (a valores bajos de A le corresponden valores altos de B y viceversa). La forma establece el tipo de línea a emplear para definir el mejor ajuste. Se pueden emplear tres tipos de líneas: una línea recta, una curva monotónica y una curva no monotónica. En el caso de usar una recta, se admite que existe una proporción entre la diferencia entre dos valores A y la diferencia entre dos valores de B. A ese factor de ajuste entre ambas series se le llama pendiente de la recta, y se asume que es constante a lo largo de toda la recta de ajuste. En el caso de usar una curva monotónica, ese factor de proporción entre las dos variables no es constante a lo largo de toda la recta, y por lo tanto la pendiente de la misma es variable en su recorrido. Se dice entonces que la línea de ajuste es no lineal monotónica, puesto que la línea se ha convertido en curva. Sin embargo, lo que no varía es el sentido de la relación: si la relación es positiva lo será a lo largo de todo el recorrido de la curva y si es negativa, será negativa en toda la curva. 11.1. CÁLCULO DE LAS LÍNEAS DE AJUSTE Y SUS ECUACIONES. El primer paso para la obtención de la línea de ajuste es escoger el método de representación, que puede ser alguno de los siguientes:
45
Estadística Aplicada a Laboratorios
TECSUP – PFR
Describiremos en este artículo el primer caso: la representación de la relación entre dos series de variables mediante rectas, que es el método más común. En primer lugar, veremos el método de cálculo de la línea de mínimos cuadrados o ecuación de regresión lineal simple entre dos variables, que a su vez es la más utilizada de las rectas de ajuste. Esta línea es la que hace mínima la suma de los cuadrados de los residuos, es decir, es aquella recta en la que las diferencias elevadas al cuadrado entre los valores calculados por la ecuación de la recta y los valores reales de la serie, son las menores posibles. Recordemos primero que la ecuación general de la recta tiene la forma:
Con esta sencilla ecuación podemos calcular para cualquier punto de una recta, el valor que tomaría Y a partir del conocimiento de su valor X, de la pendiente de la recta (m) y del punto de corte sobre las ordenadas (b). Así, cuando tenemos una línea recta convencional, el cálculo de la pendiente m es sencillo, y se obtiene poniendo en relación el incremento de las X con el incremento de las Y, para una distancia dada, de la forma:
En cuanto al parámetro b, ya hemos dicho que es el valor que adquiere el punto de corte de la recta representada con el eje cartesiano de las Y (ordenada). Dicho de otra forma, b es el valor de Y para X = 0, por lo que se puede deducir con la ecuación general si conocemos la pendiente de la recta. Una vez que hemos recordado estos conceptos básicos acerca de la recta y su ecuación lineal, veamos cómo se calculan los valores m y b para la línea de ajuste de mínimos cuadrados o regresión lineal simple, aplicable a series de puntos no alineados sobre las que buscamos la recta que mejor se ajuste a su distribución. En estos casos el cálculo de m y de b se realiza de la siguiente manera:
Donde e son las medias de x e y respectivamente. Son datos conocidos pues proceden de los puntos de muestreo graficados a partir de las series de datos.
46
TECSUP – PFR
Estadística Aplicada a Laboratorios
En realidad, calculando el parámetro m, ya podemos aplicar la ecuación general de la recta; en primer lugar para x = 0, con lo que obtenemos b, y en segundo lugar para otro punto x que queramos. Con ello obtendremos los valores de y correspondientes, pudiendo en consecuencia dibujar dos puntos sobre el gráfico que, unidos, darán lugar a la recta de tendencia. El problema de la línea de mínimos cuadrados y de las regresiones lineales simples es que no son resistentes a valores extremos en las series, que pudieran ser anomalías en los datos. Este método, por tanto, puede ser engañoso si se dispone de muy pocos datos y valores extremos en los mismos. Como medida de comparación, se puede utilizar el proceso de cálculo de la recta resistente, cuyo proceso de cálculo describiremos a continuación. Para calcular la recta resistente, el primer paso es crear el gráfico de distribución de la nube de puntos. Posteriormente se divide el gráfico en tres grupos con igual número de casos, y se calculan las medianas de cada grupo:
Figura 8.
47
Estadística Aplicada a Laboratorios
TECSUP – PFR
Se calcula la pendiente m de la recta resistente, de la forma:
La ordenada de origen (punto de intersección con el eje de las Y, o en otras palabras, punto donde x=0 ), se calcula de la forma:
Dado que la línea resistente se configura a partir de las medianas y no de las medias, es mucho más tolerante a los valores extremos en la serie, y constituye un elemento de gran ayuda para contrastar y comparar la validez de la recta de mínimos cuadrados resultante de la regresión simple. 11.2. COEFICIENTE DE CORRELACIÓN LINEAL DE PEARSON. El Coeficiente de Correlación Lineal de Pearson es un índice estadístico que permite definir de forma más concisa la relación entre dos variables. Su resultado es un valor que fluctúa entre –1 (correlación perfecta de sentido negativo) y +1 (correlación perfecta de sentido positivo). Cuanto más cercanos al 0 sean los valores, indican una mayor debilidad de la relación o incluso ausencia de correlación entre las dos variables. Su cálculo se basa en la expresión:
48
TECSUP – PFR
Estadística Aplicada a Laboratorios
O lo que es lo mismo: el coeficiente de correlación lineal de Pearson se calcula a partir de la covarianza de las dos series, dividido por el producto de las desviaciones típicas de las dos series, es decir:
Normalmente se utiliza la desviación típica ―verdadera‖ y no la muestral: obsérvese que el sumatorio de los residuos al cuadrado se multiplica por 1/n y no por 1/(n-1). La interpretación del índice de Pearson es la siguiente: · r = 1 indica que la correlación es positiva. · r = 0 indica la inexistencia de correlación. · r = -1 indica que la correlación es negativa. Denominamos coeficiente de determinación R2 como el coeficiente que nos indica el porcentaje del ajuste que se ha conseguido con el modelo lineal, es decir el porcentaje de la variación de Y que se explica a través del modelo lineal que se ha estimado, es decir a través del comportamiento de X. A mayor porcentaje mejor es nuestro modelo para predecir el comportamiento de la variable Y.
49
Estadística Aplicada a Laboratorios
TECSUP – PFR
También se puede entender este coeficiente de determinación como el porcentaje de varianza explicada por la recta de regresión y su valor siempre estará entre 0 y 1 y siempre es igual al cuadrado del coeficiente de correlación (r).
R2 =r2 Es una medida de la proximidad o de ajuste de la recta de regresión a la nube de puntos. También se le denomina bondad del ajuste. 1-R2 nos indica qué porcentaje de las variaciones no se explica a través del modelo de regresión, es como si fuera la varianza inexplicada que es la varianza de los residuos. Si el coeficiente de determinación nos da bajo, el 75,3%, por lo que sólo conseguimos explicar el 75,3 % de las variaciones a través del ajuste por medio.
Figura 9. Ajuste de datos experimentales por un modelo lineal a) Caso de una buena correlación lineal; b) aceptable; c) es un caso en el prácticamente no hay correlación entre X e Y; d) tiene una buena correlación pero el modelo lineal es inadecuado.
50
TECSUP – PFR
Estadística Aplicada a Laboratorios
Figura 10.
Del diagrama anterior, cabe observar que no todos los puntos están en la línea de regresión. Si todos lo estuvieran y, además, si el número de observaciones fuera suficientemente grande, no habría ningún error de estimación. En ese caso, no habría ninguna diferencia entre el valor observado y el valor de la predicción. Como imaginamos, en los casos reales, las predicciones perfectas son prácticamente imposibles y lo que necesitamos es una medida que describa cómo de precisa es la predicción de Y en función de X o, inversamente, qué inexacta puede ser la estimación. A esta medida se le llama error estándar de estimación y se denota Syx. El error estándar de estimación, es el mismo concepto que la desviación estándar, aunque ésta mide la dispersión alrededor de la media y el error estándar mide la dispersión alrededor de la línea de regresión. Distribuciones de frecuencia 1. Los resultados siguientes representan las calificaciones del examen final de un curso de estadística elemental. 23 80 52 41 60 34
60 77 10 71 78 67
79 81 64 83 89 17
32 95 75 54 76 82
51
57 41 78 64 84 69
74 65 25 72 48 74
52 92 80 88 84 63
70 85 98 62 90 80
82 55 81 74 15 85
36 76 67 43 79 61
Estadística Aplicada a Laboratorios
TECSUP – PFR
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza 2. El gerente de calidad, una firma especializada en Lima quiere saber como están distribuidas los análisis (miligramos) realizados en el laboratorio. Seleccionó una muestra que son mostradas abajo.
1170 1332 1471 1826 1440 1119 1352
d) e) f)
1207 1418 1399 1309 1421 1020 1340
1581 1949 1041 1426 1329 1400 1459
Miligramos del análisis 1277 1305 1472 1077 1403 1744 1532 1219 1379 821 1558 1118 1288 1394 1545 1032 1407 718 1457 1449 1442 1593 1962 1263 1823 1451 1138 1592
1319 896 1533 1289 1455 1788 982
1537 1500 1510 695 2051 1501 1981
1849 1671 1760 803 1677 1668 1091
Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. Calcule la media aritmética la mediana, y la moda. Calcule la desviación media, la desviación estándar, la varianza.
3. Los siguientes datos representan la duración de la vida en meses de 30 bombas de combustible similares. 24 3 18
36 72 48
4 66 71
40 78 22
16 3 57
5 28 9
18 67 54
6 72 4
30 15 12
60 3 72
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 4. Los siguientes datos representan la duración de la vida, en segundos, de 50 moscas sometidas a un nuevo atomizador en un experimento de laboratorio controlado. 17 12 16 13 7
20 14 18 7 10
10 6 8 18 5
9 9 13 7 14
23 13 3 10 15
13 6 32 4 10
52
12 7 9 27 9
19 10 7 19 6
18 13 10 16 7
24 7 11 8 15
TECSUP – PFR
Estadística Aplicada a Laboratorios
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 5. Se aplicó una encuesta donde se les pide indicar el número de muestras tomadas en un mes por los laboratoristas de una empresa. Los resultados son los siguientes: 3 2 5 4 9 4
5 4 6 14 4 3
2 2 4 3 1 5
3 5 3 5 4 7
3 3 2 6 2 3
4 3 2 3 4 5
1 3 6 4 3 6
8 0 3 2 5 2
4 3 5 4 0 2
a) Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. b) Calcule la media aritmética la mediana, y la moda. c) Calcule la desviación media, la desviación estándar, la varianza. 6. La compañía Primax tiene varias sucursales en la zona metropolitana. El número de cambios de aceite en la sucursal de un distrito de Lima en 20 días son: 66 70 a) b) c)
98 62
55 66
62 80
79 94
59 79
51 63
90 73
72 71
56 85
Haga una distribución de frecuencia, de frecuencia acumulada, de frecuencia relativa y de frecuencia relativa acumulada, represente gráficamente cada una de ellas. Calcule la media aritmética la mediana, y la moda. Calcule la desviación media, la desviación estándar, la varianza.
7. Calcular la desviación media a partir del registro de las siguientes edades de una muestra de 36 personas.
53
Estadística Aplicada a Laboratorios
TECSUP – PFR
8. Calcular la desviación media a partir de la siguiente tabla de frecuencia.
9. Calcule la desviación media, varianza y desviación estándar a partir de los siguientes datos sin agrupar y agrupándolos en una tabla de frecuencia tipo B (notar la variación de las medidas de dispersión en ambos casos).
10. Calcule la desviación media, varianza y desviación estándar a partir del siguiente gráfico de ojiva.
Figura 11. Histograma
54
TECSUP – PFR
Estadística Aplicada a Laboratorios
11. El cuadro que figura más abajo da los caudales mensuales del río Rímac observados durante los meses del abril y mayo, desde 1988 a 2005 (la unidad de medida no se precisa).
Se desea ordenar estos datos y efectuar el análisis siguiente: 1. Dar una representación global de los caudales de abril y mayo. Graficar mediante dos histogramas los datos resumidos (recomendación: agrupe los datos empleando tablas de frecuencia con iguales intervalos de clase).
Calcular la media de los caudales de abril, y la media de los caudales de mayo. Calcular la desviación típica de los caudales de abril, y la desviación típica de los caudales de mayo. Comparar los caudales de abril con los caudales de mayo, a partir de la información suministrada en la segunda y tercera pregunta. Realizar conclusiones sobre: media, mediana, moda, frecuencias, desviaciones e histogramas de frecuencia.
55
Estadística Aplicada a Laboratorios
TECSUP – PFR
ANOTACIONES ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. ............................................................................................................................. .............................................................................................................................
56