USO Y MANEJO DEL SOFTWARE STATGRAPHICS I.- ESTADISTICA DESCRIPTIVA. 1.1.- Definición de Estadística. 1.2.- Estructura y Tipos de Datos Estadísticos. 1.3.- Construcción de la Matriz de Datos 1.4.- Recuperación de variables de la Bases de Datos para su Procesamiento 1.5.- Presentación de los Datos. 1.5.1- Tablas estadísticas Variables Cualitativas o atributos, datos Unidimensionales. 1.5.2.- Gráficos para Variables Cualitativas o Atributos. 1.6.- Desarrollo de Ejercicios de Aplicación 1.7.- Ejercicios de Aplicación.
II.- PROCESAMIENTO ESTADISTICO DE DATOS CUANTITATIVOS. 2.1.- Medidas o Indicadores de resumen cuantitativos 2.1.1.- Medidas de Tendencia Central. 2.1.2.- Medidas de Variabilidad. 2.1.2.- Medidas de Posicionamiento 2.1.3.- Medidas de Deformación. 2.2.- Tablas Estadísticas o de Frecuencia (Frecuency Tabulation) 2.2.1.- Variable Cuantitativa Discreta : 2.2.2.- Variable Cuantitativa Continua. 2.3.- Histogramas de Frecuencias. 2.3.1.- Clasificación según las formas de losHistogramas. 2.3.2.- Aplicación de los Histogramas a problemas relacionados con calidad 2.3.3.- Estratificación de Histogramas. 2.4.- Desarrollo de Ejercicios de Aplicación 2.5.- Ejercicios de Aplicación.
III.- PROCESAMIENTO DE DATOS BIDIMENSIONALES 3.1.- Ambas variables son cualitativas 3.2.- Una variable cualitativa y otra cuantitativa 3.3.- Dos variables cuantitativas 3.3.1.- Análisis de regresión 3.3.2.- Análisis de correlación 3.3.3.- Evaluación de la adecuación del modelo de regresión. 3.4.- Modelos Lineales Reducibles a lineal.
I.- ESTADISTICA DESCRIPTIVA 1.1.- Definición de Estadística: Podemos definirla como una ciencia que sustentada en el Método Científico y la Matemática se preocupa de: Diseño y Planificación de la colecta de los datos Recolección de los datos • Procesamiento de los datos • Análisis e interpretación de los resultados o información Con el objetivo de ayudar a tomar decisiones lo más acertadas posibles , teniendo como respaldo el conocimiento obtenido de la "situación estudiada" a través de los datos. • •
La definición anterior es la que llevada a un ciclo permanente permite la" mejora continua" de toda actividad humana.
Dato
Procesamiento
Información
Análisi
Decisión
De este contexto podemos desprender entonces que toda la Estructura y Beneficios que se esperan de la Estadística descansan en losDATOS. Esto nos sugiere que el mayor esfuerzo posible lo preocupación de obtener DATOS DE BUENA CALIDAD.
debemos focalizar en la
La fuente de obtención de los datos presenta una gama muy grande de posibilidades en este " mundo cada vez más informatizado". Algunas de estas fuentes son: • • • • • •
Las Estadísticas Vitales de los Países , registradas en lo que en Chile se llama "Registro Civil" Boletines de los distintos Ministerios de los Países, Instituciones. Institutos Nacionales de Estadísticas. Encuestas - Entrevistas. Investigaciones diseñadas con un propósito específico. Todas las posibilidades de búsqueda OFRECIDAS HOY POR INTERNET., etc., etc....
Los Principios y Fundamentos Estadísticos son independientes de la materia , actividad humana , sector del conocimiento ,etc. en el cual se aplican los métodos estadísticos. Por esta razón es que tienen una enorme potencialidad en Ciencias de la Salud, Agricultura, Meteorología, Ingeniería, Industria, Comercio., etc., etc., ............ Según el propósito que se tenga resolver, con la información obtenida, la Estadística se divide en: a) Estadística Descriptiva o Diagnóstica b) Estadística Inferencial o Inductiva
-1-
La Estadística Descriptiva: Recibe este nombre cuando con la información obtenida sólo se pretende describir o caracterizar una variable o un grupo particular. Las conclusiones son válidas sólo para ese grupo en particular. La Estadística I nferencial: Recibe este nombre ,cuando existe un proceso riguroso de definición de una muestra aleatoria a ser extraída del conjunto mayor, denominado Población o Universo, la cual tiene asignado un grado de confiabilidad y un error preestablecido. La muestra es obtenida de la población utilizando metodologías que aseguran la representatividad de la muestra respecto de la población. La información obtenida de la muestra permite elaborar conclusiones válidas para todo el Universo, con un cierto grado de confiabilidad, similar al que tiene la muestra. Es muy importante de tener en consideración, que en la actualidad cualquier trabajo de investigación para que tenga validez y pueda ser publicada en revistas serias indexadas, debe tener un respaldo de métodos estadísticos adecuados para que los resultados puedan ser divulgados y tengan un grado de confiabilidad.
1.2.- Estructura y Tipos de Datos Estadísticos: El dato: es la “materia prima” con que trabaja la Estadística. En términos muy generales los datos se pueden referir a características observables, las cuales pueden ser: Cualitativas o atributos Cuantitativas o variables, las cuales a su vez se subdividen en: Discretas y Continuas
Ejemplos Características cualitativas: - El sexo de un individuo - El estado civil de una persona -
Profesión o actividad de la persona
Ejemplos Variables Discretas, se srcinan cuando la variable expresa un conteo (Nº entero) - Cantidad de personas ausentes al trabajo diariamente en una empresa - Número de pacientes atendidos por médico en un hospital - Cantidad de artículos defectuosos en un lote - Cantidad de Cátodos defectuosos en una cosecha - Cantidad de gramos por litro en una solución Ejemplos de Variables Continuas, que se srcinan cuando la variable expresa una medición - Temperatura axilar de un paciente - Tiempo utilizado para reparar una falla - Peso , Estatura de una persona - Temperatura , Ph ,etc. de una solución que pasa por un ducto Sin embargo existen variables que el valor observado expresa un cierto orden o jerarquía .Se le denomina Variable Ordinal . Tiene la característica de que el valor colectado indica un orden o jerarquía, permitiendo indicar una posición relativa de los distintos elementos clasificados - Rendimiento de un alumno dentro de un curso : Bueno , Regular , Malo - Grado de dificultad de una prueba - Grado de una lesión o enfermedad - Grado de desarrollo de un País.
-2-
Matriz de los Datos Cuando se realiza un estudio cualesquiera sobre un conjunto finito de "n" sujetos, objetos ,cosas ,Individuos ,entidades, etc. , normalmente existe una variada gama de características que se colectan y que se expresan en los términos vistos anteriormente, digamos entonces de manera genérica, que se determinan o especifican "p" variables. Lo anterior permite construir la llamada "Base de Datos" , que de manera muy general podemos decir que es un arreglo tipo matricial quetiene "n" filas y "p" columnas Individuos
Var X1
Var X2
Var X3
Var X4
Var X5
...........
Var Xn
1 2 3 ...... n El propósito de la matriz de datos es presentar los datos de la manera "más depurada posible" ,para proceder al procesamiento de los datos y obtener información La primera preocupación es aprender a estructurar una base de datos, utilizando un software para su posterior procesamiento. Los datos se ingresan en una planilla, muy similar a la denominada planillaEXCEL Utilizaremos un software estadístico llamado "STATGRAPHICS", versión 4.0 en ambiente Windows Construiremos una pequeña base de datos , con antecedentes de personas
1.3.-Construcción de la Matriz de Datos •
"Pique" con el sector izquierdo del "ratón" el icono que identifica a "statgraphics 4.0. "Verás aparecer una pantalla como la siguiente, que en su extremo inferior izquierdo tiene una barra donde aparece un archivo denominadountiteled. Fig. 1
•
Picar el "cuadrado" que tiene el archivo untit... para maximizar esta planilla. Verás la siguiente figura.
-3-
Fig. 2
•
Sobre la palabra "Col_1" coloca la " + " que aparece cuando se trabaja con el ratón y esa columna se pondrá de color negro cuando piques con el sector izquierdo del ratón. Seguidamente picas con el sector derecho y aparecerá una "ventana" con varias opciones. Fig. 3
Al seleccionar " Modify Column " tendrás la posibilidad de definir : a) El nombre de la variable b) Realizar un pequeño comentario descriptivo de su contenido o significado, como por ejemplo las unidades de medición de la variable c) Definir si la variable es un Atributo o cualidad , una fecha, una variable numérica decimal , una variable numérica entera, fijar lacantidad de decimales
-4-
Numeric : Debe ser activada cuando la variable esvariable continua Character : Debe ser activada cuando la variable es un atributo o cualidad Integer : Debe ser activada cuando la variable esvariable discreta o cuando se trata de una Variable ordinal donde el número entero que se ingresa representa una jerarquía, ya sea ascendente o descendente. Date : Si la variable a ingresar fuese una fecha , indicando día , mes , año. Month : Si la variable fuese un mes dentro de un año. Fixed Decimal : Fija el número de decimales a utilizar .Pone 2 por defecto. La pantalla que se activará es la siguiente Fig. 4
Supongamos que tenemos unas " fichas " con antecedentes de muchas personas que trabajan en una empresa , con los siguientes datos. Debemos definir en base a lo dicho anteriormente , las columnas de la base de datos: Nombre : Character Sexo : Character ( M=masculino ; F = femenino) Fecha de nacimiento : Date Nivel de Escolaridad : Integer (1="básica incomp." ; 2= "básica compl." ; .............) Oficio o Actividad Character Pertenencia de la vivienda : Character (Propia ; Arriendo. ; Allegado ; Cedida ; Leasing ; .......)
Estatura : Numeric Peso : Numeric Integer Edad :
La Base de Datos tendrá la siguiente presentación
Fig. 5
-5-
Una vez que se han ingresado todas las fichas o encuestas o cada ciertos instantes, es necesario guardar la información ya sea en el "Disco Duro " de su computador o en un "Diskets" de 3.5 pulg. Para ello debe picar la palabra FILE con el sector izquierdo del ratón y luego en la ventana que se despliega picar la opción "Save data file as.." Tendrá las siguiente pantallas : Fig. 6
Fig. 7
-6-
Entonces en la pantalla de la figura Nº 7 , deberás decidir donde guardar el archivo. •
Si la decisión fuese guardar en Disco de 31/2 (A) , entonces tendrás que picar esta opción en el recuadro en primer plano . Seguidamente en este mismo recuadro , en el campo Nombre del archivo escribirás el nombre con que identificaras al archivo de datos.
•
Si la decisión fuese guardar el archivo de datos en el Disco C ,entonces tendrás que picar esta opción en el recuadro en primer plano . El computador te hará seguir la ruta que tiene trazada de manera jerárquica, es decir, secuencialmente irá apareciendo en el campo "Guardar en" las palabras: Archivos de Programa ----Sgwin -----Data. Seguidamente en este mismo recuadro, en el campo Nombre del archivo escribirás el nombre con que identificaras al archivo de datos.
•
También puede guardarse el archivo con los datos, el directorio "mis documentos" El procedimiento es el mismo.
A modo de ejemplo, la pantalla siguiente refleja la estructura de una Base de Datos de personas, la que deberá ser guardada según lo señalado en párrafos anteriores.
Fig. 8
-7-
1.4.- Recuperación de variables de la Bases de Datos para su Procesamiento Como se vio anteriormente, los datos están almacenados en una estructura que se llama "Archivo", el cual está constituido por variables. Entonces debemos recuperarlos datos desde el lugar en donde se encuentran 1. Si los datos están en un disco de 31/2 , entonces siga el siguiente procedimiento: • Ingrese en el ambiente de "Statgraphics" • Introduzca el disco 31/2 en la disketera • Pique la palabra FILE en la barra superior de herramientas de Statgraphics y tendrá la siguiente `pantalla, Fig. 8. En la ventana de opciones seleccione para activar la barra que dice Open Data File.
Fig. 9
Lo más posible es que aparezca una pantalla como lo indica la Fi. 10, de donde deberá seleccionar la barra que dice "Disco de 31/2 (A)" y hacer doble click en dicha opción Fig. 10
-8-
1.- Se desplegarán todos los archivos que contiene su disket , que fueron creados para ambiente statgraphics . Pero es posible también que en ese disket hayan otros archivos , y en este caso si desea ver todos los archivos que contiene el disket ,deberá ubicarse en el campo de la ventana en primer plano que dice "Tipos de Archivo : " y seleccionar aquí una opción que dice "ALL FILES (*.*). upongamos que en su disket tenga un archivo que se llamaerizo negro , con el cual desea trabajar. Para seleccionarlo haga doble click en ese nombre ,y tendrá una pantalla como la Fig. 11 siguiente , la cual en su extremo inferior izquierdo aparece la palabra ERIZ... Haga un click en el cuadradito de esa barra y desplegará el contenido completo del archivo seleccionado. Fig. 11
2.- Si los datos se encuentran en el disco C , entonces entonces en la pantalla que muestra la Fig.11,en el recuadro en primer plano seleccione la opción "disco C" . Seguidamente tendrá frente a usted una pantalla que muestra la Fig. 12 , donde deberá seleccionar la opción archivos de programa haciendo un doble click Fig. 12
-9-
Seguidamente deberá buscar el archivo llamado sgwin , y pulsar dos veces sobre esta palabra con el sector izquierdo del "mouse"., en la siguiente pantalla.
Fig. 13
Al picar dos veces seguidas sobre sgwin , tendrá la siguiente pantalla Fig. 14
- 10 -
Después deberá hacer doble click sobre la la palabra Data de la pantalla que muestra la Fig. 14 y tendrá la pantalla que despliega todos los archivos deeste directorio
Fig. 15
Estos son archivos que trae el software en este directorio y cuyo propósito es utilizarlos para la enseñanza de la metodología estadística y el manejo del mismo. En todo caso, lo mismo se hace para recuperar los datos desde el directorio mis documentos. A modo de ejemplo para desarrollar los contenidos , seleccionemos desde este directorio el archivo Cardata. Haga doble click sobre este archivo que aparece en la pantalla de la Fig. 15 y verá desplegarse la siguiente pantalla.
- 11 -
Fig. 16
Haga un doble click sobre el cuadrado ubicado en el rótulo Cardata y se desplegarán todas las variables de este archivo de datos , que contienen datos sobre una variedad de variables colectadas desde un conjunto de automóviles vendidos en Estados Unidos de Norteamérica Fig. 17
1.5.- Presentación de los Datos : La primera y más elemental forma de tener información y una visión resumida de los datos , es a través de la "tablas estadísticas " y los "Gráficos estadísticos". Por supuesto que éstas formas de resumir y presentar información depende de la naturaleza del tipo de datos.
- 12 -
1.5.1- Tablas estadísticas para ATRIBUTOS ,datos Unidimensionales Se trata de resumir todas las características o cualidades posibles que recoge esa variable , en una tabla que tiene una columna con el nombre de la característica , otra con la cantidad de casos que registran esa característica , otra columna con el porcentaje respectivo , y las columnas de frecuencias acumuladas Absolutas y Relativas. Para realizar una tabla de datos de una variable que recoge atributos se procede de la siguiente forma: A modo de ejemplo ,usará para trabajar el archivo "CARDATA" , tal como está mostrado en la Fig. 14 Tabulará la variable ORIGIN que muestra la procedencia del Automóvil vendido. En este caso se usaron códigos numéricos para mayor facilidad . 1 = Americano , 2 = Europeo , 3 = Japonés •
Posicione el cursor del mouse tal como lo indica la siguiente pantalla
Fig. 18
Haga un click con el sector izquierdo del mouse y llene la ventana que aparece , tal como lo indica la siguiente pantalla. Luego active "OK"
Fig. 19
- 13 -
Verá aparecer una nueva pantalla ,y colocando la punta de la flecha del mouse en el ícono "Tabular Opcion" tendrá:
Fig. 20
y luego la pantalla siguiente , donde activará "Frequency Table"
- 14 -
Fig. 21
Entonces tendrá ante usted la tabulación deseada , que aparece en la siguiente pantalla:
Fig. 22
1.5.2.- Gráficos para Variables Cualitativas o Atributos. A toda tabla estadística se hace necesario , o es aconsejable, entregar una gráfica que nos ayude a mejorar el nivel de comprensión de la variable en estudio.
- 15 -
Para este caso existen dos opciones gráficas de interés. Una es el Gráfico de Barras y la otra posibilidad es elGráfico Sectorial. El Gráfico de Barras es aconsejable cuando la cantidad de atributos o cualidades que recoge la variable nos supere los diez. Este gráfico muestra barras o rectángulos espaciados entre sí , de manera tal que el largo ( o alto) de la barra es la cantidad de veces o frecuencia con que se presenta el atributo. El Gráfico Sectorial , al igual que el anterior , es aconsejable cuando la cantidad de atributos no supere los seis. Este gráfico se construye en un circulo , tomando sectores de él , proporcionales a la cantidad de datos en cada atributo. A modo de ejemplo , realizaremos los dos gráficos anteriores , para la variable "srcin" del ARCHIVO CARDATA Al lado derecho de la "Tabular Options" , aparece el ícono de la opciones gráficas de las "variables atributos o caracteres" (Graphical Options). Pique esta opción con el sector derecho del mouse y tendrá frente a usted la siguiente pantalla, donde activará la opción Barchart , si lo que desea es un gráfico de Barras . Si lo que desea es un gráfico sectorial , entonces deberá activar el la pantalla de opciones , Piechart
Fig. 23
Activando "Barchart" y haciendo un doble click en el sector negro del grafico se tiene la posibilidad de agrandar elgráfico en pantalla y mostrar la siguiente figura :
Fig. 24
- 16 -
Estando con la punta o flecha del cursor en el sector o fondo negro de esta figura y sobre un texto o título del gráfico, active el sector derecho del mouse para acceder a algunas opciones de interés tales como : • Cambiar las "frequency" o cantidades en " porcentajes " • Dejar las barras en sentido Vertical Si "pica" sobre una palabra o texto cualesquiera con el sector izquierdo del mouse y seguidamente activar el sector derecho podrá tener acceso a cambiar los textos o leyendas , el estilo y color de las letras , tamaño ,etc. Tendrá la siguiente pantalla : Fig. 25
Activando la opción "Piechart" en la Fig . 22 , tendrá el siguiente gráfico: Fig. 26
- 17 -
Los colores y fondos en los gráficos pueden cambiarse. Para ello debe posicionar la punta de flecha del cursor en un sector del gráfico y presionar el sector izquierdo del mouse, seguidamente presionar el sector derecho y tendrá una pantalla tal , como lo indica la siguiente figura donde debe elegir la opción "Graphics Options" y tendrá una gama de posibilidades gráficas Fig. 27
Tendrá la siguiente Pantalla con la ventana de opciones , que permiten cambiar la "trama o achurado" y el "color" que usted desea para ese sector.
Fig . 28
- 18 -
Existen oportunidades en que se cuenta ya con una tabla de datos categóricos , y por lo tanto sólo deseamos una representación gráfica .
Por ejemplo: Distribución del síntoma más relevante, en casos de Colon Irritable. Síntomas Astenia
Cantidad 58
Cefaleas
35
Dolor
60
Eructos
45
Insomnio
68
Meteorismo
75
Debemos crear un archivo para esta tabla en ambiente statgraphics , donde la variable sintomas se ingresa como un carácter ; la variable cantidad se declara como numérica o entera.
Fig. 29
- 19 -
Para acceder a los gráficos de Barras o el gráfico sectorial debemos de seguir las siguientes secuencias de pantallas:
Fig. 30
Fig . 31
- 20 -
Una vez completados los campos de la ventana en primer plano , activar en "OK".y el gráfico a obtener será por supuesto será de Barras , tal como se aprecia en la siguiente figura. Fig. 32
Astenia Cefaleas Dolor Eructos Insomnio Meteorismo 0
20
40
60
80
Frecuencia
Si en la pantalla de la Fig. 23 seleccionamos " Piechart " , entonces por supuesto de que el gráfico obtenido será el Gráfico Sectorial.
Fig. 33
- 21 -
Grafico Sectorial 17,01%
21,99%
Cantidad Astenia
10,26%
Cefaleas Dolor Eructos Insomnio Meteorismo
19,94% 17,60% 13,20%
Cuando se trata de graficar tablas que presentan la distribución o comportamiento de variables cualitativas, hoy en día se está usando en el campo de la mejora de la calidad y la productividad un grafico muy interesante llamado Gráfico de Pareto.
En términos muy generales , los problemas de calidad en el sector procesos industriales o de manufactura se presentan como pérdidas (productos defectuosos y su costo) . En el sector servicio , la falta de calidad también se puede tratar de cuantificar a través de las opiniones obtenidas de los usuarios y el desglose de las causas que motivan el descontento. Resulta muy importante aclarar el patrón de la distribución de la pérdida. La mayoría de las pérdidas se deberán a unos pocos tipos de defectos , y estos defectos pueden atribuirse a un número reducido de causas. Si se identifican las causas de estos pocos defectos vitales ,podremos eliminar casi todas las pérdidas , concentrando todo el esfuerzo en esas causas particulares y dejando de lado por el momento otros muchos defectos triviales. El uso del diagrama de Pareto permite solucionar este tipo de problema con eficiencia. En 1897 , el economista italiano V. Pareto presentó una fórmula que mostraba que la distribución del ingreso es desigual. En 1907, el economista norteamericano M.C. Lorenz expresó una teoría similar por medio de diagramas. Estos dos economistas indicaron que una proporción muy grande del ingreso está en manos de muy pocas personas. En el campo de La mejora de la Calidad y la Productividad , el Dr. J.M. Juran aplicó el método de l diagrama de Lorenz como fórmula para clasificar los problemas de calidad en los pocos vitales y los muchos triviales , y llamó a este método análisis de Pareto. Señaló que, en muchos casos, la mayoría de los defectos y de su costo se deben a un número relativamente pequeño de causas. Para visualizar la construcción de este gráfico , seguiremos la siguiente secuencias de "pantallas " :
Fig. 34
- 22 -
En la pantalla que aparecerá al activar la opción "Pareto Chart" , deberá llenar los siguientes campos : 1.- "Tabulate - Counts " , pues su datos ya están tabulados. Se ingresa la variable cantidad en nuestro ejemplo . Si no hubiese sido así, el campo a llenar hubiese sido " Untabulated - Observations". 2.- "(Labels)" , coloque en este campo la variable que contienen los atributos. 3.- "(Weights)" , es un campo reservado para considerar ponderaciones o grado de importancia de cada uno de los atributos o cualidades recogidos. Este es el caso en situaciones de producción o manufactura industrial, donde un causa de fallo puede tener un mayor o menor grado de importancia debido a implicancias en lo económico , seguridad en las personas, etc.-. Picando sobre el ícono "Tabular Options" , usted podrá tener acceso a la tabla de frecuencia en primer lugar
Fig. 35
- 23 -
Picando sobre el ícono "Graphical Options " , tendrá acceso a la siguiente pantalla , don deberá seleccionar la opción "Pareto Chart" ,para acceder al gráfico de Pareto.
Fig. 36
Fig. 37
- 24 -
Pareto Chart for Cantidad 400 100,00
y c n e u q e fr
89,74
300
76,54 59,53
200 41,94 100
21,99
0
o sim r o e et
o i n m o s
r lo o D
ia n e st
s o ct u r E
ase l fae
1.6.- Desarrollo de un Ejercicio de Aplicación.A continuación se muestra una tabla de datos con defectos en una pieza manufacturada, donde se le han colocado a cada uno de ellos los pesos o ponderaciones . Muchas veces dichas ponderaciones son valores en moneda nacional de lo que significa ese defecto.
Tipo de defecto Burbuja Fractura Mancha Rajadura Rayado Tensión otros Total
Código Burb Frac Manc Raj Raya Tens Otro
Número de defectos 20 10 6 4 42 104 14 200
Costo $ 150 300 50 250 250 40 60
Con estos datos se pueden realizar los dos Gráficos de Pareto . Uno donde no intervengan los costos unitarios , y el otro donde intervengan dichos costos.
a) No intervienen los costos Primero se obtiene la tabla Fig. 38
- 25 -
Enseguida podemos obtener el Gráfico.
Fig. 39
Pareto Chart for Cantidad 200 83,00
160
y c 120 en u erq 80 f
90,00
100,00 95,00 98,00
73,00 52,00
40 0 Tens
Burb Raya
Frac Otro
Raj Manc
b).- Donde intervienen los costos Primero obtenemos la pantalla para observar como se llenan los campos Fig. 40
- 26 -
Enseguida se puede obtener la Tabla de Datos Fig. 41
Y luego el gráfico respectivo donde a diferencia del anterior, cambia el orden de prioridad instancia.de los defectos a los cuales debería comenzar por darles solución en una primera
Fig. 42
- 27 -
Pareto Chart for Cantidad (X 1000) 24
98,68 100,00 90,61 95,00
20
er o cs
77,46
16 12
64,30 46,05
8 4 0 Raya
Frac Tens
Raj Burb
Manc Otro
1.7.- Ejercicios de Aplicación. 1.Los datos siguientes corresponden a una agrupación llamada "Escuela de la Mujer" , ampara da bajo el "Programa de la Mujer" , PRODEMU). ( Esta es una Fundación sin fines de lucro, dependiente de la Primera Dama de la Nación, con el propósito de potenciar el desarrollo de las mujeres de hogares en extrema pobreza, en búsqueda de una mayor equidad entre mujeres y hombres, para lograr superarse por medio de la Capacitación en labores de uso doméstico y económico, ayudándolas en su realización como persona. Estos datos corresponden a una parte de la ficha de inscripción en Cursos Sence , financiados por la Gobernación Provincial de la Provincia de El Loa , II Región Antofagasta. Construya una Base de Datos , que contenga las siguientes variables contenidas en la tabla de la próxima página. Considere que los valores ingresados en cada una de las variables , son códigos cuyo significado son los siguientes: Est_Civ : 1= soltera ; 2=casada ; 3= Separada ; 4 = viuda Num_Hijos: 0 = sin hijos ; 1= un Hijo ; 2= ............. Escol(Escolaridad) : 1 = Básica Incompleta ;2= Básica Completa ; 3 = Media Incompleta Construya 1.- Base de Datos , utilizando "Statgraphics" 2.- La tabla de frecuencia para la variable estado civil 3.- Una gráfica de barras para la variable estado civil 4.- La tabla de frecuencia para la variable escolaridad 5.- El gráfico sectorial para la variable escolaridad
Tabla de Datos.
- 28 -
Nombre L.J.V R.J.G B.R.A J.J.M M.C.V S.S.T J.Z.L M.S.V U.B.V
Est_Civ 1 2 1 1 2 2 1 4 2
Num_Hijos 2 2 0 0 3 2 0 1 6
Escol 3 2 1 1 2 1 2 2 2
Nombre M.M.M M.C.C R.L.P M.A.N P.E.C B.F.M M.G.D R.M.O M.M.A
Est_Civ 2 2 3 2 2 4 2 2 2
Nº_Hijos 3 2 3 1 2 1 5 4 3
Escol 2 2 1 1 1 1 1 1 1
N.C.A M.R.L P.C.V P.G.M E.D.C E.M.B S.T.A A.R.G L.T.V A.C.C J.P.M P.C.L Z.C.F R.P.L E.G.B J.L.B
1 1 4 2 1 2 2 3 2 2 2 2 1 2 3 2
3 2 4 2 3 4 1 1 1 2 2 2 4 3 2 8
2 1 1 2 1 2 2 2 1 1 2 2 2 1 1 1
J.T.G M.V.M R.T.C J.A.N S.A.T G.A.T M.A.T R.A.T M.A.T A.G.C J.G.C J.L.L M.N.M C.A.R M.T.M M.T.L
1 2 1 2 2 1 2 2 1 2 2 2 4 2 2 1
2 3 2 2 3 2 4 2 3 2 4 1 5 3 2 3
1 2 2 1 3 1 2 1 1 2 1 2 2 2 3 2
I.E.M M.V.R E.P.J G.G.M G.G.G D.C.S M.R.G O.P.A A.A.D M.A.A J.C.D J.G.G S.V.H S.V.A N.M.C
4 1 3 2 4 2 2 2 4 1 1 2 2 2 2
3 1 2 5 3 2 2 3 3 1 6 5 6 3 5
1 3 1 1 2 1 2 2 2 2 1 2 1 2 2
P.V.S U.C.F G.B.B M.H.S M.G.P Z.V.C P.G.B J.B.M R.C.C K.D.B I.G.F E.C.L Z.G.P G.D.C B.T.R
1 1 3 3 2 2 3 2 2 2 1 1 2 2 4
3 6 7 8 4 2 5 2 2 1 3 2 3 2 4
1 1 2 1 2 2 2 2 1 2 1 2 2 1 2
2.- La siguiente información está referida al Diagnóstico que entrega el médico a pacientes con hemorragia digestiva alta, que fueron atendidos en un Servicio de Urgencia " X" , durante 1992
Diagnóstico Ulcera Gástrica Esofagitis erosiva
cantidad 42 16
- 29 -
Gastritis erosiva Ulcera duodenal Cirrosis hepática Yeyunitis hemorrágica No precisada
21 180 60 11 20
1.- Construya la tabla de frecuencia necesaria para realizar el gráfico de Pareto 2.- Construya el Gráfico de Pareto 3.- Redacte las conclusiones pertinentes a la información obtenida.
II.-
PROCESAMIENTO ESTADISTICO DE DATOS CUANTITATIVOS.
2.1.- Estadística Descriptiva Univariada. Cuando el tipo de dato que entrega la variable en estudio es una Cantidad (entera o decimal) , podemos tener información estadística de ella a través de tres vías: 1. Medidas o Indicadores de resumen cuantitativos 2. Tablas Estadísticas 3. Gráficos Estadísticos Las razones principales para agrupar los datos son : determinar o calcular las distribuciones de frecuencias (Tablas Estadísticas), contar con algunos descriptores numéricos de la distribución ( Medidas de Resumen) , representar gráficamente los resultados (Gráficos Estadísticos), para determinar el comportamiento o tendencias del fenómeno que interesa analizar.
2.1.1.- Medidas de resumen cuantitativas. Fig.
43
Con el archivo de datos instalado en STATGRAPHICS y teniendo a la vista la pantalla principal, pique la ventana "Describe" y aparecerá una pantalla como la anterior, la que deberá ser seleccionada en "numerical data" seguido de "one-variable analysis" y pulzar "Enter".
- 30 -
Si el interés del usuario es, por ejemplo, procesar los datos del rendimiento en millas por galón de los coches , estando dentro del archivo de datos "cardata ", deberá seleccionar esta variable del listado que aparece en el recuadro y colocarla en el campo que dice "Data", para luego picar con el mouse en "okey". Fig.- 44
Cuando usted completó la pantalla anterior, de acuerdo a lo indicado y picó en "okey", tendrá frente a usted ,lo siguiente: Fig.- 45
Debajo de la primera línea "de íconos" usted tiene cuatro ventanas: 1.- La primera es una pizarra para cambiar de variable, en caso de que se desee. (Analysis options) 2.- La segunda llamada "tabular options" está destinada a satisfacer varios requerimientos del usuario, tales como:
- 31 -
Fig. 46
Analysis Summary : Entrega un resumen muy breve de cual es la variable en proceso, la cantidad de datos, y cual es su rango o recorrido. Summary Statistics: Proporciona todas las estadísticas de resumen más usuales, pero pulsando el sector derecho del "mouse" ,aparece unaventana con la leyenda "pane option", la que aumenta la cantidad de estadísticas disponibles. Incluye medidas de: • • • •
Tendencia Central (Promedio Aritmético, Promedio Geométrico , Modo, Mediana), Medidas de Variabilidad (Rango,Varianza, Desviación Estándar, Error Estándar, Coeficiente de Variación), Medidas de Posicionamiento (Cuartil 1, Cuartil 2), Medidas de Deformación (Sesgo: Skewness; Curtosis: Kurtosis).
Resulta de particular interés "Standarized Skewness" (sesgo estandarizado) y "Standarized Kurtosis" (Curtosis estandarizada), con las cuales usted puede llegar a determinar si sus datos provienen de una distribución normal. Cuando estos valores están fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadística, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad. El termino sesgo indica hacia que lado, izquierdo o derecho, tienden a concentrarse los datos. El término Curtosis tiene que ver con el grado de apuntamiento o alargamiento de la curva de datos. A menor coeficiente de variación, más homogeneidad en los datos y mayor grado de estiramiento o apuntamiento en sentido vertical Para mostrar esta opción , desarrollaremos un ejemplo, que consistirá en analizar la variable "mpg" ( rendimiento en millas por galón). SeleccioneSummary Statistics.
2.1.- Medidas o Indicadores de Resumen Cuantitativos (Summary Statistics).
- 32 -
Debemos analizar cada uno de estos Indicadores o Estimadores estadísticos, que muestra el comportamiento de los datos de la variable en estudio. Pero es necesario decir que los que aparecen en esta pantalla son sólo algunos de un conjunto mucho mayor. Para desplegar todas las medidas de resumen de los datos debemos activar el sector derecho del "mouse" y estando dentro de pane option seleccionar all y luego pulsar ok y obtendrá la siguiente pantalla.
Fig.- 47
Es necesario revisar la forma de Cálculo y la forma de interpretar esos estimadores para la variable en estudio. Los estimadores que aparecen en la pantalla anterior, se conocen con el nombre de Medidas de Resumen. Estas medidas se pueden clasificar en cuatro grupos:
2.1.1.- Tendencia Central : Son aquellos estimadores cuyos valores tienden a ubicarse en la parte Central del Recorrido o Rango de la Variable , es decir , más o menos en la mitad del intervalo definido entre el valor mínimo y el valor máximo. Se consideran Medidas de Tendencia Central , las siguientes:
Average: Representa el Promedio Aritmético. i=n
X =
∑
i =1
X n
1....... n
El símbolo anterior significa que debemos sumar todas las mediciones u observaciones (datos) y dividir por el número total de datos (n). Esta es una medida que se ve influenciada por datos que a veces sonanómalos, en el sentido de que pueden aparecer valores que se salen del rango o comportamiento habitual
- 33 -
de lo que normalmente se registra. Esto tiene mayor importancia en cuanto menor es la cantidad de datos que se procesan. Esta medida de Tendencia Central , tiene algunas características importantes de señalar i =n
∑ (X i − X ) = 0
1.
i =1
2.
Si Yi = a ± b Xi
Y
=
a±bX
Promedio aritmético ponderado:
Cuando los datos de la variable en estudio son colectados de diversos estratos, segmentos , o sub-poblaciones claramente identificados como puede ser: • • •
La estatura de hombres y mujeres El rendimiento de los coches, según srcen de procedencia La presión arterial sistólica , diastólica , de niños ,jóvenes , adultos y senescentes.
De forma tal que la muestra o conjunto de datos colectados está particionada en " h" submuestras de tamaños n1 , n2 , ........., nh y a cada uno de estas submuestras se les puede o tienen calculado su promedio aritmético entonces el promedio aritmético i
total del conjunto total de datos se define y se calcula de la siguiente forma:
i =h
X
T
=
(n1 x1
+
n2 x 2
(n1 + n 2
+ ......... +
nh xh )
+ ............... +
nh )
∑n x i
=
i =1 i =h
∑n
i
=
i =h
∑px i
i
i =1 i
i =1
donde
pi
=
ni n
i = 1 , 2 , 3 , ............, h
Median : Representa la Mediana: Este es una medida de Tendencia Central cuyo valor separa el conjunto de datos en dos mitades. Cada una de ellas es un 50% . Es decir , entre el valor mínimo de la variable y la Mediana hay un 50 % de los datos ; por consiguiente , entre la Mediana y el valor máximo de la variable está el otro 50% superior. Para calcular la mediana es necesario ordenar los datos de menor a mayor. En el caso de que la cantidad de datos sea un número impar , la mediana se obtiene ubicando el valor que está en el centro. En el caso de que la cantidad de datos se un número par , la mediana se obtiene como el promedio de los dos valores centrales. Esta medida tiene la ventaja de ser menos sensible que el promedio aritmético a la presencia de valores anómalos , ya que sólo tiene en cuenta el orden de los datos y no su magnitud. Es decir no se altera mayormente si un valor o dato tiene un error grande de medida o de transcripción. Al comparar el valor de la mediana con el promedio aritmético , si hay mucha diferencia entre ellas , esto es una señal que la distribución de los datos es más bien asimétrica o heterogénea.
- 34 -
Mode : Se llama Moda o Modo: Esta medida se conoce también con el nombre de Promedio Industrial. Está representado por el valor o cantidad que más se repite o tiene una mayor frecuencia de aparición.
Geo. Mean : Se llama Media o Promedio Geométrico: Esta medida corresponde al valor que tomaría la variable si se calculase la media aritmética de los logaritmos de los datos en lugar de los valores directos. i=n
∑ ( Log X X
g
i
)
i =1
= Inv Log {
}
n
Este estadígrafo se utiliza principalmente en estudios de Economía , tales como distribución de ingresos , cálculo de índices de precio , tasas de interés promedio dentro de un período. En estudios de crecimiento de Población. En caracterización de la granulometría promedio de materiales “particulados”. En términos generales, donde los valores de la variable representan tasas o porcentajes de variación relativos. Comportamiento de la variable de forma exponencial. También es necesario para compararlo con el valor que entrega el promedio aritmético En caso de ser muy similares , significa que la distribución de los datos en su forma gráfica , tendería a darnos una curva más o menos simétrica.
Promedio Armónico : Esta es una medida de resumen de Tendencia Central que no está incorporado en las rutinas de cálculo de Statgraphics. Su algoritmo de cálculo es:
X
h
=
1 i =n
∑ (1 / x ) i
i =1
=
n i =n
∑ (1 / x ) i
i =1
n Las aplicaciones de esta medida de Tendencia Central que hacen aconsejable su utilización, está cuando las observaciones o mediciones "representan en si misma un promedio". Por ejemplo : •
Se desea saber cuántas unidades en promedio se fabrican en una unidad de producción , integrada por trabajadores , y el dato lo constituye la cantidad de unidades promedio que es capaz de producir cada operario.
•
Se desea calcular la velocidad promedio a la cual un móvil de desplazó desde un Punto Inicial hasta un Punto final , pero que durante el trayecto tuvo varias interrupciones y por lo tanto en cada una de estas interrupciones se determinó una velocidad media
•
Se desea saber el incremento promedio durante el mes , de 10 artículos de primera necesidad y para ello se toma para cada artículo un cierto número de centro de ventas donde son vendidos dichos artículos. Por cada artículo tendremos un incremento promedio, que constituyen la base para calcular el Incremento Promedio en el mes de los 10 artículos.
- 35 -
Esta es la medida de resumen de Tendencia Central que se utiliza en cuando se calcula el Indice de Precios al Consumidor , conocido como I.P.C Entre los tres promedios anteriores se produce la siguiente desigualdad matemática
X
≤
h
X
g
≤
X
La igualdad entre ellos se consigue cuando el perfil gráfico de la curva de la distribución de los datos , semeja una "campana" También es de destacar otras Relaciones de interés , de carácter empírico que se dan entre las medidas de Tendencia Central. Si la curva presenta un Sesgo Positivo ,entonces : Promedio
Moda <
Mediana
<
Si la curva presenta un Sesgo Negativo , entonces : Promedio < Mediana <
Moda 2.1.2.- Medidas de Variabilidad: Estas medidas de resumen están orientadas a cuantificar el grado o magnitud de cómo los datos se dispersan en torno a una medida de tendencia central. Generalmente se usa como valor de referencia el promedio aritmético. Mucha dispersión es señal de poca uniformidad u homogeneidad en los datos. Por el contrario poca dispersión, es señal de homogeneidad en los datos.
Range : Significa Rango Es una medida de variabilidad muy fácil de calcular pues es la diferencia entre al mayor valor de la variable se le resta el menor valor de la variable:
R = Xmáximo -- Xmínimo
Variance : Significa Varianza. Es el promedio aritmético de los desvíos cuadráticos de los valores de la variable respecto de su promedio aritmético.
i
=
∑ σ
2
=
i
=
n
( xi
−
x)2
1
(varianza poblacional )
n
ó también como
_
i =n
ˆ
2
σ =
2
∑ ( x − x) i =1
i n −1
(varianza muestral )
Cabe destacar que los desvíos del valor de la variable respecto de su media aritmética deben de ser elevados al cuadrado, pues si se suman sin hacer esta operación , el resultado de la suma es cero.
- 36 -
Std. Desviation : Significa Desviación Estándar Es la raíz cuadrada de la varianza. Tiene una gran importancia pues es la cuantificación de la precisión de la medición de la variable. σ
=
σ
2
Se utiliza , entre otras aplicaciones , para construir intervalos de confiabilidad, que contendrán los valores límites extremos (mínimos y máximos), en torno a los cuales oscilará un parámetro de una población en Estudio. Si el perfil de la curva que representa a un conjunto de datos y tuviese la forma de una campana , estamos seguros que aproximadamente un 68,27 % de las veces , la medición estará en el intervalo:
X
± Desv. Estándar
Y con las característica de la curva tipo campana , el intervalo stándar contendrá el 95 % de los valores de la variable
X±
2 Desv.
Std. Error : Significa Error Estándar. Suele representarse por " e.e " y es la desviación estándar dividida por la raíz cuadrada del número de datos. σ
e.e =
n
Permite construir intervalos de confiabilidad parael promedio aritmético de los datos. A mayor número de datos , "n" , menor es el error estándar y por lo tanto más estrecho o preciso será el intervalo de estimación para EL PROMEDIO. Por ejemplo. en intervalo formado por X ± 1.96 ee , nos dice que el promedio aritmético de la variable, calculado a partir de una muestra de tamaño "n" , estará en un 95 % de las veces, dentro del intervalo X ± 1.96 ee .
Coeff. of Var : Significa Coeficiente de Variación. Es una medida de la variabilidad o de la dispersión relativa de una variable, en relación con su promedio aritmético. Tiene la propiedad de ser adimensional. Por lo tanto sirve para comparar el menor o mayor grado de homogeneidad de una variable respecto de otra. Por ejemplo , si medimos en un conjunto de personas su estaturas (cm) y su peso (kg) , deseamos saber cuál presente una mayor grado de homogeneidad. σ
C.V =
X
* 100%
Mientras más cercano a cero es el C.V , mayor grado de homogeneidad en la variable.
Desviación Media : Esta es una medida de resumen de Variabilidad que no está incorporado en las rutinas de cálculo de Statgraphics. Su algoritmo de cálculo es : i =n
∑ (X D.M =
i −
i =1
- 37 -
n
X)
Podemos decir que la desviación media es el promedio aritmético de los valores absolutos de las desviaciones de los valores de la variable respecto del promedio aritmético X . (También en otras oportunidades suele utilizarse como valor de comparación , la Mediana). Si la distribución de los datos presenta un perfil de curva parecido a una campana, es decir si es Normal , entonces un 57,5 % central de las observaciones quedan dentro del intervalo X ± D.M. Es decir un poco más de la mitad de los datos quedan concentradas dentro de un intervalo de una unidad de la desviación media auno y otro lado del promedio Observaciones: Una de las desventajas de la desviación media, es que el signo de las desviaciones no se considera, ya que trabaja conel valor absoluto de ellas. •
Si no se trabajara con el valor absoluto y se usara como valor de referencia el promedio aritmético, la suma de ellas sería cero.
•
Si el valor de referencia fuese la mediana, el valor de la suma sería próximo a cero.
•
Si se ignoran los signos de las desviaciones, quita al estimador su carácter algebraico , y así la medida no es adecuada para tratamiento matemático.
Lo importante tal vez , es que el conocer la desviación media permite comprender mejor la medida más importante de dispersión , que es la desviación típica o estándar.
Puntaje Estandarizado : Zi La variable o puntaje estandarizado mide la posición relativa del valor de la variable con respecto al Promedio Aritmético X , expresado en unidades de desviación estándarσ . Su expresión algebraica es :
Zi = X i
−
X
σ
Esta variable es adimensional, por lo que resulta muy interesante su utilización cuando se desea comparar en que variable o variables una unidad de análisis se encuentra mejor o peor. También resulta de mucha utilidad cuando se necesita transformar valores de una variable expresados en cierta escala, en unidades de otra escala Igualmente se emplea para comparar resultados de experimentos expresados en ciertas unidades, con otros expresados en otras unidades.
2.1.3.- Medidas de Posicionamiento. Después de hacer un ordenamiento de menor a mayor en los datos de la variable en estudio, se proceden a ubicar aquellas posiciones porcentuales de la cantidad de datos que dejan entre sí un 25%. Es decir , son tres valores que separaran la totalidad de los datos en cuatro partes que contienen igual cantidad los datos .
Xmínimo
Xmáximo Lower Quartile
Median
25 %
Upper Quartile
75 % 50 % 75 % - 38 -
25 %
Lower Quartile : Significa Cuartil Inferior o Primer Cuartil. Es un valor que limita o separa el 25 % Inferior de los valores de la variable del 75 % Superior. Para el 25 % inferior , representa el Máximo valor de ese tramo . Para el 75 % superior , representa el Mínimo valor de ese sector.
Upper Quartile : Significa Cuartil Superior o Tercer Cuartil. Es un valor que limita o separa el 75 % Inferior de los valores de la variable del 25 % Superior. Para el 75 % inferior , representa el Máximo valor de ese tramo . Para el 25 % superior , representa el Mínimo valor de ese sector. Entre el Lower Quartile y el Upper Quartile se produce un intervalo, cuya diferencia produce el denominado Rango Intercuartílico ( Interquartile Range) , que es una medida de variación del 50 % central de los valores de la variable.
Percentiles : Los Percentiles en Statgraphics , constituyen una ventana de opción aparte dentro de la "Tabular Options". Se procede a un ordenamiento de los datos de la variable de menor a mayor proporcionan valores límites que separan los datos , de manera tal que el Percentil 10. Por ejemplo: Nos indica que un 10% de los valores de la variable está por debajo de dicho valor y un 90 % delos datos está por sobre el valor del percentil 10. El Percentil 80, nos indica que un 80 % de los valores de la variable están por debajo de dicho valor, y el 20% restante está por sobre el valor del percentil 80. También pulsando el sector derecho del mouse, puede acceder a otras opciones de cálculo de percentiles. Los Percentiles en ".Statgraphics , constituyen opción dentro de la "Tabular Options ,según se puede apreciar una en laventana figura nºde 46.-
aparte Xmínimo
Xmáximo
P10
P90
Los valores correspondientes los Percentiles 10 y 90 , producen un intervalo que contiene el 80% Central de todos los valores de la variable.
2.1.4.- Medidas de Deformación: Son medidas de resumen que cuantifican fundamentalmente dos elementos de la distribución de los datos : El Sesgo (Skewness) y la Curtosis (Kurtosis).
El Sesgo : Cuantifica el grado de asimetría de una distribución, es decir , cuánto se aparta de la Simetría. Cuando este valor es "cero”, sugiere que los datos están simétricamente distribuidos en torno a una medida de Tendencia Central , que generalmente es el Promedio Aritmético o la Mediana. Valores positivos para el Sesgo, indican que la"cola superior" o derecha dela curva que representa a los datos,es más larga. Presencia de datos "anómalamente" altos.
- 39 -
0,16 0,12 0,08 0,04 0 0
4
8
12
16
20
24
Por el contrario., valores negativos indican que la "cola inferior" o lado izquierdo de la curva es más larga. presencia de datos "anómalamente" bajos. . Sesgo > 0, curva sesgada a la derecha o sesgo positivo
Sesgo <0 , curva sesgada a la izquierda o sesgo negativo.
Existe una variada gama de algoritmos para cuantificar el grado de asimetría de la distribución de los datos :
El estadístico Alemán Karl Pearson cuantificar el Sesgo.
propone dos fórmulas empíricas para
1º coeficiente de Sesgo de Pearson :
(X
− Moda
)
σ
2º coeficiente de Sesgo de Pearson :
3( X
− Mediana) σ
Otra medida del Sego en términos de Cuartiles es : (Cuartil Superior - Mediana) - (Mediana - Cuartil Inferior ) Cuartil Superior - Cuartil Inferior Otra medida del Sesgo en términos de Percentiles
- 40 -
( Percentil 90 - Mediana ) - (Mediana - Percentil10) Percentil 90 - Percentil 10 Otra importante medida del Sesgo de una distribución de los Datos de una variable es el llamado coeficiente momento de sesgo "a3".
∑ a3
i =n i =1
(X i σ
i =n
=
X )3
n
=
n ∑ (X i
a3
−
si
3
−
n ≥ 150
X )3
i =1
si
(n - 1)(n - 2) σ 3
4≤n
≤149
Otra medida a veces utilizada es b1 = (a3 )2 . Para curvas perfectamente simétricas , tal como una campana , b1 cero. Std. Skewness : Significa Sesgo Estandarizado.
y
a3 valen
Cuando la cantidad de datos colectados para la variable en estudio es igual o superior a 150, se puede asumir "normalidad estadística". Resulta de vital importancia saber que tan alejado o próxima está el Sesgo de la variable con respecto de la Distribución Normal Estándar. A veces el supuesto de normalidad estadística simplifica y ayuda enormemente el análisis e interpretación estadística de los datos. Cuandodeellos valor delcolectados Sesgo Estandarizado queda fuera del intervalo -2 , +2Normal. significa que el Sesgo datos essignificativ amente diferente de un Sesgo Valores negativos, son indicadores de una "Cola" más grande hacia el lado izquierdo, respecto de una medida de Tendencia Central . Por el contrario , un valor positivo indicaría una "cola" más larga hacia el lado derecho de la curva. El valor del Sesgo estandarizadose obtiene dividiendo el valor del sesgo por el factor
6 n
Kurtosis : Significa Curtosis Esta medida de resumen cuantifica el grado de "alargamiento" o "achatamiento " . En otros términos, cuan aguzada o puntiaguda es la curva de la distribución de los datos, en general por referencia a la normal. Mientras más alargada o aflautada es la curva , se diceleptocútica. Mientras más aplastada o achatada es la curva , se dice platicúrtica Este coeficiente se calcula mediante el siguiente algoritmo: i =n
n(n − 1)
b2 =
∑(X
i −
X )4
i =1
( n − 1)(n − 2)(n − 3)σ
La curtosis suele denotarse por b2
- 41 -
4
−
3( n − 1) 2 ( n − 2)(n − 3)
Para una curva cuyo perfil sea semejante al de una campana, el valor de este coeficiente es 3 Cuando b2 > 0 , la curva es Leptocúrtica Cuando b2 < 0 , la curva es Platicúrtica
Std. Kurtosis : Significa Curtosis Estandarizada . Este coeficiente que sirve para comparar el grado de apuntamiento de la curva de los datos , con respecto a este mismo coeficiente en caso de Distribución Normal. Cuando este valores está fuera del intervalo -2 y +2 indican un significativo incumplimiento con la normalidad estadística, con lo cual se tiende a invalidar el resultado de aquellos test que requieren del supuesto de normalidad. El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por 24
n Otra medida de curtosis que suele utilizarse para el 80 % central de los valores de la variable, es el coeficiente κ (Kappa) , denominado Coeficiente Percentil de Curtosis
=
( Percentil 75 2( Percentil 90
−
Percentil 25 )
−
Percentil10 )
Este coeficiente , en el caso de la Distribución Normal vale0,263 Para ejemplificar un listado con todos las Medidas de Resumen analizadas, se mostrará la forma de obtenerlas: 1.
Recupere su archivo de datos "Cardata"
2. 3. 4.
Procese "mpg" indicado en las Fig. 44 hasta la Fig. 48. Siga todolaelvariable procedimiento En la pantalla que obtendrá en la Fig. 48 , seleccione la opción "All"
- 42 -
Summary Statistics for mpg Count = 154 Average = 28,7935 Median = 28,9 Mode = 36,0 Geometric mean = 27,8219 Variance = 54,4232 Standard deviation = 7,37721 Standard error = 0,594473 Minimum = 15,5 Maximum = 46,6 Range = 31,1 Lower quartile = 22,4 Upper quartile = 34,3 Interquartile range = 11,9 Skewness = 0,112657 Stnd. skewness = 0,570747 Kurtosis = -0,832997 Stnd. kurtosis = -2,11008 Coeff. of variation = 25,6211% Sum = 4434,2
2.2.- Tablas de Frecuencia (Frecuency Tabulation) El propósito de una Tabla de Frecuencias , es resumir o cuantificar la cantidad de valores de la variable que están contenidos en cada uno de los niveles de medición de la variable. Produce un resumen más compacto o visión más global de los datos ,y con ello apreciar cierta "tendencia" en el comportamiento de ellos. A esta disposición de los datos por niveles de medición, junto a sus correspondientes frecuencias , se le denomina Distribución de frecuencias o Tablas de Frecuencias.
2.2.1.- Variable Cuantitativa Discreta : Cuando la variable en estudio entrega como respuesta una "cuenta" o valor numérico entero, y el rango de variación de la respuestaes relativamente pequeño y se desea resumirlos en una tabla de frecuencia unidimensional.,como es el caso de la variable "cylinders" del archivo "Cardata" y queremos saber de la cantidad de coches vendidos , clasificados por el número de cilindros, procedemos de la siguiente forma: 1. Posicionar el cursor en Describe 2. Seleccionar Categorical Data Tabulation 3. Colocar en Campo "Data" de la pizarra de diálogo la variable cilindres y presionar "Ok".
- 43 -
Frequency Table for cylinders -----------------------------------------------------------------------Relative Cumulative Cum. Rel. Class Value Frequency Frequency Frequency Frequency -----------------------------------------------------------------------1 3 1 0,0065 1 0,0065 2 4 104 0,6710 105 0,6774 3 5 3 0,0194 108 0,6968 4 6 30 0,1935 138 0,8903 5 8 17 0,1097 155 1,0000 ------------------------------------------------------------------------
La Tabla anterior compuesta por las siguientes columnas: "Value" significa el valor que toma la variable , en este caso elnº de cilindros de los coches. "Frequency", contiene la cantidad de coches vendidos que tienen esa cantidad de cilindros. Por ejemplo , hay 104 coches vendidos cuyo número de cilindros es 4."Relative Frequency", indica la proporción de coches, respecto del total (155) , que tienen esa cantidad de cilindros. Por ejemplo, el 19,35 % de los coches vendidos tienen 6cilindros. "Cumulative Frequency", indica la cantidad acumulada de coches (de menos a más) que tienen hasta ese número de cilindros. Por ejemplo , hay 108 coches cuyo número de cilindros fluctúa entre 3 y 5 inclusive. "Cum. Rel. Frequency", indica la proporción acumulada de coches (de menos a más) que tienen hasta ese número de cilindros. Por ejemplo , el 69,68 % de los coches vendidos tienen entre 3 y 5 cilindros , inclusive.
2.2.1.1.- Gráficos Asociados a esta Tabla de Frecuencia
Coches vendidos según número de cilindros 80
e g at n ec er p
60 40 20 0 34568
Son los mismos que vimos anteriormente :Barras (Barchart ) y Sectorial (Piechart)
- 44 -
Autos según Nº de cilindros 10,97%
0,65%
cylinders 3 4 5 6 8
19,35%
1,94% 67,10%
2.2.2.- Variable Cuantitativa Continua. Al resumir una gran cantidad de datos Cuantitativos Discretos con un Rango de variación más o menos amplioo datos Cuantitativos Continuos, resulta útil distribuirlos en clases o categorías denominadas Intervalos y determinar el número de observaciones que pertenecen a cada clase, llamando a esta cantidad "Frecuencia Absoluta" o "Frecuencia de Clase". El número de intervalos o categorías a determinar para clasificar los datos, por reglas más bien prácticas oscila entre 5 y 20. Douglas Montgomery en su libro "Control Estadístico de la Calidad", aconseja una regla empírica : Señala que la cantidad de intervalos a determinar debe ser igual a la "Raíz Cuadrada del número de datos". De forma muy general los pasos que se deben seguir para tabular los datos en una tabla de frecuencia, son los siguientes. 1. Ubicar en el conjunto de datos los valores máximos y mínimo. 2. Determinar el rango de variación de los datos "R" = Xmáximo - Xmínimo 3. Determinar la amplitud o ancho de los intervalo "Ai" : Consiste en dividir el rango por un valor entero "k" que indica un número adecuado de intervalos a construir , que generalmente fluctúa entre 5 y 20. También puede ser igual al número entero inferior más próximo a la raíz cuadrada del número de datos.
Ai =
R k
k
=
n A
Una manera comúnmente usadapara determinar "Ai" es : Ai =
Donde
A1
El valor de Ai registra el dato.
=
1
+
2
A 2
R R ; A2 = 20 5 se debe aproximar a la décima de la unidad medida con que se
4.- Los intervalos o categorías se determinan de la forma siguiente: Intervalo 1 : [ Xmin ; Xmin + Ai )
- 45 -
Intervalo 2 : [ Xmin + Ai ; Xmin + 2 Ai ) . . Intervalo : t : [ Xmin +(t-1)Ai ; Xmin + t A ) 5.- Preparar un formato para la tabla de frecuencias ,el cual debe contener : una columna con los puntos medios o marcas de clase de los intervalos , otra columna para registrar la cantidad de valores que están dentro de cada intervalo (frecuencia absoluta) , etc.6.- Lea cada valor registrado y vaya asignándolo al único intervalo donde debe estar contenido. Construiremos a modo de ejemplo una Tabla de Frecuencia rendimiento en millas por galón mpg , del archivo cardata.
1. 2. 3. 4.
para la variable
Posicione el cursor en Describe. Seleccione Numerical data One-variable análisis Ingrese en el campo Data de la pizarra de diálogo la variable mpg y pulse "Ok" Active el ícono Tabular Options y seleccione Frecuency Tabulation y pulse "Ok" Obtendrá la siguiente Tabla propuesta por el software
Frequency Tabulation for mpg -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 13,0 0 0,0000 0 0,0000 1 13,0 17,4444 15,2222 6 0,0390 6 0,0390 2 17,4444 21,8889 19,6667 30 0,1948 36 0,2338 3 21,8889 26,3333 24,1111 21 0,1364 57 0,3701 4 26,3333 30,7778 28,5556 29 0,1883 86 0,5584 5 30,7778 35,2222 33,0 36 0,2338 122 0,7922 6 35,2222 39,6667 37,4444 23 0,1494 145 0,9416 7 39,6667 44,1111 41,8889 6 0,0390 151 0,9805 8 44,1111 48,5556 46,3333 3 0,0195 154 1,0000 9 48,5556 53,0 50,7778 0 0,0000 154 1,0000 above 53,0 0 0,0000 154 1,0000 -------------------------------------------------------------------------------Mean = 28,7935 Standard deviation = 7,37721
Una vez dentro de esta pantalla y activando el sector derecho del mouse, tendrá una ventana que ofrece varias opciones , para : 1. 2.
Cambiar el número de clases o intervalos Cambiar el límite inferior, (dar un número entero menor más próximo al valor mínimo) 3. Cambiar el límite superior , (dar un número entero mayor más próximo al valor máximo) Construiremos una Tabla de Frecuencia para el Rendimiento en millas por Galón de los coches , que tenga : 1. 2.
10 intervalos El límite inferior sea 15 ( puesto que 15,5 es el menor valor de la variable)
- 46 -
3.
El límite superior sea 47 ( puesto que 46,6 es el mayor valor de la variable )
Los intervalos construidos por el software son del tipo ( ] , es decir abiertos por la izquierda y cerrados por la derecha, lo cual significa que este intervalo contiene aquellos datos que son mayores al límite inferior del intervalo y menores o iguales que el límite superior del intervalo Resulta de enorme interés aprender a interpretar los valores que entrega la siguiente tabla:
Por ejemplo: Frequency Tabulation for mpg -------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------at or below 15,0 0 0,0000 0 0,0000 1 15,0 18,2 16,6 13 0,0844 13 0,0844 2 18,2 21,4 19,8 21 0,1364 34 0,2208 3 21,4 24,6 23,0 17 0,1104 51 0,3312 4 24,6 27,8 26,2 19 0,1234 70 0,4545 5 27,8 31,0 29,4 20 0,1299 90 0,5844 6 31,0 34,2 32,6 25 0,1623 115 0,7468 7 34,2 37,4 35,8 21 0,1364 136 0,8831 8 37,4 40,6 39,0 9 0,0584 145 0,9416 9 40,6 43,8 42,2 5 0,0325 150 0,9740 10 43,8 47,0 45,4 4 0,0260 154 1,0000 above 47,0 0 0,0000 154 1,0000 -------------------------------------------------------------------------------Mean = 28,7935 Standard deviation = 7,37721
1. •
El 6º intervalo con su frecuencia absoluta: Hay 25 coches que tienen un rendimiento susperior o igual a 31 mpg e inferior a 34,2 mpg
2. •
La marca de clase del 6º intervalo con su frecuencia absoluta: Hay 25 coches que tienen un rendimiento promedio de 32,6 mpg
3. •
El 4º intervalo con su frecuencia relativa : Un 12,34 % de los coches tienen un rendimiento superior o igual 24,6 e inferior a 27,8.
4.
La marca de clase del 4º intervalo con su frecuencia relativa Un 12,34 % de los coches tienen un rendimiento promedio de 26,2 mpg
5.
La frecuencia absoluta acumulada hasta el 5º intervalo Hay 90 coches cuyo rendimiento essuperior o igual a 15 mpg e inferior a 31 mpg.
•
•
6. •
La frecuencia relativa acumulada hasta el 7º intervalo. Un 88,31 % de los coches tienen un rendimiento superior o igual a 15 mpg e inferior a 37,4 % mpg
2.2.2.1.- Gráficos Asociados auna Tabla de Frecuencia , con Escala de Intervalos.
- 47 -
Una de las maneras de presentar datos estadísticos es la presentación gráfica. El análisis de los datos tabulados en cualquiera de las formas establecidas anteriormente, resulta casi imposible, debido a las múltiples comparaciones que se tienen que hacer con las cifras y el escaso tiempo que a veces se dispone para ello. Teniendo en consideración de que los gráficos en Estadística resultan de vital importancia para explicar situaciones presentadas o resumidas en Tablas con Información resumida,( puesto que nos permiten : Tener una visión global y condensada del comportamiento de la variable , observar posibles tendencias , apreciar su campo de variación ,etc.), debemos tener un especial cuidado en saber construirlos y luego analizarlos. En términos muy generales, un gráfico debe ser: Sencillo y auto-explicativo; Escalas adecuadas en los ejes de coordenadas a objeto de evitar las distorsiones y con ello evitar malas interpretaciones. Tal ejemplo ilustrativo será desarrollado al final del presente capítulo.
2.3.- Histograma de Frecuencia : Los datos obtenidos de una muestra sirven como base para decidir sobre la población de la cual provienen. Mientras más grande sea la muestra, más información obtendremos sobre la población. Aumntar el tamaño de la muestra también implica un aumento en la cantidad de datos , y esto puede llegar a hacer difícil comprender la población a partir de esos datos , aún cuando se organicen en tablas. En ese caso necesitamos un método que nos permita comprender la población de un vistazo . Un histograma responde a esta necesidad. La organización de un buen número de datos en un histograma nos permite comprender la población de manera objetiva. Es tal vez uno de los gráficos más utilizados. Se construye en un sistema coordenado formado por dos rectas perpendiculares entre si , que se denomina Plano Cartesiano. La recta o Eje Horizontal se denomina EJE "X ",y la recta o Eje Vertical se denomina EJE "Y" Está formado por barras que nacen desde el eje X ,con un ancho igual a la amplitud del intervalo y de altura en el eje Y igual a la frecuencia absoluta del intervalo (o su frecuencia relativa). Para obtener el histograma de la Tabla de la Frecuencia anterior , debemos: 1º. 2º. 3º. 4º.
Posicione el cursor en Describe. Seleccione Numerical data One-variable análisis Ingrese en el campo Data de la pizarra de diálogo la variable mpg y pulse "Ok" Active el ícono Tabular Options y seleccione Frecuency Histogram y pulse "Ok"
Obtendrá la siguiente pantalla: Fig. 48
- 48 -
Pulsando OK obtendremos el Histograma de Frecuencia de acuerdo con un diseño básico que puede entrar a modificarse, utilizando el siguiente procedimiento: 1º. Obtenga el Histograma de Frecuencia 2º. Haga doble clic dentro del gráfico para que este aumente de tamaño 3º. Pulse el sector derecho del mouse y seleccione pane options para configurar el Histograma número de intervalos , valor mínimo , valor máximo.
Fig. 49
─ ─ ─ ─
Defina usted un histograma que tenga las siguientes características: 10 intervalos o clases El límite inferior sea 15 El límite superior sea 47 En el eje vertical lleve porcentaje (cantidad relativa)
- 49 -
De acuerdo con los datos, que provienen de una variable en estudio , el histograma nos entrega una especie de radiografía del comportamiento de la variable. De forma general se pueden encontrar diversos tipos de histogramas:
2.3.1.- Clasificación según las formas de Histogramas de frecuencia.
30
y c n e u q er f
25 20 15 10 5 0 -2,5
-1,5
-0,5
0,5
1,5
2,5
Tipo general: La mayor frecuencia está en el centro y disminuye gradualmente hacia los extremos. La forma es simétrica.
Tipo con sesgo positivo:Forma asimétrica. La frecuencia disminuye de manera más bien brusca hacia la izquierda, pero gradualmente hacia la derecha. La máxima frecuencia está más cerca del valor mínimo de la variable. Este tipo de histograma se presenta cuando el límite inferior se controla teóricamente o por un valor de especificación inferior.
Tipo con sesgo negativo:Forma asimétrica. La frecuencia disminuye de manera más bien brusca hacia el lado derecho, pero gradualmente hacia la izquierda. La máxima frecuencia está más cerca del valor máximo de la variable.
Este tipo de histograma se presenta cuando el límite superior se controlan teóricamente o por un valor de especificación superior.
- 50 -
40 a i 30 c n e u 20 c e r F 10
0 1
3
2
4
5
6
7
asimétrica. Tipo de precipicio a la izquierda (de precipicio a la derecha) Forma : El valor del promedio esta localizado el extremo izquierdo ( derecho ) lejos del centro del Rango, la frecuencia disminuye bruscamente a la izquierda (derecha) , y gradualmente hacia la derecha.(izquierda).
100
a cin e ceu r F
80 60 40 20 0 -5
15
35
55
75
95
115
Es una forma que se presenta frecuentemente cuando se ha realizado una selección al 100% debido a una baja capacidad del proceso , y se necesita cumplir con un limite de especificación inferior (superior).
Tipo Planicie : Las frecuencias forman una planicie , porque las clases tienen más o menos la misma frecuencia excepto aquellas de los extremos. forma se presenta cuando laovariable presentaproduciendo un comportamiento heterogéneo debido Esta a problemas de estratificación segmentación una mezcla de varias distribuciones que tienden a tener valores promedios diferentes.
Tipo de doble cúspide ( bimodal ) : Existen dos intervalos ( o valores ) que presentan máximas frecuencias pero no se encuentran contiguas. Esta forma se presenta cuando se mezclan dos distribuciones que tienen valores de promedio diferentes. O cuando la variable presenta un comportamiento heterogéneo debido a problemas de estratificación o segmentación produciendo una mezcla de dos distribuciones que tienden a tener valores promedios diferentes.
- 51 -
40
ai c n e cu er F
30 20 10 0 1700
2200
2700
3200
3700
4200
4700
Tipo cúspide aislada : Presenta una pequeña cúspide aislada que se encuentra aislada de un histograma de tipo general.
24 a i n c e u c re F
20 16 12 8 4 0 15
25
35
45
55
Esta forma se presenta cuando se incluye una pequeña cantidad de datos de una distribución diferente , como en el caso de anormalidad en el proceso , error de medición o inclusión de información de un proceso diferente.
2.3.2.- Aplicación de los Histogramas a problemas relacionados con calidad: Un aspecto muy interesante es utilizar los histogramas que entregan los datos de la variable con los límites de especificación que le han sido asignados a la variable en estudio. Si existe una especificación, dibuje sobre el histograma, con líneas verticales, los límites de la especificación , para comparar la distribución de los datos con la respectiva especificación. Luego observe si el histograma está localizado razonablemente dentro de los límites.
Cuando el Histograma de los datos,
acusa que se satisfacen las especificaciones
- 52 -
LSL = 15,0, Nominal = 35,0, USL = 55,0 18
y c n e u q rfe
15 12 9 6 3 0 15
25
35
45
55
mpg
LSL = 33,5, Nominal = 36,5, USL = 39,0
24
Pp = 0,67
20
cy n e u eq fr
Ppk = 0,32
16
Ppk (upper) = 1,03
12
Ppk (lower) = 0,32 K = -0,62
8 4 0 30
32
34
36
38
40
Lo que se necesita es mantener el estado actual, puesto que el histograma de los datos satisface la especificación. Se satisface la especificación, pero no hay margen extra. LSL = 32,0, Nominal = 35,0, USL = 38,0 24
y c n e u eq fr
Pp = 0,73
20
Ppk = 0,68
16
Ppk (upper) = 0,78
12
Ppk (lower) = 0,68 K = -0,07
8 4 0 30
32
34
36
38
40
Ptje_Algodon Es necesario reducir la tolerancia.
variabilidad para poder quedar con un margen extra de
- 53 -
Cuando el histograma de los datos,
24
no satisface las especificaciones
LSL = 33,5, Nominal = 35,5, USL = 37,0 Pp = 0,43
20
Ppk = 0,32
y c 16 n e 12 u q e fr 8
Ppk (upper) = 0,54 Ppk (lower) = 0,32 K = -0,40
4 0 30
24
32
34
36
38
40
LSL = 33,5, Nominal = 36,5, USL = 39,0 Pp = 0,67
20
Ppk = 0,32
y c 16 en u12 q ref 8
Ppk (upper) = 1,03 Ppk (lower) = 0,32 K = -0,62
4 0 30
32
34
36
- 54 -
38
40
LSL = 30,5, Nominal = 33,0, USL = 35,5 24
Pp = 0,61
20
Ppk = 0,17
y c16 n e12 u q ref 8
Ppk (upper) = 0,17 Ppk (lower) = 1,05 K = 0,72
4 0 30
32
34
36
38
40
2.3.3.- Estratificación de Histogramas. Cuando los valores observados se dividen en dos o más sub-poblaciones según la condición que existía en el momento de recoger los datos, esas sub-poblaciones se llaman estratos, y la división de los datos en estratos se llamaestratificación. Los valores observados siempre van acompañados de alguna variación. Por tanto , cuando los datos se estratifican según los factores que se cree puedan causar la variación, las causas de la variación se hacen más fácilmente detectables. Este método puede usarse de forma muy efectiva para mejorar la calidad del producto al reducir la variación y mejorar el promedio del producto. Por lo general, la estratificación se hace según los materiales , las máquinas , las condiciones de operación, de los turnos , trabajadores , etc. (usualmente se denominan Factores) 2.3.3.1.- Polígono de frecuencia Este gráfico muestra un perfil de la curva asociada a la distribución de los datos. Consiste en representar puntos (x , y ) en el Plano de manera que en el eje horizontal (X ) ubiquemos la marca de clase o punto medio del intervalo, y en el en eje vertical (Y) la frecuencia absoluta o relativa correspondiente a la marca de clase. Luego se une los puntos con segmentos de recta. Para construirlo usando Statgraphics , debemos estar dentro de una pantalla como la figura Número 50 , y en el campo Plot Type , seleccionar Polygon.
LSL = 30,5, Nominal = 34,5, USL = 36,5 24 Pp = 0,73 20 Ppk = 0,42
y c16 en u12 erq 8 f
Ppk (upper) = 0,42 Ppk (lower) = 1,05 K = 0,10
4 0 30
32
34
36
- 55 -
38
40
Poligono de Frecuencia para "mpg" 18 15
e g 12 ta n 9 cre e 6 p 3 0 15
25
35
45
55
mpg 2.3.3.2.- Ojiva o Curva de Concentración Consiste en la representación de una curva (con segmentos de recta ) , cuyas ordenadas tienen tantas unidades como elementos existan de la distribución hasta el punto determinado . Para su construcción se emplea colocando en el eje horizontal , los intervalos ; el eje vertical, las frecuencias acumuladas o relativa. Haciendo uso de statgraphics , debemos estar en una pantalla como la Fig. 50 , y activar en el campo counts la opción cumulative
Nota : La OJIVA es un gráfico que permite obtener de manera muy aproximada el valor de cualquier Percentil. Se debe trazar una línea perpendicular al eje vertical (Percentage) que pase por un porcentaje deseado, y prolongarla hasta que corte la curva de las frecuencias acumuladas. Desde aquí, bajar una perpendicular que corte el eje horizontal (mpg). Este punto representa el valor del percentil.
Ojiva para "mpg" 100
e g ta n ec r e p
80 60 40 20 0 15
25
35
mpg
2.3.3.3.- Box -and-Wisker Plot : ( Caja y bigotes).
- 56 -
45
55
Es un diagrama de caja que presenta los tres cuartiles, y los valores mínimo y máximo de los datos sobre un rectángulo, alineado horizontal o verticalmente. El rectángulo delimita el rango intercuartílico con la arista izquierda (o inferior) ubicada en el primer cuartil (lower Quartil), Q1, y la arista derecha (o superior) en el tercer cuartil (Upper Quartil), Q3 ,. Se dibuja una línea a través del rectángulo en la posición que corresponde al segundo cuartil (mediana).De cualesquiera de las aristas del rectángulo se extiende una línea , o bigote, que va hacia los valores extremos. Estas son observaciones que se encuentran entre cero y 1.5 veces el rango intercuartílico a partir de las aristas del rectángulo. Cuando están entre 1.5 y 3 veces el rango intercuartílico a partir de las aristas del rectángulo se llaman valores atípicos (outliers).
Box-and-Whisker Plot
0
4
8
Precio (U$)
12
(X161000)
Las observaciones que están más allá de 3 veces el rango intercuartílico a partir de las aristas del rectángulo, reciben el nombre de valores atípicos extremos. Para representarlos, el software utiliza unos cuadraditos, tal como se ve en la siguiente figura: (al hacer click sobre ellos aparece en la pantalla el número o línea del archivo, en que están registrados. Para acceder a este grafico debe estar en una pantalla , tal como lo muestra la Fig. 48 Estando dentro del gráfico anterior y pulsando el sector derecho del mouse, accederá a una ventana que tiene un pane options que permite configurar a sus necesidades el gráfico Box-and- Wisker Plot y obtendrá la siguiente pantalla :
Fig. 50
- 57 -
2.3.3.4.- Normal Probability Plot : (Gráfico de Probabilidad Normal ). Los métodos gráficos resultan muy útiles cuando se elige una distribución de probabilidad para describir una población (variable) partiendo de datos colectados (muestra) con ese propósito. La gráfica de probabilidad es un método gráfico para determinar si los datos muestrales se ajustan a una distribución propuesta con base en un examen visual subjetivo de los datos. En este caso se trata de observar si los datos colectados nos indican cuan posible es de que la variable pueda asumir el modelo deProbabilidad Normal. En caso, que la distribución normal describa de manera adecuada los datos, los puntos de la gráfica, se ubicarán de aproximadamente a lo largo de una línea recta. Si los puntos se desvían de manera significativa de una línea recta, entonces el modelo propuesto no es el apropiado. La determinación de, si la gráfica corresponde o no a una línea recta, es subjetiva. El procedimiento de obtención se ilustra con un ejemplo: Veremos si la variable mpg se comporta como una Distribución Normal .Debe obtener una pantalla tal como lo indica la Fig.49 y en ella seleccionar la opción Normal Probability Plot
Gráfica de Probabilidad Normal para MPG 99,9 99 e g ta n e c r e p
95 80 50 20 5 1 0,1 15
25
35
45
55
mpg
2.3.3.5.- Symmetry Plot: Este gráfico muestra la simetría de la variable en estudio. Ordena los datos de menor a mayor. Se seleccionan los datos que están a la izquierda o a la derecha del
- 58 -
valor mediano o mediana (Separa el conjunto de datos en dos mitades o 0% ) y cada punto es graficado mostrando su respectiva distancia de la mediana. Si la distribución de los datos es simétrica (sesgo cero), los puntos estarán muy cerca de la línea recta diagonal en el gráfico. Si la distribución tiene signo positivo, los puntos estarán desviados por sobre la línea diagonal. Si tiene sesgo negativo , habrá puntos desviados por debajo de la línea diagonal. Para acceder a este gráfico deberá estar presente la pantalla, tal como lo indica la Fig.49 y en ella activar la opción Symmetry Plot, y tendrá el siguiente gráfico para la variable mpg.
Gráfico de la Simetria para MPG
a 18 na die 15 M 12 al er 9 b os 6 iac na 3 sit D 0 0
3
6
9
12
15
18
Distancia bajo la Mediana
2.4.- Desarrollo de Ejercicios de Aplicación (Medidas de resumen asociadas a una tabla de frecuencia, con escala de intervalos) Statgraphics en su versión 4.0 para ambiente windows, calcula todas las Medidas Estadísticas de Resumen a partir de datos no tabulados. Sin embargo es necesario poner énfasis que también las podemos calcular a partir de una tabla de frecuencias. Es más , hay algunas medidas que adquieren más comprensióna partir de la tabla de datos , como puede ser el caso de la Moda , la Mediana. 2.4.1.- Ejemplo Ilustrativo: A modo de ejemplo, presentaremos a continuación una Tabla de Frecuencia para la Potencia de los Automóviles del Archivo Cardata. Tabla de Frecuencia para La Potencia de los Automóviles del Archivo Cardata Nº Interv 1 2 3 4 5 6 7 8 Total
Limite Intervalos 45 60 60 75 75 90 105 120 135 150
90 105 120 135 150 165
Marca de Clase (Xi) 52,5 67,5
Frecuencia Absoluta fi 9 47
Xi *fi 472,5 3172,5
82,5 97,5 112,5 127,5 142,5 157,5
43 19 15 8 8 2 151
3547,5 1852,5 1687,5 1020,0 1140,0 315,0 13207,5
- 59 -
Las características y propiedades de estas Medidas Estadísticas ya fueron comentadas de forma extensa en párrafos anteriores , por lo que ahora sólo se hará énfasis en el algoritmo de cálculo.
Medidas de Tendencia Central Promedio Aritmético i =t
∑X X
=
i =t
∑X
fi
i
i =1 i =t
=
f
∑ i =1
i
fi
i =1
n
i
Es decir , debemos sumar los productos de las marcas de clase de los "t" intervalos por el valor de la frecuencia absoluta respectiva , y luego dividir por la cantidad "n" de datos
Promedio Geométrico Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135
Nº Interv 1 2 3 4 5 6 7 8 Total
135 150
Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5
150 165
Logaritmo de Xi
142,5 157,5
Frecuencia Absoluta fi 9 47 43 19 15 8
(Log Xi)* fi
8 2 151
i =t
∑ ( LogX ) * f i
Xg
= Inv Log [
i =1
n
i
] =
Promedio Armónico
Nº Interv 1 2 3 4
Limite Intervalos 45 60 60 75 75 90 90 105
5 6 7 8 Total
105 120 135 150
120 135 150 165
Marca de Clase (Xi) 52,5 67,5 82,5 97,5
ValorRecíproco Marca de Clase (1/Xi )
112,5 127,5 142,5 157,5
Frecuencia Absoluta fi 9 47 43 19
(1/Xi )*fi
15 8 8 2 151
En la planilla anterior debemos realizar el cálculo indicado , para cada intervalo.
- 60 -
Xh
=
1 i =t
∑ (1 / X i ) * f i i =i
n
Modo o Moda
En la tabla de frecuencia inicial , debemos ubicar el o los intervalos de mayor frecuencia absoluta. A este ( o estos) intervalo(s) se le(s) denomina intervalo modal , pues aquí se encuentra el valor de la moda. Luego se deben determinar los valores ∆1 = Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo anterior al Intervalo modal ∆2 = Frecuencia Absoluta del intervalo Modal - Frecuencia Absoluta del intervalo siguiente al intervalo modal
Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165
Nº Interv 1 2 3 4 5 6 7 8 Total
Marca de Clase (Xi)
Frecuencia Absoluta fi
52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5
9 47 43 19 15 8 8 2 151
Modo = [ Límite Inferior del intervalo Modal] + [ (∆1 / ∆1 + ∆2) ] * ai Donde "ai " es la amplitud del intervalo modal
Mediana :
En la tabla de frecuencia inicial , debemos ubicar la columna de frecuencias absolutas acumuladas. Entrando por esta columna , ubicar hasta que intervalo tenemos acumuladamente el 50 % de los valores de la variable. A este intervalo le llamaremos intervalo mediano.
Nº Interv 1 2 3 4 5 6 7 8 Total
Limite Intervalos 45 60 60 75 90 105 120 135 150
75 90 105 120 135 150 165
Marca de Clase (Xi) 52,5
Frecuencia Absoluta fi 9
Frecuencia Absoluta Acumulada 9
67,5 82,5 97,5 112,5 127,5 142,5 157,5
47 43 19 15 8 8 2 151
56 99 118 133 141 149 151
El intervalo mediano sería el nº 3 , pues hasta aquí ya está acumuladamente el 50 % de los datos
- 61 -
( Med = Límite Inferior del Intervalo Mediano + [
n 2
−
Fi −1 ) * a i ]
fi
Donde: Fi −1 es la frecuencia absoluta acumulada hasta el intervalo anterior al intervalo mediano
fi
es la frecuencia absoluta del intervalo mediano.
a
es la amplitud del intervalo mediano i
Cabe destacar que tanto la Moda como la Mediana, en el caso de que los datos estén tabulados y que ya sea el primer intervalo, el último intervalo o ambos sean intervalos abiertos, son las únicas Medidas de Tendencia Central que pueden calcularse. Un intervalo es abierto cuando decimos " menos de 45 " , "más de 150 " , por ejemplo.
Medidas de Variabilidad Varianza : i
=
∑ σ
2
=
i
=
t
( xi
−
i =t
∑ (x
x )2 * fi
1
σ
n
2
=
i −
x)2 * fi
i =1
n −1
Desviación Estándar Como ya se dijo anteriormente , es la raíz cuadrada de la varianza.
A partir de la tabla siguiente , haremos el cálculo de la varianza y de la desviación estándar
Nº Interv 1 2 3 4 5 6 7 8 Total
Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165
Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5
Frecuencia Absoluta fi 9 47 43 19 15 8 8 2 151
(Xi - X )2* fi
Calcule: La varianza, la desviación estándar, el coeficiente de variación , error Estándar, el primer y Segundo coeficiente de sesgode Pearson, de la tabla anterior.
Desviación Media :
- 62 -
i =t
∑ (X D.M =
i −
X ) * fi
i =1
n
Determine la Desviación Media en la siguiente tabla:
Nº Interv 1 2 3 4 5 6 7 8 Total
Limite Intervalos 45 60 60 75 90 105 120 135 150
75 90 105 120 135 150 165
Marca de Clase (Xi) 52,5
Frecuencia Absoluta fi 9
67,5 82,5 97,5 112,5 127,5 142,5 157,5
47 43 19 15 8 8 2 151
(Xi
−
X ) * fi
Medidas de Posicionamiento
Percentiles : El cálculo de cualquier Percentil , a partir de una Tabla de Frecuencias , es muy similar al procedimiento explicado para calcular la mediana. A partir de la tabla inicial, se debe ubicar la columna de Frecuencias Absolutas Acumuladas. Estando dentro de esta columna, determinar el intervalo que contiene el Percentil buscado. Por ejemplo, para determinar P20, es decir el percentil 20, se debe determinar hasta que intervalo se tiene acumulado, de menor a mayor, el 20 % de los datos.
Pj = Lim. Inferior interv. que contiene percentil "j"
n * j ) − Fi ( + 100 fi
−1
* ai
Donde: J: es s el valor del percentil deseado Fi-1 es la frecuencia acumulada hasta en intervalo anterior al que contiene el percentil "j" fi
es la frecuencia absoluta del intervalo que contiene a el percentil "j" A modo de ejemplo calcule el percentil 20 y el percentil 80 de la sgte tabla de datos
- 63 -
Limite Intervalos 45 60 60 75 75 90 90 105 105 120 120 135 135 150 150 165
Frecuencia Frecuencia Absoluta fi Absoluta Acumulada 1 9 9 2 47 56 3 43 99 4 19 118 5 15 133 6 8 141 7 8 149 8 2 151 Total 151 El Percentil 20, está contenido en el intervalo nº 2 puesto que hasta dicho intervalo está Acumulado el 20% de 151 , cuyo valor es de 30,2 Nº Interv
P20
Marca de Clase (Xi) 52,5 67,5 82,5 97,5 112,5 127,5 142,5 157,5
151 * 20 100 − 9 = 60 + * 15 = 47
El Percentil 80 , está contenido en el intervalo nº 5 puesto que hasta dicho intervalo está acumulado el 80% de 151 , cuyo valor es de 120,8.
151 * 80 ( 100 ) − 118 P80 = 105 + * 15 = 15
Medidas de Deformación: Coeficiente de Sesgo :
∑ a3
i =t i =1
(X i
−
X )3 * fi
i =t
n
n
=
σ
si n > 149
3
Nº Interv Limite Intervalos 1 2 3
45 60 75
60 75 90
4 5 6 7 8 Total
90 105 120 135 150
105 120 135 150 165
a3
=
Marca de Frecuencia Clase (Xi) Absoluta fi 52,5 9 67,5 47 82,5 43 97,5 112,5 127,5 142,5 157,5
∑ (X
i
−
X )3 * f i
i =1
(n - 1)(n - 2) σ 3
(Xi - X )2* fi
si 4 < n < 150
(X i − X )3 * f i
19 15 8 8 2 151
El sesgo estandarizado se consigue dividiendo el valor del sesgo por Coeficiente de Curtosis :
- 64 -
6
n
i =t
n( n − 1) b2 =
∑(X
i −
X )4 * fi
i =1
( n − 1)(n − 2)(n − 3)σ
−
4
3( n − 1) 2 (n − 2)(n − 3)
El valor de la Curtosis Estandarizada se obtiene dividiendo el valor de la Curtosis por:
24
n 2.5.- Ejercicio de Aplicación. 2.5.1.- La siguiente Base de Datos contiene nueve variables para N = 200 empleados ficticios de una Compañía o Empresa. Cadafila representa los valores de las nueves variables para un solo empleado. El número en la primera columna (1 ---200) es el número de empleado. Cada columna subsecuente representa los valores de una variable para los 200 empleados. Las nueve variables se definen como sigue:
X1 : Número de años en la empresa X2 : Número de horas sobretiempo (extras) trabajadas durante los últimos seis meses
X3 X4 X5 X6 X7
: Sexo ; 1 = mujer ; 2 = hombre : Número de cursos de Educación Continua terminados(capacitación) : Número de días con licencia médica tomados en los últimos seis meses : Calificación en la prueba de aptitud de la Compañía : Nivel Escolar ; 0 =Enseñanza Media ; 1 = Estudios Universitarios
; = Título Universitario ; 3 = Postgrado. ´incompletos 2 X8 : Salario Base mensual X9 : Edad del empleado Construya esta Base de Datos para utilizarla más adelante en Ejercicios de aplicación y guardela en un disket de 3,5 o en el disco "C" de su computador personal
Actividades a Desarrollar: 1.- Obtenga una tabla de distribución de frecuencia para la variable X3 y las medidas de resumen 2.- Analice la información entregada por dicha tabla de frecuencias, según los apuntes de clases. 3.- Construya una Gráfico de Barras a partir de la tabla anterior, y ponga un nombre en Castellano a su gráfico. 4.- Construya un Gráfico Sectorial a partir de la tabla generada, y ponga un nombre en Castellano a su gráfico. 5.- Obtenga una tabla de distribución de frecuencia para la variable X4. y las medidas de resumen 6.- Analice la información entregada por dicha tabla de frecuencias, según los apuntes de clases. 7.- Construya una Gráfico de Barras a partir de la tabla anterior, y ponga un nombre en Castellano a su gráfico. 8.- Construya un Gráfico Sectorial a partir de la tabla generada, y ponga un nombre en Castellano a su gráfico. 9.- Obtenga un conjunto de conclusiones, respecto de la variable en estudio
- 65 -
5.- Obtenga una tabla de distribución de frecuencia para la variable X7. y las medidas de resumen 6.- Analice la información entregada por dicha tabla de frecuencias, según los apuntes de clases. 7.- Construya una Gráfico de Barras a partir de la tabla anterior, y ponga un nombre en Castellano a su gráfico. 8.- Construya un Gráfico Sectorial a partir de la tabla generada, y ponga un nombre en Castellano a su gráfico. 9.- Obtenga un conjunto de conclusiones, respecto de la variable en estudio
X1 11 24 17 9 15 6 4 2 17 17 15 21 4 12 23 20 19 12 5 11 11 8 20 1 6 18 21 7 21 27 20 11 11 3 16 2 12 16 9 15 3 17 17
X2 125 225 115 117 26 43 124 71 166 158 182 81 58 203 144 179 96 96 157 27 88 177 211 125 58 178 166 155 45 157 99 140 101 22 93 3 142 11 124 55 6 12 112
X3 1 2 2 1 1 1 2 2 2 1 2 2 1 1 1 1 2 2 2 2 1 2 1 1 2 1 1 1 2 2 2 1 1 1 1 2 1 2 2 2 2 1 1
X4 4 2 3 1 2 4 2 1 2 3 4 3 2 2 2 3 1 4 4 2 0 4 3 0 0 4 3 3 2 2 0 5 3 4 3 2 4 3 1 3 9 1 3
X5 9 2 5 1 0 8 4 1 5 2 4 6 5 3 4 5 5 7 8 4 6 6 1 9 7 3 5 4 6 5 4 7 9 4 5 5 9 0 5 5 3 6 0
- 66 -
X6 121,89 114,2 134,11 113,95 151,41 96,65 98,43 110,06 101,98 101,01 103,42 106,88 99,36 105,66 100,91 73,76 83,39 88,41 98,19 101,72 92,63 92,59 110,34 102,91 110,39 124,5 116,35 118,64 115,64 113,16 96,92 94,82 102,62 78,89 83,88 78,42 98,67 86,52 87,65 81,4 107,87 106,6 117,57
X7 2 1 1 1 2 1 2 1 1 1 2 2 2 2 1 2 0 1 1 1 1 1 2 2 2 1 1 1 2 2 2 0 1 1 1 0 1 1 2 1 2 1 1
X8 230650 271800 348750 236850 335500 226350 195750 204300 189550 255950 349750 268000 224000 312000 247500 304950 339650 304400 255450 239600 306300 387900 417050 197750 376000 342500 361950 280900 356000 399750 371000 275000 244500 231500 350000 220250 265000 364750 272000 339750 190000 286500 385000
X9 44 50 48 53 62 45 26 28 33 40 63 55 50 33 41 53 58 51 39 30 45 61 68 30 57 49 48 31 60 67 57 32 27 37 37 25 32 53 27 37 23 35 41
23 6 1 7
71 28 20 43
2 2 2 1
3 1 5 3
7 3 4 3
96,15 107,97 104,72 85,54
2 1 2 0
404000 389000 270500 262750
63 54 31 33
X1 4 22 18
X2 113 77 152
X3 1 2 2
X4 2 5 3
X5 4 4 5
X6 123,67 80,55 91,02
X7 1 0 1
X8 300000 409000 370000
X9 40 63 54
22 25 15 24 15 2 17 7 8 11 10 10 8 15 8 23
0 112 103 215 50 169 92 132 48 200 149 79 48 202 74 74
1 2 1 1 1 2 2 2 1 2 2 1 1 1 1 2
1 3 2 0 3 1 1 1 1 4 4 0 1 1 1 5
4 7 1 7 6 9 3 7 7 9 4 5 8 8 3 4
105,08 116,61 120,9 95,35 95,94 118,4 82,45 99,18 107,17 97,1 92,41 101,16 93,92 103,45 103,89 110,25
1 1 1 0 0 1 0 1 1 0 0 1 0 1 1 1
422500 473000 305000 261800 279400 156250 236500 419100 389500 436500 314500 246500 262500 372250 231000 403700
62 63 39 41 39 26 42 41 56 70 39 40 37 57 29 65
24 22 6 3 16 4 12 23 13 11 4 3 9 12 3 16
138 66 68 184 123 105 0 52 121 90 31 52 79 136 169 70
2 1 1 1 2 2 2 1 2 2 2 2 2 2 2 2
5 3 2 1 1 3 6 3 4 5 0 3 3 5 2 2
4 3 5 7 4 7 8 4 8 2 3 1 4 4 3 8
103,6 109,1 87,58 96,21 101,75 110,08 104,85 93,91 103,45 101,69 110,25 103,51 109,97 113,17 118,46 126,34
1 2 1 0 1 2 1 0 1 2 1 1 1 2 1 1
424500 383000 395000 314000 326700 331100 358500 471000 416000 407000 287500 352000 385000 418000 236000 420000
63 65 57 29 39 47 61 61 46 42 29 35 45 42 28 46
23 2 18 3 7 25 2 17 22 6
26 187 198 171 132 211 112 118 204 24
2 2 2 2 2 2 1 2 2 2
2 3 2 2 5 2 2 1 3 0
7 4 5 9 7 9 1 3 2 3
108,45 121,46 106,49 102,15 126034 106,38 102,35 98,12 96,82 100,03
1 2 1 2 1 1 2 0 0 1
431750 251500 373000 251000 282150 470250 405000 404250 428500 275000
54 29 42 27 31 65 44 45 51 20
- 67 -
X1 27 12 14 24 14 14
X2 11 100 193 74 61 96
X3 1 1 1 2 1 2
X4 3 3 3 0 1 2
X5 2 8 4 6 3 1
X6 112,69 93,77 121,96 99,7 93,21 117,27
X7 1 0 1 1 0 1
X8 451000 419000 424500 453750 345500 361000
X9 65 49 57 68 39 38
11 4 3 12 12 19 12 4 5 23 9 24 21 19 14 3
138 15 13 149 158 209 180 200 182 59 28 112 169 121 28 111
2 2 2 2 2 1 2 1 2 2 1 2 1 2 1 1
3 2 0 2 2 3 0 2 1 4 3 1 1 2 2 3
7 1 7 3 5 5 4 3 7 5 8 4 4 0 8 7
103,46 106,38 102,35 98,12 122,27 123,64 134,53 100,87 124,09 109,13 102,32 119,55 113,04 103,75 103,89 110,25
1 1 1 0 1 1 1 2 1 1 1 1 1 2 1 1
279500 245250 271750 327750 358750 418000 415750 323500 349000 479500 236000 348750 320000 350000 330000 306000
34 28 26 38 46 52 55 31 35 66 31 47 49 46 41 38
3 8 15 18 7 11 5 18 12 2 26 26 11 11 0 7
132 24 160 44 79 187 107 182 48 217 167 33 22 44 81 123
2 2 1 1 2 2 1 1 1 1 1 1 2 2 2 1
4 0 4 5 2 4 0 5 4 2 2 3 1 3 3 0
1 9 7 5 8 0 9 8 3 0 9 2 6 4 7 2
93,18 109,11 87,58 96,2 89,71 108,64 113,15 104,37 111,36 123,07 99,7 93,21 106,27 102,83 104,18 107,48
1 2 2 1 1 1 2 1 1 1 2 0 2 1 1 2
276000 299000 372000 362000 320000 352000 246500 361000 281500 345500 453750 416000 395000 376000 339000 343250
25 36 41 51 34 49 28 46 35 31 67 63 47 44 31 31
19 5 26 1 8 3 3
13 189 59 147 50 70 198
1 2 2 2 2 2 1
5 4 0 2 3 1 1
3 0 6 5 8 2 9
119,13 92,42 101,15 93,91 78,26 97,98 100,03
2 0 1 0 0 0 1
383000 395000 265000 265000 290000 275000 251000
40 44 58 28 35 28 25
- 68 -
X1 14 11 22 12 17 20 11 14 22
X2 193 77 125 160 28 39 154 129 204
X3 1 1 2 1 2 2 1 1 2
X4 1 0 4 1 0 5 0 1 2
X5 3 3 5 5 3 2 1 9 7
X6 120,54 120,93 125,95 100,73 105,08 123,37 119,53 116,61 119,69
X7 1 1 2 1 2 1 3 1 1
X8 320000 377500 440000 377500 376750 439450 438000 381700 405000
X9 38 45 56 44 42 62 44 40 49
2 14 5 19 22 26 8 16 25 7 23 7 16 2 22 13
90 37 173 6 83 125 169 55 217 19 173 173 105 11 52 103
1 2 2 1 2 1 1 2 2 1 2 2 1 1 2 2
5 4 2 2 1 1 5 4 2 1 0 4 2 1 1 0
6 3 4 4 9 9 4 3 7 1 3 4 5 8 9 5
103,46 106,38 110,17 105,01 100,02 135,22 87,79 103,14 112,55 109,11 87,58 92,91 89,73 108,57 113,15 104,36
1 2 1 1 2 1 2 1 2 1 0 0 1 1 2 1
232250 316250 343250 405000 392750 438500 316250 393750 472000 281500 469000 291000 394000 231000 416500 358500
25 32 35 50 52 58 34 41 66 33 63 28 41 25 46 40
19 7 4 24 11 8 9 22 25 14 18 8 22 8 13 27
143 123 114 37 100 100 198 198 136 0 17 103 15 107 129 167
2 2 1 1 2 2 2 2 1 2 2 2 1 2 1 2
1 4 1 5 2 2 5 1 0 4 3 0 1 0 5 0
4 2 9 4 7 6 3 9 4 2 8 9 3 3 4 8
111 111 87,71 99,12 128,72 107,85 107,85 122,66 93,35 115,46 125,59 92,37 99,17 102,84 104,18 107,75
1 1 0 1 1 2 1 0 0 1 1 0 1 1 1 1
373500 315750 273500 471250 436750 400000 315700 417500 437800 436500 397500 295000 411500 330000 383000 461000
41 34 28 64 55 41 44 40 52 38 44 30 44 35 38 69
27 3 2 23
118 209 125 22
2 2 2 1
0 5 4 2
8 3 4 5
119,13 92,42 101,16 91,35
2 0 1 1
440000 236000 248500 450000
66 22 29 62
X1 9
X2 151
X3 1
X4 1
X5 4
X6 96,82
X7 0
X8 438500
X9 52
- 69 -
15 17 5 26 27 12 1 3 0 16 3
11 39 193 217 189 209 70 52 138 35 9
2 2 2 2 1 2 2 2 2 2 1
4 4 0 2 3 2 5 1 0 3 1
2 1 5 5 7 3 4 6 4 4 3
96,82 89,03 112,67 121,96 104,5 117,48 96,38 107,32 121,36 94,02 129,13
0 1 2 1 2 1 0 1 1 0 1
400500 438000 353000 465500 458000 314500 200000 273000 200000 348500 418000
47 58 35 68 69 34 20 29 21 47 41
5 1 7 2 2 5
173 11 129 162 5 74
2 2 2 1 2 2
2 1 3 3 1 3
8 4 6 3 1 6
122,14 93,86 104,59 107,85 101,68 111
2 3 1 1 1 1
290000 302000 344500 235500 220000 330000
29 30 35 25 26 34
2.5.2.- La tabla siguiente presenta la Distribución de la Edad de 200 empleados, sin diferenciación de sexo, de la "Compañía XXX" (Página 48 ) -------------------------------------------------------------------------------------------------------Lower Upper Relative Cumulative Cum. Rel. Class Limit Limit Midpoint Frequency Frequency Frequency Frequency -------------------------------------------------------------------------------------------------------1 19,0 23,0 21,0 5 0,0250 5 0,0250 2 23,0 27,0 25,0 13 0,0650 18 0,0900 3 27,0 31,0 29,0 27 0,1350 45 0,2250 4 31,0 35,0 33,0 22 0,1100 67 0,3350 5 35,0 39,0 37,0 17 0,0850 84 0,4200 6 39,0 43,0 41,0 23 0,1150 107 0,5350 7 43,0 47,0 45,0 25 0,1250 132 0,6600 8 47,0 51,0 49,0 13 0,0650 145 0,7250 9 51,0 55,0 53,0 13 0,0650 158 0,7900 10 55,0 59,0 57,0 11 0,0550 169 0,8450 11 59,0 63,0 61,0 15 0,0750 184 0,9200 12 63,0 67,0 65,0 10 0,0500 194 0,9700 13 67,0 71,0 69,0 6 0,0300 200 1,0000 ---------------------------------------------------------------------------------------------------Obtenga una tabla de frecuencia como la anterior para que pueda acceder a la siguiente información estadística: 1.- Analice la información y redacte las interpretaciones que surgen de los distintos componentes de la tabla. 2.- Construya una Histograma a partir de la tabla anterior , y ponga un nombre en Castellano a su gráfico. Haga un comentario respecto de la "forma" que presenta. 3.- Construya un polígono de frecuencia a partir de la tabla generada , donde el eje vertical contenga porcentajes. Ponga un nombre en Castellano a su gráfico. 4.- Construya un polígono de frecuencias relativas generada
acumuladas a partir de la tabla
con eje vertical expresado en porcentajes . Ponga un nombre en Castellano a su gráfico.
- 70 -
5.- Usando la ventana Percentiles de Tabular Options, determine el intervalo numérico contienen el 50 % central de los datos? 6.- ¿Cuál es el coeficiente de variación de los datos ?, ¿cuál es su opinión al respecto? 7.- Escriba el valor de las medidas de Tendencia Central : Promedio Aritmético, Promedio Geométrico, Mediana y Moda. ¿Qué conclusión se puede obtener al comparar dichos valores? 8.- A partir de la Mediana, determine los intervalos que contienen el 50% inferior y el 50 % superior de los datos? 9.- Usando la ventana Percentiles de Tabular Options , determine el valor máximo del 15 % inferior de sus datos y el valor mínimo del 10% superior de sus datos. Exprese loanterior en un intervalo numérico 10.- Determine el o los intervalos modales (A partir de su tabla de frecuencia ) e interprete la moda con su respectiva frecuencia absoluta. 11.- Obtenga a partir de su tabla de frecuencia , el valor de la mediana ,. 12.- Utilizando el promedio, la desviación estándar, y los valores de la mediana y moda antes calculados, obtenga las medidas de sesgo de Pearson y comente que tipo de Simetría presenta la variable. (estandarice dichos valores) 13.- Obtenga para esta variables los gráficos "Box-Plot" , "Probabilidad Normal " , "Grafico de la Simetría " . Analice estos gráficos y obtenga conclusiones. 14.- Utilizando el campo "Select", del procedimiento seleccionado al comienzo, filtre por separado los datos de hombres y mujeres para saber: a) Promedio y la Mediana de Hombres y Mujeres b) ¿Cuál de los dos sexos presenta un mayor grado de homogeneidad?. Justifique con valores. c) ¿Entre que Rango fluctúan los valores de la variable en las mujeres? ¿En los hombres?
d) Comente los coeficientes de Sesgo yde Curtosis de la variable , según sexo 15.- Obtenga un conjunto de conclusiones, respecto de la variable en estudio.
- 71 -