ESTADISTICA PARA LA TOMA DE DECISIONES.
40
30
e j a t n e20 c r o P
10
0 Bajo
Intermedio
Alto
Hábito de estudio
Dr. CLETO DE LA L A TORRE DUEÑAS
[email protected] 2011
1
1RA EDICION
Hecho el Depósito Legal en la Biblioteca Nacional del Perú REGISTRO Nº : 2009-09684
Todos los derechos reservados. Prohibida la reproducción total o parcial de este libro en forma idéntica o modificada por cualquier medio mecánico o electrónico, incluyendo fotocopia, grabación o cualquier sistema de almacenamiento y recuperación de información no autorizada por el autor. Impreso en Perú, 2009.
2
CAPITULO I INVESTIGACION CIENTIFICA. 1.1 INVESTIGACIÓN CIENTÍFICA La investigación científica, se puede entender como un conjunto de actividades que realizamos para obtener conocimientos nuevos, sobre problemas nuevos que afectan la realidad, pero que sean nuevos, respecto a la ciencia, es decir, respecto al conjunto de conocimientos ya provisionalmente establecidos y sistematizados por la humanidad, conocimientos nuevos que, como aportes, se sumarán a la Ciencia.
¿Qué es investigar? Investigar viene del latín investigare.
Es la forma más adecuada de aproximarse al conocimiento de la verdad mediante verdades parciales.
Desarrollar actividades actividades con el objetivo de registrar, indagar o descubrir la verdad.
En términos generales, es agregar algo nuevo a los conocimientos humanos.
Es un proceso que, mediante la aplicación del método científico, procura obtener información relevante y fidedigna. corregir o aplicar el conocimiento
3
De entender, verificar,
E L P ROCE S O DE INVE S TIGA CIÓN
I N AR A E L P R NT T E ER R R R O G AN T TE E S P RO C E ES O: DI SE Ñ ÑO ¿Qué est ud i ia r ?
Sel ec c ci i ó n d el t ema.
C uál es l a si t tu ac i ió n ac t tu al ?
P l la nt eami ent o d el ppr obl ema
¿C uál es son l as ppr eg unt as d e Formulación del problema i nv est i ig g a c i ió n
que
d eben
ppr o pósi t to s
t i ie ne
ser
r es pond i id d a s? ¿Qué
l a Ob j et i iv v o s.
i nv est i ig g a c i ió n que se ppl ant ea? ¿C uál es son l os mot i iv v o s ppar a J ust i if f i i c c a c i ió n. hac er e r el e l est ud i io pr ppr o pu puest o? ¿Qui énes
ha n
ant er i io r ment e
i nv est i ig g a d o M ar c co H i is t ór i ic c o
sobr e
el t ema
pl ant ead o? ¿Qué hay esc r ri i t t o al r es pec t to ?
M ar c co T eór i ic c o .
¿Qué se ppr et end er ppr obar ? ¿C ómo
se
v a
a
H p i i ót esi s.
r eal i iz za r l a
M et od ol og í ía .
i nv est i ig g a c i ió n? ¿C uánt o t i ie m po se r equi er e ppar a el
P r ro g r ra mac i ió n
est ud i io pr ppr o pu puest o? ¿Qué r ec ur sos se nec esi t ta n?
P r puest o. re su pu
¿ A que f uent es esc r ri i t t a s se v a a
Bi bl i io g r ra f í ía .
r ef er i ir r el i nv est i ig g a d or ? I N AR A E L P R NT T E ER R R R O G AN T TE E S P RO C E ES O: DE S AR R RO L LO ¿Qué t p i i o d e i nf or mac i ió n se I d de nt i if f i ic c a c i ió n d e i nf or mac i ió n. nec esi t ta pa ppar a c um pl pl i ir l r r l os ob j et i iv v o s, r es pond er l a
ppr eg unt a ( s ) d e
4
i nv est i ig g a c i ió n
y
v er i if f i i c c a r
l as
h pó i ót esi s? p ¿Dónd e enc uent r ro l a i nf or mac i ió n?
Def i in i c ci ió n
d e
f uent es
d e
i nf or mac i ió n. Si ut i il l i i z zo f uent es pr pr i im ar i ia s, ¿a Det er mi nac i ió n d e l a muest r ra c uánt as pper sonas
d ebo r equer i ir r
par a obt ener i nf or mac i ió n? ¿De qué f or ma ppued o obt ener l a T éc ni c ca s i nf or mac i ió n?
d e
r ec ol ec c ci i ó n:
Obser v va c i ió n, enc uest a, et c c.
¿C ómo or g ga ni z za r l a i nf or mac i ió n T abul ac i ió n, obt eni d da ?
ppr oc esami ent o
or d de nami ent o
d e
y l a
i nf or mac i ió n. ¿C ómo se ut i il l i i z za l a i nf or mac i ió n E l la bor ac i ió n pr pr oc esad a y o y or d de nad a?
y anál i is i s
d e
l a
i nf or mac i ió n.
¿C ómo se pu pued e pr pr esent ar el P r re sent ac i ió n d e l os r esul t ta d os d e i nf or me d e l os r esul t ta d os d el l a i nv est i ig g a c i ió n. anál i is i s?
1.2 PROBLEMA DE INVESTIGACIÓN Es un hecho, fenómeno o situación que incita a la reflexión o al estudio y es importante puesto que permite conocer la situación que se va a estudiar mostrando sus principales rasgos.
CRITERIOS BASICOS PARA IDENTIFICAR PROBLEMAS.
De manera general se considera que hay un problema cuando lo que DEBERÍA SER, difiere de lo que ES.
El DEBERÍA SER, es el marco referencial, el patrón comparativo, el ideal, el modelo, el paradigma.
Lo que ES, representa la realidad, es la práctica.
DEBERÍA SER diferente a ES, entonces existe Problema
5
COMPORTAMIENTO DESEADO
COMPORTAMIENTO REAL
DISCREPANCIA LO QUE DEBE SER
LO QUE ES
NECESIDAD EDUCATIVA
6
PROBLEMA DE INVESTIGACION. Para la presentación del POI, es necesario considerar cuatro momentos: el diagnóstico, el pronóstico, el control del pronóstico y la formulación de la pregunta o preguntas o la redacción de un texto a manera de pregunta.
El diagnóstico es la descripción de los síntomas o problemas.
El pronóstico es la serie consecuencias de los problemas.
El control del pronóstico es la serie de acciones para superar las consecuencias de los problemas.
Formulación del problema
Aspectos a integrar en la conceptualización y en la definición de un problema de investigación. Pensar en:
Elementos del enunciado:
Qué se investigará?
Variable/s
Quiénes participarán
Sujetos a estudiar 7
Qué estrategia se seguirá?
Diseño
Dónde se realizará?
Ámbito de estudio
Cuándo se realizará?
Período de Tiempo.
ELEMENTOS DE DEL TITULO DE UN PROBLEMA Especificidad
Situación
Unidad de
problemática
estudio
Espacio
Tiempo
Situación problemática Responde a la pregunta ¿Qué investigar? Por ejemplo: Rendimiento académico, gestión educativa, desempeño profesional,..
La especificidad Es el aspecto o los aspectos concretos que se quiere investigar acerca del hecho o situación problemática. Por ejemplo: causas, consecuencias, características, importancia, influencia, tendencia, modalidades, incidencia, prevalencia, implicancias, estructura, función, nivel, relación, evolución, etc.
Unidades de estudio. Son aquella en las se ponen de manifiesto los hechos o situaciones problemáticas y constituyen, desde el punto de vista estadístico, la población o muestra a la que se refiere la investigación. Son: Personas, grupos
sociales,
seres,
acontecimientos,
instituciones,
objetos,
procesos.
Espacio Esta referido al lugar en el que ocurre el hecho o situación problemática. Puede ser geográfico o administrativo. ¿Dónde?; Perú, Ciudad del Cusco, Zona Franca, Aceros Arequipa, etc.
Tiempo Está referido al momento en que ocurre el hecho o situación problemática. ¿Cuándo?
8
1.3 FORMULACION DE OBJETIVOS Son los propósitos o fines que se pretenden lograr al realizar la investigación.
Los objetivos son de dos tipos: El objetivo general (singular). Es un enunciado proposicional integral y un Logro terminal a alcanzar en la investigación. Los objetivos específicos (plural). Los Objetivos Específicos, Son enunciados desagregados del objetivo general orientados al logro de propósitos concretos y están en relación a lo que aspira alcanzar con el estudio.
Los objetivos deben ser verificables
Al definir los objetivos, debemos pensar inmediatamente en la manera de verificar si éstos se han cumplido o no (pensar en métodos o herramientas para ello)
Lo anterior nos permitirá ir dibujando el perfil metodológico de nuestra investigación
Los objetivos se convierten así en la carta de navegación de la investigación a realizar
Los objetivos deben ser precisos y no muy ambiciosos: deben ser acordes con los recursos disponibles (tiempo) y ello delimitará el nivel de detalle esperable.
Estar expresados en verbos en infinitivo (determinar, analizar, identificar, evaluar, diagnosticar,
conocer,
explicar,
refutar,
comprobar, etc.)
Elementos a tomar en cuenta para redactar un objetivo Sujeto
Elemento de estudio.
Contenido
Expresa el cambio requerido
Acción
Conjunto de actividades que se desarrollan.
Ejemplo 1: Reforzar la capacidad de gestión en los centros de educación inicial del país para la atención de los dominios del aprendizaje de los niños de 4 y 5 años de edad. 9
Acción
: Reforzar la capacidad de gestión en los centros de
educación inicial del país. Contenido: La atención de los dominios del aprendizaje. Sujeto
: Niños de 4 a 5 años de edad
1.4 JUSTIFICACION Y DELIMITACION DE LA INVESTIGACIÓN Criterios de justificación. Originalidad Relevancia Interés Factibilidad
Criterios para delimitar Espacial - Geográfica Cronológica V AB I I A BI LI D AD AD: E s nec esar i io ppl ant ear se l as si g gu i ent es ppr eg unt as: ¿Se d i is po pone d e R ec ur sos? ¿E s f ac t ti ib l e r eal i iz za r en el t i ie m po ppr ev i is t o? ¿E s f ac t ti ib l e l og r i i ac i ió n d e l os su j et os u ob j et os nec esar i io s? ra r l r l a pa par t ti i c c pa p ¿E s f ac t ti ib l e c ond uc i ir e r el e l est ud i io c on l a met od ol og í ía nec esar i ia ? ¿La met od ol og í ía a seg ui r r, c ond uc e a d ar r es puest a al ppr obl ema? ¿Se c onoc e y s y se d omi na l a met od ol og í ía sel ec c ci io nad a? ¿H ay ppr obl emas ét i ic c o mor al es en el d esar r ro l l lo ?
1.5 MARCO TEORICO En el marco teórico se integra con las teorías, enfoque teóricos, estudios y antecedentes en general que se refieran al problema de investigación. Para elaborar el marco teórico es necesario detectar, obtener y consultar la literatura y otros documentos pertinentes para el problema de investigación, así como extraer y recopilar de ellos la información de interés.
10
La revisión de la literatura puede iniciarse manualmente o acudiendo a un banco de datos al que se tenga acceso por computadora.
La construcción del marco teórico depende de lo que encontremos en la revisión de la literatura:
Marco Teórico: Fundamentación teórica dentro de la cual se enmarca la investigación
Marco Conceptual: Definición de conceptos relevantes utilizados en el estudio
Marco Normativo: Normas, leyes referentes al estudio
¿Qué funciones cumple el marco teórico?
Sirve de guía al Investigador
Provee un marco para la interpretación de resultados
Prevenir errores.
Orientar el estudio,
Ampliar el horizonte del estudio y guiar al investigador,
Delimitar el área de investigación,
Establecer los antecedentes del problema,
Fundamentar el contenido del problema,
Facilitar la formulación de las hipótesis,
Implicar nuevas líneas y áreas de investigación,
Proveer un marco de referencia para interpretar los resultados de estudio.
1.6 HIPOTESIS DE INVESTIGACION Afirmaciones o suposiciones que hace el investigador respecto al problema de investigación. Es una suposición que permite establecer relaciones entre hechos. El valor de una hipótesis reside en su capacidad de establecer esas relaciones entre los hechos y de esa manera, explicarnos por qué se produce el fenómeno de estudio. 11
¿Qué Funciones cumple?
Direccionar el problema objeto de investigación
Identificar variables objeto de análisis
Orientar el uso de métodos y técnicas de obtención de información
Elementos estructurales de la hipótesis 1. Las unidades de análisis, que puedan ser los individuos, grupos, viviendas, instituciones, etc.
2. Variables, las características o propiedades cualitativas o cuantitativas que presentan las unidades de análisis.
3. Los elementos lógicos, son los que relacionan las unidades de análisis con las variables y estas entre sí.
Requisitos para estructurar las hipótesis
Las hipótesis deben referirse sólo a un ámbito determinado de la realidad social. Las hipótesis en las ciencias sociales sólo pueden someterse a prueba en un universo y contexto bien definidos.
Los conceptos de las hipótesis deben ser claros y precisos. En las hipótesis, los conceptos son las variables y las unidades de análisis.
Los conceptos de las hipótesis deben contar con realidades o referencias empíricas observables (verificables).
El planteamiento de las hipótesis deben prever las técnicas para probarlas. Se deben formular hipótesis que están relacionadas con técnicas disponibles para su verificación.
RE QUIS T I TOS P ARA FORMUL A R L A HIP Ó TE SIS
Debe referirse a hechos reales.
Debe ser formulada en términos de
Las variables y su relación, tienen que ser comprensibles,
relación o causalidad.
precisos y concretos.
Tener fundamentación teórica.
Deben ser de poder predictivo y explicativo. 12
C ARACTERÍSTICAS Ser específicas (E): Debe indicar un asunto concreto por investigar.
Ser lógica (L): -
La relación de las variables debe ser racionalmente pertinentes
-
Debe tener poder explicativo, debe ser respuesta a su problema.
-
Debe ser compatible con los conocimientos actuales (Teoría)
Ser Contrastable (C) : Es decir, ser comprobable -
Necesita tener referencia empírica, capacidad de ser probada y
verificada en los hechos. -
Debe ser operacional.
-
Fundamentarse en un cuerpo teórico.
Estar de acuerdo con las técnicas y recursos disponibles para probarlas. ELEMENTOS ESTRUCTURALES DE LA HIPÓTESIS Las unidades de análisis:, que pueden grupos,
instituciones y otros.
Las Variables: Independiente y Los elementos lógicos, que con las
ser individuos, familias,
dependiente. relacionan las unidades de análisis
variables y a estas entre sí.
1.7 NIVELES DE INVESTIGACIÓN. El nivel de una investigación viene dado por el grado de profundidad y alcance que se pretende con la misma
13
INVESTIGACIÓN DESCRIPTIVA Orientada al descubrimiento de las propiedades particulares del hecho o situación problemática y también a la determinación de la frecuencia con que ocurre el hecho o situación problemática. Responde a las preguntas ¿Cómo son? ¿Cuántos son? ¿Dónde están? Se refiere a las características cualidades internas y externas, propiedades y rasgos de la población de estudio
Problema Pregunta
¿Cuál es grado de .....? ¿Qué nivel…?
Ejemplo 2: Nivel de conocimiento de las estrategias cognitivas por los profesores, de la población de la ciudad de Cusco, 2011.
INVESTIGACIÓN EXPLICATIVA Orientada al descubrimiento de las causas o consecuencias o condicionantes de la situación problemática Está dirigida a responder a las causas de los eventos físicos o sociales y su interés se centra en explicar por qué y en qué condiciones ocurre un fenómeno, o por qué dos o más variables se relacionan. ¿Por qué? La finalidad es determinar por qué un hecho o fenómeno de la realidad tiene tales y cuales características.
Problema Pregunta ¿ En que medida .....? ¿Cómo influye..? Ejemplo 3: Principales causas de la deserción escolar en la región andina del Perú, 2010.
INVESTIGACIÓN COMPARATIVA Orientada al estudio de las semejanzas o diferencias de un hecho o situación problemática en dos circunstancias diferentes.
Ejemplo 4: Nivel de aplicación de metodologías de enseñanza por los profesores de las instituciones educativas A y B de Cusco, 2010.
14
INVESTIGACIÓN RELACIONAL Orientada al descubrimiento de la influencia de un hecho o situación problemática en otro hecho o situación problemática.
Ejemplo 5: Influencia de la internet en la lectura de los estudiantes de secundaria de la Ciudad del Cusco, 2011.
INVESTIGACIÓN CORRELACIONAL Orientada a descubrir la covariación o correspondencia entre los valores de dos hechos o situaciones problemáticas.
Ejemplo 6: Correlación entre hábitos de estudio y aprendizaje en l os estudiantes de la Universidad de Nacional San Antonio Abad del Cusco, 2011.
INVESTIGACIÓN EXPERIMENTAL Orientada a descubrir la validez de un hecho para la modificación de una situación problemática. ¿Qué cambios y modificaciones se han producido? ¿Qué mejoras se han logrado?.
Problema Pregunta
¿Es más eficaz …..….que……....?
Ejemplo 7: Evaluación del efecto del uso de tres tipos de materiales didácticos en el rendimiento académico, en las I.E de la ciudad de Cusco, 2011.
1.8 TIPOS DE INVESTIGACION Los Tipos de investigación se determinan mediante la aplicación de distintos criterios, a continuación se refieren algunos de ellos.
INVESTIGACION BASICA. Solo busca aplicar y profundizar el conocimiento científico existente acerca de la realidad. 15
INVESTIGACION APLICADA. Se investiga para transformar, modificar o producir cambios en un determinado sector de la realidad.
INVESTIGACION SUSTANTIVA. Se orienta a resolver problemas facticos, su propósito es dar respuesta objetiva a interrogantes que se plantea en un determinado fragmento de la realidad y del conocimiento con el objeto de contribuir en la estructuración de las teorías científicas.
INVESTIGACION TECNOLOGICA. Se relaciona esencial, objetiva y metodológicamente con el nivel experimental, se busca cambios mediante la aplicación de nuevos sistemas.
1.9 DISEÑOS DE INVESTIGACION.
Conjunto de estrategias procedimentales y metodológicas definidas y elaboradas para el desarrollo del proceso de investigación.
El diseño de investigación puede ser pensado como la estructura de la Investigación.
El investigador debe seleccionar un diseño de investigación. Esto se refiere a la manera práctica y precisa que el investigador adopta para cumplir con los objetivos de su estudio, ya que el diseño de investigación indica los pasos a seguir para alcanzar dichos objetivos. Es necesario por tanto que previo a la selección del diseño de investigación se tengan claros los objetivos de la investigación.
Las maneras de cómo conseguir respuesta a las interrogantes o hipótesis
planteadas dependen de la investigación. Por esto,
existen diferentes tipos de diseños de investigación, de los cuales debe elegirse uno o varios para llevar a cabo una investigación particular (Hernández, Fernández y Baptista, 2000; Castillo, 2005).
La precisión, la profundidad así como también el éxito de los resultados de la investigación dependen de la elección adecuada del diseño de investigación. He aquí un esquema donde se resumen los diferentes tipos de investigación según Hernández, Fernández y Baptista (2000). 16
Diseños experimentales Son aquellos en los que se cumple que:
Los grupos a ser investigados han sido asignados al azar , por procedimientos aleatorios y los grupos resultantes son equivalentes, de tal manera que se tiene un grupo control equivalente a los grupos experimentales.
Diseños cuasi-experimentales. Entendemos por diseños cuasi-experimentales cuando se cumplen las siguientes condiciones:
Los grupos sobre los que se lleva a cabo la investigación no han podido establecerse como equivalentes en las características fundamentales. Los grupos no han sido asignados al azar, sino que han sido establecidos por algún otro procedimiento de muestreo.
Como dice Hernández et al.“En los diseños cuasi -experimentales
los sujetos no son asignados al azar a los grupos no emparejados; sino que dichos grupos ya estaban formados antes 17
del experimento, son grupos intacto (la razón por la que surgen y la manera como se formaron fueron independientes o aparte del experimento.”
También algunos autores denominan CUASI-EXPERIMENTAL, cuando el investigador aplica un tratamiento a un solo grupo de sujetos, sin grupo de control, observándolo antes y después de aplicar el tratamiento.
Diseños no-experimentales. Se establece que un diseño no- experimental es: “la que se realiza sin manipular deliberadamente variables. Es decir, se trata de investigación donde no hacemos variar intencionadamente las variables independientes. Lo que hacemos en la investigación no experimental es observar fenómenos tal y como se dan en su contexto natural, para después analizarlos.” (Hernández,
184) La diferencia con los diseños experimentales y cuasi- experimentales se ve con claridad, porque en estos dos siempre hay algún tipo de intervención del investigador, que manipula las variables independientes para averiguar su influencia en las variables dependientes.
Método transversal: Es el diseño de investigación que recolecta datos de un solo momento y en un tiempo único. El propósito de este método es describir variables y analizar su incidencia e interrelación en un momento dado.
Diseños transversales descriptivos: son aquellos que tienen como objetivo indagar la incidencia y los valores en que se manifiesta una o más variables.
Diseños transversales correlacionales: Se encargan de describir relaciones entre dos o más variables en un momento determinado.
Diseños transversales
explicativos: Son aquellos en los cuales las
causas y efectos ya ocurrieron en la realidad (estaban dados y manifestados) y el
investigador los observa y explica.
18
Diseños longitudinales: Son aquellos que analizan cambios a través del tiempo (en variables o sus relaciones), r elaciones), dentro de alguna población en general.
1.10 VARIABLES A las características objeto de estudio en la población se les llama variables, ya que pueden variar de un individuo a otro y se representara por letras mayúsculas: X, Y, Z,. . ., debemos distinguir los distintos tipos de variables que hay, lo cual nos va a permitir utilizar las herramientas estadísticas apropiadas.
TIPOS DE VARIABLES. Las variables estadísticas pueden ser de dos tipos:
Variables cualitativas o atributos: describen cualidades y no toman valores numéricos, estas a su vez pueden ser:
Nominales.- Las cualidades no presentan ningún orden. Ejemplo Sexo del estudiante (Femenino, Masculino), Procedencia, I.E. presentan orden Ejemplo: Grado de Ordinales.- Este tipo de variables presentan estudios (Analfabeto, primaria, secundaria, superior), Nivel de conocimiento de Docentes.
Variables cuantitativas: toman valores numéricos. A su vez pueden ser: Discretas.- Solo toman un número finito o infinito numerable de valores distintos (generalmente números naturales o enteros). Ejemplos: número de estudiantes por secciones, número de profesores, número de aulas, etc.
Continuas.-
Toman
valores
en
un
intervalo.
Generalmente
corresponden a medir magnitudes continuas. Ejemplo, Rendimiento académico, altura, ingreso del docente, etc. Una característica esencial de este tipo de variables es que sus valores nunca son observables con exactitud, sino que dependen (las observaciones) de la precisión del instrumento de medida.
19
Ejemplo 7 Un especialista estudia, estudia, el nivel de introversión introversión en niños menores de 4 años en las instituciones educativas de la ciudad de Cusco. Defina los conceptos previos para este estudio.
Solución: Población: Niños menores de 4 años de las I.E de la ciudad de Cusco. Muestra: Niños de 3 años de las I.E de la ciudad de Cusco. Cusco. Variable: Nivel de Introversión. Tipo de variable: Cuantitativa Unidad de estudio: Niño menor de 4 años.
1.11 ESCALAS DE MEDICION Se llama medición Tenemos las
al proceso de atribuir atribuir números a las características.
siguientes escalas de medición: nominales, ordinales,
cuantitativas de intervalo y cuantitativas de razón. Escala nominal. La clave de estas escalas de medida es que sólo informan de la igualdad o desigualdad de los individuos en una característica, pero no de posibles ordenaciones, puesto que la característica a la que se refieren no se tiene en mayor o menor medida, sino que simplemente adopta formas cualitativamente cualitativamente distintas.
Los
números solo sirven para distinguir valores o categorías diferentes de la variable. Esta escala se emplea para variables cualitativas nominales.
Ejemplo 8: El sexo 1=Masculino y 2=Femenino esto simplemente es un proceso de codificación pero no significa que la mujer sea mayor que el hombre, ni el doble, ni que existe sexo intermedio. Escala Ordinal. Los números además de servir servir para distinguir reflejan un orden existente sobre los valores de la variable.
20
Se obtiene clasificando objetos o arreglándolos en un orden con respecto a alguna variable común. La pregunta es simplemente, si el objeto tiene más o menos de esta variable que algún otro objeto. Esta escala se emplea para variables cualitativas ordinales.
Ejemplo 9: Nivel de conocimientos de estrategias cognitivas por parte de los docentes . Excelente=5, Excelente=5, bueno =4, =4, regular =3 y malo = 2.” es cierto la relación de orden 2<3<4<5. Escala de Intervalo : La ubicación ubicación del punto punto origen no es fija, puesto puesto que 0 no denota la ausencia del atributo. Aquí los números para clasificar los objetos representan también incrementos iguales del atributo que se esta midiendo. Esto significa que los números pueden ser comparados. La diferencia en 1 y 2 es la misma que que entre 2 y 3, pero es solo la mitad de la diferencia entre 2 y 4. Las temperaturas Fahrenheit y Centígrados son medidas que tiene diferentes escalas de intervalo y diferentes puntos de 0.
Escala de Razón: Medida numéricas en las cuales cero es un valor fijo en cualquier escala y la diferencia dif erencia entre valores es diferente Además de la distancia de orden e intervalo, se añade un origen absoluto de forma que no solo cabe hallar distancias (ya en la escala de intervalo), si no también múltiplos exactos. En este caso, el valor representado por 4 tiene doble cantidad medida que él representado por un 2.
Ejemplo 10: Edad del profesor expresada en años. 40 años y 20 años son edades distintas y 40 años es superior a 20 años Entre 40 y 20 hay una diferencia de 20, la misma que entre 50 y 30. El 0 tiene sentido. Una persona con 0 años, realmente no tiene edad todavía no ha nacido. En el siguiente cuadro se muestra un resumen de las características de las escalas de medición.
21
Resumen de escalas de medición Tipo
Información
Transform.
Significa Significa
deducible
admisibles
orden No
Relaciones Nominal “igual que” o “distinto que”
Significa
distancia Origen No
No
Ejemplos Procedencia
Aplicaciones Aplicaciones
del Profesor,
inyectivas
tipo de metodologia Si
No
No
Grado de planificación,
Relaciones Ordinal “mayor que” o “igual que”
Funciones
Nivel de
crecientes
utilización de materiales educativos.
Igualdad o Intervalo
Si
Si
No
desigualdad A + b.x
Temperatura,
de
inteligencia
(b 0)
diferencias Si
Igualdad o Razón
desigualdad de razones
Si
Si
Rendimiento Rendimiento
B .x
académico,
(b 0)
Número de estudiantes.
ESCALAS PARA LA MEDICION DE ACTITUDES La escala de clasificación por categorías es la que usan ampliamente los investigadores de de ciencias de la salud y sociales.
Escala de clasificación por categorías: Existen cuatro categorías a partir de las cuales los entrevistados pueden elegir para señalar su nivel general de satisfacción. - Muy satisfecho (+2) - Satisfecho (+1 ) - Algo satisfecho (0) - No del todo satisfecho (-1)
Escala De Comparación: Es una versión de la escala de categorías, califica a estas categorías como:
“excelente”,
“muy
bueno”, 22
“bueno”,
“regular”
y
“deficiente”,
eliminando de esta forma la comparación implícita. El problema con tal escala es que el punto de referencia es poco claro y diferentes entrevistados pueden usar diferentes puntos de referencia o estándares.
Escala de Likert: La escala de Likert requiere que un entrevistado indique un grado de acuerdo o desacuerdo con respecto a una variedad de afirmaciones (reactivos) relacionadas con el objeto de las actitudes. Es un tipo de instrumento de medición o de recolección de datos que disponemos en la investigación social. Es una escala para medir las actitudes. Consiste en un conjunto de ítems bajo la forma de afirmaciones o juicios ante los cuales se solicita la reacción (favorable o desfavorable, positiva o negativa) de los individuos.
Alternativas o puntos en la escala de Likert Asignación Asignación Numérica
Numérica
I
II
2
5
Alternativa
Alternativa
Alternativa
Alternativa
A
B
C
D
Muy de
Totalmente
Definitivamen Completame
acuerdo
de acuerdo
te sí
nte verdadero
1
4
De acuerdo
De acuerdo
Probablemen Verdadero te sí
0
3
Ni de
Neutral o
acuerdo, ni
indiferente
Indeciso
Ni falso, ni verdadero
en desacuerdo -1 -2
2 1
En
En
Probablemen Falso
desacuerdo
desacuerdo
te no
Muy en
Totalmente
Definitivamen Completame
desacuerdo
en
te no
desacuerdo
23
nte falso
Para obtener las puntuaciones de la escala de Likert, se suman los valores obtenidos respecto de cada items. El puntaje mínimo resulta de la multiplicación del número de ítems por 1. Una puntuación alta está dada por el número de ítems o afirmaciones multiplicado por 5. PM--------------------I----------------------I----------------------I-----------------PA Donde: PM: Puntaje mínimo y PA: Puntaje Máximo.
Ejemplo 11: Ha encontrado en la institución educativa el apoyo y las facilidades necesarias para que usted desarrolle de modo óptimo su trabajo. ( ) Definitivamente sí ( ) Probablemente sí ( ) Indeciso ( ) Probablemente no ( ) Definitivamente no
Ejemplo 12: El Director de la UGEL se preocupa por el bienestar del recurso humano. Categorías de Respuesta
Frecuencia
Porcentaje
Asignación de puntajes
Totalmente de acuerdo
(5)
2
4.4%
2(5)
De acuerdo
(4)
4
9%
4(4)
Indeciso
(3)
7
15.6%
7(3)
En desacuerdo
(2)
9
20%
9(2)
23
51%
23(1)
n=45
100%
Total=88
Totalmente en desacuerdo (1)
Para interpretar el puntaje se ubica en los tramos de la escala de likert.
24
Totalmente En
En
desacuerdo desacuerdo
(1)
(2)
45*1=45
45*2=90
Indeciso (3)
De acuerdo Totalmente de (4)
45*3=135 45*4=180
Acuerdo (5) 45*5=225
La puntuación 88 se aproxima a 90, por lo tanto se ubica en la parte que indica en desacuerdo.
1.12 TIPOS DE VARIABLES UTILIZADAS EN LA INVESTIGACION CIENTIFICA. Toda característica de estudio se conoce como variable.
Variable independiente
Es aquella que juega un rol determinante, causal o de influencia en otra u otras variables, supone cierta autonomía con relación a las demás variables, pero es necesario, señalar que las variables independientes en determinados problemas, pueden cambiar, según sea la posición que ocupen en el enunciado, debido a que la realidad está en movimiento y que todos los hechos están concatenados.
Este tipo de variable se encuentra en las siguientes investigaciones:
1. Explicativa, 2. Relacional 3. Experimental ( en la experimental se le conoce como estímulo) 4. Correlacional
Variable dependiente
Es aquella que juega un rol de consecuencia, al ser determinada, originada o influida por la variable independiente. Esto significa que no pueden existir variables dependientes sin las independientes.
Considerando el tiempo, las independientes son más antiguas que las dependientes. Se encuentran en las siguientes investigaciones:
1. Explicativa 25
2. Relacional 3. Correlacinal 4. Experimental (La variable dependiente en una investigación experimental se le conoce como respuesta)
Ejemplo 13: En el problema influencia del uso de mapas mentales en el rendimiento académico de los estudiantes de las I.E de la región de Cusco, 2011. Variable independiente: Rendimiento Académico Variable dependiente: Uso de mapas mentales
Variable Intermedia
Es aquella que juega un rol de factor condicionante, pues su presencia entre la variable independiente y variable dependiente hace que sin tener el carácter de factor causal o determinante, modifique le resultado más complejas y de mayor profundidad.
Ejemplo 14: En el estudio de formación académica y rol de la experiencia en el desempeño profesional, Quillabamba. 2011. Variable independiente: formación académica. Variable Dependiente: Desempeño profesional Variable Intermedia : Experiencia
Variable interviniente
Es aquella que en ciertas medida juega un rol pasivo en el problema, pues permite medir las características, atributos, estructuras, incidencia, elementos o aspectos que se son inherentes.
La variable interviniente, la encontramos en investigaciones: 1. Descriptiva 2. Comparativa.
26
Ejemplo 15: En el problema: Niveles de desnutrición de los estudiantes de las instituciones educativas de la ciudad de Sicuani, 2011. Variable interviniente : Nivel de desnutrición.
Variables Asociadas
Son aquellas que no guardan mayor nivel de dependencia, no hay relación causal entre ellas y considerando el criterio tiempo vienen a ser más o menos contemporáneas, pues para que aparezca el problema surgen de manera simultánea.
Este tipo de variables, se encuentra en la investigación descriptiva multivariable, se trata de dos o más variables intervinientes, por lo que nunca van acompañadas de algún otro tipo de variables.
Ejemplo 16: En el problema: Rasgos sociales y culturales de los profesores de la ciudad de Cusco , 2011.
Las variables asociadas son rasgos sociales y rasgos culturales
Variables Interdependientes
Son aquellas que indistintamente pueden ser consideradas como causa o como consecuencia una de otra. Corresponden a la investigación correlacional.
Ejemplo 17: En el problema: Correlación entre tipo de alimentación y obesidad de los estudiantes de la ciudad de Cusco, 2010. Las variables interdependientes, son tipo de alimentación y obesidad
27
Resumen del tipo de variables según tipo de investigación. Descriptiva
Comparativa
Interviniente
Interviniente
Asociada
Relacional
Explicativa Independiente(s) Dependiente(s)
Correlacional
Experimental
Independiente
Interdependiente
Estimulo (Factor)
Dependiente
Interdependiente
Respuesta
Observaciones: 1. Las variables según su naturaleza se clasifican en cuantitativas y cualitativas. 2. Las variables según su relación casual se clasifican en: independiente, dependiente, interviniente. En el área de las ciencias de la salud, se tiene los siguientes tipos de investigación biomédica.
1.13
RECOPILACIÓN DE DATOS.
Dentro de un proceso de investigación una de las actividades que se realizan es la recopilación de datos, la cual es el acopio de información y se incluye desde elaborar fichas bibliográficas hasta la aplicación de cuestionarios con el empleo de técnicas de muestreo. Para Hernández et.al. (2006) un instrumento de medición es un recurso que utiliza el investigador para registrar información o datos sobre las variables que tiene en mente. La construcción de instrumento consiste en generar un número suficiente de ítems para medir todas las variables con todas sus dimensiones. La recopilación de datos, se puede realizar mediante: Investigación documental Investigación de campo
28
La investigación documental. Consiste en el estudio de documentos escritos sobre un objeto determinado, es decir son todos aquellos documentos registrados en diferentes dispositivos físicos a los que podemos tener acceso en forma directa o indirecta para su consulta y se puede clasificar en: 1.- Documental bibliográfica
4.- Documental audiográfica
2.- Documental hemerográfica 5.- Documental videográfica 3.- Documental escrita
6.- Documental iconográfica
La investigación de campo. Consiste en obtener información directa mediante diferentes actividades por contacto directo con el hecho que se quiere investigar así como las personas relacionadas y se puede realizar: a) Por observación directa b) Por interrogación
La observación. Es el procedimiento empírico básico, el cual consiste en realizar la percepción intencionada de una actividad determinada mediante la experimentación la cual consiste en la obtención de datos cuantitativos por medio de la medición del fenómeno que se este observando. Para realizar la observación se utilizan diversos instrumentos auxiliares los cuales son: 1.- La ficha de campo
3.- La entrevista
2.- Estudio de Actividades 4.- La encuesta
La Entrevista. Es una de las técnicas más comunes y es considerada como la relación directa entre el investigador y el objeto de estudio a través de individuos o grupos con el fin de obtener testimonios reales. a) Entrevistas formales b) Entrevistas informales
La Encuesta. Consiste en recopilar información sobre una parte de la población. 29
La información recopilada puede emplearse para un análisis cuantitativo con el fin de identificar las magnitudes del problema.
El Cuestionario. Es un eficaz auxiliar en la observación científica que contiene aspectos del fenómeno esenciales, las cuales son preguntas formuladas por escrito y no es necesaria la presencia del investigador. - Cuestionarios por correo - Cuestionario administrado por el entrevistado - Cuestionario administrado por el entrevistador
La Cedula. Tiene carácter de anónimo, donde el encuestador es quien llena la cedula de entrevista, además de que es posible aclara la información sobre las preguntas y es utilizada cuando una persona tiene un bajo nivel cultural.
1.14 VALIDACIÓN DEL INSTRUMENTO La validación de los instrumentos se realiza con el fin de conseguir una mayor
objetividad al seleccionar los ítems en los respectivos cuestionarios. VALIDEZ DE CONTENIDO El proceso de validación de contenido es eminentemente lógico, si bien pueden utilizarse jueces expertos en el tema para valorar la congruencia entre los diversos items y los diversos objetivos. Existen procedimientos cuantitativos diversos para que cada experto valore el grado en que un ítem sirve para evaluar el objetivo al que corresponde. El procedimiento cuantitativo más sencillo sería el siguiente:
Especificar los diversos objetivos (v.gr. áreas diferentes de contenidos) que se Pretenden evaluar.
Elaborar varios ítems para cada objetivo.
Seleccionar una muestra de expertos en el contenido del test.
Pedirles que, según su opinión, asignen cada ítem al objetivo que pretende medir.
30
Seleccionar los ítems en los que los expertos manifiestan mayor acuerdo en sus clasificaciones.
CRITERIO DE EXPERTOS Método 1:HOJA DE PREGUNTAS PARA LA VALIDACIÓN PREGUNTAS
ESCALA DE VALORACION
1. ¿Considera usted que los ítems del instrumento
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
1
2
3
4
5
miden lo que se pretende medir? 2. ¿Considera usted que la cantidad de ítems registrados en esta versión son suficientes para tener una comprensión de la materia de estudio? 3,
¿Considera
usted
que
los
ítems contenidos
en este instrumento, son una muestra representativa del universo materia del estudio? 4. ¿Considera usted que si aplicamos en reiteradas oportunidades este instrumento a muestras similares, obtendríamos también datos similares? 5. ¿Considera usted que los conceptos utilizados en este instrumento, son todos y cada uno de ellos, propios de las variables del estudio? 6. ¿Considera usted que todos y cada uno de los ítems contenidos en este instrumento tienen los mismos objetivos? 7. ¿Considera usted que el lenguaje utilizado en el presente instrumento es claro, sencillo y no da lugar a diversas interpretaciones? 8. ¿Considera usted que la estructura del presente instrumento es adecuada al tipo de usuario a quien se dirige el instrumento? 9. ¿Estima usted que las escalas de medición utilizadas son pertinentes a los objetos materia de
estudio? 10. ¿Que aspectos habría que modificar, que aspectos tendrían que incrementarse o que aspectos habría que suprimirse?…………
31
PROCEDIMIENTO El método DPP mide la adecuación de los instrumentos, para medir la variable de interés, en función a la valoración de los expertos.
Ejemplo 18. En el presente estudio la valoración de los expertos es:
EXPERTOS Item
1
2
3
4
Promedio
1
5
4
5
5
4.75
2
5
5
5
5
5
3
5
4
5
4
4.5
4
5
5
4
4
4.5
5
5
5
5
5
5
6
5
5
5
5
5
7
4
5
3
4
4
8
4
4
5
4
4.25
9
4
4
5
5
4.5
2. Con los promedios hallados, se determina la distancia de punto múltiple (DPP), mediante la siguiente ecuación: 2
2
DPP = (X 1 Y1 ) +(X 2 Y2 ) + ................(X 9 Y9 )
2
Donde: Xi = Valor máximo en la escala para el ítem i. Yi = El promedio del ítem i. DPP = ( 5 4 .75 )2 +( 5 5 )2 + ................( 5 4 .5 )2 1.541
Determinar la distancia máxima (Dmax) del valor obtenido respecto al punto de referencia Cero (0), con la ecuación: 2
2
( 1 ) (1 . . . . . . . . . . . . . . . . . . . ( D x x x 1 2) M a x n
Donde: Xi = Valor máximo en la escala concedido para el ítem i. 1 = Valor mínimo de la escala para cada ítem. 32
D Max
(5 1)
2
(5 1)
2
...................(5 1)
2
12
La Dmax hallada fue de 12 La Dmax se divide entre el valor máximo de la escala, lo que nos da un valor de 12/5=2.4 5. Con el valor hallado anteriormente (apartado 4) se construye una nueva escala valorativa a partir de cero, hasta llegar a Dmax. Dividiéndose en intervalos Iguales entre si, llamándose con las letras A, B, C, D, y E. Siendo: Escala
Valoración
Valoración de Expertos
0-2.4
A = Adecuación Total
DPP=1.541
2.4-4.8
B = Adecuación en gran medida
4.8-7.2
C = Adecuación Promedio
7.2-9.6
D = Escasa Adecuación
9.6-12
E = inadecuación
6. El punto DPP debe caer en las zonas A o B; en caso contrario, la encuesta requiere reestructuración y/o modificación, luego de las cuales se somete nuevamente a juicio de expertos. El valor hallado del DPP fue de 1.541 cayendo en la zona A, lo que indica la Adecuación del instrumento y que puede ser aplicado.
33
Método 2 Cuadro 1. Formato para validar instrumentos a incluir en el instrumento de validación. ÍTEM
Criterios a evaluar Claridad En
Coherencia
la interna
redacció
Inducción a
Lenguaje
la Adecuado
respuesta
n
observaciones
(sesgo)
Con el nivel
Mide lo (
si
debe
que
eliminarse
pretend
modificarse un
e medir
favor indique)
Del informante
Si
No
Si
No
Si
No
Si
No
Si
No
Si
No
1 .. n Aspectos generales El instrumento contiene instrucciones claras y precisas para responder el cuestionario Los ítems permiten el logro del objetivo de la investigación Los ítems están distribuidos en forma lógica y secuencial El número de ítems es suficiente para recoger la información. En caso de ser negativa su respuesta, sugiera los ítems a añadir Validez Aplicable ( )
No aplicable ( )
Validado por: Firma:
34
*************
o
1.5.10 CONFIABILIDAD del INSTRUMENTO Antes de iniciar el trabajo de campo, es imprescindible probar el cuestionario sobre un pequeño grupo de población. Esta prueba piloto ha de garantizar las mismas condiciones de realización que el trabajo de campo real. Se recomienda un pequeño grupo de sujetos que no pertenezcan a la muestra seleccionada pero sí a la población o un grupo con características similares a la de la muestra del estudio, aproximadamente entre 14 y 30 personas. De esta manera se estimará la confiabilidad del cuestionario.
La confiabilidad responde a la pregunta ¿con cuánta exactitud los ítems, reactivos o tareas representan al universo de donde fueron seleccionados?. El término confiabilidad “…designa la exactitud con que un conjunto de puntajes de pruebas miden lo que tendrían que medir” ( Ebel, 1977, citado por Fuentes,
op. cit., p. 103). Entre los métodos para estimar la confiabilidad, se tienen:
Método Test-Retest: una forma de estimar la confiabilidad de un test o cuestionario es administrarlo dos veces al mismo grupo y correlacionar las puntuaciones obtenidas. El coeficiente que se obtiene recibe el nombre de coeficiente de estabilidad porque denota la coherencia de las puntuaciones en el tiempo
Para un desarrollo adecuado y sean confiables deben variar entre 0,80 y 0,95 (Popham, 1980, citado por Fuentes, op. cit.). Se usa la correlación por el método de los puntajes directos (Correlación r de Pearson):
n
r xy n
2 i
x
xi yi xi
xi 2
* n
yi 2 i
y
Donde:
r xy : es el coeficiente de correlación n: número de sujetos X: valores de X (1ª aplicación) 35
yi
2
Y: valores de Y (2ª aplicación)
Método común de división por mitades o Hemitest: este método computa el coeficiente de correlación entre los puntajes de las dos mitades del test o cuestionario aplicado. Esto supone que las dos test mitades son paralelos, tienen igual longitud y varianza entre sí. Se estima a través del coeficiente de confiabilidad de Spearman- Brown: Se establece la correlación entre los dos puntajes de las dos mitades del test a través del método de los puntajes directos, Correlación r de Pearson:
n
r 12
x12
n
x1x2
x1 2
x1 * n
x2 x22
x2
2
Estimación del test completo (Spearman- Brown) con la fórmula:
r tt
2r 12 1 r 12
Se interpreta la prueba de hemitest como coeficiente de consistencia
interna, ya que una sola prueba contiene las dos formas equivalentes y su énfasis lo pone en las puntuaciones de los sujetos, no en los ítemes.
El método de división por mitades de Rulon: utiliza la división del test en mitades, pero su método no supone necesariamente varianzas iguales en los sub-tests. coeficiente de consistencia interna.
r tt 1
sd 2 2
st
Donde:
r tt : coeficiente de confiabilidad sd 2 : varianza de la diferencia entre las puntuaciones de las mitades st 2 : varianza de las puntuaciones del test total
El método de división por mitades de Guttman: también se denomina coeficiente de consistencia interna. Su fórmula es:
36
r tt
2 1
sa2
sb2
st 2
Donde:
r tt : coeficiente de confiabilidad sa2 : varianza de las puntuaciones de los ítemes par es sb2 : varianza de las puntuaciones de los ítemes
impares
st 2 :varianza de las puntuaciones del test total
ALFA DE CRONBACH Para evaluar la confiabilidad o la homogeneidad de las preguntas o ítems es común emplear el coeficiente alfa de Cronbach cuando se trata de alternativas de respuestas policotómicas, como las escalas tipo Likert; la cual puede tomar valores entre 0 y 1, donde: 0 significa confiabilidad nula y 1 representa confiabilidad total. El coeficiente α de Cronbach puede ser calculado por medio de la varianza de los ítems y la varianza del puntaje total (Hernández Sampieri et al, 2003). Para calcular el coeficiente de confiabilidad se usó el ”COEFICIENTE ALFA DE CROMBACH ( )” Córdova (2009), cuya ecuación
es:
donde: : coeficiente de confiabilidad de la prueba o cuestionario número de ítems del instrumento : Varianza total del instrumento. : Sumatoria de las varianzas de los ítems.
Método de Kuder-Richarson 21: permite obtener la confiabilidad a partir de los datos obtenidos en una sola aplicación del test. La suposición básica es considerar que todos los ítemes presentan igual varianza. Coeficiente de
consistencia interna. 37
KR21
n n 1
1
M n M 2
nst
Donde: n: número total de ítems
M: media aritmética de las puntuaciones obtenidas por los individuos st 2 : varianza de las puntuaciones totales
Para la interpretación de la confiabilidad se utiliza el siguiente cuadro: TABLA DE CATEGORÍAS ESCALA
CONFIABILIDAD
r>0.89
Muy alta Alta Aceptable Moderada Baja Muy baja Despreciable
38
Ejemplo 19. Determine la confiabilidad, utilizando alfa de cronbach, para la siguiente información Encuestados
Preguntas (Ítems)
Puntos
1
2
3
4
5
6
7
8
9
10
1
0
0
0
1
1
1
0
0
0
0
3
2
0
1
1
1
2
1
1
1
2
2
12
3
0
1
0
2
1
1
0
0
0
0
5
4
0
0
0
1
1
0
0
1
0
0
3
5
0
0
1
1
1
1
2
1
0
0
7
6
0
0
0
1
1
1
0
1
0
0
4
7
0
0
0
2
1
2
2
1
0
2
10
8
0
0
0
0
0
1
0
0
0
0
1
9
1
0
0
1
1
0
0
0
0
0
3
10
0
1
0
2
2
2
0
2
2
2
13
11
0
0
1
1
1
1
0
1
2
2
9
12
0
1
0
1
2
2
0
2
0
1
9
13
0
0
0
1
2
2
0
0
0
0
5
14
1
0
0
2
2
0
0
1
0
0
6
15
1
1
0
0
0
0
1
0
0
3
Total
3
5
17
18
15
5
12
6
9
93
3
0.17 0.24 0.17 0.42 0.45 0.57 0.53 0.46 0.69 0.83
varianza del instrumento
39
Varianza de cada pregunta
El índice de confiabilidad es alto de conformidad con la tabla de categorías.
BAREMACIÓN DEL INSTRUMENTO, UTILIZANDO ESCALA DE LIKERT. Para medir la variable de estudio se aplico una encuesta utilizando la escala de likert, la misma que presenta en cada ítems cinco alternativas, a partir de las cuales los entrevistados pueden elegir, con la finalidad de señalar su nivel de acuerdo. Alternativa
Asignación numérica
a
5
b
4
c
3
d
2
e
1
Para obtener las puntuaciones de la variable de estudio, se suman los valores obtenidos respecto de cada ítem. El puntaje mínimo (PM) resulta de la multiplicación del número de ítems (x) por 1. Una puntuación alta (PA) está dada por el número de ítems o afirmaciones multiplicado por 5.
PM--------------------I----------------------I----------------------I------------------PA El promedio del puntaje del instrumento se obtiene mediante:
40
Pr omedio
Puntaje n
Para facilitar la interpretar las puntuaciones de la variable de estudio se transforman a una escala cualitativa, según el siguiente criterio.
Puntaje Obtenido
Categoría
Pr omedio 1.49
Deficiente
1.5
Pr omedio
2.5
Malo
1.5
Pr omedio
2.5
Regular
1.5
Pr omedio
2.5
Bueno
Pr omedio
Muy
4.5
bueno
BAREMACIÓN DEL INSTRUMENTO, UTILIZANDO ESCALA DE INTENSIDAD. Para medir las variables de estudio se aplica encuestas, las mismas que presentan en cada ítem cuatro alternativas, a partir de las cuales los entrevistados pueden elegir, con la finalidad de señalar su nivel de acuerdo.
El tipo de escala que se utiliza es ordinal (Escala de intensidad), asignación un valor a cada alternativa como se muestra en el siguiente cuadro: Alternativa
Asignación numérica
a
4
b
3
c
2
d
1
Con la finalidad de realizar un análisis estadístico de las variables con sus respectivas dimensiones previamente se realizo la baremación del instrumento (Medición de la variable) 41
Para medir la variable de estudio (Puntuación), se suman los valores obtenidos respecto de cada ítem. El puntaje mínimo (PM) resulta de la multiplicación del número de ítems (x) por 1. El puntaje máximo (PA) está dada por el número de ítems multiplicado por 4.
PM--------------------I----------------------I----------------------I------------------PA En el cuadro siguiente se muestra el resumen de la puntuación:
Características
Puntuación original
Nro. de preguntas (Ítems) Mínimo Máximo Puntaje Obtenido
m
Puntuación transformada A escala vigesimal m 1 20 x
m
4m T
La puntuación original se transformación a una escala vigesimal utilizando la siguiente relación T 1 x 1 4m-1 19 Despejando el valor de x, se obtiene la puntuación del individuo en escala vigesimal. 19 T 1 1 x 4m 1 Finalmente la escala vigesimal es transformada a una escala cualitativa:
Puntaje
Categoría
Obtenido 0-8
Deficiente
9-10
Malo
11-13
Regular
14-17
Bueno
18-20
Muy bueno
42
5.11 MATRIZ DE CONSISTENCIA. Esta referido a la estructura del proyecto de Investigación y que para fines didácticos se presenta en el siguiente esquema: TITULO:………
PROBLEMA
OBJETIVO
HIPOTESIS
VARIABLES
General
General
General
Variable independiente
¿……………………. ?
Formulación de problemas
…………… ……………
………….
específicos.
Formulación de hipótesis
1. ¿………………….?
Objetivo específico
operativas.
2. ¿………………
..
…
TIPO DE ESTUDIO
POBLACI N Y
RECOLECCI N DE DATOS
MUESTRA Nivel de investigación….
Variable Dependiente
PRUEBAS ESTADISTICAS
Guía de observación
Población….
…………….
Cuestionario encuestas
Tipo de investigación………….
Entrevistas
Diseño de investigación………
Muestra…………
VARIABLES
DIMENSIONES
INDICADORES
Ubicación de ítems
….
……..
…………..
………
43
MODELO DE TESIS TÍTULO DE LA TESIS: CAPITULO I: PROBLEMA DE INVESTIGACIÓN PLANTEAMIENTO DEL PROBLEMA FORMULACIÓN DEL PROBLEMA DE INVESTIGACIÓN OBJETIVOS JUSTIFICACIÓN
ORIGINALIDAD:
PERTINENCIA:
RELEVANCIA:
OPORTUNIDAD:
FACTIBILIDAD:
IMPORTANCIA LIMITACIÓN ÁREA DE ESTUDIO DELIMITACIÓN DELIMITACIÓN ESPACIAL DELIMITACIÓN TEMPORAL
CAPITULO II: MARCO TEÓRICO ANTECEDENTES DE ESTUDIO MARCO CONCEPTUAL MARCO NORMATIVO MARCO TEÓRICO CONCEPTUALIZACIÓN EN TÉRMINOS HIPÓTESIS DE INVESTIGACION.
CAPITULO III: DISEÑO METODOLÓGICO
44
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
NIVEL DE INVESTIGACIÓN TIPO DE NVESTIGACION. DISEÑO DE INVESTIGACIÓN POBLACIÓN Y MUESTRA VARIABLES OPERACIONALIZACIÓN DE VARIABLES TÉCNICAS E INSTRUMENTOS DE RECOLECCIÓN DE DATOS TÉCNICAS DE ANÁLISIS DE DATOS.
CAPITULO IV: PRESENTACION DE RESULTADOS CONCLUSIONES RECOMENDACIONES BIBLIOGRAFIA ANEXOS
45
EJERCICIOS PROPUESTOS. 1.
Influencia del uso de materiales didácticos en el rendimiento académico de los estudiantes de la ciudad de Cusco. Especifique. a. La(s) variable(s) de estudio y el tipo de variable. b. La escala de medición a emplear. c. Nivel de investigación. d. Tipo de investigación e. Diseño de investigación
2.
Se realizo el estudio de la calidad de vida y servicio educativo de los profesores de las I.E de la UGEL Cusco. Especifique a. Proponer un titulo para esta investigación. b. La(s) variable(s) de estudio y el tipo de variable. c. La escala de medición a emplear. d. Nivel, tipo y diseño de investigación.
3.
Se hizo una encuesta a una muestra representativa de profesores de la UGEL La Convención sobre el nivel de acuerdo con la carrera pública magisterial propuesta por el gobierno. Carrera publica magisterial.
Frecuencia
Totalmente de acuerdo
15
De acuerdo
40
Indeciso
25
En desacuerdo
10
Totalmente en desacuerdo
6
En base a la información, realice el análisis correspondiente. 4.
Clasificar cada una de las siguientes variables : a.
Rendimiento Académico (Bajo, Medio, Alto).
b.
Sexo.
c.
Edad. 46
Estadística para la toma de decisiones
5.
Dr. Cleto De La Torre Dueñas
d.
Nivel educativo (primario secundario, superior).
e.
Años de estudios completados.
f.
Tipo de enseñanza (privada o pública).
g.
Estrato social (bajo, medio o alto).
h.
Numero Telefónico
i.
Numero de DNI de un profesor.
j.
Método de enseñanza.
k.
Nivel de congruencia entre la sumilla y el silabo.
En los siguientes temas de investigación Causas de la deserción escolar en la Región Cusco, 2011. Influencia del Uso de TIC en el rendimiento académico de los estudiantes de la carrera Profesional de Educación, Universidad A, 2011. Calidad de vida y desempeño pedagógico de los profesores de la UGEL Cusco, 2011. Elabore la matriz de consistencia para cada uno de los casos.
6.
Se aplico un test para medir la competitividad del magisterio a una muestra piloto de 5 profesores, obteniendo los siguientes resultados. Profesor
Ítems 1
2
3
4
5
6
1
1
0
1
0
0
0
2
0
0
1
1
0
1
3
1
0
0
1
1
1
4
1
0
1
1
0
0
5
0
0
1
0
1
1
Determine la confiabilidad y validez del instrumento.
47
CAPITULO II ORGANIZACIÓN Y PRESENTACIÓN La presentación de datos a través de tablas estadísticas es una actividad importante dentro de los sistemas de información, estas se fortalecen significativamente cuando se la acompañan con gráficos descriptivos ilustrativos. En el contexto de los sistemas de información, en más de una oportunidad se encontrara que un buen grafico resume y expresa mucho más que párrafos completos de comentarios e interpretaciones literales. Resumir los datos es un procedimiento útil para conseguirlo y puede hacerse mediante tablas, gráficos o valores numéricos. A lo largo de este tema veremos las principales técnicas numéricas y gráficas que nos permiten describir una característica de interés observada en una población, poniendo en relieve sus rasgos más importantes. 2.1
TABLA DE FRECUENCIAS.
Un primer resumen de la información contenida en un conjunto de datos observado se obtiene al organizarlos en lo que se llama una tabla de frecuencias. En ésta se recogen los distintos valores (números o categorías) que toma la variable junto con sus correspondientes frecuencias de aparición.
48
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
2.1.1 TABLA DE FRECUENCIAS PARA VARIABLES CUALITATIVAS
Si en una muestra de n elementos, se observa k categorías diferentes C 1, C2,…, Ck de una variable cualitativa X. Para resumir la información, previamente definimos algunos conceptos: La frecuencia absoluta de un valor Ci es el número de veces que dicho valor aparece en la muestra. Se representa por f i y cumple k
fi
f 2 ......
f1
fk n
i 1
La frecuencia relativa de un valor C i es el cociente de la frecuencia absoluta (fi) entre el tamaño de la muestra (n), se representa por h i hi
f i n
k
, se cumple
hi
1
i 1
La frecuencia absoluta acumulada del valor i-ésimo es la suma de las frecuencias absolutas hasta dicho valor, se denota por F i Fi
f1
f 2 ......
f i
La frecuencia relativa acumulada del valor i-ésimo es la suma de las frecuencias relativas hasta dicho valor, se denota por F i
Hi
h1 h2 ...... hi
,
H i
F i n
Una tabla de frecuencias tiene la siguiente estructura:
49
Categoría Frecuencias Frecuencias Frecuencias de la
absolutas
relativas
Porcentuales
variable X
fi
hi
pi
frecuencias
frecuencias
absolutas
relativas
acumuladas acumuladas Fi
Hi
C1
f1
h1
p1
F1
H1
C2
f2
h2
pi
F2
H2
….
…
…
…
…
…
Ck
fk
hk
pk
Fk=n
Hk=1
Total
n
1.00
100.00
GRAFICAS.
Las representaciones gráficas prácticamente están orientadas de acuerdo con las necesidades del investigador o estadístico, de todas formas se tienen algunas normas de trabajo y representación, que tienen por objeto facilitar la lectura de los datos e información que se maneja estadísticamente. La calidad de un gráfico estadístico consiste en comunicar ideas complejas con precisión, claridad y eficiencia, de tal manera que: •
Induzca a pensar en el contenido más que en la apariencia
•
No distorsione la información proporcionada por los datos
•
Presente mucha información (números) en poco espacio
•
Favorezca la comparación de diferentes grupos de datos o de relaciones entre los mismos (por ejemplo una secuencia temporal) La finalidad de los gráficos estadísticos es: –
Organizar los datos.
–
Observar patrones.
–
Observar agrupamientos.
–
Observar relaciones.
–
Comparar distribuciones.
–
Visualizar rápidamente la distribución de los datos. 50
Estadística para la toma de decisiones
–
Dr. Cleto De La Torre Dueñas
Visualizar, obtener y comparar medidas estadísticas.
El cuadro anterior se puede representar utilizando los siguientes gráficos.
Diagrama de barras o rectangulos
Es la representación gráfica usual para variables cuantitativas sin agrupar o para variables cualitativas. Para el caso de variables cualitativas se construye dibujando sobre la categoría correspondiente un rectángulo con altura igual a la frecuencia (absoluta o relativa). También es válido para variables cuantitativas discretas, considerando en el eje de abscisas los valores de la variable en orden creciente en lugar de las categorías, sobre cada valor levantamos una barra de altura igual a la frecuencia (absoluta o relativa).
Diagrama de Pareto .
Se ordenan las categorías de mayor a menor importancia y se dibujan los rectángulos correspondientes.
Diagrama de sectores.
Es
el
círculos.
más usual en variables cualitativas. Se representan
mediante
A cada valor de la variable se le asocia el sector circular
proporcional a su frecuencia. Para hallar el ángulo usamos la siguiente proporción: al tener una circunferencia 360º, el cociente entre la frecuencia absoluta (o relativa) total y la frecuencia absoluta (o relativa) que queramos representar será igual al cociente entre los 360º de la circunferencia y el ángulo a determinar, así : n
360º
1 hi
fi
360º
Donde es el ángulo a determinar.
Pictogramas.
Expresan con dibujos alusivos al tema de estudio las frecuencias de las modalidades de la variable. La escala de los dibujos debe ser tal que el área
51
de cada uno de ellos sea proporcional a la frecuencia de la modalidad que representa.
2.1.2 TABLA DE FRECUENCIAS FRECUENCIAS PARA VARIABLES VARIABLES CUANTITATIVAS DISCRETAS
Una vez obtenida una muestra de cualquier población y observados los valores que toma la variable en los individuos de la muestra, estos valores se suelen ordenar. Si la variable es cuantitativa la ordenación será de menor a mayor. Dada una variable X, consideramos una muestra de tamaño n que toma k valores distintos, x 1, . . . , x k (x1 < x2 < . . . < x k). La organización es en forma similar al caso cualitativo. Categoría Frecuencias Frecuencias Frecuencias de
frecuencias
la absolutas fi relativas hi Porcentuales absolutas
variable
pi
X
frecuencias relativas
acumuladas acumuladas Fi
Hi
x1
f1
h1
p1
F1
H1
x2
f2
h2
pi
F2
H2
….
…
…
…
…
…
xk
fk
hk
pk
Fk=n
Hk=1
Total
n
1.00
100.00
La grafica para representar esta información es Bastones. 52
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Observaciones
Los datos iniciales se pueden representar utilizando los gráficos.
Diagrama de cajas(box-plot)
Presentación visual que describe al mismo tiempo varias características importantes de un conjunto de datos, tales como el centro, la dispersión, el alejamiento de la simetría, y la identificación de valores extremos (puntos atípicos), es decir, de valores que se alejan de una manera poco usual del resto de los datos. Presenta los tres cuartiles, (y los valores mínimos y máximos) alineados sobre una caja vertical u horizontalmente. El procedimiento Para el diagrama de cajas y bigotes es: 1. Dibujar un segmento con extremos en los valores menor y mayor que aparecen en la muestra paralelo a uno uno de los ejes . 2. Dibujamos una caja con extremos en el primer y tercer cuartil y marcamos en ella la mediana. 3. Se hallan los límites interiores (Q1 – 1.5 IQR y Q 3 + 1.5 IQR) y los límites exteriores (Q1 – 3 IQR y Q 3 + 3 IQR). Donde Qi : Cuarteles que seran desarrollados más adelante. 4. Se unen, con unos segmentos (bigotes), Q 1 y Q3 con los valores adyacentes de la muestra. 5. Por último se indican los valores atípicos
Tallos y Hojas (stem & leaf)
Procedimiento semigráfico para el que se preparan los datos resumiéndolos en dos o tres cifras (expresándolos en las unidades adecuadas). A continuación se disponen en una tabla de dos columnas del siguiente modo: 1. Si los datos son de dos dígitos, a la izquierda (en el tallo) aparece la cifra de las decenas, a la derecha separada por una línea aparecen las hojas y se escriben ordenadas y todas seguidas. 2. Si hay tres dígitos el tallo está formado por los dos primeros. Las hojas son las unidades. 53
2.1.3 TABLA DE FRECUENCIAS PARA VARIABLES CUANTITATIVAS CONTINUAS.
A veces se hace necesario trabajar con datos agrupados. Definimos entonces como clase a cada uno de los intervalos en que se agrupan los datos. Las frecuencias harán ahora referencia al número de datos que hay en cada intervalo. Para construir distribución de frecuencias por intervalos, se tiene los siguientes pasos:
Elegir un numero de intervalos de clase (K) Puede utilizar la regla de Sturges,
k
1 3.3log(n)
Donde k: Numero de intervalos. n: Numero de datos.
Determinar el rango , R
Determinar la amplitud de las clases
Determinación de los intervalos: I1
xmin , xmin
I 2
xmin
A
A, xmin
xmax
xmin A
R / k
LI1 , LS 1
2A
LI2 , LS 2
………………………..
I k
xmin
(k 1) A, xmin
kA
LIk , LS k
Determinación de las marcas de clase, mi Donde
LI i
LS i
2
LI : Limite inferior
LS : Limite superior.
Realizar la clasificación y el conteo de datos en cada clase construida.
54
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Intervalos
Marcas
Frecuencia
Frecuencia
Frecuencias
Frecuencias
frecuencias
frecuencias
Ii
de clase
s absolutas
s relativas
relativas
Porcentuales
absolutas
relativas
mi
fi
hi
hi
pi
acumuladas
acumuladas
Fi
Hi
I1
m1
f1
h1
h1
p1
F1
H1
I2
m2
f2
h2
h2
pi
F2
H2
…
…
…
…
…
…
…
mk
fk
hk
hk
pk
Fk=n
Hk=1
n
1.00
1.00
100.00
….
Ik Total
Cuando las variables son continuas, utilizamos como diagramas diferenciales los histogramas y los polígonos de frecuencia s. Este cuadro se representa mediante los siguientes gráficos:
Histograma de frecuencias
Un histograma es la representación más frecuente con datos agrupados, se construye a partir de la tabla estadística, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos.
Polígono de frecuencias
El polígono se construye fácilmente si tenemos representado previamente el histograma, ya que consiste en unir mediante líneas rectas los puntos del histograma que corresponden a las marcas de clase. Para representar el polígono de frecuencias en el primer y último intervalo, suponemos que adyacentes a ellos existen otros intervalos de la misma amplitud y frecuencia nula, y se unen por una línea recta los puntos del histograma que corresponden a sus marcas de clase.
Curva de frecuencias.
Resulta de suavizar el polígono de frecuencias, en sus puntos angulosos.
Ojivas
55
EJERCICIOS RESUELTOS 1) En un estudio realizado sobre el impacto que presenta aplicar una estrategia
comercial en las ventas , se obtuvo siguiente información en el incremento mensual de utilidades en miles de soles de 90 sucursales de la empresa. 12.2 16.4 17.8 18.4
19
19.5
20
20.9
23
13.1 16.8 17.8 18.4 19.1
19.5
20
20.9
23
14.3 16.9 17.8 18.4 19.1
19.7 20.2
21
23.2
15.5 17.1 17.8 18.4 19.2
19.7 20.3
21.1
23.3
15.5 17.2 18 18.5 19.2
19.7 20.3
21.4
23.5
15.6 17.3 18.1 18.5 19.3
19.7 20.5
21.6
23.5
15.9 17.4 18.2 18.5 19.3
19.7 20.6
21.7
24.1
16.1 17.6 18.3 18.5 19.4
19.8 20.6
22
24.2
16.2 17.8 18.3 18.8 19.4
19.9 20.8
22.4
24.8
16.2 17.8 18.3 19
19.9 20.8
22.7
26.2
19.5
a) Construya la tabla de distribución de frecuencias b) Represente la información obtenida, mediante un grafico. Solución.
a) Para construir una tabla de frecuencia se tiene los siguientes pasos.
Elegir el número de clases.
Usando la relación de sturges se tiene: k
R
1 3.3log(n ) 1 3.3log(90)
7.44
7
Determinar la amplitud de los intervalos xmax
xmin
26.2 12.2 14
Determinar el tamaño del intervalo de clases (c), A
R k
14 7
2
Establecimiento de los límites y construcción de la tabla: 56
Estadística para la toma de decisiones
LI - LS
Dr. Cleto De La Torre Dueñas
mi
fi
Fi
hi= fi/n
pi
Hi
[12.2 – 14.2) 13.2
2
2
0.02
2.22
0.02
[14.2 – 16.2) 15.2
6
8
0.07
6.67
0.09
[16.2 – 18.2) 17.2
18
26
0.2
20
0.29
[18.2 – 20.2) 19.2
36
62
0.4
40
0.69
[20.2 – 22.2) 21.2
16
78
0.18
17.8
0.87
[22. 2– 24.2) 23.2
9
87
0.1
10
0.97
[24.2 – 26.2) 25.2
3
90
0.03
3.33
1
1
100
TOTAL
n=90
b) Histograma de frecuencias relativas. Histograma 40
30 a i c n e u c e r f
20
10
0 12
2.-
15
18
21
24
27
SUNAT pone a disposición de sus clientes cuatro nuevos planes de tributación. La gerencia desea saber si se nota alguna preferencia por uno u otro tipo de tributación. A continuación se presenta los resultados de la encuesta aplicada a 37 usuarios. D, A, D, B, C, D, D, A, D, D, A, D, B, D, D, C, A, B, A, D, D, D A, C, B, A, A, B, D, C, B, A, B, B, D, A, D. Represente la información mediante un gráfico apropiado.
57
Solución. Tipo de capital.
fi
hi
Pi
A
10
0.2703
27.03
C
4
0.1081
10.81
B
8
0.2162
21.62
D
15
0.4054
40.54
Total
n=37
1
100
15
12 a i c n e u c e r f
9
6
3
0 A
B
C
D
27.03% T ributación 40.54%
A B C D
21.62% 10.81%
3.- Se realizo un estudio sobre el tipo de error en la facturación en la ciudad de Cusco, registrándose los siguientes resultados.
58
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Tipo de Error en la facturación
Frecuencia 45
Porcentaje 22.4
Concepto
70
34.8
Otros
86
42.8
Total
201
100.0
Calculo
Represente gráficamente la información.
50
40
e30 j a t n e c r o P 20
10
0 Calculo
Concepto
Otros
Tipo de error en la facturación
4.- En una ciudad, se realizo un estudio sobre el conocimiento que presentan los 41
administradores de empresa, respecto a planes de marketing. Los resultados se muestran a continuación. Conocimiento
Frecuencia 26
Porcentaje 63.4
Regular
8
19.5
Bueno
7
17.1
41
100.0
Deficiente
Total
59
Represente la información mediante un grafico.
60,0%
e j 40,0% a t n e c r o P
20,0%
0,0% Deficiente
Regular
Bueno
Conocimiento
EJERCICIOS PROPUESTOS
1. Los datos del Cuadro siguiente corresponden a saldos en cuenta corriente de 48 empresas en miles de soles. 87 106 114
120
129
140
155
183
93 107 116
122
133
141
155
194
101 107 117
122
133
146
162
197
104 109 118
125
134
146
167
204
105 110 118
125
135
148
173
212
105 114 119
128
138
152
176
230
a) Construya la tabla de frecuencias. b) Grafique el histograma. 60
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
c) Establezca si los datos siguen una distribución simétrica. 2. En una muestra aleatoria de 35
pequeños empresarios, se determino la
inversión que estos realizan en la bolsa de valores , obteniéndose los siguientes resultados en miles de soles : 34,35,36,36,38,38,38,39,39,39,39,40,40,40,40,40,41,41,41,41,42,42,42, 42,44,44,44,44,44,45,45,47,47,48,50. a) Identifique los siguientes conceptos: i) Población analizada.
iii) Variable en estudio.
ii) Elementos de la población.
iv) Tipo de dato analizado.
b) Construya una tabla de frecuencias completa e interprete:
n3 , f 4 , N 5 , F4
c) Construya un gráfico estadístico adecuado para la tabla construida en la parte a) e interprételo. d) Se desea determinar el porcentaje de empresarios cuya inversión, pertenece al intervalo
X
2 S X , X
2 S X
.
e) Determine el porcentaje exacto de empresarios con una inversión que fluctue entre 39.5 y 42.5 miles de soles. 3.- Se llevó a cabo un estudio de mercado con el fin de describir el nivel de consumo mensual en unidades, de los compradores de cierto producto de venta masiva. Para ello se realizó una encuesta a un grupo de individuos elegidos al azar y los datos reunidos se muestran a continuación: 4, 8, 4, 6, 8, 6, 7, 7, 7, 8, 10, 9, 7, 6, 10, 8, 5, 9, 6, 3, 7, 6, 4, 7, 6, 9, 7, 4, 7, 6, 8, 8, 9, 11, 8, 7, 10, 8, 5, 7, 7, 6, 5, 10, 8, 9, 7, 5, 6, 5. a).- Construir una distribución de frecuencias de estos pesos. b).- Encontrar las frecuencias relativas. c).- Encontrar las frecuencias acumuladas. d).- Encontrar las frecuencias relativas acumuladas. f).- Dibujar un histograma con los datos de la parte a). g).- ¿Por qué se ha utilizado un histograma para representar estos datos, en lugar de una gráfica de barras 61
5.- SUNAT esta realizando un estudio sobre la evasión de impuestos por parte de una empresa, con tal fin se realiza una auditoria respecto al volumen mensual de las ventas de los últimos 50 meses. 110
110
126
112
117
113
135
107
122
113
98
122
105
103
119
100
117
113
124
118
132
108
115
120
107
123
109
117
111
112
101
112
111
119
103
100
108
120
99
102
129
115
121
130
134
118
106
128
94
114
a).- ¿Cuál es la amplitud total de la distribución de los datos? b).- Obtenga la distribución de frecuencias absolutas y relativas. c).- Obtenga la distribución de frecuencias acumuladas, absolutas y relativas, con los intervalos anteriores. d).- Calcular la media y la varianza con los intervalos del apartado b y después calcúlense las mismas magnitudes sin ordenar los datos en una tabla estadística. ¿Con qué método se obtiene mayor precisión? e).- Dibuje el polígono de frecuencias relativas. f).- Dibuje el polígono de frecuencias relativas acumuladas. 9.- El gerente de ventas de una empresa a registrado los siguientes montos de sus ventas diarias en cientos de soles: 24.1 28.8 25.9 21.8
21.0 20.2 26.7 22.9
26.6 25.9 30.0 21.6
26.0 21.2 24.0 25.3
25.7 26.2 21.3 24.9
21.8 22.0 26.6 25.9
20.9 24.2 21.0 26.5
20.4 24.7 22.1 25.4
20.0 20.7 21.8 22.4
a) Construya una distribución de frecuencia con 5 clases. Incluya los limites dados, la frecuencia absoluta y la frecuencia relativa acumulada "a menos de". b) Dibuje el polígono de frecuencias.
62
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
10.- Suponga que usted es el estadístico oficial de líneas aéreas KLM y que el presidente del consejo de administración le ha pedido que recoja y organice datos relativos a las operaciones de vuelo. Su interés principal a partir de los valores diarios se centra en la variable de número de pasajeros. Ha obtenido estos datos de los diarios de vuelo de los últimos 50 días y ha reflejado esta información: 68 72 50 70 65 83 77 78 80 93 71 74 60 84 72 84 73 81 84 92 77 57 70 59 85 74 78 79 91 102 83 67 66 75 79 82 93 90 101 80 79 69 76 94 71 97 95 83 86 69 a. Construir la tabla de distribución de frecuencias. b. Construir un histograma y un polígono de frecuencias. c. Construir una ojiva. 11.- U asesor de una pequeña empresa de corretaje, intenta diseñar programas de inversión que fuesen atractivos para jubilados. El asesor sabe que si un inversionista potencial pudiera obtener un cierto nivel de intereses, estaría dispuesto a invertir su capital, pero debajo de un cierto nivel de intereses, no estaría dispuesto a hacerlo. De un grupo de 50 sujetos, el asesor obtuvo los datos siguientes con respecto a los diferentes niveles de réditos requeridos por cada individuo para que pueda invertir 1000 dólares: Punto de diferencia ($) fi 70 – 75)
2
75 – 80)
5
80 – 85)
10
85 – 90)
14
90 – 95)
11
95 – 100)
3
100 – 105)
3
105 – 110)
2
a. Construya la distribución de frecuencia acumulativa. b. Grafique la distribución de la parte (a) convirtiéndola en ojiva de frecuencia relativa. 63
c.
CAPITULO III MEDIDAS DESCRIPTIVAS DE UNA DISTRIBUCIÓN DE DATOS Las técnicas estudiadas anteriormente permiten una descripción visual de la distribución de una variable. En muchos casos, el resumen puede hacerse eficazmente de una forma más sencilla y precisa: utilizando valores numéricos que den idea de la ubicación o del centro de los datos -medidas de posición- usando cantidades que informen de la concentración de las observaciones alrededor de dicho centro -medidas de dispersión- y mediante números que reflejen la forma (asimetría y apuntamiento) de la distribución -medidas de forma. La conjunción de técnicas numéricas y gráficas permite una buena descripción de la variable. Los estadísticos resúmenes tratan de reflejar numéricamente distintos aspectos de la variable en estudio. Podemos distinguir 4 aspectos o características principales que pueden resumirse en una distribución. (Ver cuadro siguiente)
64
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Media
Nos dan un centro de
Centralización Mediana
la distribución de
Moda
frecuencias
Percentiles
Son valores de la
Cuartiles
distribución que
Posición
dividen en partes Deciles
iguales
Varianza
Las medidas de
Medidas
Desviación típica
dispersión cuantifican
descriptivas
Coeficiente de variación
la separación, la
Rango
dispersión, la
Dispersión
variabilidad de los valores de la distribución respecto al Recorrido Intercuartilico Coeficiente de Asimetría
Forma
valor central Comparan la forma
Coeficiente de Apuntamiento que tiene la o Curtosis
representación gráfica
3.1 Medidas de tendencia central
Los promedios o medidas de tendencia central son valores representativos de un conjunto de datos. Pretenden resumir todos los datos en un único valor. Las medidas de tendencia central son fundamentales ya que permiten localizar cuantitativamente la zona central o de mayor acumulación de información de un conjunto de datos correspondientes a una variable, obtenidos de una muestra seleccionada de una población específica o de un conjunto de resultados del espacio muestral de un experimento aleatorio. Definimos tres medidas de tendencia central: media, mediana y moda.
65
Media, ( x )
Media para datos sin agrupar: Dado un conjunto de observaciones x1, . . . , x n, la media se representa mediante x , se obtiene mediante: n
x 2 .....
x1
x
xn
n
xi i 1
n
Media para datos agrupados Consideremos el caso en que tenemos una distribución de frecuencia para variables cuantitativas discretas, en este caso la media es: f 1 x1
x
f 2 x2 ..... n
fkxk
k
xi hi i 1
Si los datos están agrupados por intervalos, para hallar la media tomamos la marca de las clases, x
f 1m1
f 2m2 .....
fkm k
n
k
hi mi i 1
La media se mide en las mismas unidades que la variable, y tiene el inconveniente de verse muy afectada por la presencia de datos que sean extremadamente grandes o pequeños (datos atípicos). Mediana, (Me)
Se calcula para variables cuantitativas; es el valor de la serie de datos que se sitúa justamente en el centro de la muestra una vez se ha ordenado ésta, corresponde a un 50% de valores son inferiores y otro 50% son superiores. Mediana para datos sin agrupar La mediana es el valor del dato central y depende del tamaño de la muestra. Me
x
n 1 2
, para n impar
66
Estadística para la toma de decisiones
x
Dr. Cleto De La Torre Dueñas
n
x
2
Me
n
2
1
2
, Si n es par.
Mediana para datos agrupados Cuando trabajamos con variables agrupadas por intervalos es imposible determinar con precisión los valores que toman los datos, ya que esa información se ha perdido en privilegio del agrupamiento intervalo. Por lo tanto, en este caso, debemos buscar otro método para determinar el valor de la mediana. Me
n F i 1 2 A fi
LI
LI
0.5 H i
1
hi
A
La mediana sólo tiene en cuenta la posición de los valores en la muestra y por lo tanto tiene mejor comportamiento que la media cuando hay observaciones anómalas. Moda, (Mo)
Es el valor con mayor frecuencia. Si hay más de una moda, la variable se dice multimodal y puede calcularse para cualquier tipo de variable (Cuantitativas o cualitativas). Si los datos están agrupados hablamos de clase modal y será aquella para la que la frecuencia absoluta sea mayor.
Mo
1
LI 1
A
LI
2
Donde: 1
fi
f i 1
1
fi
f i 1
67
fi
fi
fi
f i 1
1
fi
f i 1
A
¿Cómo elegir entre las medidas de tendencia central?- En general, la media
es la medida de tendencia central más útil y más empleada. El uso de la media es el más apropiado cuando y la distribución de los datos es unimodal y aproximadamente simétrica. Cuando valores extremos distorsionan la distribución de los datos, el uso de la mediana es más apropiado pues se ve menos afectada, pero en la práctica esta medida de tendencia central no se utiliza demasiado. Si se trata de una variable ordinal, o sólo necesitas una descripción rápida y aproximada de la tendencia central, puedes utilizar la moda, que también es útil cuando la distribución está distorsionada por
valores extremos o la distribución es bimodal. Clases de Distribuciones
Distribución
Simétrica se presenta si todas las observaciones están
concentradas en un solo valor de la variable, en este caso la media, mediana y moda coincidirían en el mismo. x
Me
Mo
Distribución asimétrica sesgada a la izquierda Supongamos ahora que las observaciones de la parte izquierda se alejan del valor central más que las observaciones de la parte derecha, generando una distribución asimétrica hacia la izquierda; en este caso como la media es la suma de los valores de las observaciones dividido por la cantidad total de observaciones, su valor se correrá a la izquierda también y por el mismo
68
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
motivo, la media será menor que la mediana y ambas menor que la moda, es decir: x
Me
Mo
Distribución asimétrica sesgada a la derecha. En este caso la media, es mayor que la mediana y que la moda. Mo
Me
x
. 3.2
Medidas de Posición. Cuartiles
Dividen la muestra, ordenada de menor a mayor, en 4 partes iguales, y se denotan por Q i , i=1,2,3 i.n Qi
-
LI i
4
F k 1 f k
A
Q1, primer cuartil, al menos el 25% de los datos son menores o iguales que él y al menos el 75% de los datos son mayores o iguales que él.
- Q2, segundo cuartil, es la mediana, Q 2 = Me. - Q3, tercer cuartil, al menos el 75% de los datos son menores o iguales que él y al menos el 25% de los datos son mayores o iguales que él. Percentiles
Dividen la muestra ordenada en 100 partes iguales. 69
i.n Pi
El i-ésimo percentil, Pi (1
100
LIi
i
F k 1 f k
99 )
A
es un valor tal que al menos el i% de los
datos son menores o iguales que él y al menos el (100-i) % de los datos son mayores o iguales que él. A partir de las definiciones de los cuartiles y percentiles, es claro que Q 1 = P25, Q2 = P50 =Me y que Q 3 = P75. Deciles
Dividen el conjunto de datos en 10 partes iguales y se denota con D i , i=1,…9 Di
3.3
LIi
i.n F k 1 10 A f k
Medidas de dispersión
Mientras los estadísticos de tendencia central nos indican los valores alrededor de los cuales se sitúan un grupo de observaciones, los estadísticos de variabilidad o dispersión muestran si los valores de las observaciones están próximos entre sí o están muy separados. Dos conjuntos de datos pueden tener la misma localización central y no obstante, ser muy distintos si uno se halla más disperso que el otro. La dispersión es el grado en que los datos numéricos tienden a extenderse alrededor de un valor medio. La dispersión de la distribución suministra información complementaria que permite juzgar la confiabilidad de nuestra medida de tendencia central. Si los datos están ampliamente dispersos, la localización central será menos representativa de los datos en su conjunto de lo que sería en el caso de datos que se acumulasen más alrededor de la 70
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
media. Además, si no conviene tener una amplia dispersión de valores respecto al centro o si esa dispersión implica un riesgo inaceptable, deberemos ser capaces de reconocerlo y no escoger las distribuciones que presentan la máxima dispersión. Por ejemplo, a los analistas financieros les interesa la dispersión de las ganancias de una empresa, las utilidades con una fuerte dispersión indican un riesgo mayor parar los accionistas que las utilidades que permanecen relativamente estables. Varianza.
Sólo tienen sentido para variables cuantitativas y se define: n
xi S2
x
x2
i 1
n
n
xi
x
2
fi xi2
fi i 1
n
n
mi
x
2
, Para datos no tabulados.
n
i 1
n
S2
xi2
i 1
n
S2
n
2
x 2 , Para datos tabulados de variable discreta
n
fi mi2
fi
i 1
i 1
n
n
x 2 , Para datos tabulados por intervalos, para
variables continuas. Observaciones sobre la varianza: Las unidades de la varianza son los cuadrados de las unidades de los datos y en muchas ocasiones no son fáciles de interpretar. Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el conjunto. Desviación típica (S)
Es la raíz cuadrada positiva de la varianza s2
s 71
La desviación típica poblacional suele denotarse por . Observaciones sobre la desviación típica: Nos permite determinar con mayor grado de precisión dónde se sitúan los valores de una distribución de frecuencia en relación con la media. Las unidades de la desviación típica se expresan en las mismas unidades de los datos. Puede sufrir un cambio desproporcionado por la existencia de valores extremos en el conjunto. Variables tipificadas
Los distintos conjuntos de datos están asociados por lo general a diferentes medias, ya sea porque son de naturaleza diferente (escalas de medidas diferentes). Con el propósito de reducir los datos a un mismo punto de referencia y a una escala común, se realiza entre ellos una transformación llamada tipificación. Se conoce por tipificación de una variable “x” a efectuar el cambio de origen
y de escala de la variable.
z
Fórmulas: z
x s x-
x
para muestras para població
Esta nueva variable (z), carece de unidades de medida y permite comparar dos o más cantidades que en un principio no son comparables porque aluden a conceptos diferentes. También es aplicable a casos en que se quieran comparar individuos semejantes de poblaciones diferentes. Por ejemplo, si deseamos comparar el nivel académico de dos estudiantes de diferentes universidades, nos indica cuántas desviaciones estándar está un valor por arriba o por debajo de la media del conjunto de datos al cual pertenece. 72
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Ejemplo:
Un Docente de la Universidad A obtuvo 84 puntos en sistemas de tributación , en el que la nota media fue 76, y la desviación típica 10; Otro Docente de la Universidad B obtuvo 90 puntos, siendo la media 82 y la desviación típica 16. ¿ Cual de los Docentes presenta mejor nivel de conocimientos de sistemas de tributación?. Docente de la
Docente de la
Universidad A
Universidad B
= 76
x
x
= 82
s = 10
s = 16
x = 84
x = 90
z=
84 76 10
z=
0,8
90 82 16
0,5
Sobresalió más el Docente de la Universidad A. Coeficiente de variación Muestral de Pearson
Las medidas de dispersión anteriores dependen de las unidades de medida, el coeficiente de variación es, en cambio, una medida de dispersión relativa y adimensional. CV
S
| X |
CV es apropiado en poblaciones donde los datos son positivos. Si 0
1.5, los datos provienen de una población heterogénea. El coeficiente de variación es útil, en razón de su carácter adimensional, para comparar muestras con medias desiguales, donde las unidades de medida de las observaciones son diferentes. También para decidir cual muestra es más homogénea o menos variable 73
Recorrido o rango
Es la diferencia entre el mayor y menor valor de una muestra. R
x max
x min
Rango semiintercuartílico y amplitud intercuartil
El rango semiintercuartílico es la mitad de la diferencia entre el tercer y primer cuartil, Q = (Q3 – Q1)/2. La amplitud intercuartil es el doble del valor anterior, 2Q = IQR = (Q3 – Q1). ¿Cómo elegir entre las medidas de dispersión?- La medida de dispersión
más útil es la desviación típica. Sólo debes usar el rango cuando dispones de pocas medidas o cuando todo lo que necesitas conocer es la dispersión general de las medidas. Utiliza el coeficiente de variación cuando quieras tener una idea de la variabilidad relativa de dos o más variables cuyas medias son muy diferentes en magnitud. Esto se ve facilitado por su carácter adimensional, es decir, no depende de las unidades en que se mida la media 3.4
MEDIDAS DE FORMA
Miden la mayor o menor cantidad de datos que se agrupan en torno a la moda y Hacen referencia a la forma de la distribución, simétrica, asimetría a la derecha o a la izquierda. En general la mejor manera de verlo es por la representación gráfica, pero si no la tenemos existen coeficientes que nos indican la forma de la distribución. Los más utilizados son: Coeficiente de asimetría de Pearson,
El coeficiente de asimetría de una variable mide el grado de asimetría de la distribución de sus datos en torno a su media, es adimensional y se define como sigue: 74
Estadística para la toma de decisiones
A p
x
Dr. Cleto De La Torre Dueñas
M o S
Este coeficiente puede ser: A p
0 , entonces la media igual que la moda, distribución simétrica
A p
0 , entonces la media mayor que la moda, asimetría a la derecha
positiva A p
0 , entonces la media menor que la moda, asimetría a la izquierda
negativa. Curtosis.
hace referencia al mayor o menor apuntamiento que tiene una distribución de frecuencias respecto a una distribución Normal, por lo tanto sólo se estudia en comparación con la campana de Gauss, se determina mediante: K
P75
P 25
P90
P 10
0.5
Este coeficiente puede ser: K
0 , la curva es igual que la normal, se llama Mesocúrtica
K
0 , la curva es más puntiaguda que la normal se llama Leptocúrtica
K 0 , la curva es más aplastada que la normal, se llama Platicúrtica
75
EJERCICIOS RESUELTOS.
1) La siguiente tabla muestra los coeficientes de inteligencia de 480 trabajadores de una empresa. C.I 70 74 78 82 86 90 94 98 102 106 110 114 118 122 126 fi
4
9
16 28 45 66 85 72 54
38
27
18
11
5
2
Calcule: a) El C.I. medio de los trabajadores. b) Su desviación típica. c) Si el gerente de la empresa afirma que exactamente la mitad de los trabajadores de la empresa tienen un C.I. superior al del trabajador Juan, ¿qué C.I. tiene Juan? d) Supongamos que se desea realizar un estudios sobre mercadotecnia , para ello se debe seleccionar a un grupo de trabajadores con mayor C.I., pero la empresa solo puede utilizar al 15% de los trabajadores. ¿Qué C.I. deberá tener un trabajador como mínimo para ser considerado dentro de ese grupo de elegidos? e) Se van a preparar unas clases de apoyo en gestión empresarial , para un 25% de los trabajadores de la empresa , precisamente para aquellos que tengan menor C.I. ¿Hasta que trabajador de qué C.I. deberemos considerar en estas clases? SOLUCION:
La variable de estudio es el cociente intelectual (X)
76
Estadística para la toma de decisiones
xi
fi
Dr. Cleto De La Torre Dueñas
fixi
fixi2
Fi
Hi
70
4
280
19600
4
0.0083
74
9
666
49284
13
0.0271
78
16
1248
97344
29
0.0604
82
28
2296
188272
57
0.1188
86
45
3870
332820
102
0.2125
90
66
5940
534600
168
0.35
94
85
7990
751060
253
0.5271
98
72
7056
691488
325
0.6771
102
54
5508
561816
379
0.7896
106
38
4028
426968
417
0.8688
110
27
2970
326700
444
0.925
114
18
2052
233928
462
0.9625
118
11
1298
153164
473
0.9854
122
5
610
74420
478
0.9958
126
2
252
31752
480
1
1470
n=480
46064
4473216
a) Media x
f 1 x1
.....
f 2 x2
46064
fk xk
480
n
95.96
b) Varianza y desviación. n
xi S2
s
x
2
n
fi xi2
fi
i 1
x2
i 1
n
n
4473216 480
95.96
2
110.88
110.88 10.52
c) Mediana.
n=480 ( Par) x Me
n 2
x
2
n 1 2
x
480 2
x
480 1 2
2
x 240
x 241
2 77
94 94 2
94
d) Percentil 85 P 85
106
e) Percentil 25 P 25
90
2) Una empresa contrata los servicios de un corredor de bolsa, para decidir su inversión en una de las dos acciones A y B. Los resultados de las utilidades de estas acciones en los últimos 7 meses en miles de dólares esta dado en el cuadro siguiente. Acción
Utilidades en miles de dólares. 1
2
3
4
5
6
7
A
57
55
54
52
62
55
59
B
80
40
62
72
46
80
40
a) Halle e interprete la media, mediana y moda de las utilidades. b) Estadísticamente ¿Cuál de las acciones es más recomendable para la empresa que esta interesado en una mayor utilidad? ¿Cuál de las acciones es más recomendable para la empresa que esta interesado en un menor riesgo de inversión? Fundamente su respuesta. SOLUCION:
XA
XB
XA2
xB 2
57
80
3249
6400
55
40
3025
1600
54
62
2916
3844
52
72
2704
5184
62
46
3844
2116
55
80
3025
6400
59
40
3481
1600
394
420
22244
27144
78
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
a) Estadísticos de A. n
x A
xi
x 2 ..... xn
x1
i 1
n
Me A
x
394 7
n
56.28
, para n impar n=7
n 1
2
Me A
x
x7
n 1 2
55
x4
1
2
55
Mo A
Estadísticos de B. n
x B
xi
x 2 ..... xn
x1
i 1
n
Me B
x
n 1
420 7
n
60
, para n impar n=7
2
Me B
x
x7
n 1 2
Mo B1
40
Mo B 2
80
x4
1
62
2
b) Calcular la varianza n
xi S A2
x
i 1
n
n
S
10.27
| X A |
56.28
n
xi
CV B
xi2
i 1
CV A
S B2
n
2
x
7
(56.28) 2
10.27
0.057
xi2 i 1
n
| X B |
22244
n
2
i 1
S
xA2
n
277.7 60
xB2
27144 7
602
277.7
0.277
La información se ilustra en el grafico siguiente. 79
80,00
70,00
d a d60,00 i l i t U
50,00
40,00
A
B
Acción
3.- Con el fin de realizar un estudio sobre las retenciones económicas de quinta categoría a los trabajadores de una empresa, se selecciono aleatoriamente a 24 trabajadores, obteniéndose las siguientes cantidades de retención económica en cientos de soles. Retención
Número de
Económica.
trabajadores
[0, 1>
2
[1, 2>
2
[2, 3>
3
[3, 4>
6
[4, 5>
7
[5, 6>
1
[6, 7>
1
[7, 8>
1
[8, 9>
1
a) Halla la media, varianza, la desviación típica y coeficiente de variación. 80
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
b) Mediana c) Moda. SOLUCION: I
fi
mi
mifi
mi2fi
Fi
[0, 1>
2
0.5
1
0.5
2
[1, 2>
2
1.5
3
4.5
4
[2, 3>
3
2.5
7.5
18.75
7
[3, 4>
6
3.5
21
73.5
13
[4, 5>
7
4.5
31.5
141.75
20
[5, 6>
1
5.5
5.5
30.25
21
[6, 7>
1
6.5
6.5
42.25
22
[7, 8>
1
7.5
7.5
56.25
23
[8, 9>
1
8.5
8.5
72.25
24
Total
24
40.5
92
440
a) Media, varianza, desviación y coeficiente de variación. Media. fi mi x
92 24
n
3.83
Varianza. mi2 f i S2
440
x2
n
24
3.83
Desviación. 3.66 1.91
s
Coeficiente de Variación . CV
S
1.91
| X |
3.83
0.498
Mediana Me
3
12 7 6 81
*1 3.833
3.66
Moda Mo
1
Li
A
1 2
1 7 6 1 1 7 1 6
Mo
a.
1
4
1 6
*1 4.14
El colegio de administradores aplico un test de conocimientos en una escala de 0 a 20 a 60 profesionales del área, respecto a riesgo de inversión , obteniendo los siguientes resultados. Nivel de
Nro de
conocimientos de
administradores
riesgo de inversion.
0-5
10
5-10
15
10-13
25
13-18
8
18-20
2
a) Calcule la media, varianza y la desviación. b) Determine la mediana y la moda c) Determine e interprete Q 1, Q3, P10 y P90 d) Coeficiente de curtosis y de asimetría. SOLUCION: Intervalo
fi.
Fi
mi
mifi
mi2fi
0-5
10
10
2.5
25
62.5
5 -10
15
25
7.5
112.5
843.75
10-13
25
50
11.5
287.5
3306.25
13-18
8
58
15.5
124
1922
18-20
2
60
19
38
722
56
587
6856.5
60 82
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
a) Media y varianza Media. fi mi x
587 60
n
9.78
Varianza. mi2 f i S2
6856.5
x2
n
9.782
60
18.63
Desviación: 18.63
s
4.31
b) Mediana y moda Mediana n Me
Determinamos
n
60
2
2
Me
Li
Li
2
F k 1 A
f K
30 n F k 1 2 A 10 f K
30 25 3 10.6 25
Moda Mo
Li
1 1 2
A
1 25 15 10 1 25 8 17
Mo
Li
1 1 2
A 10
c) Determine e interprete Q 1 , Q3, P10 y P90 83
10 10 17
3 11.11
Para obtener los cuarteles se tiene la relación. Qi
Li
i.n F k 1 4 A f K
Cuartil 1 Q1
1.n F k 1 4 A 5 f K
Li
15 10 15
5
6.67
El 25% de los administradores presentan nivel de conocimientos de riesgo de inversión a 6.67 Cuartil 3 Q3
3.n F k 1 4 A 10 f K
Li
45 25 3 12.4 25
El nivel de conocimientos máximo de riesgo de inversión del 75% de los administradores es de 12.4.
Para obtener los percentiles se tiene la relación. Pi
i.n F k 1 100 A f K
Li
Percentil 10 P10
Li
10.n F k 1 100 A f K
0
6 0 5 3 10
El 10% de los administradores tienen nivel de conocimientos de riesgo de inversión entre 0 a 3
84
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Percentil 90 P90
90.n F k 1 100 A 13 f K
Li
54 50 5 15.5 8
d) Coeficiente de Asimetría. Ap
Puesto que Ap < 0
x
9.78 11.11 -0.308 4.31
M o s
la distribución es asimétrica negativa o a izquierdas
(desplazada hacia la izquierda).
Coeficiente de curtosis de fisher . K
Si
k
0
Q3
Q1
P90
P 10
12.4 6.67
0.5
15.5 3
0.5
-0.0416
, entonces la distribución es platicúrtica.
EJERCICIOS PROPUESTOS
1. Las utilidades de empresas dedicadas al rubro de alimentos, en una región del país presenta el siguiente comportamiento: Utilidades en miles
[0, 40[
[40,70[
[70, 90[
[90,110[
[110,120]
8
10
20
5
de soles. Número de empresas 7 Calcule e interprete: La media aritmética, mediana y moda. Varianza, coeficiente de variación. Cuartel 1, Decil 6 y Percentil 85.
85
2.- Una muestra de pequeñas empresas se clasifica en función de su antigüedad en el mercado y del porcentaje de deudas sobre el capital que presentan, con los siguientes resultados: Deudas
Empresas antiguas
Empresas Nuevas
0-15
19
29
15-30
13
10
30-50
7
11
50-70
4
32
En base a los resultados, ¿ Puede admitirse que el porcentaje de deudas de las empresas es independiente de su antigüedad?. Fundamente su respuesta. 3.En una empresa donde los salarios tienen una media de 700 dólares y una desviación estándar de 150 dólares, el sindicato solicita un reajuste de 25% más un incentivo de 10 dólares. El Directorio acoge parcialmente la petición rebajando los salarios solicitados en un 10%. a) El Sindicato se declara satisfecho en sus negociaciones si el sueldo promedio final aumenta por lo menos en un 20% respecto de su valor actual. ¿Se logra esto aceptando la proposición del Directorio? Justifique su respuesta. b)
El Sindicato pretende con su proposición aumentar la homogeneidad de los sueldos de
sus afiliados ¿Se logra este objetivo aceptando la
proposición del Directorio? Fundamente su respuesta. c)
Si en la Empresa laboran 500 funcionarios ¿En qué porcentaje aumentó la planilla de sueldos respecto a la planilla inicial?.
4. Una empresa constructora tiene 2 secciones A y B. Las distribuciones de ingresos diarios de sus empleados son los siguientes:
86
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Sección A Ingresos ($)
Frecuencia
80-100)
30
100-120)
80
120-140)
40
140-160)
10
160-180)
4
180-200)
1
Sección B Ingresos ($)
Frecuencia
60-90)
10
90-120)
20
120-150)
50
150-180)
20
180-210)
15
210-240)
10
240-270)
4
Calcular la media aritmética y varianza de la sección A y B. Compare los ingresos. 5. Un consultor de una empresa de planificación financiera que asesora a quienes
quieren establecer sus carteras de inversión personales. Hace poco el consultor estaba interesado en las tasas de rendimiento que habían ofrecido dos fondos de inversión diferentes a lo largo de los 5 últimos años. FIVENEZ presentaba tasas de retorno a lo largo de ese período de 12, 10, 13,9 y 11%; mientras que Corporación Dinámica había producido 13, 12, 14, 10, y 6%. Un cliente se puso en contacto con el consultor expresó su interés por uno de estos fondos de inversión. ellos deberá elegir el consultor para su cliente?
87
¿Cuál de
6.- En las siguientes tablas se registran los sueldos quincenales (en dolares) de 50 obreros de dos fábricas. Fábrica A Fábrica B Sueldo
fi
sueldo
fi
45 – 55)
18
45 – 55)
12
55 – 65)
24
55 – 65)
28
65 – 75)
26
65 – 75)
30
75 – 85)
20
75 – 85)
22
85 – 95)
12
85 – 95)
8
a) ¿En cuál fábrica hay mayor dispersión relativa? b) Un obrero que gana 140 mensuales. ¿Dónde estaría mejor remunerado con respecto a sus compañeros? c) ¿Cuál de las dos distribuciones es más simétrica?
88
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
CAPITULO IV DISTRIBUCIONES BIDIMENSIONALES Si resumir la información de una variable es de por si interesante, en investigación lo es mucho más el poner de manifiesto la posible relación entre dos de ellas. El análisis de la relación de dos variables, X e Y, depende del tipo de variables y Según sean los tipos de cada una de ellas se usa técnicas estadísticas diferentes. 4.1 CUALITATIVA-CUALITATIVA.
Cuando las variables de estudio son cualitativas (categóricas) o cuantitativas discretas con poca
modalidades, se suele presentar las observaciones de las
variables X e Y, mediante pares ordenados (xi, yi), esta forma de presentaciones se denomina tablas de contingencia. Las tablas de contingencia son de doble entrada organizada por filas y columnas y donde se presenta la distribución de frecuencias conjuntas de las dos variables. Dada una variable bidimensional ( X, Y ), consideramos una muestra de tamaño n en la que X toma k valores distintos, x1, . . . , x k, e Y toma l valores distintos, y1, . . , yl, obtenemos, por tanto, observaciones del tipo (x i, y j). La frecuencia absoluta de un valor (xi, y j) es el número de veces que dicho valor aparece en la muestra. Se representa por f ij , se cumple k
l
f ij i 1 j 1
89
n
La frecuencia relativa de un valor (xi, y j) es el cociente de la frecuencia absoluta fij entre el tamaño de la muestra n, se representa por hij f ij
hij
n
,
k
se cumple:
l
1
hij i 1 j 1
Distribuciones marginales Nos indican el comportamiento aislado de cada
una de las variables X e Y que dan lugar a una variable bidimensional . l
Frecuencia absoluta marginal de x i, fi.
fi 2 fil
fi1
f ij
j 1
f i .
h i.
Frecuencia relativa marginal de xi,
n k
Frecuencia absoluta marginal de y j, f. j
f1 j
f2 j
fkj
f ij i 1
h. j
Frecuencia relativa marginal de y j,
f . j n
Una tabla de doble entrada de una variable bidimensional sigue la estructura que se presenta a continuación, en la que tienen cabida las frecuencias marginales (representadas en la última fila y última columna). Puede ser de frecuencias absolutas o relativas. Y
y1
y2
.....
yl
ni.
x1
f 11
f 12
.....
f 1l
f 1.
x2
f 21
f 22
.....
f 2l
f 2.
..
..
..
.....
..
..
f k2
.....
f kl
f k.
f .2
.....
f .l
n
X
xk n.j
f k1 f .1
Ejemplos.
1.- El gerente de ventas de la firma A desea determinar el comportamiento de las ventas de cuatro productos (I, II, III y IV), en función de la clase de clientes
90
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
clasificados en cuatro grupos. Una muestra aleatoria de las ventas suministro la siguiente información. Grupo de
Producto
clientes
I
II
III
IV
Profesionales
30
35
55
40
Comerciantes
155
50
125
80
Obreros
130
30
105
50
Amas de casa
35
15
20
45
¿Las ventas de los cuatro grupos son homogéneas?
Solución Producto Grupo de clientes Profesionales
I Frecuencia Porcentaje
Comerciantes
Frecuencia Porcentaje
Obreros
Frecuencia Porcentaje
Ama de casa
Frecuencia Porcentaje
Total
Frecuencia Porcentaje
91
II
III
IV
30
35
55
40
Total 160
18.8%
21.9%
34.4%
25.0%
100.0%
155
50
125
80
410
37.8%
12.2%
30.5%
19.5%
100.0%
130
30
105
50
315
41.3%
9.5%
33.3%
15.9%
100.0%
35
15
20
45
115
30.4%
13.0%
17.4%
39.1%
100.0%
350
130
305
215
1000
35.0%
13.0%
30.5%
21.5%
100.0%
160 140 120 100
I II
80
III
60
IV
40 20 0 Profesionales
Comerciantes
Obreros
Amas de casa
4.2 CUALITATIVA-CUANTITATIVA.
Supongamos que tenemos datos numéricos para varias categorías, por ejemplo en un experimento donde hacemos mediciones numéricas en dos o más grupos. En estos casos, lo que se realiza es un estudio descriptivo de la variable numérica en cada una de las muestras y se comparamos los resultados. Ejemplo La estructura financiera de una firma se refiere a la forma en que se dividen los activos de la empresa por debe y haber, y el apalancamiento financiero se refiere al porcentaje de activos financiados por deuda. En un estudio financiero se afirma que el apalancamiento financiero puede utilizarse para aumentar la tasa de rendimiento sobre la inversión, es decir que, los accionistas pueden recibir rendimientos más altos con la misma cantidad de inversión gracias a su uso. Los siguientes datos muestran las tasas de rendimiento utilizando 3 diferentes niveles de apalancamiento financiero y un nivel de control (deuda cero) de empresas seleccionadas al azar:
92
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Tasas de Rendimiento Control
Bajo
Medio
Alto
4.6
2
7
7.9
2
7.4
4.5
6.8
6.8
1.8
11.6
5.8
4.2
3.2
6
9.2
1.6
4
6.8
11
¿Son las tasas medias de rendimiento en los niveles de apalancamiento financiero bajo, medio, alto y control diferentes? Solución.
Nivel de Apalancamiento Mean Alto
8.140
4.158
Bajo
3.68
5.13
Variance CoefVar Median 25.05 7.900 61.56 3.20
Control
3.840
4.468
55.05 4.200
Medio
7.18
7.07
37.04 6.80
12
10 o t n e 8 i m i d n e r e 6 d s a s a T 4
2 Alto
Bajo Control Nivel de apalancamiento
93
Medio
4.3 CUANTITATIVA-CUANTITATIVA.
Análisis de dos variables cuantitativas y establecimiento de una relación entre ellas. La forma mas sencilla de estudiar la posible asociación entre estas variables es el diagrama de dispersión (Nube de puntos). Si reconocemos una tendencia, entonces el interés ahora será el análisis de regresión. Media y varianza
La información de las dos variables X e Y se puede resumir usando la media y la varianza como se muestra a continuación: Media de la variable X:
x
Media de la variable Y:
y
fi xi n f i yi n
fi xi2
Varianza de la variable X: s
2 x
n f i yi2
Varianza de la variable Y: s
2 y
n
x
2
y
2
La covarianza
Es una medida de la asociación lineal existente entre dos variables. Resume la información contenida en el diagrama de dispersión. Presenta la siguiente expresión: cov( x, y )
fi xi yi
s xy
n
x. y
Si la covarianza está muy próxima a cero, no existe relación entre las variables o si existe es marcadamente no lineal, si es positiva, hay asociación lineal positiva, y si es negativa, hay asociación lineal negativa. Sin embargo, como la covarianza depende de las unidades de medida de las variables, no nos permite cuantificar el grado de asociación lineal ni comparar la
94
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
asociación existente entre distintos pares de variables. Para dar solución a este problema se obtiene el coeficiente de correlación. Correlación.
Estudia la relación o dependencia que existe entre dos variables que intervienen en una distribución bidimensional. Coeficiente de correlación lineal.
Es un número que mide el grado de dependencia entre las variables X e Y. Se mide mediante la siguiente fórmula:
r
s xy s x . s y
Su valor está comprendido entre – 1 y 1. Si r = -1 ó r = 1 todos los valores de la variable bidimensional se encuentran situados sobre una recta. Si – 1< r < 0 se dice que las variables X e Y están también en dependencia aleatoria. La correlación es negativa. Si 0 < r < 1 la correlación es positiva. Las variables X e Y están también en dependencia aleatoria. La correlación es tanto más fuerte a medida que r se aproxima a –1 ó 1 y es tanto más débil a medida que se aproxima a 0. Análisis de Regresión. Regresión: conjunto de técnicas que son usadas para establecer una relación
entre una variable cuantitativa llamada variable dependiente y una o más variables independientes, llamadas predictoras. Estas también deberían ser cuantitativas, sin embargo algunas de ellas podrían ser cualitativas. Modelo de regresión. Ecuación que representa la relación entre las variables Y
X
Estimación de la línea de regresión usando Mínimos Cuadrados 95
Se debe Minimizar el error cuadrático medio: n
Q
,
2 i
n
( yi
e i 1
xi )
2
i 1 n
n
n
xi yi i 1
ˆ
xi i 1 n
n
xi2
n
i 1
S xy S xx
i 1
ˆ
ˆ
yi
xi ) 2
(
i 1
La pendiente
n
y
ˆ
x
, indica el cambio promedio en la variable de respuesta
cuando la variable predictora aumenta en una unidad adicional. El intercepto
ˆ
, indica el valor promedio de la variable de respuesta cuando
la variable predictora vale 0. Sin embargo carece de interpretación práctica si es irrazonable pensar que el rango de valores de x incluye a cero. A partir de la recta
Y
ˆ
ˆ
ˆ
X
podemos calcular los valores de y conocidos
los de x. La fiabilidad que podemos conceder a los cálculos obtenidos viene dada por el coeficiente de correlación: si r es muy pequeño no tiene sentido realizar ningún tipo de estimaciones. Si r es próximo a – 1 ó 1, las estimaciones realizadas estarán cerca de los valores reales. Si r = 1 o r = -1, las estimaciones realizadas coincidirán con los valores reales. Ejemplos
1. Se realizo un estudio sobre el conocimiento(X) y aplicación (Y) del software para la toma de decisiones. La información se muestra a continuación. X 14.8 15.2 14.4 Y
14 14.7
12
15.2 13.2
14 14.4 12.4 14.8
16 12.67 15.3 13.3 12.7
14 14.4 14.8 13.2 16.4 12.4
16 12.7 15.3
a)
Trace un diagrama de dispersión.
b)
Ajuste una recta de regresión.
c)
Calcule la correlación lineal e interprete dicho valor. 96
16 13.3 13.33
12
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Solución: Scatterplot of Y vs X 16
15
Y
14
13
12 12
13
14
15
16
17
X
Resumen de calculos. X
Y
X.Y
X2
Y2
14.8
14
207.2
219.04
196
15.2
14.67
222.984
231.04
215.2089
14.4
12
172.8
207.36
144
15.2
16
243.2
231.04
256
13.2
12.67
167.244
174.24
160.5289
14
15.33
214.62
196
235.0089
14.4
13.33
191.952
207.36
177.6889
12.4
12.67
157.108
153.76
160.5289
14.8
16
236.8
219.04
256
14
12.67
177.38
196
160.5289
14.4
15.33
220.752
207.36
235.0089
14.8
16
236.8
219.04
256
13.2
13.33
175.956
174.24
177.6889
16.4
13.33
218.612
268.96
177.6889
12.4
12
148.8
153.76
144
213.6
209.33
2992.208
3058.24
2951.8801
97
x
y 2 x
s
xi
213.6
yi
209.33 15
N xi2
x
N yi2
2 y
s
xi yi
13.96 ;
3058.24
2
y
N
s xy
14.24 ;
15
N
15
2951.88 13.962 15
2
1.11 1.91 ;
2992.208 (14.24).(13.96) 15
x. y
N
14.242
0.69
Recta de regresión n
n
n ˆ
xi yi i 1
2 i
n
x i 1
Y
ˆ
y ˆ
xi i 1 n
n
ˆ
n
(
yi i 1
xi )
2
S xy
0.69
S x2
1.11
0.62
i 1
ˆ
x
ˆ
X
13.96 0.62(14.24) 5.13 5.13 0.62 X r
s xy s x .sy
0.69 1.11. 1.91
0.47
Ejercicios propuestos.
1. Un asesor financiero quiere conocer las diferencias en la estructura de capital de varios tamaños de empresas en cierta industria. Hace una encuesta en un grupo de firmas que tienen distintas cantidades de activos y las divide en tres grupos. Clasifica cada una según, que su deuda sea mayor o menor que el capital contable de los accionistas. A continuación se dan los resultados de una encuesta.
98
Estadística para la toma de decisiones
Deuda
Dr. Cleto De La Torre Dueñas
Tamaño de activos de la firma (En miles de dólares)
< que el capital
<500
500-2000
>2000
Total
7
10
8
25
10
18
9
37
17
28
17
62
social > que el capital social Total
¿Se puede concluir que las empresas tienen idéntica estructura de capital? 2. Un especialista trabaja como corredor de bolsa para una empresa. Sus registros muestran que las tasas de rendimiento ( en porcentajes) de dos acciones para 8 meses seleccionados fueron de : Acciones A
15.5
3.6 21.7
27.2
7.8
2.2
5.0
12.2
Acciones B
4.5
6.2
7.2
3.5
4.2
4.1
12
5.5
En que acción invertiría la empresa, si el interés es tener un rendimiento
a)
mas alto. b)
Que acción debería aconsejar el especialista a la empresa que prefieren menos riesgo.
3. En la contabilidad de costos, con frecuencia se trata de estimar los gastos indirectos basándose en el número de unidades producidas. La gerencia de la empresa ha reunido información sobre esos gastos y las unidades producidas en diferentes plantas. Gastos
191 170 272 155 280 173 234 116 153 178
indirectos Unidades
40
42
53
35
56
39
48
30
37
40
a. Estimar la ecuación. b. Prediga el gasto general cuando se produce 50 unidades. 4. Sea Y el índice de precios al consumidor, tomado como base el año 1990, es decir 2000 el índice es 100. 99
Año
2001
2002
2003
2004
2005
2006
2007
Y
106
111.1
117.2
121.3
125.2
128
132.6
Predecir el índice de precios para el año 2008 ¿En que año podemos esperar que el índice de precios sea de 150.57? 5. Una gran compañía llevó a cabo un estudio para ubicar las variables que pudieran determinar el sueldo de un egresado universitario dos años después de haberse graduado como Técnico Superior Universitario en un área Administrativa. Los datos recogidos se presentan en la siguiente tabla: (La columna del sueldo es en cientos de miles). Edad Sexo E. Civil
Inglés Sueldo
1
24
F
C
A
6,75
2
25
M
C
M
6,90
3
26
M
S
B
6,90
4
27
F
C
B
6,80
5
27
M
D
A
7,10
6
27
F
C
M
6,50
7
27
M
S
A
7,25
8
25
F
C
B
6,80
9
23
M
S
B
6,75
10
24
M
S
B
6,80
11
26
F
C
M
6,75
12
29
F
D
M
7,00
13
25
M
C
A
7,15
14
31
F
D
A
7,50
15
26
M
S
B
6,20
16
24
F
D
M
7,40
17
26
F
C
B
6,70
18
28
F
S
M
6,95
19
25
M
C
B
6,95
20
29
M
C
M
7,10
100
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
- Utilice la técnica de estadística descriptiva más apropiada para analizar cada variable individualmente. Interprete lo obtenido. -
Realice diagramas de cajas que le ayuden a visualizar como influye cada una de las variables en el sueldo que gana el individuo.
-
Como futuro Técnico Superior en el área Administrativa, ¿cuál seria la(s) características que usted debería tomar en consideración para obtener el sueldo al que usted aspiraría al egresar?
6.
Se desea estudiar la relación entre los aumentos de precios y los salarios en 8 empresas tomadas al azar, tal que se define “x: % de aumento de salarios” e “y: % de aumento de precios” x 169.3,
x2
3630.89,
xy
2731.82,
y
126.9,
y2
2498.01
a) Calcular la recta de ajuste e interpretar las componentes en función del problema b) ¿Qué porcentaje del análisis queda explicado por la recta de regresión? Que podría Ud. Decir al respecto? c) Estimar el porcentaje de aumento en los precios, si se produce un aumento del 20% en los salarios, es lógico estimar dado el resultado obtenido en b) ? 7.
Una aplicación importante del análisis de regresión en contabilidad es para estimar costos. Al reunir datos sobre volumen y costo y aplicar el método de mínimos cuadrados para determinar la ecuación de regresión donde se relacionan estas variables, un contador puede estimar el costo asociado con determinada operación de manufactura. Se obtuvo la siguiente muestra de volúmenes de producción y costo total para una operación de manufactura. Volumen de producción (unidades) : 400 450 550 600 700 750 Costo total (en miles de $)
:4
101
5.0 5.4 5.9 6.4
7.0
a) Estimar la ecuación de regresión con la que se pueda predecir el costo total para determinado volumen de producción. Interprete el significado de las componentes de la recta, en función del problema. b) Calcular el coeficiente de determinación. Comentar su resultado en función de las variables en estudio. c) El programa de producción de la empresa indica que el mes próximo se deben producir 500 unidades. ¿Cual será el costo total estimado para esta operación? 8.
Suponga que usted tiene a su cargo el dinero de la región de Piedmont, se le dan los siguientes datos de antecedentes sobre el suministro de dinero y el producto nacional bruto (ambos en millones de dólares): Suministro de
Producto Nacional
dinero
Bruto
2
5
2.5
5.5
3.2
6
3.6
7
3.3
7.2
4
7.7
4.2
8.4
4.6
9
4.8
9.7
5
10
(a) Desarrolle la ecuación de estimación para predecir el PNB del suministro de dinero. (b) ¿Cómo interpreta la pendiente de la línea de regresión?. (c) Calcule e interprete el error estándar de la estimación. 102
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
CAPITULO V PROBABILIDADES El Cálculo de Probabilidades se ocupa de estudiar ciertos experimentos que se denominan aleatorios, cuya característica fundamental es la incertidumbre del resultado, esto significa que es imposible predecir los resultados porque hay más
de uno posible. En nuestra vida cotidiana asociamos usualmente el concepto de probabilidad a su calificativo probable, considerando probable a aquellos eventos en los que tenemos alto grado de creencia en su ocurrencia. En esta línea probabilidad es un concepto asociado a una medida del azar. El objetivo de la probabilidad es cuantificar las posibilidades que tengan ciertos eventos inciertos. 5.1 EXPERIMENTO ALEATORIO .
Es una acción que da lugar a resultados identificables y se caracteriza por:
Todos los posibles resultados son conocidos previamente.
Repeticiones en situaciones análogas pueden dar resultados diferentes.
103
No se puede predecir el resultado del mismo antes de realizarlo, es decir, no se sabe cuál de los posibles resultados aparecerá al final. Los experimentos pueden ser aleatorios o deterministas. Aleatorio significa relativo a todo acontecimiento incierto, por depender de la suerte o del azar, mientras que los deterministas son aquellos que se caracterizan por el hecho de que las mismas causas producen los mismos efectos. Espacio muestral.
Es el conjunto de todos los resultados posibles del experimento y se denota por
. A cada elemento de
se denomina punto muestral w / w es un punto muestral
w , es decir:
.
Evento o Suceso Aleatorio.
Un evento aleatorio es un subconjunto del espacio muestral y se denota con letras mayúsculas.
El evento seguro
El evento imposible
Lo s eventos elementales solo tienen un punto muestral.
El evento complementario que no están en
, es aquel que ocurre siempre al realizar el experimento. , es aquel que no ocurre nunca. c
A
, esta dado por todo los puntos muestrales
A
5.2 OPERACIONES DE EVENTOS. Unión de eventos: Dados dos eventos A y B de un mismo espacio muestral
su unión se representa por
A
B
y es el evento que contiene los elementos
que están en A o en B o en ambos. El evento
A
B
ocurre si al menos uno de
los dos eventos ocurre. Intersección de eventos: Dados dos eventos A y B de un mismo espacio
muestral su intersección se representa por
A
B
y es el evento que contiene
los elementos que están en A y B al mismo tiempo. El evento A
B
ocurre cuando ambos eventos ocurren simultáneamente. 104
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Evento Complemento: El complemento de un evento A se representa por
c
A
y es el evento que contiene todos los elementos que no están en A. El evento c
A
5.3
ocurre si A no ocurre.
DEFINICIÓN CLÁSICA DE PROBABILIDAD:
La probabilidad de un suceso A se calcula como el número de casos favorables
al suceso A, partido por el número de casos posibles del
experimento aleatorio. casos favorables
p( A)
5.4
casos posibles
DEFINICIÓN AXIOMÁTICA DE PROBABILIDAD.
La probabilidad es una función que asigna a cada suceso A
un número
real que varia entre 0 a 1. P:
y que verifica: A
i)
p(A)
0 p( A) 1
ii) p
A
1
iii) Si A y B son sucesos incompatibles, p A
B
p A
p B
Como consecuencia de estos tres axiomas, se verifican además las siguientes propiedades: iv) p( Ac ) 1 p A v)
p ( )
vi) Si vii)
0
A
B,
p( A)
P ( A \ B) P ( A) P ( A
p (B ) B) ,
A,B
viii) Si A 1 , A 2 , ...... , A n son incompatibles dos a dos, entonces p A1
ix) Si A, B
A2
...
An
p A1
p A2
...
p An
son dos sucesos cualesquiera, entonces 105
p A
x)
p A
Si A, B p( A)
5.5
B
p B
p A
B
son dos sucesos cualesquiera, entonces Bc
p A
p A
B
PROBABILIDAD CONDICIONADA. Queremos estudiar como cambia la probabilidad de ocurrencia de A cuando se conoce que otro evento B ha ocurrido. En este caso habria que referirse a l a
probabilidad de A condicionada a B como la probabilidad de que ocurra A
sabiendo que ha ocurrido B, la denotamos por P(A|B) P ( A | B )
P ( A B) P ( B)
, P(B) 0.
En consecuencia, p(A
B) = p ( A) p ( B ) A
Independencia.
Dos sucesos A, B
se dicen independientes si:
p( A)
p ( A | B ) , o bien p( B)
p ( B | A)
Es decir, se cumplirá que: p( A
B)
p ( B ). p ( A)
Si A y B son independientes, entonces A y B C son independientes, A C y B son independientes, y A C y B C son independientes. Observación. Decimos que n sucesos A1, A2, An son independientes si para
cada par (Ai, A j), P ( Ai P ( Ai
A j
A j ) P ( Ai ) P ( Aj ) si i
Ak ) P ( Ai ) P ( A j ) P ( Ak ) si i
j
k
j , si para cada trío (A i, A j, Ak)
y así sucesivamente. En general,
P ( A1 A2 An) P ( A1) P ( A2) P ( An)
106
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
Teorema de la probabilidad compuesta.
Dados n sucesos A 1 , A 2 , ......., A se verifica: P ( A1
An )
A2
P ( A1) P ( A2 | A1) P ( A3 | A1
A2) P ( An | A1
A2
An
)
1
Teorema de la probabilidad total.
Si suponemos que los eventos A 1, A2, A3, ...., An, forman una partición de un espacio muestral y su unión es
; esto es, que los eventos A i son mutuamente excluyentes
.
A2
A1
An
…
Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que : i) A1 A2 ii) iii)
i
j
( disjuntos dos a dos)
n
Ai
i 1
p( Ai )
0,
i
1,....n .
La probabilidad de un suceso B cualquiera es: n
p( B)
p ( Ai ) p (B | Ai ) i 1
p( B)
p( A1 ) p( B
A1
)
p( A2 ) p( B
A2
) .......
p( An) p( B
) An
Teorema de Bayes.
El procedimiento que se utiliza para encontrar probabilidades posteriores, a partir de probabilidades previas, se llama regla Bayesiana. Las probabilidades apriori o previas se conocen antes de obtener información 107
alguna del experimento en cuestión. Las probabilidades aposteriori se determinan después de conocer los resultados del experimento. El teorema de Bayes consiste en un método para encontrar la probabilidad de una causa específica cuando se observa un efecto particular. Esto es, si el evento B ha ocurrido, ¿Cuál es la probabilidad de que fue generado por el evento A1 (que es una causa posible ) o por el A2 (otra causa posible)?. Si A 1 , A 2 , ......., A n son un sistema completo de sucesos tal que i
1,....n
p( Ai )
0,
, entonces para un suceso B cualquiera se verifica:
p( Ai | B)
p ( Ai | B)
p( Ai
B)
p ( Ai ) p (B | Ai ) n
p( B)
p( A1 ) p ( B
A1
i
)
p( Ai) p(B | Ai ) 1
p ( Ai) p ( B | Ai) p ( A2 ) p ( B ) ....... A2
, i = 1, ...., n.
p ( An ) p ( B
An
)
Problemas Resueltos.
1) SUNAT realiza un estudio respecto a tres cuentas de una empresa para confirmar o descartar la presencia de irregularidades en el sistema de cobro de impuestos. a) Cual es el espacio muestral.
108
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
b) ¿Cual es la probabilidad de que dos de las cuentas
presente
irregularidades. c) Cual es la probabilidad de que la primera cuenta presente irregularidades y la ultima no presente irregularidades. d) Cual es la probabilidad de
que por lo menos una cuenta presente
irregularidades Solución.
Denotemos con P, si la cuenta presenta irregularidades y con N, si la cuenta no presente irregulardades. a)
PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3, N1 P2 P3, N1 P2 N3, N1 N2 P3, N1 N2 N 3
b) Sea el evento A: Se presenta dos irregularidades PP 1 2 N3 , PN 1 2 P3 , N1 P2 P 3
A
p ( A)
n( A)
3
n( )
8
c) Sea el evento B: Primera cuenta presenta irregularidades y el último no presenta. C
PP 1 2 N3 , PN 1 2 N3 p (C )
n(C )
2
n( )
8
d) Sea el evento D: Por lo menos una cuenta presenta irregularidades. D
p( D)
PP 1 2 N3 , PP 1 2 P3 , PN 1 2 N3 , PN 1 2 P3 , N1P2P3, N1P2N 3, N1N 2P 3
n( D )
7
n( )
8
2) Un administrador de empresas con el propósito de incrementar sus utilidades, diseña tres estrategias de marketing A, B y C. En el 40% de las sucursales, se aplica la estrategia A , de estas en el 1% de los casos no se presentan incrementos en las utilidades, en el 30% de las sucursales se aplica la estrategia B y en el 2% no se presentan incrementos en las utilidades. En el resto de las 109
filiales se utiliza la estrategia C, observándose que en el 3% de las mismas no se presentan incrementos en las utilidades. Si se selecciona aleatoriamente una filial de la empresa. Cual es la probabilidad de que : a)
No presente incrementos en las utilidades.
b)
No presente incrementos en la utilidad y se haya aplicada la estrategia B.
c)
La filial haya empleado la estrategia C, dado que no se presento incremento en su utilidad.
Solución No incrementa 1% 99%
Incrementa
A 40% 30%
Estrategia
No incrementa
2% 98%
B
Incrementa 3%
30%
No incrementa
C 97%
Incrementa
Sean los eventos. A: La filial de la empresa, aplica la estrategia A B: La filial de la empresa , aplica la estrategia B C: La filial de la empresa , aplica la estrategia C D: No se presenta incrementos en la utilidad. p( A) p ( D ) A
a) p( D) p( D)
b) p(B
p (B ) p ( D ) B
p (C ) p ( D ) C
0.4*(0.01) 0.3*(0.02) 0.3*(0.03)
D) = p( B) p( D ) B
p(B
D) =0.3*(0.02)
0.006
0.6%
110
0.019 1.9%
Estadística para la toma de decisiones
c)
p (C
p(C | D)
Dr. Cleto De La Torre Dueñas
D)
p (C ) p ( D | C )
p ( D)
p( A) p (D | A)
p ( B ) p (D | B )
0.3*(0.03) 0.4* (0.01) 0.3* (0.02) 0.3* (0.03)
p(C | D )
p (C ) p (D | C )
0.473
47.3%
3) Los siguientes datos pertenecen a 50 comercios de la ciudad de Cusco divididos en 3 categorías y clasificados según el pago de deudas bancarias. Pago de deudas
CATEGORIAS
bancarias
A
B
C
Al día
7
6
12
En mora
9
8
8
Si se elige un comercio al azar ¿cuál es la probabilidad de que: a) esté en mora? b) pertenezca a la categoría A o B? c) pertenezca a la categoría C o esté en mora? d) pertenezca a la categoría A y esté en mora? e) Dado que el pago de sus deudas bancarias esta al día. ¿ Cual es la probabilidad de que la empresa pertenezca a la categoría B?. Solucion.
Sean los eventos: A: Comercio pertenece a la categoría A. B: Comercio pertenece a la categoría B. C: Comercio pertenece a la categoría C. D: Pago deudas bancarias en mora. E: Pago de deudas al día. a) p( D) b) p( A p( A
B)
n( D )
25
n( )
50
B)
p ( A)
0.5
p (B )
p (A
16
14
0
30
50
50
50
50
B)
n( A)
n( B )
n( )
n( )
0.6
111
n( A
B)
n( )
c)
p (C
p(C
d)
D)
p( A
D)
p(C )
p (D )
p (C
20
25
8
37
50
50
50
50
n( A
D)
9
D)
n( )
P ( B
E)
P ( E )
n(C )
n( D )
n( )
n( )
n(C
D)
n( )
0.74
50 n( B
e) P( B | E )
D)
0.18 E )
n( ) n( E )
n( B
E )
n( E )
8 25
n( )
4) Se hizo una auditoria a tres empresas A, B, y C, para tal efecto se analiza 3 cuentas de la empresa A, 2 cuentas de la empresa B y 5 cuentas de la empresa C. La probabilidad de que se presenten irregularidades en las cuentas de la empresa A es de 1/3, que se presente en B es de 2/3 y que se presente en C es de 1/7. Se analiza una cuenta aleatoriamente y se encuentra que hay irregularidades. ¿Cuál es la probabilidad de que se trate de la empresa C? Solución
Sean los eventos A: Cuentas de la s empresa A. B: Cuentas de la s empresa B. C: Cuentas de la s empresa C. E: La cuenta presenta irregularidades.
112
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
E
1/3 A
D
3/10
E
2/3 2/10
B D
5/10
C
1/7
E D
p(C | E )
p (C | E )
p(C
E)
p( E )
p (C ) p ( E | C ) p ( A) p ( E | A)
3 1 * 10 3 3 1 2 2 5 1 * * * 10 3 10 3 10 7
21 64
p ( B ) p (E | B )
p (C ) p (E | C )
32.8%
Problemas Propuestos.
1.-Un auditor tiene sobre su mesa dos grupos de 20 facturas cada uno. En el primer lote hay dos facturas con errores de cálculo y en el segundo tres. Una corriente de aire hace que las facturas caigan de la mesa y, al recogerlas, una del primer grupo se confunde en el segundo. ¿Cuál es la probabilidad de que, al revisar una factura del segundo grupo tenga un error? 2.- María Campos, gerente del departamento de crédito de un banco, sabe que la compañía utiliza 3 métodos para conminar a pagar a las personas con cuentas morosas. De los datos que se tiene registrados, ella sabe que 70% de los deudores son visitados personalmente, 20% se le sugiere que paguen vía telefónica y al restante 10% se le envía una carta. Las probabilidades de recibir alguna cantidad de dinero debido a los pagos de una cuenta con estos 3 métodos son 0,75 0,60; y 0,65 respectivamente. La señorita Campos acaba de 113
recibir el pago de una de las cuentas vencidas. Calcular la probabilidad de que la petición de pago se haya hecho: a. Personalmente b. Por teléfono c. Por correo 3.- Una empresa compra cierto tipo de pieza que es suministrada por 3 proveedores: el 45% de las piezas son compradas al 1 er proveedor resultando defectuoso el 1%, el 2 do proveedor suministra 30% de las piezas y de ellas es defectuoso el 2%. Las restantes piezas provienen del 3 er proveedor, siendo defectuoso el 3% de las mismas. En un control de recepción de artículos se selecciona una pieza al azar y es defectuosa. Calcular la probabilidad de que la haya suministrado el 2 do proveedor. 4.- Una compañía de ventas por correo tiene tres empleados de almacén
denominados U, V y W quienes toman productos de la bodega y los ensamblan para la subsiguiente verificación y empaquetado. U comete un error en un pedido (toma un producto equivocado o la cantidad equivocada del producto) una de cada 100 veces, V comete un error en un pedido 5 veces de cada 100 y W se equivoca tres de cada 100. Si U, V y W cubren respectivamente el 30%, el 40% y el 30% de todos los pedidos. ¿Cuál es la probabilidad de que si se encuentra un error en un pedido, éste haya sido cometido por V? 5. En una encuesta entre alumnos de maestría en administración se obtuvieron los datos siguientes acerca de “el principal motivo del alumno para solicitar su
ingreso a la escuela donde está matr iculado”. Motivo
Calidad de la
Costo o
Tipo est.
escuela
comodidad
421
393
Tiempo
114
Otros Totales 76
890
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
completo Tiempo parcial
400
593
46
1039
Totales
821
986
122
1929
a. Si un alumno es de tiempo completo. ¿Cuál es la probabilidad de que la calidad de la institución sea el principal motivo para elegir su escuela?. b. Si un alumno es de tiempo parcial. ¿Cuál es la probabilidad de que la calidad de la escuela sea el motivo para elegirla? c. Sea A el evento en que el alumno es de tiempo completo y sea B el evento que el alumno menciona que la calidad de la escuela es el 1 er motivo de su solicitud. ¿Son independientes los eventos A y B?. Justifique su respuesta. 6. Antes de que un libro sea lanzado al mercado se recogen las reacciones de un grupo de personas a las que se les permite leer el libro previamente. Posteriormente a las ventas del libro se les asigna el calificativo de altas, moderadas o bajas de acuerdo a las noemas del mercado. Los resultados se muestran en la siguiente tabla: Reacciones
Favorables
Neutral
Desfavorables
Altas
173
101
61
Moderadas
88
211
70
Bajas
42
113
141
Ventas
a) ¿Cuál es la probabilidad de que las ventas sean altas? b) ¿Cuál es la probabilidad de que las reacciones sean favorables? c) Si la reacción del grupo es favorable?. ¿Cuál es la probabilidad de que las ventas sean altas? d) Si las ventas son bajas ¿Cual es la probabilidad de que las opiniones hayan sido desfavorables? e) ¿Cuál es la probabilidad de que las opiniones sean favorables y las ventas sean altas?
115
f) ¿Cuál es la probabilidad de que las ventas sean favorables o desfavorables?. ¿Son esos sucesos mutuamente excluyentes? Justifique g) ¿Son los sucesos “Opiniones desfavorables” y “Ventas Bajas” independientes?
Justifique. 7. En un estudio realizado para un supermercado se clasifican los clientes en aquellos que visitan el establecimiento de una manera frecuente u ocasional y de acuerdo a la frecuencia en que adquieren cierto alimento. En la siguiente tabla se presentan las proporciones correspondientes a cada uno de los grupos. Compra de productos
Regular
Ocasional
Nunca
Frecuentes
0,12
0,48
0,19
No Frecuentes
0,07
0,06
0,08
Frecuencia en las visitas
a) ¿Cual es la probabilidad de que un cliente visite frecuentemente el supermercado y compre regularmente el producto alimenticio? b) ¿Cuál es la probabilidad de que un cliente que nunca compra el producto visite el supermercado frecuentemente? c) ¿Son los sucesos “Nunca compra productos alimenticios” y “Visita el mercado frecuentemente” independientes?. Justifiq ue.
d) ¿Cuál es la probabilidad de que un cliente realice compras ocasionales? e) ¿Cuál es la probabilidad de que un cliente no realice nunca compras del producto? f) ¿Cuál es la probabilidad de que un cliente visite el establecimiento frecuentemente o compre el producto regularmente? 8. Un proceso se puede ejecutar con uno de tres algoritmos posibles, digamos A, B y C. En el 20% de los casos se emplea el algoritmo A, mientras que los algoritmos B y C son usados el mismo número de veces. En algunas ocasiones 116
Estadística para la toma de decisiones
Dr. Cleto De La Torre Dueñas
en que se realiza el proceso se producen atrasos. Esto ocurre el 10% de las ocasiones en que se usa el algoritmo A, siendo estos porcentajes del 15% en el caso en que se aplica el algoritmo B y el 5% en el caso en que se usa el algoritmo C. a) ¿En qué porcentaje de las ejecuciones del proceso no se producen atrasos? b) ¿Qué porcentaje de los atrasos de las ejecuciones del proceso son atribuibles al algoritmo B? c) Elegida, al azar, una ejecución ¿Qué probabilidad hay que no tenga retraso en su ejecución y corresponda al uso del algoritmo A o C? Entre las ejecuciones que no han sufrido retraso en su ejecución, ¿Cuál es el porcentaje de las que corresponden al uso de los algoritmos A o C 9.- Las previsiones sobre la inflación de un determinado país para el próximo año
la sitúan por debajo del 2% con probabilidad 0,65, entre el 2% y el 3% con probabilidad 0,25 y por encima del 3% con probabilidad 0,1. Si la probabilidad de crear más de 700.000 empleos es de 0,7 con inflación baja, de 0,4 cuando ésta se sitúa entre el 2% y el 3% y nula en otro caso, calcule: a) La probabilidad de que se creen más de 700.000 empleos. b) Si antes de conocer el dato de inflación anual, se sabe que se han creado más de 700.000 empleos, ¿cuál es la probabilidad de cada uno de los tres niveles de inflación considerados? 10.- Una fábrica produce tres productos, 1, 2 y 3, cada uno de ellos en calidad extra y comercial. La probabilidad de producir una unidad de calidad extra en cada uno de esos productos es: 0,75, 0,5 y 0,8, respectivamente. A su vez esos productos se fabrican en las siguientes proporciones: 45%, 35% y 20%, respectivamente. Con esa información responda a las siguientes cuestiones: a) Si se selecciona al azar una unidad producida, ¿cuál es la probabilidad de que sea de calidad comercial? b) Si se selecciona al azar una unidad producida y es de calidad comercial, ¿de qué producto es más probable que sea? 117
11.- Los siguientes datos pertenecen a 50 comercios de la ciudad de Cusco divididos en 3 categorías y clasificados según tengan o no deudas impositivas: Impuestos
Categoría A
Categoría B
Categoría C
Al día
7
6
12
En mora
9
8
8
Si se elige un comercio al azar ¿cuál es la probabilidad de que: a) esté en mora? b) pertenezca a la categoría A o B? c) pertenezca a la categoría C o esté en mora? d) Suponga que ahora se eligen 3 comercios al azar. ¿Cuál es la probabilidad de que todos estén al día con los impuestos? 12.- El personal del Bco. A atiende distintos tipos de consultas, de las cuales una parte corresponde a autorizaciones de giros en descubierto. Se observa que sólo 30% de los clientes aceptan las condiciones del banco: el 35 % a la tasa normal y el resto a una tasa mayor. La mitad de los clientes que no aceptan indica que la tasa ofrecida es mayor a la normal. a) Calcular la probabilidad de que si se recibe una consulta, ésta corresponda a operaciones en descubierto a tasa mayor. b) Si la última consulta sobre descubierto se ofreció a tasa mayor, ¿cual es la probabilidad de que el cliente la acepte?
118
CAPITULO VI VARIABLE ALEATORIA Y DISTRIBUCIONES DE PROBABILIDAD. 6.1 Definiciónes
Una variable aleatoria (v.a) X es cualquier función, que transforma cada elemento del espacio muestral
, en un numero real.
X :
X
Al conjunto de posibles valores de X se le llama rango de X (Rx)
Si Rx es finito o enumerable (rango discreto), entonces X es una v.a Discreta.
Si Rx no es enumerable (rango continuo), entonces X es una v.a Continua.
Función de Probabilidad.
Si X es una v.a discreta, la función de probabilidad de X viene dada por: P X x
P X
x
P
/X
x
, tal que
P X ( x) 1 x Rx
Función de densidad 119
ESTADISTICA
Si X es una v.a continua, la función de densidad de X es una aplicación b
f X :
tal que P
0,
a
X
f X ( x)dx
b
,tal que
f X ( x)dx 1
a
Función de distribución
La función de distribución de una v.a X esta dada por: F X ( x)
P( X
x)
P(
/ X( )
x)
Propiedades.
F es continua por la derecha y es creciente
Si X es una v.a discreta , entonces P a X b
Si X es una v.a continua , entonces P a X b
Si X es una v.a continua , entonces
lim x
FX ( x)
0
y lim x
F ' ( x)
F b F b
dF ( x) dx
F a
P X
a
F a
f ( x)
FX ( x) 1
Definición.-
La esperanza o media de una variable aleatoria X, denotada por por E ( X ) o
X
se
define según sea la variable discreta o continua, mediante: x.P X E X
x , si X es discreta
x Rx
x. f ( x )dx , si X es continua x Rx
Propiedades:
El valor esperado de una constante es dicha constante
E a bX
a bE X
Definición.-
La varianza de una una variable aleatoria X cuya media o esperanza esperanza es como V X
2 X
E X
2 X
E X
E X
2
Propiedades. 120
E X
2
E2 X
X
, se define
CLETO DE LA TORRE
La raíz cuadrada de la varianza se llama desviación estándar.
2 X
E X
V aX
2
2 X
a2V ( X )
b
Desigualdad de Chebyshev.
Si X es una variable aleatoria, entonces para cualquier P X
k
X
X
1
se cumple
k
1 k 2
Ejercicio resuelto.
1. Sea X la variable aleatoria definida como la suma de los valores que aparecen al lanzar dos dados. a) Determine la distribución de probabilidad. b) Calcule la probabilidad P(5
a) Resultados en 1
2
3
4
5
6
los dos dados 1
2
3
4
5
6
7
2
3
4
5
6
7
8
3
4
5
6
7
8
9
4
5
6
7
8
9
10
5
6
7
8
9
10
11
6
7
8
9
10
11
12
X: Suma de los valores de los dos dados Rx
2
3
4
5
6
7
P(X)
1/36 2/36 3/16 4/16 5/36 6/36 5/36 4/36 3/36 2/36 1/36 121
8
9
10
11
12
ESTADISTICA
b)
p(5
X
8)
p(6)
p (7)
5 / 36 36 6 / 36 36 11 / 36 36
c) Media x.P X
E X
x , si X es discreta discreta
x Rx
E X E X
1 36 252 36
2
3
2 36
4
3 36
5
4 36
6
5 36
7
6 36
8
5 36
9
4 36
10
3 36
11
2 36
12
1 36
Varianza. 2 X
E X
E X 2 2
E X
2 X
22
2
E2 X
1
32
36 1974
2 36
42
3
52
36
4 36
62
5 36
72
6 36
82
5 36
92
4 36
102
3 36
112
2 36
122
36
E X
2
E
2
1974 X 36
252 36
2
6.2 DISTRIBUCIONES DISTRIBUCIONES IMPORTANTES.
Existen, como en el caso de la última variable ejemplificada, otras variables cuyas funciones de probabilidad o densidad resultan ser modelos de mucha utilidad para una serie de aplicaciones. Nosotros citaremos brevemente algunos de los modelos de mayor importancia.
DISTRIBUCIONES DISCRETAS.
Un experimento de Bernoulli, es un experimento aleatorio con solo dos posibles resultados: Éxito y Fracaso. Sea p = P (Éxito). Distribución Binomial.
La distribución binomial aparece cuando se dan las condiciones siguientes: -Tenemos un experimento aleatorio simple, con una situación dicotómica, es decir Éxito y Fracaso. - Repetimos este experimento simple n veces de manera independiente. ind ependiente. 122
1 36
CLETO DE LA TORRE
X = Número de Éxitos en n experimentos independientes de Bernoulli. Función de Probabilidad: C xn p x 1 p
P X x
Valor esperado:
X
n x
, si x
0
0,1,2,..., n
, en otro caso. 2 X
np. Varianza:
np 1 p .
Notación: X B(n, p). Distribución de Pascal o Binomial Negativa. Notación: X BN(r, p).
X = Número de ensayos (experimentos independientes de Bernoulli) hasta conseguir el r-ésimo Éxito. Función de Probabilidad: 1
C xr 1 1 p
P X x
Valor esperado:
x r
p r
0 r
X
p
, si x
r , r 1, r 2,...
, en otro caso. r 1 p
2 X
. Varianza:
p 2
.
Nota: Si r = 1, X se dice que es una variable aleatoria con distribución geométrica
de parámetro p, y se le denota por X G(p). Distribución Hipergeométrica H ipergeométrica.. Notación: X H(N, M, n).
Considérese una población de N elementos, M de los cuales son de un tipo A, y supongamos se extraen sin reemplazo una muestra de n elementos de esta población. Entonces: X = Número de elementos de tipo A en la muestra. Función de Probabilidad: M C x M C N n x
P X x
, si x
C nN
0
Valor esperado:
X
n
M N
. Varianza: 123
0,1,2,..., n
, en otro caso. 2 X
n
M N
1
M N n N
N 1
.
ESTADISTICA
Notas:
1. En PX se esta usando la convención que C ab
0, si a > b.
2. Si la elección de la muestra fuera con reemplazamiento, entonces B n, p
M N
X
.
Distribución de Poisson.
La distribución de Poisson aparece en situaciones en las que se cuenta el número de apariciones de un determinado suceso o bien en un intervalo de tiempo dado (como el número de partículas emitidas en un segundo por un material radioactivo, o el número de pacientes que llegan a un servicio en un intervalo de tiempo dado) o bien en un recinto físico (como el número de fallos en un metro de alambre de hierro producido. X = Número de eventos en 0, t . Función de Probabilidad: x
P X x
e
, si x
x!
0
Valor esperado:
X
. Varianza:
0,1,2,...
, en otro caso.
2 X
.
DISTRIBUCIONES CONTINUAS. Distribución Uniforme. Notación: X U a, b .
Esta distribución se da cuando la variable aleatoria X puede tomar indistintamente cualquier valor en el intervalo a, b . Función de densidad: 1 f X x
, si x
b a
0
Valor esperado:
a b X
2
. Varianza: 124
a, b
, en otro caso. 2 X
b a
12
2
.
CLETO DE LA TORRE
Distribución Normal. Notación: X N( ,
2).
Función de densidad: 1
f X x
Valor esperado: Nota: Cuando
X
2 2 X
. Varianza:
=0y
2
1
e 2
2
2
x
2
.
= 1, a X se le denota por Z y se le llama una variable
aleatoria con distribución normal estándar; vale decir, Z normal
X
N (0, 1). Toda v.a.
N ( , 2) puede convertirse con una v.a. normal estándar
(estandarizarse) a través de la transformación: Z
X
EJERCICIOS RESUELTOS
1.- Un auditor analiza 10 facturas, se sabe que por estudios anteriores que el 25% de las facturas presentan algún tipo de error. Calcular la probabilidad de que: a) Exactamente 4 facturas presenten error. b) Ninguno de las facturas presenten error. c) Todos presenten error. d) Por lo menos 8 presenten error. e) A lo sumo 3 presenten error. f) Calcular la Media y varianza Solución
Consideremos los sucesos A = La factura presenta error, P (A) = 0.25 A
= La factura no presenta error, P ( A ) = 0.75
Se trata de una distribución Binomial de parámetros B (10, 0.25 ) Sea X la variable aleatoria que representa el número de facturas presenta error 125
ESTADISTICA
a) P(Exactamente 4 facturas presenten errores) = P X
4
10 4
(0.25)4 (0.75)6
0.1460
10
b ) P (Ninguno presenten errores) = P X 0
10
c)
P(Todo presenten errores) = P X 10
d)
P(Por lo menos 8 presenten error) = P X 8 10
10
(0.25)8 (0.75)2
8
9
10
(0.25)9 (0.75) 0
(0.25)10 (0.75)0
P X
8
0.0563
0
P X
9
P X
10
0.00 5
P( A lo sumo 3 presenten error ) =
e)
3
P X
10 0
0
P X
P X
10
(0.25)0 (0.75)10
1
1 P X
(0.25)1 (0.75)9
2 10 2
P X
3
(0.25)2 (0.75)8
10 3
(0.25)3 (0.75)7
0.7759
Media y Varianza
f)
np 2
2.-
0
(0.25)0 (0.75)10
10 (0.25)
np(1 p)
2.5
10(0.25)(0.75)
1.875
El treinta por ciento de los administradores de supermercados utilizan estrategias de marketing. Si se selecciona siete administradores, determinar la probabilidad de que. a) Ninguno de los 7 utiliza estrategias de marketing. b) Todos utilizan estrategias c) Al menos 2 utilizan marketing Solución
Consideremos los sucesos: A = Utilizan software, P(A) = 0.3 126
CLETO DE LA TORRE
A
= No utilizan software, P ( A ) = 0.7
Por tanto se trata de una distribución Binomial de parámetros B (7, 0.3) Sea X la variable aleatoria que representa el número de administradores que utilizan estrategias de marketing. a)
7
0
P X
0 7
b) P X 7 c)
P X 2
7
(0.3)0 (0.7)7
0.0824
(0.3)7 (0.7)0
0.0002
1 P X 1
1 P X 0 P X 1
1
7 0
(0.3)0 (0.7)7
7 1
(0.3)1 (0.7)6
0.6705
3.- El Ingreso medio diario de los gerentes de empresas en una ciudad es 60 dólares y la desviación típica es $6 . Suponiendo que los ingresos están distribuidos normalmente. a) Cual es la probabilidad de que un gerente tenga ingresos menores a $ 64 b) Cual es la probabilidad de que un gerente tenga ingresos de $57 a más ? c) Cual es la probabilidad de que un gerente tenga ingresos mayores de $63? d) Cual es la probabilidad de que un gerente tenga ingresos entre $57 a $65 ? e) Cual es la probabilidad de que un gerente tenga ingresos menores de $50? f) Cual es la probabilidad de que un gerente tenga ingresos entre $64 a $70 ? g) Si en total hay 200 gerentes en esa ciudad, .Cuantos cabe esperar que presenten ingresos mayores a $57 y menores de $64? Solución.
X: Ingreso de los gerentes.
a)
60
(Media poblacional)
6
(Desviación)
P( X
64)
P(
X
64
)
P( Z
64 60 ) 6
127
P( Z 0.67)
ESTADISTICA
(0.67)
0
0.5
b) P( X
57)
P(
(0.67)
0.5 0.24857=0.74857=74.857%
57
X
z=0.67
)
57 60 ) 6
P( Z
P( Z
0.5)
(0.5) 0.5
(0.5)
0
z= 0.5
0.19146+0.5=0.69146=69.146%
c) P( X
63)
P(
63
X
)
63 60
P( Z
6
)
P( Z 0.5)
0.5
(0.5)
(0.5)
z=0.5
0
0.5 0.19146=0.30854=30.854%
d)
P(57
X
P ( 0.50
65)
X
P(
57
0.83)
X
(0.50)
65
)
(0.83)
128
P(
57 60 6
Z
65 60 ) 6
0.19146+0.29373=0.48519=48.519%
CLETO DE LA TORRE
(0.5)
(0.83)
z= 0.50
e)
P( X
50)
P(
50
X
)
P( Z
z=0.83
0
50 60 ) 6
P( Z
0.167)
(0.167)
z= 0.167
0.5
f) P(64
X
70)
P (0.67
P(
(0.167)
64
X
X
1.67)
0.5 0.0675=0.4325=43.25%
70
(1.67)
)
P(
64 60 6
Z
70 60 6
)
(0.67) 0.45254-0.24857=0.20397=20.397%
z=0.67 0
z=1.67
(0.67) (1.67)
g) P(57
X
64)
P(
57
X
64
)
129
P(
57 60 6
Z
64 60 6
)
ESTADISTICA
P ( 0.5
X
0.67)
(0.5)
(0.67)
Cabe esperar el 44.003% de los gerentes, es decir
0.19146+0.24857=0.44003=44.003% 0.44003* 200
88
EJERCICIOS PROPUESTOS
1.- La empresa de asuntos financieros Tax Service se especializa en las devoluciones de importes de impuestos federales. Una reciente auditoría de las declaraciones indicó que se cometió un error en el 10% de las que manifestó el año pasado. Suponiendo que tal tasa continúe en este periodo anual y elabore 60 declaraciones. ¿Cuál es la probabilidad de que realice: a) Más de 9 errores? b) Por lo menos 9 errores? 2.- Los salarios de los trabajadores en cierta industria son en promedio $11,9 por hora y la desviación estándar de $0,4. Si los salarios tienen una distribución normal. ¿Cuál es la probabilidad de que un trabajador seleccionado al azar: a) Reciba salarios entre $10,9 y $11,9? b) Reciba salarios inferiores a $11? c) Reciba salarios superiores a $12,95? d) ¿Cuál debe ser el salario menor que gana un trabajador que se encuentra entre el 10% de los trabajadores que más ganan? e) Si el dueño de la industria va a aumentarle el salario al 15% de los trabajadores que menos ganan. ¿Cuál será el salario máximo que deberá ganar un trabajador para ser beneficiado con el aumento? 3.- El volumen de acciones negociadas en la Bolsa es normal con una media de 646 millones de acciones y una desviación de 100 millones de acciones. a) ¿Cuál es la probabilidad de que el volumen negociado sea menor de 400 millones?
130
CLETO DE LA TORRE
b) ¿Cuál es la probabilidad de que el volumen negociado de acciones oscile entre las 400 y las 600 acciones? c) Si la Bolsa quiere emitir un boletín de prensa sobre el 5% de los días más activos ¿Qué volumen publicará la prensa? 4.- Se toma una muestra de 12 trabajadores de una gran empresa para estudiar su actitud frente a un cambio en el método de trabajo. Si el 60% de todos los trabajadores de la empresa están a favor del cambio. ¿Cuál es la probabilidad de que menos de 5 de los miembros de la muestra estén a favor? 5.- La tasa real de desempleo es de 15%. Suponga que se seleccionan al azar 15 personas en posibilidad de trabajar. a) ¿Cuál es la cantidad esperada de desempleados? b) ¿Cuál es la varianza y la desviación estándar de los desempleados? c) ¿Cuál es la probabilidad de que al menos 3 estén desempleados? d) ¿Cuál es la probabilidad de que haya entre 3 y 5 desempleados? 6.- Se sabe que el 30% de los clientes de una tarjeta de crédito a nivel nacional dejan en cero sus saldos para no incurrir en intereses morosos. En una muestra de 8 poseedores de esa tarjeta: a) ¿Cuál es la probabilidad de que de 4 a 6 clientes paguen sus cuentas antes de incurrir en el pago de intereses? b) ¿Cuál es la probabilidad de que 3 clientes o menos paguen sus cuentas antes de incurrir en pago de intereses? 7.- Sabiendo que la recaudación diaria de cierto comercio minorista se distribuye normalmente con un monto promedio de $830 y un desvío estándar de $125: a) ¿Cuál es la probabilidad de que mañana se recaude menos de $885? b) ¿Cuál es la probabilidad de que mañana se recaude más de $600? c) ¿En qué porcentaje de los días se recauda entre $700 y $800? d) ¿En qué porcentaje de los días se recauda entre $900 y $1500? 131
ESTADISTICA
e) ¿Cuál es el monto no superado en el 20% de los días? f) ¿Cuál es el monto sólo superado en el 30% de los días? 8.-Las ventas mensuales de un producto tienen distribución normal. Se sabe que el 15% de los meses se venden menos de 1.500 unidades , mientras que el 7% de los meses las ventas superan las 1800 unidades. a) Definir la variable aleatoria e identificar sus parámetros. b) ¿Cuál es la probabilidad de que las ventas mensuales sean de 1600 unidades? c) ¿Cuál es la venta garantizada el 90% de los meses? 9.- La creciente recesión económica lleva a las empresas a modificar, entre otras cosas, sus condiciones de pago. En cierta industria se determinó que en el último año las cobranzas se realizaron a los 120 días fecha factura en promedio, con un desvío típico de 20 días (sin considerar los incobrables y clientes en gestión judicial) y que la variable “días de cobranza” se distribu ye normalmente.
a) Si no varían las condiciones económicas ni comerciales para el año próximo ¿cree que es muy probable que en la industria estudiada lleguen a cobrar a más de 150 días? b) ¿En cuántos días como máximo se espera cobrar el 85 % de las operaciones ? c) Si la última cobranza se efectivizó en un plazo inferior al promedio de días, ¿cuál es la probabilidad de que la empresa haya cobrado después de los 100 días ? 10.- El costo de un producto que se procesa en forma automática está formado por el 2
costo de los materiales del envase (0,07 m /unidad) y el costo del producto en sí mismo (5 gramos/unidad), tomándose como unidad el envase de presentación. Debido a ciertas fluctuaciones, dichos costos son variables aleatorias independientes que pueden considerarse normalmente distribuidas: 2
2
- el costo de materiales (x) con media 180$/m y desvío estándar de 2$/m . - el costo del producto (y) con media 20$/gramo, y desvío estándar de 1,5 $/gramo. a) ¿Cuál es la probabilidad de que el costo del producto de una unidad supere los $ 122? b) ¿Cuál es la probabilidad de que el costo de un pack de 25 unidades supere los 2950$? 132
CLETO DE LA TORRE
CAPITULO VII INTRODUCCION AL MUESTREO 7.1 INTRODUCCION.
El objetivo de la estadística es hacer inferencias acerca de una población con base en la información contenida en una muestra. Este mismo objetivo motiva el estudio del problema de muestreo. Consideraremos el problema particular del muestreo de una población finita (colección finita de mediciones). En lo referente al muestreo, la inferencia consiste en la estimación de un parámetro de población, tal como una medida, un total o una proporción con un límite para el error de estimación (precisión). Para un buen entendimiento del problema de muestreo, introduciremos enseguida, ciertos aspectos técnicos comunes a las encuestas de muestreo. 7.2 DEFINICION DE TÉRMINOS, REVISIÓN DE CONCEPTOS. Población (UNIVERSO): Es una colección finita o infinita de individuos o
elementos. No necesariamente se refiere a una colección de organismos vivientes. En el muestreo, usualmente se distingue el significado de los términos universo y población, indicando con el primero un conjunto de elementos, individuos, unidades, seres y objetos, y con el segundo un conjunto de mediciones de los mismos. 133
ESTADISTICA
Una tarea importante para el investigador es definir cuidadosa y completamente la población antes de recolectar la muestra. La definición debe contener una descripción de los elementos que serán incluidos y una especificación de las mediciones que se van a considerar, ya que estas dos componentes están interrelacionadas. Muestra: Es un subconjunto de la población. Una muestra puede ser
probabilística (aleatoria) o no probabilística. Unidad de Muestreo: Es una colección de uno o más elementos de la población.
Las unidades de muestreo cubren toda la población. Una unidad de muestreo debe ser claramente definida, identificable y observable. Unidad Reportante: Es la que suministra la información estadística requerida o de
la cual la información la información puede ser convenientemente averiguada. Marco de Muestreo: Se presenta en forma de lista o mapa de las unidades de
muestreo que conforman la población. Forma el material básico para la selección de la muestra. El marco muestral debe contener todas las unidades de muestreo que conforman la población bajo estudio, y debe excluir unidades de cualquier otra población. Parámetro: Es un valor numérico de la población usualmente desconocido que
representa cierta característica de la población. Estadístico: Es una función real de la muestra aleatoria, usado para estimar un
parámetro, si un parámetro se denota con , el estimador se denotará con . ˆ
Estimación: Es el valor que toma el estimador en los datos de la muestra. Error de Estimación: Es la diferencia absoluta entre el parámetro y su estimador,
es decir |
|.
Como se puede apreciar, es imposible conocer con exactitud el 134
CLETO DE LA TORRE
error de estimación, pero podemos, al menos aproximadamente encontrar un límite E tal que: P (|
ˆ
| E )
Para cualquier entre 0 y 1. Si
ˆ
tiene distribución aproximadamente normal, entonces para
E 1.96 V ( ) ˆ
se cumple: P (|
ˆ
| E )
0.95
Limite para el error de estimación: Denotado por E es dado por
E 1.96 V ( ) . El ˆ
factor E es llamado también precisión. Si E esta expresado en las mismas unidades de la medida de la variable, se le llama precisión absoluta. Si E está expresado como un porcentaje del parámetro que se está estimando, se le llama precisión relativa. Una ves estimado el límite E, podemos afirmar que el parámetro el intervalo
ˆ
E ,
ˆ
E
se encuentra en
con una confianza del 95%. El intervalo anterior es
llamado intervalo de confianza. Error de Muestreo: Este error se debe a que una muestra no produce información
completa sobre una población. Puede ser controlado por un diseño cuidadoso de la muestra y es estimado en gran parte por el factor E. Por esta razón, algunos autores denominan al factor E, error de muestreo. Error de no Muestreo: Son los errores que se introducen imperceptiblemente a la
encuesta y estos son más difíciles de controlar, infortunadamente estos errores no se pueden medir fácilmente, y aumentan a medida que aumenta el tamaño de la muestra. Los tipos errores no muestrales que suelen presentarse son: - Definición equivocada del problema. - Definición defectuosa de la población. - Marco imperfecto o desactualizado. 135
ESTADISTICA
- La no respuesta. - El sesgo de respuesta. - Diseño pobre del instrumento de medición. Sin embargo, los errores de no muestreo pueden ser controlados mediante una atención cuidadosa en todas las etapas de la encuesta. 7.3 ENCUESTA.
La función de la encuesta es la medición del comportamiento, actitudes o características del encuestado, que es un individuo de la población en estudio seleccionado para la muestra. Diseño de la encuesta
Pasos a seguir:
Definir los objetivos
Determinar el marco
Diseñar el procedimiento de muestreo
Diseñar el cuestionario
Diseñar y realizar el trabajo de campo
Codificar, depurar y analizar las respuestas
Redactar el informe
Diseño de la muestra
El diseño de la muestra incluye:
La elección del procedimiento de muestreo
La determinación del tamaño de la muestra
Existen varios procedimientos de muestreo, entre las principales se tiene muestreo: aleatorio simple, estratificado y sistemático.
136
CLETO DE LA TORRE
7.4 MUESTREO ALEATORIO SIMPLE Definición. Si una muestra de tamaño n, es seleccionado de una población de
tamaño N de tal manera que cada muestra posible tiene la misma probabilidad de ser seleccionada, el procedimiento de muestreo se llama Muestreo Aleatorio Simple (M. A. S.) El M. A. S. puede ser de 2 formas, sin preposición (muestreo irrestricto aleatorio) y con reposición. Procedimiento de selección.
El procedimiento de selección de una Muestra Aleatoria Simple (M.A.S.) consiste en: i)
Enumerar las unidades de la población, desde 1 hasta N.
ii)
Usando la tabla de números aleatorios seleccionar la primera unidad para la muestra.
iii) Continuar la selección excluyendo las unidades repetidas (si es sin reposición) o incluyendo las unidades repetidas (si es con reposición) hasta completar el tamaño de muestra n. Tamaño de la muestra
Una parte fundamental para realizar un estudio estadístico de cualquier tipo es obtener unos resultados confiables y que puedan ser aplicables. Como ya se comentó anteriormente, resulta casi imposible o impráctico llevar a cabo algunos estudios sobre toda una población, por lo que la solución es llevar a cabo el estudio basándose en un subconjunto de ésta denominada muestra. Sin embargo, para que los estudios tengan la validez y confiabilidad buscada es necesario que tal subconjunto de datos, o muestra, posea algunas características específicas que permitan, al final, generalizar los resultados hacia la población en total. Esas características tienen que ver principalmente con el tamaño de la muestra y con la manera de obtenerla. El muestro, implica algo de incertidumbre que debe
137
ESTADISTICA
ser aceptada para poder realizar el trabajo, pues aparte de que estudiar una población resulta ser un trabajo en ocasiones demasiado grande. Para calcular el tamaño de una muestra hay que tomar en cuenta tres factores: - El porcentaje de confianza con el cual se quiere generalizar los datos desde la muestra hacia la población total. - El porcentaje de error que se pretende aceptar al momento de hacer la generalización. - El nivel de variabilidad que se calcula para comprobar la hipótesis. 1.
Tamaño de muestra para Estimar
Si se desea estimar , con precisión
fijada por el investigador, el tamaño de
muestra necesario es dado por: Z (12
n Z
n
2 (1
/ 2)
Z (12
/ 2)
*
/ 2)
* N
2
2
( N 1)
*
2
2
Población finita.
, Población infinita.
2
Donde 2
Es la varianza poblacional
En la practica el valor de
2
estimado por S2 a partir de una encuesta anterior o
de una muestra piloto. 2.
Tamaño de la muestra para estimar P.
De manera simular, la fórmula del tamaño de muestra n para la estimación de p con error máximo de estimación de
y un nivel de confianza del
100(1 - )%: n
y si N
Z (12 Z (12
/ 2)
* N * p(1
/ 2) * p(1
p)
p) ( N 1)
:
138
2
, Población finita.
CLETO DE LA TORRE
n
En este caso el valor de
Z (21
/ 2) 2)
* p(1 2
p)
, Población infinita.
esta entre entre 0 y 1, el valor de P es desconocido, por lo que
debe ser estimado preliminarmente a partir de una encuesta anterior, o de una muestra piloto. En última instancia el valor de P se puede sustituir por 0.5 y se obtendrá un tamaño de muestra mayor que el requerido. Recomendaciones Recomendaciones para el uso del M. A. S.
Generalmente el M. A. S. Esta orientada a encuestas de pequeña pequeña escala y raras veces a encuestas de gran escala, debido a que otros diseños proporcionan mayor o igual precisión a menor costo. En las encuestas por muestreo a gran escala, el M. A. S. es usado como parte de un diseño de muestreo mucho más complejo. El M. A. S. es muy eficiente cuando la población es homogénea.
7.5 MUESTREO ESTRATIFICADO.
Una muestra estratificada es la obtenida mediante la separación de los elementos de la población en grupos heterogéneos disjuntos, llamados estratos y la selección posterior de una muestra aleatoria simple en cada estrato. Consideremos una población de tamaño N, la cual es dividida en k estratos (sub poblaciones) de tamaños Ni, i=1,2…., k, k, tal que N
N1
N2
…
El tamaño de muestra se estima mediante:
139
N1
NK
N2 ... N k
ESTADISTICA
k
Z
2 (1
/ 2) 2)
Ni2 pi (1 pi ) / wi
* i 1
n
,
k
2
N
2
Z
2 (1
/ 2) 2)
*
Ni pi (1 pi ) i 1
es
wi
el % de observaciones asignados al estrato i
El tamaño de muestra necesario de cada estrato, se puede obtener por afijación proporcional al tamaño de cada estrato, es decir: ni
n*
N i
n * wi , i
N
1, ..., k
Cuando se realiza un muestreo estratificado, los tamaños muestrales en cada uno de los estratos, ni, los elige quien hace el muestreo, Así en un estrato dado, se tiende a tomar una muestra más grande cuando: - El estrato es más grande; - El estrato posee mayor variabilidad interna (varianza); - El muestreo es más barato en ese estrato. 7.6 MUESTREO SISTEMATICO Definición.- Una muestra obtenida al seleccionar aleatoriamente un elemento de
los primeros k elementos en el marco y después cada k-ésimo elemento, se denomina muestra sistemática de intervalo de selección k. El muestreo sistemático puede ser de dos formas, muestreo sistemático simple y muestreo sistemático circular. Procedimiento de de selección del muestreo sistemático sistemático simple.
Una muestre sistemática simple se obtiene cuando el intervalo de selección k es exactamente un numero entero. El procedimiento de selección de una muestra sistemática simple consiste: i)
Las unidades del marco deben ser ordenados en magnitud de acuerdo con algún esquema de ordenación (población ordenada) es base al orden se establece la numeración desde 1 hasta N
ii)
Determinar el intervalo de selección
k
140
N n
(k exactamente un numero entero)
CLETO DE LA TORRE
iii)
Seleccionar un numero aleatorio entre 1 y k (arranque aleatorio) sea “a” el
arranque aleatorio elegido, entonces los elementos de la muestra sistemática, son los que ocupan las posiciones en el marco: a, k+a, 2k+a, 3k+a,......(n-1)k+a
141
ESTADISTICA
EJERCICIOS RESUELTOS
1.
Un empresario dedicado al rubro de pizzería, desea hacer una estimación del gasto que realizan las personas en pizza por semana, con 99% de confianza, suponiendo que el máximo error permitido es de un soles, además de una muestra piloto se obtuvo una varianza de 25. También se sabe la ciudad tiene 2500 ciudadanos ¿Que tamaño de muestra necesitara para investigar? Solución. N n
2.
2500,
1, 1,
Z (21 Z (21
/ 2) 2) *
/ 2) 2) 2
2
* N
25, Z (1
/ 2) 2)
2
( N 1)
2.58 2.582 *2500*25
2
2.582 * 25 (2500 1) 1
2
156. 156.08 08 157 157
Las compañías de auditoría generalmente seleccionan una muestra aleatoria de los clientes de una banco y verifican los balances contables reportados por el el banco. Si una compañía de este tipo se encuentra interesada en estimar la proporción de cuentas para las cuales existe una discrepancia entre el cliente y el banco, ¿cuántas cuentas deberán seleccionarse del banco si esta tiene 25000 clientes, de manera tal que con una confianza del 95% la proporción muestral se encuentre a no más de 5% unidades de la proporción real?. Solución.
Consideremos que no se tiene ningún estudio de este tipo, por tanto problema: N 25000, n
n
Z (21 Z (21
/ 2) 2)
/ 2) 2)
0.05, z (1
1.96
/ 2) 2)
* NP(1 P )
* P(1 P) ( N 1)
2
1.96 1.962 * 2500 25000* 0* 0.5( 0.5(1 1 0.5) 0.5) 2
1.96 1.96 *0.5( *0.5(1 0.5 0.5) (250 (25000 00 1) 0.0 0.05 5
2
142
378. 378.36 361 1 379 379
P 0.5 ,
del
CLETO DE LA TORRE
3.
El administrador de una empresa A desea hacer un estudio de investigación de mercado en cierta región, respecto al posicionamiento que tiene su marca, con un nivel de confianza del 95% y un error del 5%. Suponiendo que en estudio realizado hace 10 años, el nivel de posicionamiento de su marca es de 15% ¿Cual debe ser el tamaño de muestra para este estudio? Solución.
La población materia de estudio, no es finita, por tanto la relación para estimar el tamaño de muestra es: n
Z (12
/ 2)
* P(1 P ) 2
Del problema se tiene los siguientes datos P n
4.
0.15,
0.05, z (1
1.962 * 0.15(1 0.15) 0.05
2
/ 2)
1.96
195.92 196
Se desea lanzar un nuevo producto al mercado, para ello usted tiene que realizar un estudio de la demanda de este producto. Suponiendo que esta ciudad se divide en tres distritos, cuyo tamaño poblacional se muestra en el cuadro siguiente: Distrito
Tamaño de población.
A
2000
B
1200
C
5000
Total
8200
Considere que el tamaño de muestra es 245, calcule el tamaño de muestra por cada ciudad, necesario para este estudio. Solución.
En este ejemplo, los distritos forman los estratos:
143
ESTADISTICA
Ciudad
Ni
wi
A
2000
=2000/8200=0.24
B
1200
=1200/8200=0.15
C
5000
=5000/8200=0.61
Total
N=8200
1
n=245. Usando la relación, ni
n*
N i N
n * wi , i
1,..., k , Se
determina el tamaño de muestra para cada
distritos. n A
n*
n B
n*
nC
n*
N A N N B N N C N
n * wA
0.24* 245 59.76
60
n * wB
0.15* 245 35.85 36
n * wC
0.61*245 149.39 149
EJERCICIOS PROPUESTOS.
1. SUNAT tiene previsto realizar
una auditoria a cuentas de un grupo de
empresas con la finalidad de estimar la proporción de empresas que presentan desbalance financiero ¿cuántas cuentas
empresas deberán seleccionarse de
manera tal que con una confianza del 99% la proporción muestral se encuentre a no más de 0.02 unidades de la proporción real?. 2. Unos grandes almacenes tienen 1000 empleados en uno de sus centros. Calcular el tamaño muestral necesario para estimar su salario anual medio con un error máximo de 80 soles para un nivel de confianza del 95%. (Por estudios anteriores se sabe que el salario anual sigue una distribución normal con desviación típica de 70 soles). 3. Una tienda se interesa en estimar su volumen de ventas diarias. Supóngase que el valor de la desviación típica es de 50 soles. Si el volumen de ventas se puede modelizar por una distribución normal, ¿cuál debe ser el tamaño de la muestra 144
CLETO DE LA TORRE
para que con una confianza del 95% la media muestral se encuentre a no más de 20 soles del verdadero volumen medio de ventas? 4. Se esta realizando una auditoria respecto al incumplimiento de entrega de facturas en un región que tiene 4 provincias (A, B, C y D). Se sabe también que la provincia A tiene el 45% de la poblacional regional, la provincia B 10%, la provincia C el 22% y la provincia D el resto de la población regional. Determine el tamaño de muestra para este estudio, suponiendo que la región tiene 12000 centros comerciales. 5.
Para un mercado de prueba, encuentre el tamaño de muestra necesario para estimar proporción real de consumidores satisfechos con un cierto producto nuevo, dentro de ± 0,04 nivel de confianza de 90%. Suponga que no tiene una buena idea del valor de la proporción.
6.
Una tienda local vende bolsas de plástico para basura y ha recibido unas cuantas quejas con respecto a la resistencia de tales bolsas. Parece ser que las bolsas que se venden en la tienda son menos resistentes que las que vende su competidor y, en consecuencia, se rompen más a menudo. Gustavo, gerente encargado de adquisición, está interesado en determinar el peso máximo promedio que puede resistir una de las bolsas para basura sin que se rompa. Si la desviación estándar del peso límite que puede aguantar una bolsa es de 1,2 Kg., determine el número de bolsas que deben ser probadas con el fin de que Gustavo tenga una certeza de 95% de que el peso límite promedio está dentro de 0,5 Kg., del promedio real.
7.
Elena acaba de adquirir un programa de computación que afirma escoger acciones que aumentarán su precio durante la semana siguiente con un índice de precisión de 85%. ¿En cuántas acciones deberá Elena probar el programa con el fin de estar 98% segura de que el porcentaje de acciones que realmente subirán de precio durante la semana próxima estará dentro de ±0,05 de la muestra de la población?.
8.
Se planea una investigación para determinar los gastos médicos familiares promedios por año. La administración de la compañía desea tener 95% de confianza de que el promedio muestral es correcto dentro de ± $50 del promedio
145
ESTADISTICA
real familiar. Un estudio piloto indica que la desviación estándar se puede estimar como $400. ¿Qué tamaño de muestra se requiere? 9.
El Gerente de un banco desea 90% de confianza de tener un resultado correcto dentro de ± 0,05 de la proporción de la población real de ahorradores que tienen cuantas de ahorros y de cheques en el banco. ¿De cuántos ahorradores debe ser su cuenta?
10.
Un grupo de consumidores desea estimar el monto de facturas de energía eléctrica para el mes de julio para las viviendas unifamiliares en una ciudad grande. Con base a estudios realizados en otras ciudades se supone que la desviación estándar es de 25 dólares. El grupo desea estimar el monto promedio para le mes de julio de ± 5 dólares del promedio verdadero con 99% de confianza. ¿Qué tamaño de muestra se necesita?
146
CLETO DE LA TORRE
CAPITULO VIII ESTIMACION POR INTERVALOS Y PRUEBAS DE HIPOTESIS 8.1 DISTRIBUCIONES MUESTRALES.
DISTRIBUCION NORMAL.
En este capitulo abordaremos el estudio de la distribución normal y de otras distribuciones asociadas a funciones de una muestra al azar de esta variable. El porque de la importancia de la distribución normal se ilustra a través de las siguientes propiedades y distribuciones. PROPOSICION
1. Teorema del limite central (TLC). Si X 1 , X 2 ,..., X n son n v.a.’s independientes, donde cada Xi tiene la misma distribución de valor esperado entonces para n suficientemente grande (en la práctica n
y varianza
2,
30) se cumple que
aproximadamente n
Z
X i
i 1
n
X
/ n
n
N (0, 1).
2. Aproximación de la Binomial por la Normal. Si X suficientemente grande, entonces aproximadamente: Z
X np np 1 p 147
N (0, 1).
B (n, p) y n es
ESTADISTICA
Aquí, para el cálculo de probabilidades, se recomienda utilizar la llamada corrección por continuidad: Si a
b son dos números naturales, entonces
aproximadamente: P a X
b
P a
1 2
X
1 2
b
Fz
b
1 2
np
np 1 p
Fz
a
1 2
np
np 1 p
.
LA DISTRIBUCION CHI-CUADRADO.
Una v.a. X tiene distribución chi-cuadrado con n grados de libertad, y se le denota por
X
2
(n).
PROPOSICION.
1. Si Z N (0, 1), entonces Z 2
2
2. Propiedad reproductiva. Si
(1). 2 1
2 2
2 k
...
son k variables aleatorias
independientes con distribuciones chi-cuadrado de respectivamente n1 , n2 ,..., nk grados de libertad, entonces k
2
2 i i 1
Es también una v.a. con distribución chi-cuadrado de n
k n i 1 i
grados de
libertad. 3. Si X 1 , X 2 ,..., X n es una m.a de X N ( , 2), entonces W
n 1 S 2 2
2
(n -1).
LA DISTRIBUCION T DE STUDENT.
Una v.a. X tiene distribución t de Student con n grados de libertad, y se le denota por
X t(n).
PROPOSICION.
1. Sea X t(n). Si n es grande, entonces aproximadamente X N (0, 1). 2. Si Z N (0, 1) y
2
2
(n) son v.a’s independientes, entonces
148
CLETO DE LA TORRE
Z
T
t(n). En particular, dada una m.a. X 1 , X 2 ,..., X n de X
2
N ( , 2), se
n
cumple que: T
X S / n
t (n -1).
LA DISTRIBUCION F DE FISHER.
Una v.a. X tiene distribución F de Fisher con n grados de libertad en el numerador y m grados de libertad en el denominador, y se le denota por X F (n, m). PROPOSICION.
1. Si X F (n, m), entonces 2. Si F
2(n)
2 1 2 1 2 2
/n /m
y
2 2
1 X
F (m, n).
2(m) son v.a’s
independientes, entonces
F (m, n). En particular, si X 1 , X 2 ,..., X n es una v.a. de X N ( 1,
e Y 1 , Y 2 ,...,Y m una m.a de una v.a. Y N ( 2,
12),
22), donde X e Y son independientes,
entonces F
S 12 S 22
2 2 2 1
F (n -1, m - 1),
Siendo S 12 y S 22 las varianzas muestrales asociadas a las poblaciones estadísticas determinadas por X e Y, respectivamente. Nota: La distribución normal estándar, t de Student, chi-cuadrado y F de Fisher
poseen todas tablas en la que se tabulan algunos valores de su función de distribución.
8.2 INTERVALOS DE CONFIANZA.
Cuando tratamos la estimación puntual, uno de los problemas que se plantearon es que el valor de la estimación es solo uno de los valores (posiblemente infinitos) 149
ESTADISTICA
del estimador, obtenido al extraer una muestra concreta, de forma que si extraemos dos muestras distintas, las estimaciones serán distintas. Al hacer cualquier estimación se está cometiendo un error, y seria deseable proporcionar una medida de la precisión de la estimación del parámetro. En este tema vamos a introducir el concepto de intervalo de confianza como un intervalo cuyos extremos son variables que dependen de la muestra, y en el cual se confía que esté el valor de parámetro. El intervalo se obtendrá a partir de un estadístico generalmente relacionado con un estimador puntual, cuya distribución no depende del parámetro desconocido, y una medida de la validez del intervalo es el nivel de confianza, que indica la proporción de intervalos de todos los que se podrían construir a partir de muestras distintas, que realmente contienen al parámetro. Definición.
Un intervalo de confianza (IC) al 100(1 - )% para un parámetro poblacional de una v.a. X es un intervalo con estadísticas L 1 y L2 en los extremos (IC = L1, L2 ) tal que P L1
L2
1
.
Intervalo de confianza para la media
El IC al 100(1 - )% para , cuando pivote a Z
X
/ n
es conocida, se obtiene usando como
N (0, 1) y vienen dado por X
Donde z 1
2
z1
2
X
n
z 1
2
n
denota al valor de la distribución normal estándar, 2
la media muestral.
150
X
es el valor de
CLETO DE LA TORRE
1 /2
/2
Z(1
Z (1
El IC al 100(1 - )% para , cuando pivote a T
X S / n X
2
es desconocida se obtiene usando como
t (n -1) y vienen dado por t(1
S 2
, n 1)
X
n
t (1
S 2
, n 1)
n
,
1 /2
/2
t(1
Donde t 1
n 1
t(1
denota al valor de la distribución t de Student con n – 1 grados de
2 n
xi
libertad y la varianza muestral dado por
S 2
Intervalo de confianza para la varianza
El IC al 100(1 - )% para
2,
2 1
n 1 2
2
n 1 S2 2
2
i 1
n 1
2
se obtiene usando como pivote a W
1) y vienen dado por : n 1 S2
x
n 1
2
151
n 1 S 2 2
2
(n -
ESTADISTICA
1
2 ( /2)
2
Donde
2 (1
2 1
n 1 y
2
n 1 denotan
/2)
a los valores en la distribución chi-
2
cuadrado con n – 1 grados de libertad y la varianza muestral dado por: n
xi S 2
x
2
i 1
n 1
Intervalo de confianza para la razón de dos varianzas
El IC al 100(1 2
F
S 1 / S 22 /
2 1 2 2
)% para
S12 f 2 S2
F.
2
S 1
y
2
S 2
2 2
2 2
, se obtiene usando como pivote a
2 1 2 2
/ 2, n2 1, n1 1
y f 1
1, n1 1
/
/
y vienen dado por
F n1 1, n2 1
Donde f / 2,n2
2 1
2 1
/ 2,n2 1, n1 1
S 12 f 2 1 S 2
/ 2, n2 1, n1 1
denotan a los valores en la distribución
son las varianzas de dos muestras aleatorias independientes de tamaños
n1 y n2
Intervalo de confianza para la diferencia entre dos medias.
El IC al 100(1 - )% para pivote a z
X 1
X 2
(
1
1
2
2
2 1
2 2
n1
n2
)
, cuando
2 1
y
2 2
2
es conocida se obtiene usando como
y vienen dado por:
152
1
CLETO DE LA TORRE
( X 1
X2 )
z(1
/ 2)
*
2 1
2 2
n1
n2
1
( X1
2
Intervalo de confianza para la proporción
El IC al 100(1 - )% para Z
p
p
p
X2 )
z (1
/ 2)
*
2 1
2 2
n1
n2
p
, se obtiene usando como pivote a
N (0, 1),
p 1 p n
y vienen dado por: p
z1
p 1 p
p
n
2
p
z 1
p1 p 2
n
Intervalo de confianza para la diferencia entre dos proporciones
El IC al 100(1 - )% para p1
Z
( p1
p2 ) ( p1 p1 1 p1 n1
p1
p2
p2 , se obtiene usando como pivote a
p2) N (0, 1),
p2 1 p2 n2
y vienen dado por:
( p1 p2 ) z1 * 2
p1 1 p1
p2 1 p2
n1
n2
( p1 p2 ) ( p1 p2 ) z1 * 2
RESUMEN DE INTERVALO DE CONFIANZA. 153
p1 1 p1
p2 1 p2
n1
n2
ESTADISTICA
Intervalos de confianza de: La Media
Si se asume
2
conocido
-Nota: Si la población no es normal
Limite inferior
Limite Superior
X
X
z 1
X
La Media
Si se asume que
es
2
S
z 1
pero n 30
X
n
2
X
n
2
S
t (1
2
z 1
, n 1)
n
S
z 1
X
n
2
n
2
S
t (1
2
, n 1)
n
,
desconocido La diferencias de Medias 2 1
y
2 2
( X 1
Conocidos
X2)
z (1
/ 2)
*
2 1
2 2
n1
n2
--Nota: Si las poblaciones no son normales pero n1 30 y n2 30
( X 1
X2)
z (1
/ 2)
2 1
*
2 2
S
S
n1
n2
La diferencia de Medias
Asumiendo que:
2 1
2 2
desconocidos
y
( X 1
X2)
t 0 * S p
1 n1
S p
n1 1 S 12 n2 1 S 22 n1 n2 2
( X 1
S12 n1
La diferencia de Medias 2 1
2 2
y desconocidos
X2)
S 2 1 n1 ( S 2 / n1 ) 2 1 n1 1
La varianza
S 12 2 2
S p
/ 2,v )
*
/ 2)
X2)
z (1
( X 1
X2)
t 0 * S p
to t (1
S 22 ( X 1 n2
2
/ 2, n2 1, n1 1
S
p 1 p
p
2
n
154
2 2
X2)
t (1
z 1
*
/ 2,v )
n 1
f 1
n1
n2
S12
S 22
n1
n2
1 n1
1 n2
/2,n1 + n 2 -2)
2
S 12
2 2
*
/ 2)
n 1 S 2
2
z 1
z (1
( X 1
n 1
f
X2)
S 2 2 1 ) n1 ( S 2 / n2 ) 2 2 n2 1
n 1 S 2 2 1
La proporción
t (1
(
v
La razón de varianzas.
1 n2
( X 1
2 1
/ 2, n2 1, n1 1
p 1 p 2
n
*
S12 n1
S 22 n2
CLETO DE LA TORRE
La diferencia de proporciones
( p1 p2 ) z1 *
p1 1 p1
p2 1 p2
n1
n2
2
( p1 p2 ) z1 * 2
p1 1 p1
p2 1 p2
n1
n2
EJERCICIOS RESUELTOS
1.- En una muestra de 250 empresas se estimo el monto de recaudación en un día, obteniéndose un monto medio de 5900 soles y una desviación típica de 94 soles. Obtener un intervalo de confianza (al 95%) para el monto medio de recaudación diaria. Solución. n
250, X
5900,
94, z 1
1.96 2
Reemplazando en la relación X
z1
2
X
n
z 1
2
n
1 /2
/2
Z (1 5900 1.96
5888.34
2.
Z(1
94 250
5900 1.96
94 250
5911.65
Se realizo un estudio
en 30 minimercados sobre
el pago por derecho de
impuestos, obteniéndose un pago medio de 256 soles y un desvío de 32 soles. Encontrar el intervalo de confianza para el 95%. Solución. n
30, X
256, s
32, t (1
2
, n 1)
155
2.045
ESTADISTICA
Reemplazando en la relación X
t(1
S 2
, n 1)
244.05
3.
X
n
t (1
S 2
, n 1)
n
, 256 2.045
32 30
256 2.045
32 30
267.9
Un investigador entrevisto a 200 profesionales sobre el conocimiento que estas tienen de la inversión en la bolsa de valores de Lima, de los cuales 140 afirman que conocen adecuadamente. Construir un intervalo de confianza del 95% para la proporción de profesionales que conocen aspectos de inversión de BVL. Solución. p
140
0.7
200
p z1
p 1 p
1.96 , n=200
2
p
n
2
0.7 1.96
4.
, z 1
0.7(1 0.7) 200
p z 1 p
p1 p 2
n
0.7 1.96
0.7(1 0.7) 200
SUNAT con el propósito de incrementar la recaudación fiscal, diseña dos sistemas (A y B) de control para cumplimiento de entrega de facturas o boletas. El sistema A, se utiliza para controlar a 250 empresas, el sistema B a 200 empresas. Después de un periodo de vigilancia de los sistemas se observo que 75 empresas vigiladas con el sistema A no entregan boletas o facturas A y 80 vigiladas con el sistema B también incumplieron con la entrega de facturas. Utilizando un intervalo de confianza del 95% ¿ Se puede aceptar que los dos sistemas presentan similar eficiencia ? Solución.
Sistema A p1
75 250
0.3
,
n1
250
Sistema B
156
CLETO DE LA TORRE
80
p2
z 1
0.4
200
,
n1
200
1.96 2
( p1
p2 ) z1 *
p1 1 p1
p2 1 p2
n1
n2
2
(0.3 0.4) 1.96*
0.3 1 0.3
0.4 1 0.4
250
200
( p1
p2 )
( p1
p2 ) z 1
*
p1 1 p1
p2 1 p 2
n1
n2
2
( p1 p2 ) (0.3 0.4) 1.96*
0.3 1 0.3
0.4 1 0.4
250
200
-0.18 ( p1 p2 ) -0.011 El intervalo contiene solo valores negativos, entonces.
( p1 p2 ) 0
p1
p2
De la relación anterior se concluye que el sistema de control A presenta menor nivel de eficiencia que el sistema B. 5.
Se realizo un estudio sobre las utilidades que presenta una empresa en dos provincias del Perú ,con tal fin se selecciona aleatoriamente un grupo de 50 cuentas de la provincia A y 40 c de cuentas de la provincia B, observándose que en promedio en la ciudad A se genera una utilidad de 13 miles de soles y 15 miles de soles en la ciudad B y las desviaciones estándar de la ciudad A y B respectivamente son 3 y 4 miles de soles. Utilizando un intervalo de confianza del 95% para la diferencia de medias ¿Podemos concluir que las utilidades de la empresa en la ciudad B es mayor que la de A? Solución.
Ciudad A x1 13,
1
3, n1
50
Ciudad B 15,
x2
z 1
4, n2
2
40
1.96 2
( X 1
X2 )
z(1
/ 2)
*
2 1
2 2
n1
n2
1
2
( X1
157
X2 )
z (1
/ 2)
*
2 1
2 2
n1
n2
ESTADISTICA
(13 15) 1.96*
3.49
Como
1
1
9
16
50
40
2
9
16
50
40
0.50
2
2
1
(13 15) 1.96*
0
, entonces
1
2
.
EJERCICIOS PROPUESTOS
1. De una muestra de 134 auditores empleados en grandes empresas de auditorias, 82 de ellos declararon que siempre que recibían un nuevo encargo de auditoria, preguntaban al auditor anterior cuál había sido la razón del cambio de auditor. Calcular un intervalo de confianza del 95% para la proporción poblacional. 2. En una muestra aleatoria de personas que visitan un famoso centro turístico, 84 de 250 hombres y 156 de 250 mujeres compraron recuerdos de su visita. Construya un intervalo de confianza con un nivel del 95% para la diferencia entre las proporciones reales de hombres y mujeres que compran recuerdos. 3. La Cámara de Comercio de una ciudad está interesada en estimar la cantidad media de dinero que gasta una persona que asiste a convenciones por día. De las distintas convenciones que se llevan a cabo en la ciudad, se seleccionaron 16 personas y se les preguntó la cantidad que gastaban por día. Se obtuvo la siguiente información (en dólares): 150, 175, 163, 148, 142, 189, 135, 174, 168, 152, 158, 184, 134, 146, 155, 163. Si se supone que la cantidad de dinero gastado en un día es una v.a. normal, obtener los intervalos de confianza a un nivel de 95 % para la cantidad media real. 4. La Cámara de Comercio de la ciudad A afirma que el ingreso medio de una familia de esta ciudad es de 500$ más que el ingreso medio de una familia de la ciudad B. La Cámara de Comercio de B discute esto, y encarga un estudio sobre el tema. Se toman dos muestras, una en cada ciudad, y se obtienen los resultados siguientes : Ciudad A:
n A
514, xA
23468, s2A
29043.221
Ciudad B: n B 627, xB 22919, s2A 41948.337 Calcular el intervalo de confianza para la diferencia de los ingresos medios reales a un nivel del 99%. Conclusiones. (Suponer que las poblaciones son independientes). 158
CLETO DE LA TORRE
5. Jesús es un corredor de la Bolsa de Valores y tiene curiosidad acerca de la cantidad de tiempo que existe entre la colocación de una orden de venta y su ejecución. Jesús hizo un muestreo de 45 órdenes y encontró que el tiempo medio para la ejecución fue de 24,3 minutos, con una desviación estándar de 3,2 minutos. Ayude a Jesús en la construcción de un intervalo de confianza de 95% para el tiempo medio para la ejecución de una orden 6. Una muestra de 70 ejecutivos de una empresa fue investigada con respecto al pobre desempeño que ésta tuvo en noviembre, 65% de los ejecutivos creía que la disminución en las ventas se debió al alza inesperada de la temperatura, lo cual trajo como consecuencia que los consumidores retardaran la adquisición de productos de invierno. Encuentre el límite de confianza para esta porción, dado un nivel de confianza igual a 0,95. 7. El dueño de una empresa investigó aleatoriamente 150 de las 3000 cuentas de la compañía y determinó que 60% de éstas estaban en una posición excelente. a.- Encuentre un intervalo de confianza de 95% para la proporción de cuentas que están en posición excelente. b.- Basándose en el inciso anterior, ¿Qué tipo de estimación de intervalo podrá usted dar para dar el número absoluto de cuentas que cumplen con los requisitos de excelencia, manteniendo el mismo nivel de confianza de 95%? 8. Un investigador de mercado de una compañía de productos electrónicos desea estudiar los hábitos televisivos de los residentes de una pequeña ciudad. Selecciona una muestra aleatoria de 40 participantes y les pide que mantengan un registro detallado de lo que ven en televisión durante una semana. Los resultados son los siguientes: Tiempo frente al televisor: x = 15,3 h. s = 3,8 h. 27 participantes ven las noticias al menos 3 noches por semana a)
Establezca un intervalo de confianza de 95% para el promedio semanal de tiempo que ven televisión en esta ciudad.
b)
Establezca un intervalo de confianza de 95% para la proporción de participantes que ven las noticias al menos 3 noches por semana.
159
ESTADISTICA
c)
¿Qué tamaño de muestra necesita si desea tener 95% de confianza de que su resultado es correcto dentro de ± 2 horas y supone que la desviación estándar de la población es igual a 5 horas?
d)
¿Qué tamaño de muestra necesita si desea una confianza de 95% de estar dentro de ± 0,035 de la proporción real de los que ven las noticias al menos 3 noches por semana si no disponía de estimaciones anteriores?
e)
Con base en (c) y (d), ¿qué tamaño de muestra debe seleccionar si sólo realiza un estudio?
9. Se toma una muestra de 12 empleados de una planta productora, el número de horas extra que estos empleados hicieron durante el último mes fueron: 22 ;16 ; 28 ; 12 ; 18 ; 36 ; 23 ; 11 ; 41 ; 29 ; 26 ; 31 a) Calcular un estimador puntual para la proporción de empleados que trabajan más de 20 horas b) Calcular un estimador puntual para el número medio de horas extras que trabajan los empleados. 10. Las negociaciones salariales entre su empresa y el sindicato que representa a sus trabajadores están al borde de la ruptura. Hay un desacuerdo considerable sobre el nivel salarial medio de los trabajadores de la sucursal A y B. Los salarios fueron establecidos por el antiguo convenio colectivo firmado hace tres años y se basa en la estricta antigüedad. Como los salarios están muy controlados por el convenio colectivo, se supone que la variación salarial es la misma en las dos sucursales y que los salarios siguen una distribución normal. Pero se piensa que hay diferencia entre los niveles salariales medios a causa de las diferentes estructuras de antigüedad entre las dos sucursales. El negociador del convenio colectivo por parte de la dirección le pide que elabore un intervalo de confianza del 98% para la diferencia entre los niveles salariales medios. Si existe una diferencia entre las medias, habrá que hacer ajustes para elevar los salarios más bajos hasta el nivel de los más altos. Con los datos que se dan a continuación,¿ qué ajustes habrá que hacer, en caso de ser necesario?. Sucursal A n A 23, x A =17.53 $ por hora, s2A =93.10 Sucursal B n A 19, xA =15.50 $ por hora, sA2 =87.10 160
CLETO DE LA TORRE
161
ESTADISTICA
8.4 PRUEBAS DE HIPOTESIS
En muchas situaciones el investigador tiene alguna idea o conjetura sobre el comportamiento de una o más variables en la población. El diseño de la investigación debe permitir probar la veracidad de sus ideas sobre la población en estudio, en base a los datos de la muestra. La idea o conjetura es una hipótesis y el procedimiento de toma de decisión sobre la hipótesis se conoce como prueba de hipótesis. Una hipótesis estadística es una conjetura sobre el comportamiento probabilística de una población. Si la hipótesis estadística identifica por completo la distribución, recibe el nombre de “hipótesis simple”, y si no la especifica recibe el nombre de
“hipótesis
compuesta”. El contraste de hipótesis tiene por finalidad deci dir si una conjetura
puede considerarse cierta, o debe rechazarse, basándonos en la información suministrada por una muestra. Hipótesis nula (denotada como H0). Esta hipótesis nula es la que se somete a comprobación, y es la que se acepta o rechaza, como la conclusión final de un contraste. Hipótesis alternativa (denotada como Ha) . Se denomina hipótesis alternativa
aquella hipótesis contra la cual queremos contrastar la hipótesis nula. Esta hipótesis puede ser simple o compuesta. Podemos cometer dos tipos de error: rechazar la hipótesis nula siendo ésta cierta (error de tipo I) y aceptar la hipótesis nula cuando esta es falsa (error de tipo II). Aceptar Ho
Rechazar Ho
Ho verdadera
Decisión correcta
Error Tipo I
Ho falsa
Error Tipo II
Decisión correcta
Denominamos nivel de significación ( ) de un contraste a la máxima probabilidad de cometer un error del tipo I que estamos dispuestos a sumir. 162
CLETO DE LA TORRE
La decisión de rechazar, o no, la hipótesis nula la tomamos a partir de la información proporcionada por la muestra ( estadístico de prueba ). Realizamos una partición del espacio muestral en dos regiones, la región crítica en la que se rechaza la hipótesis nula (tiene probabilidad
si H 0 es cierta) y la región de aceptación , en la
que se acepta la hipótesis nula. A continuación se dan una serie de regiones de aceptación para ciertos contrastes de hipótesis con nivel de significación
.
Antes de definir los pasos de una prueba de hipótesis se define algunos conceptos básicos. 1. Nivel de significación del contraste es la probabilidad de cometer un error del tipo I, es decir, de rechazar la hipótesis nula siendo cierta, y se acostumbra a denotar por
2. El contraste de hipótesis, es pues, un mecanismo mediante el cual se rechaza la hipótesis nula cuando existan diferencias significativas entre los valores muestrales y los valores teóricos, y se acepte en caso contrario. Estas variables se medirán mediante una variable denominada estadígrafo de contraste , que sigue una distribución determinada conocida, y que para cada muestra tomará un valor particular. 3. La región crítica es el conjunto de valores del estadístico de contraste que nos induce a rechazar la hipótesis nula
PASOS DE UNA PRUEBA DE HIPOTESIS.
Los pasos que son convenientes seguir para realizar el contraste de hipótesis son: 1. Formulación de hipótesis. H 0 :
0
Vs H a :
0
ó H a :
2. Elegir el nivel de significación,
0
ó H a :
0
.
3. Estadístico de prueba. 4. Determinar la región crítica. La forma de la región crítica depende de la hipótesis alterna. Para
H a :
0
163
ESTADISTICA
1 /2
/2
Z (1
Z (1
R.R. H0
Para
H a :
R.A. H0
R.R. H0
0
1
Z(1 R.A. H0
Para
H a :
R.R. H0
0
1
Z(1 R.A. H0
R.R. H0
La región de rechazo de la hipótesis nula es la sombreada. Se rechaza H 0 cuando el estadístico de prueba toma un valor comprendido en la zona sombreada y se acepta Ho cuando el valor del estadístico de prueba cae en la región de aceptación, región no sombreada.
164
CLETO DE LA TORRE
5. Conclusión. Determinar las conclusiones estadísticas del contraste (aceptar o rechazar Ho). A continuación se presentan las pruebas de hipótesis en forma de resumen. PRUEBAS DE HIPOTESIS EN POBLACIONES NORMALES. Pruebas de Hipótesis. Hipótesis Nula
Estadística
Hipótesis
de Criterio de rechazo de H0
Prueba
Alternativa Prueba de Medias
H 0: = Si
2
Z c
vs:
0
H a:
conocido
0
H a: >
-Si la población no es Ha:
<
Z c
Z c
0
H 0: =
H a:
vs
0
Si se asume que : 2
H a: <
0
s / n
T c
X
diferencias
de Ha:
1
H a:
1
>
2
H a:
1
<
2
Medias 1
=
2
vs:
2
Asumiendo 2 2
y
Z c
Z c
z 1
Zc
z 1 n 1
Tc
t1
Tc
t1
n 1
Tc
t1
n 1
Z c
z 1
Z c
z 1
Zc
z 1
2
0
S/
n
es desconocido de
2 1
0
0
Prueba
H 0:
X
0
Ha: >
2
0
/ n
0
normal pero n 30
Prueba de Medias
X
z 1
2
X 1 X 2 2 1 n1
2 2 n2
Z c
X 1 X 2
T c
X1 X 2
s 2 1 n1
Conocidos
s2 2 n2
--Si las poblaciones no son
normales
pero
n1 30 y n2 30
Prueba de diferencia de Medias
H 0:
1
=
2
vs
H a:
1
H a:
1
2
>
S p
2
165
1 1 n1 n2
Tc
t1
Tc t1
2
n1 n2 2
n1 n2 2
ESTADISTICA
Asumiendo 2 1
2 2
que: Ha:
1
<
2
n1 1 S 12 n2 1 n1 n2 2
S p
y
n1 n2 2
Tc
t1
Tc
t1
desconocidos Prueba de diferencia de Medias
H 0:
1
=
vs
2
Asumiendo que: 2 1
2 2
H a:
1
H a:
1
H a:
1<
T c
2
>
X 1 X 2 S2 1 n1
2 2
v
y
S 2 2 n2
S 2 ( 1 n1 ( S 2 / n1 ) 2 1 n1 1
Tc S 2 2 1 ) n1 ( S 2 / n2 ) 2 2 n2 1
v 2
t1
Tc
v
t1 v
desconocidos Prueba de varianzas Ha:
H 0:
2
=
2 0
vs
2
H a:
2
H a:
2
2 0 2 0
2 c
2 c
2
n 1 ó
2
2 0
2 c
2 1
2 2
H a:
2 1
2 2
H 0:
2 1
2 2
vs
2 2
de
proporciones
H a: p p0
2
F c
2 S max 2 S min
Z c
p p0 p (1 p )/ n
H a: p < p 0
Prueba de diferencia de proporciones
Ha: p1 p2
Z c
H0: p1 =p2 Vs
Ha: p1 < p2
pc
F n1 1, n2 1
Z c
z1
Z c
z 1
Z c
z1
2
Z c
p1 p2
z 1
pc (1 pc ) pc (1 pc ) n1
Ha: p1 > p2
n1 1, n2 1
Fc F1
H a: p > p 0 H0: p =p0 Vs
n 1
Fc F nmax 1, nmin 1 ó Fc F 1
Fc
Prueba
n 1 2
n 1
1
2 c 2 1
2 1
n 1 S 2
2 0
Prueba de razón de Ha: varianzas. H a:
2 c
n1 p1 n1
166
n2
Z c
n2 p2 Zc n2
z 1
z 1
2
2
CLETO DE LA TORRE
EJERCICIOS RESUELTOS
1.- El pago en promedio por concepto de impuestos de los establecimientos comerciales en una ciudad es de 355 soles. Se Sospecha que estos establecimientos evaden el pago de impuestos, pagando menos del debido. Para contrastar esta hipótesis se analiza las ventas de 60 establecimientos comerciales. Resulto una media muestral de 580 soles por concepto de impuestos. Proporcionan estos datos suficiente evidencia estadística, al nivel de 95% de confianza, a favor de la hipótesis de que el pago de impuestos es mayor al contribuido actualmente? . Use
180
Solución Formulación de hipótesis.
H0: = 355 Ha: > 355 Nivel de significancia,
5%
Estadística de prueba. X
Z c
0
/ n
180 , z 1
Z c
1.645
580 355 180/ 60
,
n
60, x1
580
9.68
Región critica
=5% Z0=1.645 Región Aceptación
Zc=9.68
Región Crítica
Conclusión.
Como Zc
Z o
Se rechaza la hipótesis nula, por lo tanto se debe pagar más de lo que actualmente se contribuye. 2- Se aplico una estrategia diferenciadora para colocar un producto en el mercado. 167
ESTADISTICA
En el cuadro siguiente se muestra las utilidades antes y después de aplicar la estrategia en miles de dólares. Antes
25
25
27
44
30
67
53
53
52
Después
27
29
37
56
46
82
57
80
61
4
10
12
16
15
4
27
9
Diferencia 2
Hay suficiente evidencia estadística (al nivel de significación 0,05) a favor de que la estrategia presenta un efecto positivo?. Solución Formulación de hipótesis.
H 0:
d
H a:
d
=0 0
Nivel de significancia,
5%
Estadística de prueba. T c
X
0
S/ n
s
7.76 , t (1
n
9, x1 11
T c
2.262
/ 2, n 1)
11
0
7.76 /
9
4.25
Región critica
t0=–2.26
R.R. H0
R.A. H0
Conclusión.
Como
t c
2.262
se rechaza la hipótesis nula.
168
t0=2.26 tc=4.25 R.R. H0
CLETO DE LA TORRE
3.- Se desea comparar el nivel de posicionamiento de dos empresas A y B en una ciudad, para tal efecto se recopilo información de las recaudaciones diarias de las dos empresas. Los resultados del estudio se muestran a continuación. Empresa A Empresa B
16 , x2
n2
138.6 , S 12
13 , x1
n1
125.8 , S 22
29.16
26.7
En base a la información, cual es su conclusión al 95% de confianza. Solución. Formulación de hipótesis.
H0:
1
Ha:
1
=
2 2
Nivel de significancia,
5%
Estadística de prueba.
Supongamos que las varianzas poblacionales son iguales, entonces el estadístico de prueba es: X1 X 2
T c
S p
1 n1
t (n1 + n2 -2)
1 n2
De la información se tiene: Empresa A Empresa B
n1 1 S12
S p
16 , x2
n2
138.6 , S 12
13 , x1
n1
125.8 , S 22
n2 1 S22
n1 n2 2
S p
1 n1
26.7
13 1 *29.16 16 1 *26.7 13 16 2
138.6 125.8
X1 X 2
T c
29.16
1 n2
5.27*
1 13
1 16
5.27
6.50
Región critica T0
t1
2
n1
n2
2
t0.975 13 16 2
t0.975 27
169
2.052
ESTADISTICA
t0=2.052
t0=–2.052
R.R. H0
R.A. H0
tc=6.50
R.R. H0
Conclusión.
Como Tc
T 0 , entonces se rechaza H 0.
4- El Ministerio de Economía viene desarrollando programas destinados a la población, con la finalidad de que exijan la entrega de Boletas o facturas por todo servicio en dos regiones (A y B) del país. Se selecciona a pobladores de ambas regiones que no presentaban esta cultura y se observo que de 600 residentes de la Región A, 20% en la actualidad exige boleta o factura, en cambio de 600 residentes de la Región B , 15 % en la actualidad exige la entrega de boletas. ¿Es posible concluir con 95% de confianza que el programa a tenido similar resultado en las provincias A y B ? Solución. Formulación de hipótesis.
H0: p1 =p2 Ha: p1 p2 Nivel de significancia,
5%
Estadística de prueba.
Z c
p1 p2 pc (1 pc ) p c (1 pc ) n1
n2
Provincia A. p1
0.2 , n1
600
Provincia B. p2 pc
0.15 , n2 n1 p1 n1
n2 p2 n2
600 600* 0.2 600* 0.15 600 600
0.175
170
CLETO DE LA TORRE
Z c
p1 p2 pc (1 pc ) p c (1 pc ) n1
n2
0.20 0.15 0.175(1 0.175) 0.175(1 0.175) 600 600
2.279
Región critica
=5% Z c =2.279
Z 0=1.96 Región Aceptación
Región Crítica
Conclusión.
Como Zc
Z o , se rechaza la hipótesis nula, por tanto p1 p2 EJERCICIOS PROPUESTOS
1)
Un especialista trabaja como corredor para una empresa. Sus registros muestran las tasas de rendimiento ( en porcentajes) para 10 meses en dos tipos de acciones Acción 1 5.6 7.2 6.3 6.3 7.1 8.2 7.9 5.3 6.2 6.2 Acción 2 7.5 7.3
6.2 8.3 8.2 8.0 8.1 7.3 5.9 5.3
Que tipo de Acción debería recomendar el especialista a sus clientes que prefieren: a) Menos riesgo de inversión b) Mayor utilidad. Justifique adecuadamente sus respuestas. 2) Un grupo de economistas esta realizando un estudio sobre el comercio internacional del Perú: consideran que en el actual contexto de continuas y profundas transformaciones, el comercio entre países debería asumir un papel activo con el fin de ayudar al crecimiento de los países que lo llevan a cabo. Se esta enfocando en un primer momento el comercio por el lado de las exportaciones ya que determinan la cantidad de dólares que ingresan al país por vía 171
ESTADISTICA
intercambio comercial y porque la estructura de las mismas mostrara un mayor o menor ingreso en divisas. A continuación se presenta la información con la que cuenta el grupo de economistas sobre las exportaciones (en millones de dólares) para el Perú a lo largo de 31 años (desde 1960 -1990). Tradicionales
X1 1478 y s1
818
y No tradicionales X 2 340 y s2 357
En base a la información que se tiene se puede concluir que: a)
Las exportaciones tradicionales en promedio anual es de 1500 millones de dólares.
b)
La diferencia entre las exportaciones tradicionales en promedio y las no tradicionales es mayor que 1000 millones de dólares. Justifique adecuadamente sus respuestas. Usar
1%
3) Un auditor quiere estimar el monto promedio de las cuentas por cobrar de la compañía A. Una muestra de 10 cuentas por cobrar seleccionadas al azar de un total de 400 cuentas que tiene esta compañía revela los siguientes datos. 500, 600, 750, 480, 900, 790, 860, 900, 500, 760. Estime la media de toda las cuentas cobrar utilizando un intervalo de confianza del 98%.Interprete el resultado brevemente. 4) La reacción de un pequeño inversionistas con respecto a un cambio de política que modifique las reglas de juego de la economía es : retirar su inversión (A) o continuar con la inversión inicial(B). Un investigador quiere estimar la proporción de inversionistas que reaccionan de manera A. a) ¿ Que tan grande debería ser la muestra si se desea que el estimado del porcentaje de inversionistas de la población que retiran su inversión tenga error de estimación menor que 0.04 con un nivel de confianza del 95%, además de una prueba piloto se obtuvo que 90% retiraría su inversión b) El investigador realiza la encuesta con una m.a de pequeños inversionistas de tamaño igual al que obtuvo en a) y obtiene que 300 inversionistas reacción de manera A. Desarrolla el intervalo de confianza del 97% para el porcentaje de inversionistas que retirarían su inversión. 172
CLETO DE LA TORRE
5) El gerente de una cadena muy conocida de tiendas sospecha que su principal competidor esta intentando vender los mismos productos a precios más bajos. Anteriormente las dos tiendas habían mantenido un balance en los precios de forma tal que la mitad de los artículos de una eran ligeramente más caros que los de la otra y viceversa, para investigar esta posibilidad, envió un comprador a la otra tienda para ver los precios de 50 artículos seleccionados al azar, observándose: 1,1,1,0,1,0,1,1,1,0,1,1,0,0,0,1,0,1,0,1,1,1,0,0,1,1,1,0,0,1,0,0,0,1,1,0,1,0,1,0,1,0,0,0,1,1,1,0,1,1. Donde 1 indica precios más bajos y 0 indica que los precios se mantienen igual que antes. ¿Se confirma la sospecha del gerente? 1. Cuando Eastern Airlines se acogió a la protección de las leyes de bancarrota en 1989 en virtud del capítulo 11, se hizo evidente que muchas de las mayores empresas de la nación estaban en dificultades financieras. Durante una sesión de un subcomité del Senado, el senador Kennedy estimó que las empresas que buscan liberarse de las presiones de los acreedores debían, de media, más de 2200 millones de dólares. Una comprobación de 17 juicios recientes en virtud del capítulo 11 reveló que las empresas implicadas debían 2430 millones de dólares, con una desviación típica de 900 millones de dólares. ¿Está respaldada la afirmación de Kennedy al nivel del 10%?. 2. De una muestra de 361 propietarios de pequeños comercios que quebraron en un período determinado, 105 no tuvieron asesoramiento profesional antes de abrir el negocio. Por experiencia se sabe que lo que ha venido ocurriendo es que a lo sumo el 25% de los comercios que no reciben asesoramiento quiebran. Analice si estos resultados prueban que ha habido un aumento en el porcentaje de quiebras. Utilice un nivel del 90%. 3. Un investigador de marketing quiere determinar si existe alguna diferencia en la proporción de hombres que responden favorablemente a un determinado anuncio y la proporción de mujeres que lo hacen. De 875 hombres, 412 informan que tienen una impresión positiva; de las 910 mujeres encuestadas, sólo 309 están a favor. Contrastar las hipótesis a nivel de significancia del 5% 4. Una corporación bancaria quiere comparar el nivel medio de las cuentas de ahorro abiertas en bancos comerciales del Lima con las de Cusco. Muestras de 230 agencias 173
ESTADISTICA
bancarias del Lima y 302 en Cusco, tienen medias de 1512 dólares y 1317 dólares, respectivamente. Se sabe que la desviación típica en las cuentas para cada estado son 517 dólares para el Lima y 485 dólares para Cusco. Contrastar la hipótesis de que no hay diferencia de ahorros medios al nivel del 5%. 5. Muchos estudios económicos se ocupan de sectores en los cuales una gran parte del dominio del mercado se concentra en manos de unas pocas empresas. Se teme que las empresas poderosas en sectores de tan alta concentración dominen el mercado con fines egoístas. Se emparejaron las empresas de nueve sectores concentrados con las de un número igual de sectores en los cuales el poder económico estaba más disperso. Se hicieron coincidir las empresas de cada grupo en cuanto a competencia extranjera, estructuras de costo y todos los demás factores que pueden afectar a los precios industriales. A continuación se indican los incrementos medios del precio en porcentajes de cada sector. Al nivel del 5%, ¿parece que los sectores concentrados presentan una presión inflacionaria más pronunciada que los sectores menos concentrados? Pareados de sectores
Sectores concentrados
Sectores menos concentrados
1
3.7
3.2
2
4.1
3.7
3
2.1
2.6
4
-0.9
0.1
5
4.6
4.1
6
5.2
4.8
7
6.7
5.2
8
3.8
3.9
9
4.9
4.6
174
CLETO DE LA TORRE
CAPITULO IX PRUEBA DE CHI-CUADRADO Las pruebas de hipótesis desarrolladas anteriormente, están basadas en el supuesto de que la muestra pertenezca a una población con distribución conocida. Muchas de las investigaciones científicas Aquí abordaremos dos problemas muy interesantes dentro de lo que se conoce con el nombre de estadística no paramétrica. La prueba de homogeneidad y la prueba de independencia. La justificación de estos problemas es comparar las frecuencias esperadas y las observadas. 9.1 TABLA DE CONTINGENCIA
Es relativamente frecuente encontrarse con información referida a la observación de dos características de una población, en las que se establecen modalidades o categorías, mediante las cuales se clasifican los individuos o elementos que constituyen una muestra de la misma. Este tipo de distribución bidimensional de frecuencias suele presentarse en forma de tabla de doble entrada, también llamada tabla de contingencia. La información obtenida del estudio generalmente se presenta en una tabla de contingencias, en esta se tiene un conjunto de n elementos clasificados de acuerdo a dos criterios, X e Y , cada uno de los cuales tiene una serie de categorías mutuamente excluyentes: 175
ESTADISTICA
Total
Y 1
Y 2
...Y j ...
Y c
X 1
o11
o12
o1 j
o1c
n1.
X 2
o21
o22
o2 j
o2c
n2.
...
...
...
...
...
...
X i
oi1
oi 2
oij
oic
ni.
...
...
...
...
...
...
X r
or 1
or 2
orj
orc
nc.
n.1
n.2
n. j
n.c
n
Total En esta tabla,
oij
representa la frecuencia observada, es decir, el número de
individuos que pertenecen simultáneamente a las categorías r
o. j
nij
y
X i
e Y j .
c
oi.
nij j 1
i 1
En esta sección se verán las pruebas de homogeneidad y de independencia. Si bien ambas pruebas presentan el mismo procedimiento de cálculo, las hipótesis a probar son diferentes y por lo tanto las conclusiones obtenidas también. 9.2 PRUEBA DE HOMOGENEIDAD.
En ocasiones ocurre que tenemos a varias poblaciones clasificadas de acuerdo con las categorías definidas para una determinada variable. La pregunta que se sugiere inmediatamente es si la proporción de individuos pertenecientes a cada una de las clases es la misma en todas las poblaciones. Si, con la información suministrada por las muestras obtenidas, se puede aceptar que esto es así, diremos que las poblaciones son homogéneas con respecto a la variable de clasificación utilizada. Existen r poblaciones y una muestra aleatoria es extraída desde cada población. Sea ni. el tamaño de la muestra extraída de la i-ésima población. Cada observación de cada muestra puede ser clasificada en una de c categorías 176
CLETO DE LA TORRE
diferentes. Los datos son arreglados en la siguiente tabla de contingencia r c: Categoría Categoría Población 1 O 11 O 12 O22 Población 2 O 21
…
Población r Total
.... …
O r2 n.1
...
.. .
O r2 n. 2
Categoría Total n 1 •. O 1c O2c
n2•
o rc
n r.
n. c
n..
En la tabla, oij es el número de observaciones de la muestra i clasificadas en la categoría j; n. j es el número total de observaciones en la categoría j extraídas desde las r poblaciones y n.. es el total de observaciones extraídas desde las r poblaciones. Hipótesis:
Sea
la probabilidad de que una observación seleccionada de la población i
ij
sea clasificada en la categoría j. Entonces las hipótesis son: Ho:
1j
=... =
rj
para todo j = 1, 2,…c
H1: Al menos una igualdad no se cumple. Las hipótesis pueden expresarse equivalentemente de la siguiente manera: H0: La variable aleatoria tiene la misma distribución de probabilidades en las r poblaciones. H1: La variable aleatoria tiene una distribución de probabilidades diferente en al menos una de las poblaciones. La estadística de prueba esta dado por: x
2 c
r
j 1
c
j 1
(oij
eij ) eij
x 2 (r 1)(c 1)
donde
eij
ni . x
n. j n..
Regla de decisión: La hipótesis nula se rechaza con un nivel de significación a si el que el valor de tabla x 2 1
,( r 1)( c 1)
177
xc2
resulta mayor
ESTADISTICA
9.3 PRUEBA DE INDEPENDENCIA
Esta prueba permite analizar si dos variables aleatorias son o no independientes. Dado una muestra aleatoria de tamaño n.. es extraída, y cada observación de la muestra es clasificada de acuerdo a dos criterios (variables X y Y). Usando el primer criterio cada observación es clasificada en una de r filas y usando el segundo criterio en una de c columnas. Los datos son arreglados en la siguiente tabla de contingencia rxc: Columna Columna ... Fila 1 Fila 2
0 11 0 21
0 12 0 22
Fila r Total
O r2 n .i
O r2 n .2
Columna c Total
.
.. ...
O ic 0 2c
ni. n2.
. .
.. ..
0 rc n.,
n ro n..
En la tabla, o jj es el número de observaciones clasificadas en la fila i columna j, n i . es el número total de observaciones en la fila i y n. j es el número total de observaciones en la columna j. Hipótesis: Sea
ij
la probabilidad de que una observación sea clasificada en la fila i
columna j, fila i y
. j
i.
la probabilidad de que una observación sea clasificada en la
la probabilidad de que una observación sea clasificada en la columna
j. Entonces las hipótesis son:
Ho:
ij
i.
.j
para todo i = 1, ... r, j = 1, ... c.
H1: Al menos una igualdad no se cumple. Las hipótesis pueden expresarse, en forma equivalente de la siguiente manera: Ho: Las variables X y Y son independientes. HI : Las variables X y Y no son independientes. Estadístico de prueba:
178
CLETO DE LA TORRE
r
xc2
(oij
c
j 1
eij )
x 2 (r 1)(c 1)
eij
j 1
donde
ni . x
eij
n. j n..
Regla de decisión: Se adopta la siguiente regla de decisión: Si
2 c
Si
2 c
entonces se acepta la hipotes H 0
2 ( r 1)( c 1) 2 ( r 1)(c 1)
entonces se rechaza la hipotes H 0
Como puede observarse el procedimiento es muy similar al de la prueba de homogeneidad, y a veces suelen confundirse. EJERCICIOS RESUELTOS
8.2.1 En una investigación realizada sobre las preferencias de 3 marcas, se obtuvo los siguientes resultados. Marcas Preferencias
A
B
C
Total
Si
70
100
150
320
No
130
100
50
280
Total
200
200
200
600
¿Podemos concluir con 95% de confianza que las preferencias de las marcas es similar? Solución.
H0: Las preferencias de las tres marcas son similares. H1: Las preferencias de los tres marcas no son similares e11 e21
2 c
320*200 600 280*200 600
70 106.67 106.67
2
,
106.67 93.33
,
320*200
e12
600 280*200
e22
100 106.67 106.67
600 2
106.67 , e13 93.33 , e23
150 106.67 106.67 179
2
320*200 600 280*200 600
130 93.33 93.33
2
106.67 93.33
100 93.33 93.33
2
50 93.33 93.33
2
ESTADISTICA
2 c
65.625
De la tabla de chi-cuadrado ,
2 0
5.991
1
2
2
o
o
=5.99
R.A. H0
Como
2 c
2 0
=65.625
R.R. H0
, se rechaza la hipótesis nula
Las preferencias de los tres marcas no son similares. 2.- En un estudio sobre el uso de tres técnicas de valorización de empresas de
distinto tamaño, se obtuvo los siguientes resultados. Técnicas de valorización
Tamaño de la empresa
Alto
Medio
Bajo
Total
Actualmente
51
22
43
116
En el pasado
92
21
28
141
Nunca
68
9
22
99
Total
211
52
93
356
¿El uso de técnicas de valorización es independiente del tamaño de la empresa? Solución. Ho: El uso de técnicas de valorización es independiente del tamaño de empresa. HI: El uso de técnicas de valorización es dependiente del tamaño de la empresa.. Las frecuencias observadas y esperadas (frecuencias esperadas entre paréntesis) se presentan en la siguiente tabla: 180
CLETO DE LA TORRE
Tamaño de la empresa Uso de software
Alto
Medio
Bajo
Total
Actualmente
51 (68.75) 22(16.94) 43(30.30)
116
En el pasado
92(83.57) 21(20.60) 28(36.83)
141
Nunca
68(58.68)
Total
9(14.46) 22(25.86)
211
52
99
93
356
Con estos datos el estadístico de prueba es: 3
3
xc2 i 1 j 1
oij
eij eij
2
18.510
Los grados de libertad para el estadístico de prueba son (3-1)(3-1) = 4. El 2 valor de tabla para un nivel de significación del 5% es x(0.95,4) 9.488 . Como el
valor calculado es mayor que el valor de tabla se rechaza H o y se concluye que existe suficiente evidencia estadística para aceptar que el uso de técnicas de valorización depende del tamaño de la empresa. 3.- Un asesor financiero quiere conocer las diferencias en la estructura de capital de
varios tamaños de empresa en cierta industria. Hace una encuesta en un grupo de firmas que tienen distintas cantidades de activos y las dividen tres grupos. Clasifica cada una según que su deuda sea mayor que el capital contable de las acciones o que su deuda total sea menor. A continuación se dan los resultados de la encuesta: Deuda con respecto Tamaño de activos de la firma( en miles)
Total
al capital social
< $ 500
$500-2000
>$2000
Menor
12
13
4
29
Mayor
5
15
13
33
Total
17
28
17
62
181
ESTADISTICA
¿Tienen idéntica estructura de capital los 3 tamaños de empresa? Solución
Ho: La Estructura de capital es similar en los distintos tipos de empresa. (Independientes) HI: La Estructura de capital es similar en los distintos tipos de empresa (Dependientes) Estructura de capital Menor Mayor Total
Frecuencia Porcentaje
Tamaño de activos de la firma < $ 500 $500-2000 >$2000 12 13 4 70.6% 46.4% 23.5%
Total 29 46.8%
Frecuencia Porcentaje
5 29.4%
15 53.6%
13 76.5%
33 53.2%
Frecuencia
17 100.0%
28 100.0%
17 100.0%
62 100.0%
Porcentaje Chi-cuadrado=7.563
, P-valor=0.023
EL p-valor, juega un papel muy importante en la decisión de las hipótesis. Si pvalor < 0.05 se acepta la hipótesis alterna con un nivel de confianza del 95%, en
este caso influye el factor; en el caso que p > 0.05 la decisión es aceptar la hipótesis nula, no influye el factor. En nuestro ejemplo p-valor<0.05, se rechaza la hipótesis nula. La estructura de capital es similar en los distintos tipos de empresa. EJERCICIOS PROPUESTOS
1)
Durante la ultima ronda negociaciones del GATT (acuerdo general de tarifas y
comercio), un grupo de investigadores de Latinoamérica evaluó en base a encuestas la actitud de los representantes de los países desarrollados respecto al proteccionismo de sus mercados individuales, específicamente su posición frente a la importación de ciertos bienes manufacturados de piases en vías de desarrollo como los Latinoamericanos. Se interrogo a representantes de EEUU, Japón y de la Comunidad Económica Europea (CEE). 182
CLETO DE LA TORRE
Numero de representantes por paises. EEUU
Japon
CEE
A favor de la importancia
35
76
37
En
65
74
43
contra
de
la
importancia En base a los datos ¿puede inferir los investigadores que el GATT ha cumplido su objetivo de liberalizar el comercio y homogeneizar las tendencias comerciales de sus países miembros mas importantes. Use
1% .
Redacte un informe técnico sobre
este estudio. 2) Un investigador quiere averiguar si hay diferencias significativas en las tasas de rendimiento de valores, bonos y fondos mutuos. Con tal motivo se ha seleccionado muestras aleatorias de inversión y ha registrado las tasas de rendimiento en cuatro entidades financieras. Entidades Financieras A
B
C
D
Valores
4.5
6.0
2.0
4.1
Bonos
4.0
3.1
2.2
5.3
Fondos
3.5
3.1
2.9
6
mutuos ¿ Influye en la tasa de rendimiento el tipo de inversión y la entidad financiera?.Use 5% . Redacte Adecuadamente sus conclusiones.
3) El departamento de tarjetas de crédito bancarias del California Bank sabe que por su larga experiencia, que 5% de los tarjeta habientes han tenido algunos estudios de bachillerato, 15% han terminado dicho nivel escolar, 25% han tenido ciertos estudios universitarios, y 55% han concluido la instrucción en universidad. De los 500 tarjeta habientes que fueron reportados por falta de pago en este mes, 50 tenían estudios de bachillerato, 100 terminaron tal nivel escolar, 190 tenían cierta preparación universitaria y 160 concluyeron la instrucción en la universidad. ¿Se puede concluir 183
ESTADISTICA
que la distribución de tarjeta habientes que no han pagado sus cuentas es diferente de la de los demás?. Aplique el nivel de significancia de 0,01 4) Doscientos hombres de diversos niveles de gerenciales, seleccionados al azar, fueron entrevistados con respecto a su interés o preocupación acerca de asuntos ambientales. La respuesta de cada persona se registró en una de tres categorías: interés nulo, algo de interés y gran preocupación. Los resultados fueron: Nivel de gerencial
Preocupación Sin interés
Algo de interés Gran preocupación
Gerencia alta
15
13
12
Gerencia media
20
19
21
Supervisor
7
7
6
Jefe de grupo
28
21
31
Utilice el nivel de significancia de 0,01 para determinar si existe relación entre el nivel directivo o gerencial y el interés en asuntos ambientales. 5) Un administrador de marca está preocupado porque su producto puede estar mal distribuido a lo largo de todo el país. En una encuesta en la que el país fue dividido en 4 regiones geográficas, se investigó una muestra aleatoria de 100 consumidores de cada región, obteniéndose los siguientes resultados: Adquisiciones Adquirieron la
Región NE
NO SE
SO
40
55
45
50
60
45
55
50
marca No la adquirieron
Si el nivel de significancia es de 0,05. ¿Cuál es su conclusión? 6) Se encuestó a varios directores generales de empresas y se les pidió que valoraran la dependencia entre el rendimiento financiero de su empresa y la estrategia de la misma, siendo los resultados los siguientes: 184
CLETO DE LA TORRE
Estrategia
Rendimiento financiero Bajo
Medio Alto
Baja
15
25
18
Media
30
52
23
Alta
23
49
61
¿A qué conclusión llega usted? Utilice un nivel de confianza del 90% para su prueba. 7) Se clasificó una muestra de agencias inmobiliarias según su número de empleados y por si tenían o no un plan de marketing, para estudiar si había o no dependencia entre ambas variables Número de empleados
Con plan de Marketing
Sin plan de Marketing
Menos de 100
13
10
Entre 100 y 500
18
12
Más de 500
32
6
Utilizando un nivel de significación del 1% realice la prueba correspondiente. 8) El incluir en las etiquetas de los productos alimenticios el precio unitario del producto tiene por objeto el facilitar a los compradores la elección. Sin embargo, un experto en estudios sobre el comportamiento de los consumidores , han encontrado que aquellos de nivel soioeconómico bajo no están usando la ventaja que representa el tener exhibido en la etiqueta el precio unitario. En un estudio posterior, y a manera de corroboración de los resultados reportados, un economista observó el proceso de selección de 1000 compradores en tres supermercados. Estos se encontraban ubicados en tres áreas distintas de la ciudad, y correspondían a clases sociales de nivel bajo, medio y alto respectivamente. Se habían puesto paquetes de productos de la misma marca pero conprecios unitarios distintos. Los datos sobre los 1000 compradores, clasificados de acuerdo a su clase socioeconómica y al hecho de haber comprado con base en los precios unitarios o no, fueron: BAJA Usó pp.uu.
249
MEDIA
ALTA
494
201 185
ESTADISTICA
No usó pp.uu.
26
26
4
¿Muestran los datos al nivel 0.05 evedencia que respalde los reportes del experto ? 9) Con el objeto de asesorar correctamente a sus clientes, un banco pidió la opinión de 50 analistas en inversión de cada una de tres firmas consultoras distintas, todas miembros de la bolsa . A cada uno le fué preguntado específicamente cual de los tres tipos de inversión, bonos, acciones o bonos convertibles recomendaría. Las respuestas se presentan en la siguiente tabla: FIRMAS
CONSULTORAS
A
B
C
Acciones
13
16
7
Bonos
31
24
35
6
10
18
Bonos convertibles
¿Proporcionan éstos datos evidencia al nivel 0.10 de que las tres firmas consultoras opinan distinto? 10) En un día dado, el gerente de un supermercado observó el número de clientes que escogieron cada una de las 6 cajas de pago distintas de la salida. Los resultados fueron: Caja número
1
2
3
4
5
6
Frecuencia
84
110
146
152
61
47
¿Presentan los datos suficiente evidencia de que hay cajas preferidas al nivel 0.05? 11) Se ha realizado un estudio sobre la utilización de ciertas fuentes de financiación externas para las pequeñas y medianas empresas (PYMES). Para ello se han seleccionado aleatoriamente 500 PYMES de una región. Las empresas se clasifican según su tamaño en tres categorías (micros, pequeñas y medianas) y según hayan utilizado o no alguna de las fuentes de financiación especificadas en el cuestionario. Los datos obtenidos son: Micros
Si utiliza financiación
No utiliza financiación
115
325 186
CLETO DE LA TORRE
Pequeñas
20
20
Medianas
15
5
¿Existe alguna relación entre el tamaño de la empresa y el hecho de recurrir o no a las fuentes de financiación indicadas?. Utilice un nivel de significación del 5%.
187
ESTADISTICA
CAPITULO X TOMA DE DECISION. Una decisión es una elección consciente y racional, orientada a conseguir un objetivo, que se realiza entre diversas posibilidades de actuación (o alternativas). Antes de tomar una decisión deberemos calcular cual será el resultado de escoger una alternativa. En función de las consecuencias previsibles para cada alternativa se tomará la decisión. Así, los elementos que constituyen la estructura de la decisión son: los objetivos de quién decide y las restricciones para conseguirlos; las alternativas posibles y potenciales; las consecuencias de cada alternativa; el escenario en el que se toma la decisión y las preferencias de quien decide. Los problemas de decisión que vamos a estudiar se plantean cuando una persona (decisor) tiene que elegir una opción entre un conjunto de posibilidades sabiendo que las consecuencias que acarrea su decisión no dependen solo de la opción que elija, sino también de una serie de factores externos que no controla. Trataremos de estudiar criterios objetivos para tomar una decisión de forma que las consecuencias nos sean favorables. 10.1 OBSERVACIONES
Se llama espacio de acciones (A j) al conjunto de todas las posibles alternativas entre las que el decisor puede elegir.
188
CLETO DE LA TORRE
Se llama espacio de estados o eventos (E i) de la naturaleza, al conjunto de todos los posibles valores de los factores externos que no controla el decidor, pero determinan el nivel de éxito de una acción determinada.
La teoría de decisión consiste en un conjunto de técnicas para elegir la mejor acción.
10.2 PASOS EN LA TEORIA DE DECISIONES .
En un problema de decisión, lo primero que debemos identificar son las opciones entre las que debemos elegir.
El segundo paso del planteamiento consiste en identificar los factores externos que no puede controlar el decisor pero que incluyen en las consecuencias, en este paso se asigna probabilidades (pi) a los posibles eventos.
En el tercer paso se construye una tabla de pago, la misma que debe contener la lista de las acciones alternativas, posibles eventos y los pagos.
El cuarto paso es el proceso de la toma de decisiones, para ello existen varios criterios, la mismas que se desarrollaran posteriormente.
Tablas de pago.
El pago se define como la utilidad neta es decir ventas menos costos. Los pagos
X ij
de la tabla de pagos son valores que consisten de pérdidas o
ganancias que dependen del evento E i y de la acción A j. Tabla de pagos. Eventos
Probabilidades
Acciones A1
A2
...
An
E1
P1
X 11
X 12
…
X 1n
E2
P1
X 21
X 22
…
X 2 n
E3
P1
X 31
X 32
…
X 3n
P1
X k 1
X k 2
…
EK
10.3 TOMA DE DECISIONES. I.
Criterios basados solo en probabilidades. 189
X kn
ESTADISTICA
Este criterio consiste en decidir por el evento que tiene la máxima probabilidad. II.
Criterios Basados solo en las consecuencias económicas. a. Criterio Maximin.
Consiste en determinar el valor mínimo que resulta de cada acción a tomar en la tabla de pagos, y elegir como la mejor acción aquella cuya resultante es mayor. Este es el criterio más conservador ya que está basado en lograr lo mejor de las peores condiciones posibles. El criterio maximin, corresponde a un pensamiento pesimista, pues razona sobre lo peor que le puede ocurrir al
decisor cuando elige una alternativa. b. Criterio Maximax.
Consiste en determinar el valor máximo que resulta de cada acción a tomar en la tabla de pagos, y elegir como la mejor acción aquella cuya resultante es mayor c. Criterio de pérdida de oportunidad condicional (Arrepentimiento mínimas).
El arrepentimiento o pérdida de oportunidad condicional se define como la cantidad de pago perdido al no tomar la acción del pago más alto para cada evento posible. Este criterio toma como la mejor acción aquella para la cual el arrepentimiento máximo posible es menor. III.
Criterios basados solo en probabilidades y consecuencias económicas a. Criterio del pago esperado (PE)
Llamado también Criterio Bayesiano, bajo este criterio la mejor acción es aquella que tiene el mayor resultado económico esperado (promedio) b. Criterio de la pérdida de oportunidad esperada(POE)
La mejor acción es aquella que minimiza las perdidas de oportunidad esperada. Los cálculos son similares de PE excepto que se usa perdidas de oportunidades en vez de pagos. Ejemplo 1 190
CLETO DE LA TORRE
Un vendedor al menudeo adquiere cierto producto a 3000 dólares la caja y lo vende en 5000 dólares. El elevado margen de utilidad refleja que los productos son perecedores, puesto que se pierde 500 dólares después de cinco días. Con base en experiencias en productos similares el vendedor confía en que la demanda del producto esta entre 9 y 12 cajas. Si los valores de probabilidad estimadas para las demandas de 9 a 12 cajas son: 0.3, 0.4, 0.2, y 0.1 respectivamente. a. Describa todo los posibles eventos y las posibles acciones a tomar. b. Construya una tabla de ganancias. c. Determine las mejores decisiones utilizando el criterio de probabilidad máxima. d. Determine las mejores decisiones desde el punto de vista de los criterios: i) maximin, ii) máximax. e. Determine la mejore decisión desde el punto de vista del criterio del pago esperado (PE) f. Determine la mejore decisión desde el punto de vista del criterio del perdida de oportunidad condicional (Criterio de arrepentimiento condicional) g. Construya una tabla de perdidas de oportunidades esperadas y determine la mejor decisión utilizando este criterio.
Solución:
a.
Posibles eventos: E1: Vender 9 cajas. E2: Vender 10 cajas. E3: Vender 11 cajas. 191
ESTADISTICA
E4: Vender 12 cajas. Posibles acciones a tomar: A1: Comprar 9 cajas. A2: Comprar 10 cajas. A3: Comprar 11 cajas. A4: Comprar 12 cajas. b.
Tabla de ganancias. Demanda de
Probabilidades
Comprar
mercado
A 1: 9
A2: 10 A3: 11 A4: 12
E1: 9
P1 = 0.3
18000
14500
11000
7500
E2 : 10
P2 = 0.4
18000
20000
16500
13000
E3 : 11
P3 = 0.2
18000
20000
22000
18500
E4 : 12
P4 = 0.1
18000
20000
22000
24000
Si se compra 9 cajas (C = 9), las ganancias (G) para las 4 demandas (D) respectivas D=9, 10, 11, 12 son iguales a: G=9x5000-9x3000-0x500=18000.
Si se compra 10 cajas (C = 10), las ganancias (G) para : D = 9 es G = 9x5000-10x3000- 1x500=14500. D = 10, 11, 12 es G = 10x5000-10x3000- 0x500=20000.
Si se compra 11 cajas (C = 11), las ganancias (G) para : D = 9 es G = 9x5000-11x3000 - 2x500=11000. D = 10 es G = 10x5000-11x3000 - 1x500=16500. D = 11, 12 es G = 11x5000-11x3000- 0x500=22000.
Si se compra 12 cajas (C = 12), las ganancias (G) para : D = 9 es G = 9x5000-12x3000 - 3x500=7500. D = 10 es G = 10x5000-12x3000 - 2x500=13000. D = 11 es G = 11x5000-12x3000 - 1x500=18500. D = 12 es G = 12x5000-12x3000 - 0x500=24000. 192
CLETO DE LA TORRE
c.
Criterio de probabilidad máxima. En base a este criterio, la mejor elección es comprar 10 cajas.
d.
Criterio maximin: Demanda de mercado
Comprar A 1: 9
A2: 10 A3: 11 A4: 12
E 1: 9
18000
14500
11000
7500
E2 : 10
18000
20000
16500
13000
E3 : 11
18000
20000
22000
18500
E4 : 12
18000
20000
22000
24000
Mínimos
18000
14500
11000
7500
El mayor de estos cuatro valores mínimos es 18000, por tanto la mejor acción es comprar 9 cajas. Criterio maximax: Demanda de mercado
Comprar A 1: 9
A2: 10 A3: 11 A4: 12
E 1: 9
18000
14500
11000
7500
E2 : 10
18000
20000
16500
13000
E3 : 11
18000
20000
22000
18500
E4 : 12
18000
20000
22000
24000
Máximos
18000 20000
22000
24000
El mayor de estos cuatro valores es 24000, por tanto la mejor acción es comprar 12 cajas. e.
Criterio de pago esperado (PE) Demanda de mercado
Comprar A 1: 9
A2: 10 A3: 11 A4: 12
E 1: 9
18000
14500
11000
7500
E2 : 10
18000
20000
16500
13000
E3 : 11
18000
20000
22000
18500
193
ESTADISTICA
E4 : 12
18000
20000
22000
24000
Pago
18000 18625
17875
15750
esperado Se elige la acción que tiene mayor PE, esto es comprar 10 cajas. f.
Criterio de pérdida de oportunidad condicional. Si la demanda fuera de 9 unidades (D=9), lo correcto es producir 9 para tener una ganancia de G = 9x5000-9x3000=18000 no hay pérdida de oportunidad, sin embargo si se produce 10 unidades, cuando la demanda es 9, la ganancia es G = 9x5000-10x3000- 1x500=14500, para este caso la pérdida de oportunidades es: 18000-14500=3500 Tabla de pérdida de oportunidad condicional
Demanda de mercado E1: 9 E2 : 10 E3 : 11 E4 : 12 Máximos
Comprar A 1: 9
A2: 10
A3: 11
A4: 12
18000 – 18000
18000 – 14500
18000 – 11000
18000 – 7500
0
3500
7000
11500
20000 – 18000
20000 – 20000
20000 – 16500
20000 – 13000
2000
0
3500
7000
22000 – 18000
22000 – 20000
22000 – 22000
22000 – 18500
4000
2000
0
3500
24000 – 18000
24000 – 20000
24000 – 22000
24000 – 24000
6000
4000
2000
0
7000
11500
6000
4000
El menor de estos máximos es 4000, la acción optima es A 2, comprar 10 cajas. g.
Tabla de perdidas de oportunidades esperadas (POE)
Demanda de mercado E1: 9 E2 : 10
Comprar A 1: 9
A2: 10
A3: 11
A4: 12
0
3500
7000
11500
2000
0
3500
7000
194
CLETO DE LA TORRE
E3 : 11
4000
2000
0
3500
E4 : 12
6000
4000
2000
0
POE
3000
3125
5500
2375
(Promedios) La menor de estas perdidas de oportunidades esperadas es de 2375, por el criterio POE, la mejor acción es comprar 10 cajas.
10.4 ARBOL DE DECISIONES
Es utilizado para estructurar el proceso de Toma de decisiones bajo Incertidumbre.
Variable de decisión: Son las alternativas disponibles
Variable de estado : Estados de la naturaleza, estados futuros, ocurrencias probables.
El esquema de un árbol de decisión es la siguiente.
Nodo de Decisión
Alternativas de decisión
Nodo de azar
Ramas de estado
Resultados
Los nodos finales representan todos los posibles resultados, asociados con cada una de las alternativas de decisión
10.5 Toma de decisión Bayesiana.
Mientras que los criterios de decisión analizados anteriormente ignoran las probabilidades para los estados naturales respectivos, la toma de decisión 195
ESTADISTICA
bayesina la toma en cuenta, específicamente se elige la alternativa con la mejor retribución esperada. Retribución esperada=VME=
pi mi i 1
Donde: Pi: Probabilidad de que ocurra el estado natural i. Mi: La retribución si se selecciona esta alternativa y ocurre el estado natural i.
EJEMPLO
Un inversionista debe decidir si realiza una inversión de $ 50000 en la ciudad A o B para construir un mercado en una área residencial, no se sabe si esta área residencial crecerá para convertirse en un mercado grande o moderado. Si invierte en la ciudad A y el mercado es grande la ganancia neta se estima en $75000; si el mercado es moderado habrá una perdida de $ 30000. Si invierte en la ciudad B y el mercado es grande, la ganancia neta será de $150000, si el mercado es moderado la ganancia será de $50000. Si el inversionista estima una probabilidad de 40% de que el mercado sea grande. Determine si el inversionista debe realizar o no el deposito. Solución.
Alternativa
Probabilidad de Cada estado natural 0.4 Mercado es grande
Retribución en dólares $ 75000
Invertir en la ciudad A
0.6 Mercado es moderado
-$ 30000
VME ciudad A=0.4x75000+0.6x(-30000)=$12000 196
CLETO DE LA TORRE
VME Ciudad B=0.4x150000+0.6x(50000)=$90000
0.4 Mercado es grande Invertir en la ciudad B
$ 150000
0.6 Mercado es moderado
$ 50000
Al comparar las retribuciones esperadas se deduce que debe invertir en la ciudad B. EJERCICIOS.
1. Una tienda de moda tiene la oportunidad de abrir un local en un centro comercial muy conocido y con mucho éxito. Alternativamente, puede abrir la tienda en un nuevo centro comercial a un coste mucho mas bajo, de forma que si ese nuevo centro tiene gran ausencia calculan que los beneficios anuales serán de 300000 euros, si la ausencia es moderada serán de 135000 euros y si es baja esperan unas perdidas de 23000 euros. Si abren la tienda en el centro comercial ya establecido, los beneficios que calculan dependen, también, del grado de éxito del nuevo centro, ya que son competidores directos. Si la ausencia al nuevo centro es baja, los beneficios para la tienda instalada en el centro comercial conocido. Utilice por lo menos tres criterios para la toma de decisión 2. Un vendedor de computadoras adquiere una computadora en 1000 dólares y lo vende en 1800 dólares, el valor de la computadora se deprecia en seis meses en 600 dólares. En base a la experiencia el vendedor confía en que la demanda del producto esta entre 10 y 14 unidades en un periodo de seis meses. Si los valores de probabilidad estimadas para las demandas de 10 a 14 unidades son: 0.3, 0.25, 0.19, 0.15 y 0.11 respectivamente. a. Describa todo los posibles eventos y las posibles acciones a tomar. 197
ESTADISTICA
b. Construya una tabla de ganancias. c. Determine las mejores decisiones utilizando el criterio de probabilidad máxima. d. Determine las mejores decisiones desde el punto de vista de los criterios: i) maximin, ii) máximax. e. Determine la mejore decisión desde el punto de vista del criterio del pago esperado (PE) f. Determine la mejore decisión desde el punto de vista del criterio del perdida de oportunidad condicional (Criterio de arrepentimiento condicional) g. Construya una tabla de perdidas de oportunidades esperadas y determine la mejor decisión utilizando este criterio. 3. Cada hotel de cierta cadena debe decidir cual de las tres posibles promociones que ofrece la compañía matriz lanzara para la próxima campaña de invierno. La promoción playa depende mucho del tiempo. Si es calido y soleado, calculan unos beneficios de unos 90000 soles, si es frió y lluvioso de 5000 soles y si es intermedio de unos 25000 soles. Al contrario para la promoción ski calculan una perdidas de 6000 soles si el tiempo el calido, unos beneficios de 15000 soles si es intermedio 70000 soles si es frió y lluvioso. La promoción relax es independiente del tiempo y con ella esperan unos beneficios de unos 55000 soles. a) Uno de los hoteles de dicha cadena esta situado en una zona en la el 80% de
los inviernos son calidos y soleados y nunca son fríos y lluviosos, ¿que promoción deberán lanzar?, ¿con que valor asociado? b) Otro hotel esta situado en una zona en la que el 40% de las veces el invierno
es frió y lluvioso y el 30% es intermedio, ¿que opción recomendarías para este otro hotel?
198
CLETO DE LA TORRE
199
ESTADISTICA
CAPITULO XI DISEÑO EXPERIMENTAL El diseño de experimentos es en la actualidad una de las herramientas principales utilizados en la investigación estadística, el objetivo que se tiene es estudiar el efecto de un factor sobre una variable respuesta. Diseñar un experimento, simplemente significa planear un experimento de modo que se reúna la información que sea pertinente al problema bajo investigación. Muy a menudo se coleccionan datos que pueden tener muy poco o ningún valor, en la solución del problema. El diseño de un experimento, es entonces, la secuencia completa de pasos tomados de antemano para asegurar que los datos apropiados se obtendrán de modo que permitan un análisis objetivo que conduzca a deducciones válidas con respecto al problema establecido. 11.1 CONCEPTOS BASICOS FACTOR.
Son todas aquellas variables cuyo efecto se desea medir, en algunos casos se les llama tratamiento. NIVEL
Es el conjunto de valores que tiene la variable independiente o factor en el experimento. 200
CLETO DE LA TORRE
UNIDAD EXPERIMENTAL
Es la entidad más pequeña a lo que se aplica el tratamiento, es decir; es el elemento donde se realiza la medición. ERROR EXPERIMENTAL
Es la medida de la variación, existente entre observaciones de las unidades experimentales. En un Diseño Experimental se tiene variabilidad inherente a la unidad experimental y otra variabilidad debida a los tratamientos. Para reducir el error experimental se siguen algunos pasos:
Repetir el experimento
Adicionar más tratamientos
Introducir variables o bloques El proceso o sistema bajo estudio puede representarse por medio del modelo:
Podemos pensar que el proceso es una combinación de maquinarias, personas y otros recursos que transforman alguna entrada, en una salida que tienen una o más respuestas observadas 11.2 OBJETIVOS DEL DISEÑO EXPERIMENTAL
Determinar las variables con mayor influencia en la respuesta 201
ESTADISTICA
Determinar el mejor valor de las variables que influyen en la respuesta de manera que:
La respuesta se aproxime al valor deseado
La variabilidad de la respuesta sea pequeña
Se minimiza el efecto de las variables incontrolables
11.3 DISEÑO UNIFACTORIAL (Diseño completamente aleatorio)
Es el Diseño Experimental más simple.
En este Diseño los tratamientos (niveles) se distribuyen al azar en todas las unidades experimentales. Este diseño es muy útil cuando las unidades experimentales
tienen
variabilidad
uniformemente
repartidos
(homogeneidad) VENTAJAS Y DESVENTAJAS
VENTAJAS
Este Diseño es fácil de planear y es flexible en cuanto al número de repeticiones y unidades experimentales del tratamiento
DESVENTAJAS
Solo es aplicable, cuando el material experimental es homogéneo Los resultados del experimento se pueden agrupar de la siguiente forma:
yij
factor variedad
niveles
A
A Y11
C Y31
B Y21
D Y 41
B
B Y22
A Y12
D Y42
C Y 32
C
B Y23
C Y33
A Y13
D Y 43
D
A Y14
D Y44
C Y34
B Y 24
Donde ( yij ) es el resultado de la medición del i-ésimo tratamiento en la j-ésima repetición.
202
CLETO DE LA TORRE
En resumen: Tratam
1
2
i
a
Y11
Y21
Yi1
Ya1
Y12
Y22
Yi 2
Ya2
Y1 j
Y2 j
Y1n
Y2 n
Yij
Yaj
Yin
Yan
TOTAL TOTALES
Y1.
Y2 .
Yi .
Ya .
Y ..
Medias
Y 1.
Y 2.
Y i.
Y an
Y ..
si2.
Varianzas
s12.
s22.
sa2.
s..2
Donde: n
Y ij , Total del i-ésimo tratamiento
Y i. j 1
n
Yi .
Y ij j 1
n
a
a
Y ..
, Media del i-ésimo tratamiento n
Y ij , Total
Y i. i 1
Y ..
Y i .
Y .. an
i 1 j 1
, Media total
En esta parte desarrollaremos el Análisis de Varianza para el modelo de Efectos fijos del Diseño Completamente al Azar. (DCA).
11.4 ANALISIS DE VARIANZA
Es la técnica mediante el cual se mide los efectos de los tratamientos puesto que descompone la Varianza Total en diferentes fuentes de variabilidad definida por el 203
ESTADISTICA
modelo. Para el cual se siguen los siguientes pasos:
H 0 :
1
2
H 1:
i
j
a
, para algún par (i,j)
La fórmula asumida para calcular la suma de los cuadrados es la siguiente: a
n
SCT
yij
a
2
y..
n
yij
i 1 j 1
i 1 j 1 a
SCA i 1
yi2.
y..2
ni
N
SCE
N
SCT
y..2
,N
N
an
an
SCA
Los cuadrados medios son los estimadores de las varianzas y son obtenidos de la siguiente forma: CMA
SCA a 1
CME
SCE a(n 1)
V (
ij
2
)
ó varianza del error.
Por otra parte el cociente de 2 variables
2
se distribuye mediante la distribución
de Fisher F c
SCA a 1 SCE
f
a 1, a n 1
gl
a(n 1)
1
f (1 R.A. H0
R.R. H0
204
CLETO DE LA TORRE
Análisis de la varianza. Fuentes de
g.l
SC
CM
FCAL
Tratamiento a-1
SCA
CMA
CMA CME
Error
a(n-1)
SCE
CME
Total
an-1
STT
Varianza
Conclusiones:
Si Fc F0 Se rechaza H0
Si Fc
F0 Se acepta H0
11.5 DISEÑO EXPERIMENTAL DE DOS FACTORES
El análisis de la varianza de dos factores esta formado como su nombre indica por dos factores que a su vez tienen la misma importancia en este tipo de análisis existen “a” niveles del factor A y “b” niveles de factor B.
Este tipo de análisis se determinan según el numero de observaciones; si cada unidad experimental tiene una observación, el modelo del análisis univariado de la varianza de dos factores se denomina sin replica, en este caso no existe interacción entre los dos factores. En este tipo de análisis el control local (unidad experimental) por el factor A l cual esta constituido por todo los del factor B o variantes repetidas una sola vez siendo el factor A una repetición con la condición de que los del factor B están dentro del factor A . de donde se puede afirmar que cada factor A contiene los elementos del factor B el cual disminuye el error experimental. TABLA DE ANALISIS DE VARIANZA Fuentes de
g.l
SC
CM
a-1
SCA
CMA
FCAL
Varianza Factor A
CMA CME
205
ESTADISTICA
Factor B
b-1
SCB
CMB
CMB CME
Interacción
(a-1)(b-1)
SCAB
CMAB
CMAB CME
AB Error
ab(n-1)
Total
abn-1
SCE
CME
Donde: a
b
2
n
2
SCT
Y
ijk
i 1 j 1 k 1
a
b
i 1
j 1
SCAB
Y .. . , abn
2
SCA i 1
2
2
i ..
.. .
Y Y , bn
ab n
b
SCB j 1
2
Y
. j .
an
2
Y , .. .
ab n
2
Y . Y .. . ij
n
a
ab n
SCA SCB
SCE = SCT-(SCA+SCB+SCAB) El cuadrado medio, se obtiene: Para el factor A
:
CMA
Para el factor B
:
CMB
Para la interacción AB
:
CMAB
Para el error
:
CME
SCA a 1 SCB b 1
SCAB
(a 1)(b 1) SCAB ab(n 1)
INTERACCIÓN. En estadística, la idea de una interacción, es medir el efecto de una
206
CLETO DE LA TORRE
variable (factor), manteniendo constante los demás. Figura: Interacción de factores.
De la gráfica anterior se concluye que geométricamente existe interacción cuando las líneas no son paralelas, en cambio no existe interacción, cuando las líneas son paralelas.
APLICACIONES.
1.- Se desea evaluar la efectividad de tres estrategias de marketing A, B y C en las ventas. En el cuadro siguiente se observa las ventas semanales de un producto de miles de unidades. A
B
C
35
22,6
16,6
30,6
14,4
12,1
26,8
26,3
7,2
37,9
13,8
6,6
13,7
17,4
12,5
49
18.5
15,1
¿Se puede concluir que el efecto de las tres estrategias es diferente? Solución
La hipótesis estadística esta dado por:
H 0 :
1
2
H 1:
i
j
a
Estrategia A Estrategia B
Estrategia C
35
36
37
30.6
30.7
30.8
26.8
26.9
26.10
37.9
37.10
37.11
13.7
13.8
13.9
207
ESTADISTICA
49 Totales
50 84
y1.
N
y2.
86
6
a
n
SCT
yij i 1 j 1 a
SCA i 1
y3.
6
88
y..
6
258 N=18
y1. =14 y2. =14.3333333 y3. =14.6666667 y.. =14.3333333
Media
SCE
51
yi.
y..2
ni
N
y..2
2
35
N
30.6
842 862 882 6
2
2
26.8
2582 18
2
.... 51
2582 18
2194.57
0.7059
SCT SCA 2193.87 Análisis de la varianza. Fuentes de
g.l
SC
CM
FC
Tratamiento 2
0.7059
0.35295
0.00220775
Error
15
2193.87
146.258
Total
17
2194.57
Varianza
0
f
f c
De la tabla FO=3.68, Se acepta H O, por lo tanto las tres estrategias de ventas presenta similar efecto. 2.- Un investigador analiza el efecto de 5 tipos de publicidad en cinco áreas geográficas, los resultados se mide en términos del incremento en las ventas. La información obtenida del estudio se muestra en el cuadro siguiente. 208
CLETO DE LA TORRE
Area
Incremento
Incremento
geográfica Publicidad
en las ventas Tiempo
Tratamiento en las ventas
R1 E1
85
R3 E3
100
R1 E1
45
R4 E3
200
R2 E1
100
R4 E3
250
R2 E1
20
R5 E3
260
R3 E1
85
R5 E3
340
R3 E1
95
R1 E4
0
R4 E1
73
R1 E4
70
R4 E1
87
R2 E4
30
R5 E1
250
R2 E4
100
R5 E1
170
R3 E4
100
R1 E2
110
R3 E4
180
R1 E2
30
R4 E4
210
R2 E2
100
R4 E4
200
R2 E2
20
R5 E4
350
R3 E2
90
R5 E4
420
R3 E2
80
R1 E5
30
R4 E2
50
R1 E5
60
R4 E2
110
R2 E5
110
R5 E2
120
R2 E5
100
R5 E2
250
R3 E5
170
R1 E3
60
R3 E5
150
R1 E3
0
R4 E5
10
R2 E3
40
R4 E5
20
R2 E3
45
R5 E5
40
R3 E3
50
R5 E5
20
Con 95% cual es su conclusión de este estudio. 209
ESTADISTICA
Análisis de Varianza para Ventas Fuente de variación
Suma de Cuadrados
Gl
Cuadrado Medio
Fc
Valor-P
A:Publicidad
54658.0
4
13664.5
7.92
0.0003
B:Region
182098.
4
45524.5
26.40
0.0000
AB
170472.
16
10654.5
6.18
0.0000
Error
43110.5
25
1724.42
TOTAL
450339.
49
Factores
INTERACCION
Del análisis de varianza que se muestra en el cuadro anterior se puede concluir con 95% de confianza que el factor publicidad influyen en el incremento de las ventas. (P-valor < 0.05), es decir algunos de estos tipos de publicidad genera mayor incremento en las ventas. También del mismo cuadro se puede desprender que el factor región influye (p-valor < 0.05) es decir que en determinados regiones las ventas son mayores que los otros. Para determinar que publicidad tiene mejor efecto en las ventas se aplica las pruebas de comparación de múltiples que se ilustra gráficamente.
200
170
s a t n e V
140
110
80
50 E1
E2
E3
E4
E5
Publicidad
De este grafico se observa que el tipo de publicidad, E4 estadísticamente tienen mejor efecto en las ventas en comparación con los otros tipos de publicidad. Por otra parte los tipos de publicidad E1 y E2 tienen similar efecto y el tipo de publicidad E5 tiene el menor efecto en las ventas. 210
CLETO DE LA TORRE
En el grafico siguiente se observa el análisis del incremento en las ventas por Región.
250
200
s a t n e V
150
100
50
0 R1
R2
R3
R4
R5
Region
Las ventas en las región 5, son mayores en promedio que las otras regiones, en cambio las ventas en las regiones 3 y 4 son similares y menor a las ventas de la región 5.
40 0
Region R1 R2 R3 R4 R5
30 0 s a t n e V
20 0
10 0
0 E1
E2
E3
E4
E5
Publicidad
El tipo de publicidad E5, no presenta efecto en las regiones 4 y 5. EJERCICIOS
211
ESTADISTICA
1. Una empresa, con el propósito de mejorar sus ventas diseña 4 tipos de oferta, en tres regiones del país. En el cuadro siguiente se muestra los resultados del incremento de ventas en dólares. Región I II III
Tipos de oferta A
B
C
D
109
110
108
110
110
115
109
108
110
110
111
114
112
111
109
112
116
119
124
120
114
115
119
117
Con 95% de confianza ¿Cual es su conclusión respecto del efecto de la oferta? 2. El propietario de una empresa ha probado tres políticas diferentes de cambio de cheques para reducir el gran número de cheques sin fondo que recibia su empresa. El desea saber cual política minimiza el problema. En el cuadro siguiente se muestra la reducción del número de cheques sin fondos que recibe esta empresa. Política A B
C
48 42 68 54 59 71 78 62 87 83 80 98 96 92 10 Pruebe si hay diferencia entre los tres tipos de política, usando un nivel de significación de 5% 3. La tabla siguiente muestra el posicionamiento de un producto de 4 marcas (A, B, C y D) en una región del país. Contrastar a un nivel de confianza de 95%, la hipótesis nula de que no existe diferencia en el posicionamiento en le mercado de las 4 marcas. Posicionamiento (%) 212
CLETO DE LA TORRE
Marca A
10
37
12
31
11
9
23
Marca B
4
35
32
19
33
18
8
Marca C
15
5
10
12
6
6
15
Marca D
7
11
1
8
2
5
3
4.- La estructura financiera de una firma se refiere a la forma en que se dividen los activos de la empresa por debe y haber, y el apalancamiento financiero se refiere al porcentaje de activos financiados por deuda. En un estudio financiero se afirma que el apalancamiento financiero puede utilizarse para aumentar la tasa de rendimiento sobre la inversión, es decir que, los accionistas pueden recibir rendimientos más altos con la misma cantidad de inversión gracias a su uso. Los siguientes datos muestran las tasas de rendimiento utilizando 3 diferentes niveles de apalancamiento financiero y un nivel de control (deuda cero) de empresas seleccionadas al azar: Tasas de Rendimiento Control
Bajo
Medio
Alto
4.6
2
7
7.9
2
7.4
4.5
6.8
6.8
1.8
11.6
5.8
4.2
3.2
6
9.2
1.6
4
6.8
11
En función de la información cual su conclusión de este estudio.
213
ESTADISTICA
Tabla Normal Estándar
Z
0
0.01
0.02
0.03
0.04
0.05
0.06
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 3.1 3.2 3.3 3.4 3.5 3.6 3.7 3.8 3.9
0 0.03983 0.07926 0.11781 0.15542 0.19146 0.22575 0.25804 0.28814 0.31594 0.34134 0.36433 0.38493 0.4032 0.41924 0.43319 0.4452 0.45543 0.46407 0.47128 0.47725 0.48214 0.4861 0.48928 0.4918 0.49379 0.49534 0.49653 0.49744 0.49813 0.49865 0.49903 0.49931 0.49952 0.49956 0.49977 0.49984 0.49989 0.49993 0.49995
0.00399 0.04395 0.08617 0.12172 0.1591 0.19497 0.22907 0.26115 0.29103 0.31859 0.34375 0.3665 0.38686 0.4049 0.42073 0.43448 0.4463 0.45637 0.46485 0.47193 0.47778 0.48257 0.48645 0.48956 0.49202 0.49396 0.49547 0.49664 0.49752 0.49819 0.49869 0.49906 0.49934 0.49953 0.49968 0.49978 0.49985 0.4999 0.49993 0.49995
0.00798 0.04776 0.08706 0.12552 0.16276 0.19847 0.23237 0.26424 0.29389 0.32124 0.34614 0.36864 0.38877 0.40658 0.4222 0.43574 0.44738 0.45728 0.46562 0.47257 0.47831 0.48299 0.48679 0.48983 0.49224 0.49413 0.4956 0.49674 0.4976 0.49825 0.49874 0.4991 0.49936 0.49955 0.49969 0.49978 0.49985 0.4999 0.49993 0.49996
0.01197 0.05172 0.09095 0.1293 0.1664 0.20194 0.23565 0.2673 0.29373 0.32381 0.34849 0.37076 0.39065 0.40824 0.42364 0.43699 0.44845 0.45818 0.46637 0.4732 0.47882 0.48341 0.48713 0.49001 0.49245 0.4943 0.49573 0.49683 0.49767 0.4983 0.49878 0.49913 0.49938 0.49957 0.4997 0.49979 0.49986 0.4999 0.49994 0.49996
0.01595 0.05567 0.09483 0.13307 0.17003 0.2054 0.23891 0.27035 0.29955 0.32639 0.35083 0.37286 0.39251 0.40988 0.42507 0.43822 0.4495 0.45907 0.46712 0.47381 0.47932 0.48382 0.48745 0.49036 0.49266 0.49446 0.49585 0.49693 0.49774 0.49836 0.49882 0.49916 0.4994 0.49958 0.49971 0.4998 0.49986 0.49991 0.49994 0.49996
0.01994 0.05962 0.09871 0.13683 0.17364 0.20884 0.24215 0.27337 0.30234 0.32894 0.35314 0.37923 0.39435 0.41149 0.42647 0.43943 0.45053 0.45994 0.46784 0.47441 0.47982 0.48422 0.48778 0.49061 0.49286 0.49461 0.49597 0.49702 0.49781 0.49841 0.49886 0.49918 0.49942 0.4996 0.49972 0.49981 0.49987 0.49991 0.49994 0.49996
0.02392 0.06356 0.10257 0.14058 0.17724 0.21226 0.24537 0.27637 0.3051 0.33147 0.35543 0.37698 0.39616 0.41308 0.42785 0.44062 0.45154 0.46079 0.46856 0.475 0.4803 0.48461 0.48809 0.49086 0.49305 0.49477 0.49609 0.49711 0.49788 0.49846 0.49889 0.49921 0.49944 0.49961 0.49973 0.49981 0.49987 0.49992 0.49994 0.49996
214
0.07
0.08
0.09
0.0279 0.03188 0.03586 0.0675 0.07124 0.07534 0.10642 0.11026 0.11409 0.14431 0.14803 0.15173 0.18082 0.18439 0.18793 0.21566 0.21904 0.2224 0.24857 0.25175 0.2549 0.27935 0.2823 0.28524 0.30785 0.31057 0.31327 0.33398 0.33646 0.33891 0.35769 0.35993 0.36214 0.379 0.381 0.38298 0.39796 0.39973 0.40147 0.41466 0.41621 0.41774 0.42922 0.43056 0.43189 0.44179 0.44295 0.44408 0.45254 0.45352 0.45449 0.46164 0.46246 0.46327 0.46926 0.46995 0.47062 0.47558 0.47615 0.4767 0.48077 0.48124 0.48169 0.485 0.48537 0.48574 0.4884 0.4887 0.48899 0.4911 0.49134 0.49158 0.49324 0.49343 0.49361 0.49491 0.49506 0.4952 0.49621 0.49632 0.49643 0.4972 0.49728 0.49736 0.49795 0.49801 0.49807 0.49851 0.49856 0.4986 0.49893 0.49897 0.499 0.49924 0.49926 0.49929 0.49946 0.49948 0.4995 0.49962 0.49964 0.49965 0.49974 0.49975 0.49976 0.49982 0.49983 0.49983 0.49988 0.49988 0.49989 0.49992 0.49992 0.49992 0.49995 0.49995 0.49995 0.49996 0.49997 0.49997
CLETO DE LA TORRE
TABLA DE LA DISTRIBUCION T -STUDENT p x c gl
1
1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 40 60 120
0.75
0.80
0.85
0.9
0.95
1 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.7 0.697 0.695 0.694 0.692 0.691 0.69 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.681 0.679 0.677 0.674
1.376 1.061 0.978 0.941 0.920 0.906 0.896 0.889 0.883 0.879 0.876 0.873 0.870 0.868 0.866 0.865 0.863 0.862 0.861 0.860 0.859 0.858 0.858 0.857 0.856 0.856 0.855 0.855 0.854 0.854 0.851 0.848 0.845 0.842
1.963 1.386 1.250 1.190 1.156 1.134 1.119 1.108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.050 1.046 1.041 1.036
3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.303 1.296 1.289 1.282
215
0.975
0.99
0.995
6.314 12.706 31.821 63.657 2.920 4.303 6.965 9.925 2.353 3.182 4.541 5.841 2.132 2.776 3.747 4.604 2.015 2.571 3.365 4.032 1.943 2.447 3.143 3.707 1.895 2.365 2.998 3.499 1.860 2.306 2.896 3.355 1.833 2.262 2.821 3.250 1.812 2.228 2.764 3.169 1.796 2.201 2.718 3.106 1.782 2.179 2.681 3.055 1.771 2.160 2.650 3.012 1.761 2.145 2.624 2.977 1.753 2.131 2.602 2.947 1.746 2.120 2.583 2.921 1.740 2.110 2.567 2.898 1.734 2.101 2.552 2.878 1.729 2.093 2.539 2.861 1.725 2.086 2.528 2.845 1.721 2.080 2.518 2.831 1.717 2.074 2.508 2.819 1.714 2.069 2.500 2.807 1.711 2.064 2.492 2.797 1.708 2.060 2.485 2.787 1.706 2.056 2.479 2.779 1.703 2.052 2.473 2.771 1.701 2.048 2.467 2.763 1.699 2.045 2.462 2.756 1.697 2.042 2.457 2.750 1.684 2.021 2.423 2.704 1.671 2.000 2.390 2.660 1.658 1.980 2.358 2.617 1.645 1.960 2.326 2.576
ESTADISTICA
TABLA DE LA DISTRIBUCION CHI CUADRADO ( p x c gl 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95
0.01 0 0.01 0.07 0.21 0.41 0.68 0.99 1.34 1.73 2.16 2.6 3.07 3.57 4.07 4.6 5.14 5.7 6.26 6.84 7.43 8.03 8.64 9.26 9.89 10.5 13.8 17.2 20.7 24.3 28 31.7 35.5 39.4 43.3 47.2 51.2 55.2 59.2 63.3
0.01 0 0.02 0.11 0.3 0.55 0.87 1.24 1.65 2.09 2.56 3.05 3.57 4.11 4.66 5.23 5.81 6.41 7.01 7.63 8.26 8.9 9.54 10.2 10.9 11.5 15 18.5 22.2 25.9 29.7 33.6 37.5 41.4 45.4 49.5 53.5 57.6 61.8 65.9
0.025 0 0.05 0.22 0.48 0.83 1.24 1.69 2.18 2.7 3.25 3.82 4.4 5.01 5.63 6.26 6.91 7.56 8.23 8.91 9.59 10.28 10.98 11.69 12.4 13.12 16.79 20.57 24.43 28.37 32.36 36.4 40.48 44.6 48.76 52.94 57.15 61.39 65.65 69.92
0.05 0 0.1 0.35 0.71 1.15 1.64 2.17 2.73 3.33 3.94 4.57 5.23 5.89 6.57 7.26 7.96 8.67 9.39 10.12 10.85 11.59 12.34 13.09 13.85 14.61 18.49 22.47 26.51 30.61 34.76 38.96 43.19 47.45 51.74 56.05 60.39 64.75 69.13 73.52
0.1 0.02 0.21 0.58 1.06 1.61 2.2 2.83 3.49 4.17 4.87 5.58 6.3 7.04 7.79 8.55 9.31 10.09 10.86 11.65 12.44 13.24 14.04 14.85 15.66 16.47 20.6 24.8 29.05 33.35 37.69 42.06 46.46 50.88 55.33 59.79 64.28 68.78 73.29 77.82
0.2 0.06 0.45 1.01 1.65 2.34 3.07 3.82 4.59 5.38 6.18 6.99 7.81 8.63 9.47 10.31 11.15 12 12.86 13.72 14.58 15.44 16.31 17.19 18.06 18.94 23.36 27.84 32.34 36.88 41.45 46.04 50.64 55.26 59.9 64.55 69.21 73.88 78.56 83.25
0.4 0.27 1.02 1.87 2.75 3.66 4.57 5.49 6.42 7.36 8.3 9.24 10.18 11.13 12.08 13.03 13.98 14.94 15.89 16.85 17.81 18.77 19.73 20.69 21.65 22.62 27.44 32.28 37.13 42 46.86 51.74 56.62 61.51 66.4 71.29 76.19 81.09 85.99 90.9
0.6 0.71 1.83 2.95 4.04 5.13 6.21 7.28 8.35 9.41 10.47 11.53 12.58 13.64 14.69 15.73 16.78 17.82 18.87 19.91 20.95 21.99 23.03 24.07 25.11 26.14 31.32 36.47 41.62 46.76 51.89 57.02 62.13 67.25 72.36 77.46 82.57 87.67 92.76 97.85
216
0.8 1.64 3.22 4.64 5.99 7.29 8.56 9.8 11.03 12.24 13.44 14.63 15.81 16.98 18.15 19.31 20.47 21.61 22.76 23.9 25.04 26.17 27.3 28.43 29.55 30.68 36.25 41.78 47.27 52.73 58.16 63.58 68.97 74.35 79.71 85.07 90.41 95.73 101.05 106.36
0.9 2.71 4.61 6.25 7.78 9.24 10.64 12.02 13.36 14.68 15.99 17.28 18.55 19.81 21.06 22.31 23.54 24.77 25.99 27.2 28.41 29.62 30.81 32.01 33.2 34.38 40.26 46.06 51.81 57.51 63.17 68.8 74.4 79.97 85.53 91.06 96.58 102.1 107.6 113
1
0.95 0.975 3.84 5.02 5.99 7.38 7.81 9.35 9.49 11.14 11.07 12.83 12.59 14.45 14.07 16.01 15.51 17.53 16.92 19.02 18.31 20.48 19.68 21.92 21.03 23.34 22.36 24.74 23.68 26.12 25 27.49 26.3 28.85 27.59 30.19 28.87 31.53 30.14 32.85 31.41 34.17 32.67 35.48 33.92 36.78 35.17 38.08 36.42 39.36 37.65 40.65 43.77 46.98 49.8 53.2 55.76 59.34 61.66 65.41 67.5 71.42 73.31 77.38 79.08 83.3 84.82 89.18 90.53 95.02 96.22 100.8 101.88 106.6 107.52 112.4 113.15 118.1 118.75 123.9
) 0.99 0.995 6.63 7.88 9.21 10.6 11.34 12.84 13.28 14.86 15.09 16.75 16.81 18.55 18.48 20.28 20.09 21.95 21.67 23.59 23.21 25.19 24.73 26.76 26.22 28.3 27.69 29.82 29.14 31.32 30.58 32.8 32 34.27 33.41 35.72 34.81 37.16 36.19 38.58 37.57 40 38.93 41.4 40.29 42.8 41.64 44.18 42.98 45.56 44.31 46.93 50.89 53.67 57.34 60.27 63.69 66.77 69.96 73.17 76.15 79.49 82.29 85.75 88.38 91.95 94.42 98.1 100.4 104.2 106.4 110.3 112.3 116.3 118.2 122.3 124.1 128.3 130 134.3
CLETO DE LA TORRE
PRUEBAS DE HIPÓTESIS SI Prueba Z para la media
1 grupo SI
n≥20
NO
Prueba T para la media
Distribución Normal NO
SI
Prueba Z para la diferencia de medias
SI
SI
SI
n≥30
Número de Grupos
2 grupos
i n d e p e n d i e n t e s
Prueba del signo para la mediana
arianzas iguales
Prueba T para la diferencia de medias
Prueba T para la diferencia de medias con ajuste de NO rados de libertad.
Distribución normal
NO
NO
SI
Prueba de Mann Whintney para comparación de poblaciones
Prueba Z para la media de la diferencia en datos apareados
n≥30
SI NO
Prueba T para la media de la diferencia en datos apareados
NO istribución
normal
3 o más grupos
i n d e p e n d i e n t e s
Distribución normal SI con varianzas semejantes
NO
SI
Prueba del signo o de Wilcoxon para datos apareados
ANOVA – comparación de tratamientos
Prueba de Krusskal – Wallis – comparación de tratamientos. NO SI
Distribución normal con varianzas NO semejantes NO
217
ANOVA en bloque - comparación de tratamientos.
Prueba de Friedman - comparación de tratamientos.
ESTADISTICA
PRUEBAS DE HIPÓTESIS SI Prueba Z para la proporción poblacional 1 grupo
Muestra grande nP y n(1-P) > 5 Prueba Binomial para la proporción poblacional
NO SI
SI
2 grupos
Número de Grupos
i n d e p e n d i e n t e s
SI
Frecuencias esperadas pequeñas
No
3 o más grupos
Prueba Z o Ji-Cuadrado para comparación de proporciones NO
NO
Prueba de McNeman Comparación de proporciones
SI
i n d e p e n d i e n t e s
Prueba exacta de Fisher – comparación de proporciones
SI
Prueba Ji - Cuadrado (reunir categorías) Para comparación de proporciones
Frecuencias esperadas pequeñas
No
Prueba Ji-Cuadrado para comparación de proporciones NO
NO
Prueba Q de Cockran Comparación de proporciones
218
CLETO DE LA TORRE
PRUEBAS DE HIPÓTESIS Coeficiente de correlación lineal de pearson
Continua
Coeficiente de correlación por rangos de Spearman
Ordinal y/o cardinal
Escala de medición para ambas variables. SI
-Prueba de chi-cuadrado (Coeficiente de contingencia) -Riesgos relativos( Estudios Cohorte). -Odds Ratio( Estudios caso-control) -Coeficiente de correlación
Nominal
Cada variable tiene dos categorías (Tabla 2x2)
NO
219
Prueba de chi-cuadrado para independencia de variables (Coeficiente de contingencia)
ESTADISTICA
MÉTODOS ESTADÍSTICOS DE ACUERDO AL TIPO DE VARIABLES y NIVEL DE INVESTIGACION. Tipo de
Tipo de variable
Descripción
Nivel de
Método o Técnica
investigación
Estadística.
DESCRIPTIVA
Tabla de Frecuencias,
Variables
Cualitativa
individuales
(Nominal y
proporciones, o
Ordinal)
porcentajes. Representados por grafico de barras, sectores o pictogramas.
Escala de actitud
Intervalo de confianza y
de Likert)
prueba de hipótesis de la proporción.
Variables
Cuantitativa
DESCRIPTIVA
-Distribución de
individuales
(Intervalo o
frecuencias por
razón)
intervalos. -Medias, desviación , , varianza, percentiles. -Intervalo de confianza y prueba de hipótesis de la media. -Análisis factorial, análisis de compontes principales.
Asociación
V. Ind: Cualitativa
EXPLICATIVA
-Tablas de contingencia.
entre
con V.Dep:
-Calculo de riesgos.
variables
Cualitativa
-Pruebas de chicuadrado: independencia -Grafico de barras de doble entrada. -Pruebas de Kendall, de Spearman. 220
CLETO DE LA TORRE
-Análisis de correspondencias Asociación
V. Ind: :
COMPARATIVA,
-Tablas con clasificación
entre
Cualitativa(s)
categórica, con
variables
(Grupos)
promedios, desviaciones,
con V.Dep:
etc.
Cuantitativa
-prueba t-student
(Rpta) Asociación
V. Ind: :
EXPERIMENTAL,
Diseño experimental
entre
Cualitativa(s)
CUASI
(ANOVA)
variables
(factores)
EXPERIMENTAL
-Prueba de comparación
con V.Dep:
de medias.
Cuantitativa(Rpta) Asociación
V. Ind: :
RELACIONAL,
-Grafico de dispersión.
entre
Cuantitativa(s)
CORRELACIONAL
- Análisis de regresión.
variables
con V.Dep:
-coeficiente de
Cuantitativa
correlación de pearson.
Asociación
V. Ind: :
entre
Cuantitativa(s),
variables
cualitativa(s)
EXPLICATIVA
-Regresión Logística. -Análisis Discriminante.
Con V.Dep: Cualitativa
221