ACERCA DEL AU"i9R
1l
1
-
L
Gabriel Velasco Sotomayor es matemáticol originario de la ciudad de México, egresado de la Facultad de Ciencias de la Universidad Nacional Autónoma de México (UNAM), con maestría en la Universidad de Kiev, Ucrania, y doctorado en la Universidad de Maine, EUA. Ha sido catedrático de varias universidades de prestigio en México, Islandia y Noruega. Actualmente es investigador de tiempo completo en la UniversidadAnáhuac. Ha publicado hasta ahora catorce libros, tanto en inglés como en español, sobre diversos temas: geometría, álgebra, probabilidad, cálculo vectorial y estadística, así como ajedrez. Es autor de varios trabajos de investigación en idioma inglés y ha traducido libros del ruso al español. Asimismo, ha recibido reconocimientos importantes por parte del Tecnológico de Monterrey, la Universidad Iberoamericanay el Instituto Tecnológico Autónomo de México (ITAM).
0~~3q3
,.-.
.
, '
-
l%ra Lwt Meiy, Ricardo y Sdfanny
Dr. Gabriel Velasco Sotomayor Profesor de Tiempo Completo Universidad Anáhuac
ESTADISTICA CON EXCEL Estadística descriptiva Distribuciones estadísticas Inferencia estadística Estadística no paramétrica Regresión y correlación
Gabriel Velasco Sotomayor
EDITORIAL
TRILLAS
wl
MBxico. Argentina. EspaAa Colombia. Puerto Rico, Venezuela
1
Catalogación en la fuente Velasco Sotomayor, Gabriel Estadfsticacon Excel. -- México :Trillas, 2005. 527p. :il. ;24 cm. ISBN 968-24-0626-9 1. Estadística matemática. 2. Procesamiento electrdnico de datos. I. t. D- 519.50285'V159e
LC- QA276.4T4.4
La presentación y disposición en conjunto de ESTAD~STICACON EXCEL son propiedad del editor. Ninguna parte de esta obra puede ser reproducida o trasmitida, mediante ningdn sistema o método, electrdnico o mecánico (incluyendoel fotocopiado, la grabacidn o cualquier sistema de recuperacióny almacenamiento de informacidn),sin consentimientopor escrito del editor Derechos reservados @ 2005, Editorial Trillas, S. A. de C. P, Divisidn Administrativa, Av. Río Churubusco 385, Col. Pedro M d Anaya, C.P. 03340, Mkxico, D. E Tel. 56 88 42 33, FAX 56 04 13 64 Divisidn Comercial, Calz. de la Viga 1132, C.P. 09439 México, D. E , Tel. 56 33 09 95, FAX 56 33 08 70
Miembro de la Cdmara Nacional de la Industria Editorial, Reg. núm. 158
Primera edición, octubre 2005 ISBN 968-24-0626-9
Impreso en Mkxico Printed in Mexico Esta obra se terminó de imprimir el 25 de octubre del 2005, en los talleres de RodeJi Impresores, S. A. de C. V: Se encuadernd en Rústica y Acabados Grájicos, S. A. de C. V: BM2 80 RW
¿Qué hubiera pensado algún eminente sabio de hace siglos, como Newton o Laplace, si hubiese sido transportado en una máquina del tiempo hasta nuestros días y hubiera observado a los estudiantes d e una universidad?¿Cómo habría reaccionado al ver a todos absortos y concentrados ante unas extrañas pantallas brillantes de unas curiosas cajitas negras planas? ¿Qué magia encerrarían esas extrañas cajitas aplanadas que parecían tener hipnotizados a todos? Y si ese personaje del pasado pudiese ser testigo d e una clase normal en un aula de la universidad, se sorprendería más al ver que los alumnos, en vez de atender al profesor y tomar notas, siguen con la mirada fija en las pantallas de esas extrañas cajitas aplanadas, con sus manos ocupadas en unos curiosos botoncitos d e las mismas, y sólo de vez en cuando alzan la mirada para ver al expositor. El uso d e la computadora, en la casa, en el salón de clases, en la biblioteca y hasta en la cafetería o en el restaurante, es ya parte d e nuestro panorama cotidiano. Hace 30 años era común ver en las universidades a jóvenes estudiosos bajo la sombra de los árboles, en las cafeterías o en las bibliotecas, siempre concentrados en el estudio de apuntes o la lectura d e libros, mas esa escena ha desaparecido en nuestros días. Ahora, uno encuentra a los jóvenes estudiantes en los mismos lugares, pero han remplazado los libros y apuntes por prácticas laptops, que parecen ejercer un poder hipnótico sobre ellos. Las usan para estudiar, resolver tareas, conversar a distancia con amigos y familiares, escuchar música, ver y "bajar" imágenes y videos, enterarse de las noticias o simplemente "navegar" y explorar los sitios d e la Internet, con sus infinitos atractivos. Es innegable que los tiempos cambian de manera vertiginosa y, para bien o para mal, los que hemos iniciado este nuevo siglo y milenio de constantes transformaciones y crisis sociales, que no dejan de tener impacto en el ámbito educativo, hemos atestiguado una dramática revolución en el mundo de las comunicaciones y la información. El "trabajo sucio" que antaño requería de fórmulas complicadas y cálculos engorrosos puede ahora, en muchos casos, ser resuelto a la velocidad del rayo con ayuda del software adecuado y una máquina, cuya
6
Prólogo
memoria y rapidez de cálculo es infinitamente superior a la de todos los seres humanos juntos. No obstante, las computadoras (u ordenadores) y todos sus atractivos: el software especializado, la Internet y la pasmosa facilidad de intercomunicación, pueden convertirse en un riesgo si no se saben emplear con inteligencia. Si esa maravilla tecnológica no es usada con inteligencia y mesura, corremos el riesgo de que acabe por convertirse en el basurero de la estupidez humana, para usar una frase del eximio escritor Juan José Arreola. Todo uso de una herramienta tecnológica implica también un posible abuso y un riesgo latente. Por ejemplo, el automóvil es una maravilla tecnológica, inventada y desarrollada por algunos individuos muy inteligentes y que sabían pensar, pero ahora es empleada masivamente por muchos individuos estúpidos que no saben pensar y que han ocasionado tragedias. También la computadora fue inventada y desarrollada por algunos individuos con una gran inteligencia para ser usada con mesura e inteligencia por las masas, pero desgraciadamente la mesura y la inteligencia no son cualidades de las masas. Eso ha ocasionado que en muchos individuos el uso de la computadora, lejos de producir progresos y aprendizaje, sólo ha provocado una mayor ignorancia y ha exacerbado una latente estupidez. Además, la herramienta computacional produce en no pocos estudiantes una falsa confianza de que ahora ya no es necesario pensar, porque la máquina hará todo por nosotros, incluso razonar y resolver nuestros problemas por sí sola. Nada más lejano de la verdad. Si creemos que la computadora puede ser usada como sustituto de nuestro cerebro, estamos perdidos. Siempre debemos estar conscientes de los aspectos en que somos inferiores a la máquina y emplearla sólo para que nos ayude en ese tipo de cosas en las que somos muy torpes comparados con esos monstruos de silicón. Pero en otros aspectos somos mucho muy superiores a ellos. Para pensar, planear, razonar y usar el ingenio somos, y seguramente seguiremos siendo por muchos años, incomparablemente superiores a las máquinas. Para realizar cálculos y todo tipo de trabajo operativo somos infinitamente inferiores a ellas. Y en este sentido es donde necesitamos su ayuda y la agradecemos. Como fruto de la experiencia de casi 15 años consecutivos de impartir cursos de todas las variedades de la estadística que ofrecen actualmente las universidades e institutos tecnológicos (estadística descriptiva, inferencia estadística y estadística no paramétrica, así como probabilidad), el autor logró escribir este libro, que sintetiza las partes más esenciales e importantes de la estadística en general, con una breve introducción a los conceptos básicos de la probabilidad. Asimismo, orienta la exposición a la utilidad práctica de la materia y sus múltiples aplicaciones en administración,economía y ciencias sociales, pero teniendo siempre presente que el lector a quien va dirigido el libro va a trabajar cotidianamente con una computadora o al menos tiene acceso a una computadora personal o laptop, que le facilitará el trabajo operativo. El único prerrequisito para leer con provecho este libro es un conocimiento rudimentario del programa Excel de Microsoft OfJice y, por supuesto, una preparación matemática equivalente a la de un estudiante de bachillerato. El autor ha procurado esquivar, casi con éxito total, cualquier mención del cálculo diferencial e integral. Sólo en contadas ocasiones pareció imposible exponer un par de ideas sin usar un signo de integral o dos. Por eso, se incluyó en el capítulo 4 una breve
Prólogo
7
sección (sección 4.2) que ilustra cómo se resuelven las integrales más fáciles y cómo se usan para el cálculo de áreas. Aun si el estudiante nunca cursó cálculo en bachillerato (preparatoria o CCH), con lo expuesto en esa sección tendrá las herramientas suficientes para comprender acerca de lo que se habla cuando se pone un signo d e integral. El autor ha publicado otros dos libros d e texto sobre estadística y/o teoría de las probabilidades, en colaboración con otro colega, y en los cuales sí se usó libremente la notación del cálculo diferencial e integral. Sin embargo, aquellos volúmenes destacaban las aplicaciones a la ingeniería y soslayaban casi por completo el uso de software para la computadora personal en el estudio d e la estadística. El enfoque que se da en este libro es más bien ligero y orientado a su practicidad. El tipo d e estudiante para el cual está dirigido es el alumno práctico que quiere sacar provecho de la estadística para afrontar problemas cotidianos y para organizar, presentar e interpretar datos que tiene a la mano. El autor usó una versión preliminar del manuscrito de este libro en un curso de métodos estadísticos impartido vía satélite a muchas partes d e México, Estados Unidos y a países d e Centroamérica y Sudamérica. El curso fue un éxito rotundo y mucho se debe agradecer a los estudiantes que, vía Internet, manifestaron sugerencias, plantearon dudas o preguntas o bien detectaron algunos pequeños errores, que rápidamente fueron corregidos. Al final del libro se transcribe una pequeña selección d e preguntas y respuestas que se suscitaron durante esas trasmisiones satelitales (apéndice C) y que se trasmitieron vía Internet. Hay copias grabadas en videocassette de las 16 sesiones satelitales referidas, cada una con una duración de una hora y media, pero no son propiedad del autor sino de la institución que las patrocinó. Sin embargo, si el instructor lo requiere, se puede solicitar su préstamo o copiado. También se puede solicitar un disco compacto (CD) para computadora con todas las exposiciones de esas trasmisiones satelitales en atractivas presentaciones de PowerPoint, las cuales pueden facilitarse a los profesores que usen este libro como texto en sus cursos de estadística, si así lo llegaran a solicitar. Las presentaciones contienen una síntesis del material de cada capítulo y son ideales para su exposición en clase o para conferencias. El lector interesado en estos materiales puede comunicarse con el autor a la dirección de correo electrónico que se indica al final del prólogo. Cabe aclarar, que este libro es un texto para aprender estadística y quizá también algo de probabilidad, pero no para aprender a usar el programa Excel. Se presupone que el lector ya conoce los rudimentos de este programa y sabe cómo usarlo para hacer operaciones básicas, tablas, etc. Si el lector jamás lo ha usado, entonces le convendría consultar un manual básico o tomar un curso previo de Excel antes de emprender el estudio de este libro. Como no en todas las universidades e institutos tecnológicos se acostumbra que cada alumno lleve su Zaptop o tenga acceso a una PC durante la clase, también se han incluido tablas estadísticas, con objeto de que los problemas y ejercicios puedan resolverse también sin una computadora, con tablas y una calculadora científica de bolsillo. Como mencionamos, el autor usó una versión preliminar de este libro en un curso d e estadística impartido a estudiantes de actuaría d e la Facultad de Ciencias d e la UNAM (Universidad Nacional Autónoma d e México), sin recurrir en absoluto a la computadora y sólo se desarrolló con herramientas
.
'
8
Prólogo
tradicionales (tablas estadísticas, calculadora, pizarrón y gis), condiciones en las que el libro resultó de excelente ayuda para todos. Esto quiere decir que, no obstante el titulo que se le ha dado, este libro puede usarse también como texto de introducción a la estadística en cursos tradicionales en los que no se usan computadoras. El autor espera que el trabajo invertido en la elaboración de este libro no haya sido en vano y que sea un libro que guste y despierte interés, e incluso entusiasmo, por la bella y útil ciencia de la estadística. Por último, van unas palabras de agradecimiento a José Luis Serrato, editor de ?iillas, por su paciente y esmerada labor en el trabajo editorial de este volumen, y por sus valiosas indicaciones y sugerencias. Cualquier crítica constructiva o comentarios que tengan el ánimo de eliminar errores o mejorar el contenido en futuras reimpresiones y ediciones, serán bienvenidos y agradecidos, y podrán remitirse al editor de 'Rillas vía correo electrónico (
[email protected]) o directamente al autor (gaitol968@yahoo. com) .
5
Prólogo
Cap. 1. Introducción 1.1. Introducción y prerrequisitos, 13. 1.2. ¿Cuál es el objeto de estudiar estadística?, 15. 1.3. Uso de la calculadora científica, 17. 1.4. Apoyo computacional y uso del Excel, 20. 1.5. Redondeo de aproximaciones decimales, 23. 1.6. Términos del lenguaje que suelen causar dificultad, 24. 1.7.Uso de porcentajes, 25. 1.8. Diagramas de pastel (o de pay), 26. Ejercicios complementarios 1.1,29. Tareas de lectura e investigación, 34.
13
Parte 1. Estadística descriptiva
Cap. 2. Manejo de datos aislados 2.1. Introducción, 37.2.2. Glosario d e términos usuales, 37.2.3. Medidas de localización, 41.2.4. Medidas d e dispersión, 44.2.5. Obtención d e la mediana con gráficos de tallo y hojas, 46.2.6. Coeficiente de variación, 48. 2.7.Error absoluto medio y error cuadrático medio, 50. 2.8. Error típico de la media en una muestra de tamaño n, 50.2.9. Notación sigma para sumas, 53. 2.10. Interpretación geométrica de la media, 54. 2.11. Interpretación geométrica de la mediana, 56. 2.12. Cuartiles, deciles y otros percentiles, 58. 2.13. Desviación estándar muestral, 59. 2.14. Estadística descriptiva con la calculadora científica, 61. 2.15. Resumen de estadística descriptiva con Excel, 62. Ejercicios de autoevaluación 2.1,65. Respuestas de los ejercicios de autoevaluación 2.1,67. Ejercicios complementarios 2.1,70.
37
Cap. 3. Datos agrupados en clases o intervalos 3.1. Clases y sus características, 75. 3.2. Histograrnas y polígonos de frecuencia, 77. 3.3. Distribución acumulada y ojivas, 80. 3.4. Media y desviación media para datos agrupados, 82. 3.5. Mediana y cuantiles para
75
10
lndice de contenido
datos agrupados, 84.3.6. La moda para datos agrupados y su interpretación geométrica, 86. 3.7. Desviación estándar para datos agrupados, 89. 3.8. Intervalos con anchuras variables y densidad de frecuencia, 91. Ejercicios de autoevaluación3.1,97.Respuestasde los ejerciciosde autoevaluación3 1,98. Test sobre estadística descriptiva, 101. Ejercicios complementarios 3.1,104, Cap. 4. Variables aleatotias y distribuciones de probabilidad 4.1. Variables aleatorias discretas y continuas, 113. 4.2. Integrales elementales y áreas bajo curvas, 114.4.3. Sesgo (coeficiente de asimetría) y curtosis, 117.4.4. Distribuciones de probabilidad y momentos, 121.4.5. Tipificacióndeunavariableaieatoria,130.4.6.LadesigualdaddeChébyshev, 133. 4.7. Ejemplos típicos, 134. Ejercicios complementarios 4.1, 140.
113
Parte 11. Principales distribuciones estadísticas Cap. 5. Las distribuciones discretas te6ricas más importantes 5.1. Introducción: combinaciones de n objetos con r de ellos a la vez, 157. 5.2. El muestreo con reposición y la distribución binomial, 159. 5.3. El uso de tablas y del Excel en la distribución binornial, 163. 5.4. El muestreo sin reposición y la distribución hipergeométrica, 164. 5.5. La distribución de Poisson, 167. 5.6. El uso de tablas y del Excel en la distribución de Poisson, 169. 5.7. Las distribuciones binomial negativa y geométrica, 173. Ejercicios de autoevaluación 5.1, 175. Respuestas de los ejercicios de autoevaluación, 5.1. 178. Test sobre distribuciones discretas, 179.5.8. Resumen de fórmulas: más ejemplos y más ejercicios, 182. Ejercicios complementarios sobre la distribución binomiai5.1,189. Ejercicios complementarios acerca de la distribución binomial negativa y la distribución geométrica 5.2,199. Ejercicios complementarios acerca d e la distribución hipergeométrica 5.3,204. Ejercicios complementarios acerca de la distribución de Poisson 5.4, 209. Problemas acerca de distribuciones combinadas, 210.
157
Cap. 6. Las distribuciones continuas teóricas más importantes 6.1. La distribución normal, 213. 6.2. El uso de tablas y del Excel en la distribución normal, 216. 6.3. Corrección por continuidad, 219. 6.4. Ejemplos prácticos, 219. 6.5. Aproximación de la distribución binomial con una distribución normal, 222. 6.6. Las distribuciones exponencial y d e Erlang, 226. 6.7. La distribución ji-cuadrada (X2)con v grados de libertad, 234.6.8. La distribución t de Student con v grados de libertad, 236. Ejercicios de autoevaluación 6.1,240. Respuestas de los ejercicios de autoevaluación 6.1,244. Test sobre distribuciones estadísticas (capítulos 5 y 6), 247. Test general de diagnóstico sobre los capítulos 1al 6,249.
213
Parte 111. Inferencia estadística Cap. 7. Teorema Central del Límite y distribuciones muestrales 7.1. La Desigualdad de Chebishev, 257. 7.2. El Teorema de De MoivreLaplace, 259. 7.3. La Ley de los Grandes Números, 260. 7.4. El Teorema
257
[ndice de contenido
11
Centraldel Lúnitey la distribución muestral de medias, 261.7.5. Dis-tribución muesual de una proporción,266.7.6. Ejemplos diversos, 270. Ejercicios de autoevaluación 7.1,272. Respuestas de los ejercicios de autoevaluación 7.1, 273. Tests genedes de diagnóstico (capítulos 1al 7), 273. Cap. 8. Estimación de padmetros, i n t e d o s de confianza y tamaiío de muestra 8.1. Intervalos de confianza para la media poblacional (muestra grande), 281.8.2. Cálculo del tamaño de muestra en la estimación de una media, 286. 8.3. Intervalos de confianza para la media con muestra pequeña, 287. 8.4. Intervalos de confianza para la varianza poblacional y para la desviaciónestándar, 289.8.5. Intervalos de confianza para una proporción poblacional, 295.8.6. Cálculo del tamaño de muestra en la estimación de una proporción, 296. Ejercicios de autoevaluación 8.1, 300. Respuestas de los ejercicios de autoevaluación 8.1, 302. Test sobre estimación de parámeuos, intervalos de confianza y tamaño de muestras, 304. Cap. 9. Pruebas de hipótesis paramétricas: introducción y pruebas relativas a medias 9.1. Hipótesis estadísticas,erroresy glosariode términos, 307.9.2. Ejemplos
281
307
de pruebas de hipótesisyerrores de tipos Iy 11,310.9.3. Ensayos unilaterales y bilaterales, 312. 9.4. Resumen del procedimiento para una prueba de hipótesis en general, 313. 9.5. Esquema guía para la prueba de hipótesis relativa a una media, 313.9.6. Pruebas para la media de una población: caso de muestra grande, 316.9.7. Pruebas para una media poblacional: caso de muestra pequeña, 318.9.8. Determinación del tamaño de muestra en una prueba de hipótesis relativa a una media poblacional, 319.9.9. Criterios del vaporp de la prueba para rechazar H,,323. Cap. 10. Pruebas de hipótesis relativas a una proporción, a la desviación típica y a la varianza de una población 10.1. Pruebas de hipótesis sobre una proporción poblacional, 325. 10.2. Pruebas de hipótesis relativas a la varianza y la desviación estándar, 328. Test general acerca de los i n t e d o s de confianza y pruebas de hipótesis, 332. Cap. 11. Inferencia estadística para dos poblaciones 11.1. Introducción,335.11.2. Intervalos de confianza para la diferencia de
325
335
medias (muestras independientes), 336. 11.3. Pruebas de hipótesis para la diferencia de medias (muestras independientes), 337. 11.4. Muestras pequeñas tomadas de poblaciones aproximadamentenormales, 338.11.5. Caso de muestras apareadas (o emparejadas),339.11.6. Inferenciasacerca de la diferencia entre proporciones de dos poblaciones, 343. Test general acerca de pruebas de hipótesis en sus distintas modalidades, 345. Cap. 12. Comparación de las varianzas de dos poblaciones 12.1. Distribución F de Fisher, 349. 12.2. Intervalos de confianza para
razones de dos varianzas, 352. 12.3. Prueba de hipótesis para la varianza de dos poblaciones, 352.12.4. Tablas de valores críticosde la distribución F de Fisher, 353.
349
12
índice de contenido
Parte IV.Estadística no paramétrica Cap. 13. La prueba ji-cuadrada de Pearson
13.1. Introducción, 365. 13.2. Empleo de la ji-cuadrada de Pearson para la bondad de ajuste, 366.13.3. Corrección de Yates para la continuidad, 371. 13.4. Tablas de contingencia e independencia de datos asociativos, 373. 13.5. Forma matemática y gráfica de una distribución ji-cuadrada, 375. Cap. 14. Las pmebas no paramétricas más usudes
14.1. Introducción, 377.14.2. Prueba de los signos, 377.14.3. Prueba de los signos para muestras apareadas, 379. 14.4. La prueba de rango con signo de Wilcoxon, 380. 14.5. Prueba de rango con signo de Wilcoxon para muestras apareadas, 385. 14.6. La prueba U de Mann-Whitney (prueba de suma de rangos), 386. 14.7. La prueba H de Kruskal-Wallis, 391.14.8. La prueba de Wald-Wolfowitzde rachas o corridas, 394. Parte V. Otras distribuciones notables Cap. 15. La distribución de Weibdi y otras distribuciones continuas notables 15.1. Distribución de Weibull, 407.15.2. La distribución beta, 414. 15.3.
Relación entre la distribución beta y la distribución binomial, 416. 15.4. Distribución uniforme continua o rectangular, 417. 15.5. Distribución de Rayleigh, 419. Parte VI. Regresión y correlación Cap. 16. Regresión lineal simple y correlación
16.1. Introducción, 425. 16.2. El método de ajuste por mínimos cuadrados, 428. 16.3. Correlación, 431. 16.4. Coeficiente de determinación muestra1 r2,432. 16.5. Ejemplos y fórmulas importantes, 432. 16.6. Abreviaturas más usuales en la Teoría de Regresión y Correlación, 435. 16.7. Intervalo de confianza para Po,437.16.8. Pruebas de hipótesis para Po,438.16.9. Intervalo de confianzapara la respuesta media pyKo ,dadoXo, 439. 16.10. Pruebas de hipótesis relativas al coeficiente de correlación r , 440. Ejercicios de autoevaluación 16.1,443.Respuestas de los ejercicios de autoevaluación 16.1, 443. Ejercicios adicionales, 447. Cuestionario de conceptos e ideas generales, 449. Ejercicios suplementarios, 450. Apéndice A. Algunos conceptos fundamentales de probabilidad Apéndice B. Tablas estadísticas Apéndice C. Dudas típicas y preguntas con respuesta Apéndice D. Respuestas de los tests Bibliografía selecta Índice onomástica Índice anaiítico
El pensamiento estadistico será un dia tan necesario para el ciudadano ejiciente como la capacidad de leer y escribir.
La estadística es una ciencia teórico-práctica de gran utilidad para profesionistas de muy diversas orientaciones, desde médicos, psicólogos, nutriólogos, agrónomos, economistas, administradores y ejecutivos, hasta biólogos, ingenieros, físicos, actuarios y matemáticos. Por esta razón, la estadística moderna se ha segmentado en diferentes modalidades o variedades, según los intereses, enfoques o necesidades de cada usuario. Así, se imparten cursos de estadística descriptiva, inferencial, no-paramétrica, bayesiana, administrativa, matemática, etc., por mencionar sólo algunas de las variedades más comunes. La etimología de la palabra proviene del vocablo latino status, que significa estado (o gobierno), y aparentemente fue usada por vez primera en 1672 por Helenus Politanus (de Francfort) en un escrito satírico titulado Microscepium Statisticum. Pero eso se refiere sólo al origen de la palabra, ya que ese escrito nada tenía que ver con lo que es estadística según la acepción moderna de la palabra. Se cree que fue el clérigo luterano alemán Martin Schmeizel quien, más o menos por 1720, usó la palabra estadistica con el significado actual, que es el de recolección sistemática y análisis metódico de datos e información numérica. Sin embargo, el origen de la estadística como actividad de recolección siste-
14
Cap. 1 . Introducción
mática de datos se remonta a hace más de 5000 años en China. A decir verdad, casi todas las grandes civilizaciones de la antigüedad usaron esta actividad en mayor o menor escala. En los monumentos egipcios que datan de más de 3000 años antes de Cristo se han hallado pruebas de que los egipcios llevaban cuenta rigurosa y sistemática de movimientos poblacionales, así como de censos de poblaciones y tierras. Se sabe que Ramsés 11 hizo un censo de las tierras con objeto de verificar nuevos repartos, y se cuenta que tal era la dedicación de los egipcios de la antigüedad por llevar relación y cuenta sistemática de todo que hasta tenían a la diosaSafnkit,'diosa de los libros y las cuentas. También, los romanos antiguos eran maestros de la recolección y recopilación sistemática de datos. El inicio de la estadística moderna está asociado a los nombres del inglés John Graunt (1620-1674) y del belga Adolphe Quetelet (1796-1874), entre otros. Sin embargo, el desarrollo verdaderamente científico de la estadística pudo surgir gracias a su interconexión con la teoría moderna de las probabilidades (ciencia que surgió en Francia.en el siglo xvrr y alcanzó su más vertiginoso desarrollo en la Rusia zarista de fines del siglo m y principios del m). La estadística científica moderna, como tal, es indisoluble de la teoría de las probabilidades. Los más ilustres pioneros de la estadística fueron casi todos ingleses (Graunt, Petty, Galton, Pearson, Gosset, Fisher, etc.), pero los pioneros de la teoría moderna de las probabilidades fueron casi todos franceses o rusos (Pascal, Fermat, De Moivre, Laplace, Poisson, Borel, Chébyshev, Markov, Lyapunov, Kolmogórov, Gnedenko, etc.) y alguno que otro inglés (Bayes) o alemán (Gauss). En el Continente Americano, la probabilidad y la estadística no fueron tomadas muy en serio sino hasta mediados del siglo xx más o menos, de ahí que casi no haya estadounidenses en la lista de los grandes pioneros de la probabilidad y la estadística, quizá con la excepción de William Feller y de George W Snedecor, ambos relativamente recientes. Al final de cada capítulo de este libro se presentan ilustraciones con breves datos biográficos de algunos de los personajes más representativos que, a través de la historia, contribuyeron al desarrollo y la evolución de la estadística y de la teoría de las probabilidades. Vamos a hablar ahora un poco acerca de las partes de la estadística. La estaáística descriptiva proporciona técnicas sencillas y fórmulas para organizar y manejar datos masivos o información recolectada, ya sea en encuestas o en bases de datos. Como su nombre lo indica, su propósito es simplemente describir las características de la información recabada. A menudo, la información disponible es tan sólo una parte (muestra) de un conjunto más grande de datos (población) que puede ser de difícil acceso en su totalidad. Por otra parte, la inferencia estadística (o estadistica inferencia) utiliza todas esas descripciones para realizar inferencias y tomar decisiones concernientes a la población d e donde s e sacaron los datos que se examinan. Gran parte del trabajo d e la inferencia estadística consiste en averiguar márgenes probables de error y de tolerancia en la estimación d e parámetros (magnitudes numéricas) de una población sobre la base d e una muestra d e datos extraídos de ella, así como la elaboración de hipótesis acerca de parámetros, las cuales se trata d e corroborar o desmentir. Hay muchas otras ramas de la estadística, tales como el análisis de varianza y el diseño de experimentos, la regresión lineal (simple y múltiple), la estadística
1.2. ¿Cuál es el objeto de estudiar estadistica?
15
no paramétrica, la inferencia bayesiana, la teoría del muestreo, etc. Es virtualmente imposible cubrir en un solo libro todas las ramas modernas de la estadística, por lo que los textos introductorios (como éste) exponen únicamente algo de estadística descriptiva, así como un poco de una pequeña selección de temas, como distribuciones probabilísticas, inferencia y regresión, y algún otro tema, quizá estadística no pararnétrica o análisis de varianza, y dejan a los demás tópicos para cursos avanzados o más especializados.
1.2. ¿CUÁLES EL OBJETO DE ESTUDIAR ESTAD~STICA? En términos generales, el objetivo de la estadística consiste en aprender a manejar conjuntos de datos y observaciones para realizar inferencias (pueden ser predicciones o decisiones) acerca de la población de donde provienen dichos datos, sobre la base de la información contenida en una muestra. Por lo común, la persona que se dedica a la estadística cuantifica la información y estudia diversos diseños y procedimientos de muestreo, buscando el procedimiento que produzca una cantidad específica de información en una situación dada, a un costo mínimo. Como se mencionó antes, existe una estrecha e indisoluble relación entre la estadística y la teoría de las probabilidades, ciencia que es bastante más antigua que la estadística y que provee a ésta de técnicas cuantitativas útiles para el manejo de los datos, de cara a una permanente condición de incertidumbre en la que se trabaja. La probabilidad es la ciencia que estudia las características de los procesos aleatorios o relacionados con el azar. La misma palabra aleatorio proviene del vocablo latino alea, que significa suerte o azar, y esta última proviene de la palabra árabe alzahr, que significa "los dados". A pesar de que la estadística siempre está sujeta a las contingencias del azar, con los subsiguientes errores en las estimaciones e inferencias, puede decirse que es una ciencia exacta gracias al concurso de la teoría de las probabilidades, que permite no sólo conocer y cuantificar los errores, sino además, saber cómo se distribuyen éstos en diferentes circunstancias. Algunas de las leyes básicas de la teoría de las probabilidades, como la llamada Ley de los Grandes Números o el Teorema Central del Límite, han sido de invaluable ayuda para el desarrollo de la estadística matemática y de la inferencia estadística, pues han dado a estas ramas de la estadística una base científica sólida y elegante. El tema medular y central, tanto en la estadística como en la teoría de las probabilidades, es el tema de la distrZbución, es decir, la forma matemática como se distribuyen los datos o las observaciones en una población finita o infinita. La teoría de las probabilidades analiza y clasifica todos los tipos de distribuciones teóricas que existen, así como sus propiedades y características,y la estadística práctica obtiene de todo ello un gran provecho y utilidad. En resumen; la estadística es un área de la ciencia que se ocupa del análisM de datosy de realizar inferencias acerca de una población de mediciones, a partir de la información contenida en una muestra y del conocimiento de las leyes probabilísticas sobre la forma como se distribuyen los datos en una
población especGca.
16
Cap. 1. lntroduccidn
Es verdad que la mayoría de las leyes o teoremas de la estadística moderna se sustentan y se fundamentan en última instancia en la teoría de las probabilidades y en la teoría de los procesos estocásticos (del griego stokos, que significa "adivinar"). Aun así, y a pesar de que la formulación precisa d e las leyes de la estadística puede involucrar matemáticas sofisticadas y formales, es posible sintetizar los conceptos y enseñanzas básicas en un curso ligero y práctico, haciendo a un lado las sutilezas teóricas y poniendo énfasis en la utilidad práctica que puede tener la estadística en situaciones cotidianas. El hecho mismo de que la estadística sea una usuaria afín a muchas disciplinas distintas, ha provocado que la notación o la nomenclatura empleada en estadística sea, en ocasiones, extraña y no siempre homogénea entre los diversos autores. Los estudiantes que abordan por primera vez el estudio de la estadística suelen sentirse incómodos ante la diversidad de notaciones y símbolos empleados. Por ejemplo, es común usar letras mayúsculas para referirse a una variable aleatoria en general y letras minúsculas para valores particulares de la misma, aunque no todos los autores de libros y trabajos sobre estadística se ciñen a esa convención. También, el uso de símbolos y letras griegas o latinas para denotar los parámetros de las distribuciones más usuales es, desafortunadamente, muy heterogéneo entre los diversos autores. Para poner un ejemplo, en geometría elemental, cualquier estudiante sabe que la razón de la longitud de la circunferencia al diámetro d e un círculo se denota universalmente por la letra griega n,y a nadie se le ocurriría usar otro símbolo para ello. En cambio, en estadística uno puede tomar tres libros al azar, y comprobar que los parámetros de forma y de escala para la distribución gama, por mencionar un ejemplo, se denotan (respectivamente) por r y h en un libro, pero por a y 1/8en otro, o por algunos otros símbolos o letras griegas en el tercer libro. La gran diversidad de usuarios de la estadística ha provocado esa variedad de notaciones, y el estudiante debe estar preparado para ello. Procedemos ahora a resumir lo esencial de esta sección y de la anterior en pocas palabras: La estadística es un área de la ciencia que se ocupa d e extraer la información contenida en datos numéricos y d e usarla para hacer inferencia acerca de la población de la que se extraen los datos. Existe una estrecha e indisoluble relación entre la estadística y la teoría de las probabilidades. La probabilidad es la ciencia que estudia las características de los procesos aleatorios o relacionados con el azar. El tema central, tanto en la estadística como en la teoría de las probabilidades, es la distribución, es decir, la forma matemática como se distribuyen los datos o las observaciones en una población finita o infinita. La teoría de las probabilidades analiza y clasifica todos los tipos de distdbuciones teóricas que existen, así como sus propiedades y características. La estadística obtiene de todo ello un gran provecho y utilidad. Las leyes d e la estadística se desarrollan y se fundamentan en última instancia en la teoría de las probabilidades y en la teoría de los procesos estocásticos.
1.3. Uso de la calculadora científica
17
La estadística descriptiva proporciona técnicas y métodos para organizar, manejar e interpretar datos o información recolectada. La inferencia estadística usa todas esas descripciones para: Realizar inferencias y tomar decisiones relativas a la población de donde se sacaron los datos que se examinan. - Determinar márgenes probables de error y de tolerancia en la estimación de parámetros de una población sobre la base de una muestra de datos extraídos de ella. - Aplicar métodos para probar hz'piótesis acerca de parámetros, las cuales se trata de corroborar o desmentir. -
El diseño de experimentos y el análisis de v a r i a m se ocupan de determinar y confirmar relaciones causales entre variables, comparando simultáneamente las características intrínsecas de varias poblaciones. Iaestadistica noparamétrica es un conjunto de métodos que funcionan para suplir las deficiencias de la estadística cuando se desconocen los parámetros de la población (o no se pueden usar supuestos de normalidad) y cuando las muestras son demasiado pequeñas. Los métodos estadísticos clásicos (o frecuentistas) son consistentes y útiles, pero fundamentalmente estáticos. Los métodos estadísticos bayesianos son dinámicos y usan información previa (distribuciones a priori), así como evidencias muestrales empíricas, y las convierten en distribucionesposteriores. Estos métodos han enriquecido mucho la teoría de las decisiones y los métodos de pronóstico. Se fundamentan en última instancia en el Teorema de Bayes, una regla famosa que permite calcular probabilidades inversas (probabilidades a posteriori) a partir de probabilidades previas (apriori) y de probabilidades condicionales observadas o supuestas. La regtesiión (término inventado por el inglés sir Francis Galton en 1833) es una metodología estadística muy importante que estudia las relaciones estocásticas entre un número de variables aleatorias independientes (variables explicativas) y una variable objetivo (o predictando), con el propósito de realizar predicciones y de averiguar el mayor o menor efecto de cada variable explicativa sobre el predictando.
13. USODE LA CALCULADORA CIENT~FTCA Actualmente, hay una gran proliferación de marcas y tipos de calculadoras aentificas de bolsillo de todos orígenes, principalmente chinas, coreanas y niponas, y además a precios cada vez más accesibles para cualquier estudiante. Empero, cada marca y tipo de calculadora funciona de modo distinto a otras. Es muy importante que el estudiante adquiera una calculadora científica, barata si quiere, pero que lea el instructivo y aprenda a usarla bien, sobre todo en lo que x refiere a su modalidad estadística. Si usted no tiene el instructivo porque ya lo perdió, entonces deberá tratar de descubrir sus funciones y utilerías mediante ensayo y error, es decir, mediante experimentación.
18
Cap. I . Introducción
Casi siempre, el autor inicia su curso de estadística pidiendo a los alumnos que sin falta traigan una calculadora científica para la segunda clase, y entonces dedico buena parte de esta clase a hacerlos que se ejerciten en su uso, hasta asegurarme de que todos hayan aprendido bien a manejarla. Entonces salen a relucir ciertas deficiencias de algunos alumnos, las que se pueden enmendar precisamente ahí mismo, tales como un desconocimiento de la notación científica o del uso de paréntesis como signos de agrupación, o de cómo elevar a potencias o de qué cosa significa un logaritmo, o de qué cosa es el número e y por qué se usa como base de los logaritmos naturales. Aveces no falta el despistado que pregunte cómo se prende la calculadora. A pesar de que esa clase va en detrimento del avance temático en el curso, nunca la considero una clase desaprovechada. Una calculadora científica normal tiene distintas modalidades de operación, las cuales generalmente se dan de alta con una tecla que dice MODE seguido de un número apropiado; por ejemplo, con el O es para cálculos normales (COMP), con el 1 para otras bases numéricas (BASE-n), con el 2 para estadística (SD o STAT), con el 3 para fracciones (FRAC), etc. Desde luego, esto es sólo para un tipo de calculadora hecha en China, pero para otras calculadoras puede ser distinto. Hay calculadoras en las que para usar funciones primero se pone el argumento (el valor de la variable) y después la función; en cambio, hay otras en las que primero se pulsa la función deseada y después se introduce el argumento. Con respecto a la modalidad estadística, hay algunas calculadoras que conservan en la memoria los datos introducidos aun después de apagadas, mientras que otras borran toda la información tan pronto como se apagan. El estudiante debe conocer cómo opera su calculadora. No saber hacerlo es como tener un automóvil muy bueno y no saber cómo se cambian las velocidades o cómo se encienden las luces. Una de las funciones más usadas en trabajo estadístico consiste en elevar el número real e (cuyo valor es aproximadamente 2.71828) a diferentes potencias positivas o negativas, no necesariamente enteras. Si el estudiante no sabe de la existencia de ese número ni por qué es importante, será difícil explicarlo aquí en pocas palabras, pero basta por el momento que sepa cómo elevar e a distintas potencias. Por ejemplo, si tiene su calculadora a la mano, observe que hay una tecla que dice in (significa logaritmo natural). La función inversa de ésa es precisamente la elevación de e a una potencia, y aparece precisamente arriba y afuera de esa tecla con letra pequeña y de cierto color, que dice ex.Las funciones inversas de las que indican las teclas se ejecutan o se llaman con la tecla shijit, que está en el mismo color en el que se escribe la función inversa correspondiente. Por ejemplo, vamos a suponer que se desea elevar el número e a la potencia
2.
menos tres quintos, es decir, se desea calcular Si su calculadora es de las que requiere primero que pulse la función y después el argumento, entonces empiece por pulsar la tecla shzp y luego la tecla h.Enseguida busque una tecla que dice (-) o algo así, oprímala y luego pulse la tecla para abrir paréntesis y escriba 3 + 5. Finalmente, pulse la tecla para cerrar paréntesis y luego la tecla de igual (o exe). Aparecerá entonces en su pantalla 0.54881.. . o bien 5.4881...-"l. Esta última expresión es la notación científica y significa 5.4881 x lo-'. Hagamos ahora otro ejercicio. Pulse la tecla MODE y luego un número apropiado (hasta arriba debe decir cuál) para que aparezca en la pantalla, con letra
1.3. Uso de la calculadora científica
19
pequeña, la leyenda SD (o bien STAT), lo que significa statistical data (datos estadísticos). Ahora saquemos el promedio de los números 6, 7, 8 y 9, el cual sabemos que es 7.5. Introducimos primero el número 6 y pulsamos una tecla que dice DATA. (Si su calculadora no trae esa tecla, intente tal vez con una tecla que dice M+, o consulte el manual.) Al hacerlo, deberá aparecer en la pantalla la leyenda n = 1.Esto significa que la calculadora reconoce un dato estadístico que se ha introducido. Si aparece n = 8 (u otro número), quiere decir que anteriormente alguien ya introdujo 7 datos y los conserva en la memoria. Deberá borrarlos como se indica en el manual. (Intente, por ejemplo, con RESET, ALPHA y ON.) Para usar RESET debe picar con la punta de un bolígrafo en un pequeño hoyo que aparece en la parte trasera de la calculadora. Ahora intente de nuevo escribir el 6 y pulsar DATA, y compruebe si aparece n = 1. Si es así, continúe anotando los otros tres datos, pulsando DATA después de cada uno de ellos. Ahora observe que afuera de alguna tecla y con letra pequeña aparece el símbolo X, que significa media aritmética (o promedio de los datos). Pulse SHIFT y después esa tecla y exe, y verá entonces que aparece 7.5, que es la media aritmética o promedio de los datos 6 , 7 , 8 y 9. Con estos dos ejercicios es suficiente por ahora. Ahora ya sabe usted cómo obtener la media aritmética de un conjunto de números, y también cómo elevar el número real e a cualquier potencia positiva o negativa. Antes de seguir adelante, haga una pausa y resuelva los siguientes ejercicios con ayuda de su calculadora científica. Ejercicio 1.1. Suponga que las edades de los integrantes de un equipo de futbol soccer de primera división son (en años): 33, 24, 21, 25, 26, 20, 19, 30, 26, 22 y 20. Con la utile-
ría estadística de su calculadora científica, halle la media aritmética ?? (o promedio) de las edades de esos 11 futbolistas. Ejercicio 1.2. La presión atmosférica (en milímetros d e mercurio) en un lugar de la Tierra a una altura de h metros sobre el nivel del mar está dada por:
donde k es una constante que vale aproximadamente 0.000117.
a) Calcule la presión atmosférica d e la Ciudad de México si su altura es d e 2230 metros sobre el nivel del mar. 6 ) Calcule la presión atmosférica a 10000 metros sobre el nivel del mar. Ejercicio 1.3. Use su calculadora para resolver lo siguiente en una sola operación, esto es,
sin oprimir el igual (o el exe) más de una vez.
1.4.APOYOCOMPUTACIONAL Y uso DEL EXCEL Para la mayoría de los usos básicos de la estadística, el programa Excel de Microsoft Office es más que suficiente como apoyo computacional y tiene la ventaja d e que es conocido y de fácil acceso. Por esa razón será el programa al que más se hará referencia en este libro, d e ahí el título mismo del libro. Otro software recomendable es el SPSS (Statistical Packagefor the Social Sciences) y el EVIEWS (Econometric Views), así como el MINITAB, que es más antiguo, pero que sigue siendo atractivo para muchos usuarios y constantemente salen nuevas y mejores versiones. A decir verdad, no es indispensable usar apoyos computacionales para un curso básico de estadística, pero sí es deseable para aligerar el trabajo de las operaciones. En este sentido, para los objetivos y propósitos de este libro, las hojas de cálculo de Excel bastarán en la mayoría de los casos. Con la práctica cotidiana, el estudiante irá aprendiendo a aprovechar las utilerías estadísticas que ofrece el Excel, el cual es muy amigable y se aprende sin ninguna dificultad. En la medida d e lo posible, trataremos d e usar en este libro la misma simbología y la misma nomenclatura que aparece en el Excel. La mayoría de las versiones d e Excel que traen las computadoras comerciales son versiones restringidas que carecen d e algunas herramientas de análisis, o bien las traen inactivadas. Sólo la versión profesional completa trae instaladas todas las utilerías y herramientas. Para probar si usted tiene una versión restringida en su máquina o no, haga el siguiente experimento: Abra Excel y pulse el menú Herramientas en la parte superior. Si en la lista que aparece no sale Análisis de datos, entonces pulse (dentro de esa misma lista) donde dice Complementos (en inglés Add-ins), y entonces aparecerán varios complementos disponibles con un pequeño cuadro a la izquierda que se puede marcar con una paloma. Quite la paloma en todos los cuadros y ponga paloma en el complemento que dice Análisis d e datos únicamente. Si usted también espera usar el Excel para otro tipo de trabajo (como, por ejemplo, para problemas de programación lineal), entonces también puede poner paloma donde dice Solver y donde dice Herramientas para análisis VBA. Una vez que ya marcó con paloma esos tres complementos y sólo ésos, pulse aceptar. Si le aparece un mensaje que dice Inserte el CD de OBce para dar de alta esos complementos, entonces es que su versión de Excel no era la completa y deberá conseguir el CD que le pide. Si no le aparece ese mensaje, espere a que se den d e alta automáticamente los complementos que señaló, los cuales, en lo sucesivo, siempre van a aparecer cada vez que pulse el menú Herramientas (fig. 1.1). Ahora haga el siguiente experimento: Invente un conjunto d e números (pueden ser, por ejemplo, las edades de sus sobrinos), digamos: 2 , 3 , 3 , 4 , 6 , 5 , 1 y 3, y anótelos en la columna A, uno en cada celda (fig. 1.2). Después, pulse de nuevo el menú Herramientas y el submenú Análisis de datos que acaba de dar d e alta. Entonces aparecerá una larga lista de utilerías y funciones estadísticas, la mayoría de las cuales seguramente no tendrán ningún sentido para usted a estas alturas. En los capítulos 2 y 3 iremos examinando esas funciones y utilerías. Por lo pronto, pulse donde dice Estadistica descn'ptiva. Enseguida aparecerá un cuadro de diálogo como el que se muestra en la figura 1.3. Luego, donde dice Rango de entrada, pulse con el cursor las celdillas Al
Figura I . I
Figura 1.2
hasta A8, que es donde tiene usted sus datos. Y donde dice Opciones de salida, marque donde dice En una hoja nueva y ponga una marca (paloma) en el cuadro que dice Resumen de estadísticas. A continuación, aparecerá una lista d e términos y sus correspondientes valores numéricos (fig. 1.4). El significado d e esos términos y valores numéricos se explicará en los próximos capítulos. Mientras, podemos adelantar algunos de estos términos. Empecemos por los últimos cinco d e ellos. Al final dice Cuenta 8, lo cual quiere decir que se registraron ocho datos numéricos. El penúltimo dice Suma 27, lo cual significa que la suma d e los ocho datos introducidos es 27.
Figura 1.3
Figura 1.4
.l
1.5. Redondeo de aproximaciones decimales
23
Un poco más arriba dice: Mlnimo 1y Máximo 6, lo que significa cuáles fueron el menor dato y el mayor dato, respectivamente, que se introdujeron. La diferencia entre el mayor y el menor de esos datos (6 - 1= 5) es el rango. El rango es una de varias medidas de dispersión que se usan en estadística. En términos generales, si el rango es pequeño, casi todos los datos son parecidos, mientras que un rango grande indica mucha variabilidad (o heterogeneidad) en los datos. Obviamente, si todos los datos hubiesen sido iguales, el rango habría sido cero, al igual que todas las demás medidas de dispersión (como la varianza y la desviación estándar, las cuales se definirán y se examinarán en el capítulo siguiente). Volviendo a nuestra lista, entre los primeros cuatro términos que aparecen dice Media 3.375, Mediana 3 y Moda 3. Estos tres parámetros representan medidas de localización o de tendencia central;es decir, son tres maneras diferentes de considerar una especie d e valor promedio d e los datos introducidos. La media es el promedio aritmético de los ocho números introducidos:
Por otra parte, la mediana hace referencia al dato intermedio en cuanto a tamaño (si se trata de un número impar de datos), o en su defecto a la media aritmética d e los dos datos intermedios (si se trata d e un número par d e datos, como en este caso). En efecto, si ordenamos los ocho datos de menor a mayor, tendremos la siguiente sucesión: 1 , 2 , 3 , 3 , 3 , 4 , 5 6 . Los dos datos intermedios se han señalado con negrita, y la media aritmética de ellos es (3 + 3)/2 = 3. Por tanto, la mediana es 3. Por último, la moda es el valor (o valores) que aparecen con mayor frecuencia. En este caso, el 3 aparece tres veces, así que es la moda. Es claro que puede haber ejemplos con dos o más modas o con ninguna moda. Los restantes términos de la lista son bastante más complicados y se tratarán en el capítulo siguiente.
Algunas personas suelen tener dificultades para hacer un redondeo correcto en el último dígito significativo de una representación decimal. La regla general, para no equivocarse, es que siempre debemos considerar el dígito que esté más cerca, y en caso de estar a la misma distancia, subir al siguiente dígito. Por ejemplo, si deseamos redondear el número 0.142857 a sólo cuatro dígitos significativos después del punto, escribimos 0.1429 y no 0.1428, toda vez que 857 está más cerca de 900 que de 800. En cambio, el número 0.2343499 se redondea a cuatro dígitos decimales como 0.2343, ya que 3499 está más cerca d e 3000 que de 4000. Un número como 0.25675000 se redondea a cuatro dígitos como 0.2568 por convención.' 'NOTA:Algunos autores prefieren usar la siguiente convención para redondear a n dígitos después dei punto: si el lugar n + 1es 5 y los siguientes son ceros, la cifra se redondea al númeropar más cercano. Si d n é s i o dígito después del punto es un número par, no sufre cambio alguno, pero si es impar se agrega
24
Cap. l . lntroduccidn
Muchos de los números que se obtienen en estadística y probabilidad suelen redondearse a cuatro dígitos decimales al final, es decir, cuando se va a exhibir la respuesta numérica final. Sin embargo, a la hora de realizar operaciones con calculadora no resulta conveniente redondear los números, ya que entonces se producirán errores, que se van a propagar y multiplicar, ocasionando al final un error grueso o considerable. Por eso, sólo se recomienda hacer redondeos numéricos al expresar la respuesta final, mas no durante las operaciones intermedias. Es común representar una respuesta numérica final con un redondeo correcto de cuatro dígitos después del punto decimal. M
R1.6.B
DEL LENGUAJE QUE SUELEN CAUSAR DIFICULTAD
Muchos estudiantes suelen encontrar serias dificultades para comprender algunos términos del idioma español que se aplican comúnmente en estadística y probabilidad. Vamos a dedicar esta breve sección para aclarar algunos de esos términos. Los términos nrando menos, por lo menos o al menos son sinónimos y significan una cantidad mínima que se va a considerar dentro de un conjunto de datos determinados o indeterminados. Por ejemplo, si un señor dice que tiene en el bolsillo cuando menos 50 pesos, ello significa que la minima cantidad que tiene en ese bolsillo es de 50 pesos, pero bien puede tener más. Tal vez tenga un fajo de billetes con varios miles de pesos y eso no contradice la afirmación de que tiene cuando menos 50 pesos (o al menos 50 pesos). Para poner otro ejemplo, si en un día muy contaminado en el Distrito Federal la Secretaría de Protección Arnbiental afirma que la contaminación atmosférica alcanzó niveles depor lo menos 230 unidades IMECAS,2ello significa que el valor minimo d e la contaminación registrada fue de 230 unidades, pero bien pudo haber sido mayor. Por otra parte, los términos ~ n d mucho, o cuando más, a lo sumo o a lo mrís son sinónimos y significan el valor &mo que se va a considerar dentro de un conjunto de datos determinados o indeterminados. Por ejemplo, si se dice que un señor tiene cuando mucho 60 años, queremos decir que 60 años es la máxima edad que le estimamos, pero puede ser menos. En otro ejemplo, si un pugilista (boxeador) dice a su futuro oponente que éste le va a durar cuando m i s cinco rounds, significa que el primero espera ganar la pelea en alguno de los primeros cinco, esto es, en cualquiera de los rounds 1 , 2 , 3 , 4 o 5. Nótese que los términos cuando menos x o cuando más x incluyen en cada caso al valor x. En cambio, los términos más de x o menos de x no incluyen al valorx. Si alguien afirma que tiene más de 35 años, entonces por lo menos tiene 36 años. Si alguien afirma que se ha casado menos de tres veces, entonces es que se ha casado cuando mucho dos veces. uno a ese dígito para convertirlo en par. Por ejemplo, el número 6.545000 se redondea a dos dígitos como 6.54, porque el 4 es par, pero 6.575000 se redondea a dos dígitos como 6.58 porque el 7 es impar. Nosotros haremos caso omiso de esta complicada sutileza y siempre usaremos el segundo criterio, es decir, redondearemos también 6.545000 como 6.55. ZIMECA= índice Metropolitano de la Calidad del Aire.
1.7. Uso de porcentajes
25
Igualmente, el término no mác & x incluye al valor x y quiere decir x o menos. Si alguien afirma que posee no más de dos autos, entonces su número de autos puede ser 0 , l o 2. Lo mismo pasa con el término no menos dex, el cual significax o más. Por ejemplo, si se dice que el ajedrecistaAnand ha derrotado al ajedrecista Kaspárov no menos de seis veces, quiere decir que el número mínimo de veces que lo ha vencido es de seis (aunque pueden ser más). A decir verdad, me siento extraño al tener que incurrir en semejantes explicaciones acerca del idioma español en un libro sobre estadística, pero la experiencia de varios lustros de enseñar la materia muestra cuán difícil resulta para muchos estudiantes entender el significado de esos términos. Si no fuese porque me dedico a la docencia, jamás habría pensado que tales explicaciones deberían incluirse en un libro de texto sobre la materia. En cierta ocasión, durante un examen de probabilidad, eran tantos los estudiantes que se levantaban para preguntar el significado de términos como cuando m i s , cuando menos, a lo mucho, etc., que pensé que la próxima vez que escribiera un libro de texto de estadística o probabilidad, dedicaría una sección completa a explicar estos términos del idioma español desde el principio.
1.7. Uso DE PORCENTA@S El uso de porcentajes es uno de los métodos más socorridos y populares para presentar datos estadísticos al público. La fórmula para obtener un porcentaje es muy sencilla:
Ejemplo 1.1.65 % de 150 es:
Naturalmente, habría sido equivalente multiplicar 0.65 por 150.
Veamos otro ejemplo: Ejemplol.2. ¿Qué tanto por ciento de 82 es 20?
n x 82 2000 n %(82)= -= 20 implica que n==24.39 % 100 82
Obsérvese que la función porcentaje, es decir n %(x), es unabnción lineal, lo cual significa que satisface las siguientes dos propiedades: 1. n %(a) = c n %(x) para cualquier constante c 2. n %(x + y ) = n %(x) + n %(y).
26
Cap. l . Introducción
Por ejemplo, 12 % de 60 (que es 40 + 20) es igual a 12 % de 40 más 12% de 20. Claro que también sería igual, por ejemplo, a 12% de 45 más 12% de15. Sugerimos al lector que tome una calculadora de bolsillo y se convenza por sí mismo de este hecho.
Un tipo de presentación muy usual para datos porcentuales cualitativos o categóricos (es decir, no numéricos) es el llamado diagrama de pastel (o d e p q ) , el cual es muy fácil de obtener con Excel. Ejemplo 1.3. Cierto año ingresaron 700 alumnos de nuevo ingreso a una pequeña universidad que ofrece cinco carreras: administración, contabilidad, ingeniería, actuaría y matemáticas. Los números respectivos de los alumnos fueron los siguientes (en ese orden): 280,210,105,70 y 35. Use Excel para dibujar un diagrama de pastel que muestre los porcentajes respectivos en proporción a las áreas de rebanadas de ese pastel. Solución: Aquí las variables en cuestión son cualitativas o categóricas (carreras escogidas por estudiantes). Primeramente se abre una hoja de cálculo de Excel y se anotan los datos en dos columnas contiguas, como se indica en la figura 1.5. Enseguida se pulsa un icono con unas pequeñas barritas arriba, el cual dice Chart Wzard (en inglés) o Asistente para grdjcos (en español) y se van siguiendo las instrucciones en cuatro pasos. Puede escoger varios tipos de pasteles, en doso tres dimensiones (fig. 1.6). Al final, puede escoger la opción de poner los datos finales en porcentajes o en su valor numérico original. Lo más usual es escoger en porcentajes. El Ekcel escoge por default ciertos colores, y la leyenda la pone en un recuadro a mano derecha, donde indica el significado de cada color (fig. 1.7). Si el documento se va a sacar en blanco y negro (por ejemplo, para acetatos o fotocopias), entonces resultará dificil distinguir los tonos, así que se puede retocar, copiando como imagen de b i m p y luego usando el Paint de Microsoft con las herramientas de dibujo. De este modo se obtiene el diagrama de pastel deseado (fig. 1.8) y se puede copiar y pegar en un documento de Word o en una presentación en Power Point.
1 --
2 -3 1
4 -$i 4
m
administración i - - --contabilidad - .-.-Ingeniería -- .. Actuaria . . Matemáticas ----
'280 - 210 -. . 105 70 35
I
a
I
6, a
Figura 1.5
Figura 1.6
1
Figura 1.7
Figura 1.8
Luca Pacioli ( 1 445- 15 14). Sabio italiano del Renacimiento, considerado el padre de la contabilidad moderna. Fue el primero en ocuparse de la probabilidad y plantear problemas concretos de tipo estadístico, aunque nunca publicó nada al respecto.
Cerolarno Cardano ( 1 50 1 - 1576). Médico de profesión y aficionado a los juegos de azar. En su libro Liber de Ludo Aleae (Libro de los juegos de azar), aplicó la teoría de las probabilidades a los juegos de azar. Fue el primer libro sobre probabilidad. E~ERCICIOSCOMPLEMENTARIOS 1.1 1. Mencione por los menos cinco áreas de la ciencia o la cultura en las que el conoci-
miento de la estadística es importante. 2 ¿Qué ciencia se interconectó históricamente con la estadística para convertir a ésta
A
C
5.
i 7S
en una actividad matemáticamente robusta, moderna, sólida y verdaderamente científica? a) Mencione los apellidos de no menos de tres científicos franceses y de más de tres rusos que contribuyeron notablemente al desarrollo de la probabilidad. b) ¿De qué país fueron la mayoría de los pioneros de la estadística moderna? c) ¿Cuáles de las civilizaciones antiguas practicaban actividades estadísticas desde hace miles de aiios? Diga de dónde proviene el significado etimológico de cada una de las siguientes paiabras: estadística, aleatorio, azar y estocástico. Xuái es, a grandes rasgos, la esencia de los métodos estadísticos bayesianos (a diferencia de los métodos clásicos o frecuentistas) y por qué se llaman bayesianos? La media de cinco números es 8.8. Cuatro de esos números son 6 , 7 , 8 y 9. ¿Cuál es el quinto número? Cuatro números están ordenados de menor a mayor. El número que ocupa el tercer iugar es 2.4 y se sabe que la mediana es 2.35. ¿Cuál es el número que ocupa el segunbo lugar? Roporcione un redondeo correcto a cuatro dígitos decimales después del punto, para cada uno de los siguientes números:
4:
1
30
Cap. 1. Introducción
9. En una lista de seis números había uno al que le cayó una mancha de tinta y era imposible saber qué número era. Los restantes cinco números eran 0, 3, 1, 8 y 12. Averigüe, en cada caso, cuál debe ser el número faltante, si además se sabe que: a) 6)
la media es 8 la moda es 8.
10. En un puesto de tacos había 10 trabajadores que comían. Cada uno de ellos ganaba
un sueldo de cuando mucho 1.5 veces el salario mínimo. Casualmente pasó por ahí Carlos Slim, el millonario más rico de toda Latinoamérica, para comerse unos tacos. Un becario de estadística hizo una encuesta entre los 11señores acerca de sus respectivos ingresos mensuales. ¿Cuál medida de tendencia central sería más representativa de los ingresos promedio de esos 11señores: la media, la mediana o la moda? 11. Considere el conjunto de números {2.3,2.4,2.5,2.6,2.7, 2.8,2.9}. Seleccione cuáles de esos números valen: a) cuando menos 2.5 6) cuando mucho 2.5 C)
más de 2.7
4 menos de 2.8 e)
por lo menos 2.8.
En los ejercicios 12 a 16, use una hoja de cálculo de Excel (o una calculadora de bolsillo) y halle, para cada conjunto de números: a) la media, ¿) la moda, c) la mediana y d ) el rango. Si usa decimales, exprese su resultados con redondeos correctos a cuatro dígitos después del punto decimal.
17. De cierto individuo, se dice que hay que creerle la mitad de lo que dice, y de lo que queda hay que poner en duda las tres cuartas partes. ¿Qué porcentaje del total de cosas que afirma hay que poner en duda? 18. De los ocho números del conjunto del ejercicio 14, señale cuáles de ellos valen: a)
menos de
6
fi no más de f i d ) cuando más f i e ) más de f i f) exactamente fi. 6)
por lo menos
C)
19. En una encuesta realizada entre 10 personas, se afirmó que cuando más cuatro de ellas se opondrían a cierta reforma. Explique si resultó falsa la afirmación, si al final se halló que la mitad de ellas se opusieron a la reforma. 20. Suponga que hay 6 mil millones de personas en el mundo, que en México hay 110 millones de personas, que en el mundo hay 500 millones de católicos, y que en México hay 80 millones de católicos. Exprese, con un redondeo decimal de sólo dos dígitos después del punto, los siguientes porcentajes:
a) el porcentaje 6) el porcentaje c) el porcentaje d ) el porcentaje e) el porcentaje f) el porcentaje
de mexicanos que son católicos; de católicos que son mexicanos; de no mexicanos que no son católicos; de personas en el mundo que no son católicas; de personas del mundo que no son mexicanos; de mexicanos que no son católicos.
21. Considere el siguiente conjunto:
Use una calculadora de bolsillo (o Excel) para haiiar: a) 6)
la media la mediana
32
Cap. 1 . Introducción
c) la moda
4 el rango. En cada caso, se requiere redondear las respuestas a cinco dígitos después del punto decimal. 22. Con respecto a los 12 números del ejercicio 21, diga qué porcentaje de ellos valen:
6 b) al menos 6 no menos de 6
a) menos de
C)
d) m á s d e 6 e)
fi
no más de
6
aiomásJS
g) exactamente
6.
Debe redondear los porcentajes que obtenga a dos dígitos después del punto decimal. 23. Exprese cada uno de los 12 números del ejercicio 21 en notación decimal con un redondeo correcto después del punto de:
a) tres dígitos 6 ) cuatro dígitos e ) seis dígitos. 24. En una oficina hay 120 computadoras personales, de las cuales 80 tienen procesador Pentium IV y 40 tienen procesador Celeron. De las Pentium hay 50 con quemador de discos compactos y 30 que no tienen quemador. De las Celeron hay 30 con quemador y 10 sin quemador. Obtenga los siguientes porcentajes, con un redondeo correcto de s610 dos dígitos después del punto decimal:
a) iQué porcentaje del total de computadoras tienen quemador? 6) iQué porcentaje de las computadoras que no tienen quemador es Pentium IV? E) ¿Qué porcentaje de las Pentium IV no tienen quemador? d ) iQué porcentaje de las Celeron tienen quemador? e) ¿Qué porcentaje de las que tienen quemador son Celeron? 25. Proporcione un conjunto de cuatro números enteros tales que su rango sea 2, y tanto la media como la mediana y la moda sean iguales a 7. 26. La media de un conjunto de seis números es 10. Cinco de esos números son los siguientes: 1,7, 11, 13 y 17. ¿Cuál es el número que falta? 27. En un bar-disco hay 150 personas adultas, de las cuales 80 son mujeres y 70 hombres. De las mujeres hay 30 que fuman y 50 que no fuman; de los hombres hay 20 que fuman y 50 que no fuman. Obtenga, con precisión de dos dígitos decimales después del punto y con redondeo correcto, los siguientes porcentajes:
a) ¿Qué porcentaje de los fumadores que hay ahí son mujeres? 6) iQué porcentaje de las mujeres que hay ahí fuma? c) iQué porcentaje de los no fumadores que hay ahí son hombres? 4 iQué porcentaje de las personas de ese lugar fuman o son mujeres?
Ejercicios complementarios 1 . 1
33
28. En una muestra de 480 conductores de automóvil se halló que 400 tenían licencia
para conducir y los otros 80 no la tenían. De los que tenían licencia había 300 que aprobaron un examen básico sobre el reglamento de tránsito y los otros 100 lo reprobaron. De los que carecían de licencia sólo 30 aprobaron ese examen.
a) ¿Qué porcentaje de los que tenían licencia aprobaron el examen? 6) ¿Qué porcentaje de los que aprobaron el examen tenían licencia para conducir? c) ¿Qué porcentaje de los automovilistas no aprobaron el examen básico sobre el reglamento de tránsito? 29. En la empresa Oflce M a x de Avenida Insurgentes Sur vendieron 40 impresoras durante un mes. El mes anterior habían vendido 80 impresoras. ¿Cuál fue el porcentaje de disminución de sus ventas de impresoras? 30. Una señora vende quesadillas a $4.50 cada una. Si ella busca una ganancia neta de 50 % en sus ventas, ¿cuál debe ser el costo de su inversión en materias primas y trabajo por cada quesadilla? 31. Un joven comerciante vendió 200 tamales durante una semana. ¿Cuántos tamales más deberá vender la próxima semana para obtener un incremento de 25 %? 32. Una mujer colecciona figuriilas antiguas de porcelana. Compró dos, pero al verse sin dinero tuvo que venderlas apuradamente. Las vendió en $ 6000 cada una. En una ganó 20 % y en la otra perdió 20 %. ¿Ganó o perdió la mujer dinero en la operación? ¿Cuánto? 33. El director de una empresa ofrece a sus nuevos empleados un sueldo de $160 000 anuales pagaderos por semestres. Si el trabajo de los empleados es satisfactorio, les propone un posterior aumento de sueldo a elegir: de $30000 anuales o de $10000 cada semestre. ¿Qué opción es más ventajosa para los empleados si tienen garantizado un contrato de por lo menos tres años? 34. Una señora puso una fonda para comida corrida barata. Durante la segunda semana de operación, vendió 168 comidas, lo cual significó una disminución de 4 % con respecto a la primera semana. ¿Cuántas comidas vendió durante la primera semana? 35. Los señores A y B son dos fabricantes de refrigeradores que anuncian que la vida "promedio" de sus respectivos productos es de siete años, aunque no mencionan a qué tipo de promedio se refieren. En una muestra aleatoria de 20 refrigeradores fabricados por el señor A se comprobó que la vida útil (en años) de estos productos (ordenados de menor a mayor) fue la siguiente sucesión de números: 5,5,5,6,6,6, 6, 7, 7,7,7, 7, 7, 8, 8, 8,8, 9,9,9. En cambio, una muestra aleatoria de 20 refrigeradores fabricados por el señor B produjo la siguiente sucesión de números (vida útil en años y ordenados de menor a mayor): 2,3,4, 5, 5,5,5,6,6,6,7,7,7,7,7,8,8,20, 20,20. a) ¿Cuál medida "promedio" señaló cada fabricante? 6) ¿Cuál refrigerador representaría la mejor inversión? c)
¿Con cuál refrigerador se sentiría usted más seguro al afirmar que su vida "promedio" es de siete años?
Cn distribuidor de libros compra ejemplares de cierta obra a $150 cada uno y los vende al público a $200 c:a& ejemplar. Especifique su porcentaje de ganancia utiliíando como base:
4 su costo 6) el precio de venta.
34
Cap. 1 . Introducción
En cada uno de los ejercicios 37 a 41, use Excel para dibujar un diagrama depay (o de pastel) que represente la distribución porcentual de los datos cualitativos o categóricos en cada caso. No olvide que la respuesta se pide en porcentaje. 37. En una encuesta sobre los medios predilectos para enterarse de las noticias en un grupo de 450 adultos, se obtuvieron los siguientes datos: 210 dijeron que la televisión, 130 dijeron que los periódicos (o diarios), 57 dijeron que la radio, y 53 dijeron que no les interesaban las noticias. 38. En una encuesta realizada a 650 personas adultas en el Distrito Federal se les preguntó qué tipo de vivienda habitaban: 245 dijeron tener vivienda propia, 190 tenían vivienda rentada, 160 habitaban un predio irregular, 50 vivían en casas prestadas por parientes o convivían con familiares y cinco vivían en otro tipo de vivienda (hoteles, casas de huéspedes, conventos, albergues, etc.). 39. En marzo de 2004, se realizó una encuesta en la ciudad de Guadalajara para preguntar a 450 personas adultas qué tipo de remedio buscaban cuando se enfermaban, con las siguientes respuestas: 190 dijeron que consultaban a un médico, 150 se automedicaban, 70 le pedían ayuda al dependiente de la farmacia, 24 dijeron que recurrían a hierbas o remedios indígenas, ocho dijeron recurrir a la brujería y otros ocho dijeron que no hacían nada más que rezar y esperar a sanarse solos. 40. En una universidad se realizó una encuesta entre 700 profesores y estudiantes, y se les preguntó cuál consideraban que había sido la causa verdadera de la invasión anglo-estadounidense a Irak. De éstos, 360 contestaron que la ambición por sustraer el petróleo de ese país, 185 dijeron que era una excusa para poder usar el superávit de armas acumuladas, 80 manifestaron que era el combate o la prevención del terrorismo, 50 dijeron que era una especie de venganza personal del presidente estadounidense por cuentas pendientes con Saddam Hussein, y 25 dijeron que no sabían o prefirieron no opinar. 41. En 1866, el monje y botánico austriaco Johan Gregor Mendel (1822-1884) realizó experimentos sobre la hibridación de plantas, para investigar los caracteres dominantes y recesivos en la herencia. De un total de 556 chícharos (guisantes) que cultivó mediante cruzas, observó que había 315 lisos y amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes. 42. En una familia tanto el padre como la madre trabajan, y sus ingresos mensuales conjuntos netos ascienden a $23200 mensuales. Al hacer cuentas, la señora observó que en su familia los gastos mensuales promedio (en pesos) se distribuyen de la siguiente manera: alimentación $3800; vestido $2000; colegiaturas $6700; renta, impuestos y servicios $8500; otros, $2200.
Antes de pasar al siguiente capítulo, le encomendamos al estudiante la siguiente tarea. 1. Consiga en su biblioteca local (o trate de localizar en alguna biblioteca pública o en
una librería de libros viejos) un ejemplar de un antiguo libro de Daryl Huff: How to 1Ze with Statistics (Cómomentir con las estdsticas), W W Nonon, Nueva York, 1954. Seleccione y comente cinco tipos de abusos de la estadística de ese libro que le hayan llamado la atención. 2. Use un buscador de Internet (como Google, por ejemplo) para hallar más ejemplos de abusos de la estadística y de hechos falsos que aparentemente son "demostrados" con estadísticas.
re-
. ,i
Cuando se dice, quizá de manera simplista, que la estadística es el arte de organizar, presentar e interpretar conjuntos de datos o información de interés para el usuario, en realidad se hace referencia a s610 una parte de la estadística, que es la estadística descriptiva. La mayoría de las veces, los datos son de tipo numérico (o cuantitativo), lo que permite realizar operaciones aritméticas con ellos. Además, la naturaleza de los datos puede ser muy variada; por ejemplo, podría tratarse de un conjunto de números que representan las duraciones (en minutos) de varias conferencias telefónicas, de las calificaciones de una prueba o examen, de los pesos (en gramos) de un gran número de limones o de los contenidos de aceite de varios recipientes similares. Si los datos que se tienen son demasiado numerosos, a menudo resulta preferible agruparlos primero en clases (o grupos), antes de someterlos al análisis estadístico. Ello lo haremos en el capítulo 3, que trata de los métodos de estadística descriptiva para datos agrupados. Si los datos son individuales (o aislados) su manejo estadístico se expondrá en esta lección y en la siguiente. Antes de abordar las fórmulas y ejemplos al respecto, es pertinente dar un breve glosario de términos usuales, que iremos intercalando con algunas explicaciones o ejemplos.
A continuación se describen algunos de los términos más importantes y usuales en estadística.
38
Parte l. Gtadística descriptiva
Población. Se llama así a la totalidad de los elementos de interés en determinado estudio. Por regla general, una población tiene un número grande (puede ser muy grande o incluso infinito) d e elementos, aunque ello no es indispensable. De hecho, una población de sólo dos elementos puede ser válida al menos en teoría, aunque sería de escaso o nulo valor estadístico. Los términos grande ypequeño son usuales en estadística, si bien no hay una demarcación precisa d e dónde termina lo pequeño y dónde empieza lo grande. Por ejemplo, un profesor de estadística con sólo 20 alumnos en su grupo puede considerar que su grupo es aún pequeño, pero con 28 o 30 alumnos (o más), podría decir que le tocó un grupo grande. En estadística, la demarcación es análoga a la de este ejemplo. Un conjunto de 25 o 27 elementos está más o menos en los límites entre lo pequeño y lo grande. Un conjunto de 30 o más definitivamente se considera grande. Muestra. Es un subconjunto cualquiera de la población. Si dicho subconjunto se selecciona de manera totalmente aleatoria, entonces se llama muestra aleatoria. Por regla general, cuando hablamos de "muestra", nos referimos a una muestra aleatoria. Si en un grupo d e alumnos hay, por ejemplo, 32 miembros y se desea escoger una muestra aleatoria d e cinco de ellos, una manera posible de hacerlo sería elegirlos por número de matrícula o de lista, o bien anotando los respectivos nombres en 32 pequeños papeles que se doblan y se meten a un frasco, para entonces extraer cinco de esos papeles al azar y leer los nombres de los elegidos. En este mismo ejemplo, es obvio que hay dos maneras d e extraer los cinco papeles del frasco: la primera (y más natural) sería hacerlo sin reposición, es decir, cada papel que se saca del frasco ya no se vuelve a introducir en él; y la segunda sería hacerlo con reposición, esto es, se saca un papel, se anota el nombre en una hoja, luego se dobla y se vuelve a meter en el frasco antes de sacar el siguiente, hasta sacar así los cinco papeles. Nótese que en el muestre0 con reposición cabe la posibilidad de que un mismo elemento (en este caso un alumno) sea tomado en cuenta dos o más veces. Como veremos más adelante, el acto d e seleccionar la muestra con reposición o sin ella, produce diferentes fórmulas y diferentes valores numéricos para las magnitudes de interés. Sin embargo, si la población es mucho muy grande en comparación con la muestra, tal diferencia es prácticamente irrelevante, lo cual es además obvio: si usted le quita una cubeta de agua al mar, o incluso a una piscina, para el caso da lo mismo si es con reposición o sin ella. Una muestra se considera grande si tiene más de 25 elementos (algunos autores prefieren usar la cifra de 30); en caso contrario, se considera como muestra pequeña. No se acostumbra usar el término regular para algún tamaño específico de muestra. En estadística descriptiva, el hecho de que la muestra sea grande o pequeña carece d e importancia, ya que las fórmulas y los métodos son válidos en general; sin embargo, en inferencia estadística, los métodos y las fórmulas que se van a usar dependen a menudo, entre otras cosas, de que la muestra sea grande o pequeña. Desde luego, las muestras muy pequeñas (por ejemplo, de uno o dos elementos) extraídas d e una población grande tienen poco o nulo valor desde el punto de vista estadístico. Siempre es deseable que el tamaño d e la muestra sea lo más grande posible, porque ello aumenta la precisión d e los resultados y las
Cap. 2. Manejo de datos aislados
39
conclusiones. En inferencia estadística, hay fórmulas para determinar el tamaño óptimo de una muestra. Con frecuencia, tomar una muestra demasiado grande implica costos importantes, y el incremento en la precisión de los resultados es mucho menor de lo que uno podría pensar. También resulta esencial que el muestreo sea totalmente aleatorio. Por ejemplo, si usted desea averiguar qué porcentaje de la basura de una gran ciudad es vidrio, papel, plástico, desechos orgánicos, etc., y toma una muestra de basura en la esquina donde un señor hace jugos de naranja todas las mañanas, entonces seguramente llegará a la conclusión de que 90 % o más de la basura de la ciudad está formada por cáscaras de naranja, lo que es obviamente una inferencia equivocada, basada en un muestreo inadecuado. Parámetro. Es la característica numérica de una población. En términos más amplios y fuera del ámbito de la estadística, se liamaparámetm a una cantidad que permanece constante en un problema particular o una situación específica, pero que es variable en distintas situaciones o diferentes problemas. El típico ejemplo de un parámetro es el radio de un círculo o la pendiente de una recta. Cuando se estudian una o varias poblaciones, algunos parámetros tienen una importancia central en el análisis estadístico. Ellos los definiremos más adelante en su momento, y aquí sólo mencionaremos algunos de los parámetros más útiles con que trabajaremos en las lecciones posteriores, aunque no tengan ningún sentido por ahora para el lector: media, varianza, mediana, moda, desviación media, desviación estándar, cuartiles, deciles, proporción, coeficiente de correlación, covarianza,coeficiente de determinación, error estándar de una predicción, etc. Toda esta jerga de palabras raras y muchas otras por el estilo son sólo algunos de los ejemplos más importantes de los parámetros, que, sin exagerar, son los que hacen posible y le dan sentido a la estadística. Los métodos estadísticos que no emplean el concepto de parámetro ni el concepto de distribución son de menor importancia y se llaman métodos no paramétricos. Muchos de los parámetros que se estudian en estadística suelen denorarse por letras griegas minúsculas, aunque en algunas ocasiones se suelen emplear también letras latinas minúsculas. Estadístico. Es la característica numérica de una muestra. Esto significa que el estadístico es a la muestra como el parámetro a la población. Por regla general, se usan letras latinas minúsculas para designar un estadístico, o a veces son letras que tienen algún pequeño signo arriba, como una raya o un acento circunflejo. Cada parámetro de una población tiene su contraparte muestral, que es un esW t i c o . A menudo se denota el primero por una letra griega y el segundo por h letra latina correspondiente, mas no siempre es el caso. Algunos autores se refieren a un estadístico como un estadígrafo o una estadística (en femenino), pero ello es más bien raro. Estimador. Muy a menudo, la función de un estadístico consiste en estimar (O aproximar) el valor inaccesible o desconocido de un parámetro de la población. En tal caso, el estadístico recibe el nombre de estimador Agrosso modo, un estimador se llama insesgado si al considerarlo muchas veces, con diversas muestras & la misma población, los valores que se obtienen de él son tales que su prome&o (media) tiende a ser igual al valor del parámetro mismo que se desea estimar, 3 medida que se toman más y más muestras de la misma población. La palabra
40
Parte l. Estadística descriptiva
insesgado significa más o menos simétrico, imparcial, centrado o equilibrado. Hay además otras propiedades que pueden tener los estimadores, como ser consistentes y ejcientes, pero ellas se tratan en cursos de estadística para ingeniería o de estadística matemática, en los capítulos dedicados a la teon'a de la estimción. Ejemplo 2.1. Podemos ilustrar este punto con un ejemplo sencillo. Supongamos que la población consiste del conjuntoA = (1,3,7). El promedio de estos tres elementos 11 11 es -. Denotemos a este parámetro por la letra griega p,esto es, p = - y digamos que 3 3 este parámetro es la media de la población. Ahora bien, vamos a tomar muestras de tamaño dos a esta población, primero con reposición y luego sin ella. En el primer caso, el total de muestras posibles es contemplado como el total de permutaciones o variaciones con repetición de tres objetos tomando dos a la vez: (1, 31, (3, 11, (1, 71, (7, 11, (3, 71, (7, 31, (1, 11, (3, 3) y (7, 7). Denotemos por F, ..., F9 a los estadísticos que denotan los promedios respectivos de cada una de estas nueve muestras, los cuales forman el siguiente conjunto (llamado distribución muestra1 de medias): (2, 2, 4, 4,
33 11 5,5,1,3,7).El promedio (media) de estos valores es -=- ,el cual coincide con el va-
9 3 lor del parámetro que se deseaba estimar. Por tanto,. para muestras de tamaño dos con remplazo en el conjunto A, el estadístico F resultó ser un estimador insesgado del parámetro p. Se puede demostrar que esto es verdad para cualquier población y cualquier tamaño de muestra, con reposición o sin ella. Como ejercicio, el estudiante deberá comprobar esta aseveración para el mismo conjunto, tomando ahora las tres muestras de tamaño dos sin reposición: {1,3), {1,7) y {3,7) (puede hacerlo mentalmente).
Frecuencia relativa. Provisionalmente, se puede usar el concepto de frecuencia relativa como un sinónimo de laprobabilidad de ocurrencia de un suceso, es decir, el número de veces que ocurrió el suceso entre el número total de datos. Por ejemplo, si las calificaciones finales que reporta una maestra de inglés que tiene sólo ocho alumnos son {7,8, 9, 6, 6,8, 8, 101, la frecuencia relativa de cada una de sus calificaciones es la que se describe en la siguiente tabla:
ficación L
Frecuencia relativa 2
Porcentaje -C
n
Obsérvese, en este caso, que la población de las calificaciones posibles que asignó la maestra forma el conjunto ( 6 , 7, 8, 9, lo}, pero estos números tienen
Cap. 2. Manejo de datos aislados
41
diferentes frecuencias relativas, así que sería un error grave pretender que el promedio d e calificaciones del grupo es la suma d e estos cinco números dividida entre cinco
(+
= 8).
Para obtener el verdadero promedio (media) d e las califica-
ciones del grupo es menester ponderar cada dato por su correspondiente frecuencia relativa, así: 2 1 3 1 1 Mediaopromedio: p = 6 ~ - + 7 X - + 8 ~ - + 9 ~ +10X-=7.75 8 8 8 8 8 La frecuencia relativa no conviene expresarla en porcentaje, sino como fracción o proporción de la unidad. Por ejemplo, una frecuencia relativa de 75 % se expresa mejor como 3/4 O como 0.75.
Varios d e los parámetros de una población o varios de los estadísticos de una muestra miden la tendencia central o fungen como especie de promedios. Esos parámetros o estadísticos se llaman medidas de localización o medidas de tendencia central. Los más importantes son la media, la mediana y la moda. El hecho d e que se usen varias medidas de tendencia central y no s610 una, obedece a que todas ellas tienen distintos usos estadísticos, así como diferentes ventajas e inconvenientes. Sin embargo, el parámetro de localización más útil e importante es con mucho la media o valor esperado. En el ejemplo sobre las calificaciones que reportó una maestra de inglés, se calculó la media sumando los productos de cada observación o dato por su correspondiente frecuencia relativa. Así es exactamente como se hace en el caso general, y esto se define a continuación. Media (poblacional). Si una población consiste de n datos: {x,, x2, . .. , xn), con respectivas frecuencias relativas dadas por p,, p,, ... , p,,, la media (media poblacional) de las observaciones se define como p = xlp, + x& + ... + ~ 2En~ este: caso, es importante notar que la suma de todas las frecuencias relativas debe ser la unidad, es decir, p, + p, + - . . + p,, = 1. En el ejemplo de las calificaciones, la población era el conjunto (6, 7, 8, 9, 101, y 2 1 3 1 1 las respectivas frecuencias relativas - - - - y -. Queda claro que la suma 8'8'8'8 8 de todas estas frecuencias relativas tiene que ser 1 (esto es, 100%),ya que lo contrario implicaría que hay alguna calificación reportada por la maestra que no está considerada en la lista. La única desventaja d e la media como parámetro de la tendencia central consiste en que si la población no es muy grande, su valor puede verse afectado por observaciones extremas. Por ejemplo, durante la Copa Mundial de Futbol en Corea y Japón, 2002, las respectivas diferencias d e goles entre los dos equipos que disputaron cada uno de los partidos de la primera jornada (31 de mayo al 3
42
Parte l. Gtadktica descriptiva
de junio) formaron el siguiente conjunto: { 1 , 1 , 1 , 0 , 1 , 2 , 2 , 1 , 0 , 8 , 1 , 0 , 2 , 1 , 0 , 2 ) . Esto se puede escribir en forma de tabla:
Así, el valor promedio (media) de este conjunto de datos, tomados como una población, es:
Sin embargo, si no se hubiera tomado en cuenta el único partido que p dujo una diferencia extrema de goles (Alemania 8-Arabia Saudita O), hul%écxms tenido sólo un conjunto de 15 datos con un promedio (o media) exacto d e
)
(O) - +(l)
)
-
+(2)
[R)
- =1
Esto significa que, de no haber sido por el resultado del encuentro entre Alemania y Arabia Saudita, se hubiera registrado exactamente un promediode un gol de diferencia en cada uno de los 15 partidos. Un valor extremo muyrliFímíf al resto de las observaciones de la población (como en este caso) se liama d d s t i c a . Como vemos en este ejemplo, cualquier anomalía ziiizaa considerablemente el valor de la media poblacional, a menos que el cmra& de la población sea lo bastante grande como para que tal anomalía no se nae Rx esta razón, en las competencias olímpicas de clavados y gimnasia, ames deel promedio de calificaciones de los jueces, se eliminan las punma&aes má6 a ! y más baja (media ajustada, o en inglés: trimmed mean). En general, cuando se habla de un promedio, se hace r e f m te a la media, tal y como se acaba de definir, así que los términos mediaydio se toman como sinónimos. Sin embargo, hay otros parámetros que & ZQÚO modo, también representan una especie de valor "promedion de k s cbmexie nes. Éstos los veremos a continuación.
Cap. 2. Manejo de datos aislados
43
Moda. Se llama así al dato (o datos) de la población que tienen la máxima frecuencia relativa. En nuestro ejemplo de las calificaciones reportadas por la maestra
3
de inglés, la moda es 8, porque su frecuencia relativa, es decir, - , es la mayor 8 de todas. Por supuesto, puede ocurrir que dos o más datos de la población califiquen para ser modas, en cuyo caso se dice que el conjunto de observaciones es bimodai o multimodai, respectivamente. También puede suceder que la moda simplemente no exista. En el ejemplo de las diferencias de goles en los 16 partidos de futbol, la moda
[ )
: es la mayor de la taes con toda claridad 1, ya que su frecuencia relativa 6bla. En este caso, vemos que el valor de la moda da una idea mucho más realista de la verdadera diferencia "promedio" de goles, sin verse afectada por el dato extremo o anómalo del encuentro entre alemanes y árabes. Hay muchos símbolos diferentes para denotar la moda, pero los más usuales son m. y M. Nosotros emplearemos el primero de ellos. Mediana. Es el dato intermedio en cuanto a tamaño; es decir, si se ordenan todas las observaciones en orden creciente, la mediana será aquel dato que tenga igual número de observaciones a mano izquierda que a mano derecha. Si ello no es posible por tratarse de un número par de datos, entonces hay dos datos que cumplen con esa condición, y la mediana es el promedio de ambos. Veamos, por ejemplo, cómo podríamos calcular la mediana en cada uno de los ejemplos que se examinaron líneas arriba. En el caso del conjunto de calificaciones, dicho conjunto era: (7, 8, 9, 6, 6, 8, 8, 10). Se ordenan de menor a mayor: 6, 6, 7, 8, 8, 8, 9, 10. Hemos marcado con tipo negrita los dos datos que quedan en medio. El promedio aritmético de ambos es, obviamente, 8. Por tanto, la mediana es 8. En el segundo ejemplo (diferencias de goles en cada uno de los 16 encuentros de futbol de la primera jornada de la Copa del Mundo), se tenía el siguiente conjunto: (1, 1, 1, 0, 1,2, 2, 1 , 0 , 8 , 1,0, 2, 1,0,2). Ordenados quedan así: O, 0,0,0, 1,1, 1, 1,1, 1 , 1 , 2 , 2 , 2 , 2 , 8 .También se han escrito con tipo negrita los dos datos que quedan en medio, cuya media aritmética es, naturalmente, 1. En consecuencia, la mediana es 1.Aquí vemos que tampoco la mediana se ve afectada por resultados extremos o anómalos. Hay varias notaciones para la mediana. Las más usuales son m , 2 y xo,. NOsotros emplearemos la primera de ellas. Media muestrai. En principio, se calcula exactamente igual que la media poblacional excepto que, como en la mayoría de los casos la muestra se toma sin remplazo, ocurre que todos los elementos de una muestra son diferentes, así que cada uno tiene la misma frecuencia relativa al seleccionar la muestra. Por ejemplo, si el conjunto {x,, x,, . .. ,xn) consiste de una muestra sin remplazo de n elementos tomados de una población más grande, entonces todos son diferentes, y por tanto, todos tienen la misma oportunidad de ser elegidos, es decir, 1 todos tienen la misma frecuencia relativa -. La media (promedio) de ellos es, n entonces:
Por fortuna, en este caso el símbolo Z, o bien es más o menos universal en todos los libros y calculadoras de bolsillo. La media muestral se llama a menudo también media aritmdtica. Nótese que la media muestral (2)es un estadístico, mientras que la media poblacional 0-1) es un parámetro. Obsérvese también que en una muestra podrían tomarse la mediana (muestral) o la moda (muestral), pero estos últimos estadísticos tienen poco o nulo valor en la teoría y en la práctica, así que nadie los usa.
Hay también parámetros y estadísticos que miden el grado de dispersión (o de heterogeneidad) de las observaciones con respecto a su valor promedio. La necesidad de tales parámetros es evidente si consideramos el siguiente ejemplo. Consideremos a dos maestras: A y B. Supongamos que la señoritaA es una maestra de francés con siete alumnos, cuyas calificaciones finales forman el conjunto: {8,9,8,8,7,8,8).Podemos ver con facilidad que la media es 8 (también el 8 es la mediana y la moda), pero además que hay muy poca variabilidad (o desviación) de los datos con respecto a la media. La señorita B es otra maestra de francés de la misma escuela, que también tuvo a su cargo a siete alumnos y reportó las siguientes calificaciones finales: {5,9,8,4,10,10,10).Aquí también ocurrió que la media de calificaciones es 8 (se puede apreciar que la mediana es 9 y la moda es 10). En el caso de la señorita B, la media de sus notas da una idea mucho más clara que la moda o la mediana, acerca de lo que más o menos ocurrió con sus calificaciones; no obstante, hace falta un parámetro que arroje más información acerca de las altas desviaciones (con respecto a la media) que se registraron en varias de las notas: desde luego, el 8 y el 9 tienen pequeñas desviaciones del promedio, pero los otros cinco datos tienen desviaciones considerables del 8. De hecho, el conjunto de las desviaciones de la media (xi - p.) es el siguiente: {-3,1, 0, - 4 , 2 , 2 , 2 ) . En cambio, con la señorita A, el conjunto de las desviaciones de la media es {O, 1,0,0, -1,0, O). En términos generales (es decir, en conjunto), hubo más desviaciones con la señorita B que con la A. Quizá a alguien se le podría ocurrir idear un-parámetro que fuese el promedio de las desviaciones, es decir, la suma algebraica de todas las desviaciones dividida entre 7, pero es fácil ver que ello no funciona, ya que en ambos casos la suma de las desviaciones da cero, porque las negativas se neutralizan con las positivas. Podemos evitar este defecto de dos maneras: tomando el promedio de los cuadrados de las desviaciones, o bien tomando el promedio de los valores absolutos de las desviaciones. En el primer caso, tenemos lo que se llama varianza (o también variancia o d i ~ p ~ ó nmientras ), que en el segundo caso se llama desviación media. Estos conceptos los definimos enseguida. Varianza (poblacionai). La varianza (también llamada dispersión o variancia) de un conjunto de datos X = {x,, x,, ... ,x,,) que forman una población que
Cap. 2. Manejo de datos aislados
45
se va a estudiar es el promedio de los cuadrados de las desviaciones de los datos con respecto a su media. Si todos los datos x,, x,, ... ,x,, son distintos y cada uno de ellos tiene fre1
cuencia relativa 2, entonces la varianza se calcula así: n
Sin embargo, si las observaciones x,, x,, .. . ,x, tienen frecuencias relativas p1,p2,.. . ,pn,respectivamente, entonces la varianza se calcula así:
Los símbolos 02, Var(X) o bien V(X) son los más usuales para denotar la varianza. Nosotros usaremos el primero. La varianza es un excelente parámetro de dispersión, pero tiene dos pequeños defectos: el primero es que su valor queda casi siempre muy inflado por el hecho de haber elevado las desviaciones al cuadrado, pero el segundo y más serio es que no tiene unidades razonables para medirse. Por ejemplo, si los datos originales están en pesos o dólares, entonces'la varianza se mide en pesos al cuadrado o dólares al cuadrado, lo cual no tiene sentido práctico. Es deseable tener un parámetro de dispersión que se mida en las mismas unidades en que están medidos los datos originales. Por esto se introduce otro parámetro de dispersión que se llama desviación estándar (o desviación t@ica). Desviación estándar. Se llama desviación estándar (o también desviación cuadrática media o desviación típica) a la raíz cuadrada no negativa de la varianza, y se denota por el símbolo o. Otro parámetro de dispersión utiliza valores absolutos de las desviaciones y se define a continuación. Desviación media La desviación media (también llamada desviación promedio de la media) de un conjunto de datosX= {x,,x,, .. . ,xn) que forman una población que se va a estudiar es el promedio de los valores absolutos de las desviaciones de los datos con respecto a su media. Hay varios símbolos para denotar este parámetro, tales como dm o bien d,. Aquí emplearemos el primero. La desviación media se calcula entonces de la siguiente manera:
si todos los datos x,, x,, .. . ,x, son distintos y cada uno tiene frecuencia rela1 tiva -. n En caso de que todos los datos x,, x,, ... , x,, sean distintos y tengan frecuencias relativas p,, p,, ... ,p,, respectivamente, entonces la desviación media se calcula así:
Desviación promedio de la mediana Es el promedio de los valores absolutos de las desviaciones de los datos con respecto a su mediana. Se suele denotar por el símbolo d,. Se calcula entonces como sigue:
si todos los datos x,, x,,
'
... ,xnson distintos y cada uno tiene frecuencia rela-
1
tiva
.
n Para el caso en que x,, x,, ... ,x,, tengan frecuencias relativas p,, p,, ... ,p,,, respectivamente, la desviación promedio d e la mediana se calcula en la siguiente forma:
Rango. Por último, mencionaremos la medida de dispersión más primitiva de todas, el rango, y se define como la diferencia entre el mayor de los datos y el más pequeño. El rango tiene poca utilidad estadística, y su única ventaja consiste en que se calcula con mucha facilidad. En el ejemplo de las calificaciones d e la señoritaA y la señorita B, los rangos respectivos son 2 y 6. Obviamente, un rango mayor suele ser indicativo d e un mayor grado de dispersión, pero eso no siempre ocurre. Por ejemplo, en el caso de las diferencias de goles en cada uno d e los 16 partidos de la primera jornada de la Copa del Mundo 2002 (véase la sección 2.3), el rango es 8, lo que podría tentar a uno a pensar que hubo una enorme dispersión en los datos, pero eso es engañoso, ya que en general los datos fueron bastante homogéneos con respecto a su promedio, y se puede calcular fácilmente que la desviación típica es de apenas 1.836 goles.
2.5. OBTENCI~N DE LA MEDIANA CON GRAFICOS DE TALLO Y HOJAS
Cuando los datos son numerosos, resulta muy incómodo y laborioso ponerse a ordenarlos todos de menor a mayor y luego contarlos para obtener el dato intermedio, el cual es la mediana d e las observaciones. Un método más efectivo consiste en observar que la mediana siempre va a ser el elemento que ocupe el lugar (n + 1)/2, y en vez d e ordenar los datos en una fila, lo hacemos en varias filas, separadas por una línea vertical, a la izquierda de la cual se ponen las respectivas decenas y centenas de los datos (tallo), mientras que a mano derecha se anotan las respectivas unidades (hojas). Esto permite una rápida localización de la mediana y aun de la moda, como se ilustra en el siguiente ejemplo.
Cap. 2. Manejo de datos aislados
47
Ejemplo 2.2. Un equipo de baloncesto jugó un total de n = 25 partidos durante una temporada, y el número de puntos que anotaron en cada partido se registró en el siguiente cuadro:
Calcular la mediana de estos datos. Soluci6n: La mediana es el valor del dato que ocupa el lugar:
Esto es, el elemento decimotercero. Ahora escribimos una línea vertical grande (tallo) y a mano izquierda de ella escribimos los números del 1al 10 en orden ascendente. En este ejemplo particular, como los datos no son demasiados, se aprecia de un vistazo que la menor puntuación fue de treinta y tantos y la mayor de ciento y pico, por lo que el tallo tendrá s610 los números del 3 al 10, como se ilustra a continuación:
Enseguida, a mano derecha del tallo, vamos anotando las unidades de cada dato (hojas). No tiene importancia en qué orden se haga, pero hay que asegurarnos de que no falte ningún dato:
Ahora buscamos el décimo tercer dato. Como en las primeras tres filas (a la derecha del tallo) hay 10 hojas (dígitos), entonces la hoja número 13 será la tercera de menor a mayor en la cuarta fila, la cual es el dígito 2. Por consiguiente, la mediana de este ejemplo es me= 62.
48
Parte l. Estadística descriptiva
También se puede localizar con facilidad la moda. Sólo hay que observar la rama que tenga más hojas repetidas. En este caso, la única rama con hojas repetidas es la tercera, que tiene dos ochos. Por tanto, la moda es m. = 58.
Tanto las medidas de localización (media, mediana y moda) como las de dispersión (desviación estándar, varianza, rango, etc.) nos proporcionan información útil acerca de los datos muestrales e, indirectamente, acerca de la población de donde se extrajeron. Sería interesante preguntarse si tales magnitudes sirven también para comparar las características de dos poblaciones diferentes. Queda claro que si las dos poblaciones se midieran en las mismas unidades (por ejemplo, los salarios en pesos por hora de los maestros de dos escuelas diferentes), tanto las respectivas medias muestrales 2, y Z2 como las correspondientes desviaciones típicas muestrales S, y s2bastarían para hacer una comparación razonable entre las dos muestras. Sin embargo, ¿qué pasaría si se tratara de comparar dos variables aleatoriasX, yX2 que se midieran en unidades diferentes? Por ejemplo, que X, representara las estaturas (en metros y centímetros) de cierta población o grupo de hombres y X2 representara los pesos (en kilogramos) de los mismos hombres. En tal caso, podríamos tratar de comparar, de algún modo, la altura de esos hombres con respecto a su peso, pero tendría poco o ningún sentido comparar metros con kilogramos. Asimismo, si se tratara de comparar magnitudes del mismo tipo con unidades diferentes, tendríamos las mismas dificultades. Por ejemplo, si una población consiste de los pesos de 100 ballenas (en toneladas) y la otra consiste de los pesos de 100 hormigas (en miligramos), ninguna de las dos unidades (toneladas o miligramos) sería útil para comparar las características intrínsecas de ambas poblaciones, ya que la desviación estándar de los pesos de las ballenas sería enorme si se pesaran en miligramos, mientras que la desviación estándar de los pesos de las hormigas sería virtualmente cero si se pesaran en toneladas. En ambos casos, necesitaríamos un parámetro de comparación que eliminara la dimensionalidad de las variables, para que la comparación fuese independiente de las unidades usadas y al mismo tiempo nos permitiera comparar las respectivas razones entre medias y desviaciones típicas. El llamado coeficiente de variación (también llamado coeficiente de dispersión relativa) es un parámetro útil que no depende de las unidades usadas porque es adimensional, y se define de la siguiente manera: Coeficiente de variación = cv =
Desviación estándar Media
Casi siempre la comparación se hace con los respectivos estadísticos muestrales ( F , S) y no con parámetros poblacionales (p,o). Por tanto, podemos decir que el coeficiente de variación es un estadístico que se define así:
Cap. 2. Manejo de datos aislados
49
También es común multiplicar esta magnitud por 100 y medirla como un porcentaje. Si se comparan dos conjuntos de datos tomados de poblaciones distintas, el que tiene menor coeficiente de variación se considera un conjunto más consistente de datos, entendiendo como tal más homogéneo, y las respectivas unidades que se empleen en cada población no afectan esta magnitud. Ejemplo 2.3. Una mujer sale a correr todas las mañanas, y en sus registros anotó que había corrido un promedio de 14 km por semana, con una desviación estándar de 3.5 km por semana. Su vecina también sale a correr todas las mañanas y anotó en sus registros que hizo un promedio de 17.4 km por semana, con una desviación estándar de 5.2 km por semana. ¿Cuál de las dos mujeres es más consistente en sus hábitos de correr por las mañanas? Solución: Denotemos conXal número de kilómetros por semana de la primera mujer y con Y al de su vecina. Ahora calculemos los respectivos coeficientes de variación:
Como cv, < cv, se sigue que la primera mujer es más consistente que la segunda en sus hábitos de correr. Propiedades del coeficiente de variación:
1. El coeficiente de variación sólo debe calcularse y conszonszderarse cuando todos los datos u observaciones sean positivos o cuando menos cero. Recuérdese que en esencia los índices d e variabilidad nunca deben ser negativos. Si todos los datos son mayores o iguales a cero, lo cual es lo más común en la práctica, entonces todos los estadísticos Z,sxycvxsonno negativos. De hecho, la desviación estándarsxes por definición una magnitud 2 0, aun cuando algunos datos (o todos) pudiesen ser negativos. 2. El coeficiente de variación no es invariante ante cambios d e origen. Esto quiere decir que si se hace una traslación sumando una constante c (positiva o negativa) a cada valor de la variablex, entonces el coeficiente de variación de la nueva variable aleatoria Y=X+ c no será el mismo que el de la variable original X. Desde luego, ello es consecuencia del hecho de que si bien la media es invariante ante cambios de origen, la desviación estándar no lo es. Además, resulta claro que si c > O, entonces cv, < cv, mientras que si c < O, entonces ocurre que cuy> cv, Esto es muy fácil d e demostrar. En efecto, supongamos que c > 0, entonces:
3. Sin embargo, el coejcimte d e variación sí resulta ser invariante ante cambios de escala (amplificaciones o reducciones). Es decir, si c es una constante, las variables aieatorias X y Y = cX tienen ambas el mismo coeficiente d e variación. Esto se puede demostrar con facilidad si se usa la propiedad de la varianza, según la cual Var(cX) = czVar(X), ya que entonces la desviación estándar de cXes c multiplicada por la desviación estándar de X.
2.7. ERROR ABSOLUTO MEDIO Y ERROR CUADRA~COMEDIO Tanto la varianza como la desviación promedio (de la media o de la mediana) se pueden generalizar para una constante cualquiera. Empecemos por definir el error absoluto medio d e una constante a, también llamado desviación promedio de a . Desviación promedio de una constante a. En general, para cualquier constante a (puede ser positiva, negativa o cero), la desviación promedio de a (o error absoluto medio de a) se calcula así:
donde p,, p,, ... ,pnson las correspondientes frecuencias relativas de x,, x,, . . . , 1 xn.En caso d e que dichas frecuencias relativas sean todas iguales a -, la desvian ción promedio de a está dada por:
En cursos más avanzados d e estadística (por ejemplo, estadística para ingenieros o estadística matemática) se demuestra con todo rigor que el valor mínimo de la desviación promedio de una constante a se alcanza precisamente cuando a = me (la mediana), lo cual se enuncia a veces diciendo que la mediana es el parámetro que minimiza el error absoluto medio de u n a predicción. l Error cuadrático medio de una constante a. Es la generalización de la varianza. Si a es cualquier constante, el error cuadrático medio d e a , denotado por ECIM (a), se define en la siguiente forma: EGiM(a) = (x, - a)'p,
+ (x, - a)'p2+ + (xn- a)2pn
Igualmente, en cursos más avanzados se prueba que el error cuadrático medio de una constante a alcanza su valor mínimo cuando a = p (media), lo cual se enuncia a veces diciendo que la media es el parámetro que minimiza el error cuadrático medio d e u n a predicción, y dicho valor mínimo es precisamente la varianza. Para una demostración, consúltese la referencia al pie d e página.,
Cuando se toma una muestra de tamaño n de una población finita o infinita, hay un estadístico de gran importancia teórica y práctica que se llama error típico de la me'Para una demostración completa y formal, véase, por ejemplo, el libro d e Piotr M. Wisniewski y Gabnel Velasco S., Problemario depmbabilidud, Thomson International Editores, México, 2001, p. 132. ?Op.cit.,p. 131.
Cap. 2. Manejo de datos aislados
51
dia (también llamado error probable de la media o error estándar de la media) y que se denota por el símbolo Qa. Este estadístico es la desviación estándar de la distribución muestral de medias. Si la población es infinita, o tan grande que virtualmente podría considerarse como infinita, entonces no importa si el muestreo se hace con remplazo o sin él. En tal caso, el valor de este estadístico es siempre:
Si la población es finita, de tamaño N, entonces el error típico d e la media tendrá ese mismo valor sólo si la muestra se toma con reposición, es decir, como las permutaciones o variaciones con repetición de los N elementos de la población, tomando n d e ellos a la vez. Para una población de tamaño N siempre hay N" muestras diferentes con remplazo. Si el muestreo se hace sin remplazo (y ello es lo más usual y natural en la práctica), entonces el error típico d e la media viene dado por:
Para una población finita de tamaño N, siempre hay un total de: N(N-I)(N-2)..-(N-n+I) n(n-I>...l
-
N! n!(N- n)!
muestras sin remplazo. Ejemplo 2.4. Retomemos el ejemplo 2.1, en el que la población objetivo consiste del conjuntoA = {1,3,7). Recuérdese que las 9 muestras con remplazo de tamaño n = 2 son las siguientes: {1,3), {3,1), {1,7), {7,1), {3,7), {7,31, {1,1), {3,3) y {7,7). Consideremos de nuevo el conjunto que se compone de las respectivas medias de estas muestras: (2, 2, 4, 4, 5, 5, 1, 3, 71, es decir, la distribución muestral de medias para muestras con reposición de tamaño n = 2. Contemplemos ahora este último conjunto como una nueva población y procedamos a calcular su desviación estándar, denotada por a.: Para hacerlo, hagamos primero una tabla de los números distintos que hay en este conjunto, junto con sus respectivas frecuencias relativas:
28
Con ayuda de una calculadora de bolsillo (o con Excel) hallamos que o: = -=3.i. 9 Por consiguiente, extrayendo raíz cuadrada:
Ahora comparemos este número con la desviación estándar de los datos de la población original: {1,3,7).Calculamos primero la varianza:
Extrayendo raíz cuadrada se obtiene:
Comprobamos entonces que:
Como ejercicio d e rutina, proponemos ahora al estudiante que para esta misma población A = {1,3,7) haga una lista de las tres posibles muestras d e tamaño 2 sin reposición, luego calcule la distribución muestra1 de medias y la desviación estándar de la distribución muestra1 de medias, es decir, 05.En este caso, el tamaño d e la población es N = 3 y el tamaño de cadainuestra es n = 2. Compruebe que se verifica entonces la identidad siguiente:
(Este será el ejercicio 13 de la autoevaluación.)
Con frecuencia, en el trabajo estadístico (y en matemáticas en general) se requieren sumas de un número considerable de términos. Para eso se usa, a modo de taquigrafía o abreviatura, la letra griega mayúscula sigma (E) asociada a algún índice mudo, es decir una letra, generalmente i,j o k (no importa cuál sea), que indica cuál es la variable sobre la que actúa la suma. Debajo del símbolo de sigma se indica desde qué valor de ese índice mudo empieza la suma, y arriba del símbolo d e sigma se escribe un número pequeño que indica hasta dónde se efectúa la suma. De esta manera, se obtiene una escritura breve y se evitan puntos suspensivos. Por ejemplo, supongamos que se desea abreviar la escritura de la siguiente suma:
Podemos abreviar esta suma así:
donde se ha usado la letra i como índice mudo. Por supuesto, podríamos haber empleado cualquier otra letra como índice, por ejemplo, la letra k o la letra r, en cuyo caso se habría escrito, respectivamente: c a b obien z a r
Veamos otro caso. Ejemplo 2.5. Abrevie con notación sigma la siguiente suma:
+ + + 73+ 33 + 113+ 133+ 153+ 173+ 19j
l3 33
Solución:Podemos abreviar esta suma de dos maneras distintas:
x ( Z k - 1))o bien
2
(2k
+ 1))
Es muy importante usar el índice mudo, ya que cualquier letra que no contenga dicho índice en la suma, se considera como una constante.
Propiedades de la suma abreviada. Las siguientes propiedades de la suma abreviada (o sumatoria) son fáciles de demostrar:
54
Parte l. ístadística descriptiva
c = m, donde c e s una constante
1.z n
2. x
n
c . f (x,) =c x f (xi), donde c es una constante
i=l
i=l
A veces está suficientemente claro q u e el índice de la suma varía desde 1 hasta n,y entonces se puede abreviar todavía más escribiendo simplemente S,.
Los tres parámetros de localización (media, mediana y moda) tienen cada u n o s u correspondiente interpretación geométrica. Ilustraremos esto con u n ejemplo concreto. Ejemplo 2.6. En una pequeña tienda de autoservicio, tratan de averiguar cuántos artículos lleva cada cliente en promedio. Suponga que para ello se toma una muestra de 392 clientes al azar y se obtienen los siguientes registros:
En esta tabla de datos, se puede ver a simple vista que hay dos modas: 6 y 7 artículos por cliente (ambos datos registraron una frecuencia de 25, que es la máxima), es decir, se trata de una distribución bimodal. Esto significa que el número más probable de artículos que comprará un cliente cualquiera es de seis o siete. La probabilidad (frecuencia relativa) de que un cliente cualquiera compre seis artículos (o también siete ar0.638. De manera similar, podemos calcular la frecuencia relativa 392 de cualquier otro valor de la variable X, que denota el número de am'culos comprados por un cliente. Ahora bien, como los datos representan una muestra extraída de la población, la media de X se denota por y no por p.Aquí la población sería inaccesible y virtualmente infinita, porque representaría el registro del número de artículos que lleva cada cliente en
tículos) es de
Cap. 2. Manejo de datos aislados
55
todo el historial de la tienda (pasado, presente y futuro), por lo que p es un valor irnposible de conocer. Para la muestra seleccionada de los 392 clientes, hay dos maneras de calcular el valor de la media aritmética (o media muestral) 2 y en ambos casos podemos ayudarnos con una hoja de cálculo de Excel. El primer método consiste en constmir una tabla de cada valor de xi (son i artículos comprados por cada cliente) junto con la respectiva frecuencia relativa (o probabilidad) p,. En ese caso se tendría la siguiente tabla:
El valor de la media se calcula en la misma hoja de cálculo de Excel:
Esta magnitud representa el número esperado de artículos que compra un cliente cualquiera (para esa muestra). El otro método alternativo para hallar el valor de la media estriba en sumar los productos de cada valor de x, por su frecuencia real (no relativa), es decir, (1)(6) + (2)(14) + . . + (36)(1) y dividir el resultado (4541) entre 392. Esto queda claro, porque se está dividiendo el total de artículos que se compraron (por todos los 392 clientes de la muestra) entre el total de clientes. Para obtener una interpretación geométrica, obsérvese la figura 2.1.
Figura 2.1
56
Parte l. Estadística descriptiva
En la figura 2.la, hemos colocado 392 esferitas apiladas, de tal manera que, para cada valor de xi desde i = 1hasta 36, se han apilado exactamente tantas esferitas como frecuencias se registraron. El número de esferitas apiladas sobre cada valor de x, representa el número de veces que algún cliente compró i artículos. El valor de la media, T = 11.58, corresponde exactamente al punto donde se podrían equilibrar las 392 esferitas como en una balanza. En este caso, las dos modas (7 y 8) están a la izquierda de la media. En la figura 2.16, tenemos lo que más o menos podría esperarse que ocurriera en un caso continuo. Si en vez de tomar una muestra aleatoria de 392 clientes, hubiéramos tomado una muestra de 20000 clientes, por ejemplo, podríamos hacer un dibujo anáiogo con 20000 esferas (mucho más pequeñas) apiladas de la misma manera, y de lejos se vería como la curva de la derecha. Siguiendo este método hasta tomar una muestra tan grande de esferitas como la población misma, se tendría lo mismo: el punto correspondiente a la media p es donde se lograrían equilibrar todas las esferitas como en una balanza, sin que se inclinen a la izquierda ni a la derecha. Esto proporciona no sólo una interpretación geométrica de la media, sino también una interpretación física.
¿Cómo se puede calcular e interpretar la mediana en el ejemplo anterior? En teoría, necesitaríamos ordenar las 392 compras de los clientes de menor a mayor, en cuanto a número de artículos adquiridos en cada compra y, como se trata de un número par, escogeríamos las compras situadas en los lugares 196 y 197, para entonces promediar el número de artículos que se compraron en ambos casos. Recuérdese que, según lo establecido, para hallar la mediana de n datos aislados, basta con ordenarlos y enumerarlos d e menor a mayor, y tomar el dato intermedio, o el promedio d e los dos intermedios. ¿Se puede hallar la mediana en otra forma más sencilla? Por supuesto. Si observamos otra vez el dibujo de las esferas apiladas, queda claro que la mediana será aquel punto sobre el eje en el que a mano izquierda estén apiladas la mitad d e las esferas y a mano derecha la otra mitad, esto es, 196 pequeñas esferas a mano izquierda y 196 a mano derecha. Para resolver esto rápidamente con Ekcel, nos será útil el concepto defiecuencia acumulada. Para cada número de artículos comprados xi, denotemos por N(x,) a las frecuencias acumuladas desde 1 hasta xi. La siguiente tabla se calcula rápidamente con Excel:
Cap. 2. Manejo de datos aislados
57
Esta tabla nos permite ver con claridad que hasta la novena pila llevamos acumuladas 182 esferitas y que nos hacen falta tan s610 196 - 182 = 14 esferitas de las 22 que hay en la décima pila para completar 50 % del total de esferas (véase fig. 2.2).
Figura 2.2
Todas las esferas de la décima pila corresponden a compras en las que el cliente respectivo llevó 10 artículos. Si hubiésemos contado todas las esferas, una por una, de izquierda a derecha y d e abajo hacia arriba, las esferas números 196 y 197 serían la última clara y la primera oscura en la décima pila. Por tanto, la mediana es me= 10. PREGUNTA INTERESANTE: La idea matemática d e la mediana es que si se traza una línea vertical en x = me,50 % del área bajo la curva queda a mano izquierda y 50 % a mano derecha. Tomando en cuenta esto, uno podría pensar que quizá un valor más preciso para la mediana debería ser el siguiente:
¿Seríarealmente este valor de la mediana más exacto que si tomamos me= lo? La respuesta es negativa. Recordemos que la característica esencial de la mediana estriba en que es el dato que minimiza el error absoluto medio. Si tomamos toda la escala del 1al 36 como continua, entonces se puede comprobar que el mínimo valor del error absoluto medio corresponde a x = 10 y no a x = 10.63.Con ayuda de una hoja de cálculo de Excel, podemos hallar la siguiente información:
-
Dato (x,)
/ I
absoluto medio -
1
En el capítulo siguiente veremos, sin embargo, que semejante procedimiento de cálculo de la mediana sí sería válido para datos agrupados por intervalos.
Así como la mediana divide el total de frecuencias acumuladas (o área bajo la curva) en dos mitades, los cuartiles son los tres puntos Q,, Q, y Q, que dividen el total de frecuencias acumuladas en 25,50 y 75 %, respectivamente. Desde luego, el cuartil Q, coincide con la mediana. De la misma manera, los terciles TI zT, son los dos datos que dividen el total de frecuencias acumuladas en 33.3 66.6%,respectivamente. Los d&iles D,, D,, ... ,D,son los datos que dividen el total de frecuencias acumuladas (o área bajo la curva) en porciones de 10% cada una. El quinto decil, por ejemplo, es igual a la mediana. El término genérico que engloba a todos estos es el percentil. Así, el percentil P,,, por ejemplo, es igual a la mediana; el percentil P,, es igual al tercer cuartil, etcétera. En el mismo ejemplo que estamos considerando, para calcular el cuartil Q,, nos remitimos de nuevo a la tabla de frecuencias acumuladas. El 25 % de 392 es 98. Para el dato x = 5, llevamos apenas 85 esferas acumuladas, así que el cuartil Q, está en la sexta pila de esferitas. Por tanto, Q, = 6. Este sería el dato que se obtendría si se ordenaran todas las 392 compras de menor a mayor (en cuanto a número de artículos comprados) y se tomara un promedio de los datos que ocupasen los lugares 98 y 99 (ambos corresponden a seis artículos comprados). Los nueve deciles D,, ... ,D, de una distribución son los puntos que dividen el área bajo la curva o bajo el histograma en 10 porciones de idéntica área cada una. En la figura 2.3, aparecen las localizaciones de los nueve deciles de una distribución continua con forma acampanada (se trata de una distribución llamada distribución normal estándar, la cual se examinará con detalle en el capítulo 6). Obsérvese que el quinto decil coincide con la mediana. Las áreas de cada una de las franjas de un tono gris son iguales, esto es, cada franja de un tono gris tiene exactamente 10% del área total bajo la curva. Si dicha curva es alguna de las distribuciones acampanadas usuales de la estadística (como la distribución normal o la distribución t de Student), entonces las posiciones exactas de los nueve deciles se pueden obtener fácilmente con ayuda de tablas o del Excel. Eso también lo veremos en el capítulo 6.
Figura 2.3. Los nueve deciles de una distribución acampanada.
Si se tiene un conjunto de n datos {x,, x,, .. . ,xn}, hay dos formas esencialmente distintas en las que podemos considerar esos datos. La primera sería suponer que esos n datos forman en sí una población finita, en cuyo caso la desviación estándar (o desviación típica) se calcula así:
Este parámetro se llama desviación estándar poblaciond y se puede calcular fácilmente con casi cualquier calculadora científica también @ara no tener que emplear la fórmula). Algunas calculadoras emplean, en lugar del símbolo o,cualquiera d e los símbolos xono bien on. Sin embargo, el conjunto original de datos {x,, x,, . .. ,xn}puede considerarse también como una muestra que ha sido extraída de una población mayor (o de una población infinita). En tal caso, el siguiente estadístico se usa para calcular la desviación estándar:
60
Parte l. Estadística descriptiva
Este estadístico recibe el nombre de desviación estándar muestral. En las calculadoras científicas, puede evaluarse fácilmente con una tecla que dice s, o también sxo bien 4-i, dependiendo de la calculadora de que se trate. En la sección 2.14, veremos cómo usar la calculadora científica para evaluar este estadístico. La siguiente pregunta surge naturalmente: ¿Porqué para la desviación típica poblacional se ha dividido entren mientras que para la desviación típica muestral se divide entre n - 1?Hay dos razones importantes para hacer esto. En primer lugar, recuérdese que ya hablamos de lo que es un estimador insesgado y que se usó ese nombre para un estimador que tenía la propiedad de que su valor promedio era igual al valor del parámetro que se deseaba estimar. Por ejemplo, vimos que el estadístico2 era un estimador insesgado del parámetro p..Aquí ocurre, sin embargo, que el estadístico C (x, - z>' no es un estimador insesgado del paráme-
C (xi - XI2 sí lo es, afortunadamente. Aunque la tro 02,pero el estimador s2= n-1 demostración de este hecho no la daremos aquí? veremos algunos ejemplos concretos para verificarlo en la práctica. Nótese que aquí estamos hablando de la varianza, porque en ninguno de estos dos casos se obtendría, al extraer raíz cuadrada no negativa, un estimador insesgado del parámetro o. La segunda razón para dividir entre n - 1 tiene que ver con un concepto estadístico de gran importancia que se llama grados de libertad. Para entender este concepto, obsérvese, en primer lugar, que si en el cálculo de la varianza las desviaciones (x, - X) no estuviesen elevadas al cuadrado, entonces la suma de todas las desviaciones C (x, - X) sería cero (¿por qué?), así que cualquiera de las n desviaciones puede determinarse a partir de las restantes n - 1 desviaciones. Por consiguiente, el valor de la suma de los cuadrados de las desviaciones, es decir, C (xi - Z)2 depende únicamente de las n - l desviaciones que tienen libertad de variar de una muestra a otra. En ese caso decimos que la suma de los cuadrados de las desviaciones tiene n - 1grados de libertad. Esto se traduce en que, si se dividiera la varianza muestral entre n , se obtendría un valor que subestimaría la varianza poblacional. Al usar n - 1 como denominador en lugar de n, se obtendrá un valor ligeramente mayor para la varianza muestral, lo cual siempre es deseable para compensar la mayor incertidumbre que provocaría trabajar con una muestra no muy grande. Por supuesto, si el tamaño de la muestra (n) es bastante grande, la división entre n o entre n - 1 dará resultados casi idénticos. Si esta explicación pudiera parecer confusa para algún lector, recomendamos no preocuparse, ya que con el estudio sistemático y con la solución cotidiana de muchos ejercicios, y a medida que se vaya avanzando en el estudio de este libro, estos conceptos sutiles se volverán poco a poco más claros para el estudiante. Por ahora, basta con que el lector dé por sentado que para calcular la varianza muestral y la desviación típica muestral, conviene dividir entre n - 1. En algunos libros antiguos, la división se realiza entre n , y tampoco tiene nada de malo. 'El lector interesado puede ver la demostración en el libro Probabilidady estadkticapara ingented a y ciencias, de Gabriel Velasco Sotomayory Piotr M. Wisniewski, Thomson International Editores, México, 2001, capítulo 9, teorema 9.1, p. 210.
Casi todas las calculadoras científicas de diferentes marcas (HP, Sharp, Casio, Texas Imtmments, etc.) tienen una modalidad para uso estadístico. Por desgracia, como se mencionó en el capítulo anterior, el procedimiento para emplear la utilería estadística de una calculadora varía mucho de marca a marca y de modelo a modelo, así que lo mejor es consultar el instructivo de la calculadora, y si no se tiene, experimentar un rato con ella hasta descubrir cómo se procede para hallar los valores deseados. Veamos, por ejemplo, con una calculadora Sharp, modelo EL-531L, cómo podríamos resolver el siguiente ejercicio: para los datos {1,3,5,8,8,9,3,4), calcular la media, la desviación estándar poblacional y la desviación estándar muestral. En ese tipo de calculadora, se pulsa la tecla MODE y luego se selecciona el número 1 (modo estadístico), entonces aparece en la pantalla un pequeño letrero que dice STAT. En las calculadoras de otras marcas o modelos (por ejemplo, las CasEo), hay que pulsar la tecla necesaria para que aparezca el letrero SD (statistical data). Volviendo a la calculadora Sha?p, se introducen los datos uno a uno, presionando siempre la tecla M+ después de cada dato. (Ello significa que la calculadora está registrando todos los datos en su memoria.) Arriba de algunas teclas aparecen con letra pequeña y con algún color los símbolos n, 2,sxyxo,, así como Cx y Zx2.Estos dos últimos símbolos no son útiles para nosotros por el momento, pero lo serán cuando veamos el tema de regresión. En algunas calculadorasSharp de modelos más viejos, aparecen los símbolos s y o, respectivamente, en lugar de sxy ox.En calculadoras de otras marcas o modelos, aparecen los símbolos on-iy 4,respectivamente. En la calculadora Sharp del modelo mencionado, los pequeños símbolos aparecen con color verde, así que se llaman con la tecla del mismo color que dice RCL. En otros modelos más antiguos de calculadoras Sharp, aparecen con color amarillo o naranja claro y se llaman con la tecla del mismo color 2ndF, o INV Casi siempre hay que guiarse por el color en el que aparecen los símbolos de interés. Así, obtenemos:
Si el lector no encuentra por ahora cómo hallar estos valores con su calculadora @ara el mismo ejemplo) y no tiene el instructivo de la calculadora, no importa, puede hacerlo más tarde cuando.tenga tiempo libre y nada que hacer; por ejemplo, cuando deba esperar en el consultorio del médico, o cuando tenga que ir a hacer algún trámite en el gobierno, puede llevarse su calculadora y experimentar con ella un rato; le aseguramos que pronto descubrirá cómo se hace todo esto. Cabe mencionar que, en las calculadoras Olivetti, los datos permanecen en la memoria aun después de apagarla. Para muchos estudiantes ello es molesto, pero es fácil borrarlos de la memoria pulsando consecutivamente las teclas ALPHA y ON/C. Por cierto, en estas calculadoras Olivetti, los datos no se introducen con la tecla M+, sino con la tecla DATA De cualquier manera, aprender a usar la utilería estadística de una calculadora de bolsillo es más fácil que aprender a conducir un automóvil, por ejemplo.
2.15. RESUMEN DE ESTAD~STICADESCRIPTIVA CON ~
C E L
Para obtener valores de los estadísticos muestrales con Excel se procede d e la siguiente manera. Se pulsa en el encabezado donde dice Herramientas (Tools) y entonces se despliega un menú (fig. 2.4). Luego se pulsa donde dice Complementos (Add ins) y enseguida se despliega un submenú que tiene varias opciones de utilería, cada una con un pequeño cuadro a la izquierda (Administrador d e informes, Asistentepara búsquedas, etc.). Se localiza la utilería Herramientas para análisis (Data analysis) y se pone una paloma en el cuadro de la izquierda (sólo hay que picar dicho cuadro y la paloma se pone sola). Esto significa que uno desea dar de alta la opción de análisis de datos, la cual por regla general no viene dada de alta en Excel. No conviene palomear todas las opciones de utilería (o por lo menos las utilerías que no se van a emplear), ya que esto provocaría un gasto innecesario de recursos en la computadora y a veces se volvería más lento el proceso de abrir el Excel, a menos que usted tenga una barbaridad de memoria RAM en su máquina. Recomendamos poner paloma únicamente en la opción mencionada (Análisis d e datos). Al dar enter, puede ocurrir una d e dos: o bien la opción ya está integrada a la versión d e Excel que está instalada en su máquina y entonces tomará unos pocos segundos darla de alta, o bien le pedirá que inserte el disco compacto de Ofice 2000 o de la versión de Ofice que use, para instalar dicha utilería. (Esto significaría que su computadora no traía instalada la versión profesional completa de Ekcel.) Una vez que ya dio d e alta la opción para Análisis d e datos, esta utilería aparecerá automáticamente al desplegar el menú Herramientas. Vamos a repetir ahora el mismo ejemplo que dimos en la sección anterior, es decir, el conjunto de datos: {1,3, 5,8, 8, 9,3,4). Introducimos todos estos datos (uno en cada celdilla) en una columna cualquiera de la hoja de cálculo (por ejemplo, en las celdilla A3 hasta la A10). Picamos en Herramientas y luego en Análisis de datos. Entonces se despliega un menú con varias opciones y señalamos Estadística descriptiva (fig. 2.5). En el cuadro de diálogo que aparece, marcamos con
'. 6 7 - 1
1
1
1
1
Figura 2.4
I
1
1
Figura 2.5
el cursor los datos introducidos. Donde dice Opciones de salida pedimos en una Hoja nueva. Se pone paloma e n Resumen de estadísticas y Nivel de confianza (95 %) solamente, y se pulsa Aceptar. Aparece entonces el siguiente resumen:
1 Media
1
/ 5.125
Mediana Moda -Desviación estándar Varianza de la muestra Curtosis Coc le asirneti -
-
2.90012315 8.41071429 -1.53625705'
i
r n n
I
7
Sur Cuenta Nivel de-confianza (95.0%) -
4
-
8
/ 2.42456189
Obsérvese que el resumen proporciona la desviación estándar muestral, mas n o la poblacional. No obstante, es muy sencillo deducir una relación matemática simple entre ambas desviaciones.
64
Parte l. Estadística descriptiva
El último renglón, correspondiente al Nivel de conjianza, es un tema que no pertenece a la estadística descriptiva, sino a la inferencia estadística, pero podemos adelantar al lector lo que significa ese número que ahí aparece. La media de la población de donde se extrajo la muestra de los ocho datos es un parámetro p desconocido, pero hay una probabilidad mínima de 0.95 (es decir, 95 %) de que dicho valor se encuentre dentro del intervalo 5.125 f2.4245619; en otras palabras, si el conjunto de datos de nuestro ejemplo ha sido extraído de una población infinita o inaccesible cuya media es p, podemos tener una confianza de por lo menos 95 % de que 2.70 < p < 7.55. Aunque este tema de los intervalos de confianza lo veremos más adelante, repetimos, no le hará daño al lector saber ahora cómo podría determinar este intervalo con ayuda de una calculadora y de unas tablas de percentiles de la distribución t de Student, que es una distribución acampanada cuyos percentiles vienen tabulados al final de cualquier libro de estadística. Determinemos el intervalo en nuestro ejemplo. Como el conjunto de observaciones { 1 , 3 , 5 , 8 , 8 , 9 , 3 , 4 )consiste de n = 8 datos, buscamos el valor del percentil t,,,, con n - 1= 7 grados de libertad en dicha tabla (se busca tO07, y no t,,, porque hay un pequeño error de 5 % repartido en ambas esquinas bajo la curva, y sobre la posición del percentil crítico queda 97.5 % de área bajo la curva a mano izquierda). Hallamos 2.3646226. Por otra parte, el error típico de la media es:
John Graunt (1620- 1 674) y Sir Williarn Petty (1623- 1687). Organizaron en 1662 datos demográficos para investigar las características biornétricas de poblaciones humanas.
Cap. 2. Manejo de datos aislados
65
aunque no hace falta calcular esta magnitud, porque la misma información del Fxcel nos la dio (es el segundo dato del resumen). Por tanto, el intervalo de confianza d e 95 % para la media queda dado por:
que coincide.con el valor dado en el resumen del Excel. Como veremos en capítulos posteriores, el Excel presupone que los datos siguen una distribución normal, ya que de lo contrario no sería válido todo esto. Cuando no se tiene una computadora a la mano, se pueden hallar las 14 magnitudes del resumen de estadística descriptiva que proporciona el Excel, empleando sólo una calculadora de bolsillo y unas tablas d e percentiles d e la distribución t de Student. En su momento nos tocará estudiar esa distribución con detalle. Por cierto, en el resumen de estadística descriptiva del Excel hay dos términos que Estos conceptos aún no hemos examinado: Curtosis y Coeficiente de se tratarán en el capítulo 4.
Para finalizar este capítulo, invitamos'al estudiante a que tome unas hojas de papel (o un cuaderno) y un lápiz, e intente resolver el siguiente examen de 13 preguntas. Tiene que hacedo a contrarreloj, en un plazo máximo de dos horas. Puede usar calculadora de bolsillo para las operaciones. Inmediatamente después del examen, aparecen las respuestas correctas, pero el estudiante no debe mirarlas sino después de haber resuelto todo su examen. A continuación deberá autocalificarse. Si obtiene menos de 75 % de aciertos (es decir, sólo nueve aciertos o menos), entonces le recomendamos volver a estudiar bien este capítulo y después de un par de días tratar de resolver el examen de nuevo (o al menos las preguntas fallidas), antes de pasar al siguiente capítulo. Las preguntas van aumentando en grado de dificultad, pero al calificarse, suponga que todas valen lo mismo. Si obtiene 10 u 11 aciertos, su aprovechamiento ha sido bueno, con 12 aciertos muy bueno, con 13 excelente y se hace acreedor a una felicitación. ¡Mucho éxito! 1. A menudo leemos (o escuchamos) frases como "la persona promedio" o "el hombre
promedio". ¿Considera usted que al usar la palabrapromedio en ese sentido se refieren a la media, a la mediana o a la moda? Explique. 2. El célebre físico y escritor estadounidense George Gamow señaló en cierta ocasión que le parecía una coincidencia notable el hecho de que, entre todas las cosas del Universo, el ser humano tuviera más o menos un tamaño promedio entre lo más pequeño (los átomos o incluso las partículas subatómicas) y lo más grande (las galaxias o incluso los cúmulos de galaxias). ¿A qué tipo de "promedio" cree usted que se refena el profesor Gamow: a la media, la mediana o la moda? 3. En un sitio de Internet apareció una vez el siguiente comentario: "Las estadísticas muestran que aproximadamente 30% de los accidentes de automóvil involucran a un conductor que ha ingerido alcohol. Por tanto, 70% restante de los accidentes involucran a un conductor que no ha bebido, luego entonces se concluye que la forma más segura de conducir es estando borracho." ¿En qué estriba la falacia de semejante argumento? Explique. 4. El siguiente conjunto describe el número de goles anotados en cada uno de los 16
66
Parte 1. Estadística descriptiva partidos de la primera jornada en la Copa Mundial de Futbol2002: X = {1,3,4,4,3, 2,2,5,2,8,1,2,2,1,4,21.
a) Determine la media, la mediana y la moda. b) Para los distintos elementos de este conjunto de datos, construya una tabla de frecuencias relativas.
5. Para los datos del ejercicio 4, calcule: a) lavarianza 6) la desviación estándar C) el error cuadrático medio del valor x = 2. Aproxime sus respuestas a tres dígitos decimales después del punto. 6. De nuevo, para los datos del ejercicio 4, calcule:
a) la desviación media 6) el rango c) la desviación promedio de la mediana 4 el error absoluto medio (o desviación promedio) del dato x = 1. 7. Suponga que el conjunto X = (1, 2, 5, 8,9) forma una población. Elabore una tabla comparativa del error cuadrático medio (desviación cuadrática media) para cada valor deX, y compruebe que el mínimo valor de dicho error corresponde precisarnente a la media. 8. Considere al conjunto X = ( 5 , 6, 4,2, 7) como una población que representa el número de tazas de café que consumió un empleado de oficina durante cada uno de los cinco días laborables de una semana. Haga una tabla comparativa de la desviación promedio (error absoluto medio) de los cinco valores deX, y compruebe que el mínimo valor de dicha desviación corresponde precisamente a la mediana. 9. Para el conjunto de datos del problema 8 (considerado como población), anote las 10 muestras sin remplazo de tamaño tres, y describa el conjunto { F , , Jc2, ...,Z,,)que representa las medias muestrales de cada una de esas 10 muestras. 10. Respecto al conjunto de las 10 muestras sin reposición del ejercicio 9:
a) Elabore una tabla con todos los elementos distintos de ese conjunto y sus respectivas frecuencias relativas. Esa tabla es la distribución muestral de medias. b) Si se denota por e, a la media de la distribución muestral d e medias, compruebe que dicho parámetro es igual a la media d e la población original, es decir, = p. Entonces, si X es un estimador d e p,iqué clase d e estimador es? 11. Suponga que el conjuntoX= (1,3,5) forma una población de la cual se extraen muestras de tamaño n = 2. Denótese por N al tamaño de la población (N = 3). Compruebe
que si el muestre0 se hace sin reposición, se obtendrá el siguiente valor para la desviaci6n típica de la distri'bución muestral de medias (o error típico de la media):
(NOTA: Esta fórmula es siempre válida, para cualquier población y tamaño de muestra sin reposición.)
Cap. 2. Manejo de datos aislados
67
12. Respecto al ejercicio 11,piense de manera intuitiva a qué valor tiende:
cuando N tiende a infinito y N » n (el símbolo » significa "mucho mayor"). 13. Para la población A = { 1, 3, 71, cuyo tamaño es N = 3, haga una lista de las tres posibles muestras de tamaño n = 2 sin reposición, luego calcule la distribución muestral de medias y la desviación estándar de la distribución muestral de medias, es decir, o,. Compruebe entonces que:
REPUESTAS DE LOS EJERCICIOS DE AUTOEVALUACI~N 2.1 1. Probablemente se refieren a la moda, es decir, alguna característica, virtud o defecto que es muy común encontrar en las personas y, por ende, tiene alta frecuencia relativa. 2. A la mediana. La moda habría dado un valor diminuto, mientras que la media daría un
valor gigante. 3. El argumento sería correcto si los borrachos y los sobrios estuviesen más o menos
igualmente distribuidos entre los conductores. En realidad, el porcentaje de conductores ebrios es muy pequeño (quizá 2 % o menos del total), y ese 2 % es responsable de 30 % de los accidentes. Es un asunto de frecuencia relativa.
23 4. a) Media p = -=2.875 goles; mediana me= 2 goles; moda m. = 2 goles. 8
68
Parte l. Estadística descriptiva
87 20 6. a ) Desviación inedia = d,= -= 1.359,; 6 ) Rango =7; c ) d, = -= 1.25; 64 16
Dato
Dmzh5-ón cuaárdtiu media
1 -
26
2 -
-
19
5 -
-
10 (va
8
-
9
Dato
+
Desuiac.ión promedio del dato
2
2.8
4
1.6
5 (mediana)
1.4
6
1.6
7
2.2
-
9. Las 10 muestras son: ( 5 ' 6 ' 4 1 , {5,6,21, { 5 , 6 , 7 ) , { 5 , 4 , 2 ) , { 5 , 4 , 7 ) , { 5 , 2 , 7 ) , {6,4, 2), { 6 , 4 , 7 ) , { 6 , 2 , 7 ) y {4,2,7). Las respectivas medias de estos conjuntos forman, a su vez, el siguiente conjunto:
donde hay dos pares de elementos repetidos. 10. a) La distribución muestra1 de medias está dada por la siguiente tabla:
69
Cap. 2. Manejo de datos aislados
6) La media de la distribución muestral de medias es, por tanto:
Se trata, entonces, de un estimador irnesgado.
N= 3. El total de muestras d e tamaño n = 2, sin re-
11. X = {1,3, 5 ), p = 3, a =
posición es el siguiente: (1, 3), (1, 5) y (3, 5). Las respectivas medias muestrales forman el conjunto: (2, 3, 4). La media de los elementos de este último conjunto es pz= 3 = p. La desviación típica de los elementos de este conjunto es
=
Comprobamos que en efecto:
12. Tiende al valor
= -,
a
Jñ
se aproxima a la unidad
toda vez que el factor
cuando N tiende a infinito y N >> n. 13. Se obtiene en ambos casos el valor J14 / 3 = 1.24722 . En efecto, la varianza de la población está dada por:
Luego, la desviación típica de la poblaci6n es a =
3
Por otra parte:
Así:
que coincide con la desviación estándar del conjunto (2, 4, 51, el cual es la distribución muestral de las medias de la población original @ara muestras de tamaño dos).
1. En cada uno de los siguientes incisos, desarrolle las sumas que se indican:
2. Calcule el valor numérico de las siguientes sumas:
3. Dos profesoras de estadística, la profesora A y la profesora B, reportaron las calificaciones finales de sus respectivos grupos (llamémoslosA y B). La siguiente tabla muestra la comparación de los parámeuos correspondientes de sus calificaciones reportadas: media, mediana y desviación estándar:
GrupoA
Media 78 -.
Grupo B
72
..
Medúzna
D ~ W ~ I I C Pestártdar Ó~
65
16 6
73
a) ¿En cuál de los dos grupos debería la profesora invertir más tiempo en asesorías individuales? b) ¿En cuál de los dos grupos es más probable hallar a algunos estudiantes excelentes?
4. Los incisos siguientes se refieren al conjunto de datos: {1,2, 5 , 8 , 3 , 9 , 7 ) : a) Calcule la media. b) Si se suma 4 a cada número del conjunto, ¿cuál será la media del nuevo conjunto de datos? c) Si cada número se multiplica por 3, ¿cuál será la media? dj Suponga ahora que cada número se multiplica por 8 y después se suma 6 al resultado correspondiente. En tal caso, ¿cuál sena la media del nuevo conjunto de números?
Cap. 2. Manejo de datos aislados
71
5. Suponga que tiene un conjunto de 10 números cuya media es 17 y un segundo conjunto de 20 números cuya media es 16. ¿Cuál es la media de los 30 números?
6. Si se tiene un conjunto d e n números cuya media es x y otro conjunto de m números cuya media esy, ¿cuál es la media del conjunto de los n + m números?
7. Si se tiene un conjunto de n números {x,, x,, .. . ,x,,}, demuestre que
n
(x, - Z) = O.
1 =I
8. Un tipo de media poco usual en la práctica es la llamada media geométrica. Para el conjunto de los n datos del ejercicio 7, por ejemplo, la media geométrica se define como Use su calculadora científica para hallar la media geométrica de los siguientes conjuntos de datos:
. . . .d
9. Demuestre que la media de dos números no negativos tiene que ser mayor o igual a su media geométrica. ¿Se podría generalizar esta afirmación para n números? 10. Proporcione un conjunto de dos números cuya media sea 10 y cuya varianza sea 4. 11. Se tiene un conjunto de dos números desconocidos, y sólo se sabe que la varianza es 4. ¿Cuál es el rango? 12. Invente un conjunto de cuatro números enteros que satisfagan simultáneamente las siguientes condiciones: la media es 10, la mediana 9, la moda 7 y el rango 15. (Hay varias soluciones posibles.) 13. Arregle los siguientes datos numéricos en una diagrama de tallo y hojas, y luego obtenga la mediana y la moda. Los números representan la duración (en número de movimientos) de todas las partidas de ajedrez de un torneo de grandes maestros jugado en 1997.
14. Los goles anotados por el equipo de futbol Puma.de la UNAM de la primera división del balompié mexicano, durante sus últimos 42 partidos, fueron los siguientes:
Calcule el coeficiente de variación y expréselo en porcentaje.
72
Parte l. Estadística descriptiva
15. Suponga que {u,,u,, . . . ,un)es un conjunto de números cuya media es Ü, y definamos el conjunto de números {x,,x,, . . . ,x,,) tal que x, = au, + b @ara i = 1,2, ... ,n ) , donde a y b son ciertas constantes. Demuestre que entonces la media del segundo conjunto es? = aÜ + b. 16. Calcule la media del siguiente conjunto de números: {3,7,8,21,35),y a partir del resultado que obtenga, deduzca rápidamente cuál debe ser la media de cada conjunto siguiente:
17. La distribución de frecuencia de una variable x es la siguiente: X
n--.-
zcia
-2 -1
o 1
17
37 ' I/
2 >
3
Obtenga la media de x con una calculadora y luego vea si puede hallar rápidamente, y por simple inspección, la media de cada una de las variables u, u, w,y, cuyas distribuciones de frecuencia se listan a continuación:
w Frecuencia
y
Frecuencia
51
14
75.5
7
52
38
85.5
19
74
95.5
37
54
52
105.5
26
55
30
115.5
15
56
12
125.5
5
53
.
18. Considere el conjunto: {u,, u,, ... , u n ) , cuya desviación media es d , y definamos otra vez el conjunto de números {x,,x,, ... ,xn)de suerte quex, =au, + b @ara i = 1, 2, .. . ,n), donde a y b son ciertas constantes. Demuestre que entonces la desviación media del segundo conjunto es ad.
Cap. 2. Manejo de datos aislados
73
19. Compruebe que la desviación media del conjunto (3,7,8,21,35) es 10.56. 20. Use los resultados de los dos últimos ejercicios (18 y 19) para obtener rápidamente
la desviación media de los siguientes conjuntos numéricos:
21. Una niña lanzó un par de dados 9 veces y registró las siguientes puntuaciones: 8,2,7, 3, 10,8,8,5 y 12. Calcule: a) el rango 6) la media c) la desviación media.
3.1. CLASES Y sus CARACTER~STICAS Una clase es un intervalo de variación para una variable continua o de variación teórica (ficticia) para una variable discreta. Por ejemplo, si la variable X representa el tiempo en minutos que requiere cierta persona para cambiar un neumático de su automóvil, una clase podría ser el intervalo [ l , 5), es decir, el conjunto de valores de X tales que 1 IX < 5 (en minutos). Como veremos después, casi siempre conviene usar intervalos que son cerrados por la izquierda y abiertos por la derecha, como en este ejemplo. Si X es una variable discreta (por ejemplo, el número de veces que sale águila en 10 lanzamientos de una moneda), se puede usar una variación continua ficticia para X y tomar, por ejemplo, el intervalo de variación continua [1.5, 3.5) como aproximación del conjunto 2 I X I 3, esto es, que salgan dos o tres águilas, o bien tomar el intervalo continuo [1.5, 2.5) como sustituto del valorX= 2. Este tipo de aproximación (que se llama corrección por continuidad) puede parecer extraño por el momento, pero más adelante veremos que tiene muchas ventajas, ya que permite que algunas variables discretas se manejen con distribuciones continuas a las que se aproximan. Límites d e s de clase. Casi siempre ocurre que las clases se establecen de tal manera que quedan algunos huecos (o vacíos) entre dos intervalos adyacentes. En tales casos, los intervalos se pueden alargar artificialmente para abarcar tarnbién la mitad de los huecos que quedan a sendos lados y producir una variación continua de principio a fin. Los extremos de lis clases alargadas artificialmente de esta manera se llaman límites d e s de clase, y el intervalo de variación teórica entre los límites reales de clase se denomina intervalo ampliado. Por convención, los intervalos ampliados se toman cerrados por la izquierda y abiertos por la dere-
76
Parte l. Estadística descriptiva
cha. El límite real izquierdo se acostumbra llamar M t e tea inferior, mientras que el derecho recibe el nombre de limite r e d superior. Usualmente se emplea la notación x,y x, para denotar los límites reales inferior y superior, respectivamente. Marcas de clase. Son los puntos medios de cada intervalo. No importa si se consideran los intervalos originales o los intervalos ampliados, la localización de cada marca de clase será la misma. La razón de establecer marcas de clase estriba en que no se pueden efectuar operaciones aritméticas con intervalos, por lo que cada marca de clase se toma como representativa d e su intervalo, y es precisamente ese supuesto el que se traducirá en una pequeña inexactitud de las estimaciones resultantes. La notación para la marca de clase de la i-ésima clase es xi. Amplitud o anchura de una clase. Se llama así a la distancia entre los límites reales de clase. La forma más sencilla de calcular la amplitud de una clase consiste en restar el límite real superior (derecho) menos el límite real inferior (izquierdo). En la mayoría de los ejemplos prácticos, los datos se organizan de tal modo que todos los intervalos, excepto quizá el último, tienen la misma amplitud. Sin embargo, eso no es esencial. Puede haber casos en los que las amplitudes de los diferentes intervalos varíen. En los ejemplos que expondremos en este capítulo, usaremos hojas de cálculo de Excel para realizar las operaciones con rapidez. Es cierto que existen algunos programas comerciales más efectivos que el Excel para el manejo estadístico de datos, pero la obtención de tales programas implica por lo general un desembolso adicional por parte del estudiante, amén de que hay que invertir tiempo para aprender a usarlos. El software más popular y usual para el manejo d e datos estadísticos es el programa MINITAB. Al parecer hay una versión gratuita de 30 días que se puede bajar de Internet, pero después de ese tiempo hay que comprarlo. Otro programa muy apreciado para el manejo de datos es el SPSS (Statistical Rxkagefor tbe Social Sciences). Si el estudiante ya tiene algunos de esos programas instalados y además sabe usarlos, sería fabuloso; no obstante, basta con el Excel, que es el programa más conocido y que forma parte del Ofice instalado en cualquier computadora. El siguiente ejemplo lo vamos a manejar como "caballito de batalla" durante buena parte de este capítulo, para ejemplificar los cálculos d e diferentes magnitudes (parámetros) y los tipos de gráficos que se van a ir definiendo a lo largo de varias secciones. Ejemplo 3.1. Supóngase que se ha agrupado en clases el número de horas semanales que los niños ven la televisibn (incluso videocassettes y DVD), para una muestra aleatoria de 300 niños, con los siguientes resultados:
1
Horas semanuIes
1
Frecuencia ..
Cap. 3. Datos agrupados en clases o intervalos
77
Para trabajar con estos datos, primero debemos determinar las amplitudes de las clases y las marcas de clase, y anotar toda esta información en una hoja de cálculo de Excel, junto con las frecuencias respectivas:
Las primeras dos columnas no se utilizan para ninguna operación y sólo tienen valor informativo. En esos casos, al usar Excel, hay que señalar las columnas y pulsar en Formuto - Celda -N~rnero,y pedir la opción de Texto.
3.2. HISTOGRAMAS Y POL~GONOSDE FRECUENCIA Antes de proseguir con el análisis estadístico de los datos del ejemplo 3.1, conviene tener una representación gráfica de ellos, con objeto de visualizar de qué forma es la distribución de frecuencias. Hay muchos tipos de representaciones gráficas para datos estadísticos aislados o agrupados, pero el más útil y común es el histograma, el cual definimos a continuación, además del polígono de frecuencias. Histograma Es una representación gráfica d e una distribución de frecuencias relativas para datos aislados o agrupados, en forma de barras rectangulares, cuyas alturas correspondientes son las respectivas frecuencias (o frecuencias relativas) y cuyas bases son iguales a las clases ampliadas (véase fig. 3.1). En el histograma d e la figura 3.1, todos los rectángulos están juntos o adyacentes, pero hay ejemplos en los que ello no es posible, y entonces quedarán separados. Sin embargo, siempre se debe procurar que la base d e cada uno de los rectángulos sea unitaria, porque entonces el área de cada rectángulo @ase x altura) es igual a la probabilidad para ese valor de xi.Siempre es importante ser consistente con el concepto de que área = probabilidad. Para distribuciones d e frecuencias relativas d e observaciones aisladas o para distribuciones d e probabilidad de variables aleatorias discretas, conviene tomar bases unitarias en cada rectángulo, a fin d e que el área d e cada rectángulo @ase por altura) sea exactamente igual a la frecuencia relativa o a la probabilidad correspondiente. De este modo, vemos que el concepto d e área viene siendo un sinónimo d e probabilidad acumulada en un intervalo. Este mismo concepto se mantiene para variables aleatorias continuas, d e tal suerte que la probabilidad d e un intervalo d e variación d e la variable queda representada por un tramo d e área bajo la curva d e densidad d e probabilidad.
Figura 3.1 Es relativamente fácil dibujar un histograma a mano, con papel, lápiz, colores y regla, pero también se puede dibujar con casi cualquier software de estadística, incluso el programa Excel, que no es propiamente un software de estadística. En el menú Herramientas del Excel viene la opción de Histograma, aunque a veces los dibujos deben ser retocados para darles las preferencias del usuario. No es necesario que los rectángulos de un histograma queden unidos o adyacentes, pero sí es deseable, porque así tienen mejor aspecto. Hay otro tipo de histogramas que se llaman histogramas defiecuencias, en los cuales las alturas no coinciden con las probabilidades (o frecuencias relativas) sino con las frecuencias reales. En ellos, las bases de los rectángulos no son necesariamente unitarias. En la figura 3.2, aparece un histograma correspondiente a una serie de tiempo. Se llama así a una sucesión cronológica de datos donde la variable representa el avance del tiempo.
i
Porcentaje de la PEA
9,
1
Figura 3.2. Aumento del desempleo en América Latina. (FUENTE: CEPAL.)
Cap. 3. Datos agrupados en clases o interualos
79
Poligono de frecuencias. Es un gráfico de trozos de la frecuencia de clase en relación con la marca de clase. Puede obtenerse conectando los puntos medios de las partes superiores de los rectángulos del histograrna (véase fig. 3.3). Cabe señalar que el uso de una tabla de frecuencia agrupada tiene una desventaja bastante obvia: los datos originales se pierden en el proceso de agrupamiento.
Figura 3.3
El polígono de frecuencias para datos agrupados en clases, o para datos aislados, se dibuja de la siguiente manera: se marcan en un papel varios puntos n i ) ,esto es, (marca de clase, frecuencia) y se unen con segmende la forma (1, tos adyacentes usando una regla. La figura 3.4 ilustra cómo se representan en forma de histograrna las frecuencias de la muestra de 300 niños, en donde se trataba de ver el número de horas semanales que miraban la televisión. Se puede apreciar que esta distribución de frecuencias tiene sesgo positivo. En la gráfica de la figura 3.5, vemos el polígono de frecuencias superpuesto al histograma.
Figura 3.4
Figura 3.5
Es útil y cómodo disponer, aparte de la distribución de frecuencias, de una tabla y una gráfica que muestren cómo se van acumulando las frecuencias. Por ejemplo, el cálculo de la mediana resulta mucho más sencillo si se agrega una columna con las frecuencias acumuladas. Para hacer esa columna, basta ir sumando (o acumulando) frecuencias. Ello se puede realizar fácilmente con Excel. En la figura 3.6 se ha añadido la distribución de frecuencias acumuladas del ejemplo de los niños que ven la televisión un número de horas a la semana.
Figura 3.6
Cap. 3. Datos agrupados en clases o intervalos
81
Una ojiva es la gráfica d e una serie de segmentos d e recta adyacentes que ilustra la manera como se van acumulando las frecuencias en los intervalos. Casi siempre las ojivas tienen el aspecto de una "S" acostada. En nuestro ejemplo, la ojiva se dibuja con Excel graficando primero las parejas d e puntos dispersos (diagrama de dispersión) y luego añadiendo la utilería d e "línea suavizada" (fig. 3.7).
Figura 3.7
Con el botón derecho del ratón se le puede dar la forma, el aspecto y el color que se desee, posicionando el cursor en la parte que se quiera modificar. En este sentido, el Excel es muy amigable. Cabe señalar que en una ojiva los puntos se pafican sobre los limites infdores reales de clase y no sobre las marcas de clase. De esta manera, los datos van desfasados, como se indica en la figura 3.8. Siguiendo los pasos del Excel se dibuja fácilmente la ojiva correspondiente (fig. 3.9). Si el lector no tiene mucha práctica con Excel, se le recomienda jugar un poco con las utilerías y con las posibilidades u opciones que surgen al pulsar el botón derecho cuando se posiciona en distintos lugares del gráfico. Verá que es fácil cambiar los colores, el grosor y el tipo de las líneas, quitar o poner leyendas, etcétera.
Cap. 3. Datos agrupados en clases o interualos
83
La desviación media (o desviación promedio de la media) se puede calcular en la misma tabla así:
Con los datos del ejemplo 3.1, hacemos las operaciones en las siguientes tablas. Recuerde que para usar el valor absoluto en Excel, la sintaxis es ABS(), y para el producto se utiliza el asterisco *.
1
Clases
X
dm = d,=
=
Limites reales --
x.ni ~ - -- 4834 n 300
C lxt-xlnt n
1
x:
1
n,
tales
/
n = 300
- 16.113 h o m
1
semanales
- 2327.73 =7.759ih o m semanales 300
Todos los cuantiles (mediana, cuartiles, terciles o percentiles d e cualquier tipo) se calculan mediante un procedimiento d e interpolación sencillo. Lo primero que se debe hacer es ubicar la clase en la que se encuentra el cuantil correspondiente; luego se anota su límite real inferior y se le suma una cierta fracción d e la anchura de dicha clase. Veamos, por ejemplo, cómo calcularíamos el primer cuartil Q, en el ejem300 = 75. Ahora vamos a sumar frecuenplo 3.1. El 25 % del total d e datos es 4 cias de clases, de manera acumulada, hasta que la suma que llevemos se pase de 75, y en la clase donde eso ocurra nos detenemos, ubicándola como la clase buscada. Obviamente, 44 + 96 = 140 > 75. Por consiguiente, el primer cuartil queda localizado en la segunda clase, cuyo límite real inferior es 6.5. Ahora bien, observamos que la frecuencia de la segunda clase es 96 y su amplitud es 7. Por consiguiente: Primer cuartil = Q, = 6.5 +
?
'- x
7
96
Lo que debemos anotar en lugar del signo d e interrogación es una cantidad tal que sumada a las frecuencias acumuladas de las clases anteriores a la clase donde está el primer cuartil, es decir, sumada a 44, nos d é 25 % del total de datos, o sea 75. ¿Qué debemos sumar a 44 para que dé 75? Desde luego, 75 - 44 = 31. Por tanto, ? = 31. Entonces tenemos: 3 1 x 7 = 8.76 horas semanales Q,= 6.5 + 96 Esto significa que 25 % d e la muestra d e niños ven la televisión desde O hasta 8.76 horas a la semana. Usemos ahora el mismo procedimiento para calcular el segundo cuartil, que coincide con la mediana. El trabajo se facilita más si se usa la columna de frecuencias acumuladas: -
--Clase
la. 2a. 3a. 4a. 1
-
-
---
.
-
.
Limites reales [-OS, 6.5)
Frecuencia 44
[6.5, 13.5) [i3.5,20.5) [20.5,27.5) [27.5,34.5)
96
[34.5,41.5) [41,5,48.5)
..
-
Frecuertcia acumulada .--. u
-
++ 1.
-
-
-
2
8
3 295 300
Cap. 3. Datos agrupados en clases o intervalos
85
Como 50 % de las observaciones es igual a 150, la mediana debe ubicarse en la tercera clase, cuyo límite real inferior es 13.5. Luego:
donde, evidentemente, ? = 150 - 140 = 10. En consecuencia:
Esto se interpreta diciendo que 50 % de los niños de la muestra ven la televisión de O hasta 14.446 horas a la semana. Mediante el mismo procedimiento, determinemos ahora el tercer cuartil Q,.Como 75 % del total de datos es 225, viendo la tabla de frecuencias acumuladas se aprecia que el tercer cuartil queda ubicado en la cuarta clase, cuyo límite real inferior es 20.5. Así: Q3= 20.5
-214 + 22548
X 7 = 22.104 horas semanales
Interpretamos esto diciendo que 75 % d e los niños d e la muestra ven la televisión desde cero hasta 22.104 horas a la semana. (También se puede decir que 25 % de los niños d e la muestra ven la televisión 22.104 horas a la semana o más.) Calculemos ahora el noveno decil, esto es, D,. Claramente, 90 % d e los datos es 270, por lo que el noveno decil se halla en la quinta clase, cuyo límite real inferior es 27.5. Entonces:
D,= 27.5+
270 -262 X 7 = 30.167 horas semanales 21
lo cual quiere decir que s610 10% del total de niños de la muestra ven televisión más de 30.166 horas a la semana. Por último, calculemos el percentil P,. El 96% de 300 es 288, de manera que el noveno decil está en la sexta clase, cuyo límite real inferior es 34.5. Entonces tenemos: P, = 34.5 + 288 -283 x 7 = 37.416 horas a ia semana 12
lo cual implica que 4 % de los niños de la muestra ven televisión ese número de horas o más a la semana.
A diferencia de lo que se expuso antes para datos aislados, la moda para datos agrupados en clases es algo más complicada de definir y de calcular. La moda es algún punto intermedio de la clase modal, la cual es la clase (o clases) que tiene(n) el rectángulo más alto de todos. Por otra parte, la clase menos frecuente se llama antimoda, aunque este parámetro es de escaso valor práctico. En la figura 3.10 se ilustran la clase antimodal y la clase modal de un histograma. No hay que olvidar que puede darse el caso de que hayan dos o más modas, pero también puede ocurrir que no exista moda. La moda es algún punto de la clase modal, no necesariamente la marca de clase. Líneas abajo veremos cómo definirla y calcularla.
x,
x2
...
Antimoda
Moda
...
Figura 3.1 O
La interpretación geométrica de la moda para datos agrupados se aprecia en la figura 3.11, en la cual se han dibujado la clase modal y las dos clases adyacentes a ella. Los segmentos RT y QS unen, respectivamente, los vértices más altos del rectángulo correspondiente a la clase modal (la más alta) con los vértices más cercanos de los dos rectángulos adyacentes. La proyección del punto P en el eje x es m. y es ese punto precisamente el que se define como la moda. En principio, obsérvese que los triángulos PQR y PST son semejantes, ya que tienen sus ángulos respectivamente iguales. De la semejanza de dichos triángulos se sigue la proporcionalidad de sus lados, es decir:
Figura 3.1 I
Por otra parte, L, y U, son, respectivamente, los límites reales inferior y superior de la clase modal, cuya anchura es c. Si moes la abscisa que corresponde a la proyección del punto P, entonces:
donde Al y A2 simbolizan los excesos de frecuencia de la clase modal respecto a las clases anterior y posterior, respectivamente. Si despejamos m. de la relación anterior, se obtiene:
Si ahora sustituimos U, = L, + c en esta fórmula, queda:
88
Parte l. Estadística descriptiva
Esta última fórmula se adopta para el cálculo de la moda:
Apliquemos esta fórmula en el ejemplo 3.1, con una muestra de 300 niños: Horas semanales que - los niiíos miran 7V
Limites reales
l+ecuencia
La clase moda1 es, evidentemente, la segunda. Tenemos Al = 96 - 44 = 52; A, = 96 - 74 = 22; además, Al + 4 = 74 (fue sólo una casualidad que coincidiera con la frecuencia d e la tercera clase). Por tanto, la moda es:
OBSERVACI~N: Para las distribuciones asimétricas (sesgadas), tenemos las siguientes tres relaciones empíricas entre la media, la moda y la mediana (válidas tanto para datos aislados como para datos agrupados por clases):
No está demás recordar que la media de una muestra es un estadístico muy sensible a la presencia de puntuaciones extremas, llamadas puntuaciones aberranres (o anómalas), mientras que la mediana no lo es, ni tampoco la moda. En estos casos, ninguna d e estas medidas es totalmente satisfactoria como medida de tendencia central. Para datos aislados, una alternativa es una media ajustada, la cual se afecta menos por las puntuaciones aberrantes que la media, y aún no tiene la insensibilidad de la mediana. Una media ajustada se encuentra ordenand o las observaciones de menor a mayor, borrando cierto número d e medidas en
Cap. 3. Datos agrupados en clases o intervalos
89
ambos extremos y promediando las medidas restantes; al porcentaje d e valores borrados en cada extremo se le llama porcentaje de ajuste. En las competencias olímpicas de clavados o gimnasia, siempre se toma una media ajustada de las calificaciones de los jueces, borrando la más alta y la más baja. Para datos agrupados en clases no existe tal cosa como media ajustada; sin embargo, la moda es de mucho mayor utilidad práctica que para el caso de datos aislados.
La desviación estándar es algo engorrosa d e calcular usando sólo papel, lápiz y calculadora, a menos que se trate de sólo unas cuantas clases. Por suerte, contamos con las hojas d e cálculo d e Excel, que permiten hacer el trabajo operativo de modo rápido y preciso. La desviación estándar se calcula mediante la fórmula siguiente:
donde x,son las marcas d e clase y n,las respectivas frecuencias. Vamos a ver cómo se calcula la desviación estándar para el ejemplo 3.1. Abrimos una hoja de cálculo de Excel y efectuamos las operaciones d e manera expedita como se presenta en la siguiente tabla:
A J f UJJ
1 1
': Dividido entre n:
Raíz cuadrada:
1 ,
28772.1467 95.9071556 9,793219877
1
Así, la desviación estándar aproximada a tres dígitos decimales es s = 9.793. Hay otra fórmula alternativa y equivalente para el cálculo d e la desviación estándar:
90
Parte l. Gtadktica descriptiva
Es muy fácil comprobar que esta fórmula proviene de la conocida igualdad para la varianza poblacionai d e una distribución de frecuencias relativas cualquiera:
donde p, es la probabilidad (o frecuencia relativa) de x,. Para datos agrupados, n p, = A . Esta igualdad se demuestra fácilmente si se desarrolla (x, - Z)' en la n suma del miembro izquierdo. Nótese también que para datos aislados hay una varianza muestra1 y otra poblacional, las cuales se diferencian porque en el denominador de la primera aparece n - 1, mientras que en el de la segunda es sólo n. Para datos agrupados no hay tal diferencia. OB~ERVACI~N IMPO~ANTE:La imprecisión que se introduce en el manejo estadístico de datos agrupados en clases al tomar una marca de clase como representativa del intervalo, hace que algunas de las leyes fundamentales de la estadística no sean aplicables a datos agrupados. Por ejemplo, para variables aisladas, ya sea discretas o continuas, se puede demostrar con todo rigor que la mediana es el parámetro que minimiza el error absoluto medio. Para datos agrupados en clases, la validez de esa ley deja de ser aplicable. Ilustraremos este detalle con nuestro mismo ejemplo del número de horas semanales que los niños miran la televisión. Abrimos una hoja de cálculo de Excel y planteamos las operaciones que se indican:
1; Totales
Las sumas inferiores de las tres últimas columnas son, respectivamente, la desviación promedio de la media (desviación media), la desviación promedio de la mediana y la desviación promedio de la moda. Como podemos apreciar, la desviación promedio de la media resultó menor que la desviación promedio de la mediana, lo cual sería imposible para valores aislados de una variable aleatoria discreta o continua, ya que en tales casos se demuestra que la mediana es el parámetro que minimiza el error absoluto medio. Hay otras medidas de dispersión menos usuales, además de la varianza, la
91
Cap. 3. Datos agrupados en clases o intervalos
desviación estándar y las tres desviaciones promedio. Por ejemplo, el rango semiintercudirtil Q es la distancia media entre el primer cuartil y el tercero, esto es:
El rango semiintercuartil se usa como una estimación rápida y aproximada de los valores límites de la variable que abarcan a menudo entre 50 y hasta 70 % de las frecuencias relativas de toda la muestra (dependiendo de que la distribución sea simétrica o sesgada). Para el ejemplo que hemos venido examinando, el siguiente cuadro es un comparativo de las cinco medidas de dispersión más usuales (en orden de importancia). Se excluye la varianza porque ésta no se expresa en las mismas unidades. Se indican asimismo los símbolos empleados:
--
-
~ e m a c i ó nestándar (o de%acióntípica) -
.
- --
- 's -
-
Desviación media (desvjación promedio de Ia media) Desviación promedio d e la mediana --.-
'
> '
.
r---- 9.79322
d,
.-7.75911
d,
7.87027
Desviación promedio de la moda
d,
Rango semiintercuartil
Q
'
8.07207 .
6.54687
.Los ejemplos que hemos examinado a lo largo d e los capítulos anteriores tenían las clases con la misma amplitud o frecuencia. Si las distintas clases (o intervalos) tuviesen anchuras variables, entonces procedería remplazar el concepto d efrecuencia por el de dmidad defiecuencia. Lo demás se hace de la misma manera. A continuación definimos este concepto. Se llama densidad de frecuencia al cociente d e la frecuencia entre la amplitud de la clase: Densidad d e frecuencia =
Frecuencia Amplitud d e clase
En tales casos, el histograma se dibuja de tal manera que la escala del eje vertical es la densidad de frecuencia y no la frecuencia misma. Al calcular la moda, también se consideran los excesos de densidad d e frecuencia, en lugar d e los excesos de frecuencia. Ejemplo 3.2. En los bosques de llalpan se tomó una muestra de 400 abedules y se midieron sus alturas, redondeando las mediciones al metro más cercano. Las mediciones de sus alturas se clasificaron en ocho clases con anchuras variables:
92 Altura (metros)
Núm. de cfrboles
5-9 10-1:
18 58
12-1:
62
142t
72
17-19
57 42
20-22 23-26 27-36
36 55
Se requiere:
a) b) c) d) e) f)
Calcular la densidad de frecuencia de cada una de las clases. Hallar la moda. Afiadir una columna con la distribución de frecuencias acumuladas. Dibujar una ojiva que represente la distribución de las frecuencias acumuladas. Determinar la mediana de las alturas de esos árboles. Dibujar un histograma de las alturas de esos abedules (con la densidad de frecuencia en lugar de la frecuencia). g) Estimar el número de abedules (de la muestra) cuyas alturas miden entre 12 y 25 m, inclusive, redondeando las mediciones al metro más cercano. h) Calcular la probabilidad aproximada de que un abedul escogido ai azar mida más de 25 metros de altura.
Solución: a ) Se tiene la siguiente tabla:
Anchura
6 ) La clase modal es la que tiene la mayor densidad de frecuencia (no la mayor frecuencia). Por tanto, la clase modai es la tercera (y no la cuarta), toda vez que la tercera clase tiene la mayor densidad de frecuencia de todas.
Cap. 3. Datos agrupados en clases o intervalos
93
Entonces se procede en la siguiente forma, El límite real inferior de la tercera clase es 11.5. Ahora bien, los excesos de densidad de frecuencia son: A, = 31 29 = 2; 4 = 31 - 24 = 7. La anchura (amplitud) de la clase modal es 2. Por consiguiente, se tiene que la moda es:
c) Las frecuencias acumuladas se muestran en la tabla de la figura 3.12, donde la distribución de frecuencias acumuladas s e halla sumando a cada frecuencia la totalidad de las frecuencias anteriores. Como ya se ha señalado en este libro, el Excel no es propiamente un software estadístico, sino una hoja de cálculo para organizar datos; sin embargo, es de gran ayuda para aprender y practicar los métodos estadísticos.
altura _-límites 158--4.58.5
clase
-marcas (xi)_anchuras frecuencias frec. acumulada , r 7 7 5 18 1 8 1
.
Figura 3.12
d) Cuando se trata de manejar datos agrupados por intervalos, el usuario debe realizar una buena parte del trabajo y el Excel efectúa la parte operativa. Aquí, por ejemplo, para trazar el dibujo de la ojiva que representa la distribución de frecuencias acumuladas en forma gráfica, primero tenemos que elaborar una tabla como la siguiente, usando la utilería de copiar y de Pegado especial. El pegado especial nos proporciona una opción de Pegars6lo los valores, a efecto de que no se peguen también las operaciones o cálculos aritméticos implícitos en los números. Para dibujar la ojiva con Excel, entonces, se hace una tabla con dos columnas: 1
Límites reales 4.5 9.5 11.5 ,
13.5
1 1 1'
Frecuencia acumulada
'o 18
22.5
76
26.5
345
138
36.5
400
94
Parte l. Estadística descriptiva Obsérvese cómo se ha puesto primero el límite real inferior de la primera clase (4.5) con frecuencia acumulada de O, y debajo se han puesto todos los límites reales superiores de las ocho clases, con sus correspondientes frecuencias acumuladas. Siempre se procede de esta manera para dibujar la ojiva. Esto significa que si hay n clases, entonces la ojiva se dibuja sobre n + 1 puntos. A partir del último cuadro se dibuja la ojiva con Excel en la forma que se explicó antes (fig. 3.13).
Figura 3.13 e) La mediana se calcula por el procedimiento usual:
f ) A decir verdad, para dibujar histogramas elegantes, el Excel no es muy bueno que digamos, al menos en sus versiones actuales. Hay software alternativo mejor que el Excel para dibujos bonitos y elegantes de histogramas. Si el lector tiene tiempo de sobra, y nada mejor que hacer, entonces puede lograr muy buenos dibujos de histogramas con Excel, pero sólo después de maquillarlos mucho con el programa Paint de Microsoft. Por ejemplo, el dibujo de la figura 3.14 está basado en un histograrna de los que grafica Excel. g) Si las mediciones se toman redondeadas al metro más cercano, entonces el intervalo de 12 a 25 m es de hecho desde 11.5 hasta 25.5 en escala continua. En la figura 3.15 se muestra esa porción. El área total de la parte oscura es, por tanto:
Por consiguiente, hay 260 abedules (en la muestra de los 400) cuyas alturas oscilan entre 12 y 25 m, redondeando las mediciones al metro más cercano.
Figura 3.14
Figura 3.1 5
96
Parte l. Estadística descriptiva
h) Si las mediciones se hacen redondeando al metro más cercano, entonces el valor puntual 25 equivale al intervalo [24.5, 25.5). La probabilidad de que un abedul mida más de 25 metros es, en consecuencia, P(X > 25.5). Se divide entonces el área a la derecha del 25.5 entre 400:
Observe que si no hubiera la condición de que las alturas de los abedules se cierran al metro más cercano, esto es, si se tomara una escala continua, entonces no habría que hacer la corrección por continuidad, y en tal caso las respuestas de los dos últimos incisos habrían sido distintas. Es fácil ver que entonces la respuesta correcta del inciso g habría sido 240 (en lugar de 260), mientras que la respuesta correcta del inciso h habría sido 0.171 (en vez de 0.160). Terminamos este capítulo con el concepto de densidad de probabilidad, que es precisamente el cociente de dividir la densidad de frecuencia entre el total de frecuencias observadas: Densidad de probabilidad =
-
Densidad de frecuencia Total de frecuencias Frecuencia de la clase (Anchura de clase) x (Total de frecuencias)
En nuestro ejemplo de los 400 abedules, la densidad de probabilidad de cada clase se muestra en la última columna de la siguiente tabla:
Altura del Clase árbol (m)
Límites reales de (
' Dm'dad Frecuencit
A%
a
defrecuencia -&
r
1
,
5-9
[4.5,
18
3.6
Lkmídad deprobabilidad 0.00900
Adolphe Quetelet (1 796- 1874) y Sir Francis Calton (1 822- 19 1 1). En forma independiente, realizaron análisis estadístico en fenómenos relacionados con la biología humana y las variaciones genéticas. Calton inventó la palabra regresión.
Invitamos al estudiante a poner a prueba su aprovechamiento en el estudio del capítulo, tomando papel y lápiz (y también su computadora) para tratar de resolver los siguientes cinco ejercicios en menos de una hora y tres cuartos. Sólo después de resolverlos, deberá cotejar sus respuestas con las correctas, las cuales aparecen inmediatamente después de los ejercicios. La pregunta 2 vale cuatro puntos, y en las demás preguntas se da un punto por cada magnitud acertada de lo que se pregunta. El máximo número de aciertos posibles es, por tanto, 20. Si obtiene menos de 13 aciertos, entonces debe repasar de nuevo este capítulo y el anterior antes de seguir adelante. De 13 a 14 aciertos es regular, de 15 a 17 bueno, 18 o 19 es muy bueno, y 20 aciertos está fantástico y se hace acreedor a una calurosa felicitación. 1. En una hoja de cálculo de Excel, haga un comparativo de los errores cuadráticos me-
dios de la media, la mediana y la moda, para el ejemplo que se manejó a lo largo de este capítulo (ias horas semanales que lo niños ven televisión). Se supone que el error cuadrático medio de la media (es decir, la varianza) debe ser el mínimo. Compruebe si en efecto ocurre así. (Tires puntos) 2. Para el mismo ejemplo del ejercicio 1, compruebe si en efecto ocurre que, al trazar 10 una línea vertical en el histograma, justo en el punto me = 13.5 + -x 7, el área que 74 queda en el histograma a mano izquierda es 50 % del área total del histograma. [Sugerencia: Podría ser más cómodo para usted emplear fracciones y no aproximaciones decimales.] (Cuatro puntos por el valor exacto de las áreas y sólo tres por una aproximación decimal razonable)
98
Parte l. Estadística descriptiva
3. La siguiente tabla resume el número de días de estancia posoperatoria en el Hospital General Manuel Gea González al sur de la Ciudad de México, para una muestra aleatoria de 400 pacientes que fueron intervenidos quirúrgicamente en ese hospital:
Dtas de estam'a : posoperatoria
pacientes --
la3 4a6 7a9 10 a 12
Dtm ak estancia posoperaton'a 13 a 15
Núm. de
-
-v.
44
1
16 a 18 19a21 22 a 24
.
Núm. de pacientes
22 10 4
-
2
En una sola hoja de cálculo de Excel calcule la media,la desviación media,la varianza y la desviación estándar. [Sugerencia:En la primera columna anote las marcas de clase, en la segunda las frecuencias, en la tercera las frecuencias relativas, etc.] (Cuatro puntos) 4. Para los datos del ejercicio 3, calcule:
a) la mediana b) el cuartil Q, c) el cuartil Q, d ) el rango semiintercuartil Q e) el percentil P,, f) Dé una interpretación del percentil P,, (Seis puntos)
5. Para los mismos datos del ejercicio 3, calcule: a) la moda b) 'la desviación media de la mediana e) la desviación media de la moda. (Tres puntos)
1. Los errores cuadráticos medios de la media, la mediana y la moda, respectivamente, son las sumas que aparecen al final de las tres últimas columnas en la tabla siguiente. Se comprueba que la varianza, es decir, el error cuadrático medio de la media (o momento central de segundo orden) es la menor cifra de las tres.
31 38 45 Totales
21 12
0.0700000 0.0400000
5 n = 300
0.0166667 1.0000000 -
-
'
15.5128991 19.1610471
19.1825694 22.1917385
13.9073252
15.5591703
95.907156 -- -
98.687336
1
26.8393115 28.2621549 -18.7948168 117.94468
2. El área total del histograma (suma de las bases por las alturas) es Z 7 n, = 7
&,
=7 x 300 = 2100 unidades cuadradas. Ahora bien, el área de la primera barra (primer rectángulo) es 7 x 44 y de la segunda barra es 7 x 96. Luego, tenemos una pequeña porción del tercer rectángulo, cuya altura es 74 y de cuya base s610 tomamos m. - 13.5 = 10 10 x 7 unidades de longitud. Por tanto, el área de esta pequeña franja es -x 74 74 7 x 74 = 70. Así que la suma de áreas que hay a mano izquierda de la recta vertical que pasaporlamedianaes7x44+7x96+7x10=7x(44+96+10)=7x150=1050 unidades cuadradas, que es precisamente la mitad del área total del histograma. 3. La siguiente tabla proporciona toda la información pedida:
Leemos, entonces que Z = 7.115 días, d, = dm = 2.98305 días, s Z = 14.83178, s = 3.8512 días. 4. La siguiente tabla es útil para contestar los incisos de este ejercicio:
100
Parte l. Estadistica descriptiva
a) La mediana está en la segunda clase, luego:
m, = 3.5 +
200 - 48 x 3 = 6.25 días 166
b) El cuartil Q, está también en la segunda clase:
c) El cuartil Q3está en la tercera clase:
Q3= 6.5
e)
- 214 + 300104
X3
~ 8 . 9 días 8
El 87 % de 400 es 348. Por tanto, el percentil P,, está en la cuarta clase. Luego: P, =9.5+
348 - 318 x 3 =11.g días de estancia 44
f) Esto significa que 13% de los pacientes de esa muestra permanecen en el hospital 11.3días o más, después de la operación (o también que 87% de los pacientes permanecen 11.3días o menos).
5. a) La moda es m. = 3.5 +
x 3 = 5.46 días de estancia. 118+ 62 Las respuestas de los incisos b y c aparecen en la parte inferior de las últimas dos columnas de la siguiente tabla:
En el siguiente cuadro, anote con lápiz suave sus respuestas. Los procedimientos debe realizarlos en hojas separadas y no en el libro. (En el apéndice D aparecen las respuestas correctas para que las coteje con las suyas.)
l. i ) ii) iii ) 6
2. i ) - 3. 4. i ) - 5. i ) ii) ii) ii) iii) iii) iii) . ) 9. i ) 1O.i)7. i ) 8. i ii) ii) ii) ii) iii ) iii) iii) -
iv) -
1. El número de cheques bancarios cobrados diariamente en cinco sucursales de un banco durante el mes anterior tuvo la siguiente distribución de frecuencia:
-
-
Frecuencia -
-
-
L
2Lv-277 400-599 600-799 800.999
IJ
17 42 18
Determine:
i ) la media ii) la mediana iii) la desviación media.
a) 586.5 a) 644.12 a) 201
b) 587.5 b) 645.12 b) 202
c) 588.5 c) 646.12 c) 203
d) 589.5. d)647.12. d) 204.
2. Con respecto a los datos del problema 1, calcule: i ) el cuartil Q, ii) el percentil P,, iii) la moda.
a) 766.17 a) 516.75 a) 701.54
b) 767.17 b) 517.15 b) 702.54
c) 768.17 c) 517.95 c) 703.54
d ) 769.17. d ) 518.66. d ) 704.54.
3. Con referencia al ejercicio 1, determine el valor de la desviación estándar.
4. En una muestra aleatoria de 80 niños cuyas edades fluctuaban entre los cinco y los 15 años de edad, se describió el número de horas semanales que ellos jugaban algún tipo de videojuego (Nintendo o Pkzy Statim), con los siguientes resultados:
Núm. de r enlamut
Determine:
i ) la media i i ) la mediana iii) la desviación media.
a ) 19.06 a ) 19.98 a ) 4.75
b) 20.06 b) 20.98 b ) 5.75
c ) 21.06 c ) 21.98 c ) 6.75
d ) 22.06. d) 22.98. d ) 7.75.
5. Con respecto a los datos del ejercicio 4, calcule: i ) el cuartil Q , i i ) el percentil P,, iii) la moda.
a) 15.75 a ) 23 a ) 21
b ) 16.25 b ) 23.25 b ) 21.25
c ) 16.5 c ) 23.5 c ) 21.5
d ) 16.75. d ) 23.75. d ) 21.75.
6. Con respecto al ejercicio 4, determine el valor de la desviación estándar.
7. En relación con el ejercicio 4, seis meses después se tomó otra muestra aleatona diferente de 80 niños cuyas edades fluctuaban entre los cinco y los 15 años de edad, y de nuevo se describió el número de horas semanales que ellos jugaban algún tipo de videojuego (Nintendoo Play Stath). Esta vez los resultados fueron los siguientes:
Núm. & hora semanales que dedican a videojuegos 10-14 15-19 20-24 25-29 30-34 35-39
Núm. de
1
niños en ia muestra
8 28 -
27 12 4 1
Cap. 3. Datos agrupados en clases o intervalos
103
Determine:
i ) la media ii) la mediana iii) la moda.
a) 19.69 a) 19.24 a) 16.26
b) 20.69 b) 20.24 b) 17.26
c) 21.69 c) 21.24 c) 18.26
d) 22.69. d) 22.24. d) 19.26.
8. En relación con el ejercicio 7, calcule:
i) el cuartil Q, ii) el percentil P,,.
a) 23.94 a) 17.786
b) 24.44 b) 17.998
c) 24.94 c) 18.233
d) 25.44. d) 18.667.
9. En una competición de ajedrez magistral participaron 10 jugadores bajo el sistema de todos contra todos. La siguiente tabla es una lista de la duración (en número de movimientos) de las 45 partidas que se disputaron:
Para la variable aleatoria X que representa el número de movimientos en una partida de este torneo (visto como una población), calcule:
i) ii) iii ) iv )
la media a) 36.47 b) 37.47 c) 37.97 la moda a) 31 b) 32 c) 33 la mediana a) 3 1 b) 32 C ) 33 la desviación estándar poblacional o = on.
d) 38.17. d) 34. d) 34.
10. En relación con el ejercicio 9, suponiendo que X denota ahora el número de jugadas de una partida de ajedrez magistral (siendo las 45 partidas de este torneo tan sólo una muestra de esa población):
i ) Calcule la desviación estándar muestral, es decir, S = on-,.
ii) Calcule el error típico de la media.
iii) ¿Cuál es el rango?
EJERCICIOS COMPLEMENTARIOS 3.1 1. Especifique los límites reales de clase de los siguientes intervalos:
Intervalo 1.275-1.276 Límites reales 2.2-2.4 Intervalo Límites reales
1.277-1.278
1.279-1.280
1.281-1.282
2.5-2.7 2.8-3.0 3.1-3.3
0.93-0.96 0.97-1.00 1.01-1.04 1.05-1.08 Intervalo Límites reales
Intervalo
---o1 4
1 1 --4
2
3 --1 4
1 1--14
1 2
Límites reales -
e)
-
Edades (arloscumplidoscompletos) 11-13 14-16 17-19 20-22 23-25 Límites reales
[NOTA: Cuando se trata de años cumplidos completos,los intervalos no se rigen por la regla del punto medio. Un niño dirá que tiene 12 años aun el día anterior a su decimotercer cumpleaños. Por tanto, los límites reales de clase del intervalo 11-13 son 11 y 14, etc.] Pesos (a los 5 kg más cercanos) 0-25 Limites reales
30-50 55-75 80-100
2. Exprese con Iímites reales el intervalo de estaturas que va desde 165 cm hasta
192 cm, es decir, el intervalo [165, 192), si la graduación de la escala se mide: al centímetro más cercano al medio centímetro más cercano al cuarto de centímetro más cercano 4 al milímetro más cercano. a) 6) c)
3. Suponga que el dinero se considerase como variable continua (que de hecho lo es), pero que la mínima moneda que existe para transacciones mercantiles físicas es la de cinco centavos, lo cual hace que en la práctica el dinero se comporte en forma no continua (es decir, discreta). Según esto, sixdenota el sueldo que cobra por hora un obrero, exprese con límites reales los siguientes intervalos: a) 6) c)
Xvale más de 45 pesos con 55 centavos (es decir, X > $45.55). X vale no menos de 50.50 pesos, pero menos d e 88.75 pesos ($50.50 IX < $88.75). Xvale más de 55.80 pesos, pero no más de 99.95 pesos.
Cap. 3. Datos agrupados en clases o internalos
105
4. Suponga que la mínima moneda existente para transacciones mercantiles físicas fuese el centavo (como ocurre e n muchos países, y como era en México hace unos 50 años). Repita entonces los tres incisos de la pregunta 3 con esta condición. 5. En las zapaterías de México, el calzado se da en tallas y medias tallas, con el conjunto (18, 181/z, 19, 191/z, 20, 201/2,. . ., 29, 291/2). Si se quisiera expresar este conjunto de medidas en una escala continua de intervalos mutuamente excluyentes, en los que esas tallas fuesen los centros de los intervalos, indique cuáles serían los Iímites redes de cada clase. 6. Encuentre los límites reales de clase y las marcas de clase de la siguiente sucesión de intervalos:
Intervalo Limites reales Marcas de clase
1-30
31-60 61-90 91-120 121-150 151-180
7. Encuentre los límites reales de clase, las marcas de clase y la anchura (o amplitud) de cada clase en la siguiente sucesión de intervalos, donde las mediciones se hacen al centésimo más cercano:
Intervalo Limites reales Marcas de clase Anchura
2.25-3.38
3.39-4.45
4.46-6.12
6.13-9.99
8. La tabla siguiente muestra la distribución de frecuencias de las calificaciones finales de historia universal para quinto año de bachillerato en la escuela CEMAC, durante
el segundo semestre de 2004:
CaliJicación 94-100 Frecuencia 32
87-93 52
80-86 94
73-79 66-72 59-65 52-58 0-51 16 82 118 9 19
Para estos datos se requiere calcular: a) el tercer cuartil 6) la mediana c)
la moda.
Exprese sus respuestas con precisión de cuatro dígitos decimales después del punto, con redondeo correcto. [Sugerencia:Empiece por ordenar los datos en la forma usual, esto es, de menor a mayor y en columnas.] 9. En un examen final de redacción y literatura española de un instituto se registraron las siguientes calificaciones, de un total de 120 alumnos que lo presentaron:
CallJcacibn 90-100 80-89 Frecuencia 32 9
70-79 43
60-69 21
50-59 40-49 30-39 11 1 3
106
Parte l. Estadística descriptiva
Para estos datos, determine: a) la media 6) la mediana c) el percentil P,,.
Proporcione sus respuestas a cuatro dígitos decimales después del punto, con redondeo correcto. 10. Con respecto a los datos del ejercicio 9, calcule: a) los cuartiles Q, y Q, 6) la moda c) la desviación media. 11. Para los datos del ejercicio 8, obtenga: a) la media
b) la desviación media c) la varianza. 12. La siguiente tabla muestra la distribución porcentual de sueldos para trabajadoresmexi-
canos afiliados al IMSS, en "veces el salario mínimo vigente" (vsm), para el año 2004.
~t&kio {vsm)
&icmtaje de trabajadores
(vsm)
trabajadores
1-1.9
18.21
6-6.9
3.41
2-2.9 3-3.9 4-4.9 5-5.9
.
7-7.9 88.9
-
A
1
1
1.28
9-9.9 10-20
7.V1
5.50
5.37
A
Calcule: a) la media b) la moda c) la mediana d ) el cuartil Q? e) la desviacion media.
13. Los datos siguientes representan la distribución de carga máxima en toneladas cortas (ton) que pudieron soportar unos cables de acero producidos por una compañía.
Calga máxima soportada (ton) 9.3-9.7 9.8-10.2
Ntím. de cables 2
10.3-10.7 10.8-11.2
L/
''c+
mkcima soporta& (ton)
~úm,'de cables
11.3-11.7
14
118-12.2
6
12.3-12.7
3 1
12.8-13.2
Cap. 3. Datos agrupados en clases o interualos
1 07
Calcule: a) 6) c)
4
la media la moda el tercer cuartil la desviación media.
14. Al término del campeonato nacional de ajedrez abierto de México, durante abril de 2003, se hizo una encuesta entre los 80 ajedrecistas que ocuparon los primeros lugares en la categoría de primera fuerza y maestros. Se les preguntó cuántas horas a la semana habían dedicado al estudio y preparación para el certamen durante los meses previos al torneo. Los datos se recogen en la siguiente tabla:
Calcule: la media la moda la mediana d ) el cuartil Q e) el percentif~,,. a) 6) c)
15. En una escuela de Los Ángeles, California, Se escogieron al azar 100 estudiantes varones y se midió su estatura en pulgadas (redondeando a la pulgada más cercana), con los siguientes resultados:
Calcule: a) 6)
la media la mediana
c)
la moda
4 la desviación estándar.
108
Parte l. Estadística descriptiva
16. En una escuela primaria se registraron las estaturas de 125 niños del mismo grado, redondeando las mediciones a los 10 centímetros más cercanos. Los siguientes fueron los resultados:
Estaturas (cm) Núm. de niños
50-70
80-100
110-120
130-140
150-170
18
24
23
33
27
a) Dibuje un histograma (a mano o con computadora) usando las densidades de
frecuencia. 6) Si se toma un niño al azar de ese grupo, estime la probabilidad de que su estatura oscile entre 112 cm y 128 cm en medición exacta, esto es, sin hacer corrección por continuidad. 17. En un examen de matemáticas se registraron los siguientes resultados d e califica-
ciones:
Dibuje un histograma (con densidades de frecuencia) y úselo para averiguar el número de alumnos que obtuvieron entre 43 y 54 (inclusive). 18. Dibuje una ojiva correspondiente a los datos del ejercicio 17. 19. En un estudio del INEGI se tomó una muestra de personas al azar en el D. F. y otra en Cancún, con los siguientes rangos de edades en años cumplidos completos: Distrito Federal
Edad (años completos)
0-9
10-19
20-34
35-54
55-79
Núm. de personas
440
480
630
440
150
Cancún
Edad(añoscompletos) Núm. de personas
0-3
4-23
24-38
39-48
49-58
59-73
74-88
54
180
291
315
360
384
90
Para cada una d e las dos muestras, obtenga una tabla con las respectivas densidades de frecuencia y con las densidades de probabilidad de cada clase. [NOTA:Como se mencionó antes, cuando se trata de años cumplidos completos, los intervalos no se rigen por la regla del punto medio. Un niño se dice que tiene 9 aiios aun el día anterior a su décimo cumpleaños. Por tanto, los límites reales d e clase del intervalo 0-9 son O y 10, del intervalo 10-19 son 10 y 20, y así sucesivamente.] 20. Con objeto de hacer una estimación de la temperatura media diaria durante la primavera en la ciudad de Toluca, se tomó el registro de la temperatura media de cada día durante 150 días al azar en época primaveral en esa ciudad, con los siguientes registros, redondeados al grado centígrado más cercano:
Dibuje una ojiva (con Excel) y úsela para estimar lo siguiente:
c)
El número de días en los cuales la temperatura (exacta) fue menor a 19OC. [Cuando se dice exacta, significa que no hay que usar corrección por continuidad.] El número de días en los cuales la temperatura (exacta) osciló entre los lG°C y los 22 OC, inclusive. La temperatura que fue sobrepasada durante los 25 días más calurosos de la muestra.
Con respecto al ejemplo de las alturas de 400 abedules, el cual se examinó casi al final del capítulo, obtenga la distribución de probabilidad acumulada (es decir, el cociente de la frecuencia acumulada entre el total de frecuencias), para llenar las entradas que faltan en la siguiente tabla: Altura (m)
9.5
11.5 13.5 16.5
Probabilidad acumulada
19.5
22.5
26.5
36.5 1
0.6675
22. Un examen de 200 preguntas sobre conocimientos generales, matemáticas básicas y
redacción fue presentado por 75 alumnos de preparatoria del Colegio Simón Bolívar en mayo de 2002. La distribución de calificaciones que resultaron se muestra en la siguiente tabla: Aciertos Núm. de estudiantes
1-30
31-60
61-90
91-120
121-150
151-180
3
9
20
22
13
8
Si x denota la marca de clase d e un intervalo, considere la nueva variable (codificada) :
a) Calcule ahora Ü (la media de esta variable codificada) usando la misma distribu-
ción de frecuencia. b) Obtenga ahora la media de x (es decir F) aplicando la transformación inversa x = 30u + 75.5.
1 10
Parte 1. Estadística descriptiva
23. Cuando un conjunto de datos aislados se agrupa en clases o intervalos, siempre habrá una pérdida de precisión al estimar la media y los demás parámetros, pero para compensar esa pérdida de precisión, los cálculos son más rápidos y fáciles. Suponga que un grupo de 80 alumnos presentaron un examen de 50 preguntas fáciles sobre cultura general y conocimientos básicos de aritmética, pero se perdieron los reportes individuales de las calificaciones y sólo se conservó el siguiente registro por intervalos:
Aciertos Núm. de alumnos
1-10
11-20
21-30
31-40
41-50
3
17
28
21
11
¿Cuál es el máximo valor posible y el mínimo valor posible para la media de calificaciones si se hubiese calculado directamente a partir de los 80 datos originales? 24. Se eligieron al azar las credenciales de 200 socios del club deportivo y familiar Asturiano, con las siguientes edades en años cumplidos completos:
Edad (añoscumplidos) Núm. de socios
0-20
20-40
40-60
Más de 60
60
55
45
40
Estime la media de la edad de esos socios si se sabe que:
a) la edad media de los que tienen más de 60 años es de 68 años; b) la edad media de los que tienen más de 60 años es de 78 años.
25. Con respecto al ejercicio 24, si se sabe que la media de las edades de los 200 socios es de 36.7 años, estime la edad media de los que tienen más de 60 años. 26. Encuentre: a) la desviación media 6) la desviación estándar. de las calificaciones correspondientes a los datos del ejercicio 22. 27. A un grupo de 250 jóvenes egresados de carreras universitarias en México se les preguntó cuántas semanas habían permanecido desempleados durante los últimos dos años, con los siguientes resultados:
Semanasde desempleo Núm. de personas
0-2
2-4
4-8
8-13
13-26
26-52
52-104
22
18
31
30
47
46
56
a) Calcule el tiempo medio (en semanas) que los jóvenes permanecieron desem-
pleado~. 6) Calcule la desviación estándar del tiempo de desempleo. 28. En relación con el ejercicio 27, dibuje un histograma (a mano o con computadora) y estime el tiempo de desempleo que dista de la media no más de una desviación estándar. 29. De las bases de datos de personas afiliadas al Seguro Social en Guanajuato se seleccionó una muestra aleatoria de 200 personas, con la siguiente distribución de edades, en años cumplidos completos:
Edad (años cumplidos) Núm.depersonas
10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89
0-9
24
13
5
35
40
22
36
16
9
Si x es la edad de una persona, use la codificación u = - 45 para calcular la me10
dia de esta nueva variable u, y después use la codificación inversax = 10u + 45 para hallar la media de x. (Es similar al ejercicio 22.) 30. Si x es la marca de clase y f la frecuencia en una distribución por clases o intervalos, y si a y b denotan dos constantes cualesquiera, distintas de cero, entonces se puede usar la codificación:
En tal caso, si a y b se eligen apropiadamente, se puede simplificar el cálculo de la desviación estándar de la variable original (S%) en términos de la desviación estándar de la variable codificada (su) mediante la igualdad:
Calcule de este modo la desviación estándar de los datos del ejercicio 29, con la codificación indicada. 31. Use el método indicado en el ejercicio 30 para hallar la desviación estándar de los datos del ejercicio 22, con la codificación usada ahí. 32. Los diámetros de unos balines usados en la industria aeronáutica se miden con precisión hasta el centésimo de milímetro más cercano. En una muestra de 300 balines se registraron las siguientes mediciones de los diámetros en milímetros, redondeados al 0.01 mm más cercano.
balines
balines 35.46-35.50.
'
35.51-35.55
14
Use alguna codificación apropiada (véanse los ejercicios 22 y 30) para calcular la media y la desviación estándar del diámetro de esos balines. 33. Un conjunto de 236 piezas brutas de jade se pesaron con una balanza que no estaba bien ajustada, pero la persona que las pesó ignoraba eso. Se obtuvo el siguiente registro (en escala continua): Pesoengramos
10-15
Núm. depiezas
7
15-20 20-25 21
38
25-30 30-35 46
50
3540
4045
45-50
54
18
2
1 12
Parte l. Estadística descriptiva
Luego se descubrió que la balanza daba un peso de 3 g superior al real, pero las piezas ya no estaban disponibles para volverse a pesar. Calcule la media verdadera y la desviación estándar verdadera de los pesos de esas piezas de jade. 34. Durante el XL periodo ordinario d e sesiones del Congreso en la Ciudad de México hubo 60 diputados que faltaron a su trabajo una o más veces con el siguiente registro: Núm. de imStencias
1-3
4-6
7-9
10-12
13-15
16-18
19-21
Núm. dediputados
24
22
8
4
1
O
1
Calcule: a) el rango semiintercuartil
b) la desviación media e) la desviación estándar. 35. En relación con los ejercicios 29 y 30, calcule el número de personas de la muestra cuyas edades están a no más de dos desviaciones estándar alrededor de la media.
Cuando alguna persona hispanohablante aprende el idioma inglés, siempre llega un momento en que le enseñan que el término inglés para la expresión "¿cuántos...?" (o "¿cuántas...?') depende d e que se trate de cosas que se pueden contar (how m n y ? ) o d e cosas que no se pueden contar sino medir (how long? o how much?). En estadística se hace la misma distinción cuando se hace referencia a magnitudes variables. Si se trata de magnitudes que se pueden contar (aunque pudieran quizá ser infinitas) se llaman variables discretas. En cambio, si las magnitudes no se pueden contar, sino que se miden en algún tipo de unidades (centímetros, litros, gramos, unidades de dinero, unidades de tiempo, etc.), entonces se llaman variables continuas. Algunos ejemplos de variables aleatorias discretas son: el número de huevos que pone cierta gallina cada semana, el número de veces que una moneda cae en águila al lanzarla 15veces al aire, el número de reos que se escapan cada mes de las prisiones de México, el número de votantes que manifiestan preferencia por cierto partido político en una casilla electoral, el número de hijos que tiene una señora cualquiera que lleva 20 años de casada, etc. Por otra parte, algunos ejemplos de variables aleatorias continuas son: el tiempo que tarda una persona en cobrar un cheque desde que llega a la sucursal del banco hasta que se lo pagan, la cantidad exacta de sangre que bombea el corazón de un adulto en un latido, la estatura exacta de un soldado elegido al azar, la cantidad exacta de dinero que reúne cada año el gobierno de un país (de impuestos y otros ingresos) para ejercer su presupuesto, etcétera. Las variables aleatorias (sean discretas o continuas) tienen siempre una distribución de frecuencia relativa (o distribución d e probabilidad) asociada; ade-
14
Parte l. Estadística descriptiva
más, tal distribución puede ser teórica o empírica. Por ejemplo, si usted lanza un dado muy bien hecho (dado honrado) muchas veces, en teoría deberá obtener 1
cualquiera de las caras hacia arriba con una frecuencia relativa de - ; igualmen-
6
te, si lanza una moneda al aire muchas veces, en teoría la frecuencia relativa de 1 cualquiera de los dos lados (águila o sol) es d e - (es decir, 50%). Podría darse 2 el caso de que en un experimento particular con sólo 10 lanzamientos d e la moneda usted obtuviera, por ejemplo, nueve soles y sólo una vez águila (es improbable, pero factible); no obstante, sería absolutamente inverosímil que en 100 lanzamientos usted obtuviera 90 veces sol y únicamente 10 águilas. A medida que el número de ensayos aumenta, las distribuciones empíricas tienden rápidamente a la distribución teórica preestablecida (Ley de los Grandes Números). Sin embargo, en situaciones prácticas cotidianas, las cosas suelen ser mucho más complejas que sólo lanzar dados o monedas al aire, por lo que a menudo resulta muy difícil o imposible establecer la distribución teórica y hay que conformarse con algunos experimentos prácticos que ayuden a estimar de manera empírica la distribución deseada o, por lo menos, algunos de sus parámetros importantes. Las variables aleatorias continuas, por sus características, requieren un tratamiento especial, el cual consiste en estimar sus respectivas frecuencias relativas (o probabilidades) por intervalosy nunca de manera aislada.A veces también se usa la clasificación en intervalos (o clases) para variables discretas, haciendo lo que se llama corrección por continuidad, lo que implica remplazar puntos por intervalos. Por ejemplo, si una variable discretaxsólo asume los valores O, 1y 2, y por alguna razón se le desea dar tratamiento de variable continua o bien se desea dibujar el histograma en escala continua, tomamos el O como el intervalo [-0.5, OS), el 1como el intervalo [OS, 1.5) y el 2 como el intervalo [1.5,2.5), y entonces trabajamos con la variable X como si tuviese una variación continua desde -0.5 hasta 2.5.
Quizá algunos de los lectores d e este libro ya llevaron un curso de cálculo elemental, por ejemplo, en tercer año de bachillerato (preparatoria o CCH); no obstante, como se mencionó en el prólogo, no se presupone que el lector a quien va dirigido este libro sepa cómo derivar o integrar algunas funciones elementales, como polinomios, por ejemplo. En esta sección, daremos una receta rápida e informal para que el lector pueda, por lo menos, calcular áreas bajo funciones del tipo más elemental. En primer lugar, tiene que aprender a calcular lo que es la integral indefinida de una funciónf(x) multiplicada por una expresión diferencial dx,denotada por el símbolo:
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 15
El símbolo dx se llama diferencia de x, e indica además que la integral se calcula con respecto a la variable independiente x. No importa que el estudiante no entienda por el momento qué cosa significa eso; basta con que esté enterado de que la integral [l]es un operador Lined, es decir, un operador sobre las funciones de la variable independiente x, que satisface las siguientes dos condiciones de linealidad: 1. Icfx)dX de x.
I
=c
f(x)&, donde c es una constante, esto es, no depende
De acuerdo con esto, la integral de una suma o diferencia de funciones es igual a la suma (o diferencia) de las integrales respectivas de cada una de esas funciones. Además, se verifica la siguiente propiedad útil:
3.
I
xndX=-
xn+'
(más una constante de integración que se ha omitido),
n +l siempre que n # -1.
Esta última propiedad es válida aun cuando n no fuese un entero. Ejemplo 4.1. Evaluar la integral indefinida siguiente:
Solución:Se obtiene:
donde la C representa una constante de integración, que no tiene mayor importancia por el momento.
Ahora vamos a ver cómo se calcula el área bajo un tramo continuo de una función y =f (x), comprendida entre las rectas verticales x = a (a la izquierda) y x = b (a la derecha), como se ilustra en la figura 4.1. El área se calcula mediante la integral definida siguiente:
Figura 4.1
Aquí a y b se llaman limites de integración, y F(x) sería la función q u e resulta d e la integral indefinida, como se vio previamente, esto es:
Ejemplo 4.2. Calcular el área comprendida bajo la gráfica de la función:
desde el punto de abscisax = 1hasta el infinito. Solución: Este es un ejemplo de una curva asintótica a los ejes; es decir, en este caso los ejes coordenados son asíntotas de la curva, ya que ésta tiende a acercarse cada vez más a ellos, pero jamás los llega a tocar. Sin embargo, la manera como la curva se aproxima al ejeXes mucho más rápida de como lo hace al eje Y. Debido a esta rapidez de acercamiento al eje de las abscisas, el área comprendida bajo la curva y por encima del eje X queda bajo control y no se dispara hacia el infinito. En cambio, el área comprendida entre el eje Y y la curva no puede controlarse y se hace infinita. En probabilidad y estadística es muy común tratar con curvas que se acercan tan rápidamente al ejeXque impiden que el área comprendida se escape de control, a pesar de quejamás hay un punto de contacto entre la curva y el eje X. En este caso, el área sombreada de la figura 4.2 se calcula así:
Figura 4.2
Un matemático que leyera esto, quizá frunciría el ceño ante semejante abuso al escribir que menos uno entre infinito es cero, y nos diría que, a decir verdad, debe ser el límite de menos uno entre algo (por ejemplo, t) cuando ese algo tiende a infinito. Pero repetimos que sólo deseamos dar una regla práctica y sencilla para aquellos lectores que nunca cursaron cálculo. Lo anterior significa que la cantidad total d e área d e la región sombreada en la figura 4.2 (a pesar de que no está acotada por la derecha) queda bajo control y equivale al área de un cuadrado de lado unitario, esto es, vale una unidad de superficie. Este tipo de integrales (con algún límite de integración infinito) se llaman integrales impropias del primer tipo, y son muy usuales en estadística.
Cuando la curva que representa una distribución d e frecuencias relativas (o una distribución de probabilidad) es asimétrica con respecto a una recta vertical trazada por la media, se dice que es una distribucihn sesgada, o una curva sesgada. En la práctica, hay algunos tipos d e curvas importantes en estadística, y casi todas se pueden clasificar en tres tipos: las curvas que tienen forma acampanada y simétrica (por ejemplo, la distribución n o m l y la t de Student), cuyo sesgo es igual a cero (es decir, no hay sesgo); las curvas que presentan una especie d e cola hacia el lado derecho (por ejemplo, la distribución gama y sus casos particulares, que son la d e Erlang y laji-cuadrada), las cuales tienen sesgopositiuo; y
1 18
Parte l. Estadística descriptiva
por último, las curvas que presentan una especie de cola hacia el lado izquierdo (como la distribución beta, o la distribución G).' Hay una magnitud llamada sesgo (o coeficiente de asimetría) que sirve para medir la asimetría de la que estamos hablando. Si dicha magnitud es positiva, entonces la curva presenta una especie de cola del lado derecho, y en ese caso la moda, la mediana y la media son puntos diferentes que aparecen precisamente en ese orden: m. < me < p, y casi siempre la distancia entre la moda (m3 y la mediana (me) es más o menos dos terceras partes de la distancia entre la moda (m3 y la media (p), aunque tal relación es sólo empírica y aproximada. La curva típica con sesgo positivo aparece en la figura 4.3.
Figura 4.3. Ejemplo de una distribución con sesgo positivo.
Recuérdese que en el ejemplo 2.6 (el número de artículos llevados por los clientes de una pequeña tienda de autoservicio) la distribución de frecuencias relativas tenía más o menos el aspecto característico de la figura 4.3. Si hubiésemos calculado su sesgo (con fórmula o con Excel), habríamos comprobado que resultaba una magnitud positiva. Asimismo, en el resumen de estadística descriptiva dado por Excel en la última sección del capítulo 2, aparece el coeficiente de asimetría (o sesgo) como 0.1164, lo cual significa que la distribución de frecuencias relativas debe tener más o menos este aspecto también. En la práctica hay muchas variables aleatorias que tienen distribuciones características con sesgo positivo, como las distribuciones de sueldos (salarios) de trabajadores, la distribución de la edad a la que se casan las mujeres (o los hombres), la distribución de la densidad de tráfico en algunas avenidas por la mañana, la distribución de los tiempos de llegada de los trabajadores a una fábrica o de los 'Los detalles de esta nueva distribución G, propuesta por los autores, pueden verse en el libro Problemurio de probabilidad, por Piotr M. Wisniewski y Gabriel Velasco Sotomayor, Thomson International Editores, México, 2001, pp. 249-253.
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 19
estudiantes a una escuela, etc. También en la Naturaleza apareren con frecuencia ese tipo de distribuciones con sesgo positivo, como la distribución de la energía cinética de las moléculas de un gas ideal. Por otra parte, las curvas con sesgo negativo (es decir, con cola hacia el lado izquierdo) son mucho más raras en la estadística, pero también son importantes. En tales distribuciones, el orden de aparición de los parámetros de localización es exactamente al revés, es decir, p < me < mo.En la figura 4.4, podemos ver una curva típica con sesgo negativo.
Figura 4.4. Ejemplo de distribución con sesgo negativo. Tanto en la Naturaleza como en finanzas y ciencias sociales, hay casos de distribuciones con sesgo negativo. Algunos ejemplos serían los siguientes: la distribución de la edad a la que aprenden a andar solos los niños, la distribución del tiempo en el que explotan las semillas de maíz en el horno de microondas para convertirse en palomitas (o rosetas), la distribución del tiempo de devolución de dinero prestado o de un libro de la biblioteca pública, la distribución de las fechas en las que se realiza algún trámite engorroso con una fecha límite (como el canje de placas o el pago de la tenencia del auto), y algún ejemplo trágico: la distribución de probabilidad de que un pasajero de un trasatlántico (como el Titanic) decida arrojarse al agua (en bote, con salvavidas, con una tabla o sin nada) desde el momento del impacto del barco contra un iceberg hasta el momento en que el barco se hunde. Por último, una curva con sesgo cero es simétrica con respecto a la recta vertical que pasa por la media. Lo más común es que semejantes curvas simétricas sean también de forma acampanada. En estadística, hay dos distribuciones de enorme importancia teórica y práctica con aspecto acampanado y sesgo igual a cero. Una se conoce como la curva normal de probabilidad, la cual fue descubierta y analizada por Abraham De Moivre (1667-1754) y Pierre Simon Laplace (1749-1827), de manera independien-
120
Parte l. Estadística descriptiva
te, aunque a veces se le llama también campana de G a m . La otra curva se llama distribución t de Student y fue descubierta y estudiada por el químico británico William S. Gosset (1876-1937). La distribución t de Student siempre tiene media igual a cero y además usa un parámetro entero y positivo v (nu), que se denominagradosde libertad. A medida que dicho parámetro tiende a infinito, la distribución t de Student se parece cada vez más a la distribución normal estándar (con media cero y varianza uno). De hecho, una distribución t de Student con grados de libertad infinitos y una normal estándar vienen siendo la misma curva. En tales distribuciones acampanadas, la media, la mediana y la moda coinciden en el mismo punto, como se aprecia en la figura 4.5.
Figura 4.5
En la figura 4.6, tenemos tres ejemplos diferentes de curvas de distribución normal, con diferentes medias y diferentes varianzas. Sin embargo, con una apropiada traslación y una amplificación o reducción de la escala en cada curva, las tres curvas podrían hacerse coincidir punto por punto. En este sentido, todas las curvas de campana con distribución normal son "semejantes", así como todos los círculos lo son. En el caso de variables aleatorias continuas, solamente tiene sentido referirse a probabilidades sobre intervalos, mas no sobre valores puntuales; esto se debe, como veremos más adelante, a que las probabilidades se representan mediante áreas bajo una curva, y para que haya área se requieren dos dimensiones (largo y ancho). Por ejemplo, siXes una variable aleatoria continua que representa la estatura de un soldado elegido al azar (en metros), entonces tiene sentido preguntarse por el valor de P(1.745 c X < 1.755), pero no tiene sentido escribir P(1.75). De hecho, en términos estrictamente matemáticos, ningún soldado en el mundo mide exactamente 1.75, y por ello nos referimos a 1.75000... (con una cola infinita de ceros); si hubiese algún dígito distinto de cero, por ejemplo, en el
Figura 4.6. Distribuciones acampanadas con distintas medias y desviaciones típicas. lugar 84 d e esa expresión decimal infinita, entonces ya no estaríamos hablando de 1.75,sino d e otro número real diferente. Por tanto, P(1.75) = 0. En el caso d e variables aleatorias discretas, sí tiene sentido hablar de una probabilidad puntual, y entonces se escribe P(X= x) =p(x), o bien f (x). Al estudiante puede parecerle extraña la notación anterior: P(X=x), pero con el tiempo se irá acostumbrando a ella: obsérvese que la X mayúscula denota el valor abstracto (o general) de X, mientras que la x minúscula denota un valor específico O concreto.
Cada variable aleatoria, sea discreta o continua, tiene asociada una distribución de probabilidad (aunque tal vez ésta pudiera ser desconocida), la cual se expresa generalmente por medio de una fórmula o bien por medio de alguna tabla. La distribución de probabilidad es una especie de ley matemática que rige el comportamiento estocástico (o aleatorio) d e la variable en cuestión. En muchos fenómenos naturales (físicos, químicos o biológicos) y económicos, las distribuciones de probabilidad de las variables aleatorias que intervienen están plenamente identificadas y estudiadas; en otros fenómenos, semejantes distribuciones son desconocidas y suelen manejarse de manera empírica o aproximada; y todavía hay otros fenómenos en los cuales ni siquiera eso es posible, y tales fenómenos suelen enfocarse por medio d e otros métodos estadísticos llamados no paraméiricos.
122
Parte l. Estadística descriptiva
En el caso de una variable aleatoria continua, la expresión matemática para la distribución de probabilidad, definida en los números reales, se llama función de densidad de probabilidad (f.d.p.) y suele representarse por medio def(x) (letra minúscula). Para aquellos valores en donde no hay o no tiene sentido hablar de una probabilidad se asignaf (x) = 0. Con frecuencia estamos interesados en conocer la probabilidad de que el valor de una variable aleatoria sea menor o igual que algún número real x. De hecho, casi todas las tablas estadísticas funcionan así. Por tanto, escribiremos la probabilidad de que X tome un valor menor o igual que x como F(x) = P(X I x) y denominaremos a esta función definida para todos los números reales x como la función de distribución acumulada (f.d.&), o simplemente distribución acumulada para la variable aleatoria X. La siguiente propiedad es válida tanto para el caso discreto como para el caso continuo: Si a < b, entonces F(a) I F(b). Para una variable aleatoria continua es irrelevante el uso del símbolo < (menor que) o bien I (menor o igual que). Esto se debe a que al añadir o quitar un solo punto (o incluso un número infinito numerable de puntos) la probabilidad, de hecho no cambia para nada. Así, para cualquier variable aleatoria continua X se tiene:
5
Lo anterior no es válido para las variables discretas. Por ejemplo, si una variable aleatoria discreta puede tomar los valores x,, x,, . .. , xn con probabilidades respectivasp,, p,, .. . ,pn,entonces para cualquier r = 1,2, . .. , n, se tiene que: r
P O ~ xr) S = C p ( x , ) , pero P(X< xr)
=z r-1
p(xi)
Esto implica que para una variable aleatoria discreta se verifica que:
Ejemplo 4.3. Una variable aleatoria discretax tiene la siguiente distribución acumulada de probabilidad:
Cap. 4. Variables aleatorias y distribuciones de probabilidad
123
Calcular:
Solución:
En cambio, para una variable aleatoria continuax, no tiene sentido la expresión P(X= a), a menos que se tome media unidad al lado izquierdo de a y media unidad al lado derecho de a , en una escala de unidades previamente acordada, de tal suerte que el punto x = a se represente mediante el intervalo:
Este procedimiento de remplazar puntos por intervalos de longitud unitaria es un recurso útil para calcular la probabilidad de un valor puntual en una variable aleatoria continua. No es inusual en estadística que una variable aleatoria discreta (o que se maneja como discreta para fines prácticos) se aproxime mediante una distribución continua. En tales casos se recurre a un ajuste necesario que se llama corrección por continuidad, el cual consiste en sustituir cada valor x de la variable original por un intervalo de longitud unitaria con centro en x. De este modo, la variable discreta original se maneja como si fuese continua. Desde luego, la corrección por continuidad no debe usarse si la variable de trabajo ya es de naturaleza continua. Veamos un caso típico. Ejemplo 4.4. Sea X la variable aleatoria discreta que denota el número de trabajadores inmigrantes indocumentados procedentes de México y Centroamérica que son asesinados por cazadores estadounidenses cada semana. Suponga que la distribución de X puede aproximarse muy bien mediante una variable continua cuya distribución acumulada de probabilidad es la siguiente:
Calcular la probabilidad de que durante una semana cualquiera, los cazadores estadounidenses maten:
a) cuando menos cuatro inmigrantes indocumentados; 6) no más de seis inmigrantes ilegales; c) exactamente cinco trabajadores inmigrantes indocumentados.
1 24
Parte l. Estadistica descriptiva
a) Como al aplicar la corrección por continuidad el punto x = 4 queda representa-
do por el intervalo [3.5,4.5),se tiene por tanto: b) El G se convierte en el intervalo [5.5,6.5),luego: P(X5 6.5) = F(G.5) = 1- e-(04(6,5) = 0.9257
El siguiente cuadro resume algunas d e las propiedades mencionadas:
Caso discreto
Caso continuo
P(X = x) = p(x) =f (x) o 5f(x) 5 1
f (x) = expresión matemática de h f.d.d.p.
OSf(x)ll
'
-
Ahora, vamos a hablar algo acerca d e lo que es la media o valor esperado (o esperanza) de una variable aleatoriax, discreta o continua. Originalmente, el concepto de esperanza matemática surgió relacionado con juegos de azar y, en su forma más simple, es el producto de la cantidad que espera ganar un jugador por la probabilidad de que ganará. Por ejemplo, si tenemos uno de 10000 boletos de una rifa en la cual el premio mayor es un reloj fino 1
valuado en $4800, nuestra esperanza matemática es 4800 xL= $0.48. Esta 10 O00 cifra deberá interpretarse en el sentido de un promedio. A decir verdad, este promedio no toma en cuenta el costo del boleto, así que, en sentido más riguroso, si X es la variable aleatoria que denota la ganancia (en pesos) en esa rifa, tenemos la siguiente distribución de probabilidad para X, suponiendo que el costo del boleto fue de 15 pesos: ~anancia'(x,J
&babflidad (p,) 1
10o00
-15
999 10O00
'
Cap. 4. Variables aleatorias y distribuciones de probabilidad
125
Vemos entonces que una verdadera esperanza matemática debería tomar en cuenta también el costo incurrido en comprar el boleto: son 15 pesos que se pierden, se gane o no se gane el premio. En consecuencia, la esperanza matemática debería quedar planteada en la siguiente forma:
En general, si X es una variable aleatoria discreta que puede asumir los valores x,, . .. ,xn, con probabilidades de p,, ... ,p,, respectivamente, se define su valor esperado (o media) de la siguiente manera:
En forma análoga, si Xes una variable aleatoria continua yf (x) es su función de densidad de probabilidad, entonces la media o valor esperado de esta variable aleatoria es: p=E(X)=
J'
xf(x)k
4
Desde luego, en estas definiciones se supone la existencia de la suma o la integral; de lo contrado, no existiría la media. Aunque es raro, hay variables aleatorias para las cuales no existe media o valor esperado. Un ejemplo típico es la variable aleatoria continua con distribución de Cauchy (o t de Student con un grado de libertad), cuya forma es acampanada y muy parecida a la forma de la distribución normal, y cuya f.d.p. está dada por:
Si uno dibuja la gráfica de esta función de densidad de probabilidad, sospecharía que la media debe ser cero, pero esto resulta ser falso. A pesar de que el área total comprendida bajo la curva (desde -03 hasta +oo) es igual a 1, lo cual indica que la curva se acerca con bastante rapidez al eje X, las colas contienen demasiada probabilidad como para poder equilibrar toda esa probabilidad desde el origen. Es como si una persona colgara dos pesadas cubetas con agua en los extremos de una tabla mucho muy larga, como una balanza, y quisiera equilibrarlas desde el centro de la tabla. El peso sería enorme. La media puede aplicarse también a una función de la variable aleatoria X; por ejemplo, si tenemos que Y = g(X) es una variable aleatoria que a su vez depende de X, entonces:
126
Parte l. Estadística descriptiva
para el caso discreto, y:
para el caso continuo. 'Iánto para las variables aleatorias discretas como para las continuas, la media es un operador (o función) lineal, es decir, satisface las siguientes propiedades:
donde c es una constante. Además, para una constante c, se verifica que:
Se llaman momentos a las esperanzas de algunos tipos importantes de funciones. El r-ésimo momento inicia (también llamado r-ésimo momento airededor del origen) de la variable aleatoria X, representado por p; es el valor esperado deXr, o sea, y =E(X'), r = 1,2,3, .. . Evidentemente, el primer momento inicial de una variable aleatoria no es otra cosa que su media o valor esperado, esto es: p; = E ( . = p. Debemos aclarar que algunos autores usan el término momento normal o simplemente momento -que es lo más usual- para designar esta cantidad. El r-bimo momento central (o momento alrededor de la media) de una variable aleatoria X, se denota por p, y se define así: pr = E[(X - p)'] . Los momentos centrales pueden expresarse en términos de los momentos iniciales. Ello se expone con detaile y se demuestra en cursos de estadística para ingenieros o de estadística matemática. Si el primer momento central existe, debe ser necesariamente cero; por otra parte, el segundo momento central de una variable aleatoriax se denomina varianza (si es que existe), y se denota por cualquiera de los símbolos aZ, V(X) o bien Var(X), esto es: o2= p2= E[(X- P ) ~ ]L.a raíz cuadrada no negativa de lavarianza se llama desviación típica (o desviación estándar) y se denota, naturalmente, por el símbolo a.Estos dos parámetros (la varianza y la desviación típica) sirven para indicar el grado de dispersión de los datos alrededor de la media, de ahí su gran importancia. Es muy fácil probar que, tanto para una variable aleatoria discreta como para una continua, se cumple la relación: o2= p2= p.', - p2.Esto es:
Una condición necesaria, pero no suficiente, para que la gráfica de una función de densidad de probabilidad sea simétrica con respecto a la perpendicular
Cap. 4. Variables aleatorias y distribuciones de probabilidad
127
al eje X trazada en la media (es decir, que tenga forma de campana), consiste en que el tercer momento central sea cero. En otras palabras, si la gráfica def (x) es simétrica con respecto a la media, entonces p3= O, pero lo recíproco no siempre es verdad. Cuando la gráfica def (x) no es simétrica con respecto a la media, entonces se llama sesgada. Si X es una variable aleatoria, entonces el sesgo (o mirnetrzá) de X se denota por cualquiera de los símbolos siguientes: a,= y, y se define en términos del tercer momento central:
Si y = O, la gráfica def (x) es perfectamente simétrica con respecto de la media; si y es positiva, la gráfica presenta una especie de cola alargada del lado derecho, mientras que si y es negativa, entonces la gráfica presenta una cola notoria del lado izquierdo. El motivo para definir el sesgo mediante y, en lugar de hacerlo directamente con 4, estriba en que y es independiente de las unidades de medición, en tanto que el tercer momento central p3no lo es. Algunos autores usan cualquiera de los símbolos ar o y,. para denotar el cociente delr-ésirno momento central entre la r-ésima potencia de la desviación estándar, esto es:
En particular, siempre va a ocurrir que y, = O y y, = 1.Por otra parte, la magnitud y, es el sesgo, mientras que y, = K es la curtosis (también llamada exceso). Este último parámetro se definirá a continuación. De hecho, la curtosis tiene una interpretación de dudoso valor, y parar 2 5 no existe ninguna interpretación práctica de y,. La curtosis (también llamada kwtosis o exceso) se denota por cualquiera de los símbolos K = a,= y, y se define por medio de la cantidad siguiente:
Esta magnitud K = a, proporciona un indicador de qué tan picuda es la gráfica de la función de densidad f (x), aunque no está claro qué debe entenderse por el adjetivo "picuda". Cuanto mayor sea esta cantidad tanto más picuda o pronunciada será la cresta en la gráfica def (x). Debemos señalar, sin embargo, que la interpretación que mucha gente tiene de la curtosis es vaga y de valor dudoso. Por ejemplo, todas las curvas con .distribución normal tienen el mismo coeficiente de curtosis, a pesar del hecho de que aquellas con menor desviación estándar parecen ser más picudas. Se puede demostrar que el coeficiente de curtosis de cualquier curva normal es igual a 3 (véase fig. 4.7).
Figura 4.7. Curvas normales con distintas desviaciones típicas, pero ambas tienen el mismo coeficiente de curtosis.
El siguiente cuadro resume las magnitudes anteriores:
Se han sombreado las celdillas de aquellos momentos que carecen de interpretación estadística práctica conocida, aunque pudieran tener algún interés teórico en estadística matemática. Y ya que hablamos de esto, no está de más mencionar d e pasada que existe un método matemático para deducir rápidamente los valores de los momentos centrales d e cualquier orden a partir de los momentos iniciales, y estos últimos pueden deducirse con relativa facilidad mediante una función llamada función generatriz de momentos, ideada por Laplace en 1811. Sin embargo, estos conceptos requieren del conocimiento de cálculo diferencial y además carecen de aplicaciones prácticas más allá de que permiten hallar la media y la varianza d e una distribución por métodos expeditos, si previamente se calcula la función generatriz de momentos. El estudiante que domine el cálculo y que esté interesado en estos temas teóricos, puede consultar libros de estadística matemática.
Cap. 4. Variables aleatorias y distribuciones de probabilidad
129
Por otra parte, y como se mencionó, para las variables continuas, las probabilidades se representan mediante áreas, pero de manera adimensional. En el caso de una variable aleatoria continua, la probabilidad sobre un intervalo [a, b] , o bien (a, b), equivale al área bajo la curvaf (x) y por encima del eje X, entre las ordenadas x = a y x = b. Esto significa que:
Para el caso de una variable aleatoria discreta que asume un número finito de valores x,, x,, ... , xn, con probabilidades respectivas de p,, p,, ... ,p,,, cada punto xi se sustituye por un intervalo de longitud unitaria (con xi e n el centro) y se forma así una sucesión de rectángulos de bases unitarias que representan x,, .. . ,xny alturas correspondientesp,, ... ,pn. El área del rectángulo de base 1con xi en el centro es, por lo tanto: 1xp, =pi. Entonces, parax, e x k ,se tiene que P ( 3 IX 5 x,) es justamente la suma d e las áreas de los rectángulos comprendidos en ese intervalo, es decir, del histograma. Por otra parte, debemos destacar la importancia d e la función d e distribución acumulada F(x) en estadística. La mayoría d e las tablas estadísticas que traen los libros proporcionan valores acumulados, y por eso es importante que el lector aprenda cuanto antes a obtener probabilidades d e valores individuales (o de intervalos) usando la función de distribución acumulada F(x). El Excel asigna un valor "verdadero" (o el número 1) al valor acumulado de la probabilidad, y asigna un valor "falso" (o el número 0) al valor no acumulado. Eso lo trataremos cdn mayor detalle en el capítulo siguiente. Mientras, veremos algunos ejemplos para que el lector aprenda a usar bien la función d e distribución acumulada F(x). Ejemplo 4.5. Una variable aleatoria discretaxpuede asumir sólo los valores O, 1 , 2 y
3, con la función de distribución acumulada F(x) dada así:
Calcular las siguientes probabilidades, a partir de esta tabla:
Solución:Sólo hay que observar y hacer las restas apropiadas:
130
Parte l. Estadística descriptiva
Ejemplo 4.6. Construir una tabla para la distribución de probabilidad acumulada de una variable aleatoria discreta X cuya distribución de probabilidad es la siguiente:
Solución:Sólo se debe ir sumando las probabilidades de todos los valores anteriores a cada x:
Ejemplo 4.7. Sea T la variable aleatoria continua que representa el tiempo (en minutos) que transcurre hasta la llegada del siguiente cliente (o entre dos clientes sucesivos) en un puesto de periódicos y revistas. Suponga que T tiene la siguiente función de distribución acumulada de probabilidad:
Calcular la probabilidad de que el tiempo transcurrido hasta la llegada del próximo cliente a ese puesto sea de: a) 6) c) d)
menos de dos minutos por lo menos tres minutos cuando mucho un minuto y medio mínimo treinta segundos y máximo un minuto.
Solución:
Si X es una variable aleatoria con media y y desviación estándar o, entonces se puede tipificar (o estandarizar) a una variable 2 mediante la transformación:
la cual combina simultáneamente una traslación (cambio de origen) con un cambio de escala (amplificación o reducción). Si se trata de datos extraídos de una muestra con media igual a Zy desviación estándar (muestral) S, entonces cualquiera de los
Cap. 4. Variables aleatorias y distribuciones de probabilidad
13 1
datos de la muestra, digamos x,, puede tipificarse a un dato z, mediante la transformación:
Un valor tipificado de x, se suele llamar también puntuación de xi. Así como el coeficiente de variación sirve para comparar la dispersión relativa de dos conjuntos de valores, la tipificación (o puntuación) de valores individuales de la variable sirve para comparar individuos específicos o valores individuales de dichos conjuntos. Es algo así como uniformizar todos los valores a una escala común independiente de las unidades dimensionales. Ejemplo 4.8. Juan y Pedro son dos estudiantes que siempre han comparado sus calificaciones de matemáticas cuando les toca hacer el mismo examen con el mismo maestro. Pero ahora hicieron exámenes diferentes en grupos distintos con profesores distintos. Juan obtuvo 7.6 d e calificación en un examen en el que la media fue de 7.2 y la desviación estándar de 1.23. Pedro obtuvo 8.3 en un examen en el que la media fue 8.0 y la desviación estándar de 2.5. ¿Cómo podríamos comparar el desempeño relativo de Juan y Pedro en sus respectivos exámenes? Solución: Denotemos por X y Y , respectivamente, a las variables aleatorias que representan las respectivas calificaciones de alumnos al azar en los grupos de Juan y Pedro. Tipificamos las puntuaciones respectivas d e estos estudiantes con objeto de compararlas: 7.6 -px - 7.6 -7.2 =0.325 Qx 1.23 8.3- j,tY 8.3 - 8.0 Calificación de Pedro en escala tipificada: = O. 120 QY 2.5
Calificación de Juan en escala tipificada:
Esto significa que en escala absoluta (tipificada) se aprecia que el desempeño de Juan fue más meritorio que el de Pedro, a pesar de que éste obtuvo calificación más alta que aquél.
Con esto nos damos cuenta de que los encargados de exigir promedios mínimos en los alumnos para efectos de becas o admisiones deberían tomar las calificaciones en escala tipificada. Por supuesto, es mucho más meritorio obtener 7 cuando todos los demás sacaron menos de 6 que obtener 8 en un grupo en el que casi todos sacaron 9 o 10. Si las boletas de calificaciones de los alumnos indicaran además cuáles fueron los promedios y las desviaciones típicas en cada examen, sería posible tipificar cada nota para discernir el verdadero mérito de la misma en una escala absoluta. Queda claro que al usar escala tipificada la media de la variable siempre se transforma en cero y la desviación estándar siempre se convierte en un tramo de longitud unitaria. Esto se demuestra con facilidad si sustituimos primero x por p. y luego x por p + o, respectivamente, en la fórmula:
132
Parte l. Estadística descriptiva
Así, vemos que para cualquier variable aleatoriax, la correspondencia entre la escala real Xy la escala tipificada Z es la siguiente:
Es importante que desde ahora el estudiante se acostumbre a pensar en unidades de desviaciones estándar alrededor de la media, lo cual es usual en estadística y en las que ciencias en que se aplica la estadística, muy especialmente en aquellas situaciones en que la distribución subyacente es la llamada distribución normal -la cual se examinará en el capítulo 6. Por ejemplo, en ciencias de la salud se considera que un adulto cuyo contenido de colesterol en la sangre (medido en ciertas unidades) está entre y - o y p + o (es decir, entre -1 y +1en unidades tipificadas) es un adulto con riesgo normal. En cambio, si su contenido de colesterol es inferior a p - o (O sea inferior a -1 en unidades tipificadas), se considera una persona de "riesgo bajo", pero si es una concentración de colesterol superior a p + o pero inferior a p + 20 (es decir, entre 1y 2 en unidades de Z), se dice que es un individuo con "riesgo moderado". Más de p + 2o pero menos de p + 30 unidades hace que una persona sea calificada como de "riesgo alto", y un contenido de colesterol de p + 30 o superiorblahace ser de "riesgo muy alto". Ejemplo 4.9. Una profesora de estadística realizó un examen a sus alumnos, y al calificar, observó que la media del grupo fue de 61.8, con una desviación estándar de 9.5. Entonces, decidió hacer un ajuste de las notas de tal manera que la media bajara a 50, y que la desviación estándar aumentara a 15. ¿Cómo se transformaría entonces la calificación de un alumno que obtuvo 44 en el examen? Solución: Primeramente se tipifica la calificación de 44 en unidades de puntuación estándar:
Ahora, con los nuevos parámetros escogidos (p = 50, 6 = 15), se pasa el valor tipificado a escala ordinaria usando la fórmula x =zo + p. Se obtiene:
Como las distribuciones de probabilidad de las distintas variables aleatorias generalmente son diferentes, y hay muchísimas formas distintas en que una variable aleatoria se puede distribuir, resulta claro que la cantidad de probabilidad en cierto tramo de variación de la variable (medido en unidades de desviación estándar o en unidades tipificadas) dependerá de cuál sea la distribución exacta de la variable aleatoria X. Sin embargo, hay algunas reglas empíricas prácticas y útiles que son aplicables en la mayoría de los casos con poco margen de error, y tales reglas permiten al estudiante disponer de una idea más o menos concreta del significado práctico de la desviación estándar como tal.
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 33
Dichas reglas empíricas no deberían tomarse muy en serio si existe un sesgo apreciable en la distribución de datos. Cuando no hay sesgo o el sesgo es muy pequeño, estas reglas empíricas son buenas y útiles. Su razón de ser se basa en que en la distribución acampanada más famosa de todas (ia distribución normal), 68.27% del área bajo la curva se encuentra dentro del intervalo p - o < X < p + o, 95.45 % del total del área bajo la curva se encuentra en el intervalo p. - 20 < X e p. + 20, y 99.73 % del total de área bajo la curva se halla en el intervalo p. - 3 6 e X
2. Aproximadamente 95% d e las observaciones se concentran en un tramo comprendido entre 1 2 desviaciones estándar alrededor de la media, esto es:
3. Casi la totalidad d e las observaciones (es decir, casi 100% de los datos) se concentran en un tramo comprendido entre +3 desviaciones estándar alrededor d e la media, es decir:
Desde luego, las cifras anteriores son s610 aproximadas y varían, dependiendo de cuál sea la ley de distribución específica d e la variable aleatoria X en cada caso concreto, y son cada vez más inexactas cuando el sesgo en la distribución es más perceptible. Sin embargo, en términos generales no difieren mucho d e los valores mencionados, y en todo caso, ayudan al estudiante a tener una idea más o menos concreta acerca del significado práctico de la desviación estándar.
Hay una desigualdad famosa, llamada desigualdad de Chdbyshev, que proporciona una cota inferior mínima garantizada para la probabilidad de que cualquier variable aleatoria (discreta o continua) X asuma un valor dentro d e k desviaciones estándar alrededor de la media, para cualquier k > 1. La desigualdad (o teorema) de Chébyshev asegura que:
1 34
Parte l. Estadística descriptiva
Esta desigualdad es matemáticamente exacta y general. Sin embargo, tiene el defecto de que es un poco más débil que las consideraciones empíricas aproximadas ya expuestas, las cuales no son matemáticamente exactas y ni siquiera se pueden demostrar, pero son útiles como reglas prácticas aproximadas en la mayoría de los casos. En cambio, el teorema de Chébyshev es totalmente exacto y demostrable. Ejemplo 4.10. El número de licencias de matrimonio expedidas en cierta ciudad durante el mes de junio puede considerarse como una variable aleatoria discreta X cuya distribución de probabilidad se desconoce, pero se estima que su media es aproximadamente p. = 124 y su desviación estándar es o = 7.5. Según el teorema de Chébyshev, ¿con qué probabilidad podemos afirmar que se expedirán entre 64 y 184 licencias de matrimonio en el mes de junio? Solución: Planteamos las ecuaciones p. - k o = 64; p + k o = 184, con los valores de p y o dados en el problema. Aunque una sola de estas ecuaciones bastaría para hallar el valor de k, debemos hacerlo con ambas para asegurarnos de que el mismo valor de k se va a obtener en ambos casos. De lo contrario, no se trataría de un intervalo con centro en la media y la desigualdad de Chébyshev no procedería. Hallamos en ambos casos que k = 8, lo cual confirma que el intervalo dado tiene su centro en la media. Así, usamos la desigualdad de Chébyshev para hallar que:
Finalizarnos este capítulo con algunos ejemplos típicos explicados con detalle, en los cuales se retoman todas las ideas y conceptos examinados, seguidos de una lista de ejercicios complementarios, para que el estudiante ponga a prueba su aprovechamiento de este capítulo y de los anteriores, y cuyas respuestas se hallan al final del libro. Ejemplo 4.11. SeaX una variable aleatoria discreta con distribución de probabilidad dada por la siguiente tabla:
Si se sabe que E(X) =
5 4 ,calcular x, yp3.
Solución: Como la suma de todos los valores de probabilidad, es decir &O,, tiene que ser igual a la unidad, se sigue que:
Cap. 4. Variables aleatorias y distribuciones de probabilidad
1 35
Por tanto:
Ahora bien, por definición, la media o valor esperado es p = E(X) = I:x,pi, lo cual,
5
según el problema, es igual a - . Luego entonces: 4
Esto es:
De donde se infiere rápidamente que x3= 8. En consecuencia, la distribución de probabilidad de la variable aleatoria discreta X en este ejemplo es la siguiente:
Ejemplo 4.12. En un conjunto d e n observaciones que se van a ordenar de menor a mayor, determinar la posición de la mediana si:
Solución: En cualquier caso, al ordenar los datos, la mediana será el
n +l -ésimo 2
elemento. Por consiguiente:
a) La mediana ocupa el lugar 38. 101 b) Se obtiene -= 50.5 ; entonces, la mediana es el promedio aritmético entre 2
los elementos que ocupan los lugares 50 y 51. 236 e) La mediana es el dato que ocupa el lugar = 118. 2
Hemos escogido el siguiente ejemplo simple porque se puede resolver por métodos de geometría elemental y no se requiere usar integrales. Sin embargo, también es posible calcular estas áreas con integrales indefinidas elementales, tal y como se explicó en la sección 4.2. El lector podría intentar obtener estas áreas mediante integrales definidas para practicar.
1 36
Parte l. Estadística descriptiva
Ejemplo 4.13. Sea X una variable aleatoria continua con función de densidad de probabilidad dada por:
para Oá x I 2. O
en cualquier otro caso.
a ) Comprobar que efectivamente es una función de densidad de probabilidad válida. 6) Obtener la moda. c) Determinar la mediana. d) Calcular la media de la variable aleatoriax. Solución: Claramente la gráñca def (x) es un tramo de la recta a través del origen 1 con pendiente -, como se ilustra en la figura 4.8. 2
Figura 4.8 a ) Para comprobar que en efectof (x) es una función de densidad de probabilidad válida se requieren dos cosas: quef (x) nunca tome valores negativos (lo cual es claro), y que el área bajo la curva (en este caso recta) y por encima del eje X sea precisamente igual a 1. Como el área de un triángulo es igual a base por altura entre dos, entonces el área bajo la recta en el tramo O I x á 2 es igual a 1. Con esto queda comprobado quef (x) es una f.d.p. válida. 6) La moda es el valor d e X que tenga la máxima densidad de probabilidad, esto es, la máxima altura. Obviamente, la moda es m. = 2. c) Por último, la mediana me es el valor de X tal que el área comprendida a mano izquierda de ese valor y bajo la curva sea precisamente 'h. Como en la recta de este ejemplo la altura siempre es la mitad de la base para cualquier punto x, entonces la mediana se plantea con la ecuación:
Cap. 4. Variables aleatorias y distribuciones de probabilidad
137
De donde se sigue que la mediana es:
d) La media o valor esperado de la variable aleatoria X es:
Y se halla rápidamente que:
Ejemplo 4.14. Obtener una fórmula para la funci6n de distribución acumulada F(x) de la funciónf (x) del ejemplo anterior.
Solución: Como
x 1 j& = -j xdr 2 2
x2 + 4
=- C, se
sigue que:
En los ejercicios propuestos al final del capítulo, hay muy pocos ejemplos de variables aleatorias continuas, y se han escogido preguntas que se pueden resolver por geometría elemental y sin usar cálculo. En todo caso, si llegara a requerirse alguna integral (por ejemplo, para obtener la media y la varianza, o los momentos), se han escogido únicamente ejemplos que involucran integrales muy sencilllas, como las que se expusieron en la sección 4.2 y como la del ejemplo anterior. Finalizamos el capítulo con un par de ejemplos de otros temas de estadística descriptiva, a fin de que el estudiante no vaya olvidando las lecturas de capítulos anteriores. Ejemplo 4.15 (Poblaciones combinadas). Cuando se conoce la media y la desviación típica de dos (o más) poblaciones distintas, es posible calcular la media y la desviación estándar de un solo conjunto al combinar todos los datos originales. En tales casos se emplean las fórmulas siguientes:
(Observe que hemos tomado la desviación estándar poblacional.) De las fórmulas anteriores se sigue que:
1 38
Parte l. Gtadktica descriptiva
Por ejemplo, suponga que en un club deportivo se tomó un conjunto de 60 hombres y se obtuvo que la media de sus pesos era de 72 kg con una desviación estándar de 5 kg. En el mismo club se tomó un conjunto de 90 mujeres y se obtuvo que la media de sus pesos era de 58 kg con desviación estándar de 7 kg. Si se combinan los pesos de las 150 personas (hombres y mujeres) en un solo conjunto de 150 datos, encontrar la media y la desviación estándar del nuevo conjunto. Solución: Se tiene, en el caso de los pesos de los 60 hombres, que:
Para las 90 damas se tiene: Cx=90~58=5220;
cx2 90(7' + 582) =
= 307 170
En consecuencia, para el conjunto combinado de los 150 pesos se tiene:
Ex =4320 + 5220 =9540;
Exz=312 540 +307 170 =619 710
Entonces. la media es:
La desviación estándar se halla así:
Ejemplo 4.16. SiXes una variable aleatoria discreta que puede asumir los valoresx,, ... ,p,, y si a y b son dos constantes, demostrar las siguientes propiedades de la media y la varianza (mismas que, por cierto, también son válidas para variables continuas):
x,, . . . ,x,, con probabilidades respectivas dep,, p,,
+
Como Zxp,=E(X) y Cp, = 1, se concluye que E(& + 6) = aE(X) 6. Ahora probaremos la segunda fórmula (omitimos algunos pasos intermedios obvios):
+
Var (aX + b) = E[{& b) - (ap + b)IZ] = E[{& - ap12] = E[aZ(X- P ) ~ ] = a2Var(X).
Cap. 4. Variables aleatorias y distribuciones de probabilidad
139
Ejemplo 4.17. Suponga queXes una variable aleatoria discreta cuya distribución de probabilidad se da en la siguiente tabla:
X
o
1
2
Probabilidad
0.10
0.20
0.30
3 0.25
4 0.15
a) Obtener una tabla para la distribución de probabilidad de la variable aleatoria siguiente: Y=X3 - 4X2+ 10. b) Obtener la media y la varianza de la variable Y. Solución : a ) Al sustituir cada valor de X en la fórmula de Y, se obtiene un correspondiente valor de Ycon la misma probabilidad. Hallarnos que Y(0) = 10; Y(1) = 7; Y(2) = 2; Y(3) = 1;Y(4) = 10 también. Esto significa que la variable Y toma los valores 10, 7,2, 1y 1'0con probabilidades respectivas de 0.10,0.20,0.30,0.25 y 0.15. Combinando los dos valores de probabilidad de 10 (que salió repetido), hallamos que la probabilidad de 10 es 0.10 + 0.15 = 0.25. Por tanto, Ysólo toma de hecho cuatro valores con la siguiente distribución:
b) Para hallar la media y la varianza de Y, usamos las fórmulas correspondientes:
Blaise Pascal (1 623- 1662). Científico francés, contemporáneo de René Descartes (1 596- 1650). Hizo contribuciones importantes a las matemáticas y la física. También dedicó un tiempo considerable a estudios de filosofía y religión.
Christiaan Huygens (1 629- 1695). En 1657, escribió un libro acerca de la teoría clásica de las probabilidades, basado en el intercambio de correspondencia que había tenido lugar tres años antes entre Pascal y Fermat.
1. Los siguientes datos representan los contenidos exactos (en litros) en una muestra aleatoria de 42 envases comerciales de aceite de 1litro de cierta marca:
Si X representa el contenido exacto de un envase de aceite de esta marca tomado al azar, use calculadora científica o Excel para hallar lo siguiente: a) la media muestral 5
6) la desviación estándar muestral s c) el error estándar de la media ax. d ) el coeficiente de variación e) el rango f ) la mediana g) la moda. 2. Se lanza una moneda una sola vez. Denotemos por X a la variable aleatoria discreta
que representa el número de águilas que salen. a) Obtenga la distribución de probabilidad de la variable aleatoria X 6) Determine la media y la varianza de X.
3. SeaX una variable aleatoria discreta con distribución de probabilidad dada por la siguiente tabla:
Calcule la media, la varianza y la desviación estándar para la variable X. 4. Una ama de casa permite a sus hijos pequeños mirar la televisión un máximo de 200 horas al mes (incluyendo sábados y domingos), y sólo después de haber terminado sus tareas escolares. Ella lleva un control riguroso del tiempo que sus hijos mantienen la televisión encendida cada mes, y ha encontrado que se trata de una variable aleatoria continua que, medida en unidades de 100 horas, tiene la siguiente función de densidad de probabilidad:
Ix
f(x)= 2-x 10
para pata
05xcl. 1 5 ~ ~ 2 . en otra parte.
Determine la probabilidad de que durante un mes cualquiera, los niños vean la televisión:
Cap. 4. Variables aleatorias y dktribuciones de probabilidad
14 1
a) menos de 120 horas b) entre 50 y 100 horas. Calcule: E) la mediana d) la moda.
[ S u g m i a :empiece por dibujar una gráfica.]
2x parax = 1, 2, 3, .. . , k pueda fungircomoladistribución de k(k 1) probabilidad de una variable aleatoria discretax. [Indicación:Por si no lo recuerda, la su-
5. Verifiqueque f ( x )
+
made los primeros n números naturales está dada por 1 + 2
1 1
+ 3 + + n =-n(n 2 m - .
+1).]
6. En cada una de las siguientes expresiones, determine el valor de la constante k de manera que la funciónf ( x ) pueda servir como la distribución de probabilidad de una variable aleatoria discreta X.
a) f ( x ) =kx,parax = 1 , 2 , 3 , 4 , 5 . x2 b) f(x)=-,parax=1,2, ... , 6 . 7k [Indicación: Por si le sirve saberlo, la suma de los cuadrados de los primeros n 1 números naturales está dada por l2+ 22 + 32+ + n2-= n ( n + 1)(2n +1).]
G
7. La probabilidad de que la señora Juanita Godínez venda parte de una propiedad con 3 una ganancia de 3 millones de pesos es de -, la probabilidad de que la venda y 20 7' obtenga una ganancia de 1.5 millones de pesos es -, la probabilidad de que salga 20 7 3 a mano es -,y la probabilidad de que pierda 1.5 millones de pesos es -. ¿Cuál 20 20 es su ganancia esperada? [Inúicación: Considere las pérdidas como ganancias negativas.] 8. La función de densidad de probabilidad de la variable aleatoria continuax está dada Por
[O
en otra parte.
a) Demuestre quef ( x ) es una f.d.p. válida. b) Determine P(3 < X < 5).
142
Parte l. btadística descriptiva
9. Una variable aleatoria discretax toma los valores O, 1,2,3 con probabilidades respectivas de:
a) Determine E(X) y E ( X ) . 6) Utilice los resultados del inciso a para obtener E[(3X+ 2)']. 10. Un juego de azar se considerajusto, o equitativo, si la esperanza de cada jugador es
igual a cero. Si alguien nos paga $10 cada vez que sacamos un 3 o un 4 al tirar un dado, ¿cuánto debemos pagar a esa persona cuando tiremos cualquiera de los otros cuatro números para tornar el juego equitativo? 11. Si la densidad de probabilidad de la variable aleatoria continua Y está dada por:
1O
en otra parte.
Determine:
12. Un señor va a comer en un restaurante de lujo en el Distrito Federal. El estacionamiento del restaurante le cobra 120 pesos por cuidarle su automóvil durante ese lapso. Si le parece caro, puede optar por estacionarlo en la calle, pero se arriesga a que se lo roben, lo cual estima que ocurra con una probabilidad de 0.02. Sin embargo, si se lo roban, el seguro le repone el costo del auto y sólo le descuenta un deducible de 7000 pesos. Decida si le conviene pagar los 120 pesos porque le cuiden su auto en el estacionamiento del restaurante o bien arriesgarse a dejarlo en la calle. 13. Si X es el número de mujeres en un comité de 3 personas que se elige al azar de un grupo de 4 hombres y 6 mujeres, resulta que la distribución de probabilidad deX es la siguiente:
(En el capítulo 5, veremos métodos para obtener semejante distribución.) Calcule: a) la media o valor esperado p = E(X)
b) lavananta aZ= E[(X- p)']
el tercer momento central CL, = E[(X - P ) ~ ] 1 d ) el coeficiente de sesgo (o asimetría) y = 1. o3 e)
14. Si X es una variable aieatoria discreta, demuestre directamente que la varianza de X también se puede calcular mediante la fórmula alternativa:
Cap. 4. Variables aleatorias y distribuciones de probabilidad
143
15. Suponga queXes una variable aleatoria discreta que sólo puede tomar los valores O, 1,2,3 y 4, y c u y distribución de probabilidad es la de la siguiente tabla:
a) Halle la cifra faltantep,, así como p y 02. b) Calcule P(X I 2) y P(X < 2).
16. Considere una variable aleatoria X discreta cuya distribución de probabilidad está dada por:
a) Obtenga la función de distribución acumulativa de la variable X. b) Calcule P(Xc 3.5) y P(3 I X < 4.5).
17. Sea X una variable aleatoria discreta con distribución de probabilidad dada por la siguiente tabla:
Calcule la media, la varianza y la desviación estándar de la variable X. 18. Sea X una variable aleatoria discreta con distribución de probabilidad dada por la si-
guiente tabla:
Calcule el coeficiente de sesgo. 19. Sea X una variable aleatoria discreta con distribución de probabilidad dada por la siguiente tabla:
a) Calcule la constante a. b) Encuentre la función de distribución acumulativa F(x). C) Calcule P(X = l), P(X = 2), P(X < 3), P(X 2 O), P(-2 I X ~ 3 ) . 20. Para una variable aleatoria continua X, exprese las siguientes probabilidades usando
la función de distribución acumulada F(x).
144
Parte l. Estadistica descriptiva
21. SeaX una variable aieatoria discreta cuya distribución de probabilidad es:
Calculep, yx, si se sabe que E(X) = 5. 22. SeaX una variable aleatoria discreta con la siguiente distribución de probabilidad:
Calculep3,x1y x2si se sabe que E(% = 1.9y Var(X) = 0.69. 23. Sea X una variable aieatoria discreta con la distribución de probabilidad:
Calcule E(% y verifique que:
24. Una variable aleatoria discretax tiene la función de densidad dada por:
1 Encuentrep y S, si se sabe que E(% = l Y Var(X)=-.2 25. La variable aieatoria discretax tiene la función de densidad dada por:
8 Encuentre a y b, si se sabe que E(X) = O y V ( 9 = -.
3
26. La variable aieatoria X tiene la función de densidad dada por:
1
Encuentrep, de tal manera que se cumpla la siguiente desigualdad E(% < -. 4
Cap. 4. Variables aleatorias y distribuciones de probabilidad
145
27. Considere una población finita A de sólo tres elementos: A = {2,4,6).
a) Calcule la media poblacional y,la varianza (poblacional) 02y la desviación estándar (poblacional) o. b) Calcule el error estándar de la media oi = para muestras de tamaño n = 2 4n (con remplazo) extraídas de A. 28. En relación con el ejercicio 27, considere las 9 muestras posibles de tamaño 2 con remplazo, y para cada una de esas 9 muestras, calcule la media muestral F,la varianza muestral s2,la varianza poblacional 02,la desviación estándar poblacional o y la desviación estándar muestral s. Anote sus respuestas en una tabla, como se indica a continuación, y ponga resultados exactos (es decir, fracciones o radicales cuando sea necesario), no use aproximaciones decimales. Copie la tabla en un cuaderno para no rayar el libro.
Se han llenado algunas entradas al azar. a) Se requiere como ejercicio que termine de llenar toda la tabla. En la última fila se anotan las respectivas medias (promedios) de los nueve datos que están arriba. Si la media de un estadístico es igual al valor del parámetro poblacional correspondiente, entonces el estadístico es insesgado. Diga cuáles de esos cinco estadísticos resultaron ser insesgados y cuáles no. b) Para el conjunto de las 9 medias muestrales, calcule las dos desviaciones típicas (la muestral y la poblacional) y observe si alguna de las dos es igual al error estándar de la media en la población original (inciso b de la pregunta 16). 29. Con respecto al ejercicio anterior:
a) Calcule ahora el error estándar de la media
sin remplazo de tamaño n = 2.
Qx
para muestras
146
Parte l. Estadística descriptiva
6) Haga una lista de las tres muestras posibles sin remplazo y una tabla similar a la del ejercicio 17 con estas tres muestras, y conteste para este caso lo mismo que se preguntó en el inciso b de la pregunta anterior, para el conjunto de las 3 medias muestrales ahora obtenidas. 30. Suponga que los editores de una revista desean hacer un mayor acopio de suscriptores. Para ello envían cartas (o mensajes por e-mil)a un número aleatorio de personas, invitándolas a suscribirse con ciertas ventajas. De las personas que reciben esa correspondencia, un gran número ni siquiera la leen y la tiran a la basura, pero otros la leen y responden. Supongamos que la proporción de personas que responden a la invitación (O = O %, 1 = 100%) es una variable aleatoria (continua) X, cuya función de densidad de probabilidad está dada por:
2(x +2)
1O
si O l x l l . en cualquier otra parte.
a) Verifique que en efecto,f (x) es una función de densidad de probabilidad. 6) Encuentre la distribución acumulada de probabilidad F(x). C) Calcule la probabilidad de que entre 30 y 60 % de personas que reciben la correspondencia, la respondan. 4 Encuentre el porcentaje esperado (media) de personas que van a responder la invitación. e) Determine la varianza y la desviación estándar de la variable aleatoriax. 31. Si X tiene la distribución uniforme discreta f (x)= '-, para x = 1, 2, ... k, demuestre k que se verifica lo siguiente:
32. Un joven estudiante obtuvo 91 de calificación en un examen de matemáticas, en el que la media del grupo fue 46 y la desviación estándar 18. El mismo joven obtuvo calificación de 80 en su examen de historia universal, en el que la media de calificación del grupo fue 62, con una desviación estándar de 7. Tipfique sus calificaciones obtenidas en ambas asignaturas, para decidir cuál de las dos fue más meritoria. 33. Un profesor de matemáticas realizó un examen en el que la media del grupo fue de 63 con una desviación estándar de 10.5.Entonces decidió ajustar las calificaciones de todos en una nueva escala en que la media fuese 70 y la desviación estándar fuese 8. ¿Cómo se transformarían ahora las calificaciones de aquellos estudiantes que hubiesen obtenido inicialmente calificaciones de
Cap. 4. Variables aleatorias y distribuciones de probabilidad
147
34. Una jovencita de segundo año de bachillerato obtuvo las siguientes calificaciones en sus exámenes escolares, en las que aparecen las respectivas medias y desviaciones estándar del grupo:
~ e d t del a gntpo
Anpturr Maternátic: Fjsica Historia Redacción Inglés --
Desviación estándar
51 LA
73
13
50
lhnsforme cada una de sus calificaciones a escala tipificada y comente acerca de su desempeño o mérito relativo en cada asignatura. ¿Cuál de las asignaturas es en la que ella tiene mejor desempeño y cuál es en la que muestra mayor deficiencia? 35. Con respecto a los datos del ejercicio anterior, suponga que un jovencito está en el mismo grupo y sacó 33 de calificación en redacción y 46 en física. ¿Cuál de las dos notas tiene mayor mérito relativo? 36. Un maestro de física realizó un examen en el que la media de calificación fue de 42.3 y la desviación estándar de 15.8. Decidió ajustar las calificaciones a una nueva escala en la que la media fuese 50 y la desviación estándar 20. ¿Cómo se transformaría cada una de las siguientes calificaciones mediante el ajuste?
37. Considere el siguiente conjunto de números: (3, 14, 15, 9,26, 5). a) Tipifique cada uno de los valores para tenerlos en puntuación estándarz.
b) Encuentre Cz y Cz2para deducir el valor de la desviación estándar de las puntuaciones tipificadas. c) Reescriba cada uno de los seis números originales en una nueva escala en la que la media sea 40 y la desviación estándar 15. 38. La revista Shajovski I n f o m t o r (Informador ajedrecista) contrató a tres famosos grandes maestros de ajedrez ya retirados, Kárpov, Seirawan y Larsen, para que dieran una evaluación en escala del O al 100 sobre las cinco partidas que resultaron candidatas a la mejor partida magistral jugada en el mundo durante el año. Al final se sumarían las puntuaciones para decidir cuáles fueron las mejores partidas. Las calificaciones que dieron estos jueces fueron las siguientes:
A2rpov Partida 1 Partida 2
/
Partida 3 Partida 4
Lpanida 5 p .
Seirawan 82
50 72 67
1 /
68
48
75
1
79 80 74
1
Larsen 70 40
92 -
Total 202 187 198 1 2 1 4
20. 40.
>. -
1
lo.
148
Parte l . Estadística descriptiva
a) ¿Qué truco estadístico usó Larsen para asegurar, sin conocer las opiniones de sus
colegas, que los lugares finales coincidirían con su propio punto de vista? 6) Haga un cuadro similar en donde las calificaciones sean las puntuaciones tipifi-
cadas de cada juez. Compruebe que entonces los lugares no serán los mismos y explique por qué este método sería más justo que el usado.
39. Considere un conjunto de 10 números (x) tales que Zx = 53, ZxZ= 330. a) Calcule la media y la desviación estándar (poblacional) de los datos de ese conjun-
to. 6) Suponga que se añaden al conjunto los números 8 y 12. Obtenga ahora los nuey calcule la media y la desviación estándar @ovos valores de las sumas Ex y blacional) del conjunto de los 12 números.
z$
40. En un club hay 100 hombres y 150 mujeres. Se combinaron las estaturas de las 250 personas en un conjunto cuya media fue 174 cm y cuya desviación estándar fue 12 cm. Si se sabe que las estaturas de los hombres tienen media 178 cm y desviación estándar 10 cm, ¿cuál es la media y la desviación estándar del conjunto de las estaturas de las mujeres? 41. Una variable aleatoria continua X tiene la siguiente función de densidad de probabilidad: h2(1-x)
si O I x I 1 de otro modo.
a) Obtenga el valor de la constante k. 6) Calcule P(0.4 S X I 0.6).
42. Suponga que la variable aleatoria continua X tiene la siguiente función de densidad de probabilidad:
kx3
si O I x I 3 . de otro modo.
a) Obtenga el valor de la constante k. 6) Halle la moda. c) Encuentre la mediana.
ú) Encuentre la posición del noveno decil, es decir, el valor de a tal que P(X> a)= 0.1.
43. Si la variable aleatoria continua X tiene la siguiente f.d.p.: k O
siOIxI4. de otro modo.
a) Obtenga el valor de la constante k. 6) Calcule P(2 I X I 3).
Cap. 4. Variables aleatorias y distribuciones de probabilidad
149
44. Una variable aleatoria continuax tiene la siguiente f.d.p.: h
si si
Olxll. 1cxI4. de otro modo.
Halle: a) 6) c)
la media la varianza la mediana.
45. Suponga que la duración de vida de cierto insecto, en meses, es unavariable aleatoria continua cuya densidad de probabilidad está dada por: h2(4-x)
a) 6) c)
siOIxI4. de otro modo.
Halle el valor de la constante k y dibuje un croquis de la gráfica def (x). Encuentre el tiempo más probable de vida (moda) para este insecto. Halle la probabilidad de que un espécimen de este insecto muera antes de haber cumplido un mes de vida.
46. La variable aleatoria continua X denota el tiempo (en minutos) que un usuario del metro del Distrito Federal tiene que esperar para la llegada del tren, en cierta estación por las maiianas, de suerte que su f.d.p. es la de la siguiente figura:
Determine el tiempo máximo que el usuario puede esperar. Describa la ecuación exacta de la f.d.p., de acuerdo con el dibujo. Encuentre el tiempo medio de espera. 4 Encuentre el tiempo por encima del cual se encuentra 40 % de las veces que más tiene que esperar (sexto decil). a) 6) c)
I
47. Partiendo del hecho de que eqdx = -e-x
+ C, calcule el área por debajo de la curva
cuya ecuación esy =eq, desde x = O hasta infinito (véase la siguiente figura).
48. El tiempo (en unidades de 5 minutos) que demora la cajera de una ventanilla para atender al cliente en turno, es una variable aleatoria continuaxcuya densidad de probabilidad es
f (x)=
e*
O
si x 2 0. en otro caso.
¿Qué porcentaje de los clientes será atendido: a) en menos de 5 minutos? 6) en más de 10 minutos? c) en no más de dos minutos y medio? 4 ¿Cuál es la probabilidad de que la cajera se tarde entre 5 y 10 minutos en atender a un cliente? e) ¿A partir de qué tiempo se halla 20% de los clientes que más se tardan en ser atendidos por la cajera?
49. Si X es el número de tuercas defectuosas en una muestra aleatoria de 5 tuercas sacadas de cierta línea de producción industrial, se ha determinado que la distribución acumulada de probabilidad de la variable aleatoria discretax está dada por la siguiente tabla:
Calcule la probabilidad de que al examinar 5 tuercas al azar, el número de defectuosas sea de: a) cuando mucho 2 b) exactamente 2 e) cuando menos 2 4 menos de 2.
50. Obtenga una tabla para la distribución de probabilidad (no acumulada) de la variable aleatoria X del ejercicio 49. 51. Suponga que la distribución de probabilidad acumulada de la variable aleatoria dis-
Cap. 4. Variables aleatorias y distribuciones de probabilidad
15 1
creta X que representa el número de veces que una moneda cae con el signo de águila hacia arriba en 8 lanzamientos, está dada por la tabla siguiente:
Según esto, si se lanza la moneda 8 veces, calcule la probabilidad de que el número de veces que caerá con el signo de águila hacia arriba sea de: a) menos de 4 b) al menos 4 c) más de 4
4 alomás4
e) exactamente 4.
52. Con respecto a los datos del ejercicio 51, obtenga una tabla con la distribución de probabilidad (no acumulada) de la variable aleatoriax. 53. Para la variable aleatoria discretaxcuya distribución de probabilidad se da en la tabla siguiente, calcule: a) la media b) la varianza c) el coeficiente de sesgo
d ) la moda e) el coeficiente de curtosis.
I
1 = - -e"
+ C (donde a es cualquier constante # O), cona sidere la variable aleatoria continuax cuya f.d.p. está dada por:
54. Partiendo de que e"&
eO
six>O. de otro modo.
Obtenga:
4 M(t) = E(@) (función generatriz de momentos).
1 52
Parte l. Estadística descriptiva
55. Encuentre una fórmula para la integral indefinida a& &. (Sugerencia:J;= xk) 56. Si X es una variable aleatoria continua cuya f.d.p. está dada por: f(x)={;&
SiO
a) Encuentre el valor d e la constante c. 6) Evalúe P(0.2 < X S 0.8).
57. Con respecto al ejercicio 56, encuentre las siguientes esperanzas:
58. Considere la variable aleatoria continuax tal que su f.d.p. es:
lo
de otro modo.
a) Compruebe que f(x) satisface las condiciones de una función de densidad de probabilidad.
6) Calcule P(3 e X S 4). c)
Obtenga la expresión matemática para la distribución acumulada d e probabilidad F(x).
59. En relacibn con la variable aleatoriax del ejercicio anterior, obtenga E(3X2 - 5). 60. SeaX la variable aleatoria continua cuya función de densidad de probabilidad tiene la gráfica que aparece en el siguiente dibujo:
153
Cap. 4. Variables aleatorias y distribuciones de probabilidad
Encuentre una expresión matemática paraf (x). b) Calcule los valores exactos de P(y - o I X I y + o) y de P(p - 20 IX I p 20). c) Encuentre una expresión matemática para la distribución acumulada de probabilidad F(x).
a)
+
61. Un ingeniero trabaja en un despacho que queda más o menos a unos 30 minutos en automóvil desde donde él vive. El ha determinado que la variable aleatoria T que representa el tiempo (en minutos) que hace desde su casa hasta su despacho, en un solo sentido, tiene la siguiente gráfica de densidad de probabilidad, con la ecuación que la acompaña abajo:
Se observa que es una distribución simétrica, en la que la media, la mediana y la moda valen 30 minutos. Además, el tiempo mínimo posible en el que él podría realizar el viaje es d e 10 minutos, mientras que el tiempo máximo posible es de 50 minutos. El ingeniero ha determinado que, de acuerdo con esto, la densidad de probabilidad d e la variable aleatoria T tiene la siguiente expresión matemática:
1 a)
O
de ouo modo.
Compruebe que, en efecto,f (10) =f (50) = 0.
=& 0.0375. 2
b) Verifique que f(30)
=
c) Compruebe que el área bajo la curva y por encima del eje T es igual a la unidad. d ) Calcule la probabilidad de que el ingeniero tarde más de 40 minutos en llegar a su despacho. e) Obtenga una expresión matemática para la distribución acumulada F(t). f) Si su hora de inicio de labores es alas 9:00a. m. y él sale a las 8 3 5 todas las mañanas, ¿qué porcentaje de las veces llega tarde? g) Si en su despacho se sirven café y bocadillos de 8:40 a 8:50 a. m., y el ingeniero sale a las 8:30 a. m. d e su casa, ¿cuál es la probabilidad de que alcance a tomar café y bocadillos?
62. Con respecto al problema 61, calcule el valor d e la desviación estándar de la variable aleatoria T, y luego determine el porcentaje de tiempos que distan de la media menos d e una desviación estándar. 63. Para la variable aleatoria continuaxcuya distribución de probabilidad acumulada está dada por:
Encuentre:
b) la mediana me,es decir, el valor de x tal que F(x)=;'
2
3 el tercer cuartil Q,, es decir, el valor de x tal que F(x)=-; 4 4 el octavo decil D,, es decir, el valor de x tal que F(x) = 0.8. C)
64. Considere una variable aleatoria continuax tal que su función de distribución acumulada de probabilidad F(x) es la siguiente:
Calcule, en cada caso, el valor de x tal que:
65. Tome una hoja de papel blanco o cuadriculado y dibuje un croquis de la función F(x) del ejercicio 63. 66. SiXes la variable aleatoria discreta que denota el número de abortos clandestinos que tienen lugar cada día en la ciudad de Guadalajara, suponga queXse puede aproximar mediante una variable continua cuya distribución acumulada de probabilidad es la siguiente:
Calcule la probabilidad de que en un día cualquiera, el número de abortos clandestinos realizados en la ciudad de Guadalajara sea de: a) al menos 10 6) menos de 10 c) exactamente 10 d ) más de 10 e) a lo más 10.
Para motivar este tema, empecemos por exponer los principios de conteo. Hay dos principios básicos de conteo, a partir de los cuales se deducen las fórmulas y técnicas del análisis combinatorio: Principio multiplicativo: Si una tarea consiste de n pasos distintos y otra tarea consiste de m pasos distintos, y si ambas tareas no son excluyentes, sino que se pueden realizar juntas o en sucesión, entonces el número total de pasos distintos (o maneras) en que pueden realizarse ambas tareas es de n x m. Desde luego, este principio se generaliza fácilmente para más de dos tareas. Aquí, tarea significa un tipo cualquiera de procedimiento, proceso u operación. Principio aditivo: Bajo las mismas premisa5 que en el principio anterior, si las dos tareas en cuestión no pueden hacerse juntas ni en sucesión, por tratarse d e tareas mutuamente excluyentes (o incompatibles), entonces el número total d e maneras en las que pueden realizarse ambas esden+m. Factorid de un entero no negativo. n! = n ( n - 1) 1para n 2 1;y O! = 1por definición. Por ejemplo, 2! = 2, mientras que 4! = 24. Combinaciones. Las combinaciones de n objetos (o cosas), tomando r de ellos a la vez, representan el número de subconjuntos diferentes de tamaño r que se pueden formar con esos n objetos. En las combinaciones, el orden de apari-
158
Parte 11. Principales distribuciones estadisticas
ción d e los objetos es irrelevante. Las notaciones usuales para combinaciones d e n e n r son:
Por ejemplo, si hay un total d e 10 personas e n un grupo y s e desea seleccionar un comité d e cinco d e ellas para asistir a una exposición, entonces el número d e formas diferentes en que ello s e puede hacer es d e
(y)
= 10C5 = 252 (se
puede sacar con cualquier calculadora). Es muy sencillo hallar el número d e combinaciones usando una calculadora científica, para lo cual hay que usar la tecla que dice nCr.Si su calculadora no trae esa función (lo cual sería raro), puede emplear la siguiente fórmula, pero entonces hay que realizar algunas multiplicaciones:
(:)
=
n(-l)-.-(n -r +1) r!
n! r!(n - r)!
Para dos enteros n o negativos cualesquiera n y r (n 2 r) s e verifica la igualdad:
La explicación d e esta fórmula útil es muy sencilla: cada vez que usted selecciona r objetos d e un total d e n , dejan - r objetos que no tomó. El número total d e formas en que pudo hacer su selección puede contarse d e dos maneras: contando las listas d e objetos que seleccionó, o bien contando las listas d e objetos que no tomó. Obviamente, ambas listas deben coincidir e n cuanto a número. Ejemplo 5.1. Calcular
Solución: Hacemos:
(7;).
Muchas calculadoras no tienen incorporada esta identidad, de ahí su importancia. Por ejemplo, en una calculadora modelo Sharp EL-531L, si uno trata de calcular ,,C9,, aparece m o r , a causa de las operaciones monstruosas que se tendrían que realizar en el mecanismo operacional de la calculadora. En cambio, si uno pone ,,C,, aparece en la pantalla la respuesta correcta: 161 700. Ejemplo 5.2. Un señor tiene nueve corbatas en su guardarropa y desea elegir tres para llevárselas a un viaje. ¿De cuántas formas puede realizar su selección? Solución: Puede hacerlo de
(3)
84 maneras distintas.
Cap. 5. Las distribuciones discretas teóricas más importantes
159
Ejemplo 5.3. De un grupo de 10 turistas que visitan la Ciudad de México se desea escoger un comité de cinco de ellos para hacer un viaje a las pirámides de Teotihuacan. ¿De cuántas formas puede seleccionarse el comité si hay dos turistas específicos que no quieren hacer el viaje? Solución :
Ejemplo 5.4. En un cajón hay 13 pilas tamaño D para linternas, de las cuales ocho están nuevas y las restantes cinco son usadas y no funcionan. Si uno selecciona un conjunto de cinco pilas (sin remplazo), ¿de cuántas formas nos pueden haber tocado tres nuevas y dos usadas?
Solución: Las tres nuevas nos pudieron tocar de
(9
maneras, mientras que las dos
. .
usadas nos pudieron tocar de
maneras. Por el principio multiplicativo, el número de
formas en que pueden haber tocado tres nuevas y dos usadas es de:
5.2. ELMUESTRE0 CON REPOSICI~NY LA DISTRIBUCI~N BINOMIAL
Si se tiene una urna con esferas de dos colores, y cada vez que se extrae una esfera, se anota el color y se vuelve a meter la esfera en la urna, se hace un ensayo con reposici6n -o con remplazu- (también llamado ensayo de Bernoulli). Este tipo d e ensayos representan una amplia variedad de situaciones en las que se tienen pruebas repetidas independientes con sólo dos resultados posibles, llamados grito y fracaso. Pueden incluso ser esferas de varios colores, y para cada color decimos que hay dos resultados posibles, a saber: "un color particular" y "los demás colores". Los ensayos de Bernoulli se examinaron por primera vez en la obra Ars conjectandi de Jacques (Jacob) Bernoulli (1654-1705), publicada por su joven sobrino Nicolaus en forma póstuma en Basilea, Suiza, en 1713, y por eso se llaman ensayos de Bernoulli. Al final del capítulo se proporcionan los datos biográficos de J. Bernoulli y un facsímil d e la portada de su libro. Los ensayos de Bernoulli están estrechamente relacionados (de hecho coinciden) con los coeficientes de la expansión de un binomio a la potencia n (coeficientes binomiales). Si un experimento aleatorio consiste d e n ensayos repetidos independientes, de los cuales sólo hay dos tipos: h i t o (con probabilidad individual igual ap) y fracaso (con probabilidad individual igual a q = 1-p), entonces la probabilidad de que en n ensayos ocurran exactamente k éxitos y n - k fracasos está dada por:
1 60
Parte 11. Principales distribuciones estadísticas
La característica de los ensayos de Bernoulli es q u e p es un valor fijo o constante en cada situación específica. Además, por definiciónp + q = 1. El uso de las palabras &to yfiacaso es sólo un eufemismo para distinguir que se trata d e dos tipos distintos d e ocurrencia, y por supuesto, n o hay ninguna implicación de que se trate de cosas buenas o malas. Es lo mismo que ocurre en electricidad, por ejemplo: la carga eléctrica puede ser negativa o positiva, pero no hay ninguna implicación d e que la negativa sea mala y la positiva sea buena, o algo por el estilo. Ejemplo 5.5. Si se supone que la probabilidad de que un bebé que nace sea vardn 1 es de - ,calcular la probabilidad de que los siete hijos de un matrimonio sean dos varo2
nes y cinco mujeres. Solucic5n:Aplicando la fórmula se tendrá:
si decimos que Rrito es ser hombre; o bien:
si el éxito es ser mujer. Desde luego, ambos enfoques conducen al mismo resultado:
Este esquema d e ensayos con reposición (o muestre0 con remplazo) da pauta a la llamada distribución binomiai, la cual es una d e las más útiles en la teoría estadística y s e denota por:
donde la variable aleatoria discretax puede tomar cualquier valor, desde O hasta n, y la probabilidad correspondiente (es decir, la frecuencia relativa teórica) se calcula con esta fórmula. Las letras de la fórmula simbolizan lo siguiente:
n = Número de ensayos p = Probabilidad individual de un éxito (es un valor fijo) q = 1- p = Probabilidad de un fracaso x = Número d e éxitos en los n ensayos. Ejemplo 5.6. Suponga que en una ciudad s610 70% de los automovilistas tienen licencia para conducir. Se requiere calcular la probabilidad de que exactamente 8 de 12 automovilistas elegidos al azar tengan licencia para conducir.
Cap. 5.Las distribuciones discretas teóricas más importantes
16 1
Solución: Resulta claro que se trata de una distribución binomial, porque la probabilidad de un éxito (en este caso, que el automovilista tenga licencia) es un valor numérico fijo:p = 0.7. Este problema equivale a que en un frasco se tuvieran canicas o pequeñas esferas, de las cuales 70 % fuesen canicas azules y 30 % canicas rojas. Luego escogemos una muestra de n = 12 canicas con reposición; esto es, se van sacando las 12 canicas de una en una, anotando el color en cada caso y regresando cada canica al frasco antes de sacar la siguiente. Se requiere calcular la probabilidad de que se hayan anotado 8 azules (éxitos) y 4 rojas (fracasos). Volviendo al ejemplo, tenemos que n = 12,p = 0.7, q = 0.3 y x = 8. Luego:
Este resultado se obtiene rápidamente con ayuda de una calculadora de bolsillo. Ejemplo 5.7. Suponga que un jugador de basquetbol estima, basado en su experiencia, que encestará aproximadamente 70% de los tiros libres que lance a la canasta. Calcular la probabilidad de que en una serie de seis tiros libres enceste entre dos y cuatro inclusive. ~oluci6n: Tomemos como éxito encestar el tiro; luego, p = 0.7 y q = 0.3 (probabilidad de un fracaso). En este caso, n = 6. Por lo tanto, tenemos (usando el principio aditivo) :
La moda en la distribución binomial. En el caso de que (n + 1)p n o sea un valor entero, hay sólo un valor más probable (moda) en la distribución binomial, el cual es:
donde los corchetes denotan laparte entera del número, es decir, el mayor entero que no excede al número. Por ejemplo, [3.27] = 3 o bien [7] = 7. A decir verdad, antes d e realizar la multiplicación (n + l)p, conviene averiguar si el producto n p es entero, en cuyo caso la moda es directamente: m, = [(n Si (n
+ l)p] = np
+ 1)p es un valor entero, entonces hay dos modas:
Ejemplo 5.8. Calcular la moda en los siguientes casos de distribución binomial:
1 62
Parte 11. Principales distribuciones estadísticas
Solución: 1
a) Como 12 X -= 4 es entero, entonces la moda es m, = 4.
3 1 6) En este caso, la moda se halla así: como (15 +1) x y =4 es entero, entonces
hay dos modas: 3 y 4. 2 c) En este caso, la parte entera de 10x - es [2.857...] = 2, por lo que la moda es 7 Media (o valor esperado) en la distribución binomiai. La media de la distribución binomial vale siempre p = np. Este valor es muy útil y sugerimos al lector que lo recuerde siempre. Para una demostración, puede consultar algún manual de probabilidad y estadística para ingenieros. Varianza de la distribución binomial. La varianza de la binomiai es siempre u2= npq. Igualmente, el estudiante interesado puede consultar una demostración rigurosa en algún manual de probabilidad y estadística para ingenieros.' Desde luego, la desviación estándar en la distribución binomial está dada por cr = Sesgo en la distribución binomial. El sesgo en la distribución binomiai
6.
1
depende del valor del parámetrop. Si p =-, entonces el sesgo es cero y la 2 gráfica (histograma) es perfectamente simétrica y acampanada. Sin embargo, cuan1
do O < p < y,la distribución tiene sesgo positivo, y el sesgo es tanto más acenL
1 tuado a medida quep tiende a cero. En cambio, cuando -< p < 1, el sesgo sera 2
negativo y se acentuará cada vez más a medida q u e p tienda a 1. De hecho, en libros de estadística para ingenieros se prueba que el sesgo de la distribución binomial está dado por:
Recuérdese que sesgo positivo quiere decir que la asimetría del histograma (o de una curva) es tal que aparece una especie de cola a la derecha y que la 'Véase, por ejemplo, el libro Pmbabilidad y estadfsticaparaingeniería y ciencias,d e Gabriel Velasco Sotomayor y Piotr Manan Wisniewski, Thomson International Editores, México, 2000, pp. 115-116.
Cap. 5.Las distribuciones discretas teóricas más importantes
163
mayoría de las frecuencias relativas acumuladas tienden a concentrarse del lado izquierdo de la media. En cambio, el sesgo negativo indica que hay una especie de cola del lado izquierdo y que la mayoría de las frecuencias acumuladas se cargan del lado derecho.
:1
Por ejemplo, en la figura 5.1 se tiene el histograrna de b x, 10, - . No hay sesgo ni positivo ni negativo, porquep = 0.5. Por tanto, la distribución es de aspecto acampanado. La distribución de esta figura podría corresponder, por ejemplo, a la siguiente situación: Se lanza una moneda al aire un total de n = 10 veces, y entonces,x denota el número de veces que la moneda cae con el lado del águila hacia arriba.
Figura 5.1. Histograma para la distribución binomial b(x. 1 O.-).1 2
5.3. ELUSO DE TABLASY DEL Exm EN LA DISTRIBUCI~N BINOMIAL
Para cálculos de probabilidades binomiales resulta muy útil tener a la mano
tablas de probabilidades acumuladas, de la forma
2 b(x, n, p). la mayoría de los
x=o
libros de estadística traen tales tablas, ya sea con cuatro o más dígitos decimales. Dichas tablas proporcionan un menú adecuado de valores dep, desde 0.10 hasta 0.90, y valores de n , desde 1hasta 18 o 20. Si uno quiere hallar la probabilidad de
164
Parte 11. Principales distribuciones estadlsticas
un valor puntual (no acumulado), por ejemplo, b(r, n,p), se usan las tablas de la siguiente manera:
Esto se traduce en restar un valor de la tabla menos el valor que está inmediatamente arriba de él. Ejemplo 5.9. Supóngase que se da por válido que 90 % de los automovilistas del Distrito Federal intentan darse a la fuga cuando son culpables de algún accidente de tránsito. Calcular la probabilidad de que, de un total de 15 accidentes de tránsito elegidos al azar, cuando mucho en 12 casos el culpable haya intentado darse a la fuga. 12
solución:Hay que caicular
x=o
b(x, 15,0.90). Se busca en las tablas n = 15,p= 0.90,
r = 12,y se halla 0.1841.En tablas con seis dígitos se obtiene la respuesta más precisa
0.184061.
Otro método rápido y efectivo para el cálculo de probabilidades binomiales consiste en usar Excel o algún otro software científico o de estadística. 9
Ejemplo 5.10. Con el Excel de Microsoft Office,calcular
b(x, 15, 0.7258) x=o
Solución: En la barra de iconos se pulsa donde dice& y aparece el cuadro de menú que se aprecia en la figura 5.2.En Categoría de lafunción se selecciona Estadisticas y en Nombre de lafunción se elige DISTR.BIN0M.Luego se pulsa Aceptar. Entonces aparece un cuadro de diálogo. Donde dice Número de &to se escribe 9,donde dice Ensayos se escribe 15,en Pmbabilihd de hito se pone 0.7258,y donde dice Acumulado, se pone verdadero,o simplemente un 1.Si se hubiera puesto falso (o un O) entonces sólo se habría obtenido el valor de b(9,15,0.7258)sin acumular. Otro modo aun más directo habría sido escribir directamente esto: =DISTR.BINOM.(9,15,0.7258,1) y dar enter. La respuesta aparece instantáneamente: 0.20661043.
NOTA:NO es necesario que escriba DISTR.BINOM. con mayúsculas; puede hacerlo con minúsculas también. Lo que sí es importante observar es que si el Excel que usted usa está en inglés u otro idioma, entonces debe averiguar primero cuál es la sintaxis para la distribución binomiai en ese idioma, y lo mismo para las demás utilerías estadísticas. -
5.4. ELMUESTREO SIN R E P O S I C I ~ NY LA DISTRIBUCI~N . -
HIPERCEOMÉTRICA -
-
Los ensayos sin reposición siguen un modelo o patrón muy distinto a los ensayos con reposición, porque las probabilidades van cambiando en cada extracción. Recuérdese que para los ensayos con reposición, las probabilidadesp y q se mantenían fijas. Supóngase que se tiene un conjunto de N objetos, al que llamaremos en
ISTR BETA INV
ición binr
Figura 5.2
forma provisional lapoblación, el cual consiste de k éxitos y (N - k)fracasos, y del cual extraemos una muestra de n objetos (sin reposición). No importa si son extraídos de uno en uno o todos juntos, pero no deben regresarse al conjunto de donde se sacaron. Esta muestra puede contener algunos "éxitos" y otros "fracasos". La probabilidad de que en esta muestra de tamaño n sin reposición haya precisamente x éxitos y (n -x) fracasos, está dada por el cociente de casos favorables entre casos totales, es decir:
Este esquema de ensayos sin reposición da pauta a la llamada distribución hipergeométrica. Las letras usadas en esta fórmula simbolizan lo siguiente: N = Tamaño de la población k = Número de éxitos en la población n = Tamaño de la muestra (sin remplazo) x = Número de éxitos en la muestra.
La variable aleatoria discretax puede tomar cualquier valor, desde O hasta n.
1 66
Parte 11. Principales distribuciones estadísticas
Esta distribución suele denotarse mediante el símbolo b(x, N, n, k), aunque también algunos autores invierten el orden de los dos parámetros que van en el centro: h(x, n , N, k). El Excel usa la sintaxis: =DISTR.HIPERGEOM(x,n,k,N). Nótese que el orden de las letras en Excel es distinto. Ejemplo 5.11. En un grupo de personas hay cinco mujeres y tres hombres. Si se escoge por lista un comité de cuatro personas al azar para acudir a una exposición, calcular la probabilidad de que en el comité vayan por lo menos dos mujeres. Solución:En este caso tendremos:
Si el tamaño d e la población (N) es mucho mayor que el tamaño de la muestra (n), entonces el muestreo con reposición o sin ella es virtualmente el mismo. Por eso, desde el punto de vista práctico, la mayor utilidad de la distribución hipergeométrica en estadística estriba en que tiende a la distribución binomial con
parámetro
h?
P =a medida que N »n. N
Media (o valor esperado) en la distribución hipergeom&ca. La media en la nk
distribución hipergeométrica es P= -, lo cual tiende al valor de la media en la N binomial p = np si N >> n . Vatianza de la distribución hipergeomdtrica. La varianza en la distribuk N-k N-n ción hipergeométrica está dada por oZ= n - - - lo cual es N N N-1' más fácil de recordar si se ve la tendencia al valor 02= noa d e la binomial. donde k N-k N-n y el último factor -tiende a 1cuando N »n. Para una p N=-''4 N N-1 demostración formal d e estos hechos, el lector interesado puede consultar la obra que se cita al calce.2 N-n En teoría del muestreo, el cociente -se suele llamar factor de wrrecN-1 ción para poblaciones finitas, aunque algunos autores prefieren llamar así a la ~~
A
magnitud
x
JE.
Es una cuestión de gustos. El primero es el factor de correc-
ción para una varianza; y el segundo, para una desviación típica. Lo importante es que cualquiera de las dos magnitudes tiende a la unidad cuando N »n. Ejemplo 5.12. Suponga que en una caja hay 500 esferas, de las cuales 300 son azules y 200 son blancas. Calcular la probabilidad de que una muestra aleatoria de 12 esferas extraídas de esa caja contenga 7 azules y 5 blancas, si el muestreo se hace: "abnel Velasco Sotomayor y Piotr Manan Wisniewski, Probabilidad y estadísticapara ingeniería y ciencias,Thomson International Editores, 2000, p. 121.
Cap. 5. Las distribuciones discretas teóricas más importantes
167
a ) con reposición 6) sin reposición.
a ) Si el muestre0 es con reposición, entonces ello significa que se van sacando las 10 esferas de una en una, y que en cada extracción se anota el color y se vuelve a depositar la esfera en la caja antes de sacar la siguiente. En ese caso, si denotamos por éxito que una esfera sacada sea azul y porfracaso que sea blanca, tendremos ensayos de Bernoulli con n = 12,p = 0.6, q = 0.4,x = 7. Luego:
(con ayuda de una calculadora de bolsillo). b) Si la muestra se extrae sin remplazo, entonces:
Como era de esperarse, los resultados de ambos incisos son muy parecidos, porque 500 »12.
Muchas de las distribuciones estadísticas importantes involucran al número real e = 2.718281828... , que es la base de los logaritmos naturales. En cursos de cálculo, se define dicho número real como cierto límite especial y también se comprueba que se puede llegar a él mediante una serie infinita simple:
No es necesario que el estudiante conozca las sutilezas de este número real, tan importante en todas las ramas de las matemáticas aplicadas y en la estadística. Basta con que sepa calcular potencias de dicho número con su calculadora de bolsillo. Para ello obsérvese que la función ex = exp(x) es la inversa de la función logaritmo natural lnx. Por tanto, en la parte de afuera de la tecla que corresponde a la función ln en su calculadora aparece la función ex,así que la puede llamar con el SHIFT (o 2nd F). Se dice que la variable aleatoria discretax tiene distribución de Poisson con parámetro h > O si su distribución de probabilidad está dada por:
1 68
Parte 11. Principales distribuciones estadísticas
Esta distribución fue estudiada por el ilustre matemático y h'sico francés Siméon Denis Poisson (1781-1840). El trabajo de Poisson donde aparece por primera vez esta distribución tiene un título bastante raro: Recherches sur la probabilité des jugements en matiere criminelle et en mati&re civile, y apareció publicado en 1837, es decir, tres años antes de la muerte de este gran científico. Uno de los usos más importantes de la variable aleatoria con distribución de Poisson se encuentra en lo que se conoce como flujo de sucesos de Poisson. Un suceso de Poisson tiene una probabilidad insignificante (virtualmente cero) en un intervalo pequeño de tiempo (puede ser también de área o de volumen); sin embargo, en intervalos considerables se puede registrar un promedio estadístico del número aproximado de ese tipo de ocurrencias. Por ejemplo, en la Ciudad de México suelen ocurrir sismos de vez en cuando, pero la probabilidad de que ocurra un sismo en un intervalo de tiempo breve (por ejemplo,una hora o incluso un día) es despreciable. No obstante, podría decirse que ocurren, por ejemplo, tres sismos cada lustro en promedio. Algunos ejemplos de sucesos de Poisson son: el número de llamadas telefónicas que recibe una persona normal por unidad de tiempo (por ejemplo, cada hora o cada día), el número de clientes que visitan una tienda o restaurante cada cierto tiempo, el número de accidentes de tránsito que ocurren en cierto crucero cada mes, y el número de goles que se anotan en cada partido de futbol durante el tiempo reglamentario. A decir verdad, casi todas las contingencias que ocurren en un partido de futbol (goles, tiros de esquina, saques de banda, jugadores amonestados, expulsados, etc.) son sucesos de Poisson. Ejemplo 5.13. Supóngase que el campeón mundial de billar, en la modalidad de carambola de tres bandas, registra un promedio de 1.2 carambolas por entrada.' Determinar la probabilidad de que en una entrada cualquiera, dicho billarista registre:
a) dos carambolas b) por lo menos una carambola. Solución:
Media y varianza de la distribución de Poisson. Tanto la media como la varianza de la variable aleatoria discretaxcon distribución de Poisson son, curiosamente, iguales al parámetro h: La demostración de este hecho puede verse en los otros libros de estadística y de probabilidad del autor, escritos en colaboración con el doctor Wisniewski, y que se han citado anteriormente. Hoy día esos promedios ya han sido superados, gracias a mejores técnicas y a los nuevos materiales y tecnologías.
Casi todos los libros de estadística traen tablas acumuladas d e la distribución de Poisson, las cuales son d e fácil manejo. Para cada valor específico de r y d e p se obtiene:
Ejemplo 5.14. Si en una oficina se reciben en promedio 9.5 llamadas telefónicas por hora, determinar la probabilidad de que durante una hora cualquiera se registren no más de siete llamadas. Solución: Si asumimos que las llamadas telefónicas que entran a esa oficina son su7
cesos de Poisson, entonces hay que calcular
29(x, 9.5). Localizamos en tablas el valor
x=o
correspondiente a p = 9.5 y r = 7. La respuesta se lee directamente: 0.26866. Con Excel, podemos hallar el mismo valor de la siguiente forma. Pulsamos el icono que activa las funciones del Excel y aparece de nuevo el menú de la figura 5.3. En Categoría de lafunción se elige Estadísticas y en Nombre de lafinción se selecciona POIS SON. Si se pulsa Aceptar, aparece un cuadro de diálogo, en el que anotamos x = 7, media = 9.5 y verdadero en el mbro de Acumulado (o bien un 1).Instantáneamente, aparece el mismo resultado que con las tablas: 0.26866.
Categoría de la función
Nombre de la func
1
Usadas recientemente Todas Financieras
PENDIENTE
Devuelve ta distribución de i-u~ssuri
Figura 5.3
1 70
Parte 11. Principales distribuciones estadísticas
Aproximación de la distribución binomiai a la distribución de Poisson. Para valores de n comparativamente grandes y valores pequeños d e p , la distribución binomial se aproxima a la de Poisson de la manera siguiente:
Como regla práctica, basta con que se cumpla: n 2 50,p 5 0.1, para que la distribución de Poisson sea una muy buena aproximación de la distribución binomial. La distribución de Poisson es también una distribución límite para la hipergeométrica. En efecto, si se tiene una población de tamaño N, compuesta por k éxitos y N - k fracasos, y se extrae una muestra de tamaño n sin reposición, entonces la probabilidad de que la muestra contenga precisamente x éxitos y n -x fracasos, se puede aproximar con una Poisson, siempre y cuando se satisfaga que N + a,k + m, n + m, y también se verifique que k/N + O, nk/N + h Entonces se tendrá:
Ejemplo 5.15. Si la probabilidad de que una computadora sea infectada por un virus cibernética es de 0.001, determinar la probabilidad de que, de un total de 2000 computadoras de una empresa, exactamente tres se infecten. Solución:
Ejemplo 5.16. Supóngase que un oficial d e la pqlicía d e tránsito, detiene al 0.04 % d e los automovilistas que pasan por la avenida Miguel Angel de Quevedo, entre las 8 y las 11 de la mañana, por considerar que han cometido alguna infracción al reglamento de tránsito. Si durante ese lapso pasan por allí aproximadamente 15 000 automóviles, y este oficial se embolsa un promedio de 100 pesos por automóvil que detiene, hallar la probabilidad d e que dicho oficial consiga, durante ese lapso, los 500 pesos que necesita para comprarse una botella de tequila, unos tacos y el pago de la "cuota" de su jefe. Solución: El número esperado de automóviles que detiene durante ese lapso es p = np = 15000 x 0.0004 = 6. Se usa la aproximación de Poisson y entonces:
Ejemplo 5.17. Se tiene una variable aleatoria discretax, con distribución de Poisson, en la que se sabe que P(X = 1) = P(X = 3). De acuerdo con esa información, se requiere determinar P(X = 5).
Cap. 5.las distribuciones discretas teóricas más importantes
17 1
Solución:
Aquí hemos usado la notación exp(x) en vez de e',que es una notación también muy usual.
La moda en la distribución de Poisson. El valor más probable (moda) e n la distribución d e Poisson es m. = [h]si h n o es entero; mientras q u e si h es entero, entonces hay dos modas, a saber: h - 1 y h. Ejemplo 5.18. SiXes una variable aleatoria discreta, con distribución de Poisson, tal que P(X = 0) = 2P(X = l), determinar el valor más probable de X.
e-xhO .phl - -*h=-, 1 luegolamodaesm,=[h]= Solución: -O! l! 2 Ejemplo 5.19. En un sitio de taxis que son llamados por teléfono, se ha observado que en promedio solicitan un taxi cada seis minutos.
a) Determinar el número más probable de taxis que serán solicitados durante la próxima media hora. b) Con ayuda del Excel, o de cualquier otro software para estadística, dibujar un histograma para la variable aleatoria X que representa el número de taxis solicitados cada media hora. Solución:
a) Si solicitan en promedio un taxi cada seis minutos, entonces solicitan en promedio cinco taxis cada media hora. Tómese la media hora como unidad de tiempo; luego, la variable aleatoria X, que denota el número de taxis que salen cada media hora, está dada por P(x, 5). Como h = 5 es entero, entonces hay dos modas: 4 y 5. Por consiguiente, lo más probable es que durante la próxima media hora soliciten cuatro o cinco taxis. Veamos la comprobación:
Figura 5.4. Histograma para la distribución de Poisson Y(x. 5). b) El histograma (probabilidad de que salgan X taxis durante media hora) se observa en la figura 5.4. Ejemplo 5.20. El número de buques tanque petroleros que llegan cada día al puerto de Coatzacoalcos, Veracruz, sigue una distribución de Poisson, con parámetro h = 2. Las instalaciones portuarias sólo permiten atender a tres buques al día, y en caso de que lleguen más de tres en un día, los que están en exceso se despachan al puerto cercano de Allende, donde tienen que mantenerse a la espera.
a) Determinar la probabilidad d e que en un día cualquiera tengan que enviarse buques al puerto d e Allende. 6) ¿En cuánto deben aumentarse las instalaciones actuales del puerto de Coatza-
coalcos, para permitir la atención a todos los buques tanque 90 % de los días? c) ¿Cuál es el número esperado de buques tanque que llegan al día al puerto d e Coatzacoalcos?
4 ¿Cuál es el número más probable de buques tanque que llegan diariamente al puerto de Coatzacoalcos?
Solución: a) Sea X el número de buques que llegan cada día al puerto de Coatzacoalcos. La probabilidad d e que no sean suficientes las instalaciones es:
Cap. 5. las distribuciones discretas teóricas más importantes
1 73
6) Si pudieran atender a cuatro buques en lugar de tres, la probabilidad de tener que enviar buques a esperar al puerto de Allende sería de:
y la probabilidad de atender a todos los buques sería, obviamente:
C) E ( X ) = p = h = 2 . d ) Como h = 2 es entero, entonces hay dos modas, a saber: 1y 2. Por tanto, lo más probable es que lleguen uno o dos buques en un día cualquiera.
Es posible que en una sucesión de ensayos de Bernoulli nos interese no tanto el número de éxitos y d e fracasos, sino el número de intentos que hay que realizar hasta lograr el k-ésimo éxito. Se dice que la variable aleatoria discreta X tiene distribución binomid negativa (o Pasd), con parámetros k y p , donde k = 1 , 2 , 3 , . .. x, y O < p e 1, si su distribución de probabilidad está dada por:
Esta distribución se refiere al orden d e aparición d e los éxitos en los ensayos de Bernoulli, y corresponde a la probabilidad de que el k-ésimo éxito tenga lugar precisamente en el x-ésimo intento o ensayo. Ejemplo 5.21. La probabilidad de que un automovilista que va por cierta avenida tenga la luz roja en el semáforo de un crucero, es 0.3. Entonces, podemos expresar la probabilidad de que el octavo semáforo que pasa sea el segundo en estar en la luz roja, del siguiente modo: 6*(8,2,0.3). Esto se calcula con la fórmula así:
Si queremos calcular esto con el Excel de Microsoft Office, entonces veámoslo desde el punto de vista de los fracasos y los éxitos requeridos para que ello ocurra. Si el éxito es la luz roja y el fracaso es la luz verde (despreciaremos la duración de la luz ámbar), entonces para el octavo crucero el automovilista llevaría 8 - 2 = 6 fracasos y 2 éxitos. Entonces, la sintaxis del Excel es esta:
1 74
Parte 11. Principales distribuciones estadísticas
Esto significa que la ocurrencia del késimo éxito en elx-ésimo intento es equivalente a la ocurrencia de x - k fracasos en el momento en que se cumple el k-ésimo éxito. Ejemplo 5.22. Supóngase que Michael Jordan se entrena lanzando una sucesión indeterminada de tiros libres a la canasta y que la probabilidad de que enceste un tiro cualquiera es de 0.87. Calcular la probabilidad de que el duodécimo tiro que lanza sea el décimo que logra encestar. Solución:6*(12, 10,0.87)=
(0.87)'~(0.13)~ = 0.2309.
Con Excel tenemos entonces: =NEGBINOMDIST(2,10,0.87),que da el mismo resultado.
Media y varianza de la distribución binomial negativa. La media y la varianza de la distribución binomial negativa están dadas, respectivamente, por:
La distribución binomial negativa y la binomial se relacionan mediante una fórmula que es muy fácil d e demostrar y aún más fácil d e recordar:
Un caso particular d e esta distribución es cuando k = 1, lo que produce la llamada distribución geométrica con parámetrop, y suele escribirse d e la siguiente manera:
Se llama así, porque su forma coincide con la del x-ésimo término d e la progresión geométrica dada por: p,pq,pqZ,pq3,... Media y varianza en la distribución geoméuica. La'media y la varianza d e la distribución geométrica se calculan, respectivamente, en la siguiente forma:
Como la suma d e los primeros n términos de la progresión geométrica: P, pq, pqZ,pq3, - -. ,pqn-', está dada por:
..
Cap. 5.Las distribuciones discretas teóricas más importantes
1 75
ello nos proporciona una fórmula sencilla para la distribución acumulada de probabilidad en la distribución geométrica, a saber:
Ejemplo 5.23. Si vale 0.15 la probabilidad de que una persona encuentre un medicamento que necesita en cualquier farmacia donde pregunte por él, calcular la probabilidad de que tenga que preguntar por el medicamento en cuando mucho tres farmacias antes de conseguirlo. Solución :
Ejemplo 5.24. Con ayuda de Excel o de cualquier otro software de estadística, dibujar el histograrna correspondiente a la distribución binomial negativa b*(x, 4, 0.42), para lo cual se debe hacer primero una tabulación de valores numéricos, por ejemplo, desde x=4hastax=21. Solución:En una hoja de cálculo de Excel se escribe en la celdilla Al el número 4, en la A2 el 5, y así sucesivamente hasta llenar los valores numéricos de la columna A, desse pulsa enter de 4 hasta 21. En la celdilla B1 se escribe: =NEGBINOMDIST(A1-4,4,0.42), y luego dos clics rápidos con el botón izquierdo del muse en la parte inferior derecha de la celdilla B1. Las celdilla de la columna B se llenarán como se muestra a continuación:
La figura 5.5 muestra el histograma.
Escriba correctamente el planteamiento algebraico con la fórmula apropiada, pero realice tas operaciones con Excel, escribiendo con claridad la sintaxis requerida para la ejecución de la orden por el Excel y anotando la respuesta que aparece. Luego compare con las soluciones que se proporcionan. Menos de nueve aciertos significa que su aprovechamiento ha sido deficiente y arnerita repasar el capítulo de nuevo. Más de 12 aciertos es excelente. Recuerde que antes de escribir la orden d e ejecución para el Excel se requiere que anote el planteamiento también con símbolos matemáticos. Sugerimos que resuelva esros ejercicios en dos sesiones de dos horas cada una, con un breve receso intermedio.
Figura 5.5. Histograma de la distribución binornial negativa bx(x, 4, 0.42).
Su esfuerzo será una buena inversión para un óptimo aprendizaje. 1. Un señor fabrica piezas de ajedrez de plástico con calidad de exportación. La máquina
que las produce saca 20 % de piezas defectuosas, las cuales tienen que ser tiradas a la basura. Si se toma aieatoriarnente una muestra de seis piezas producidas por esa máquina, determine la probabilidad de que por lo menos la mitad de ellas tengan defectos. 2. Si una moneda ordinaria se lanza ocho veces consecutivas, calcule la probabilidad de que resulten: a) todas águilas 6) cuatro águilas y cuatro soles.
3. En un cibercafk hay 19 computadoras para uso del público. A pesar de que les dan mantenimiento regular, la encargada del lugar aíirma que siempre hay 10 % de probabilidad de que cualquiera de ellas tenga virus. Hallar el número más probable de computadoras que están libres de virus. 4. Un embarque de 80 alarmas contra robo contiene cuatro que son defectuosas. Si del embarque se seleccionan ai azar tres y se envían a un cliente, encuentre la probabilidad de que el cliente reciba una unidad mala. 5. El número promedio de servicios (corridas) que hace un taxista desde que sale a trabajar en la mañana hasta la hora de su almuerzo al mediodía, es de 12. Los servicios que él hace son aleatorios e independientes. ¿Cuál es la probabilidad de que en un día cualquiera el taxista haga menos de nueve servicios antes de la hora de su almuexzo? 6. Resuelva este ejercicio relativo a la distribución binomiai, por medio de la aproximación de Poisson. Los registros muestran que 0.0012 es la probabilidad de que una persona se intoxique con alimentos si pasa el día en cierta feria estatal. Encuentre la probabilidad de que, entre 1000personas que asisten a la feria estatal, cuando mucho dos se intoxicarán por alimentos. 7. Use la aproximación de Poisson para resolver este problema relativo a la distribución binomial. La señora García está encargada de los préstamos en un banco, y con base
Cap. 5.Las distribuciones discretas teóricas más importantes
1 77
en sus años de experiencia, estima que la probabilidad de que un solicitante no sea capaz de pagar oportunamente su préstamo es de 0.025. El mes pasado realizó 40 préstamos. ¿Cuál es la probabilidad de que: a) tres préstamos no se paguen de manera oportuna? b) al menos tres préstamos no se liquiden a tiempo? 8. El promedio de llamadas telefónicas que entran en un conmutador es de dos llamadas
cada tres minutos, y se supone que el flujo de llamadas sigue un proceso de Poisson. ¿Cuál es la probabilidad de que entren precisamente dos llamadas durante los pr6x.imos tres minutos? 9. Un futbolista sudamericano convierte en gol 40 % de los tiros d e castigo con barrera que ejecuta. Determine la probabilidad de que el décimo tiro libre con barrera que ejecute en un torneo sea el tercero que convierta en gol. 10. En una máquina copiadora de una papelería, 5 % de las copias salen defectuosas. Si un cliente va a fotocopiar un trabajo de cientos de páginas, determine la probabilidad de que antes de la decimosexta copia ya haya salido la primera defectuosa. 11. Un catador d e vinos afirma que 90% de las veces puede distinguir entre un vino fino y uno corriente con sólo degustar un sorbo de una muestra. Para comprobar o desmentir su afirmación, se le aplicará una pequeña prueba consistente en degustar nueve muestras de vino y decidir en cada caso si se trata d e vino fino o corriente. El criterio para aceptar o rechazar su afirmación es que si el individuo acierta por lo menos en seis de las nueve muestras, se aceptará su afirmación, y en caso contrario, se rechazará como falsa. a) Determine la probabilidad de que si el sujeto no conoce nada de vinos y sólo está adivinando, logre pasar esa prueba. 6) Calcule la probabilidad de que aun suponiendo que es cierto lo que afirma (que es capaz de acertar 90 % de las veces), no logre pasar la prueba. 12. Un sujeto afirma que es capaz d e distinguir a simple vista entre una perla auténtica y una falsa 75 % d e las veces. Para comprobar si es cierto, se le muestran una por una
seis perlas diferentes escogidas al azar, y se aceptará lo que afirma si logra establecer la autenticidad (o falsedad) en por lo menos cinco casos; de lo contrario, se rechazará. a) ¿Cuál es la probabilidad d e que se acepte su afirmación, si realmente no sabe nada y sólo está adivinando? 6) Suponga que en efecto es cierto lo que afirma. ¿Cuál es la probabilidad de que rechacen su afirmación?
U 'Iies amigos han bebido cervezas en un bar y al final deciden lanzar una moneda al aire cada uno, simultáneamente, para que aquel que obtenga signo distinto sea el que pague la cuenta. Si las tres monedas salen del mismo signo, se lanzan de nuevo. Calcule la probabilidad de que se requieran más de dos lanzamientos. U ia Cruz Roja d e León, Guanajuato, recibe un promedio de 13 pacientes diarios picadas por algún alacrán. Determine la probabilidad de que tengan que atender más de 11 casos diarios de picadura de alacrán: 1) en al menos tres de los siguientes siete días H por primera vez en una semana el día miércoles d por tercera vez en una semana el día viernes. : m i d e r e el lunes como el primer día de la semana.]
~ P L J E S T A SDE LOS EJERCICIOS DE AUTOEVALUACIÓN 5.1
2. Tomamos águila como éxito. Entonces n = 8 , p = 0.5. Luego:
3. Hay dos modas: 17 o 18 computadoras están libres de virus, y son los números con más alta probabilidad.
4. Sea éxito = alarma no defectuosa. Luego h(2, 80, 3, 76) =
p.
para plantearlo
con Excel, se abre el menú de funciones estadísticas, se busca la hipergeométrica y se siguen las instrucciones o, directamente:
Con Excel se escribe: =1-POISSON(2,1,1) = 0.0803. 8. 9(2,2). Con Excel se escribe: =POISSON(2,2,0). La respuesta es 0.2707. 9. b* (10,3,0.4). =NEGBINOMDIST(7,3,0.4) = 0.064497. 15
10. x ¿ ? ( x , 0.05) =1- (0.95)" = 0.5367- El Excel no tiene opción acumulativa para la dis-
tribución binomial negativa, y la distribución geométrica no la considera en su menú. Por tanto, la única forma rápida de resolverlo con Excel es ésta: = 1 - (0.95A15) = 0.5367.
x=o
13. Como cada moneda puede salir de dos maneras distintas, hay Z3 = 8 formas distintas (saa),(m), (ssa), (am), en las que pueden resultar los lanzamientos,a saber: (m),
(m),(ass) y (sss). Sólo en dos de ellas hay empate. Por consiguiente, si el éxito es resul6 3 2 1 tado decisivo y el fracaso es empate, entonces se tiene que p = -= - y q = -= -. 8 4 8 4 La probabilidad de más de dos intentos para el primer éxito es, por tanto:
Con Excel: =0.25A2 = 0.0625. 14. La probabilidad de más de 12 picaduras reportadas en un día es
Con Excel, la sintaxis para esto es:
a) Que ocurra eso en al menos tres de los siguientes siete días es:
b) Que ocurra lo mismo por primera vez el miércoles, equivale a tener el primer éxito en el tercer intento: g(3, 0.5369) = b*(3, 1,0.5369). Con Excel es: =NEGBINOMDIST(2,1,0.536895).La respuesta es 0.115146. c) Finalmente, la probabilidad de que pase lo mismo por tercera vez en una semana el día viernes, equivale a tener el tercer éxito en el quinto intento. En consecuencia: b*(5, 3, 0.5369). Con la sintaxis y la interpretación del Excel, queda: NEGBINOMDIST(2,3,0.536895)= 0.19915. Casi 20% de probabilidades de que semejante cosa ocurra.
DSTSOBRE DISTRIBUCIONES DISCRETAS En el siguiente cuadro, anote con lapiz suave sus respuestas. Los procedimientos debe realizarlos en hojas separadas, y no en el libro. (En el apéndice D se dan las respuestas correctas para que las coteje con las suyas.)
1
7
. i ) 2 . i ) ii) ii) iii) .
8
.
9
3
.
4
.
.
1 0 . 1 1 . 1 2 . -
5
.
6.-
1. Según declaraciones del procurador de Justicia del D. E, Bernardo Bátiz (Metrópolis, 19 de febrero, 2001), "por cada asalto o robo que es denunciado ante las autoridades mexicanas, hay otros cuatro delitos de ese tipo que no fueron denunciados por la víctima". Si en una tarde ocumeron nueve delitos de ese tipo en una colonia del Distrito Federal, encuentre la probabilidad de que:
i) Exactamente tres de ellos hayan sido denunciados.
ii) Ninguno haya sido denunciado.
iii) No más de siete hayan sido denunciados.
2. Según el fabricante de un líquido quitamanchas, éste tiene un grado de efectividad de 0.8, es decir, elimina en promedio ocho de cada 10 manchas. Para comprobar si lo que afirma es cierto, se usará el producto en 15 manchas elegidas al azar, bajo el entendido de que si desaparecen por lo menos 11 de ellas, y sólo en ese caso, se dará por válida la afirmación del fabricante. i) Calcule la probabilidad de que la aseveración del fabricante sea rechazada cuando en realidad es cierta.
ii) Determine la probabilidad de que por error se acepte lo que sostiene el fabricante, cuando la efectividad de su producto es en realidad de 0.6.
3. El 90 % de los fusibles fabricados en una lfnea de producción pasan la prueba de control de calidad. De 15 fusibles elegidos al azar, halle el número más probable de ellos que pasarán la prueba de control de calidad.
4. Según el gerente de la compañia Avianca, 20% de las personas que hacen reservaciones por teléfono para un vuelo, finalmente no acudirán a comprar el boleto. Determine
Cap. 5.las distribuciones discretas tedricas más importantes
18 1
la probabilidad de que el séptimo individuo que haga resewación por teléfono un día cualquiera, sea el segundo que no se presentará a comprar su boleto.
5. En una lotería realizada para beneficio de la compañía de bomberos local, se venden ocho mil boletos a cinco pesos cada uno. El premio es un reloj fino, valuado en 30 mil pesos. Si Juan compra dos boletos, icuál es su ganancia esperada!
6. Si X denota el número de águilas en tres lanzamientossucesivos de una moneda, calcule la media de la distribución de probabilidad de la variable aleatoria X.
7. Si la probabilidad de que a cualquier persona no le guste el sabor de una nueva pasta dental es de 0.20, icuál es la probabilidad de que a cinco de 18 personas elegidas al azar no les guste?
8. En cierto distrito urbano, la necesidad de obtener dinero para comprar drogas (narcóticos) se supone como el motivo de 75 % de todos los robos ocurridos. Evalúe la probabilidad de que, entre los siguientes cinco casos de robo reportados en ese distrito, a lo más tres resulten de la necesidad de adquirir narcóticos.
9. Un fiuticultor afirma que dos terceras partes de su cosecha de duraznos están contaminadas por la mosca de la fruta. Encuentre la probabilidad de que, entre cuatro duramos inspeccionados al azar por el fruticultor, estén contaminados entre uno y tres inclusive.
10. Para evitar la detección en las aduanas, un viajero ha colocado en una maleta seis paquetes de cocaína junto con otros nueve paquetes de harina de mafz para buñuelos con una apariencia casi idéntica a aquellos, y los 15 paquetes vienen sellados con el mismo logotipo comercial. Si el vigilante aduana1 selecciona tres de los paquetes al azar para su análisis, icuál es la probabilidad de que el viajero sea arrestado por posesión ilegal de narcóticos?
11. ¿Cuál es la probabilidad de elegir, al azar y en forma sucesiva, cuatro litros buenos de leche de una nevera que contiene 20 litros, de los cuales cinco están en mal estado?
182
Parte 11. Principales distribuciones estadísticas
12. Si suponemos que vale 0.51 la probabilidad de que un bebé recién nacido sea varón, ¿qué porcentaje de los matrimonios con cuatro hijos se espera que tengan tres hijos varones y una mujer?
5.8. &SUMEN
DE F~RMULAS:MAS EJEMPLOS Y MAS EJERCICIOS
Para finalizar este importante capítulo, se presenta un resumen de las fórmulas esenciales, seguido de una serie de 60 ejercicios complementarios, que a su vez son precedidos por 25 ejemplos ilustrativos resueltos con todo detalle. Para una mejor comprensión, los separarnos por temas específicos.
Formulario de la distribución binomiai
donde: n = Número de ensayos independientes = Probabilidad individual de cada éxito q = 1-p = Probabilidad individual de cada fracaso x = Número de éxitos en los n intentos (x = 0,1, ... , n).
p
Media o vaior esperado: p = np VarioZ= npq Desviación estándar: a = Moda: m, =[(n+l)p], si (n +1)pe Z;pero si ( n +1)p E, Z hay dos modas: (mo), = (n l)p y (mJ, = (n 1)p - 1. (El símbolo [r]denota la parte entera de un número real r; por ejemplo, [2.23] = 2.) Tercer momento central: & = npq(1- 2p) Para cálculos en Egcel: =DISTR.BINOM(x,n,p,O)
&
+
+
Distribución acumulada: B(r, n, p )
=A
b (x, n, p). (Se halla en tablas.)
%=o
Distribución acumulada con Excel: =DISTR.BINOM(r1n#,1)
En qué casos se usa. Se usa cuando se trata de pruebas repetidas independientes con sólo dos resultadosposibles (éxito y fracaso). Se identifica fácilmente porque se conoce un valor de probabilidad fijo ( p ) para la ocurrencia de un éxito, y otro valor fijo (n) que representa el número de ensayos o pruebas independientes realizadas.
Ejemplos interesantes de la distribución binomial Ejemplo 5.25. ¿Cuántasveces se tiene que lanzar un parde dados para que la probabilidad de obtener el doble seis por lo menos una vez sea superior a l/z? Solución: Etiquetemos como éxito que salga el doble seis en un lanzamiento de los 1 l.
dos dados y como fracaso que salga cualquier otra cosa. Entonces: P
2<
JJ
36 . Nues=36,'P = -
tra incógnita aquí es n, y para calcularla, consideremos el caso de que en n ensayos no salga jamás el doble seis. De esta manera:
Ahora tomamos logaritmo natural a ambos miembros de la última desigualdad @odría ser logaritmo de cualquier base). Como ambos son números positivos menores que uno, sus respectivos logaritmos tendrán signo negativo:
Es decir:
Multiplicamos ambos miembros por -1 e invertimos el sentido de la desigualdad para obtener:
Por lo tanto:
Esto significa que hay que lanzar el par de dados 25 veces o más veces para que se tenga una probabilidad superior a lh de que salga el doble seis por lo menos una vez. Ejemplo 5.26. ¿Cuántaspruebas independientes se deben realizar, con la probabilidad de que un éxito ocurra en cada prueba igual a 0.4, para que el número más probable de éxitos en esas pruebas sea igual a 25. Solución: Si k, es el número más probable de éxitos, entonces:
o lo que es lo mismo:
'FUENTE:V E. Gmurman, Problema de Teoría de las Probabilidades y de Estadística Matemática, mducido del niso por el ingeniero Akop Grdian, problema 152, Mir, Moscú, 1975, p. 71.
184
Parte 11. Principa/esdistribuciones estadísticas
De acuerdo con nuestros datos: p = 0.4, k, = 25, q = 0.6. Así, debemos resolver las desigualdades:
La primera desigualdad da como resultado n 164, y la segunda n 2 61.5. Ello implica que buscamos un número entero positivo n que satisfaga 61.5 I n I64. Por tanto:
Cualquiera de esos tres valores satisface las condiciones del problema. Ejemplo 5.27. Dando por sentado que, en la distribución binomial b(x, n, p), el tercer momento central está dado por j$ = npq(1- 2p), obtener el coeficiente de sesgo y = %, e indicar el tipo de sesgo para los casos en que:
Solución: El coeficiente de sesgo y es el cociente del tercer momento central Y entre el cubo de la desviación estándar. Sesgo negativo indica que la gráfica (en este caso el histograma) presenta una especie de cola del lado izquierdo, y sesgo positivo indica una especie de cola del lado derecho. Recordemos que en la distribución binomial, la des-
=&
viación estándar es o nos dice, p3= npq(1- 2p). Por tanto:
mientras que el momento central de orden 3 es, según se
Resulta claro, entonces, que:
1 c) sip=-, entonces y=O. 2
El siguiente ejemplo es muy interesante, y para entenderlo sólo hay que saber (o recordar) que dos eventos E y F son independientes si y sólo si la probabilidad de que ocurran ambos es igual al producto de la probabilidad de que ocurra E por la probabilidad de que ocurra F.
Cap. 5. Las distribuciones discretas teóricas mús importantes
185
Ejemplo 5.28. Dos amigos A y B juegan al boliche (bolos) en carriles contiguos, y cada uno hará dos intentos por derribar todos los pinos (chuza), con el acuerdo de que quien haga menos chuzas en esos dos intentos, invitará una cena al otro. Supóngase que las probabilidades de hacer chuza paraA y B son 0.6 y 0.7, respectivamente.
a ) Hallar la probabilidad de que empaten y la probabilidad de que B tenga que pagar la cena de A. b) Repetir el inciso a pero con la condición de que ahora cada quien tiene tres intentos. c) Muestre que el bolichista más débil incrementa su probabilidad de ganar la apuesta si juegan a tres intentos. ¿Cómo explica usted este hecho paradójico y contrario al sentido común?
Solución : a ) Como las chuzas que hagan uno y otro son independientes, usamos la propiedad del producto de probabilidades para eventos independientes. La probabilidad de que empaten es, por lo tanto:
La probabilidad de que el más débil de los dos gane la cena está dada, entonces, por:
b) Para el caso de tres intentos, se debe elaborar primero una tabla de ambas distribuciones, la cual podemos obtener fácilmente a partir de una tabla de valores de la binomial acumulada. Hemos puesto s610 tres dígitos después del punto, porque el cuarto dígito es cero en todos los casos.
En este caso, la probabilidad de empate es:
Uno de los bolichistas puede ganar por cualquiera de los tanteos 1-0, 2-0, 3-0, 2-1, 3-1 y 3-2.
184
Parte 11. Principales distribuciones estadísticas
De acuerdo con nuestros datos: p = 0.4, k, = 25, q = 0.6.Así, debemos resolver las desigualdades:
JA primera desigualdad da como resultado n I 64, y la segunda n 2 61.5.Ello implica que buscamos un número entero positivo n que satisfaga 61.5 I n 1 64. Por tanto:
Cualquiera de esos tres valores satisface las condiciones del problema. Ejemplo 5.27. Dando por sentado que, en la distribución binomial b(x, n, p), el tercer momento central está dado por p., = npq(1- 2p), obtener el coeficiente de sesgo y = a,,e indicar el tipo de sesgo para los casos en que:
Soluc26n: El coeficiente de sesgo y es el cociente del tercer momento central CL, entre el cubo de la desviación estándar. Sesgo negativo indica que la gráfica (en este caso el histograma) presenta una especie de cola del lado izquierdo, y sesgo positivo indica una especie de cola del lado derecho. Recordemos que en la distribución binomial, la desviación estándar es O =Jnpq mientras que el momento central de orden 3 es, según se nos dice, y, = npq(1- 2p). Por tanto: 7
Resulta claro, entonces, que:
1
c) sip = -, entonces y = O. 2
El siguiente ejemplo es muy interesante, y para entenderlo sólo hay que saber (o recordar) que dos eventos E y F son independientes si y sólo si la probabilidad d e que ocurran ambos es igual al producto d e la probabilidad de que ocurra E por la probabilidad d e que ocurra F.
Cap. 5. Las distribuciones discretas teóricas más importantes
185
Ejemplo 5.28. Dos amigos A y B juegan al boliche (bolos) en carriles contiguos, y cada uno hará dos intentos por derribar todos los pinos (chuza), con el acuerdo de que quien haga menos chuzas en esos dos intentos, invitará una cena al otro. Supóngase que las probabilidades de hacer chuza para A y B son 0.6 y 0.7, respectivamente.
a) Hallar la probabilidad de que empaten y la probabilidad de que B tenga que pagar la cena de A. b) Repetir el inciso a pero con la condición de que ahora cada quien tiene tres intentos. c) Muestre que el bolichista más débil incrementa su probabilidad de ganar la apuesta si juegan a tres intentos. ¿Cómo explica usted este hecho paradójico y contrario al sentido común? Solución:
a) Como las chuzas que hagan uno y otro son independientes, usamos la propiedad del producto de probabilidades para eventos independientes. La probabilidad de que empaten es, por lo tanto:
La probabilidad de que el más débil de los dos gane la cena está dada, entonces, por:
b) Para el caso de tres intentos, se debe elaborar primero una tabla de ambas distribuciones, la cual podemos obtener fácilmente a partir de una tabla de valores de la binomial acumulada. Hemos puesto sólo tres dígitos después del punto, porque el cuarto dígito es cero en todos los casos.
Chuzas x
Probabilidades -A B
1-
En este caso, la probabilidad de empate es:
Uno de los bolichistas puede ganar por cualquiera de los tanteos 1-0, 2-0, 3-0, 2-1,3-1 y 3-2.
1 86
Parte 11. Principales distribuciones estadísticas Luego, la probabilidad de que el jugador más débil de los dos (A) gane la cena está dada por:
lo cual da un resultado de 0.2430. c) Puede parecer paradójico y contrario al sentido común que el jugador más débil de los dos tenga mayor probabilidad de ganar la competencia si juegan a tres intentos que si juegan a sólo dos intentos, pero esto no significa que al más débil le convenga jugar a tres intentos, ya que aunque su probabilidad de ganar es mayor, también su probabilidad de perder es mayor con tres intentos que con dos (porque disminuye la probabilidad de empate). Esto se aprecia claramente en el siguiente cuadro: Resultado E ~wteI GanL aA (el m:is débil) Gana B (el más fuerte)
1 1
2 intentos
3 intentos
5 3-
0.3808
0.43624
Ejemplo 5.29. En cierta línea aérea comercial han observado que aproximadamente 5 % de las personas que reservan un vuelo no se presentan al momento de abordar. Por esa razón, han adoptado la política de vender 100 boletos en un vuelo que sólo tiene capacidad para 95 lugares. Calcular la probabilidad de que haya lugar disponible para todas
las personas que se presenten a abordar un vuelo.5 Solución: SeaX la variable aleatoria discreta que representa el número de personas con reservación que no se presentan a abordar el avión. Entonces, X sigue una distribución binomial con parámetros n = 100 y p = 0.05. Queda claro que habrá lugar para todos en el avión si y sólo si ocurre que X 2 5. Por consiguiente:
Esto es relativamente fácil de resolver con calculadora científica, pero es mucho más rápido y fácil con Excel, mediante la sintaxis:
Desde luego, por las características de los parámetros n yp, se podía aproximar mediante una distribución de Poisson, y aunque no sería una aproximación excelente, sería razonablemente buena. En efecto, tomamos como parámetro h = p = np = 100 x 0.05 = 5. Luego:
IEste ejemplo viene planteado como ejercicio en el libro de T. Cacoullos,ExercMes in Probability, Springer Verlag, 1989, ejercicio 84, capítulo 2, p. 20. Sin embargo, la respuesta que trae ese libro al final es incorrecta.
Cap. 5. Las distribucionesdiscretas teóricas más importantes
187
-
Con ayuda de tablas de Poisson acumulada (p = 5, r = 4), o directamente con hcel, se halla entonces el valor 0.5595 0.56, que no está mal como aproximación. Un conocido libro de texto de probabilidad propone el siguiente ejercicio, pero n o trae la solución, por lo q u e varios estudiantes m e han preguntado acerca de cómo podría r e s o l v e r ~ e . ~ Ejemplo 5.30. En un país se sabe que 7 % de los paquetes que se envían por correo se pierden (o se los roban) y el servicio postal no se hace responsable. Un señor tiene dos libros que valen 20 dólares cada uno y desea enviarlos por correo a su hermano que vive en otra ciudad. Si los envía juntos en un solo paquete, el costo es de 5.20 dólares, pero si los envía en paquetes separados, le costaría 3.30 dólares cada uno. Si el señor desea minimizar el valor esperado de su desembolso (gasto del correo más posible pérdida), ¿qué es preferible: enviarlos juntos en un paquete o en paquetes separados? Solución: SeaX la variable aleatoria discreta que denota el desembolso de este señor (gasto del correo más posible pérdida del material). Si manda los libros juntos en un solo paquete, la distribución de probabilidad de Xes la siguiente:
No se pierde
0.93 0.07
$5.20 $45.20
Se pierde
En este caso, el valor esperado de su desembolso es: E(X) = A x p(x) = (5.20)(0.93) + (45.20)(0.07) =8.00 dólares Por otra parte, si decide enviarlos en paquetes separados, la distribución de la variable Xque representa su desembolso es la siguiente: Paquetes pedidos
x
-
$6.60
-
$23.30 $46.60
P(x> b(0,2,0.07) = 0.8649 b(l,2,0.07) = 0.1302 b(2,2,0.07) = 0.0049
El valor esperado de su desembolso es, en este caso: E(X) = (6.60)(0.8649) + (23.30)(0.1302) + (46.60)(0.0049) = 8.97 dólares. Por tanto, le conviene más enviar ambos libros juntos en un solo paquete. Ejemplo 5.31. Un supuesto conocedor de cafés finos Arma que es capaz de distinguir entre el café tipo Caracolillo, el Planchuela o el Marago en 70 % de las veces, tan sólo con oler el aroma que desprende una taza de café recién hecho con alguna de estas tres variedades de café mexicano. Para comprobar si lo que afirma es cierto o falso, se prepararon 20 tazas de café con algunas de estas variedades de café (al azar), que el sujeto obviamente desconoce y tratará de identificar,oliendo el aroma que desprende la taza y anotando en un 6S.Ghahramani, Fundamentak of Pmbability, Prentice-Hall, 1996.
188
Parte /l. Principales distribuciones estadísticas
papel C, P o M en cada caso. Si acierta a 12 o más de los intentos, se aceptará lo que afirma; en caso contrario, se rechazará. a ) Calcule la probabilidad de que se rechace su afirmación cuando en realidad es cierta. 6) Calcule la probabilidad de que se acepte su afirmación, si es falsa y en verdad él sólo es capaz de acertar 50 % de las veces. c ) Calcule la probabilidad de que se acepte lo que afirma, si en realidad el sujeto no sabe nada de cafés y s610 está tratando de adivinar al tanteo. Solución : a ) Sea X el número de aciertos. Si lo que afirma el sujeto es verdad, X sigue una distribución binomial con parámetros n = 20,p = 0.70. Su afirmación será rechazada por el examinador si ocurre que X I11. Entonces: 11
P(X I 1 1 ) z b(x, 20, 0.70) = 0.1133 (directamente de tablas, o con Exceg b) Bajo las condiciones de este inciso, los parámetros son ahora n = 20,p = 0.50. Su afirmación será aceptada si ocurre que X 2 12. Luego:
c ) Si s610 trata de adivinar, entonces
1
P = -;3 luego:
Ejemplo 5.32. Juan y María se acaban de casar y planean tener al menos una hija y al menos un varón. ¿Cuántos bebés deben "encargar a la cigüeña" para tener una probabilidad de 0.95 de que sucederá lo que planean? Solución: Sea n el número de hijos y X el número de varones. Resulta claro que la 1 I
variable aleatoria discreta X sigue una distribución binomial con parámetros n Y P =y. Juan y María tendrán al menos un varón y al menos una hija si y sólo si 1 I X In - 1.Así:
Por tanto, el problema se reduce a resolver la desigualdad
Se halla fácilmente que n 2 5.3219. En consecuencia, María y Juan deberán encargar al menos 6 bebés a la cigüeña.
1. Según declaraciones del Regente de la Ciudad de México (12 de diciembre de 2000),
70% de las discotecas y antros nocturnos de la Ciudad de México carecen de salidas de emergencia. Si se inspeccionan 15 antros nocturnos al azar en dicha ciudad, determine la probabilidad de que: a) al menos 12 carezcan de salidas de emergencia 6) cuando mucho seis carezcan de salidas de emergencia c) exactamente 10 de ellos no dispongan de salida de emergencia. 2. Un estudiante trata de resolver un examen de cinco problemas. Suponga que hay una ? ,
L
probabilidad de - de que logre resolver cualquiera de ellos y que los problemas son 3 independientes. Calcule la probabilidad de que resuelva correctamente por lo menos tres de los cinco problemas. 3. Un vendedor de productos domésticos estima que tiene una probabilidad de 0.3 de lograr una venta en una visita a un domicilio cualquiera. Si una mañana planea visitar nueve domicilios, calcule: a) la probabilidad de que logre por lo menos cuatro ventas 6) el número más probable de ventas que logrará realizar E)
la probabilidad del número más probable de ventas que hará.
4. Con respecto al vendedor del problema 3, calcule el número de domicilios que debe visitar para que la probabilidad de realizar como mínimo una venta sea mayor que:
2 5
5. SiXes una variable aleatoria discreta distribuida binomialmente con n = 50 y p =-, encuentre 02. 2 6. Si X es una variable aleatoria distribuida binomiaimente tal que p = 2 y oZ=-,
3
en-
cuentre P(X= 1). 7. ¿Cuántos ensayos de Bernoulli deben realizarse, para que el valor más probable sea 51, si se sabe quep = 0.64? 8. Un estudio realizado en cierta universidad reveló que aproximadamente 40 % de los alumnos de maestría están casados. Si X es el número de alumnos de maestría casados, para una muestra aleatoria de 100 estudiantes de maestría, obtenga la media y la desviación típica de X. 9. Según el ingeniero Jorge Cameras de Editorial Planeta, 20% de los libros publicados por esa empresa son pegados con goma en el lomo y no son cosidos, por lo que se deshojan pronto con el uso. De una muestra aleatoria de 15 libros editados por dicha empresa, ¿cuál es la probabilidad de que exactamente dos libros se deshojen en poco tiempo? 10. Según el fabricante de un líquido quitamanchas, éste tiene un grado de efectividad de 0.8, es decir, elimina en promedio ocho de cada 10 manchas. Para comprobar si lo que afirma es cierto, se usará el producto en 15 manchas elegidas ai azar, bajo el
1 90
Parte 11. Principales distribuciones estadísticas
entendido de que si desaparecen por lo menos 11de ellas, y sólo en ese caso, se dará por válida la afirmación del fabricante. a) Calcule la probabilidad de que la aseveración del fabricante sea rechazada cuando
en realidad es cierta. 6) Determine la probabilidad de que por error se acepte lo que sostiene el fabrican-
te, cuando la efectividad de su producto en realidad es de 0.6. 11. Un individuo afirma que es capaz de distinguir a simple vista entre una perla auténtica
y una falsa en 75 % de las veces. Para comprobar si lo que afirma es cierto, se le muestran una por una seis perlas diferentes escogidas al azar y se aceptará lo que afirma si logra establecer la autenticidad (o falsedad) en por lo menos cinco de las perlas. a) ¿Cuál es la probabilidad de que el individuo pase la prueba, si sólo está adivinando? 6) Suponga que en efecto es cierto lo que afirma. ¿Cuál es la probabilidad de que no
logre pasar la prueba? 12. Una compañía española de vinos de uvas selectas produce vinos de mesa de alta cali-
dad y ha solicitado catadores expertos que sean capaces de distinguir entre un vino fino y uno ordinario en 90% de las veces, con sólo degustar un sorbo de cada tipo. Todos los aspirantes realizan una prueba consistente en probar nueve tipos de vino (con intervalos de un minuto entre un ensayo y el siguiente) y decidir sólo si se trata de vino fino o corriente. La compañía ha determinado que aquellos aspirantes que acierten por lo menos en seis de los nueve ensayos serán contratados. a) Determine la probabilidad de que un individuo que no conoce nada de vinos y
sólo está tratando de adivinar al tanteo logre pasar la prueba y ser contratado. 6) Calcule la probabilidad de que un catador experto (que en efecto es capaz de acertar en 90 % de las veces) no logre pasar la prueba. 13. Una máquina produce piezas metálicas, de las cuales 5% son de calidad excelente. ¿Cuántas piezas deberán producirse para que la probabilidad de que haya por lo me-
1 nos una de calidad excelente sea mayor a -? 2 14. Una variable aleatoria discreta X tiene distribución binomial con media 6 y varianza 3.6. Calcule P(X= 4). 15. Suponga que los miembros de un jurado toman decisiones independientes y cualquiera de ellos toma la decisión correcta con probabilidadp, donde O cp e 1. Si la decisión del jurado es definitiva, demuestre que un jurado de tres personas toma una 1 decisión más correcta que un jurado de una sola persona sip > -, pero ocurre lo 2 -
1
1
contrario sip c -, mientras que sip = -, da lo mismo un jurado de tres miembros 2 2 que uno de un único miembro. [Sugerencia:Sea X el número de personas que toman la decisión correcta en un jurado de tres miembros. Por supuesto, la decisión del jurado de tres miembros será la correcta si y s610 si X 2 2.1 16. Según reportes del diario L a jornada (22 de mayo de 2004), 26% de los prisioneros iraquíes sometidos a torturas y humillaciones por los militares estadounidenses no lograron soportar las torturas y fallecieron. De una muestra aleatoria de 249 ciudadanos iraquíes apresados por los invasores, calcule el número más probable de los que fallecieron al no soportar las torturas. [Suponga que todos los prisioneros fueron sometidos a torturas por igual.]
Cap. 5. Las distribuciones discretas teóricas más importantes
19 1
17. En problemas sobre la distribución binomial, los términos &to yJTacaso son meros eufemismos y pueden intercambiarse para usar la probabilidad complementaria cuando ello sea más ventajoso. Ello se aprecia en los ejercicios 18 al 20. En este sentido, las siguientes identidades son útiles; demuéstrelas: n-k
b) Z b ( x , n,P) x =k
=Eb(x, n, -P) 1
x=O
18. Use la siguiente tabla de
para contestar las preguntas que se indican: x=o
Si dos terceras partes de las semillas de cierta planta lograran germinar, calcule la probabilidad de que de seis semillas elegidas al azar, las que logren germinar, sean:
a) cuando mucho 3 b) no menos d e 3 e) exactamente 4 4 exactamente 3.
19. Use la siguiente tabla de
x=o
para contestar las preguntas que se plan-
tean:
4 Si - partes de los grandes maestros de ajedrez usan gafas, calcule la probabilidad de 7
que de ocho grandes maestros elegidos al azar en un torneo, los que usen gafas sean:
a) al menos 5 b) menos de 5 c) a lo más 5 4 exactamente 5 e) entre 4 y 6 inclusive.
1 92
Parte 11. Principales distribuciones estadísticas
20. Use la siguiente tabla de
para contestar las preguntas que se planx=o
tean:
Si tres cuartas partes de los automovilistas del Distrito Federal ponen bastón contra robo al estacionar su coche, calcule la probabilidad de que de siete autos estacionados en la calle, los que tengan bastón contra robo, sean: a) cuando menos 6 6) menos de 6 C) exactamente 6 d ) cuando más 6 e) más d e 6 f ) entre 2 y 4 inclusive.
Formulario de la distribución binomiai negativa
donde: r = Número ordinal de éxito deseado7
p = Probabilidad individual de cada éxito q = 1- p = Probabilidad individual de cada fracaso x = Número de intentos (éxitos más fracasos) para lograr el r-ésimo éxito. r Media o valor esperado: p = Mo& m.=
[
P
r-1+p
]=[?
r-1
+l] (El corchete denota la parte en-
tera.) Al igual que en la binomial, si la parte dentro del corchete ya fuese entera, entonces habría dos modas, que serían ese número y el anterior. varianza: 02 = Tq
p2 'Anteriormente se usó la letra k en lugar de r. La razón de usar la letra r ahora es para que el estudiante pueda más adelante (cap. 6) observar la fuerte analogía entre esta distribución y la distribución gama (cuyo parámetro de forma es r).En cierto modo, la g q a es una analogía continua de la binomial negativa. Del mismo modo como la distribución geométrica es un caso particular de la binomial negativa para r = 1, también la distribución exponencial será vista como un caso particular de la distribución gama para r = 1.
dr9 Desviación estándat: O = -
P
Tercer momento centra: pg=
rq(2 - P)
p3
Para cálculos en Excel: =NEGBINOMDIST(x-r,r,p) Distribucihn acumulada:
b* (x, r, p) =1 x=o
x=r
b(x, n, p)
En q d casos se usa. Cuando en una sucesión de ensayos de Bernoulli se trata de averiguar la probabilidad de que el r-ésimo éxito ocurra precisamente en el x-ésimo intento. Se identifica fácilmente por la presencia de adjetivos o pronombres ordinales (tercero, quinto, décimo, etc.). También puede verse como una espera discreta hasta lograr por fin r éxitos (junto con x - r fracasos) en una sucesión de ensayos de Berno~lli.~
Formulario de la distribución geométrica
(Es un caso particular de la binomial negativa, para r = 1.) 1
Media o vaior esperado: p. = -
P
Moda: m, = 1
9Varianza: O 2-- ,
P
J4
Desviación estándar: CJ = -
P
Tercer momento central: p., = 4(2 - P)
p3
Para cálculos en Excel: =NEGBINOMDIST(x-1,1@) n
Distribución acumulada:
2 g(x, p) = 1 - q"
x=1
En qué casos se usa. Cuando en una sucesión de ensayos de Bernoulli se trata de averiguar la probabilidad de que elprimer éxito ocurra precisamente en el x-ésimo intento.
8Exactamentedel mismo modo, la distribución gama (o Erlang) que veremos en el capítulo 6 , rige el tiempo (variable continua) de espera hasta que se acumulen r sucesos de Poisson.
Ejemplos de la distribución binominaí negativa y la distribución geométrica Ejemplo 5.33. Supóngase que vale 0.60 la probabilidad d e que Pancho Godínez logre encestar un tiro libre en un juego de basquetbol. Calcular la probabilidad de que: a ) el octavo tiro que lanza sea el quinto que logra encestar b) el tercer tiro libre sea el primero que logra encestar. Solución:
Ejemplo 5.34. La probabilidad de que la señora Lbpez logre encontrar pazidex (un ungüento oftálmico que ella necesita) en una farmacia cualquiera es de 0.15. Calcular la probabilidad de que ella: a ) tenga que recorrer tres farmacias para poder hallar trazfdex 6) se vea obligada a recorrer más de tres farmacias para poder encontrar trm'dex. Solución:
Ejemplo 5.35. Sea X una variable aleatoria discreta cuya distribución d e probabilidad es:
Para esta variable aleatoria se requiere calcular:
a) la moda b) la media c) P(X I18). Solución :
(Es decir, lo más probable es que el quinto éxito ocurra en el decimocuarto intento.)
(Es el número esperado de intentos para que ocurra el quinto chito.)
(Es la probabilidad de que el quinto éxito ocurra a más tardar en el decimoctavo intento.) Ejemplo 5.36. Un niño recibirá un juguete como premio si, al lanzar un dado un máximo de 20 veces, obtiene cuatro veces el 6.
a) Calcular la probabilidad de que se gane el juguete. 6 ) Calcular el número más probable de intentos que requeriría el niño para obtener cuatro veces el 6. c) Calcular el valor esperado y la desviación estándar del número de intentos requeridos para obtener cuatro veces el 6.
Solución: SiXes el número de veces que se tiene que lanzar el dado para obtener cuatro veces el 6, entonces la distribución de X es binomial negativa con parámetros 1
L
r=4,p=-. 6
Por tanto:
Esto se calcula fácilmente con Excel así: =1-DISTR.BINOM(3,20,1/6,1). Se halla entonces 0.43345.
-
-
ro, hay dos modas: 19 y 18. Por tanto, lo más probable es que se requiera lanzar el dado 18 o 19 veces para que aparezca el 6 cuatro veces. Es fácil calcular que en ambos casos la probabilidad es 0.040866. r 4 c) La media es p = -= -= 24 lanzamientos. P 1
J
4x-
La desviación estándar es
0 = --
P
1
5 =10.954 iammientos.
Ejemplo 5.37. Supóngase que el único modo en el que un marchista olímpico puede ser expulsado de la competición es mediante acumulación de amonestaciones. La distancia a recorrer es de 50 kilómetros y cada 5 km hay un juez que puede o no amonestar al marchista, según lo observado en ese tramo de 5 km. A la tercera amonestación que
196
Parte 11. Principales distribuciones estadísticas
reciba será expulsado. Si el marchista recibe una amonestación con probabilidad de 0.08 cada vez que pasa frente a un juez, calcular la probabilidad de que sea expulsado. Solución: El marchista pasará en 10 ocasiones por donde hay jueces, y podrá ser expulsado por el x-ésimo juez (x = 3, 4, .. . , 10). La probabilidad de obtener su tercera amonestación en un máximo de 10 intentos es, por tanto:
Ejemplo 5.38. Un estudiante nunca falta a clases, pero 40 % de las veces llega tarde. Si el profesor tiene la política de que por cada tres retardos acumulados de un alumno se anota una falta, y a las siete faltas acumuladas el alumno pierde el derecho al examen final, calcular la probabilidad de que ese estudiante pierda su derecho a examen final por acumulación de faltas, si el curso consiste de 50 sesiones. Solución: El estudiante perderá su derecho a examen si acumula su vigesimoprimer retardo a más tardar en la quincuagésima sesión. Entonces se trata de una binomial negativa donde la variable X denota el número de clases requeridas para acumular r = 21 retardos.
Esto no se puede calcular con tablas (ni con calculadora), pero es muy fácil con Excel:
Se halla la respuesta 0.438965 = 0.4390. Ejemplo 5.39. En un lejano país, hace mucho tiempo, había un rey que casi no sabía nada de estadística, pero estaba interesado en incrementar gradualmente la proporción de mujeres en su reino. Así, promulgó un decreto que obligaba a las parejas casadas a seguir teniendo hijos hasta que naciera el primer varón, y sólo entonces estaban obligados a parar. Es decir, todos los matrimonios estaban obligados a tener un único hijo varón y todas las hembras que fuesen necesarias hasta el nacimiento del primer varón. El rey observó que los tipos posibles de familias que podían surgir eran de los siguientes (h = hombre, m = mujer): h, mh, mmh, mmmh, mmmmh, etc., y se le figuró que con este decreto podría incrementar, a largo plazo, la proporción de mujeres en su reino. Demostrar que el rey estaba totalmente equivocado. ¿Cuál cree usted que sería la distribución por sexo a largo plazo: mayoría de hombres o igualdad aproximada de hombres y mujeres? Solucih: El número de intentos (hijos) hasta la ocurrencia del primer varón sigue l
una distribución geométrica con parámetro P =T;es decir, si X es el número de hijos
[
:)
en una familia al azar en ese reino, la distribución de X es g x, - . La media (núme1
1
mero esperado de hijos) es p = -= -= 2 (una hembra y un varón) y además 50 % de P 1 L
las familias van a consistir de un hijo único (un varón), y el restante 50% de las familias tendrán una o más hembras. A la larga, la proporción va a ser la misma que si no hubiera
Cap. 5. Las distribucionesdiscretas teóricas más importantes
197
tal decreto, es decir, los hombres y las mujeres estarán en la razón 1 a 1. En efecto, si sumamos la proporción de mujeres (con respecto al total de personas) que producirán familias de dos, tres, cuatro, . . . , hijos, se obtendrá la serie:
Lo único positivo que quizá logrará ese rey con su decreto será reducir la tasa de natalidad. Ejemplo 5.40. El famoso matemático polaco Stefan Banach9 (1892-1945), quien fumaba pipa incesantemente, planteó el siguiente problema original, el cual se resuelve mediante la distribución binomial negativa. Supóngase que el profesor Banach lleva siempre una caja de fósforos en cada uno de los dos bolsillos de su saco. Cada vez que enciende su pipa, elige uno de los dos bolsillos al azar y saca un fósforo de la cajetilla correspondiente. Suponga, además, que al principio cada caja tenía n fósforos, y considere el momento en que al tratar de encender la pipa, Banach se lleva la mano al bolsillo, saca una cajetilla de fósforos y por primera vez descubre que está vacía. Encontrar la probabilidad de que la otra cajetilla tenga aún r fósforos. Sducidn:Consideremos primero como éxito que el profesor Banach elige el bolsi1
I
110 izquierdo de su saco; entonces, p = - En el momento en que descubre que una ca2 jetilla está vacía, la cajetilla del otro bolsillo debe contener r fósforos, donde O 5 r I n. La cajetilla del bolsillo izquierdo estará vacía en el momento en que la cajetilla del bolsillo derecho contenga r fósforos si y sólo si n - r fracasos precedieron al éxito número n + l. Por tanto, en el momento justo en que descubre que una cajetilla está vacía, el número de intentos (éxitos más fracasos) es: n + 1+ n - r = 2n - r + 1. En otras palabras, el éxito número n + 1 ocurre precisamente en el intento número 2n - r + 1. La probabilidad de que esto suceda es, naturalmente, b* 2n - r +1, n +1,
. Por consiguiente:
Sin embargo, este valor es sólo para el caso en que la cajetilla del bolsillo izquierdo haya sido la que se encontró vacía por primera vez. Otro valor igual será para el caso en que el bolsillo derecho haya sido el que contenía la cajetilla que por primera vez se descubrió vacía. Por el axioma de la suma de probabilidades para la unión de eventos mutuamente excluyentes, tendremos:
9Banach es considerado, junto con Waclaw Sierpinski, uno de los dos matemáticos polacos más notables de todos los tiempos. Banach nació e n Lwow y fue profesor de matemáticas en esa universidad. Fue el descubridor del llamado espacio de Banacb, el cual es un cierto tipo de espacio vectorial más abstracto, especíñcamente, es un espacio lineal normado que es completo en la métrica determinada por la norma, y del cual el espacio de Hilbert es s610 un caso particular. Algunos historiadores piensan que el problema d e las cajas de fósforos no fue planteado por Banach, sino por Hugo Steinhaus (1887-1972),otro distinguido matematico polaco, quien era amigo y colega de Banach y que siempre hacía mofa del hábito que tenía éste de fumar pipa incesantemente.
198
Parte 11. Principales distribuciones estadisticas
Ejemplo 5.41. En la distribución geométricag(x,p), dado un número P tal que O e P c 1, ¿cuántos intentos se requieren para lograr finalmente el primer éxito con probabilidad mayor o igual que P? Solución:
Por consiguiente, dividiendo todo entre ln q = ln(1 - p ) , que es una cantidad negativa, queda:
Nótese que esta fórmula es la misma que se había obtenido antes, en relación con los ensayos de Bernoulli (distribución binomial), para el número de ensayos requeridos hasta obtener al menos un éxito con probabilidad igual a P. Ejemplo 5.42. Si 42% de los paquetes de un cereal traen cupones de premio, y con cuatro cupones más 50 pesos el consumidor se gana un juego de cubiertos de acero inoxidable: a ) Calcular el número esperado de paquete en el que saldrá el cuarto cupón. b) Determinar el número más probable de paquete en el que saldrá el cuarto cupón. c) Dibujar un histograma para la distribución de la variable aleatona X que es el número de paquete comprado en el que saldrá el cuarto cupón. d ) Calcular la probabilidad de que se requieran cuando mucho ocho paquetes. Solución: La variable aleatoriax tiene distribución b*(x, 4,0.42). a ) La media es: r
4 0.42
p = -= -=9.52 paquetes
p
6) La moda es:
c) El histogmma se aprecia en la figura 5.6. Puede dibujarse con algún otro tipo de software, porque las versiones actuales de Fxcel todavía no sirven para dibujar un buen histograma; pero también puede dibujarse a mano, con lápices de colores, a partir de los siguientes datos, los cuales sí pueden obtenerse fácil y rápidamente con Excel:
-
Figura 5.6
d ) La probabilidad de que se requieran cuando mucho ocho paquetes está dada por:
Esto se halla con Excel escribiendo =1-DISTR.BINOM (3,8,0.42,1). El resultado es 0.4527.
1. Según un estudio, 30% de los adultos mayores de 50 años sufren de insomnio. Si se
realiza una encuesta a un grupo de adultos mayores de 50 años, seleccionados al azar, ¿cuál es la probabilidad de que:
200
Parte 11. Principales distribuciones estadísticas
a) el sexto entrevistado sea el primero en padecer insomnio?
6) el quinto entrevistado sea el tercero en sufrir insomnio? 2. En una máquina copiadora de una papelería, 5 % de las copias salen defectuosas. Si
un cliente va a fotocopiar un trabajo de cientos d e páginas, determine la probabilidad de que antes de la decimosexta copia ya haya salido la primera defectuosa. 3. En el tren subterráneo (metro) de la Ciudad de México, en teoría los trenes deben detenerse sólo unos cuantos segundos en cada estación, pero por razones misteriosas a menudo se detienen por intervalos de incluso varios minutos. Si la probabilidad de que el metro se detenga en una estación más de tres minutos es de 0.20, halle la probabilidad de que se detenga más de tres minutos por primera vez:
a) en la cuarta estación desde que un usuario lo abordó b) antes de la cuarta estación desde que un usuario lo abordó.
4. Suponga que la probabilidad de que un producto o artefacto falle lax-ésima vez que se utiliza, está dada porf (x). Entonces se define el indice defalla Z(x) (también Ilamado rapidez defalla) como:
donde F(x) es la distribución acumulada correspondiente. Demuestre que siXes una variable aleatoria discreta con distribución geométrica g(x,p), su rapidez de falla es constante y el valor que toma es precisamente p . [Indicación: Denote como éxito que el artefacto falle.] 5. En una fiesta infantil de cumpleaños hay varios niños de entre tres y cinco años de edad, que se turnan para tratar de romper una piñata llena de fruta y golosinas. Supóngase que la probabilidad de que un niño cualquiera rompa la piñata en un intento es igual a 0.10.
a) ¿Cuántos niños han de pasar a pegarle a la piñata para que la probabilidad de que ésta se rompa sea superior a 0.95? 6) ¿Cuál es la probabilidad de que la piñata sea rota por algún niño de los que están en los lugares del cuarto al décimo de la fila, inclusive? c) ¿Qué probabilidad tiene la niña anfitriona de romper la piñata, si se encuentra en el tercer lugar de la fila?
6. Con respecto al ejemplo 5.40, suponga que las cajetillas de fósforos que usaba el profesor Banach tenían, inicialmente, 50 fósforos cada una. Supóngase, además, que es igualmente probable que escoja cualquiera d e los dos bolsillos del saco. Si en un momento dado mete la mano a uno de los bolsillos y encuentra, por primera vez, que una cajetilla está vacía, encuentre la probabilidad de que la otra cajetilla contenga: a) ningún fósforo 6) tres o cuatro fósforos E) no más de cuatro fósforos 4 al menos un fósforo.
7. Tres amigos juegan al "disparejo", es decir, cada uno lanza una moneda al aire y el que obtiene signo distinto paga las cervezas. Si las tres monedas resultan con el mismo
20 1
Cap. S. las distribuciones discretas teóricas más importantes
signo (empate), se repite el lanzamiento. Calcule la probabilidad de que se requieran más de dos lanzamientos. [Sugerencia: Empiece por averiguar cuál es la probabilidad de empate en un lanzamiento cualquiera de las tres monedas.] 8. En cursos de álgebra básica se prueba que la suma de los primeros n términos de la progresión geométrica a , a r , a*, a@,.. . ,arn-'está dada por:
A partir de ese hecho, pruebe la fórmula que hemos estado usando:
9. Para tratar a un paciente de una afección de pulmón han de ser operados, en operaciones independientes, sus cinco lóbulos pulmonares. La técnica que se va a utilizar 7
es tal que si todo va bien, lo que ocurre con probabilidad de -,
11
el lóbulo queda
definitivamente sano, pero si no es así, se deberá esperar el tiempo suficiente para intentarlo posteriormente de nuevo. Se practicará la cirugía hasta que cuatro de sus cinco lóbulos funcionen correctamente. ¿Cuál es el valor esperado de intervenciones que se espera que deba padecer el paciente? ¿Cuáles la probabilidad de que se necesiten 10 intervenciones?1° 10. Juanito es un niño de 8 años que quiere vender bolsas de dulces en las casas de su vecindad para juntar algo de dinero y ayudar a su mamá en los gastos. Hay 30 casas en su vecindad, y su madre le dijo que no regresara hasta que hubiese vendido cinco bolsas de dulces. La probabilidad de que le compren una bolsa en cualquier casa es de 0.4, y de que no le compren nada es de 0.6. a) ¿Cuál es la probabilidad de que termine precisamente en la décima casa que vi-
sita? 6) ¿Cuál es la probabilidad de que termine antes de visitar la octava casa? c) ¿Antes de la decimoquinta casa? d ) ¿Cuál es la probabilidad de que le toque visitar todas las casas del vecindario? 11. Un atleta olímpico logra saltar la varilla a 2:28 m de altura en 60 % de las veces. En una competencia dispone de tres intentos, y si logra salvar esa altura, ganará medalla de oro. Se requiere determinar la probabilidad de que este atleta gane la presea áurea. 12. Demuestre que en la distribución binomial negativa b*(x,r,p),el coeficiente de sesgo es:
[Sugerencia: Parta del hecho de que el tercer momento central es y, =
-P) .] p3
'OManualde la Universfdad de Málaga: Bioestadística: Mbtodos y Aplicaciones, Facultad de Medicina de la Universidad de Málaga, Esparia.
202
Parte 11. Principales distribuciones estadísticas
13. Demuestre la siguiente relación entre las distribuciones binomial negativa y binomial:
14. Una joven apuesta 100 pesos a que si extrae sucesivamente una carta con reposición d e un mazo bien barajado de 52 cartas ordinarias, logrará sacar cinco veces una carta de corazones en un máximo de 20 intentos. a) ¿Leconviene la apuesta? ¿Cuál es la probabilidad de ganarla? 6) ¿En qué número d e intento es más probable sacar por quinta vez una carta d e co-
razones?
Formulario de la distribución hipergeométrica
donde: N = Tamaño de la población n = Tamaño de la muestra sin reposición k = Número de éxitos en la población x = Número de éxitos en la muestra. Media o vdor esperado: Moda: mo=
1
("
= n-
1'
k
N
= np, dondep =-.
N
Al igual que en la binomial y en la binomial
negativa, si a! parte dentroJdel corchete ya es entera, entonces hay dos modas, que son ese número y el anterior. Varim
d =n- N
[
k ~ ) ( ~ ~ ; ) = n M ( ~ &ndep=) , y 1- N
q=1-p Para cálculos en Ekcel: =DISTR.HIPERGEOM(x,n,kJV) Distribución acumulada: Desafortunadamente no existe una forma compacta o sencilla para el cálculo de probabilidades acumuladas y tampoco hay valores tabulados. Con hojas d e cálculo d e Excel es casi instantáneo, pero si no se dispone de computadora, es una labor muy engorrosa, aunque el trabajo se puede hacer un poco menos fastidioso con la siguiente fórmula recursiva:
Cap. 5.Las distribuciones discretas teóricas más importantes
203
En qué casos se usa La distribución hipergeométrica se aplica cuando se toma una muestra sin reposición de una población que tiene sólo dos tipos de objetos: éxitos y fracasos. Aproximación a binomiai. Si la población es muy grande en comparación con la muestra, es decir, si N >> n, entonces la hipergeométrica tiende como límite a la binomial:
Esta aproximación suele ser muy útil cuando no se dispone de computadora.
Ejemplos de la distribución hipergeométrica Ejemplo 5.43. En una caja hay 13canicas, de las cuales ocho son blancas y cinco son negras. Se extrae una muestra aleatona de seis canicas. Calcular el número más probable de canicas blancas en la muestra, así como la probabilidad correspondiente a ese número de canicas blancas. Solucidn: Se tiene N = 13, k = 8, n = 6. La moda es:
Por tanto, el número más probable de canicas blancas en la muestra es de cuatro. La probabilidad de que la muestra tenga exactamente cuatro canicas blancas se calcula rápidamente con Excel:
Se obtiene la respuesta 0.4079. También puede hallarse fácilmente con calculadora científica:
Ejemplo 5.44. Una bolsa contiene ocho plumones, de los cuales cuatro son nuevos y los otros cuatro están muy usados. Si se toma una muestra de tres plumones al azar, calcular el número más probable de plumones nuevos en la muestra. Solucih: En este caso, N = 8, k = 4, n = 3. La moda es:
204
Parte 11. Principales distribuciones estadísticas
Como se trata de un número entero, entonces hay dos modas: 2 y 1. Por tanto, lo más probable es que la muestra contenga uno o dos plumones usados. Es fácil calcular
3
que en ambos casos la probabilidad correspondiente es de -.
7
1. Entre los 120 solicitantes para un trabajo, sólo 80 son realmente aptos. Si cinco de
los solicitantes se seleccionan al azar para una entrevista más extensa, encuentre la probabilidad de que sólo dos de los cinco serán aptos para el trabajo. Para ello use: a) la fórmula de la distribución hipergeométrica b) la fórmula para la distribución binomial con p =
8 0 como aproximaci6n. 120
2. Un profesor tiene un conjunto de 15 preguntas de opción múltiple, referentes a dis-
tribuciones de probabilidad discretas. Cuatro de estas preguntas tratan de la distribución hipergeométrica. a) ¿Cuál es la probabilidad de que al menos una de estas preguntas acerca de la dis-
tribución hipergeométrica aparezca en un examen de cinco preguntas elegidas al azar? 6) ¿Cuál es el número más probable de preguntas acerca de la hipergeométrica que contendrá el examen? 3. Una caja con 24 calculadoras contiene cuatro que están defectuosas. Si se eligen cuatro al azar de esa caja, calcule la probabilidad de que: a) tres estén defectuosas
b) a 10 mucho una resulte defectuosa C) las cuatro estén defectuosas. 4. En una caja hay 25 discos compactos de música, cinco de los cuales son copias pirata y los otros 20 son originales. Si se escoge al azar un conjunto de 10 discos de la caja, calcule: a) la probabilidad de que a lo mucho dos de ellos sean piratas; 6) el número más probable de discos originales en la muestra.
5. De un total de 20 alumnos que presentaron un examen de estadística, tres de ellos olvidaron anotar el nombre. Si se selecciona al azar una muestra de cinco exámenes, ¿cuál es la probabilidad de que todos tengan anotado el nombre? 6. De una caja con 24 tomates, 50 % están podridos. ¿Cuál es la probabilidad de que una cocinera escoja al azar ocho tomates y que todos sean frescos? 7. Un señor tiene una hija que estudia en la secundaria, y le da una cantidad variable de dinero para llevar cada día a la escuela. El papá desea que dicha cantidad la decida la suerte. Para esto, mete en una caja ocho pequeños papeles doblados, de los cuales cinco dicen "20 pesos" y tres dicen "10 pesos". Cada mañana, y en presencia de su papá, la hija mete la mano a la caja y extrae al azar tres papeles sin reposición. La can-
Cap. 5.las distribuciones discretas teóricas más importantes
205
tidad que sumen los tres papeles será lo que su papá le dará ese día para sus gastos en la escuela. SiX denota dicha cantidad (en pesos): a) encuentre la distribución de probabilidad de X en forma de tabla (aproxime a
cuatro dígitos decimales); 6) calcule la media y la moda de X. 8. Se cuenta que hace muchos años hubo un noble inglés (el Conde de Yarborough) que ofreció la siguiente apuesta a quienquiera que aceptara tomarla: de un juego de naipes bien barajado, usted escogía 13 cartas sin reposición (es lo que se llama una mano de wbist, o de bridge) y al mismo tiempo usted pagaba al Conde una guinea. Si la mano que usted había escogido no tenía ninguna carta con valor superior al nueve, entonces el Conde le devolvía a usted 1000 guineas. Explique qué tan ventajosa o desventajosa era la apuesta ofrecida por el Conde de Yarborough. (El valor ascendente de las cartas es 2,3, .. . , 10,J, Q, K,A.)" 9. Al examinar el equipaje de un turista en la aduana, el vigilante hall6 un frasco con 20 tabletas blancas de apariencia sospechosa.
"¿Qué tipo de tabletas son éstas?" -preguntó el vigilante. "Son vitaminas" -repuso el viajero. En verdad eran sólo 12 tabletas d e vitaminas. Las otras ocho eran d e una droga prohibida, pero eran notablemente similares a aquéllas. El vigilante decidió tomar tres tabletas al azar y las envió al laboratorio de la aduana para su análisis. ¿Cuál era la probabilidad de que el viajero fuese arrestado por posesión ilegal de droga? 10. De un conjunto de nueve pilas sólo seis son útiles y las otras tres son inservibles. Se escogen tres al azar para el control de la T\5 el cual s6l0 funciona si las tres pilas están en buen estado. Calcule la probabilidad de que el control no funcione al ponerle las pilas. 11. En la caja de un supermercado hay una pequeña urna con 50 esferas, de las cuales 45 son rojas y cinco son verdes. Por cada 200 pesos de mercancía el cliente tiene derecho a sacar una esfera al azar (sin reposición) y hasta un máximo d e cinco extracciones por cliente. Si le sale alguna verde, el cliente se lleva gratis sus mercancías. Una señora compró mercancías por 1000 pesos. ¿Cuál es la probabilidad de que su cuenta le salga gratis?
Formulario de la distribución de Poisson
Media o d o r esperado: p = h Moda: m. = [h]. Si ocurre q u e h es entero, entonces hay dos modas: h y h - l. Varianza: oZ= h Desviacihn estándar: o = "D.
Jh
Stinaker,An introduction topbability, ejercicio 13, Oxford University Press, 1998, p. 127.
206
Parte 11. Principales distribuciones estadísticas
Tercer momento central: p3= h Para cálculos en Excel: =POISSON(x,h,O) Disaibuadn acumulada:
2 9 ( x , p).
Con tablas o con Excel: =POISSON
x=o
(r,CL,1) Aproximación de binomid con Poisson. La distribución binomial b(x, n , p) tiende a la d e Poisson con parámetro h = n p a medida que n aumenta y p disminuye. Para valores muy grandes d e n y valores muy pequeños d e p , ambas distribuciones son casi idénticas. En qud casos se usa. Es una distribución para eventos independientes poco probables. Puede verse como distribución límite d e la binomial cuando n + m y p + O. También se aplica en elflujo de sucesos de Poisson, que son eventos inesperados, independientes y poco probables, en los cuales h es un promedio conocido d e ocurrencias por unidad d e tiempo, área o volumen.
Ejemplos de la distribución de Poisson Ejemplo 5.45. La peluquería "El Rizo de Oro" en Tlalpan, Distrito Federal, es atendida por cuatro damas que tienen bastante habilidad para el corte de cabello. Se ha observado que los sábados llegan en promedio 11clientes por hora a esa peluquería. Calcular la probabilidad de que lleguen más de 10 clientes en una hora cualquiera, durante un sábado. Solucibn:
Ejemplo 5.46. Una variable aleatoria discreta X sigue una distribución de Poisson, cuya media es p = 9. Calcular el valor de P(p - 2 0
La garantía que proporciona la desigualdad de Chébyshev es de sólo:
Ejemplo 5.47. Se tiene una variable aleatoria discreta X, con distribución de Poisson, en la que se sabe que P(X = 1) = P(X = 3). De acuerdo con esa información, hallar P(X= 5).
Cap. S . Las distribuciones discretas teóricas más importantes
207
Solución:
Ejemplo 5.48. Supóngase que X tiene distribución de Poisson tal que P(X = 0) = 2P(X = 1). Determinar el valor más probable de X. Solución:
Luego, la moda es:
Ejemplo 5.49. En un sitio de taxis que son llamados por teléfono, se ha observado que en promedio solicitan un taxi cada seis minutos.
a) Determinar el número más probable de taxis que serán solicitados durante la próxima media hora. b) Dibujar un histograma para la variable aleatoriax que representa el número de taxis solicitados cada media hora (usar Excel). Solución: Si solicitan en promedio un taxi cada seis minutos, entonces solicitan en promedio cinco taxis cada media hora. Tómese la media hora como unidad de tiempo; así, la variable aleatoria Xque denota el número de taxis que salen cada media hora, está dada por B(x, 5). Como h = 5 es entero, entonces hay dos modas: 4 y 5. Por consiguiente, lo más probable es que durante la próxima media hora soliciten cuatro o cinco taxis. Veamos la comprobación:
El histograma (probabilidad de que salgan X taxis durante media hora) se observa en la figura 5.7.
i
Figura 5.7
,'
JACOBI BERNOULLI,
AdilCM.&
-wr.+mk
G i c % Cs&& ~ 1 i n r r r r i c iC i i i r ~ u i w ~
i i
ARS CONJECT'ANDI, 1 OPUS W I T H V Y U ~
TRACTATVS
D E SERIEBUS INFINITIS, fiErinor&&4bhip
DB L D n O PlLdB I E T I C U L A R I I
Jacob (Jacques) Bernoulli ( 1 654- 1 705). En 1685, escribió un importante libro de probabilidad cuyo título era Ars Conjectandi (El arte de adivinar). Además, enunció la llamada ley de los grandes números.
BASILEB, aopatiiTHVRNIS10RVA4,km~~ da bcc x i i t .
Facsímil de la portada del libro de Berno~
1
1. El promedio de llamadas telefónicas que se reciben en un despacho de abogados es de 12 por hora. Determine la probabilidad de que en una hora determinada del día:
a) se reciban más de 12 llamadas b) entren exactamente 15 llamadas c) se reciban de 10 a 15 llamadas inclusive. 2. El número de buques tanque petroleros que llegan cada día al puerto de Coatzacoalcos, Veracruz, sigue una distribución de Poisson, con parámetro h = 2. Las instalacio-
nes portuarias sólo permiten atender a tres buques al día, y en caso de que lleguen más de tres buques en un día, los que están en exceso se despachan al puerto cercano de Allende, donde tienen que mantenerse a la espera. a) Determine la probabilidad de que en un día cualquiera tengan que enviarse buques al puerto de Allende. b) ¿En cuánto deben aumentarse las instalaciones actuales del puerto de Coatzacoalcos, para permitir la atención a todos los buques tanque en 90 % de los días? c) ¿Cuál es el número esperado de buques tanque que llegan al día al puerto de Coatzacoalcos? d) ¿Cuál es el número más probable de buques tanque que llegan diariamente al puerto de Coatzacoalcos?
[FUENTE: Adaptado de problemas similares en Derman y Klein, 1959; Paul Meyer, 1973;y otros.] 2
3. SiX es una variable aleatoria con distribución de Poisson tal que P(X=2) = - P(X= l), halle: 3 a) el valor más probable de X b) la probabilidad del valor más probable de X c) P(X = O).
4. Es relativamente fácil demostrar que, en la distribución de Poisson, los momentos centrales de segundo, tercero y cuarto orden son: p, = h, CL, = h y p4= h + 3h2.Usando esta información, determine: c1 a) el coeficiente de asimetría o sesgo: y = 2 o3 P b) la curtosis: K = 3. o4 C ) ¿Qué ocurre con el sesgo de la distribución de Poisson a medida que h + m?
5. Se informa que aproximadamente uno de cada 400 neumáticos Firestone fabricados en una planta durante el año en curso tuvieron fallas que hacen que puedan reventarse en cualquier momento. Si en total fueron 6000 neumáticos los que se fabricaron en esa planta durante ese lapso, ¿cuál es la probabilidad de que más de 15 fallen? 6. Si en 2 % de los garrafones retomables de agua Electmpura se detectan fisuras antes de ser llenados, use la aproximación de Poisson para determinar:
2 10
Parte 11. Principales distribuciones estadísticas
a) la probabilidad aproximada de que más de 10 de los próximos 450 garrafones que se intenten llenar presenten fisuras 6)' la media y la varianza del número de garrafones con fisuras en esa muestra de 450. C) Use la desigualdad de Chébyshev y las aproximaciones del inciso b para hallar un 3 intervalo en el que se tenga una probabilidad de por lo menos - del número es4 perado de garrafones con fisuras en esa muestra de 450.
7. Se estima que vale 0.02 la probabilidad de que se reciba la señal de ocupado en cualquier llamada telefónica que entra al número telefónico de emergencias. Si un día se hicieron 800 llamadas a dicho número, use la aproximación de Poisson para estimar: a) la media y la varianza del número de llamadas que recibieron señal de ocupado
ese día 6) la probabilidad de que menos de 14 llamadas hayan recibido señal de ocupado ese día. c) Aplique los resultados del inciso a y la desigualdad de Chébyshev, para hallar un in8
t e d o en el cual se tenga una probabilidad de por lo menos - del número de Ila9 madas telefónicas al serviciode emergenciasque recibieron señal de ocupado ese día. 8. Se considera que aproximadamente tres de cada 500 niños son alérgicos a la lactosa. Para una muestra aleatoria de 6000 niños, mediante la aproximación de Poisson
halle: a) la media y la desviación estándar del número de niños de esa muestra que son alérgicos a la lactosa 6) la probabilidad de que cuando mucho 30 de esos niños sean alérgicos a la lactosa. c) Aplique la desigualdad de Chébyshev y las estimaciones del inciso a para hallar un intervalo en el cual se tenga una confianza de por lo menos 0.96 del número de niños alérgicos a la lactosa en esa muestra de 6000 niños.
En los siguientes ejercicios hay que aplicar dos distribuciones distintas: puede ser primero Poisson y luego binomial, o primero Poisson y luego binomial negativa o geométrica. 1. Según el programa Impacto (9 de marzo de 2001), en la Ciudad de México hay un pro-
medio de 3.5 perros callejeros por cada cuadra en las zonas proletarias o marginadas de la ciudad. Suponiendo que los perros son independientes unos de otros, determine la probabilidad de que en una zona proletaria de la ciudad se encuentre usted cuatro o más perros callejeros por cuadra: a) en una cuadra cualquiera 6) en al menos tres de las siguientes cinco cuadras que recorra c) por primera vez en la tercera cuadra que recorra d ) por segunda vez en la cuarta cuadra que recorra e) por quinta ocasión antes de la octava cuadra que recorra.
[Suponga que el tamaño de las cuadras es irrelevante.]
Cap. 5. Las distribuciones discretas teóricas más importantes
211
2. Todas las mañanas la señora Godínez compra un panqué con pasas. Suponga que la distribución del número de pasas dentro de un panqué es Poisson con parámetro h = 15. Calcule la probabilidad de que el panqué que ella compra tenga más de 15 pasas: a) en un día cualquiera 6) en dos de los siguientes tres días c) por primera vez en el mes de mayo el día 4 d) por tercera ocasión en el mes de junio antes del día 6.
3. Según el noticiario Hechos, conducido por el periodista Javier Alatorre (13 de febrero de 2001), en México se fugan un promedio de 10 reos al mes de las prisiones de todo el país. Determine la probabilidad de que el año próximo se fuguen más de 12 reos al mes, por segunda vez: a) en el mes de junio 6) antes del mes de junio.
4. Las ventas de impresoras en la tienda Ofice M m siguen una distribución de Poisson, con una media de 3.5 impresoras vendidas al día. ¿Cuál es la probabilidad de que se vendan por lo menos tres impresoras diarias: a) durante cinco días consecutivos? 6) por primera vez en una semana a más tardar el miércoles? c) por tercera vez en una semana a más tardar el viernes? d) ¿Cuáles el día de la semana que tiene mayor probabilidad de registrar la tercera vez que se vendieron por lo menos tres impresoras diarias durante esa semana?
[Considere el lunes como primer día de la semana.]
5. El gerente de una empresa recibe en su oficina un promedio de 6.5 visitas al día. Calcule la probabilidad de que dicho gerente reciba en su oficina no más de cinco visitas diarias: a) por lo menos en tres de los cinco días de la semana que trabaja 6) por primera vez en una semana a más tardar el jueves c) por segunda vez en una semana el día viernes d) por segunda vez en una semana a más tardar el viernes.
6. Una secretaria comete en promedio 2.5 errores de ortografía por página. Si los errores de ortografía son independientes y siguen una distribución de Poisson, calcule la probabilidad de que esa secretaria cometa no más de 2 errores de ortografía por página: a) en por lo menos tres de las siguientes seis páginas que escribe 6) por primera vez en la tercera página que escribe c) por tercera vez antes de la quinta página que escribe. d) ¿Qué número de página escrita por ella tiene la más alta probabilidad de ser la tercera página en la que ella cometió no más de dos errores de ortografía?
7. En observaciones hechas por el famoso físico británico Ernest Rutherford (1871-1937) en Manchester, en 1911, se registró que el elemento radiactivo Polonio emitía en pro-
2 12
Parte 11. Principales distribuciones estadísticas
medio 3.87 partículas a durante un lapso de 7.5 segundos. Determine la probabilidad de que dicho elemento emita por lo menos una partícula a por segundo: a) en un segundo cualquiera
6) en tres de los siguientes seis segundos E) por tercera vez antes de haber transcurrido ocho segundos. d ) ¿En qué número de segundo es más alta la probabilidad de registrar por tercera vez al menos una partícula a en un segundo?
(NOTA: Rutherford identificó las partículas a como núcleos de helio que se emitían espontáneamente a grandes velocidades.)
aistribuciones ntinuas teóricas S
La distribución normal N (p., 02), que ya mencionamos de pasada en capítulos anteriores, es un pilar fundamental en el edificio de la estadística moderna. Apareció por primera vez en 1738, en la segunda edición del libro Tbe Doctrine of Chances del matemático francés (radicado en Londres) Abraham de Moivre (1667-1754). Sin conocer aún los trabajos d e De Moivre, el científico francés Pierre Simon Laplace (1749-1827) exploró a fondo esta distribución en su clásico libro Tbéorle analytique desprobabilitités, publicado en 1812. La forma de la distribución normal, la cual corresponde a una variable aleatoria continua es acampanada, como se muestra en la figura 6.1. La media es p, la varianza es 02y la desviación estándar es o, pero es posible transformar cualquier caso particular en el caso más general en el que la media es O y la desviación estándar es 1, mediante la fórmula:
que se llama tipificación de la variable. Al disminuir el valor de la desviación estándar, la forma de la gráfica se vuelve más estrecha, como se aprecia en la figura 6.2: la curva B tiene menor desviación estándar que la curva A. Algún estudiante preguntó una vez que si ello significa que la curtosis de la curva B es mayor que la de la curva A. La respuesta es negativa. Cualquier curva de campana normal tiene curtosis igual a 3, como se mencionó en el capítulo 3.
4-=
Figura 6.1. Distribución normal.
Figura 6.2. La curva B tiene menor desviación estándar que la curva A.
Cap. 6. Las distribuciones continuas teóricas más importantes
2 15
Cuando la media es O y la varianza 1, se obtiene la llamada distribución normal estándar, la cual se ilustra en la figura 6.3. En la figura se aprecian las características principales de la distribución normal estándar o distribución nomal tipificada (algunos autores la llaman campana d e Gauss). La altura máxima de la curva 1
vale, -que es casi 0.4 (a cinco dígitos decimales es 0.39894). En el intervalo
J27c
-1 < x < 1la curva es cóncava hacia abajo, mientras que fuera de ese intervalo la curva es cóncava hacia arriba. El valor esperado es igual a cero, lo mismo que la moda y la mediana, mientras que la varianza es 1.Por supuesto, esto implica que también la desviación estándar es 1.
Figura 6.3. Gráfica de la distribución normal estándar.
En las distribuciones de variables aleatorias continuas, como es el caso de la distribución normal, las probabilidades se representan mediante tramos de área bajo la curva de densidad por encima del eje y entre dos líneas verticales que representan los extremos de algún intervalo. La distribución n o m d estándar acumulada @(e) la proporcionan áreas (es decir, probabilidades) bajo la curva normal estándar, a mano izquierda de cualquier abscisa z (fig. 6.4). La gráfica de la función @(x) tiene más o menos el aspecto de la figura 6.5. Los valores de esta función se calculan con Excel usando la siguiente sintaxis:
-
.
Figura 6.4. Distribución normal estándar acumulada.
Figura 6.5
6.2. EL.USO DE TABLAS Y DEL EXCEL EN LA DISTRIBUU~NNORMAL
Aunque las probabilidades para variables aleatorias continuas se calculan como tramos de área bajo la respectiva curva de densidad, por suerte en la mayoría de los casos se dispone d e tablas o d e software apropiado, lo cual permite
Cap. 6. Las distribuciones continuas teóricas más importantes
2 17
que dichas áreas se aproximen de manera sencilla y rápida, sin tener que calcular integrales. Por cierto, en muchos casos, como en el de la distribución normal, las funciones de densidad ni siquiera tienen antiderivada algebraica, por lo que el uso d e tablas o d e computadora no s61o es un lujo sino una necesidad. Para cualquier número real c, suele denotarse por Q>(c)a la cantidad total de área bajo la curva normal estándar a mano izquierda de c. Dicho valor de área se puede buscar en tablas, pero entonces hay que redondear la parte decimal del número c a un máximo de dos decimales después del punto, lo cual implicará a menudo una pequeña imprecisión en los resultados de las tablas, en comparación con los resultados del Excel u otro software estadístico. La tabla 6.1 presenta un fragmento de las tablas típicas de áreas acumuladas bajo la curva normal estándar.' Tabla 6.1. h a s bajo la curva normal estándar a seis dígitos decimales. Los dos dígitos de la
primera fila son los centésimos de cada valor de z.
'Las tablas completas fueron generadas usando Fxcel, y se pueden consultar al final del libro.
2 18
Parte 11. Principales distribuciones estadísticas
Por ejemplo, para calcular el área bajo la curva a la izquierda de -3.26, es decir, a(-3.26), buscamos -3.2 en la columna de z , y luego nos remitimos a la columna donde dice 0.06. Hallamos entonces que @(-3.26) = 0.000557. En realidad, con el Excel podemos descubrir que @(-3.26) = 0.00055712, o tomar una precisión aun mayor. En Excel se usa el menú de la figura 6.6 o bien se escribe directamente usando la sintaxis:
Figura 6.6
El Excel también tiene la opción de calcular la distribución normal estándar inversa, así como la distribución normal inversa para cualquier caso específico. La normal estándar inversa W 1 ( p )devuelve el percentil zpsobre el eje, para una probabilidadp, esto es, devuelve el valor de zptal que @(zp) = p . Son raros los libros que incluyan tablas de la normal estándar inversa al final. El estudiante puede confeccionar sus propias tablas estadísticas usando Excel, para no depender de las tablas que traen los libros, además de que lo puede hacer a su gusto particular y con la precisión que necesite. Le aseguramos que es un pasatiempo placentero para los días en los que no tenga nada mejor que hacer (por ejemplo, durante la Semana Santa o "puentes" vacacionales). Así aprenderá a usar la utilería estadística del Excel y además tendrá sus propias tablas hechas a la medida.
Una probabilidad para valores aislados de la variable aleatoria sólo tiene sentido en el caso de variables discretas, mas no en el caso de variables continuas. Por tanto, en la distribución normal y en todas las distribuciones de variables aleatorias continuas, las probabilidades se calculan sólo para intervalos de variación de la variable y se representan mediante áreas bajo la curva. Si hay que calcular la probabilidad de un valor puntual, entonces dicho punto se convierte artificialmente en un intervalo, añadiendo media unidad (de la escala que se maneja) a cada lado del punto. Por ejemplo, si hay que calcular la probabilidad de que una persona mida 1.78 m de estatura y por convención las estaturas se redondean al centímetro más cercano, entonces se calcula la probabilidad dentro del intervalo [1.775, 1.785). Por convención se toman intervalos cerrados por la izquierda y abiertos por la derecha. Algunas variables son continuas por naturaleza (como las edades de las personas, sus estaturas y sus pesos, las calificaciones promediadas de todo un curso o los salarios de trabajadores) y, sin embargo, se suelen manejar como si fuesen discretas para efectos prácticos derivados de nuestra cultura. Por ejemplo, la calificación de un examen o el promedio de calificaciones de todo el semestre para un alumno pueden tomar en teoría cualquier valor continuo en escala del O al 10 (o del O al 100). No obstante, la mayoría de las escuelas exigen que las notas entregadas sean redondeadas a enteros. Así, una calificación de 7.786, por ejemplo, será registrada como 8. En todos estos casos, es menester realizar un pequeño ajuste llamado corrección por continuidad. Por ejemplo, si se trata de determinar el porcentaje de calificaciones que fueron inferiores a 8, se toma el intervalo [O, 7.5), o si se trata de calcular el porcentaje de calificaciones mayores de 6 pero menores de 9, se toma el intervalo [6.5,8.5). El estudiante no debe pensar que siempre tiene que aplicar corrección por continuidad. En realidad, s610 es necesario hacerlo en alguno de los siguientes casos: i ) cuando la variable de trabajo es continua por naturaleza (como las calificaciones), pero se redondea al final con una escala discreta para ser presentada, ii) cuando se usa la distribución normal como una aproximación de la binomial, la cual es discreta. Ello se verá en la sección 6.5, pero antes ilustraremos algunos ejemplos prácticos del uso de la distribución normal.
Ejemplo 6.1. Un empleado de oficina entra a trabajar a las 9 d e la mañana todos los días hábiles y hace un promedio de 28 minutos desde que sale de su casa hasta que llega a su oficina, con una desviación estándar de o = 6 minutos. Supóngase que la distribución de los tiempos de viaje es aproximadamente normal. a) Si siempre sale de su casa a las 8:40 a. m., ¿qué porcentaje de las veces llegará tarde? b) ¿Cuál es la probabilidad d e que un viaje le tome menos de 20 minutos? c) ¿A partir de qué tiempo de viaje (en minutos y segundos) se encuentra 10% de los viajes más demorados para este oficinista?
0.0 t 0.06 -t 0.05
¡
-:
l
0.04 -i
1
0.03 -! 0.02 -:
l
0.01-: 15
20
25
p 30
35
40
Minutos
i
I
Figura 6.7
Solución: Conviene dibujar primero una gráfica rápida, con objeto de tener una idea más clara de lo que se está haciendo (fig. 6.7). Sea T la variable aleatoria que denota el tiempo (en minutos) empleado por el oficinista, desde que sale de su casa hasta el momento en que entra a su oficina. Para tipificar una abscisa t, se hace:
a) Por la hora en que el oficinista sale de su casa, le quedan 20 minutos antes de registrar retardo. Tipificarnos el valor t, = 20, para obtenerz, = -1.33 (se redondea a dos dígitos después del punto decimal, para poder usar las tablas). Entonces:
De aquí que 91 % de las veces el oficinista llegará tarde a su trabajo. 6) Se tipifica primero el valor t, = 20, y se obtiene z, = -1.33 (correcto a dos dígitos). Entonces:
c) El percentil correspondiente para P(z > p ) = 0.10 (esto es, el decil Dd se denota por el símboloz,,, = O-'(0.90) = 1.2815508 (se usa la tabla de la normal estándar inversa). Entonces: t = zo + p = 1.2815508 X 6 + 28 = 35.69 minutos (equivale a 35 minutos con 41 segundos).
Cap. 6. Las distribuciones continuas teóricas más importantes
22 1
Ejemplo 6.2. En cierto lugar, la estatura de los varones adultos es una variable aleatoria continua que sigue una distribución normal, con media p = 1.69 m y desviación estándar de a = 0.03 m.
a ) Obtener las estaturas correspondientes a los deciles D,y D,y a los cuartiles Q, Y Q3. 6) ¿A partir de qué estatura se encuentra 5 % de los hombres más altos? ¿El 2.5 % d e los hombres más altos? Solución:
a) En la distribución normal tipificada, se tiene (véase la tabla correspondiente):
D,=zo,,, = @-'(0.10) = -1.2815508; luego, zo,,oo + p = (-1.28155)(0.03) + 1.69= 1.6516 m. D,=z0,,,= @-'(0.30) = -0.5244010; luego, zo,,a + p = (-0.52440)(0.03) + 1.69 = 1.6743m. Ql = zo,z5 = a-l(0.25) = -0.6744904; luego, z,,,o + p = (-0.67449) (0.03) + 1.69 = 1.6698m. Q3 = z,,,~ = a-l(0.75) = 0.6744904; luego, zO,,,o + p = (0.67449)(0.03) + 1.69 = 1.7102 m. Por consiguiente, 50% de la población considerada tiene estaturas que oscilan entre 1.6698y 1.7102 metros. 6) La estatura a partir de la cual se encuentra 5 % d e los hombres más altos en esa población es el percentil correspondiente a z,,, = @-'(0.95) = 1.6448530 (en unidades tipificadas), lo cual se transforma como zo,a + p = (1.644853)(0.03) + 1.69 = 1.7393 m. Por otra parte, la estatura a partir %ela cual está 2.5% de los más altos es z0,,,o + p = (1.9599611)(0.03) + 1.69 1.7488 m.
-
Algunas variables aleatorias discretas pueden seguir una distribución aproximadamente normal, a pesar de que la normal es una variable continua. En tales casos, los puntos se cambian por intervalos, tomando media unidad a sendos lados d e cada valor puntual (corrección por continuidad). Ejemplo 6.3. Supóngase que el número de huracanes anuales que azotan una isla sigue una distribución aproximadamente normal con media p = 4.5 huracanes al año y desviación estándar a = 1.3 huracanes al año. Calcular la probabilidad de que durante un año cualquiera ocurran en esa isla:
a ) entre dos y cuatro huracanes, inclusive; 6 ) exactamente tres huracanes. Solución: En ambos casos debemos usar corrección por continuidad, porque la variable aleatoriax que representa el número de huracanes al año es discreta, y la distribución que sigue dicha variable (normal) es continua. a ) Tomamos 2 como representativo del intervalo [1.5,2.5) y 4 como representativo del intervalo [3.5, 4.5). Entonces, tipificamos el extremo izquierdo del primer intervalo (1.5) y el extremo derecho del segundo intervalo (4.5). Tenemos:
Luego:
b) Tipificamos los extremos del intervalo [2.5,3.5),el cual corresponde al valor X = 3.
Luego:
Recuérdese que anteriormente se vio cómo un histograma para la distribución binomial tiende a ser simétrico y acampanado cuando su parámetrop tiende a 0.5. Esto hace que, para valores d e p cercanos a 0.5 y para valores de n más o menos grandes, las probabilidades acumuladas de una distribución binomial se parezcan mucho a los valores que se obtendrían si se usa la distribución normal y se aplica la corrección por continuidad. Si n es grande y p está lejos de 0.5, pero es próximo a O o a 1, entonces la distribución de Poisson es una aproximación más razonable. La distribución normal es a menudo una buena aproximación a una distribución discreta cuando esta última toma la forma de campana simétrica. Desde el punto de vista teórico, algunas distribuciones convergen a normales a medida que sus parámetros se aproximan a ciertos límites. La distribución normal es una distribución de aproximación conveniente, porque su distribución de probabilidad acumulada se tabula de manera sencilla. La distribución binomial se aproxima bastante bien con la normal en problemas prácticos cuando se trabaja con la función de distribución acumulada. Por regla general, si tanto np como nq son mayores que 5, se recomienda la aproximación, lo cual permite un considerable ahorro de trabajo y de tiempo. Ejemplo 6.4. Se lanza una moneda 12 veces. Sea X el número de águilas que salen. Para x = 0,-1, 2, . .., 12 se requiere hacer un comparativo de los valoresde probabilidad de que salgan exactamente x águilas usando la distribución binomial y la normal como aproximación. Mostrar gráficamente la curva normal y el histograma (diagrama de barras) de la binomial. Solución:Usarnos p = np = (12) (0.5) = 6; o = = = 1.732.Para cada punto x, usamos el intervalo completo que va desde x - 1/2 hasta x + lh. Por ejemplo, para
66
Cap. 6. las distribuciones continuas teóricas más importantes
223
obtener la probabilidad d e que salgan cuatro águilas en los 12 volados por medio de la normal, tomamos como "cuatro" a todo el intervalo desde 3.5 hasta 4.5. Entonces se tipifican los extremos:
Luego:
Este número es una aproximación razonable del valor exacto, el cual se calcula con la tabla de la distribución binomial:
En la tabla 6.2 se pueden comparar las probabilidades binomiales y normales para todos los valores de X desde O hasta 12. Desde luego, n = 12 no es un número muy grande. Si fuese mayor, la aproximación sería obviamente mucho más precisa, pero siempre con la condición de quep sea razonablemente próximo a 0.5.
Tabla 6.2 Exfremo derecho tipiftcado (4 -3.18
O
[-0.5,0.5]
1
[0.5,1. 51
-2.59
Extremo izquierdo t@$cado (4 -3.75 -3.18
2
[1.5,2.5]
-2.02
-2.59
0.0169
0.0161
3
[2.5,3.5]
-1.44
-2.02
0.0532
0.0537
-0.0005
[3.5,4.5]
-0.87
-1.44
0.1173
0.1208
-0.0035
5
[4.5,5.5]
-0.29
-0.87
0.1937
0.1934
0.0003
6
[5.5,6.5]
0.29
-0.29
0.2282
0.2256
Intervalo
X
4
'
- @(a)
(nol-ma6)
Valor real (binomial)
0.0007
0.0002
@(b)
0.0041
7
[6.5,7.5]
0.87
0.29
0.1937
8
17.5,8.5]
1.44
0.87
0.1173
9
[8.5,9.5]
2.02
1.44
0.0532
10 [9.5,10.5]
1
i
t12
/
2.59
/
2.02
11.51
3.18
2.59
111.5, 12.51
3.75
3.18
[IO.~,
11
/ 1
¡
1
0.0030
O. 1934 .
Di$erencia 0.0005 :
0.0008
0.0026 1-
0.1208
. 0.0161
0.0041
j
0.0030
0.0007
1
0.0002
0.0003 -0.0035
0.0537
0.0169
0.0011
-0.0005 l
1
1 1
0.0008 o.0011
0.0005
En la figura 6.8 se aprecia esto de manera gráfica. Obsérvese que los pequeños pedazos de histograma que salen arriba d e la curva (excesos) son más o menos iguales en área
Figura 6.8. Aproximación de la binomial con una curva normal.
a los pequeños huecos en blanco que quedan bajo la curva (defectos). Sin embargo,queda claro que sin hacer cuentas podemos concluir que la suma de todos los excesos es igual a la suma de todos los defectoso, dicho en otras palabras, que la suma algebraica de todas las diferencias de la última columna en la tabla debe ser necesariamente cero (¿porqué?). Observación sobre el significado de la curtosis. Aunque el coeficiente de curtosis indica qué tan picuda es la gráfica de una distribución continua, resulta muy común que la gente malinterprete ese concepto, porque en realidad es un concepto más complejo. Para evaluar en forma numérica el coeficiente de curtosis K de una distribución cuya función de densidad de probabilidad esf (x) y en la cual p y o denotan, respectivamente, la media y la varianza, se requeriría plantear y resolver cierta integral, lo cual se hace en cursos de estadística para ingenieros o de estadística matemática. En el caso de la distribución normal se obtiene el valor de K = 3, no importa cuáles sean los valores numéricos particulares de p y o.Esto quiere decir que no es correcto pensar que algunas curvas normales son "máspicudas o menos picudas que otras". A decir verdad, todas son igualmente picudas, en el sentido de que se pueden superponer punto por punto mediante una adecuada traslación y una reducción (o ampliación) de la escala. Ello es claro por el hecho de que todas las curvas normales se reducen a la normal estándar mediante la transformación:
lo que representa precisamente una traslación seguida de una amplificación (o reducción).
Figura 6.9. Curvas normales con desviaciones típicas diferentes. pero todas con la misma curtosis.
En la figura 6.9, tenemos tres curvas normales con distintos parámetros (media y desviación típica), pero que esencialmente tendrían idéntica forma en dibujos separados; es decir, todas se reducirían a la curva normal estándar mediante una traslación y una ampliación (o reducción) apropiada de la escala. Ejemplo 6.5. Con Excel, calcular las posiciones exactas de cada uno de los nueve deciles D,, D, ,...,D, en la distribución normal estándar. Solución:Con la sintaxis = D1STR.NORM.ESTAND.INV se pueden obtener rápidamente los siguientes valores:
En la figura 6.10 se aprecia esto de manera gráfica.
Figura 6.10. Los nueve deciles en la distribución normal estándar.
La distribución exponenciai, definida parax 2 0, con parámetro de escala h > O, tiene la siguiente función de densidad de probabilidad:
En la figura 6.11, aparecen las gráficas superpuestas de dos distribuciones exponenciales, con parámetros de escala 112 y 1, respectivamente. La media y la varianza de la exponenciai están dadas, respectivamente, por:
La distribución acumulada de probabilidad está dada por:
F(x) = P ( X 5 x) = 1 -e-""
Figura 6.1 I
Una generalización de la exponencial es la llamada distribución de Erlang:
1 0
en otra parte.
donde r e s un entero positivo, que se llama patámetm de forma, y h es un número real positivo, que se llama parámetro de escala. Cuando r = 1, la distribución de Erlang coincide con la exponencial. Esta distribución fue estudiada por el científico danés A. K. Erlang (1878-1929) a principios del siglo xx, en conexión con problemas de tráíico de líneas telefónicas. Para t > O, la función d e densidad d e probabilidad d e la distribución de Erlang adopta precisamente la forma de la distribución de la variable discreta de Poisson, con variable aleatoria discreta x = r - 1y con h t ocurrencias en promedio por unidad de tiempo, pero multiplicada por el parámetro de escala h. En efecto, si hacemos x = r - 1 (para r = 1 , 2 , 3 , 4 , .. .),se tiene: 9(x, ht)
= P(r
-1, ht)=
@t)"e-u
(r -l)!
h Por consiguiente, para x = r- 1, se tiene h 9(x, ht) = -(ht)r+e-b, (r -l)! lo cual coincide con la distribución de Erlang para t 1 0.
228
Parte 11. Principales distribuciones estadísticas
En cursos de probabilidad y estadística para ingenieros (o de estadística matemática) se demuestra que la distribución acumulada de probabilidad es, en este caso: r-l
k=O
La distribución de Erlang es sólo un caso particular de otra distribución estadística más importante y general que se llama distribución gama (o gamma), en la cual el parámetro de escala r puede tomar cualquier valor real positivo (no únicamente valores enteros). En tales casos, el valor de (r - l)! se remplaza por una función matemática de r que se llama función gama (o gamma), denotada por T(r), que aquí no expondremos, porque rebasa el nivel de presentación de este curso. La figura 6.12 ilustra la forma típica de la distribución gama, que tiene más o menos la misma forma que la distribución de Erlang.
Figura 6.12. Gráficas típicas para la distribucibn gama.
La media, la varianza y la moda de la distribución gama (y, por tanto, de la distribución de Erlang) están dadas, respectivamente, por:
La distribución de Erlang (o de manera más general, la distribución gama) es la contraparte continua de la distribución binomial negativa (o Pascal) b*(x,k,
Cap. 6. Las distribuciones continuas teóricas más importantes
229
p), la cual rige la probabilidad del número d e ensayos requeridos hasta completar el k-ésirno éxito en los ensayos de Bernoulli. En forma análoga, la distribución de Erlang rige la probabilidad del tiempo requerido hasta completar el r-ésimo acontecimiento d e Poisson. Por ejemplo, para calcular la probabilidad de que alguien que lanza una moneda al aire obtenga la tercera águila antes del quinto intento, se usa la binomial negativa. Pero si queremos calcular la probabilidad d e que un taxista desocupado logre su tercer servicio antes de que pase una hora, usamos la distribución de Erlang. El estudiante hará bien e n observar más detalles d e esa analogía: la distribución geométrica es a la binomial negativa como la exponencial es a la d e Erlang (o a lagama). Incluso podrá observar en las gráficas que el histograma d e una distribución geométrica es d e la misma forma que la curva d e densidad d e una distribución exponencial. Asimismo, el histograma d e una binomial negativa es d e la misma forma sesgada que la curva d e densidad d e probabilidad d e la distribución d e Erlang (o gama). Incluso las medias y las varianzas respectivas tienen un gran parecido, cada una con sus respectivos parámetros. En el cuadro 6.1 s e comparan las similitudes entre la geométrica y la exponencial. Cuadro 6.1. Similitudes entre la distribución geométrica y la distribución exponencial.
Caso discreto Caso continuo bución geomét&a (dlsnibuci&n exponencial) Núi :nsayos requeridos hasta Tiempo transcurrido hasta que ocurra . . ae- el primer acontecimiento (sucesas de que ocurra el primer éxito (ensayos Bernoulii) Poisson) Parámetro:~= probab Parámetro: h = promedio de éxito ;;T ocet;l unidad de tiempoMedia o valo Media o v Varianza: o2= Varianza: Única distribución discreta con la Única distribución continua con la propiedad de pérdida de la memoria propiedad de pérdida de la memoria Única distribución discreta con rapidez Única distribución continua con de falla const rapidez de falla constante Histograma: Curva de densidad: monótoi decreciente 1
L.-----
1
De lo que aparece en el cuadro 6.1, no hemos descrito aún un par de cosas: la pérdida de la memoria y la rapidez d e falla. Explicaremos rápidamente estas propiedades en forma más bien intuitiva y no analítica (matemática). Suponga que lanza una moneda al aire muchas veces y desea que la moneda caiga con águila hacia arriba (éxito), pero ya lleva dos lanzamientos y todavía no aparece el éxito. La lanza por tercera vez y de nuevo sale sol. Una persona que no conozca la propiedad de pérdida de la memoria podría sospechar que para el cuarto lanzamiento debería haber una alta probabilidad de que por fin llegue el primer éxito (águila), porque de algún modo pensamos que ya es justo que esa racha de soles
230
Parte 11. Principales distribuciones estadisticas
termine. (Como se dice coloquiaimente: y a le toca salir al signo de águila.) Pero esto es inexacto. En realidad, la moneda no tiene memoria (¡obviamente!) y no puede apresurarse a "compensar" esa racha d e soles con una pronta aparición de su primer águila (en esa serie), pero la distribución de probabilidad que rige el número de lanzamientos necesarios para que ocurra el primer éxito (águila) itampoco tiene memoria! (es la distribución geométrica), así que no importa qué tan larga ha sido la racha de soles, la probabilidad de que salga el primer signo de águila en el siguiente ensayo es la misma que cuando se inició la serie de lanzamientos o que en cualquier momento. Lo mismo pasa con la distribución exponencial (que rige el tiempo transcurrido hasta el primer acontecimiento de Poisson). Supóngase, por ejemplo, que a la orilla de un lago está pescando un señor apaciblemente, que llegó desde las nueve de la mañana y que una hora después aún no ha pescado nada. De pronto llega un compañero a las 10 de la mañana y se pone a pescar tranquilamente junto a él. Uno podría pensar que "por derecho de antigüedad el primer pez que muerda debe corresponder al hombre que lleva más tiempo esperando, como si los peces dijeran: "Pobrecito, lleva más d e una hora esperando, mientras que el otro apenas acaba de llegar, así que nos corresponde picar primero en el anzuelo de aquel paciente hombre." Esto es falso e inexacto desde el punto de vista probabilístico, aunque quizá sea correcto desde el punto de vista cultural (como dicen los ingleses: first comefirstserved). De hecho, la probabilidad de que cualquiera de ellos atrape su primer pez antes de los próximos 10 minutos, por ejemplo, es exactamente la misma para ambos. Y no es que los peces no tengan memoria (en realidad, ni les interesa quién o quiénes los quieren atrapar), lo que pasa es que la distribución que rige el tiempo hasta la ocurrencia del primer acontecimiento de Poisson (el acto de atrapar un pez) es una distribución carente de memoria probabilística. La formulación y demostración matemática precisa de la propiedad de pérdida de la memoria, así como otras formulaciones matemáticas alternativas originales del autor, pueden consultarse en el libro Problernario d e probabilidad, por Piotr M. Wisniewski y Gabriel Velasco Sotomayor, p. 236 y ejercicios 1391 y 1392, pp. 262 y 263. Lo de la rapidez de faiia es otra cosa diferente. Se trata de una propiedad importante en teoría del control de calidad y productividad. Es un atributo estadístico que sólo lo tienen las distribuciones geométrica y exponencial, y analizarlo en este momento nos alejaría y distraería del tema central. El lector interesado puede consultar la formulación rigurosa de este concepto de rapidez de falla en el libro citado (Probleman'o deprobabilidad), ejercicio 1407 (resuelto con todo detalle) y ejercicio 1411, así como el ejercicio 1050, p. 177; todos ellos son ejercicios relacionados con el tema del control de calidad. Veamos algunos ejemplos concretos del uso d e la distribución exponencial como regidora del tiempo de espera hasta el primer suceso de Poisson. Distribución de probabilidad acumulada en la exponencid. Resulta fácil demostrar que para la distribución exponencial:
Cap. 6. Las distribucionescontinuas teóricas más importantes
23 1
la probabilidad de que la variable X asuma un valor menor (o menor o igual) que una constante a > O está dada por:
Asimismo, la probabilidad de que X asuma un valor dentro de un intervalo [a, b] (puede ser un intervalo abierto o semiabierto también) está dada por:
El estudiante observador tal vez note cierto parecido entre estas dos fórmulas y las fórmulas análogas para la probabilidad acumulada en la distribución geométrica, mas no es nuestro deseo distraer su atención con estos detalles por ahora. Es sólo un comentario. Lo importante es que estas dos fórmulas nos permiten resolver rápidamente problemas de espera de este tipo con ayuda de una simple calculadora científica, aunque el Excel es incluso más rápido y cómodo. Procedimiento para resolver problemas de espera con la distribución exponencid. Lo primero que se debe hacer es definir la unidad de tiempo que se va a usar
(puede ser cualquier unidad de tiempo, pero es más fácil si se escoge una unidad razonable). El parámetro h de la distribución será el número de acontecimientos de Poisson en esa unidad de tiempo. Esto quiere decir que dos personas que resuelvan un mismo problema pueden elegir distintas unidades de tiempo y así tendrán distintos valores para h y diferentes ecuaciones, pero al final van a llegar a respuestas idénticas. Ejemplo 6.6. En una oficina se reciben en promedio seis llamadas telefónicas por hora. Si suponemos que el flujo de llamadas telefónicas que entran es una variable aleatoria discreta que sigue una distribución de Poisson, obtener la distribución de probabilidad de la variable aleatoria continua T que denota el tiempo transcurrido entre dos llamadas consecutivas que entran ( T 1 O), suponiendo que la unidad de tiempo que se usa es:
a) la hora b) el minuto c) el lapso de 10 minutos d) el cuarto de hora.
be-'
si t 2 0. si t
O. le"."
si t 2 0 . si t < 0.
Ejemplo 6.7. Con referencia al ejemplo anterior, determinar la probabilidad de que transcurran más de 10 minutos pero menos de media hora entre dos llamadas telefónicas consecutivas que entran.
232
Parte 11. Principales distribuciones estadísticas Solución: Escogemos como unidad de tiempo el intervalo de 10 minutos. Luego:
Ejemplo 6.8. Si suponemos que en un partido de futbol los tiros de esquina son sucesos de Poisson que ocurren a un ritmo promedio de uno cada seis minutos, determinar la probabilidad de que transcurran más de cinco minutos para que ocurra el siguiente tiro de esquina, dado que:
a) precisamente acaba de ocurrir un tiro de esquina 6 ) el último tiro de esquina ocurrió hace seis minutos c) el espectador acaba de llegar al estadio y no sabe cuándo tuvo lugar el último
tiro de esquina. Solucidn: La respuesta es la misma para los tres incisos:
(por la propiedad de pérdida de la memoria). Ejemplo 6.9. Durante la época de lluvias (meses de mayo a octubre), el suministro de energía eléctrica en la colonia Pedregal de las Aguilas en el Distrito Federal se interrumpe con mucha frecuencia, lo cual causa bastantes molestias a las personas. Supóngase que las interrupciones del suministro de energía eléctrica ("apagones"), en esa zona y durante la época mencionada, siguen una distribución de Poisson con promedio de 0.8 apagones al día. Si una persona necesita de sólo tres horas para terminar un trabajo en computadora, calcular la probabilidad de que pueda lograrlo antes de que un apagón interrumpa a b ~ p t m I e n t esu trabajo. Solución: Tómese la hora como unidad de tiempo. Si hay 0.8 apagones en un lapso 0.8 24
1 30
de 24 horas, entonces h = -= -.
Denótese por T al tiempo transcurrido hasta el
primer apagón (el próximo). Así, se tendrá:
Ejemplo 6.10. En un puesto de periódicos, los clientes independientes que llegan a comprar un diario o una revista lo hacen a un promedio de 1.6 clientes por minuto. Calcular la probabilidad de que se registre un tiempo de menos de dos minutos antes de que llegue el próximo cliente. Solución: Sea X el tiempo (en minutos) transcurrido hasta la llegada del primer (o del próximo) cliente. Entonces, X tiene distribución exponencial con parámetro h = 1.6. Luego:
Ejemplo 6.11. En un negocio de comida rápida, atienden en promedio a un cliente cada cinco minutos. ¿Cuáles la probabilidad de que un mismo cliente haya sido atendido en ese lugar en un tiempo inferior a los tres minutos en al menos cuatro de las seis veces que comió ahí? Solución: Tomemos el minuto como unidad de tiempo. Como despachan a un cliente cada cinco minutos (en promedio), entonces atienden a 0.2 clientes cada minuto. Luego, h = 0.2. SiXes el tiempo en minutos que pasa hasta que despachan al primer (o al
Cap. 6. Las distribuciones continuas teóricas más importantes
233
próximo) cliente, entonces X sigue una distribución exponencial con parámetro h = 0.2. La probabilidad de que se tarden menos de tres minutos en despachar a un cliente una sola vez, está dada por:
y de que ocurra eso mismo en al menos cuatro de seis intentos está dada por:
Esto lo podemos calcular rápidamente con tablas o con Excel. Tendremos así:
Distribución de probabilidad acumulada en la de Erlang. Para la distribución de Erlang (que es el análogo continuo de la binomial negativa), la distribución de probabilidad acumulada es muy similar a la de la exponencial, excepto que en lugar de e-" se toma la de Poisson acumulada (hasta r - 1) con parámetro h a . La demostración rigurosa puede verse en otros de los libros del autor, escritos con la colaboración del doctor Wisniewski: .
?
P(X < a ) = l - x 9 ( k J ha)
De aquí se sigue que la probabilidad d e que la variable X asuma un valor dentro del intervalo [a,b] (puede ser abierto también, o semiabierto) se calcula así: r-1
r-1
P(a < X < 6) = z 9 ( k J ha) - x 9 ( k , hb) k=O
k=O
Procedimiento para resolver problemas de espera con la distribución de Erlang. Al igual que con la exponencial, se empieza por definir la unidad de tiemp o que se usará. El parámetro de escala h de la distribución será el número de acontecimientos de Poisson en esa unidad d e tiempo. Entonces, la distribución del tiempo transcurrido hasta lograr la r-ésima ocurrencia de Poisson es precisamente Erlang con parámetro de forma r y parámetro de escala h. Ejemplo 6.12. Un transbordador llevará pasajeros al otro lado de un río cuando 10 automóviles estén a bordo. Supóngase que por experiencia se sabe que los automóviles llegan al transbordador como ocurrencias de Poisson independientes,a un ritmo promedio de siete por hora. Obtener la probabilidad de que el tiempo entre dos salidas consecutivas del transbordador sea no mayor que una hora.
234
Parte 11. Principales distribuciones estadísticas
Solucidn: Tomamos 1 hora como unidad de tiempo. Entonces, r = 10 automóviles, h = 7 automóviles por hora; y así se tendrá:
Hallamos este valor rápidamente con Excel así:
Ejemplo 6.13. Varios amigos están en una cantina tomando cervezas y jugando dominó alegremente. El tiempo (en minutos) que uno de ellos tarda en acabarse cada cerveza es una variable aleatoria con distribución exponencial, cuya varianza es d e 25. Además, por cada cuatro cervezas que se toma debe ir urgentemente al baño a deshacerse del exceso d e agua acumulada en su organismo. Calcular la probabilidad de que demore entre 15 y 20 minutos, entre dos visitas consecutivas al baño. 1 1 Solución: Si o2= - = 25, entonces h = - . Ahora bien, si a la cuarta cerveza
hZ
5
acumulada tiene que ir al baño, entonces la distribución del tiempo entre dos visitas consecutivas al baño es la distribución del tiempo transcurrido hasta completar la cuarta cer1
veza, la cual es Erlang con parámetros r = 4, h = -. Por tanto: 5
Esto se calcula rápidamente con Excel así:
6.7. LADISTRIBUCI~NJI-CUADRADA
(xZ)
CON V GRADOS DE LIBERTAD
Un tercer caso especial de la distribución gama (aparte de la exponencid y la de Erlang), que reviste importancia fundamental en la estadística, es la Ilamada distribuciónji-cuadrada (oji-dos) con v grados de libertad (v es la letra griega nu equivalente a la n). En estadística se usa mucho el término grados de libertad, que significa el número de observaciones independientes menos el número de parámetros desconocidos que se trata de estimar con base en dichas observaciones. La distribución ji-cuadrada ( ~ con 3 v grados de libertad (V entero positivo)
?,
y parámetro de eses sólo una distribución gama con parámetro de forma r = L 1 cda h = - . Resulta fácil ver que su densidad de probabilidad se simplifica como: 2
Mencionamos esta fórmula sólo a guisa de información general, pero el estudiante no debe preocuparse si no la entiende, ya que, a fin de cuentas, todo lo que va a requerir de la ji-cuadrada es cómo calcular percentiles de esta distribución, lo cual se hace cómodamente con tablas o con Excel. En cierto modo, la distribución ji-cuadrada viene siendo el cuadrado de la distribución normal estándar; más específicamente: si Z es una variable aleatoria continua que tiene distribución normal tipificada, entonces ZZtiene distribución ji-cuadrada con un grado de libertad. Por otra parte, si Z,, Z,, ... ,Zn son variables aleatorias que tienen la distribución normal estándar (media p = O y varianza o2= l), entonces la variable aleatoria Zt + Z: + . + 2: tiene distribución ji-cuadrada con n grados de libertad. Es fácil comprobar que el valor esperado de la distribución ji-cuadrada con v grados de libertad es precisamente p = V, mientras que la varianza es u2= 2v. Para valores grandes de v, los percentiles X; de la distribución ji-cuadrada con v grados de libertad pueden calcularse con una exactitud razonable por medio de la expresión dada por , donde zpes el percentil corres2 pondiente de la distribución normal estándar. Por ejemplo, en la tabla de percentiles de la distribución ji-cuadrada con v grados de libertad, hallamos que x&, con 150 grados de libertad es 179.58061, mientras que con la aproximación mencionada se obtiene: a
Esta es una buena aproximación y para casos prácticos es más que suficiente, ya que en inferencia estadística los percentiles de la ji-cuadrada no necesitan ser demasiado exactos, pues a menudo sólo se usan para comparar con otro valor numérico calculado y decidir si se acepta o se rechaza cierta hipótesis relativa a una varianza, o bien para construir un intervalo de confianza relativo a alguna desviación estándar (desconocida) de una población. En ninguno de estos casos se requiere un valor numérico demasiado preciso para ese percentil. Aunque la distribución gama (y por tanto, la ji-cuadrada y la de Erlang) nunca puede tomar valores negativos, mientras que la distribución normal sí puede hacerlo, cuando r tiende a infinito se aprecia, incluso gráficamente, cómo la forma de la gráfica de la distribución gama (o la ji-cuadrada) se parece cada vez más a la forma acampanada de la distribución normal (véase fig. 6.13). En cursos de estadística matemática teórica se demuestra con rigor por qué todas estas curvas tienden a parecerse a la normal bajo ciertas condiciones. Fueron los grandes estadísticos rusos del siglo m, Alexander Lyapunov, Andréi Kolmogórov y Boris Gnedenko, quienes llevaron la estadística matemática teórica a su máximo grado de perfección y belleza lógica, con la formulación rigurosa de
Figura 6.13. Tendencia de la distribución de Erlang a perder el sesgo cuando r
+
03.
una serie de teoremas sobre límites d e distribuciones. Por desgracia, todo eso queda muy por arriba del nivel d e presentación matemática de estas modestas lecciones.
6.8. LA DISTRIBUCI~NT DE STUDENT CON V GRADOS DE LIBERTAD
Esta distribución es muy importante en estadística y fue propuesta por el científico inglés W: Gosset (1876-1937), quien trabajaba en la compañía productora d e cerveza Guinness en Dublín, Irlanda, y que escribía sus trabajos bajo el seudónimo de Student (el estudiante). Si T es una variable aleatoria continua con distribución t de Student, su f. d.^.^ está dada por:
En cierto modo, la distribución t de Student resulta ser una especie de versión generalizada de la distribución normal estándar, la cual es precisamente una distribución t con m grados de libertad. En la figura 6.14, la curva más alta es el 2fdp, o bien f.d.p. abreviatura defuncibn de ciemhkddepmbabilidad.
Cap. 6. Las distribuciones continuas teóricas más importantes
237
límite al que tiende la distribución t de Student conforme el número de grados de libertad v tiende a infinito (es precisamente la normal estándar). En la curva que sigue hacia abajo v = 5, en la que sigue (hacia abajo) v = 2, y en la más baja de todas v = 1. En la figura 6.14, generada por el popular programa MathematicaB, la al1 tura de la gráfica más baja (1 grado de libertad, o Cauchy) es - = 0.3183, mienJ' r
tras que la altura de la gráfica más alta de todas 1
(agrados de
libertad, o normal
El valor esperado y la varianza de la distribución t de Student son, respectivamente, los siguientes: 0 2
= -con (v
v-2
> 2)
La distribución t de Student con un grado de libertad se reduce a la llamada distribución de Cauchy, la cual no tiene valor esperado, y cuya función de densidad de probabilidad está dada por:
10
en otro caso.
Figura 6.14. Gráficas típicas de la distribución t de Student.
238
Parte 11. Principales distribuciones estadísticas
En cursos más avanzados d e probabilidad se demuestra que si Z es una variable aleatoria con distribución normal estándar, y si X es una variable aleatoria cuya distribución es ji-cuadrada con v grados de libertad, entonces la variable aleatoria definida por:
tiene distribución t de Student con v grados de libertad. En cualquier libro d e estadística hay tablas d e percentiles de la distribución t, pero también se pueden hallar con alguna computadora. El Excel es magnífico para ello. Al estudiante le sería muy útil ejercitarse e n el uso de Excel para calcular percentiles críticos d e la distribución ji-cuadrada y d e la distribución t d e Student. Desde luego, también puede consultar tablas e n cualquier libro d e estadística, pero siempre resulta más divertido generar nuestras propias tablas estadísticas con ayuda d e la computadora. Ejemplo 6.14. Usando Excel, calcular el percentil g.025;12 lo cual es una manera abreviada de decir "el percentil0.025 de la distribución ji-cuadrada con 12 grados de libertad". (12). Cualquiera de las dos notaciones es Algunos autores prefieren escribirlo así: buena. Solución: Antes que nada haremos una aclaración. Varios autores usan la notación g,025 no con el significado de percentil0.025, sino con el significado de valor crítico de prueba de ji-cuadrada, lo cual significa que lo toman como un punto tal que a mano derecha del mismo y bajo la curva hay un área de sólo 0.025 (es decir, 2.5%). Se debe tener mucho cuidado con esas interpretaciones.Incluso el Excel no tiene ninguna opción para calcular percentiles directos de la ji-cuadrada, pero tiene la opción para hallar elvalor crítico de prueba. En ese caso, hay que tomar en cuenta que el percentilp corresponde al valor crítico de prueba 1-p (y viceversa). Por ejemplo, en este caso, escribimos lo siguiente:
x:,~,,
y aparece instantáneamenteel valor 4.4037775. Esto significa que a mano izquierda de ese punto hay 2.5% de área bajo la curva y a mano derecha hay 97.5 % de área.3 Ejemplo 6.15. Usando Excel, calcular t,, ;,,,es decir, el percentil 0.95 de la distribuEsto ción t de Student con 20 grados de libertad. Jgunos autores lo escriben así: to,95(20). significa que buscamos un punto en el eje tal que a mano izquierda del mismo y bajo la curva haya 95% del área total. De nuevo, debemos hacer una aclaración semejante. Si usted quiere usar el Excel para hallar la posición del percentilp en la t de Student con v grados de libertad, debe escribir lo siguiente:
Por tanto, en este caso la sintaxis es =DISTR.T.INV(O.1,20),lo cual da 1.724718. 3EI autor acostumbra sugerir en sus clases una nueva notación para evitar todas estas confusiones: escribirpx2si es un áreap a mano izquierda bajo la curva; y escribir x i si es un áreap a mano derecha bajo la curva.
Cap. 6. Las distribuciones continuas teóricas más importantes
239
Si al estudiante le parece extraña esta complicación, piense que el Excel lo considera desde el punto de vista de la inferencia estadística (intervalos de confianza y pruebas de hipótesis). En el capítulo 8, veremos que es más útil buscar valores en términos de una magnitud pequeña positiva que se llama a (nivel de significación), en donde el valor del percentilp y a se relacionan por medio de la
a
fórmula 1- - =p.Por supuesto, de aquí se sigue que a = 2(1 - p ) . 2 En la tabla 6.3, transcribimos sólo una parte de una tabla de percentiles de la distribución t de Student, generada por computadora y usando Excel. La tabla completa puede verse en el apéndice B. Tabla 6.3. Percentiles de la distribución t de Student con n grados de libertad. El último renglón (m grados de libertad) corresponde a la distribución normal estándar. Para percentiles simétricos a la izquierda del origen se usan los mismos valores pero con signo
Abraham de Moivre ( 1 667- 1 754). En su libro The Doctrine o/ Chances. publicado en Londres en 1 7 18, sentó las bases científicas de la estadística moderna. Introdujo la distribución normal.
Pierre-Simon Laplace ( 1 749- 1827). En su libro Theorie Analytique des Probabilités, publicado en 18 12, expuso la distribución normal y también sentó las bases de la regresión al establecer el método de mínimos cuadrados.
Para poner a prueba su aprovechamiento de este capítulo, se le invita a resolver los siguientes 26 ejercicios en dos sesiones. Por ejemplo, puede resolver la mitad de ellos un día y la otra mitad al día siguiente, tomándose su tiempo pero sin exagerar. Al final debe cotejar sus respuestas con las que se dan más adelante. Algunos ejercicios contienen varios incisos, pero son sencillos. Use tablas, calculadora y Excel si lo desea, pero puede resolverlos únicamente con calculadora y tablas, aunque con Excel será más cómodo y rápido. No consulte notas ni apuntes mientras los resuelve. Cada ejercicio vale un punto si tiene correctas todas las respuestas de los incisos. Pero si sólo acierta en las respuestas de dos incisos en una pregunta de tres incisos, por ejemplo, debe abonarse 0.67. Al final sume todos los puntos de los aciertos obtenidos y multiplique la cantidad obtenida por cuatro; esa será su calificación en escala del O al 100. Si obtiene menos de 70, le sugerimos que, en lugar de seguir adelante, vuelva a estudiar con más detenimiento todo el capítulo durante sus ratos libres de una semana y pruebe suerte más adelante. De 70 a 79 puntos es regular, de 80 a 90 puntos es bueno, de 91 a 95 es muy bueno, más de 95 es excelente y 100 o más está fabuloso. La máxima puntuación posible es 104. ¡Mucho éxito! 1. Dada una variable aleatoria continua Z , con distribución normal estándar, encuentre las siguientes probabilidades, usando tablas o Excel:
Exprese sus respuestas con precisión de sólo cuatro dígitos decimales, pero redondeando correctamente el número.
Cap. 6. Las distribuciones continuas teóricas más importantes
24 1
2. Por comodidad, si X es una variable aleatoria continua que tiene una distribución normal con media p y varianza 02, escribimos N(p, 02). Dada X con distribución N(p, c2), use las tablas para encontrar el valor de P ( p - 20 < X < p + 20). 3. Si X es una variable aleatoria con distribución N(25,25), halle:
a) 6) e) d)
el área bajo la curva normal a la izquierda de x = 20 el área bajo la curva normal a la derecha de x = 15 el área bajo la curva normal comprendida entre x = 12 y x = 24.6 el percentil x que tiene un área de 0.1075 bajo la curva, a mano izquierda.
4. En relación con el ejercicio anterior, determine: a) los cuartiles Q, y Q3 6) el rango semiintercuartil Q = Q - Q,)/2.
5. Si X es una variable aleatoria continua cuya distribución de probabilidad es N(18, 6.25), obtenga: a) el valor de c tal que P(X < c) = 0.2236 b) el valor de a tal que P(X 2 a) = 0.1814.
6. Dado un conjunto de observaciones (o datos) que se presume siguen una distribución normal, determine qué porcentaje de dichos datos dista de la media: a) en más de 1.280
6) en menos de 1.50. 7. Una moneda se lanza 300 veces. Empleando la aproximación normal a la distribución binomial, encuentre la probabilidad de obtener:
a) entre 155 y 165 águilas inclusive 6) exactamente 150 águilas e) menos de 140 o más de 160 águilas. 8. El encargado de un negocio de tortas (emparedados) ha determinado que el número de tortas que puede vender al día es una variable aleatoria con distribución aproximadamente normal. Según sus registros de contabilidad, 9 % de los días ha vendido 70 tortas o más, y sólo 3 % de los días ha vendido 73 tortas o más. Calcule:
a) el número esperado de tortas que venderá en un día cualquiera 6) la probabilidad de que venda cuando mucho 50 tortas en un día cualquiera e) el octavo decil, es decir, el número de tortas vendidas a partir del cual está 20% de los días que mejor le va en las ventas.
9. La empresa L a Central fabrica pequeñas cajetillas de cerillos llamados Clásicos, las cuales traen en promedio 56 unidades. La compañía tiene por norma realizar un ajuste de sus máquinas empacadoras cada vez que la desviación estándar del número de cerilios por cajetilla excede el valor 3.5. Tras un estudio de inventario, se ha116 que sólo 4 % de las cajetillas contenían menos de 50 ceriilos. Suponiendo una distribución normal, determine si es procedente realizar un ajuste en las máquinas empacadoras. 10. En un examen de admisión que se realizó para ingresar a una escuela, las calificaciones de los aspirantes sólo se registraron en números enteros en escala del O al 100, pero la calificación media fue de 63.8 puntos, con una desviación típica de 10.23 puntos. El director decidió aprobar a todos aquellos que obtuvieron calificación superior
242
Parte 11. Principales distribuciones estadisticm
a 50 puntos. Si se supone una distribución normal y se sabe que nueve alumnos reprobaron, ¿cuántos fueron los que presentaron el examen? 11. Supóngase que la vida Útil de cierta marca de refrigerador es una variable aleatoria con media igual a 12 años y con una desviación típica de dos años. Asúmase que la distribución de dicha variable aleatoria es aproximadamente normal. Si el fabricante piensa reponer sólo 3 % de los refrigeradores que fallen (dentro del uso ordinario), ¿por cuánto tiempo debe estipular la garantía? 12. En una compañía empacadora de azúcar refinada, los paquetes del producto dicen "contenido neto aproximado: 4 kg". Supóngase que la distribución del contenido neto en kilogramos es una variable aleatoria con distribución normal cuya desviación estándar es o = 0.04 kg. Si sólo 2 % de los paquetes contienen menos de 4 kg, ¿cuál es la media de los paquetes que se han llenado? 13. Si Z es una variable aleatoria continua que tiene distribución normal estándar y k > O es cualquier número real positivo:
1 1
a) resuelva para k la desigualdad P( Z < k) 10.90, usando el Excel o bien una ta-
bla de la distribución normal estándar inversa. [Nota: Puede resolver la desigualdad y sea de manera algebraica o geométrica, pero es más sencillo de manera geométrica. El siguiente dibujo puede darle una idea.]
En forma análoga, resuelva para k las desigualdades siguientes:
P(IzI
c)
términos de la distribución normal estándar acumulada inversa e'.
14. Un señor está un poco enfermo de tos y gripe, por lo que tiene accesos esporádicos
6
de tos, a un promedio de - = 1.2 accesos de tos cada minuto. Calcule la probabili5
dad de que, en un momento dado, transcurra más de un minuto hasta el siguiente acceso de tos, dado que el último acceso ocurrió: a) justo hace un instante
b) hace dos minutos. Suponga que los accesos de tos son acontecimientos de Poisson.
Cap. 6. las distribuciones continuas teóricas más importantes
243
15. Suponga que la vida útil, en meses, de una lámpara de radio es una variable aleatoria continua con distribución exponencial, cuyo parárnetro es h = 0.02. ¿Por cuántos meses de vida debe el fabricantegarantizar sus lámparas, si desea que la probabilidad de que la lámpara cumpla la garantía sea de 0.80? 16. En una fábrica se trabaja seis días a la semana (de lunes a sábado). Los registros estadísticos de muchos años indican que ahí tienen lugar en promedio 0.2 accidentes por semana, la mayoría de ellos sin mayores consecuencias. Calcule la probabilidad de que el próximo accidente ocurra antes de que pasen 10 días laborales a partir de ahora, si el último accidente tuvo lugar hace 10 días laborales. [Suponga que los accidentes siguen una distribución de Poisson.] 17. Un señor salió a pescar a la orilla de un lago y empezó a hacerlo a las 9:00 a. m. Si el tiempo que tarda en atrapar un pez se distribuye exponencialmente con parámetro 1
h = - (en horas), determine la probabilidad de que: 3 a) atrape el cuarto pez antes de las 10:OO a. m. 6) consiga su quinto pescado entre las 9:40 a. m. y las 10:20 a. m. E ) saque su primer pez antes de las 10:OO a. m., si hasta las 9:40 a. m. aún no había logrado atrapar ninguno. 18. En una caseta de cobro de la autopista Querétaro-Celaya,los automóviles llegan a un
ritmo promedio de 2.4 automóviles por minuto (los camiones pasan por otra caseta). Cada automóvil paga una cuota de $62.50. Determine la probabilidad de que, a partir de un momento dado, el encargado de esa caseta logre recolectar 1000 pesos en menos de cinco minutos. 19. a) ¿Aqué distribución conocida se reduce la distribución ji-cuadrada con dos grados de libertad? 6) ¿Cuántosgrados de libertad tiene una distribución ji-cuadrada cuya moda es l? 20. Si el número de horas diarias que duermen los adultos, dentro de cierto rango de edades, sigue una distribución ji-cuadrada con ocho grados de libertad, calcule:
a) el tiempo por debajo del cual está 10% de los adultos que menos duermen b) el tiempo por encima del cual se encuentra 10%de los adultos que más duermen (dé las respuestas hasta el segundo más cercano) c) el porcentaje de adultos que duermen menos de ocho horas al día. 21. Dada una distribuciónji-cuadrada con 10grados de libertad, halle el valor del percen-
ti1
xi
tai que:
a) el área a la derecha de X; sea 0.05 b) el área a la izquierda de X; sea 0.99 c) el área a la derecha de X; sea 0.025. 22. Para una variable aleatoria continua X que tiene distribución ji-cuadrada con 12 grados de libertad, encuentre todo lo siguiente:
P(3 < X < 5) la moda la media el primer decil e) el percentil x2 tal que el área a la izquierda de X; sea 0.99 f) el percentil x,,P tal que el área a la derecha de sea 0.025
a) 6) c) d)
~i
244
Parte 11. Principales distribuciones estadísticas
g) la probabilidad de que X asuma un valor mayor que la moda, pero menor que la media. 23. Dada una distribución t de Student con 15 grados de libertad, encuentre el valor de total que:
a) el área bajo la curva a la derecha de tosea de 0.05 b) el área a la izquierda de tosea de 0.40 c) el área a la derecha de tosea de 0.90 4 el área conjunta a la derecha de t,, y a la izquierda de -to sea de 0.01 e) el área bajo la curva comprendida dentro del intervalo de -to hasta tosea de 0.95.
24. Para una distribución t de Student, encuentre el valor crítico tcpara que el área bajo la curva a mano derecha de tcsea 0.01, si el número de grados de libertad es de:
25. Para una distribución t de Student con n grados de libertad, determine la posición del percentil tc,si se sabe que:
a) n = 25 y el área bajo la curva comprendida entre -tc y t es 0.90 b) n = 20 y la probabilidad acumulada a mano izquierda de tces 0.025 C ) n = 5 y además el área conjunta que está a la izquierda de -tc y a la derecha de tc es 1 % del área total bajo la curva 4 n = 16 y además P(X> tc)= 0.55. 26. Suponga queXes una variable aleatoria continua que tiene distribución t de Student con 10 grados de libertad. Calcule el valor de k tal que:
RESPUESTAS DE LOS EJERCICXOS DE AUTOEVALUACI~N6.1
2. Al tipificar, usando la fórmula Z = (X- p)/(~, se obtiene p = O, (T = 1. En escala tipifica-
da tenemos:
Cap. 6. Las distribuciones continuas teóricas más importantes
245
3. Tenemos p = 25, o = 5. a) El valor tipificado de x = 20 es (20 - 25)/5 = -1, luego O(-1.00) = 0.1587 b) El valor tipificado de x = 15 es (15 - 25)/5 = -2, luego 1 - O(-2.00) = O(2.00) = 0.9772 c) 'Iipificamos los extremos del intervalo y obtenemos O ( 4 . 0 8 ) - m(-2.60) = 0.4634 d ) En la tabla de la normal estándar, hallamos que O(-1.24) = 0.1075, luego x = (-1.24) x 5 + 25 = 18.8.
4. a) Los cuartiles Q, y Q, se hallan con mayor precisión en la tabla de la normal estándar inversa:(9-'(0.25) = -0.6744904 y, por la simetría, O-l(O.75) = 0.6744904. Entonces: Q , = -0.67449 x 5 25 21.62755 Q3 = 0.67449 x 5 25 28.37245 b) Q = 3.37245. b) a = 20.275. 5. a) c = 16.1 6. a) 20.06% b) 86.64%. 7. Primeramente determinamos los parámetros media y varianza de la distribución:
+ +
1 2
-
5
1 2
1 2
p = np = 300 x -= 150; 02= npq = 300 x -x -= 75, de donde o = 8.660254. a) En primer lugar, hay que tipificar el extremo izquierdo de 155 (es decir, 154.5) y el extremo derecho de 165 (es decir, 165.5):
Entonces: a(1.79) - a(0.52) = 0.963273 - 0.698468 = 0.2648. Como curiosidad, mencionamos que el valor exacto, calculado con la distribución binomial pem usando Excel, es de 0.265047, lo cual significa que la apmxhación resultó excelente. b) 'Iipificamos los extremos de 150 (los cuales son 149.5 y 150.5):
Luego: O(0.06) - O ( 4 . 0 6 ) = 0.523922 - 0.476078 .;0.04784. 'ILimbién aquí es interesante comparar con la respuesta exacta, calculada según la distribución binomial, pero usando Excel: 0.046028. La aproximación también resultó muy buena, aunque no tanto como la del inciso a. c) El extremo izquierdo de 140 es 139.5, mientras que el extremo derecho de 160 es 160.5. Obviamente, por la simetría de la curva con respecto a la media, el área bajo la curva a la izquierda de 139.5 es exactamente la misma que el área a la derecha de 160.5. Por tanto, sólo calculamos el valor de la primera y lo multiplicamos por dos:
Así: 2O(-1.21) = 2 x 0.113140 = 0.22628. Por curiosidad, comparamos con el va-
lor exacto calculado con la distribución binomial, evaluado por la computadora: 0.225286. Vemos que la aproximación resultó ser también bastante buena.
246
Parte 11. Principales distribuciones estadísticas
8. Aplicando corrección por continuidad (ya que el número de tortas vendidas es una
variable discreta), se obtiene: 69'5 - p. = W ( 0 . 9 1 ) = 1.34075;
o
72.5 -
a
= Q1(0.97) = 1.88079
De aquí se halla que o = 5.56, p. = 62 tortas. Por consiguiente: a) El número esperado de tortas vendidas es de 62 en un día cualquiera. 6) Tenemos:
c)
9.
La posición del octavo decil en la normal estándar es 2-'(0.80) = 0.84162, luego (0.84162)(5.56) + 62 = 66.68. El entero que tiene 20% de área a mano derecha es 66 y no 67; por tanto, a partir de 66 tortas está 20% de los días de mejores ventas.
a=
49.5 - 56 - 6'5
1'(0.04) -1.7507 . .
= 3.713. Sí procede realizar ajustes en las máquinas.
10. 93 alumnos presentaron el examen. 11. 8.24 años de garantía (= 8 años, 2 meses y 26 días), aunque semejante garantía pare-
cería sospechosa. En tal caso, el fabricante podría redondear a s610 ocho años de garantia. 12. 4.082 kg. 13. a) k 2 Qr1(0.90+ 0.05) = W ( 0 . 9 5 ) = 1.644853 = 1.645 6) k 2 2-'(0.975) = 1.9599611 = 1.96 C)
k 2 2-'(0.995) = 2.5758345 = 2.576
4 k 2 @-y1 --).a2 14. Ambos incisos tienen la misma respuesta: e-',2= 0.3012 (por la propiedad de pérdida de la memoria). 15. 11 meses. 16. 1 - e-* = 0.28347 (propiedad de pérdida de la memoria). 17. Por comodidad, tomemos como unidad de tiempo el intervalo de 20 minutos. De acuerdo con esta unidad, la distribución del tiempo requerido para atrapar el próximo pez es exponencial con h = 1. a) Si X es la variable aleatoria que denota el tiempo requerido para atrapar cuatro peces, entonces X tiene distribución gama con parámetros h = 1, r = 4. Así, con
ayuda de las tablas de Poisson, hallamos que:
6) Si Yes la variable aleatoria que representa el tiempo requerido para atrapar cinco peces, entonces Ytiene distribución gama con h = 1 y r = 5. En este caso, determinamos que:
Cap. 6. las distribuciones continuas teóricas más importantes
247
c) Si T es la variable aieatoria que representa el tiempo transcurido hasta atrapar el primer pez, entonces T tiene distribución exponencial con parámetro h = 1.Por la propiedad de pérdida de la memoria de la exponenciai, los primeros 40 minutos
en los que no pescó nada son irrelevantes; es lo mismo que si acabara de llegar a pescar. Por tanto: P(T < 1) = 1- e-' = 0.6321 1
19. a) A la exponencial con parámetro h = 2 b) "Bes grados d e libertad. 20. a) 3 horas, 29 minutos y 22 segundos de sueño al día b) 13 horas, 21 minutos y 42 segundos de sueño ai día c) 56.65%. c) 20.483. 21. a) 18.307 6) 23.209 22. a) 0.037565 6) 10 c) 12 d) e) 26.217 f) 23.3367 gj 0.170281 23. a) 1.7530 6) -0.2579 c) -1.3406 d) e) 2.13145. 24. a) 2.7638 6) 2.4851 c) 2.4033 d) 25. a) 1.7081 b) -2.086 c) 4.0321 d) 26. a) 1.8125 b) 2.7638 c) -0.8791 d)
6.3038 2.9467 2.3338. -0.12767 -1.3722
En el siguiente cuadro, anote con lápiz suave sus respuestas. Los procedimientos debe realizarlos en hojas separadas, y no en el libro. (En el apéndice D se dan las respuestas correctas para que las coteje con las suyas.)
iii) 10.-
1. Tres jóvenes están reunidos alegremente en una cantina, jugando a las cartas y tomando cerveza. Acuerdan sacar una moneda cada uno y jugar al "disparejo", para decidir quién paga la siguiente ronda de cervezas. El disparejo consiste en que aquel que saque signo diferente paga las cervezas, pero si salen todas las monedas con signos iguales, se repite el lanzamiento, tantas veces como sea necesario. Determine la probabilidad de que se requieran: i) menos de cuatro lanzamientos a) 0.954 b) 0.964 c) 0.974 ii) más de dos lanzamientos. a) 0.625 b) 0.0625 c) 0.265
d) 0.984 d) 0.0265
2. Como requisito para ser admitido en la maestría en administración en las universidades de Estados Unidos de América, un estudiante presenta el GMAT (General Mana-
248
Parte 11. Principales distribuciones estadísticas
gement Admission Test), tantas veces como sea necesario (sin límite, pero hay que pagar
en cada caso) hasta obtener la puntuación requerida. Si la probabilidad de que cierto estudiante la obtenga en cualquier intento es de 0.8 y las pruebas son independientes, calcule la probabilidad de que obtenga la puntuación requerida en el tercer intento.
3. Suponga que la probabilidad de que un producto o artefacto falle la x-ésima vez que se utiliza está dada por f(x). Entonces se define el índice de falla Z(x) (también llamado rapidez de falla) como:
donde F(x) es la distribución acumulada correspondiente. Demuestre que si X es una variable aleatoria discreta con distribución geométrica g(x, p), su rapidez de falla es constante. ¿Cuál es dicho valor constante? [Indicación: Denote como éxito que el artefacto falle.]
4. Un ingeniero de control de calidad inspecciona una muestra tomada al azar de dos calculadoras manuales, de cada lote que llega de tamaño 18, y acepta el lote si ambas están en buenas condiciones de trabajo; de otra manera, se inspecciona todo el lote y el costo se carga al vendedor. Determine la probabilidad de que un lote se acepte sin inspección adicional, si el número de calculadoras que no están en buenas condiciones de trabajo es de: i ) cuatro ii) ocho iii) 12
a) 0.5948 a) 0.2741 a) 0.1942
b) 0.5959 b) 0.2841 b) 0.2042
c) 0.5969
c) 0.2941 c) 0.0980
d) 0.5979 d) 0.3041 d) 0.2242
5. Aproximadamente 1.4 veces al año se registra en alguna escuela primaria o secundaria de Estados Unidos un incidente de algún niño que dispara armas de fuego contra sus compañeros y10 maestras. Determine el número más probable de niños estadounidenses que dispararán armas de fuego contra sus compañeros y10 maestras durante los próximos cinco años.
6. El delantero paraguayo del equipo de futbol Toluca, José Saturnino Cardozo, realiza un promedio de 10 disparos a la portería contraria en cada partido, de los cuales aproximadamente 10%son goles. Calcule el número más probable de goles que anotará este jugador en el siguiente partido.
7. Los integrantes de una peligrosa banda de asaltantes a mano armada que operan en el Distrito Federal son capturados por las autoridades en promedio 4.5 veces al año y, como es costumbre, a las pocas horas son puestos en libertad. Por cada tres veces que
Cap. 6. Las distribuciones continuas teóricas más importantes
249
son capturados reciben, con la debida cortesía, una llamada de atención (amonestación) verbal. Calcule la probabilidad de que pase más de medio año entre dos amonestaciones sucesivas que reciben [tome 1 mes = 30 días].
8. Según las bases de datos del IMSS para el año 2001, de todos los trabajadores que cotizaban al Seguro Social, la mayoría de ellos ganaba alrededor de dos salarios mínimos al mes, pero el sueldo promedio era de tres salarios mínimos. Además, se estableció una distribución de Erlang. ¿Cuáles son los valores de los parámetros de forma y de escala de dicha distribución?
9. En una caja hay 15 piezas, de las cuales 10 están pintadas. Un montador extrae al azar tres piezas. Halle la probabilidad de que las piezas escogidas resulten pintadas.
10. En un taller trabajan seis hombres y cuatro mujeres. Según el número de ficha se han escogido al azar siete personas de este grupo. Calcule la probabilidad de que entre las personas seleccionadas resulten tres mujeres.
En el siguiente cuadro, anote con lápiz suave los incisos que considere correctos. Los procedimientos puede efectuarlos en hojas de papel, no en el libro.
1. Suponiendo que 20 personas acuden a una fiesta y cada una saluda con un apretón de mano a cada una de las demás, ¿cuántos apretones de mano habrá en total? a) 190
b) 380
c) 200
d) 220
2. Al conjunto de todos los resultados posibles de un experimento aleatorio se le llama: a) muestra b) evento
250
Parte 11. Principales distribuciones estadísticas
c) espacio muestra1 d) desviación estándar. 3. En un conjunto de datos u observaciones, al valor que tiene la mayor frecuencia relativa se le llama:
a) b) c) d)
mediana moda varianza desviación típica.
4. Suponiendo que una moneda ha sido lanzada al aire nueve veces seguidas y por casualidad han salido las nueve veces con el signo de águila hacia arriba, entonces la probabilidad de que en el décimo lanzamiento salga el signo de sol hacia arriba es:
1 c) menor que d) 1 2 2 5. El juego de disparejo consiste en que tres personas lanzan una moneda al aire, y quien obtiene resultado diferente gana. En caso de salir los tres iguales, se declara empate y se repite el lanzamiento. Es fácil ver que la probabilidad de que ocurra empate en cualquier lanzamiento es:
a) 1
1 b) mayor que -
6. Una variable aleatoria se llama discreta cuando:
a) b) c) d)
es muy callada y circunspecta trata de cosas que se pueden medir trata de cosas que se pueden contar nunca avisa cuándo va a aparecer.
7. ¿Cuál de las siguientes variables aleatorias es continua? a) El número de tacos que vende un taquero cada día b) La cantidad de mujeres que hay en un salón de clases C) El número de accidentes que ocurren en un crucero cada año d) El tiempo que hace un estudiante en ir desde su casa hasta la escuela cada dia. 8. En cualquier distribución de probabilidad se denota por la letra griega p o también por el símbolo E ( X ) a:
a) la media b) la vananza c) la desviación típica
d) el grado de verosimilitud. 9. La gráfica de la llamada dismbución normal tiene forma de: a) campana
b) círculo
c) huevo
d) escalera
Cap. 6. Las distribuciones continuas teóricas más importantes
25 1
10. ¿Cuál de los siguientes parámetros es una medida de la dispersión relativa de los datos con respecto a su valor promedio?
a) La media b) La moda C) La media ponderada d) La varianza. 11. Si X es una variable aleatona, icuál de los siguientes parámetros es el único que no se mide en las mismas unidades en las que se mide X?
a) b) c) d)
La desviación promedio de la mediana La desviación promedio de la moda El rango semiintercuartil La vananza.
12. ¿Cuál de los siguientes nombres de personas no está asociado con la estadística ni con la teoría de las probabilidades?
a) b) C) d)
Thomas Bayes Jacob Bernoulli Abraham de Moivre Ruslam Ponomariov.
13. La distribución ji-cuadrada con v grados de libertad es un caso particular de:
a) la distribución normal b) la distribución exponencial c) la distribución gama
d) la distribución t de Student con v grados de libertad.
14. ¿Quién de las siguientes personas creó la distribución t de Student? a) b) c) d)
B O ~Gnedenko S R. A. Fisher W. S. Gosset Un estudiante del Trinity College de Cambridge.
15. En la distribución ji-cuadrada con v grados de libertad, la media es igual a:
16. La distribución del tiempo transcundo hasta la ocurrencia del k-ésimo suceso de Poisson es:
a) b) C) d)
binomial negativa b* (x, k, P) hipergeometrica h(x, N, n, k) normal N(k, oZ) de Erlang.
252
Parte 11. Principales distribuciones estadísticas
17. La ley estadística que establece que, bajo ciertas condiciones, la dismbución de una variable que es igual a la suma de un número muy grande de variables aleatorias (diferentes o iguales) tiende siempre a una distribución normal estándar, es: a) b) C) d)
la Ley Débil de los Grandes Números la Ley Fuerte de los Grandes Números el Teorema Central del Límite el Teorema de De Moivre-Laplace.
18. La ley estadística que proporciona una cota inferior (o valor mfnimo) para la probabilidad de que una variable aleatoria cualquiera asuma un valor en un intervalo dentro de k desviaciones estándar alrededor de la media, es:
a) b) C) d)
la Ley de los Grandes Números la Ley de los Números Pequeños el Teorema de Chebishev la Ley del talión.
19. Si un evento tiene una probabilidad muy pequeña de ocurrir en un intervalo de tiempo relativamente breve y además ocurre de manera inesperada, entonces se trata de un evento relacionado con la distribución: a) b) c) d)
binomial binomial negativa geométrica de Poisson.
20. La distribución hipergeométrica h(x, N, n, k) tiende como límite a la distribución binomial dada por t (x, n, p), con p = klN, siempre que: a) b) c) d)
n sea grande y p sea muy pequeña N sea muy grande N sea mucho mayor que k N sea mucho mayor que n.
21. Cuando un parámetro poblacional cualquiera 8 se trata de estimar usando un estadístico 8, de tal forma que el valor esperado (o promedio) de dicho estimador es precisamente el valor de 8, entonces se dice que se trata de un estimador: a) eficiente
b) consistente
c) ponderado
d) insesgado
22. Un jugador de basquetbol sabe por experiencia que falla aproximadamente 25 % de los tiros libres que lanza a la canasta desde cierto punto. Si se pone a lanzar una serie de tiros libres, la probabilidad de que el octavo tiro sea el quinto que encesta es igual a:
23. El cociente de inteligencia de 600 solicitantes para ingresar a una universidad tiene aproximadamente distribución normal con media 115 y desviación estándar de 12. Si la institución exige un coeficiente mínimo de 95, ¿cuántos estudiantes serán rechaza-
Cap. 6. Las distribuciones continuas teóricas más importantes
25 3
dos con base en esto, independientemente de otras calificaciones? [Redondee la respuesta al entero más cercano.]
24. En una estación de vehículos colectivos del tipo combi, el cupo de las unidades es de 10 pasajeros, aparte del chofer. El reglamento de la Secretaría de Vialidad estipula que dichos vehículos deben salir de la base con un lapso no mayor a 10 minutos entre dos salidas consecutivas. Empero, los conductores hacen caso omiso del reglamento y en su lugar proceden como sigue: esperan tranquilamente hasta que la unidad se llene, y s610 entonces emprenden la salida. Si los pasajeros llegan a abordar el vehículo como sucesos de Poisson, a un ritmo promedio de siete pasajeros cada 10 minutos, ¿qué porcentaje de las veces estarán los conductores de combis violando el reglamento? a ) Menos de 50 %
b) Más de 50%, pero menos de 60 % de las veces C ) Más de 60 % de las veces, pero menos de 80 %
d) Más de 80%. 25. En una encuesta realizada entre 4372 familias elegidas al azar, se preguntó cuál era la edad de la cabeza de la familia (es decir, la persona que aportaba el ingreso principal), con los siguientes resultados:
Ednd de ?acabeza de familia (años) 'enos de 2
1 I
Número -,22
7
Según estos datos, la mediana para la edad de una cabeza de familia es: a ) Más de 35, pero menos de 38 años
b) Más de 38, pero menos de 40 C ) Más de 40, pero menos de 45
d) Más de 45, pero menos de 50
muestrales
La llamada Desigualdad (o Teorema) de Chebishev -o Chdbyshev- establece que para cualquier variable aleatoria (discreta o continua) X con media p y desviación típica o, y para cualquier número real k > 1, se verifica que:
Esta desigualdad proporciona una garantía mínima acerca de la probabilidad de que X asuma un valor en un intervalo centrado en la media, y a k o unidades a sendos lados de ésta. De hecho, la desigualdad es válida para cualquier k 2 0, pero para valores menores o iguales a uno lo único que diría la desigualdad es que ese valor de probabilidad no puede ser negativo, lo cual se sabía de antemano. La figura 7.1 ilustra de manera elocuente el enunciado de la desigualdad de Chebishev Pafnuti Lvóvich Chebishev (1821-1894) fue un célebre estadístico y matemático ruso. Aparte de esta conocida desigualdad, propuso varios teoremas interesantes sobre estadística matemática, los cuales se tratan en libros más avanzados. Sin embargo, esta desigualdad es quizá la más conocida de todas sus aportaciones en estadística y es una de las más útiles también. Un uso directo de esta desigualdad se aplica en el cálculo de intervalos de confianza para una media. Ejemplo 7.1. Aproximadamente uno de cada 500 neumáticos (llantas) para automóvil de cierta marca tienen defectos serios de fabricación que podrían provocar un accidente. Si se tienen almacenados 10 000 neumáticos de esa marca que se van a distribuir en
Figura 7.1. Teorema de Chebishev.
todo el país, con la desigualdad de Chebishev hallar un intervalo en el cual se tenga una probabilidad de por lo menos 0.80 del número de neumáticos defectuosos entre esos 10000. Solución: Como la probabilidad de hallar un neumático defectuoso es muy pequeña y el número de neumáticos es muy grande, aproximamos lo que sería una binomial con n = 10000,p = 1/500 (se toma como kxito que un neumático esté defectuoso) por medio de una Poisson con p = n p = 20 = o2(recuérdese que la Poisson aproxima a la binomial cuando n es grande y p es pequeña). Por lo tanto, tendremos una desviación estándar igual a o =
6= 2 6
. Luego entonces, de acuerdo con la desigualdad de Chebishev:
Así, el intervalo buscado va desde p - ko hasta p + ko; es decir, el intervalo es:
0,equivalentemente:
Este resultado lo interpretamos desde el punto de vista estadístico: Hay pQr In menos 80 % de probabilidades (o de confianza) de que entre 10 y 30 llantas (de esas 10 000) tengan defectos.
Cap. 7. Teorema Central del Límite y distribuciones muestrales
259
Se tuvo suerte de que el intervalo quedó comprendido entre dos números enteros, mas esto no es indispensable. Igual habría sido válido si el intervalo hubiera sido, por ejemplo, desde 9.43 hasta 31.15. Lo que se calculó con este ejemplo fue un intervalo d e conjíanza de 80% de un parámetro, aunque en este caso se trataba de un parámetro conocido (p = 20). Hay procedimientos estadísticos para determinar intervalos de confianza de 80% o en general de 100(1- a ) %, donde O < a e 1, para parámetros poblacionales desconocidos (por ejemplo, la media, la desviación típica, la varianza, una proporción, etc.). De eso tratará precisamente el capítulo 8.
Dos notables científicos franceses d e los siglos XVII ~ X V I I IAbraham : de Moivre (1667-1754) y Pierre Simon Laplace (1749-182i), son considerados los padres de la estadística moderna y de la teoría moderna d e las probabilidades. Ambos descubrieron en forma independiente la distribución normal y además exploraron sus implicaciones estadísticas. No existe evidencia histórica de que Laplace hubiese conocido o estudiado la obra de De Moivre, aunque d e hecho transcurrieron casi 100 años entre las investigaciones de ambos. En 1718, fecha en la que ni siquiera los trabajos de Poisson habían visto la luz, Abraham de Moivre demostró que, para una variable aleatoria discreta X con distribución binomial b(x, n, 1/2), la forma límite de la distribución probabilística 1
X-ln para la variable definida por Z =-
'Jñ 2
, cuando n tiende a infinito, es preci-
samente la distribución normal estándar. Es posible que en 1812, Laplace hubiese reconocido la importancia y trascendencia de tal proposición desde la perspectiva de la estadística teórica, y así este notable matemático francés logró demostrar que para cualquier parámetrop sigue siendo válido ese resultado: r 1
!
Teorema de De Moivre-Laplace: Si Xes una variable aleatoria binomial con media p.= np y varianza oZ= npq, entonces la forma d e límite de la distribución de:
X- np
z=JZGT
--x- P -
o
es precisamente la distribución normal estándar. De hecho, en el capítulo anterior tuvimos la oportunidad de emplear este teorema de manera informal, cuando examinamos la aproximación de la binomial con la curva normal, usando corrección por continuidad. Sabemos que cuandop está próximo al valor 1/2, el histograma de la distribución binomial es más o menos acampanado, y que cuandop = 1/2, es perfectamente simétrico y acampana-
260
Parte 111. Inferencia estadística
do. Laplace reconoció que el sesgo que se produce en el histograma de la distribución binomial cuandop se aleja de 1/2 puede compensarse con grandes valores de n , para que la aproximación siga siendo válida. En la práctica se considera que s i p 5 1/2 y n p > 5, o bienp > l/z y nq > 5, la aproximación es bastante buena. Sin embargo, para valores muy grandes de n y valores d e p muy próximos a O o a 1, resulta mejor usar la aproximación de Poisson con parámetro 3L = np.
La Ley de los Grandes Números es el más antiguo teorema estadístico sobre límites que se conoce. Esta ley fue descubierta y demostrada por Jacob Bernoulli (1654-1705) en su libro Ars Conjectandi (El arte de adivinar), pero el término Ley de los Grandes Números fue introducido por Poisson en 1837. Para Bernoulli fue no sólo una ley estadística, sino además una fuente de aparentes paradojas. Bernoulli realizó un experimento imaginario consistente en lanzar una moneda al aire n veces y supuso que había caído con el signo de águila hacia arriba k veces. De acuerdo con su razonamiento, si la moneda está bien hecha, entonces la frecuencia relativa k/n con que la moneda cae con el signo de águila hacia arriba debe tender necesariamente a l/2, en el sentido de que la diferencia 1 k/n - 1/2 1 puede hacerse menor que cualquier número positivo E, no importa qué tan pequeño, con probabilidad cada vez más cercana a la unidad. Hay personas (especialmente apostadores) que a veces malinterpretan esta ley creyendo que lo que dice es que, a la larga, la diferencia entre el número de águilas y el número de soles puede hacerse tan pequeña como se quiera. Esto es inexacto, por no decir otra cosa. A decir verdad, ni esta ley ni ninguna otra pueden regular la diferencia cuantitativa entre el número de águilas y el número de soles que van a salir a largo plazo. Lo que dice esta ley es que el cociente del número de águilas entre el número de lanzamientos tiende a 1/2 con probabilidad cada vez más cercana a 1, lo que equivale a decir que el cociente del número de águilas entre el número de soles que van a salir tiende a 1 cuando n se hace tender a infinito. Si se quiere hablar de diferencia, entonces sólo se puede argumentar que la diferencia entre el logaritmo del número de veces que sale águila menos el logaritmo del número de veces que sale sol se aproxima a cero cuando n tiende a infinito. Esto explica la ocurrencia de rachas (apariciones consecutivas del mismo signo dos o más veces), las cuales son consecuencia natural de la propiedad de pérdida de la memoria en la distribución geométrica. Si fuese verdad que la diferencia del número de águilas menos el número de soles se pudiese hacer tender a cero a la larga, ello iría en contradicción con la propiedad de pérdida de la memoria de la distribución geométrica, y la aparición de largas rachas de un mismo signo sería una paradoja inexplicable. Aunque Jacob Bernoulli formuló y demostró correctamente la Ley de los Grandes Números, hubo un detalle, al parecer paradójico, que siempre le causó incomodidad y que sólo pudo ser resuelto y explicado muchos años después por Abraham de Moivre. Ciertamente, Bernoulli hubiera tenido que anticiparse mucho a su época para poder explicar satisfactoriamente esta aparente paradoja que le incomodaba: si de acuerdo con la Ley de los Grandes Números, el cociente del número de águilas entre el número de soles tiende a 1cuando n tiende a infinito,
Cap. 7. Teorema Central del Límite y distribuciones muestrales
26 1
por otra parte es claro que la probabilidad d e que el número d e águilas que salen sea exactamente igual al número de soles tiende a O. Por ejemplo, la probabilidad de obtener exactamente cinco águilas y cinco soles en 10 volados está dada por b(5, 10, 0.5), lo cual tiene un valor de 0.2461, pero la probabilidad de sacar exactamente 50 águilas y 50 soles en 100 lanzamientos es b(50,100,0.5) = 0.0796, y de sacar exactamente 500 águilas en 1000 lanzamientos es b(500, 1000, 0.5) = 0.025225. En realidad, se puede demostrar que:
Lo que a Bernoulli le pareció paradójico fue que, por un lado, la probabilidad de que el número de águilas sea aproximadamente igual al número de soles tiende a 1, pero que, por otro lado, la probabilidad de que el número de águilas sea exactamente igual al número d e soles tiende a O. Es como decir que una cosa A se parece cada vez más y más a otra cosa B, pero que, al mismo tiempo, y cuanto más se van pareciendo, es cada vez más improbable que A sea exactamente igual a B. Es posible que Abraham d e Moivre haya enunciado y probado su famoso teorema de distribuciones límite al tratar de explicar esta aparente paradoja. En términos sencillos, lo que establece la Ley d e los Grandes Números de Bernoulli (actualmente llamada Ley Débil de los Grandes Números, para diferenciarla de otra ley más general y compleja llamada Ley Fuerte d e los Grandes Números, enunciada y demostrada por el ruso A. Kolmogórov) es que lafrecuencia
relativa de un evento converge siempre a su probabilidad teórica. ¿Pero en qué sentido se usa el término converger en probabilidad y estadística?Se dice que una sucesión arbitraria de variables aleatoriasX,,X,, .. . converge (estocásticamente) a otra variable aleatoria X, si la probabilidad de que I n - XI se pueda hacer menor que cualquier número E > 0, por pequeño que este sea, tiende a 1cuando n tiende a infinito. Aunque parezca paradójico, es totalmente válido que una sucesión d e variables aleatorias X,, X,, . . . pueda tender a 0, aun cuando su media aritmética - 1 X = - (X, +X, + ... +Xn) no tienda a O.
n
7.4.ELBOREMA CENTRAL DEL LÍMm Y LA DI!XRIBUCIÓN
DE MEDIAS
El Teorema Central del Límite es uno de los teoremas más importantes y trascendentes de toda la teoría estadística, pero al mismo tiempo es uno de los teoremas más complejos y cuya demostración final requirió de un sofisticado aparato matemático de alto nivel. La versión definitiva d e ese teorema fue enunciada y demostrada en 1901 por el notable matemático y estadístico ruso A. M. Lyapunov (1857-1918). En 1929, se reconoció universalmente que, de todos los teoremas d e límite que hay en estadística teórica, este teorema era precisamente el más importante, o el central, así que George Pólya lo bautizó como Teorema
Cap. 7. Teorema Central del Límite y distribuciones muestrales
26 1
por otra parte es claro que la probabilidad d e que el número de águilas que salen sea exactamente igual al número de soles tiende a O. Por ejemplo, la probabilidad de obtener exactamente cinco águilas y cinco soles en 10 volados está dada por b(5, 10, OS), lo cual tiene un valor de 0.2461, pero la probabilidad de sacar exactamente 50 águilas y 50 soles en 100 lanzamientos es b(50,100,0.5) = 0.0796, y de sacar exactamente 500 águilas en 1000 lanzamientos es b(500, 1000, 0.5) = 0.025225. En realidad, se puede demostrar que:
Lo que a Bernoulli le pareció paradójico fue que, por un lado, la probabilidad de que el número de águilas sea aproximadamente igual al número d e soles tiende a 1, pero que, por otro lado, la probabilidad de que el número de águilas sea exactamente igual al número d e soles tiende a O. Es como decir que una cosa A se parece cada vez más y más a otra cosa B, pero que, al mismo tiempo, y cuanto más se van pareciendo, es cada vez más improbable que A sea exactamente igual a B. Es posible que Abraham de Moivre haya enunciado y probado su farnoso teorema de distribuciones límite al tratar de explicar esta aparente paradoja. En términos sencillos, lo que establece la Ley de los Grandes Números de Bernoulli (actualmente llamada Ley Dkbil de los Grandes Números, para diferenciarla de otra ley más general y compleja llamada Ley Fuerte d e los Grandes Números, enunciada y demostrada por el ruso A. Kolmogórov) es que lafrecuencia
relativa de un evento converge siempre a su probabilidad teórica. ¿Pero en qué sentido se usa el término converger en probabilidad y estadística?Se dice que una sucesión arbitraria de variables aleatoriasX,,X,, . . . converge
(estocásticamente) a otra variable aleatoria X, si la probabilidad d e que (xn - XI se pueda hacer menor que cualquier número E > 0, por pequeño que este sea, tiende a 1cuando n tiende a infinito. Aunque parezca paradójico, es totalmente válido que una sucesión d e variables aleatorias X,,X,, . . . pueda tender a 0, aun cuando su media aritmética 1 (X, +X, + +Xn) no tienda a O.
X= n
El Teorema Central del Límite es uno de los teoremas más importantes y trascendentes de toda la teoría estadística, pero al mismo tiempo es uno de los teoremas más complejos y cuya demostración final requirió de un sofisticado aparato matemático de alto nivel. La versión definitiva de ese teorema fue enunciada y demostrada en 1901 por el notable matemático y estadístico ruso A. M. Lyapunov (1857-1918). En 1929, se reconoció universalmente que, de todos los teoremas d e límite que hay en estadística teórica, este teorema era precisamente el más importante, o el central, así que George Pólya lo bautizó como Teorema
262
Parte 111. Inferencia estadística
Central o Teorema Central del Límite. Hay que mencionar que lo que es central es el teorema, no el límite (¿hay límites centrales?),por lo que es una inadecuada traducción referirse a este teorema como el "Teorema del Límite Central". En esencia, el Teorema Central del Límite establece que bajo ciertas condiciones, una variable aleatoria que sea igual a la suma d e un gran número d e variables aleatorias diferentes tenderá a seguir una distribución normal. Pongamos como ejemplo el caso del consumo de energía eléctrica por cada familia en alguna ciudad o en una zona de una gran ciudad. Es evidente que la mayoría d e las familias consumen electricidad en forma relativamente desordenada y aleatoria. Así, para cada familia k, puede haber una variable aleatoriax, que rija el consumo particular de energía eléctrica, con su respectiva distribución de probabilidad y sus respectivos parámetros (media y varianza). Distintas familias pueden consumir energía eléctrica d e modo muy diferente y con distintas distribuciones de probabilidad. Sin embargo, gracias al Teorema Central del Límite, se puede asegurar que la cantidad total de energía eléctrica consumida en esa ciudad o en esa zona de la ciudad, producto de la suma total d e las contribuciones individuales de numerosas familias, puede aproximarse mediante una distribución normal. De manera análoga, los pesos y tamaños de seres vivos, incluyendo a los humanos, así como las distintas concentraciones de azúcar o vitaminas en frutas, y en general casi todo lo que pertenece a la biología, son el reflejo macroscópico de un trabajo realizado por un gran número d e células diminutas, en donde cada una realiza su pequeña contribución. Por tanto, es sólo una consecuencia del Teorema Central del Límite que los fenómenos biológicos estén regidos por la distribución normal. Una d e las características d e los errores d e medición, cuando una cantidad es la suma d e un gran número contribuciones pequeñas, consiste en que la contribución individual de cada término es despreciable, y la probabilidad d e que cualquier error en una medición individual pueda afectar a la suma resultante es prácticamente cero. La forma más fuerte y general del Teorema Central del Límite puede verse en libros avanzados o tratados de estadística matemática superior. Nosotros enunciaremos una versión muy simplificada, que daremos sin prueba: Teorema Centrai del Límite. Sea Y= X,+X, +X,+ +Xn,donde X,, X,, ... ,Xn son variables aleatorias independientes (cuyas distribuciones de probabili-
dad pueden ser arbitrarias o incluso desconocidas). Supóngase que los valores esperados y las varianzas de tales variables aleatorias X, son, respectivamente, E(X,) = p,, Var(X,) = o:. Entonces, bajo ciertas condiciones generales,' la variable aleatoria:
'Dichas condiciones generales establecen d e alguna manera que los términos X,, tomados e n forma individual, contribuyen cada uno con una cantidad despreciable a la varianza de la suma de todos los términos (cuando éstos son muchos) y hay entonces una probabilidad muy pequeña (virtualmente cero) de que un solo término pueda realizar una contribución significativa a la suma.
tiene una distribución de probabilidadfn(z) que se aproxima a la distribución normal estándar cuando n tiende a infinito; o en términos más específicos, si F, es la distribución acumulada de probabilidad de la variable aleatoria Zn, entonces:
1
donde @(z) es la distribución normal estándar acumulativa.
1
En una formulación más restringida, el Teorema Central del Límite establece que si las variables aleatorias X,, X,, . .. ,X, están igualmente distribuidas y tienen, por consiguiente, una misma media p y una misma varianza 02,entonces la variable aleatoria definida por:
tiene una distribución de probabilidad que se aproxima a la distribución normal Fn(z) estándar, en el sentido que lím - . n-tm @(z) Si hacemos:
entonces:
o
donde 2 es la media aritmética muestral, mientras que -- oxes el error es-
Jn
tándar de la media. Por lo tanto, esta forma restringida del Teorema Central del Límite establece que si X,, X,, . . . ,X, son n variables aleatorias independientes igualmente distribuidas, cada una de ellas con media 11 . y. varianza 02,enton-
X-p o?i
ces la variable aleatoria 2, = -tiene una distribución de probabilidad con
264
Parte 111. Inferencia estadística
tendencia asintótica a la distribución normal estándar conforme n 0-=-
0
+ co, donde
6'
Otras variantes ligeramente distintas y más sofisticadas del Teorema Central del Límite fueron enunciadas y probadas en la década de los veintes, en el siglo pasado (específicamente entre 1922 y 1929), por Aleksander Y Khinchin, J. W Lindeberg y i? Lévy. La primera versión que se propuso sobre el Teorema Central del Límite (cuando aún no se llamaba así) fue enunciada y probada por Laplace en 1812. Laplace se dio cuenta de que si una población se distribuye normalmente con media p y varianza 02,entonces la distribución muestral de medias de tamaño n , extraídas al azar de dicha población, sigue una distribución normal con media p, = p y desviación estándar
(3
= -. Por ejemplo, para una población normal con media 3 y
Jn
varianza 1, la distribución muestral de las medias de muestras aleatorias de tamaño n = 10 es también normal, con media 3 y desviación estándar 1/ 410 . La figura 7.2 ilustra la curva de distribución de la población y la distribución muestral de las X para n = 10. Las aportaciones de Lyapunov, Khinchin, Lindeberg, Levy y otros famosos estadísticos de la primera mitad del siglo xx consistieron en dar condiciones mucho más generales y fuertes para el Teorema Central del Límite. Entre otras cosas, se halló que la hipótesis de que la población se distribuía normalmente era innecesaria. En 1929, Khinchin probó que ni siquiera hace falta suponer que la varianza sea finita.
i 1
1.2 --
I
1--
II
i i
i
I
de tamaño n = 10 0.8 --
i
ii 1
r
I
Distribución de la I
I
Figura 7.2
Cap. 7.Teorema Central del Límite y distribuciones muestrales
265
Como la desviación estándar d e la distribución muestra1 de medias, es decir, C T mide ~ el grado d e concentración de las X muestrales con respecto a p, resulta, por tanto, que CTE es la magnitud indicada y más apropiada para medir q u é Por eso se le ha dado a ox tan precisa es la estimación d e p por medio d e el nombre d e error estándar de la media (o error típico de la media). Obsérvese
x.
&
q u e R tiene más precisión al estimar p d e lo q u e tendría una sola observación, y si quisiéramos duplicar el tamaño de la muestra, tomando ahora muestras d e tamaño 2n, veríamos que la precisión con q u e X estima al parámetro p aumenta tan s61o de perior a 40 %.
& a&,
lo cual implica un incremento d e precisión apenas su-
Ejemplo 7.2. Varios miles de aspirantes presentaron examen de admisión para ingresar a una gran universidad. Denotemos por X a la variable aleatona que representa la calificación de un estudiante extraído ai azar. Se desconoce cuál pudiera ser la distribución de X,pero por información histórica de la que se dispone, se presume que X tiene una media de 68.3 y una desviación estándar de 8.4. Si se toma una muestra aieatoria de n = 36 exámenes para ser calificados, ¿cuál es la probabilidad de que el promedio de calificaciones de esos 36 exámenes sea inferior a 70? Solución:El desconocimiento de la forma como se distribuyen las calificaciones es irrelevante. El error estándar de la media es:
Al tipificar 70, se obtiene:
Por tanto:
P(X < 70) = P(Z < 1.2143) Usando Excel hallamos: =DISTR.NORM.ESTAND(1.2143) = 0.88768
Ejemplo 7.3. Supóngase que se extraen muestras aieatorias de tamaño n = 15 de cierta población que está distribuida mediante una ley matemática que no es normal, y en 3 donde se halla que P = 0 , = ~ . Encontrar ~ la probabilidad de que X no sea menor que
5
0.03 ni mayor que 0.15. Solución:Primeramente se calcula el error estándar de la media:
266
Parte 111. Inferencia estadística Ahora tipificamos los extremos del intervalo:
Luego:
Con ayuda de tablas de la normal estándar acumulada, hallamos:
Con Excel:
Ejemplo 7.4. El número de semillas por limón, en cierta variedad de limones agrios de Veracruz, sigue una distribución de Poisson con parámetro h = 5. Para una muestra de n = 125 limones de dicha variedad, determinar la probabilidad de que el número promedio de semillas por limón sea menor que 5.5. Solucidn: El error estándar de la media es:
Por consiguiente:
Para ilustrar la forma en que una distribución muestral de medias tomada de cualquier población adquiere rápidamente la tendencia a una campana normal 0 con media p, y desviación típica, en la figura 7.3 se ilustran tres casos dis-
Jn
tintos: en el primer caso (inciso a),la población sigue una distribución rectangular (o uniforme continua); en el segundo caso (inciso b), la población se distribuye en forma extraña; y en el último caso (inciso c), tenemos una población que se distribuye a manera de una J invertida. Son poblaciones que se distribuyen de modos muy diferentes a una normal, y sin embargo, en los tres casos se observa la tendencia rápida a una normal en la distribución muestral de medias.
En situaciones prácticas cotidianas d e la estadística es más común trabajar con proporciones que con medias. Si usted ha observado, casi siempre los re-
,
Distribuciones muestrales d e X para muestras de tamaño n
Distribución d e X (población)
,A
*n
Distribuciones muestrales d e X para muestras de tamaño n
I
Distribución d e X (población)
P;
PF
b)
Distribuciones muestrales d e X para muestras de tamaño n Distribución d e X (población)
Figura 7.3. Apreciación del Teorema Central del Límite.
cL,I
r
268
Parte 111. Inferencia estadística
sultados de encuestas tienden a mostrar algún porcentaje de la población que opina de cierta manera o que hace o deja de hacer algo. Por ejemplo, qué porcentaje de los automovilistas usan consistentemente el cinturón de seguridad, qué porcentaje d e los compradores de supermercados prefieren adquirir marcas reconocidas en lugar de las marcas libres del mismo supermercado o qué porcentaje d e la gente está a favor o en contra de alguna propuesta política. Se ha hecho costumbre que, a falta de un método más eficaz para medir el rating de una empresa televisiva, algunos locutores y directores de noticiarios inviten al teleauditorio a llamar por teléfono a un número gratuito para contestar cualquier pregunta que se les formule. Al final se señala cómo estuvieron los porcentajes de cada alternativa en las respuestas del público. Un porcentaje en ese sentido no es otra cosa que una proporción o fracción de los encuestados que opinan de tal o cuál manera. Por ejemplo, un porcentaje de 75 % se representa mediante la proporciónp = 0.75, o un porcentaje de 5% se escribe comop = 0.05. En la fórmula de aproximación del Teorema de De Moivre-Laplace:
X
puede resultar conveniente trabajar con la proporción de éxitos P =-
n
de una
muestra de tamaño n, en vez de trabajar con x, que es el número de éxitos en la muestra. Si se dividen ambos miembros de la ecuación anterior entre n, se llega a la siguiente expresión:
la cual se puede expresar también así:
Por tanto, de acuerdo con el mismo Teorema de De Moivre-Laplace, la distribución muestral de una proporción tiende a la distribución normal estándar cuando n se hace más y más grande. La media de la distribución muestral de una proporción es p, = p , y la desviación estándar (llamada también error estándar de la proporción) está dada por:
Obsérvese que el estadísticop es un estimador insesgado d e p , porque su valor esperado coincide con el valor dep.
Cap. 7. Teorema Central del Límite y distribuciones muestrales
269
Ejemplo 7.5. En la dirección escolar de una universidad se halló que 75% de los estudiantes de nuevo ingreso que aprobaron el primer examen parcial de matemáticas terminaron por aprobar el curso correspondiente. Si este semestre hay 340 alumnos de nuevo ingreso que aprobaron el primer examen parcial de matemáticas, ¿cuál es la probabilidad de que por lo menos 80 % de ellos terminen el curso respectivo con calificación aprobatoria? Solución: El error estándar de la proporción es:
Luego:
En consecuencia:
Con Excel la sintaxis es:
Ejemplo 7.6. Se considera que aproximadamente 8 % de las personas que reciben cierto tipo de vacuna presentan una reacción alérgica perniciosa. Si la Secretaría de Salud va a vacunar a 400 individuos, calcule la probabilidad de que cuando mucho 10 % presenten tales reacciones. Solución: De nuevo, empezamos por calcular el error estándar de la proporción:
De aquí que:
Por consiguiente:
Finalmente, con ayuda de Excel se halla:
=DISTR.NORM.ESTAND(l.4744)= 0.9298 Esto significa que se puede tener una confianza de casi 93 % de decir lo correcto, si se asegura que no habrá más de 10 % de los vacunados con alguna reacción alérgica.
7.6. EJEMPLOS DIVERSOS Finalizaremos esta lección con algunos ejemplos interesantes d e los temas q u e se expusieron e n la misma, y e n la sección siguiente propondremos los ejercicios d e autoevaluación.
Ejemplo 7.7. Suponga que el tiempo requerido para atender a un cliente en la caja 1 rápida de un supermercado sigue una distribución exponencial con parámetro 1 = -
3
(en minutos). Haga uso del Teorema Central del Límite para calcular la probabilidad de que el tiempo total requerido para atender una muestra aleatoria de n = 16 clientes en la caja rápida sea mayor que 1hora. Solución: Si X = Xl + X, + + Xn es una suma de n variables aleatorias, tal que como en este caso, entonces todas las X, tienen la misma media p y la misma varianza 02, se puede escribir
En este caso particular, se trata de 16 variables aleatorias X, , X, , ... ,X,,, cada una 1
de las cuales tiene distribución exponencial con h =
3
(es decir, p = 3 minutos y o = 3
minutos para cada una de las 16 variables). Si definimos X = Xl + X, la media de X es
+ + X,,,
entonces
E(X) = ZE(X,) = 16 x 3 = 48 minutos y la varianza de X es:
Var (X) = x ~ a(X,) r = 16 x 9 = 144 Según el Teorema Central del Límite, X sigue una distribución normal estándar; luego:
de las tablas de la distribución normal estándar acumulada. O con Excel, la sintaxis es la siguiente:
Ejemplo 7.8. El tiempo (en segundos) que cierto ajedrecista tarda en ponderar un movimiento cualquiera durante una partida relámpago de ajedrez (a ritmo de 5 minutos para todo el juego) sigue una distribución ji-cuadrada con cinco grados de libertad. Use el Teorema Central del Límite para estimar la probabilidad de que en una partida relámpago
Cap. 7. Teorema Central del Límite y distribuciones muestrales
27 1
(blitz) ese ajedrecista no logre realizar 50 movimientos sin rebasar el límite de tiempo reglamentario de cinco minutos. Solución: Sea X =X,+ ... + X, la variable aleatoria que expresa el tiempo requerido por el ajedrecista para efectuar 50 movimientos, donde X, es el tiempo invertido en la i-ésima jugada (i = 1, . . . , 50). CadaX, tiene una distribución ji-cuadrada con 5 grados de libertad (tiempo medido en segundos). Por tanto, para toda i se tiene E ( 4 ) = 5, Var(Xf) = 10. De acuerdo con el Teorema Central del Límite, la variable aieatoria
tiende a la distribución normal estándar. Además, el tiempo límite reglamentario de reflexión termina a los 5 minutos (300 segundos) a cargo de cada jugador. En consecuencia:
Carl Friedrich Causs ( 1 777- 1855). Es considerado uno de los cinco matemáticos más distinguidos de todos los tiempos. Aunque sus más valiosas aportaciones fueron en la teoría de números. también hizo contribuciones importantes en muchas otras ramas de las matemáticas. En 1823 y 1828, aplicó los resultados estadísticos de Laplace al investigar la distribución de los errores en las observaciones astronómicas, y también contribuyó al desarrollo de la teoría de regresión por el método de los mínimos cuadrados, aunque la palabra "regresión" fue acuñada mucho después por Francis Calton.
Sirnéon Denis Poisson (1 78 1 - 1840). Publicó casi 400 trabajos importantes, entre ellos su notable obra Recherchés sur la probabilité des jugements (183 7), en donde por primera vez apareció la distribución que hoy lleva su nombre.
Llegó el momento de poner a prueba el aprendizaje del capítulo con un autoexamen de 10 problemas fáciles. Como siempre, use tablas, calculadora y Excel si lo desea, aunque todos estos ejercicios se pueden resolver sólo con calculadora y tablas. Usted dispone de sólo dos horas cuando mucho para resolver los 10 ejercicios. Recuerde que no se vale consultar notas ni apuntes mientras resuelve el examen, para que ello no enturbie su verdadero diagnóstico del aprendizaje. Para autocalificarse, sólo tome en cuenta las respuestas numéricas finales. Si coinciden las respuestas es acierto; si no, es falla. No hay medios puntos por procedimiento, ya que por lógica si la respuesta está equivocada es porque el procedimiento está equivocado, aunque puede haber ligeras diferenciasentre su respuesta y la que damos, debido a los distintos grados de precisión numérica que se usen en las operaciones aritméticas; en tales casos regístrese un acierto. Si obtiene menos de siete aciertos, hay que dar marcha atrás y volver a estudiar con más detenimiento toda la lección antes de probar su suerte de nuevo con el autoexarnen, en otra oportunidad. Siete aciertos es regular, ocho es bueno, nueve muy bueno y 10 excelente. Suerte, y recuerde que el esfuerzo es el secreto del éxito. 1. Una variable aleatoria X tiene media igual a 12 y varianza igual a 9. Haciendo uso de
la desigualdad de Chebishev, estime el valor mínimo de P(3 < X < 21). 2. Suponga que la probabilidad de que un avión comercial experimente algún tipo de problema al aterrizar es de 0.002. Si entre los siguientes 2000 vuelos que lleguen al
3.
4. 5.
6.
7.
aeropuerto, Xes el número d e ellos que experimentarán dificultades al aterrizar, use la aproximación de Poisson para obtener la media y la varianza de X, y luego aplique el Teorema d e Chebishev para encontrar un intervalo en el cual se tenga una probabilidad de por lo menos 0.75 del número d e vuelos que experimentarán problemas al aterrizar entre esos 2000. Si aproximadamente uno de cada 1000 pasaportes que se expiden tiene un error en el nombre o apellido del interesado, y si X es el número de pasaportes con algún error de ese tipo entre los siguientes 10000 que se van a expedir, calcule con la aproximación de Poisson la media y la varianza de X, y luego determine por medio del Teorema de Chebishev un intervalo en el cual se tenga una probabilidad de por lo 8 del número de pasaportes con el nombre mal escrito entre esos 10 000. menos 9 Si hacemos k o = c en el Teorema de Chebishev, ¿qué nos dice este teorema acerca de la probabilidad de que una variable aleatoria tome un valor entre p - c y p + c ? El número d e licencias de matrimonio expedidas en cierta ciudad durante el mes de junio puede considerarse como una variable aleatoria cuya distribución de probabilidad se desconoce, pero se estima que su media es aproximadamente p = 124 y su desviación estándar o = 7.5. Según el Teorema de Chebishev, ¿con qué probabilidad podemos afirmar que se expedirán entre 64 y 184 licencias de matrimonio en esa ciudad durante el mes de junio? Si X,, X2, ... ,X,, es una muestra aleatoria d e tamaño 20, tomada de una población 1 y la varianza de en la cual se sabe que el valor esperado de cada X, es E(Xi) = 2 cadaX, es Var(X,) =-, 1 para i = 1, 2, ... , 20, y si se defineX=X, +X2+ ... +X,,, 12 calcule P(8.5 I X I 1 1 . 3 . 8 y o2= -. 8 Si X denota la media d e una Para cierta población se sabe que p = 5 75 muestra aleatoria de tamaño n = 25 extraída de esta población, calcule P(1.5 I F I 1.65).
Cap. 7. Teorema Central del Límite y distribuciones muestrales
273
8. ~ e a g l media a de una muestra aleatoria de tamaño 36 tomada de una población que se distribuye de manera exponencial con media 3. Encuentre un valor aproximado para ~(2.5 I ~4).I 9. El 2 % de las piezas metálicas producidas por cierta máquina son defectuosas. Calcule la probabilidad de que de un lote de 400 piezas elegidas al azar, el porcentaje de piezas defectuosas sea de: a) por lo menos 3% b) cuando mucho 2 %.
10. En unas elecciones para gobernador, el candidato de cierto partido político obtuvo 46% del total de votos. Calcule la probabilidad de que en una muestra de n votantes elegidos al azar se hubiese registrado una mayoría de votos a favor de dicho candidato, si n vale:
(Indicación.Use aproximación normal y no olvide la corrección por continuidad.)
1. p-ko=12-3k=3;p+ko=12+3k=21.Enamboscasosseobtienek=3. 1 8 Deaquíque: P ( p - k o < X < p - k o ) = P(3
kZ
9
2. p = o2= 4.El intervalo es desde O hasta 8vuelos con algún problema al momento de
aterrizar. 3. p = o2= 10. El intervalo es desde 0.51hasta 19.49pasaportes con el nombre mal escrito.
4. P(p-c
63 = 0.984. 5. Con probabilidad de por lo menos 64
BSTS GENERALES DE DIAGN~JTICO(cAPÍTULOS 1 AL 7) Los siguientes dos tests de opción múltiple se deben r e z e r sin consultar el libro, es decir, sólo recordando lo que se ha estudiado en el material expuesto en los primeros siete capítulos. Puede usar calculadora o Excel libremente si lo desea, aunque también pueden resolverse usando calculadora y tablas estadísticas solamente.
274
Parte 111. Inferencia estadística
Test 7.1 En el siguiente cuadro, anote con lápiz suave sus respuestas. Los procedimientos debe realizarlos en hojas separadas, y no en el libro. (En el apéndice D se dan las respuestas correctas para que las coteje con las suyas.)
1
.
i
)
ii) -
2
.
i
)
3
.
ii) -
ii) -
iii) -
6. -
4 . i ) 5 . iii) -
7. -
8. -
9. -
10.-
1. En un negocio de hot dogs y hamburguesas, se ha determinado que el número de hamburguesas que pueden vender al día es una variable aleatoria con distribución aproximadamente normal. Según sus registros de contabilidad, 9 % de los días han vendido 70 hamburguesas o más, y sólo 3 % de los días han vendido 73 hamburguesas o más. Determine: i ) el número esperado de hamburguesas que venderán en un día cualquiera
i i ) la probabilidad de que vendan cuando mucho 50 hamburguesas en un día cualquiera
iii) el octavo decil, es decir, el número a partir del cual está 20% de los días que mejor les va en las ventas de hamburguesas
2. Una máquina produce esferas de metal, cuyos diámetros siguen una distribución normal con media p = 5 cm y desviación típica o = 0.2 cm. Para los usos que tiene destinados, la esfera se considerará inservible si su diámetro cae fuera del intervalo [4.8,5.2] (en centímetros). i ) ¿QuC porcentaje de esferas defectuosas produce la máquina?
i i ) ¿Cuál es la probabilidad de que entre 10 esferas escogidas al azar haya cuando mucho dos inservibles?
3. El mecanismo interno de un refrigerador marca Acros de cierto tipo tiene una vida cuya distribución es aproximadamente normal, con media de 12 años y con desvia-
Cap. 7. Teorema Central del Límite y distribuciones muestrales
275
ción estándar igual a 4.863 años. El fabricante asume la responsabilidad de reponer (o en su caso reparar gratuitamente) aquellos refrigeradores que estén dentro de la garantía. Si piensa reponer sólo 5 % de las unidades, ¿por cuánto tiempo debe estipular la garantía?
a) 2 años
b) 3 años
c) 4 años
d) 5 años
4. Suponga que en un país la edad promedio a la que se casan los hombres por primera vez es de 32 años, pero la mayoría de ellos lo hacen a los 28 años. Si se supone una distribución de Erlang, encuentre el porcentaje de hombres cuyo (primer) matrimonio tiene lugar: i) antes de los 24 años
ii) después de cumplir los 36 años
iii) entre los 28 y los 32 años
5. Sea X una variable aleatoria continua con distribución de Erlang, cuyo parámetro de 1 forma es r = 2 y cuyo parámetro de escala es h = -. ¿Cuál es la probabilidad de que 50
X asuma un valor mayor que la moda, pero menor que la media?
6. Según el Teorema de Chebishev, la probabilidad de que cualquier variable aleatoria asuma un valor dentro de tres desviaciones estándar de la media es, por lo menos,
-.89
Si además se sabe que dicha variable aleatoria sigue una distribución normal, icuál es
elvalordeP(p-30
7. Una compañía estadounidense paga a sus empleados un salario promedio de 9.25 dólares por hora, con una desviación estándar de 60 centavos de dólar. Si los salarios siguen una distribución aproximadamente normal, ¿qué porcentaje aproximado de trabajadores reciben un salario de entre $8.75 y $9.69 incluso, por hora?
8. Un conferencista cuenta un promedio de cuatro anécdotas en cada conferencia que imparte. Determine la probabilidad de que cuente menos de tres anécdotas por conferencia, durante tres de las siguientes siete conferencias que imparta.
276
Parte 111. Inferencia estadística
9. Calcule la probabilidad de que una persona que lanza al aire una moneda, logre obtener su cuarta águila en el séptimo lanzamiento.
10. Las hogazas de pan de centeno distribuidas a las tiendas por una panadería, tienen una longitud promedio de 30 cm y una desviación estándar de 2 cm. Suponiendo que las longitudes de estos panes se distribuyen normalmente, ¿qué porcentaje de las hogazas tiene una longitud entre 29.3 cm y 33.5 cm?
Test 7.2 En el siguiente cuadro, anote con lápiz suave sus respuestas. Los procedimientos debe realizarlos en hojas separadas, y no en el libro. (En el apéndice D se dan las respuestas correctas para que las coteje con las suyas.)
1
6.-
.
2
.
3.-
7
.
9
4.
-
.
5.
-
10.-
ii) iii) -
1. Un compositor de música para piano lanza un nuevo CD al mercado tan pronto como logra componer 14 melodías nuevas. El tiempo que tarda en componer una melodía 1 nueva (en años) sigue una distribución exponencial cuya varianza es -. Calcule la 36 probabilidad de que el tiempo entre dos CDs consecutivos que graba sea menor que dos años y seis meses.
2. En un establecimiento de lavado de automóviles, tienen una promoción que dice: "Conserve su comprobante; con cinco el siguiente lavado es gratis." Si un señor lleva su automóvil a lavar a ese sitio un promedio de 1.8 veces por semana, calcule la probabilidad de que el tiempo transcurrido entre dos lavados gratis que obtenga sea menor que cinco semanas. [Suponga que el número de veces que el señor lava su coche a la semana sigue una distribución de Poisson.]
3. Use la aproximación de la curva normal para resolver este problema. Un fabricante de calzado para niño sabe por experiencia que 4% de su producción es rechazada por
Cap. 7. Teorema Central del Límite y distribuciones muestrales
277
defectos de fabricación. Si un nuevo lote de 800 pares de zapatos se presenta a inspección, ¿qué tan probable es que se rechacen menos de 36 pares?
4. En una papelería se venden en promedio 3.5 diskettes sueltos por hora. Cada vez que se venden 10 unidades, la señorita encargada tiene que abrir una caja nueva. Si la encargada abrió una caja a las 10:OO a. m., determine la probabilidad aproximada de que abra la siguiente después del mediodía.
5. Una variable aleatoria discreta X sigue una distribución de Poisson, cuya media es p = 9. Calcule el valor de P ( k - 20 < X < p + 20).
6. Sea X una variable aleatoria discreta, con distribución de Poisson, en la que se sabe que P(X = 1) = P(X = 3). De acuerdo con esa información, se requiere determinar P(X = 5).
7. Los siguientes datos aparecieron en elJoumal of the American Statistical Associatiun, vol. 31, pp. 376-380. Durante un periodo de 96 años se registraron las vacantes para empleo en la Suprema Corte de Justicia de Estados Unidos, ya sea por muerte o renuncia de alguno de sus miembros. El tamaño de muestra es n = 96.
k=nÚmo de vacantes
1
n, = número
durante el
de años con k
año
vacantes
O
59 27
1 2 3 más de 3
9
1 O
Para aproximar estos datos mediante un proceso de Poisson, el parámetro h se toma como la media aritmética ponderada de esta distribución empírica, esto es:
278
Parte 111. Inferencia estadística
Haga ahora un comparativo del modelo teórico (o esperado) 969 (k, 0.5), con respecto a los valores observados en la tabla señalada. a)
k=númm de vacantes durante el año O 1
m-, , , ,
k = número de vacantes durante el año O 1 2 3 más de 3
k = número de vacantes durante el
-año
-o -
%=núm de años con k vacantes (observado) 59 27 9 1 O
n =número años con k vacantes (esperado) 59.224 28.117
dek =número años con vacantes
n =número be años con k vacantes (esperado)
8.977 1.210 0.173
rdo)
58.227 29.113
-.
9 1 O
1 I
7.278 1.2 13 0.168
%=n ú m %;.=-me; ' años con k vacart-'-vacantes psperado) -
-
58.224
27
L 1
m á s de 3
h
O
1
1.210 0.163
'
d)
k =número de vacantes durante el
2 3 mas de 3
' nch añosncírnero 2 años número cm k vacantes k vacantes =
=
cm
--
I
1
(observado)
(esperado)
59
59.224 27.117 9.277 1.2 10 0.173
27 9 1 O
1
8. Cada sucursal del banco llamado Serfin en México cuenta con 15 cajas para atender al público, pero normalmente sólo unas pocas funcionan (a menudo sólo una o dos) y las demás tienen un letrero que dice "cerrada". Suponga que si X es el número de cajas que funcionan en dicho banco en un día cualquiera, la distibución de probabilidad de X está dada por la siguiente tabla:
i ) Encuentre la probabilidad de que 60% o más de las cajas funcionen en un día cualquiera.
ii) ¿Qué porcentaje de las cajas funcionan la mayoría de las veces?
iii) ¿Cuál es el número promedio de cajas que funcionan en un día cualquiera?
9. Si el conjunto de calificaciones de un examen de estadística tiene una distribución normal, con media de 74 y desviación estándar de 7.9, obtenga la calificación aprobatoria más baja, si a 10% de los exámenes con más bajas calificaciones se les pone NA (no acreditado).
10. El diámetro interior de un anillo para émbolo se distribuye normalmente, con una media de 10 cm y una desviación estándar de 0.03 cm. ¿Debajo de qué valor de diámetro interior caerá 15% de los anillos?
Para calcular un intervalo de confianza de 100(1 - a)% relativo a la media desconocida de una población, primero debemos preguntarnos si la muestra de la que disponemos es grande (n 1 30) y si conocemos o no el valor de la desviación estándar o de la población. De las respuestas de estas preguntas depende el procedimiento a seguir. A decir verdad, si no se conoce el valor de la media, es poco verosímil que podamos conocer el valor de la desviación estándar, pero a veces este último parámetro se conoce por la experiencia previa, o tal vez se tienen fuertes sospechas de su valor aproximado. Sin embargo, en la mayoría de los casos, cuando se desconoce la media p.,también se desconoce la desviación estándar o, por lo que debe utilizarse la desviación estándar muestra1s como sustituto de o. Para una muestra grande, o para una muestra pequeña en la que se conoce el valor de la desviación estándar poblacional, es necesario buscar en tablas de la normal estándar inversa (o en tablas de valores críticos de la distribución normal estándar) el percentil crítico para un intervalo de confianza de 100(1- a)%. Dicho percentil crítico se calcula de la siguiente manera:
(
:i
z crítico =z,,~ =a-'1 - -
En la figura 8.1 se localiza la ubicación de z, y de -2, tándar.
en la curva normal es-
Figura 8.1
En la práctica, los valores más usuales para el nivel de confianza son 95% y 99%. En el primer caso, el valor del percentil crítico es (P-'(0.975) = 1.95996 .1.96, mientras que en el segundo caso es @-'(0.995) = 2.57583 = 2.576. Incluso vale la pena aprenderse de memoria estos dos percentiles críticos, que son los más usuales. Si la muestra es pequeña, pero la población es aproximadamente normal y se desconoce el valor de o, entonces se usan percentiles críticos de la t de Student con n - 1grados de libertad. Recomendamos aprenderse de memoria el esquema que aparece en la figura 8.2. Si no se dispone de tablas de la normal estándar inversa, ni tampoco se conocen de memoria los valores críticos z,, se puede usar una tabla de percentiles de la distribución t de Student, de la cual la última fila (m grados de libertad) corresponde precisamente a los respectivos percentiles de la normal estándar. Si t, es el percentilp en una tabla de percentiles de la distribución t de Student, entonces el valor crítico t , se halla buscando el percentil del siguiente valor dep:
El Excel de Microsoft Office es un programa muy cómodo y tiene una utilería estadística que proporciona directamente el valor crítico t , para el nivel de confianza 100(1- a)%, pero eso lo veremos con más detalle en la sección 8.3, que tratará del caso de muestras pequeñas en las que se desconoce el valor de la desviación estándar poblacional. Ejemplo 8.1. Confeccionar con el Excel una pequeña tabla de valores críticos z, para intervalos de confianza relativos a la media p, con niveles de confianza desde 99 %
hasta 90%.
1
1
Aumentar el tamaño de la muestra o usar métodos de estadística no
Figura 8.2. Esquema para intervalos de confianza relativos a la media de una población. Solución: En una celdilla cualquiera de la hoja d e cálculo, por ejemplo, en la celdilla B2, anotamos 0.01, que es el valorde a,y como encabezado de esa columna escribimos Alfa en la celdilla B1. Luego escribimos 0.02 en la celdilla B3, seleccionamos ambas celdil l a ~(B1 y B2) y nos posicionamos con el cursor en la parte inferior derecha de la celdilla B2, para arrastrar hacia abajo, sin dejar de oprimir el botón izquierdo del ratón, hasta llegar al número 0.1. Enseguida nos posicionamos en la celdilla C2 y escribimos:
y damos enter. Por último, se da un clic en la celdilla B2 y ésta aparecerá rodeada por una línea gruesa con un pequeño punto en la parte inferior derecha, en el cual damos dos clics con el ratón (botón izquierdo) y aparecen los números buscados. Como encabezado de la segunda columna escribimos ya sea "zcrítico" o bien "z alfan":
Resulta muy fácil deducir la fórmula para el intervalo de confianza correspondiente a una media poblacional; cuando a uno se le olvida una fórmula, lo más fácil (y divertido) es volverla a deducir. Recuérdese que en el capítulo anterior vimos que la distribución muestral de medias para muestras de tamaño n (grandes o pequeñas) provenientes de una distribución normal, o bien para muestras grandes provenientes de una distribución que no es normal, tenderá en cualquier caso a la distribución normal estándar, con media
px= p. y desviación típica
0
=-
Jñ
. Luego, la variable:
tiene distribución normal estándar. Como hay una probabilidad 1- a de que una variable aleatoria con distribución normal estándar asuma un valor entre -2, y z,, se tendrá entonces:
Usando algo de álgebra elemental se despeja fácilmente p. de la desigualdad anterior, para obtener:
Ejemplo 8.2. Una muestra de 36 sábanas tamaño king size de cierta marca dio como resultado el siguiente promedio de longitudes: X =2.60 m, con desviación típica (muestral) S = 0.3 m. No se tiene idea de cuái pudiera ser la distribución de probabilidad deX= longitud de las sábanas de esa marca y tamaño. Construir un intervalo de confianza de:
con respecto a p., que es la media de X.
Cap. 8. Estimación de parámetros
285
Solución : a) El intervalo es 2.60 t(l.%)%,
es decir: 2.502 m < p < 2.698 m
J36 b) El intervalo es 2.602(2.576)- O" , esto es: 2.471 m c p < 2.729 m. J36
Obsérvese que a mayor nivel de confianza el intervalo se vuelve más amplio, mientras que a menor nivel de confianza será un intervalo más estrecho o preciso. Por ejemplo, si nos hubiésemos conformado con una confianza de 10% (esto es, a = 0.9), entonces el valor crítico sería W'(0.55) = 0.12566, y el intervalo de confianza sería 2.60 f 0.006 m. En el otro extremo de la escala, si hubiésemos exigido una confianza tan alta como 99.9999 % (o sea, a = 0.000001), tendríamos que usar el valor crítico siguiente:
lo cual de acuerdo con el Excel es 5.06639. (¡Qué rápido se acerca la campana normal al ejeX!) En tal caso, el intervalo de confianza sería tan vago como 2.60 f 0.25332, es decir, un margen de error de más de medio metro al estimar la longitud promedio de las sábanas. Ejemplo 8.3. Los biólogos saben que el contenido de vitaminas en las frutas siempre sigue una distribución normal (por razones que se explicaron en el capítulo anterior). Supbngase que se analizan las cantidades de vitamina C (en miligramos) en una muestra aleatoria de 10 naranjas de cierta variedad, con los siguientes resultados: 96.4,86.3,102.6, 99.0, 107.9,84.9, 92.5,97.2, 101.2, 105.0.Si se sabe que la desviación estándar del contenido de vitamina C en esa variedad de naranjas es de 7 mg, con s610 una calculadora y tablas estadísticas construir un intervalo de confianza de 95 % con respecto al contenido promedio de vitamina C en esa variedad de naranjas. Solución: Sólo hay que calcular el promedio de esos datos, el cual es jc =97.3 mg. Luego:
Así que hay una probabilidad de 0.95 d e que el verdadero valor de p (contenido medio de
vitamina C) esté comprendido en el intervalo 92.96 mg < p < 101.64 mg.
¿Por qué no convenía resolver este ejemplo con Excel? Por una razón muy sencilla: el Excel no puede saber lo que saben los biólogos (que el contenido de vitaminas en las frutas se distribuye de modo normal con desviación típica conocida). Por consiguiente, al resolver este ejemplo con Excel (usando el menú Hewamientas, Análisis de datos, Estadistica descriptiva), por default el Excel presupone que se desconoce la desviación típica poblacional de donde se extrajo la pequeña muestra, y por tanto, evalúa el intervalo usando valores críticos de la t de Student con nueve grados de,libertad, además de que emplea la desviación típica de la muestra, la cual es algo mayor de 7.575.
8.2. CULO DEL T&O
DE MUESTRA EN LA ESTIMACI~N
DE UNA MEDIA
En la fórmula para el intervalo de confianza relativo a la media:
hemos denotado con E al error en la medición del intervalo, es decir:
Es muy fácil despejar n de esta igualdad, con lo cual se obtiene la fórmula para el tamaño mínimo de muestra:
Con esto vemos que para averiguar el tamaño mínimo de muestra, en problemas donde se trata de estimar la media de la población, se necesita conocer la desviación estándar de la población. Cuando a usted le pregunten: "¿Cuál es el tamaño de muestra que debe tomarse al estimar la media de la población?', entonces puede responder en tono de broma: "Si la desviación estándar de la población es cero, entonces el tamaño de muestra es n = 1,es decir, isólo hay que tomar un dato!" En problemas prácticos es muy común que el valor de la última ecuación no resulte entero, en cuyo caso hay que sumar 1y tomar la parte entera, esto es:
donde el uso de corchetes significa la parte entera del número, o sea, el mayor entero que no excede a ese número. Ejemplo 8.4. Se desea hacer una estimación de la edad promedio (en días a partir de la fecha de nacimiento) en que le brotan los primeros dientes a un bebé ("dientes de leche"). Aunque se desconoce cuál sea la distribución de probabilidad de dicha variable, algunos estudios previos confirman que la desviación típica es aproximadamente o = 28 días. Se va a tomar una muestra aleatoria de n historiales de bebés de muchos pediatras, con objeto de estimar la media de esa variable. Si se desea que el error en dicha estimación sea de cuando mucho 12 días, con una confianza mínima de 95 %, ¿cuál debe ser el tamaño de la muestra? Solución:
Cap. 8. Estimación de parámetros
287
Luego, se requieren por lo menos 21 historiales pediátricos de bebés (es decir, n = 21), para cumplir con las especificaciones del problema. Lo anterior significa que si se toman 21 datos aleatorios de las edades en que brotaron los primeros dientes en los infantes, y se calcula el promedio aritmético de dichos datos, entonces el valor que se obtenga, más o menos 12 días, será el intervalo donde se encuentre el promedio real, con una probabilidad de 0.95. Ejemplo 8.5. Para una nueva marca de cigarrillos que salió al mercado, denotemos conXal contenido promedio de alquitrán (en miligramos) por cada cigarrillo. No se tiene idea de cuál pudiera ser la distribución de probabilidad de X, pero se estima que el valor de la desviación estándar es aproximadamente o = 0.3 mg. si X es la media del contenido de alquitrán de una muestra aleatofia de n cigarrillos de esa marca, se requiere calcular el tamaño de la muestra, para que X 0.10 sea un intervalo donde se encuentre el valor verdadero de p =E(&), con una confianza mínima de 99 %. Solución:
+
Por tanto, se requiere una muestra de n = 60 cigarrillos.
Si la muestra es pequeña, entonces se siguen las instrucciones del esquema d e la figura 8.2, pero es necesario que la población se distribuya d e manera normal o aproximadamente normal. Si se desconoce la desviación estándar d e la población, entonces se usan valores críticos de prueba d e la distribución t d e Student, con n - 1grados d e libertad. Si sólo se tiene a la mano tablas d e percentiles t, d e la distribución t d e Student, es fácil hallar el valor crítico t , si se recuerda la N
igualdad p = 1- 2, que equivale a la igualdad a = 2(1 - p ) . 2
La mayoría de los libros d e estadística traen tablas d e percentiles o d e valores críticos (o ambas tablas) para algunas opciones selectas. Tal vez las tablas estadísticas que vienen al final d e los libros (y que ocupan muchas páginas) desaparezcan poco a poco, gracias a la alta calidad d e las nuevas calculadoras científicas d e bolsillo y a la proliferación d e software estadístico barato y fácil d e usar. Seguramente, cuando sus hijos estudien estadística algún día, las tablas estadísticas serán tan obsoletas como lo es hoy, por ejemplo, la regla d e cálculo. Los usuarios de algunos modelos de calculadoras científicas HP pueden hallar intervalos d e confianza de manera expedita y fácil, sin recurrir a tablas ni a Excel ni a nada d e eso, pero esas calculadoras todavía no son tan baratas como uno quisiera. Ejercicio 8.1. Con la utilería estadística del Excel, confeccione una pequeña tabla de valores críticos t, de la distribución t de Student con v grados de libertad, para valores de a (en orden descendente) desde 0.1 hasta 0.01 (columnas) y valores de v desde 1 hasta 30 (filas). Al final añada una fila correspondiente a grados de libertad, la cual le servirá
288
Parte 111. Inferencia estadística
como referencia para valores críticos de la distribución normal estándar. Recuerde que la sintaxis es la siguiente:
Cuando termine este ejercicio, compare con la tabla que hemos confeccionado (tabla 8.1). Si le toma menos de cinco minutos hacer esa tabla y concuerda con la que damos, su manejo del Excel es bueno. Tabla 8.1. Valores críticos t , para la distribución t de Student con v grados de libertad.
Cap. 8. Estimación de parámetros
289
Ejemplo 8.6. En el área de juegos infantiles de un restaurante, una señora maquilla las caras de los niños, pintándoles en forma artística figuras de gatos, tigres o payasos. La señora no cobra tarifa fija por su trabajo, pero los padres de las criaturas le pagan una contribución voluntaria. Si X es la cantidad que recibe por cada niño que pinta, se desconoce la media y la varianza de X, pero se puede presuponer que sigue una distribución más o menos normal. Las siguientes cantidades (en pesos) fueron dadas a la señora por los padres de nueve niños elegidos al azar: 12, 10,15, 20, 15, 18, 13, 15 y 10. Construir un intervalo de confianza de 90 % para la media de X. Solución:Con ayuda de una calculadora de bolsillo, hallamos que X = 14.22 y s = on-,= 3.383. El valor crítico t , lo buscamos en la misma tabla que acabamos de confeccionar: para a = 0.1,v = 8 grados de libertad, hallamos elvalor 1.85955.En consecuencia, el intervalo de confianza queda así:
es decir:
Esto significa que podemos tener una confianza de 90 % de que se dice la verdad al afirmar que la señora recibe en promedio alguna cantidad dentro de ese intervalo, como pago por sus servicios.
Con Excel se puede encontrar este intervalo rápidamente si se usa el menú Herramientas, Análisis d e datos, Estadistica descriptiva. Basta con anotar los nueve datos de la muestra en una columna, activar dicho menú y seleccionar la opción Nivel d e confianza: 90 %. En forma automática, aparece el número 2.0969, que es el margen d e error en la medición del intervalo con centro en 14.22. Este último dato también aparece en el resumen de estadística descriptiva del Excel.
8.4. INTERVALOS DE CONFIANZA PARA LA VARIANZA POBLACIONAL Y PARA LA DESMACI~N EST~DAR
Para el cálculo d e intervalos d e confianza relativos a la varianza (o a la desviación típica) d e una población, se requiere usar una tabla d e valores críticos X: d e la distribución con v = n - 1 grados d e libertad. En la figura 8.3 se ilustra Como se aprecia en la figura, el valor crítico es la posición del valor crítico precisamente el percentil 1- a, es decir, el punto sobre el eje X tal que a mano izquierda hay un área d e 1- a bajo la curva. Con Excel es fácil localizar los valores críticos usando la siguiente sintaxis:
x2
x:.
x:
=PRUEBA.CHI.INV(a,v) 2
Por ejemplo, para hallar el valor crítico X0.06 Con V = 8 grados de libertad, escribimos:
Figura 8.3. Distribución x2 con v grados de libertad. y se obtiene al instante 14.956, lo cual significa que en una curva que tenga distribución ji-cuadrada con 8 grados de libertad, a mano derecha de la abscisa x = 14.956y bajo la curva de densidad de probabilidad, habrá un área de 6 % del área total y, lógicamente, a mano izquierda habrá 94 % del área total. En forma alternativa, se puede hallar un valor crítico X: con el menú de funciones de Excel (fig. 8.4). Al picar aceptar, el usuario es guiado paso a paso para introducir los valores necesarios. ¿Por qué el Excel escribe "chi" en vez de "ji"?Lo que sucede es que la letra j en alemán es cb, como en Bach, mientras que en inglés el sonido de laj es la combinación kb. Por ejemplo, el hmoso estadístico ruso Khinchin (o Khinchine) (1894-1959) se pronuncia "Jinchin", así como Alekhine (famoso ajedrecista de la primera mitad del siglo m) se pronuncia 'Niojin". El término ji-cuadrada (también Ilamadaji-cuadrado ojidos) fue inventado por el gran estadístico británico Karl Pearson (1857-1936). En cursos de estadística teórica (estadística matemática) se demuestra el siguiente teorema notable: Teorema. Si X,, X,, ... ,Xn es una muestra aleatoria de tamaño n tomada de una poblaciónx que se distribuye normalmente, con media p y varianza 02, entonces la variable aleatoria:
1 sigue una distribución ji-cuadrada con n grados d e libertad.
1
Figura 8.4
Por otra parte, recuérdese que la varianza muestral:
es un estimador insesgado d e la varianza poblacional 02. n-1 Si multiplicamos ambos miembros d e la ecuación 2 por -, se obtiene: c2
Por último, obsérvese que los miembros derechos de las ecuaciones 1 y 3 son casi idénticos, excepto porque aparece X en lugar de p. Esto nos hace sospechar que el lado izquierdo d e la ecuación 3 debe seguir una distribución ji-cuadrada, lo cual es verdad y puede probarse con todo rigor, pero ¿con cuántos grados d e libertad? Notamos que en la ecuación 1 no hay ningún parámetro desconocido, mientras que en la 3 hay un parámetro d e la población que se desconoce
292
Parte 111. Inferencia estadística
y que se desea estimar mediante la muestra de las X,, X2, ... ,Xn. Entonces, de acuerdo con la definición de grados de libertad, sospechamos que la variable aleatoria definida por la ecuación 3 debería seguir una distribución ji-cuadrada con n - 1grados de libertad. Efectivamente, así es y ello puede demostrarse con toda formalidad,aunque no lo haremos aquí. Sólo nos interesa enunciar y aplicar el hecho mismo: Teorema Si se extrae una muestra aleatoria de tamaño n de una población normal con varianza o', entonces el estadístico:
(n-1)s' o2
i41
tiene una distribución ji-cuadrada con n - 1grados de libertad. La primera consecuencia de este notable teorema es que nos permite idear un método para construir un intervalo de confianza de 100(1- a)% relativo a la varianza poblacional. 1 En efecto, sea O < a < -. Entonces 100(1- a)% de los valores de probabi2
lidad de la distribución ji-cuadrada con n - 1grados de libertad están comprenyxcln,esto es, hay una probabilidad de didos entre los valores críticos 1- a de obtener un valor de x2tal que:
&,
Con un poco de álgebra elemental se puede despejar 02enla desigualdad 5, de donde se deduce que hay una probabilidad de 1- a de que la varianza de la población se encuentre dentro del siguiente intervalo: Intervaio de confianza de lOO(1
- a)% para la varianza poblacionai
Para hallar un intervalo de confianza relativo a la desviación típica o de la población, basta con extraer raíz cuadrada positiva a los tres miembros de la desigualdad 6, ya que se trata de cantidades positivas. En la figura 8.5 se muestran las posiciones de los valores críticos x:-(,, y ,para la distribución ji-cuadrada con n - 1 grados de libertad.
XL
Ejemplo 8.7. En una muestra de 58 focos (bombillas de luz) se halló que la desviación estándar muestra1 de su duración era de s = 98 horas. Si se supone que la duración
Figura 8.5 de esos focos sigue una distribución normal, encontrar un intervalo de 90% de confianza para la desviación estándar o de la duración de esos focos. Solución:Primeramente hay que calcular los valores críticos x:,, y ,ambos con 57 grados de libertad. Por tanto, usando el EXcel escribimos:
Así, se halla el intervalo siguiente:
Si se efectúan las operaciones indicadas y luego se extrae raíz cuadrada a todo, se obtiene: 85.08 horas I o I 116.05 horas Esto significa que hay una probabilidad de 0.9 de decir lo correcto, si se afirma que la desviación estándar de la duración de todos los focos de esa marca se encuentra dentro ese intervaio de valores. Ejercicio 8.2. Use Excel para diseñar una tabla de parejas de valores críticos XL y x : - para ~ ~ los intervalos de confianza relativos a una varianza poblacional, con niveles de confianza de 90 %, 95 %, 98 % y 99 %. Use grados de libertad desde 1hasta 30, y luego de 40,50 y 60. Calcule con una precisión de cuatro dígitos decimales. Cuando termine de elaborar su tabla, compare con la que damos enseguida. Si se tarda más de diez minutos, es que hay algo que no está haciendo correctamente.
1
90%de confianza
1
95%de canfianza
f
98%de confianza
1
99%dewnfianza
1
Cap. 8.Estimación de parárnetros
295
Ahora, con la proliferación de computadoras cualquiera puede hacer tablas de valores críticos de la distribución ji-cuadrada, así como de otros valores estadísticos, en sólo unos minutos. Hace varios años, todos los libros de estadística reproducían las tablas originales hechas por Karl Pearson en 1930 con papel y 1ápiz, las cuales fueron las primeras tablas en confeccionarse. Por supuesto, fue un gran mérito por parte del famoso estadístico británico.
8.5. INTERVALOS DE COIWMNZA PARA UNA PROPORCI~N POBLACIONAL
En el capítulo 7, vimos que el estimador j , que es la proporción muestral, es un estimador insesgado de la proporción poblacionalp. Vimos también que si n es grande, entonces la distribución de P tiende a la distribución normal estándar. En la figura 8.6 se aprecia dicha distribución y su desviación estándar ( S a . Hay una gran analogía entre los intervalos de confianza para la media poblacional y para una proporción poblacional (en el fondo se habla d e una misma cosa). En el caso de proporciones, la magnitud z,crí: es el margen de error en la estimación d e la proporción p. Al igual que en la estimación de la media poblacional, aquí usaremos también los valores críticos z, d e la distribución normal estándar. El intervalo de confianza de 100(1- a)%, para estimar una proporción poblacionalp, está dado por:
Figura 8.6. Distribución rnuestral de p.
296
Parte 111. Inferencia estadútica
Ejemplo 8.8. Se desea estimar qué porcentaje (proporción) de las familias del Distrito Federal tienen vivienda de su propiedad (no se consideran predios irregulares invadidos como vivienda propia). Se toma una muestra aleatoria de n = 120 familias de distintas partes del D. F. y se encuentra que 40 % de ellas tienen vivienda de su propiedad. Calcular un intervalo de confianza de 90 % para la proporción (porcentaje) real de familias del D. F. 'que tienen vivienda propia. Solución:El valor crítico z, para el intervalo de confianza de 90 % es:
Por tanto, el intervalo de confianza buscado es:
Esto es:
Ello significa que podemos afirmar que entre 32.6 % y 47.4 % de las familias del D. F. tienen vivienda propia, a sabiendas de que hay 90 % de confianza en que se está diciendo la verdad.
8.6. CALCULO DEL TMO DE MUESTRA EN LA ESTIMACI~N DE UNA PROPORCI~N
Antes de empezar este tema, lo invitamos a que elija mentalmente cualquier valor de probabilidadp que se le ocurra (O I p I1) y su correspondiente valor complementario q = 1-p. Multiplíquelos y le aseguramos que su respuesta será menor o igual que 0.25. ¿Lovio? No se trata d e magia ni nada por el estilo, sino de un problema elemental de máximos y mínimos que podría formularse así: Hallar dos números positivosx yy, tales que su suma sea 1y su producto sea el máximo posible. Esto equivale a calcular el valor máximo de la funciónf (x) = x ( l -x). Un estudiante de bachillerato o de los cursos remediales hallaría rápidamente la solución: x = l / ~ y, = '/2, y el valor máximo del producto es 1/4. De acuerdo con esto, ahora podemos comprobar con facilidad la siguiente desigualdad:
Si se retoma ahora la fórmula para el intervalo de confianza de 100(1- a)% de una proporción poblacional p , y se toma en cuenta la fórmula 7, se halla que el margen de error en la estimación es:
Dicho en otras palabras,
-es una cota superior del mayor error posi-
2Jn ble al estimar una proporción poblacional. Al despejar n se obtiene una cota superior para el tamaño de muestra:
La fórmula 8 nos proporciona una cota superior para el tamaño de muestra, pero bajo la hipótesis de que somos pesimistas y no sabemos nada acerca d e la proporción poblacionalp que deseamos estimar. En tal caso, lo peor que puede pasar es q u e p =q = 1/2, y cometeríamos el máximo error posible en la estimación. En la práctica, sin embargo, no hay razones para ser tan pesimistas, ya que se puede sospechar acerca de cuál es, más o menos, el valor d e p o bien se puede hacer una pequeña prueba piloto con una muestra pequeña, para hallar una estimación provisional dep. Si no se sabe nada acerca de ese parámetro, y la prueba piloto es inviable o muy costosa, entonces no hay más remedio que tomar el peor valor d e p,es decir, 1/2, y calcular el tamaño de muestra de acuerdo con la expresión 8. Por ejemplo, si se trata de tomar una muestra aleatoria de hombres adultos (sanos) para estimar qué porcentaje de la población de hombres adultos sanos son desempleados, podemos usar cifras d e años anteriores de la tasa de desempleo abierto, y si dichas cifras han oscilado alrededor de 15%, por ejemplo, no tenemos por qué suponer que de pronto se hubiese disparado esa cifra a 50%, así que podemos tomar, d e manera conservadora, una proporción de cuando muchop* = 0.2 para estimar el tamaño de muestra. Recuérdese que cuanto más cercano seap* a 112 tanto mayor será el tamaño de muestra requerido. Todo esto lo resumimos en la siguiente regla. Procedimiento para calcular el tamaiio de muestra a i estimar una proporción. Primero se debe establecer el margen máximo de error E que uno está dispuesto a tolerar. Si dicho margen de error está en porcentaje, debe expresarse en fracción de la unidad; por ejemplo, 9 % = 0.09. Después se tiene que convenir en un nivel de confianza en la estimación, lo cual no tiene nada que ver con el margen de error acordado. Por ejemplo, se puede elegir una confianza de 80%, 90% o 98%, por mencionar algunas posibilidades, aunque lo usual es tomar 95 % o 99 %. Sea 100(1 - a ) % el nivel que usted escogió. Enseguida, de acuerdo con el nivel de confianza elegido, se procede a hallar el valor crítico z, con tablas o con Excel. Si lo hace con Excel. la sintaxis es:
A continuación, y ya teniendo a la mano los datos numéricos de E (error) y 2% (valor
crítico), se da una estimación subjetiva (o sospecha) p * d e la proporcion que se desea estimar, ya sea por datos históricos de años anteriores o por
298
Parte 111. Inferencia estadística
medio de alguna prueba piloto que se haya hecho previamente con una muestra pequeña. Hay que tomar en cuenta que cuanto más cercano seap* a 0.5 tanto mayor será el tamaño de muestra que se va a requerir. Si no es viable hacer esa prueba piloto y no se tiene ni una idea remota, entonces tomep* = 0.5. Calcule por último q* = 1-p*. Entonces, ya se tienen a la mano todos los valores numéricos de los símbolos que intervienen en la siguiente fórmula: Fórmula para hallar el tamaíío de muestra a i estimar una proporción poblaciond:
Ejemplo 8.9. Una institución financiera otorga créditos o préstamos a sus clientes. Seap la proporción de préstamos que no fueron pagados por el deudor en la fecha acordada y que ocasionan un quebranto financiero a la institución. El nombre que se le da a p en la jerga económica es el de cartera vencida. Se desea tomar una muestra aleatoria de n clientes que recibieron algún préstamo, para hacer una estimación de la cartera vencida. Supóngase además que en años anteriores (o en instituciones similares) las cifras de cartera vencida estaban cerca de 8%. Calcular el tamaño de la muestra, si la estimación debe tener un margen de error de cuando mucho 2 % con una confianza de 90 %. Solución: Hacemos acopio de los datos: E = 0.02, a = 0.1, z, = 1.64485 (con tablas o con Excel). Además, se nos dice que en instituciones o bancos similares (o en años anteriores) la cifra de cartera vencida estaba cerca de 8 %. Así,p* = 0.08. Por consiguiente:
Debido a la incertidumbre, podemos tomar n = 500 casos de créditos otorgados a clientes. Es un tamaño de muestra adecuado para hallar qué porcentaje (o proporción) de esos créditos no fueron pagados a tiempo. La cifra resultante será un indicativo de la cartera vencida real, con un margen de error de 35.2 % y una confianza de 90 % de que se está diciendo la verdad. Ejemplo 8.10. Un agricultor desea saber qué porcentaje de semillas de cierta planta lograrán germinar. En una pequeña prueba piloto realizada en macetas se haiió que 80 % de las semillas lograron germinar. Sin embargo, él desea averiguar la proporción real p de semillas que germinan, mediante un muestre0 de n semillas que serán sembradas en el campo en condiciones naturales. El agricultor desea que el porcentaje de semillas que logren germinar sea un indicativo real del parámetro buscado con un error de 1 5% y una confianza de 93 %. ¿Cuál es el tamaño de la muestra de semillas que debe tomarse? , para un intervalo de Solución: En primer lugar, se debe calcular el valor crítico z confianza de 100(1- a ) % = 93 %. Con tablas (o con Excel) hallamos que z,,, = 1.81191. Se puede encontrar ese dato de varias formas; por ejemplo, en la tabla de valores críticos para la t de Student (ya la hicimos) se busca el valor correspondiente a a = 0.07 con m grados de libertad. O también, de manera directa se escribe en Excel:
Cap. 8. Estimación de parámetros
299
De acuerdo con la pequeña prueba en macetas (prueba piloto), podemos tomar
p*
= 0.80, q* = 0.20. En consecuencia, el tamaño de la muestra es de:
Ello significa que si el agricultor siembra 211 semillas de esa planta @ajo condiciones usuales de riego y todo), el porcentaje de las que logren germinar será un indicativo del porcentaje real de semillas que germinan, con un margen de error de f5% en la estimación y una confianza de 93 % de que se está diciendo la verdad.
Con esto terminamos este capítulo, uno d e los más importantes d e todos por su utilidad práctica, y procedemos a la autoevaluación, con algunos problemas sencillos a u e le darán al estudiante la ~osibilidad d e autocalifilarse y hacer un diagnóstici d e cómo va su aprovechamiento del material que ha estu-
Thomas Bayes ( 1 702- 176 1). Ministro presbiteriano inglts y aficionado a la estadística. De joven recibió clases particulares de Abraham de Moivre, de donde nació su afición por la estadística. El título de su trabajo revolucionario fue Essay towards solving a problem in the doctrine of chances.
Pafnuti Lvóvich Chebishev ( 1 82 I - 1894). Fue uno de los más distinguidos matemáticos y probabilistas rusos del siglo xix. ~nri~uecib la estadística teórica con una serie de desigualdades importantes que involucran la media y la desviación estándar de una variable aleatoria.
Es importante que cada capítulo finalice con un autodiagnóstico del estudiante, en el cual pueda comprobar si ha entendido y asimilado bien lo que ha estudiado. Hay dos recomendaciones al respecto que nos atreveríamos a sugerir. En primer término, conviene hacer del estudio un hábito. Algún filósofo definió al ser humano como un animal con hábitos, y tal vez hay algo de verdad en esa aseveración. Las personas que quieren hacer ejercicio se levantan a correr todas las mañanas una misma distancia y hacen d e ello un hábito, que al principio parece desagradable, pero que poco a poco se le va tomando gusto. Lo mismo pasa con el estudio. En segundo término, es importante estar solo, en una habitación bien iluminada y sin distracciones, sin música ni nada. Se recomienda hacer un hábito del estudio, aunque sea sólo una o dos horas diarias, pero de preferencia siempre en el mismo lugar, a la misma hora y bajo las mismas condiciones. Desconecte su celular y deje indicaciones de que si le hablan por teléfono no está para nadie. Con el tiempo se irá acostumbrando a esa rutina y le irá tomando gusto. Cada ejercicio vale un punto si está correctamente resuelto. Si acierta sólo a uno de dos incisos, se abona sólo medio punto, etc. Al final, multiplique el total d e puntos obtenidos por 5 y así obtendrá su calificación en escala del O al 100. Si obtiene menos de 70 de calificación, su aprovechamiento es deficiente; de 71 a 79 es regular, de 80 a 89 es bueno, de 90 a 95 es muy bueno y de 96 a 100 es excelente y amerita una felicitación calurosa por parte del autor. ¡Mucha suerte! 1. Se desconoce la distribución de probabilidad de cierta variable aleatoriax, y tampoco se tiene idea de cuál sea el valor de su media (p); no obstante, hay motivos para asegurar que la desviación típica deXes aproximadamente o = 3. iDe qué tamaño debe ser una muestra aleatoria de valores de X, para tener una confianza mínima de 95 %
de que la discrepancia entre la media muestral y la media verdadera de la población será menor que 0.3? 2. Suponga que acerca de una variable aleatoria X, sólo se sabe que la desviación típica es o, pero no se tiene idea de cuál sea la media ni de cuál sea su distribución de probabilidad. Con objeto d e poder tener una estimación razonable del valor de la media p.,se toma al azar una muestra de n observaciones de dicha variable. ¿Qué tan grande debe ser el valor de n, para tener una confianza mínima de:
de que la discrepancia entre la media muestral X y la media verdadera p será menor que cierto número k? 3. Un general desea estimar la aptitud física promedio (medida a través de cierta prueba) de miles de soldados que tiene a su cargo, con base en una muestra aleatoria de ellos. El general desea que tal estimación tenga un error de cuando mucho dos puntos de la prueba, con una confianza mínima d e 99 %. Si sabe por experiencia que el valor de la desviación estándar para esta prueba es de o = 15.0, icuál es el tamaño mínimo de la muestra de soldados a quienes debe aplicar la prueba? 4. Una nutrióloga estima, basada en análisis previos, que la desviación estándar del contenido d e proteínas por cada lata d e atún d e cierta marca es d e aproximadamente o = 3.2 g. ¿Qué tan grande debe ser el tamaño de la muestra de latas de atún que debe analizar, para que el error en la estimación del parámetro que desconoce (p) sea de cuando más 1.5 g, con una confianza mínima de:
Cap. 8. Estimación de parámetros
30 1
5. Las mediciones de la presión sanguínea de 25 mujeres de edad avanzada tienen una media de 2 = 140 mm de mercurio. Si estos datos se pueden considerar como una muestra tomada al azar de una población normal con o = 10 mm de mercurio, calcule un intervalo de confianza de 95 % de la media de la población p. 6. Durante varios años, se había aplicado una prueba de nivel de matemáticas a todos los alumnos de primer ingreso de cierta universidad. Si 64 estudiantes, seleccionados al azar en ese periodo, tardaron en promedio 28.5 minutos en resolver la prueba con una varianza de 9.3,construya un intervalo de confianza de 99 % del tiempo promedio verdadero que tarda un alumno de primer ingreso en resolver el examen. 7. Un experto en eficiencia desea determinar el tiempo promedio que tarda el personal de un foso de reparaciones en cambiar un conjunto de cuatro neumáticos a un auto de carreras. ~ e t e r m i n eel tamaño de la muestra requerido para poder afirmar, con 95 % de confianza, que la media de la muestra difiere de la media real en cuando mucho dos segundos. Por estudios realizados antes, se sabe que la desviación estándar de la población es 12 segundos. 8. La longitud de los cráneos de 10 esqueletos fósiles de una especie de ave extinta tiene una media de X = 5.68 cm y una desviación estándar d e s =o"-,= 0.29 cm. Suponiendo que estas mediciones están normalmente distribuidas, obtenga un intervalo de confianza de 95 % para la longitud media de los cráneos. 9. Un inspector d e alimentos, que examinó 12 frascos d e cierta marca de mantequilla de cacahuate (maní), obtuvo los siguientes porcentajes de impurezas: 2.3, 1.9,2.1, 2.8, 2.3, 3.6, 1.4, 1.8, 2.1, 3.2, 2.0 y 1.9. Suponiendo que estas mediciones están normalmente distribuidas, construya un intervalo de confianza de 99 % del porcentaje promedio de impurezas que hay en esta marca de mantequilla de cacahuate. 10. Repita el ejercicio 9, pero considerando que el valor de la desviación estándar poblacional es aproximadamente o = 0.5. 11. En un laboratorio se midió el contenido, en litros, de cada uno de nueve envases de un litro de leche de cierta marca, con los siguientes resultados: 1.02,0.96, 1.03,0.94, 1.00, 0.92, 1.01, 0.97, 1.02. Encuentre un intervalo de confianza de 98% para la desviación estándar poblacional o, de donde se extrajo la muestra. 12. La desviación típica de la duración de una muestra aleatoria de 10 focos (bombillos) de cierta marca resultó ser S = 120 horas. Halle los límites de confianza de:
para la desviación típica de la duración de todos los focos de esa marca. 13. Un especialista en genética está interesado en la proporción de hombres africanos
que presentan un desorden sanguíneo leve. En una muestra aleatoria de 100 de ellos, se encontró que 24 presentaban dicho desorden. Calcule un intervalo de confianza de 99 % para la proporción de hombres africanos con este desorden sanguíneo. 14. Un fabricante de baterías para automóvil asegura que sus baterías duran, en promedio, tres años con una varianza d e un año. Si seis de estas baterías tienen duraciones d e 1.9, 2.0,4.0,3.0,3.5y 4.2 años, determine un intervalo de confianza de 95 % para la varianza e indique si es válida la afirmación del fabricante de que la varianza es igual a 1. Suponga que la población de las duraciones de las baterías se distribuye aproximadamente en forma normal. 15. Un ingeniero civil está probando la resistencia compresiva de concreto. Realiza una prueba con 16 especímenes y obtiene los siguientes datos: 2216,2237, 2249,2204, 2225,2301,2281,2263,2318,2255,2275,2295,2250,2238,2300,2217.Construya un intervalo de confianza respecto a la resistencia media. Suponga que la distribución de la resistencia compresiva es aproximadamente normal.
302
Parte 111. Inferencia estadística
16. Cierto porcentaje de estudiantes de una universidad considera que hay que cambiar el diseño de las evaluaciones de profesores, porque el formato actual las ha convertido en concursos de popularidad y además se presta a venganzas recíprocas. Suponga que se lleva a cabo una pequeña encuesta piloto en la cafetería y se observa que 30 % de los encuestados manifestaron estar a favor de una modificación en el diseño de las evaluaciones a docentes. Determine el tamaño de la muesti-a de estudiantes que se deben encuestar, para tener una confianza de 95 % de que el estadístico j estima al parámetrop con un margen de error de cuando mucho 10%. 17. Suponga que en el ejercicio 16 no se realiza ninguna encuesta piloto, y que se desea calcular directamente el tamaño de la muestra, bajo las mismas condiciones. 18. Un grupo de cirujanos dentistas de la Asociación Dental Mexicana A. C. desea averiguar el porcentaje de adolescentes que requieren trabajos de ortodoncia. Calcule una cota superior para el tamaño de una muestra de adolescentes que deben examinarse, con objeto de que el porcentaje registrado en esa muestra sea representativo del porcentaje verdadero de toda la población de adolescentes, con un margen de error de r18 % y un nivel de confianza de 96 % en la estimación. 19. En un plebiscito realizado entre los habitantes del D. F., se realiza una encuesta cuyo objetivo es averiguar la proporción (o porcentaje) p de habitantes de esa ciudad que r segundo piso en el Viaducto y el Perifériestán a favor de que se mande c o n s t ~un co. ¿Qué tan grande debe ser la muestra de personas que respondan a esa encuesta, si se desea que el máximo error en la estimación d e p sea igual a: 0.03 con 95 % de confianza? 6) 0.02 con 95 % de confianza? c) 0.03.con 90% de confianza?
q)
20. En una sucursal bancaria se tomó un registro del tiempo que los clientes permane-
cían en la ventanilla, para una muestra aleatona de ocho clientes, con los siguientes resultados: 2 min 55 s 4 min 39 s 4 min 16 s
3 min 5 s 3 min 34 s 7min2s
2 min 38 s 1min 44 s
Se requiere calcular: a) la varianza muestra19 6) un intervalo de 95 % de confianza para la desviación típica de la población c) un intervalo de 95 % de confianza para la media de la población.
Suponga que la distribución del tiempo de permanencia de los clientes en la ventanilla es normal. RESPUESTASDE LOS EJERCICIOSD E AUTOEVALUACIÓN 8.1
1. Sea
Iamedia de una muestra de tamaño n. Se requiere resolver la desigualdad:
o 3 El error típico de la media es oi = -= -. Entonces, usamos la fórmula:
Jñ Jñ
Luego, n
= 385.
3. n 2 373 soldados. 4. a) n 2 13 latas de atún 5. 136.08 < p < 143.92. 6. 28.5 k2.57583 X
&-
b) n 2 31 latas de atún.
esto es: 27.52 < p < 29.48.
7. n = 139. 8. Para a = 0.05, buscamos t , con n - 1= 9 grados de libertad en la tabla de valores críticos de la distribución t de Student. Hallamos el valor 2.26216. Por tanto, el intervalo buscado es:
Se halla entonces que 5.47 cm < p < 5.89 cm, con 95% de confianza. 0.624985 7. 2.2833 I 3.10582 X ,esdecir, 1.723
Jiz 10. 2.2833 Ic 2.57583 X -, es decir, 1.91< p < 2.66. Jiz 0.5
11. Los valores críticos X; Y x:-(@) con 8 grados de libertad son, respectivamente 20.0902 y 1.6465 (véase la tabla). Además hallamos con la calculadora que s = 0.0394; o sea, la varianza muestra1 es s2= 0.001553. Entonces, el intervalo para la varianza es el siguiente:
(n - l)s2
X&
(n -l)s2 8 X 0.001553 8 X0.001553
Al extraer raíz cuadrada se determina, finalmente, que 0.025 litros 5 o 5 0.087 litros. b) 74.12 horas I o 5273.3 horas. 12. a)82.54 horas I o 1219.07 horas 13. 0.13 < p < 0.35, es decir, entre 13%y 35%. 14. 0.377 5 o2I 5.823. Sí es válida su afirmación, porque es un valor dentro del intervalo. 15. 2239.36 < p < 2276.14.
16. n 2 (STX
., .
0.30 X 0.70 = 8 O H
debe realizar la encuesta a 81 estudiantes al azar.
304
Parte 111. Inferencia estadística
( ~ 1 ( J
0.25 = 96.04. Se debe aplicar la encuesta a 97 estudiantes al azar.
17. n
l8
2'053748 0.08
C)
x 0.25 = 164.76. Se deben examinar las bocas de 165 adolescentes.
Intervalo para p: 3.7354 2 2.36462 X
TEST SOBREESTIMACI~NDE P-OS, DE CONFIANZA Y T u 0 DE MUESTRA
1.618726
;portanto:2min23s
6-
INTERVALOS
En el siguiente cuadro, anote con lápiz suave sus respuestas. Los procedimientos debe realizarlos en hojas separadas, y no en el libro. (En el apéndice D se dan las respuestas correctas para que las coteje con las suyas.)
1. Los contenidos de ácido sulfúrico de siete recipientes similares (en litros) son: 9.8, 10.2, 10.4,9.8, 10.0, 10.2 y 9.6 litros. Obtenga un intervalo de confianza de 95 % para la media de todos los recipientes, suponiendo una distribución aproximadamente normal.
2. A una muestra aleatoria de 16 señoritas egresadas de una escuela para secretarias se les practicó una prueba mecanográfica para tomar el tiempo empleado en escribir un dictado en la computadora, y en cada caso se registró el número de palabras escritas por minuto, con los siguientes resultados:
Suponiendo una distribución normal, obtenga un intervalo de confianza de 95 % para el número promedio de palabras escritas por minuto por todas las egresadas de la escuela.
Cap. 8. Estimación de parárnetros
305
3. Repita el ejercicio 2, pero además considere que la desviación estándar de la población de donde se sacaron los datos es de o = 4.5.
4. De una máquina automática expendedora de refresco gaseoso se tom6 una muestra aleatoria de 12 s e ~ c i oys se midió cuidadosamente el contenido neto servido en cada caso, con los siguientes resultados (en decilitros):
Obtenga un intervalo de confianza de 95 % para el contenido promedio real de la cantidad de refresco que contienen los vasos servidos por esa máquina (en decilitros), si se supone que la población de donde provienen esos datos se distribuye normalmente, con varianza de 0.01.
5. Repita el ejercicio 4, considerando que la varianza de la población es desconocida,
6. Se desconoce la distribución de probabilidad de cierta variable aleatoria X, y tampoco se tiene idea de cuál sea el valor de su media (p); no obstante, hay motivos para asegurar que la desviación típica de X es aproximadamente o = 3. ¿De qué tamaño debe ser una muestra aleatoria de valores de X, para tener una confianza mínima de 95 % de que la discrepancia entre la media muestra1 y la media verdadera de la población será menor que 0.3?
7. A una muestra aleatoria de 36 estudiantes de los últimos semestres de una universidad se les proporcionó una encuesta para que contestaran con franqueza cuántas horas en promedio dedicaban semanalmente al estudio de sus asignaturas, en casa o en la
306
Parte 111. Inferencia estadística
biblioteca. Al analizar los datos de la encuesta se halló que la media era de 2 horas 36 minutos, con una desviación típica de 18 minutos. Obtenga un intervalo de confianza de 99% para el tiempo promedio real que dedican al estudio los alumnos de últimos semestres de esa universidad.
8. En relación con el ejercicio 7, ia cuántos estudiantes de los últimos semestres se les debe aplicar la encuesta, si se desea tener una confianza de 95 % de que el error en la estimación de la media sea menor que 0.05?
9. La vida útil (duración) de los focos fabricados por una empresa sigue una distribución aproximadamente normal, con desviación estándar de 40 horas. Se tomó una muestra aleatoria de 30 focos y se halló que su vida promedio era de 780 horas. Construya un intervalo de confianza de 96% para la duración media (en horas) de todos los focos producidos por esa compañía.
10. Repita el ejercicio 9, pero tomando en cuenta que la muestra aleatoria es de 20 focos (en lugar de 30).
11. En relación con el ejercicio 9, ¿qué tan grande debe ser la muestra, si se desea tener una confianza de 96 % de que la media de la muestra está dentro de 10 horas de la media verdadera?
12. Una muestra aleatoria de ocho cigarrillos de determinada marca tiene un contenido promedio de nicotina de 2.6 mg por cigarrillo, con una desviación estándar de 0.9 mg. Obtenga un intervalo de confianza de 99% para el contenido medio verdadero de nicotina (en mg) por cigarrillo (de esa marca), suponiendo que el contenido de ese alcaloide se distribuye normalmente en los cigamllos.
9.1. HIP~TESIS ESTAD~STICAS,ERRORES Y GLOSARIO DE TÉRMINOS
La teoría de pruebas de hipótesis (también llamadas ensayos de hipótesis, contraste de hipótesis opruebas de signzj?cación) es una parte fundamental de la inferencia estadística, creada y desarrollada por Jerzy Neyman (1894-1981),un estadístico y matemático de origen polaco, naturalizado ciudadano estadounidense y considerado uno de los más grandes exponentes en estadística de todos los tiempos. Una prueba de hipótesis es un procedimiento estadístico simple cuya finalidad es corroborar o desmentir alguna afirmación que se hace en relación con un parámetro poblacional. Para hacer esto, se toma una muestra aleatoria de la población y se calcula el valor de un estadístico deprueba, el cual debe obedecer ciertas leyes estadísticas comprobadas. Según como resulte o se comporte el estadístico de prueba, se podrá aceptar o rechazar alguna hipótesis previamente establecida. Al emitir la decisión final de rechazar o aceptar la hipótesis original, uno corre el riesgo de equivocarse y darle un valor significativo erróneamente a algo que sólo ocurrió de manera fortuita. Esto es inevitable, porque el azar siempre está presente y es como un pequeño demonio que a veces nos trae buena suerte, pero otras veces nos juega tretas y nos conduce al error. Imagínese, por ejemplo, que de pronto nos visitaran unos seres extraterrestres y lo primero que viesen en nuestro planeta fuese a dos niños jugando a lanzar al aire una moneda y ver si cae águila o sol (juego de volados). Supongamos que esos seres están escondidos y toman nota de una serie de 10 volados, de los cuales siete cayeron con el lado de águila hacia arriba. Al regresar a su planeta,
308
Parte 111. Inferenciaestadística
podrían informar que los terrícolas tienen un pasatiempo curioso que consiste en lanzar al aire unos pequeños discos metálicos que 70 % de las veces caen con el lado del águila hacia arriba. Nosotros sabemos que esa conclusión es errónea, producto de la extrapolación d e un hecho fortuito, y que en general 50 % d e las veces las monedas tenderán a caer con el signo de águila hacia arriba, porque hay un principio estadístico @y de los Grandes Números) que lo respalda. No necesitamos ir tan lejos para comprobar extrapolaciones equivocadas de hechos casuales. A decir verdad, los humanos somos proclives a generalizar sin fundamento. Por ejemplo, algún día alguien vio un loco que salió cuando había luna llena y entonces concluyó que "cuando hay luna llena, salen los locos a la calle" y hasta les llamó lunáticos.Aunque parezca chiste, esto es cierto. Hace muchos años un regente (alcalde) del Distrito Federal que tenía pereza de hacer un censo estadístico de la población, tomó la primera muesu-a de personas que vio a su alrededor y la extrapoló, tras lo cual anunció con toda seriedad un dato estadístico que se hizo muy famoso en su tiempo y que todavía muchos creen: "En el Distrito Federal, por cada hombre hay siete mujeres, dos generales y un afeminado." Es auténtico. Al realizar una prueba de hipótesis, podemos cometer dos tipos de error, llamados universalmente error de tipo I y error de tipo II, los cuales definimos a continuación, junto con otros términos usuales.
Error de tipo 1. Consiste en rechazar una hipótesis que es cierta y debería haberse aceptado. Por ejemplo, cuando un instructor pone calificación reprobatona a un estudiante que entendió y asimiló todo el contenido del curso perfectamente, pero que por mala suerte falló en los exámenes, se comete un error d e tipo 1; o cuando se rechaza la alegada inocencia de un acusado, que en realidad es inocente pero que no pudo dar pruebas suficientes a su favor, también se comete un error de tipo 1. Error de tipo 11. Consiste en aceptar como válida una hipótesis que es falsa y debería haberse rechazado. Esta es, como se dice, "la otra cara de la moneda". Si un jurado acepta la supuesta inocencia de un acusado que en realidad es culpable, pero que por falta de pruebas en su contra se acepta la hipótesis de que es inocente, entonces se comete un error d e tipo 11. O también, cuando un instructor acepta la hipótesis de que un alumno entendió y asimiló el curso, pero que en realidad tuvo suerte o logró copiar a sus compañeros sin saber casi nada, entonces el instructor comete un error de tipo 11 al ponerle calificación aprobatoria. Hipótesis nula. Se llama así a una suposición inicial que sirve para echar a andar el procedimiento de una prueba o verificación de una hipótesis estadística relativa a algún parámetro de una población. Por lo general se usa el símbolo H, para denotar la hipótesis nula. Es importante señalar que una hipótesis nula siempre debe estar expresada mediante alguna igualdad (=: igual a) o cuando mucho un signo de I(menor o igual que) o de 2 (mayor o igual que). No se puede establecer una hipótesis nula que involucre'sólo un signo de desigualdad del tipo e (menor que) o bien > (mayor que). Además, la hipótesis nula debe ser en principio inocua o inofensiva. Por ejemplo, si se sospecha que el señor que vende quesos y fruta en la esquina ha alterado su balanza para dar en realidad menos de lo que la gente pide, al
Cap. 9. Pruebas de hipótesis paramétricas
309
elaborar una hipótesis nula, ésta no puede consistir en suponer que el señor nos engaña y nos ofrece menos de lo que supuestamente da. Tenemos que suponer que él es honesto y que nos entrega el peso exacto d e la mercancía que pedimos (o aun más). Ya será el procedimiento estadístico d e prueba el que se encargará de desmentir o rechazar esa suposición. Hipótesis aiternativa. Establece lo contrario de la hipótesis nula. Si ésta es rechazada, entonces será la hipótesis alternativa la que se tome tentativamente como válida, y viceversa. Y decimos "tentativamente" porque d e ninguna manera se acepta de manera tajante y concluyente, pues quizá alguna prueba futura, realizada con mayor precisión, podría ponerla en tela de juicio. Una hipótesis alternativa se denota por el símbolo Ha,o también por el símbolo H,. Por ejemplo, en nuestra sociedad se ha aceptado la hipótesis de que el humo del cigarro provoca cáncer, debido a que un gran número d e pruebas estadísticas realizadas con muestras de fumadores, y bajo la suposición d e que el humo del cigarro era inofensivo, fueron rechazadas. Pero ello no quiere decir que se esté 100% seguro de que el humo del cigarro ocasiona cáncer. Todos conocemos muchos casos de personas que fumaban constantemente y llegaron a vivir casi cien años sin haber padecido jamás ninguna forma d e cáncer; por otra parte, también conocemos innumerables casos d e personas que tuvieron cáncer y jamás en su vida fumaron ni un solo cigarrillo. Las pruebas estadísticas sólo han servido para concluir que "es probable que el cigarro provoque cáncer". ¿Qué tan probable? Quizá haya una probabilidad superior a 0.8 o aun mayor en la validez de esa afirmación, como muestran los ensayos estadísticos. Pero siempre hay una pequeña probabilidad de que tal vez esa afirmación sea falsa. Asimismo, podríamos argumentar que el estar tendido en una cama es sumamente peligroso, porque 80 % o más de las personas que han muerto lo hicieron estando tendidas en una cama. Nivel de significación de una prueba. Se llama así a la probabilidad máxima d e cometer un error de tipo 1, y dicha probabilidad se suele denotar universalmente por la letra griega a. Lo más usual es que al principio uno establezca cuál es el valor de a que desea aplicar en la prueba. Resulta común tomar los valores a = 0.05 o bien a = 0.01. A la probabilidad máxima de cometer un error de tipo 11 se le denota por la letra griega P. Y aunque p no tiene ningún nombre especial, el número 1- B se llama potencia de la prueba. Si la hipótesis alternativa es vaga, en el sentido que involucra un signo e o >, entonces no se puede cuantificar el valor de p. Para poder calcular un valor numérico d e flse necesita que la hipótesis alternativa sea específica, esto es, que involucre el signo =. Estadístico de prueba Es una magnitud calculada mediante una muestra aleatoria y que involucra algún estadístico o combinaciones de estadísticos, y cuyo valor se usará finalmente para contrastar con algún valor estadístico tabulado, y entonces decidir si procede o no el rechazo de la hipótesis nula. Por eso una prueba de hipótesis se llama también contraste de hipótesis, porque a fin de cuentas el momento de decidir si se rechaza o no la hipótesis nula, ocurre al contrastar el valor numérico de un estadístico de prueba con otro valor numérico, usualmente tabulado, que rige el comportamiento hipotético de la población de donde se extrajo la muestra, d e acuerdo con la distribución supuesta y con la Ley de los Grandes Números. Esta es una ley fundamental en
3 10
Parte 111. Inferencia estadktica
estadística que establece que si los supuestos de distribución son correctos, entonces los estadísticos observados en diferentes muestras tienden como limite a losparámetros teóricos correspondientescuando el tamaño de muestra tiende a injinito;enparticular lasfrecuencias relat?vasobservadas tienden a lasprobabilidades teóricas como límite. Regla de decisión. Es una especificación clara de cuánio se rechazará la hipótesis nula y cuándo no se rechazará. La regla de decisión siempre está relacionada con el nivel de significación a de la prueba, en el sentido de que si a se conoce de antemano, entonces la regla de decisión se deduce de manera única, y recíprocamente: si sólo se dispone de una regla de decisión al principio, entonces no se debe establecer ningún valor para a , ya que éste quedará determinado en forma automática, de acuerdo con la regla de decisión elegida. No se deben especificar ambas cosas de antemano, el valor de a y la regla de decisión, ya que podrían ser contradictorios. En la mayoría de los casos, se acostumbra especificar el valor de a al principio, y entonces la regla de decisión se deduce o se infiere, de acuerdo con el modelo. Pero no hay nada de malo en hacerlo al revés. Casi todo mundo lisa cotidianamente reglas de decisión en su vida. Por ejemplo, si usted va de compras y desea adquirir una calculadora científica o un libro que le interese, entonces pondría una regla de decisión más o menos así: "Si cuesta cuando mucho 200 pesos, entonces la compro, pero si cuesta más, no compraré nada." O bien, cuando se hace un examen de admisión para ingresar a una escuela, los que lo elaboran ponen una regla de decisión: "Si un aspirante obtiene más de 65 puntos, entonces será aprobado, de lo contrario será reprobado."
9.2. EJEMPLOS DE PRUEBAS DE HIP~TESIS Y ERRORES DE TIPOS 1 Y 11 En esta sección se examinan algunos ejemplos ilustrativos simples. En el primer ejemplo, la regla de decisión está dada y sólo se debe hallar el valor de a. En el segundo se da de antemano el valor de a, y entonces hay que determinar cuál es la regla de decisión. Ejemplo 9.1. Una persona, llamémosla A, le entrega dos tarjetas a su amigo B, las cuales son de distintos colores, y afirma que es capaz de adivinar el color de una tarjeta escondida por lo menos 75 % de las veces. Entonces B propone la siguiente prueba para comprobar o desmentir la supuesta habilidad de A: Va a esconder una tarjeta al azar 12 veces, sin queA vea, y si éste logra adivinar el color correcto en por lo menos nueve de las 12 veces, entonces aceptará tentativamente que A tiene esa habilidad de la que presume, pero de lo contrario la rechazará. Se requiere calcular la probabilidad de que la afirmación sea rechazada cuando en realidad es cierta. Solución:Seap la probabilidad de que A acierte el color de una tarjeta. Si es verdad lo queA afirma (hipótesis nula), entoncesp = 0.75 (o bienp 2 0.75). La afirmación será rechazada si A acierta en menos de nueve de los 12 intentos (regla de decisión). La probabilidad de que ello ocurra es, por tanto:
Cap. 9.Pruebas de hipótesis paramétricas
311
Un valor tan grande para a como en este ejemplo no es conveniente. Ello se debe a que la regla de decisión establecida es demasiado estricta para un error de tipo 1, y para un tamaño de la muestra que no es suficientemente grande (sólo n = 12 intentos). El valor de a sólo puede reducirse si se aumenta el tamaño de muestra n o bien si se pone una regla de decisión adecuada a ese tamaño de muestra, o ambas cosas. El inconveniente de manipular la regla de decisión radica en que, si bien se logrará reducir la probabilidad del error de tipo 1 (a), el costo será un incremento en el error de tipo 11 (B). Comprobemos esto: la probabilidad de que la afirmación sea aceptada cuando en realidad es falsa (esto es, cuandop = 0.5, porque A sólo está adivinando) está dada por:
lo cual es un valor pequeño y aceptable. Si B decidiera hacer menos rigurosa su regla de decisión y dijera que la afirmación será aceptada si A logra atinar el color en por lo menos siete d e los 12 intentos, el valor de a (probabilidad de cometer error d e tipo 1) sería, entonces:
x-o
el cual es un valor bastante aceptable (casi 5 %). Sin embargo, ahora la magnitud de B (probabilidad de cometer error d e tipo 11) será:
Entonces nos damos cuenta de que no se puede ganar nada mientras no se aumente el valor de n. Al principio se tenía un valor aceptablemente pequeño para j3,pero un valor demasiado grande para a,y al manipular la regla d e decisión se logró disminuir mucho el valor de a, pero entonces aumentó el valor de P a un tamaño inadecuado. Supongamos que ahora la persona B aumenta el tamaño d e n y propone una regla de decisión razonable: Esconderá una tarjeta al azar n = 120 veces y decidirá que se acepta la afirmación de su amigo A, si éste acierta por lo menos 82 de los 120 intentos. Entonces, los valores d e a y B serán los siguientes:
Resulta claro, entonces, que la única forma de reducir simultáneamente las probabilidades de errores d e tipo 1 y d e tipo 11 consiste en aumentar el tamaño d e la muestra, lo cual es además una consecuencia d e la Ley d e los Grandes Números de Bernoulli. Ejemplo 9.2. Retomando el caso de los dos amigos A y B del ejemplo anterior, supóngase ahora que B desea diseñar una regla de decisión, con n = 120, de tal manera que a = 0.05, o en todo caso lo más cercano posible a 0.05. ¿Cuál debe ser entonces la regla de decisión? Solución:Usemos la aproximación normal para la binomial. El valor de Z que tiene 5 % de área bajo la curva a mano izquierda es:
Por otra parte, tenemos:
Por tanto, se tiene:
Esto significa que con 82 aciertos como tope para la regla de decisión nos acercamos lo más posible al valor especificado a = 5 %. Podemos comprobar esto fácilmente:
En tal caso, la regla de decisión es: SiA acierta en los colores de más de 82 de las 120 tarjetas, se acepta la afirmación; en caso contrario,se rechaza. El nivel de significaciónque provoca esta regla de decisión es de a = 0.05955 < 6%.
En los ejemplos d e la sección anterior, al individuo B no le preocupaba la posibilidad de que su amigo A tuviese un número inusualmente pobre d e aciertos. A decir verdad, era de esperarse que hasta un chimpancé con los ojos cerrados hubiese acertado más o menos a la mitad de los colores, así que siA acertaba, por ejemplo, sólo uno o ningún color d e los 12 intentos, no sólo sería obvio que carecía del poder del que s e ufanaba, sino que además evidenciaría su mala suerte. Este es un típico ejemplo de lo que s e llama ensayo unilateral o también en-
Cap. 9. Pruebas de hipótesis paramttricas
3 13
sayo de una sola cola. Los ensayos unilaterales (ya sea de coia izquierda o d e cola
derecha) son muy comunes. Si usted tiene mucha hambre, va a un restaurante d e comida rápida en el que se anuncia que la orden de papas fritas a la francesa tiene 400 g de papas, y al pedir y pagar una orden le sirven algo así como 800 g, no tendría motivos para reclamar, porque le responderían que se comiera lo que gustara y dejara lo que ya no quisiera. Pero si le sirvieran sólo 300 g, quizá sí debería reclamar (a menos que no le gusten las papas a la francesa). Una prueba d e hipótesis se llama bilateral cuando .la hipótesis alternativa involucra el signo + (diferente de) para el parámetro que se somete a prueba. Por ejemplo, si uno está ensayando la hipótesis de que aproximadamente 50% de la población son mujeres, la alternativa sería que ese porcentaje fuese diferente de 50% (mayor o menor). Por otra parte, una prueba se llama unilaterai (o d e una cola) cuando la hipótesis alternativa involucra el signo < (prueba unilateral izquierda) o bien el signo > (prueba unilateral derecha). Como podemos ver, es precisamente el signo que se usa en la hipótesis alternativa el que nos da la clave acerca de si la prueba es de cola izquierda, de cola derecha o de ambas colas.
9.4. h U M E N DEL PROCEDIMIENTO PARA UNA PRUEBA DE HIP~TESISEN GENERAL
Paso 1. Se emite una hipótesis nula (Hd relativa a algún parámetro de la población. La. hipótesis debe involucrar alguno de los signos =, 2 o S, pero no puede involucrar ninguno d e los signos <, > ni 2,los cuales se reservan para
la hipótesis alternativa. Al mismo tiempo, se especifica la hipótesis alternativa Ha, la cual establece lo contrario de la hipótesis nula. Paso 2. Se especifica un nivel d e significación a a usar. Lo convencional es emplear los niveles de 5 % (a = 0.05) o de 1% (a= 0.01), pero ello no es obligatorio. Paso 3. Se extrae de la población una muestra aleatoria de tamaño n, y se calcula el estadístico de prueba apropiado. Paso 4. Se compara el valor numérico obtenido para el estadístico de prueba con el valor numérico correspondiente del modelo teórico que se va a seguir, usualmente empleando las tablas de percentiles o de valores críticos de alguna distribución estadística teórica. Paso 5. De acuerdo con el contraste de valores numéricos del paso 4 se decide si se rechaza la hipótesis nula o no se rechaza, bajo el entendido de que si no se rechaza, entonces significa que se acepta sólo de manera tentativa o provisional, a reserva de efectuar pruebas ulteriores que corroboren o desmientan esa decisión.
9.5. ESQUEMA GU~APARA LA PRUEBA DE HIPOTESIS RELATIVA A UNA MEDIA
En el esquema de la figura 9.1, que recomendamos aprender de memoria, se especifican los estadísticos d e prueba que deben usarse en cada caso, al hacer
i 1
1
1 I
1
1i 1
ii i
1 i !
estadística no
i 1i
Figura 9.1
pruebas de hipótesis concernientes a la media de una población. Obsérvese que sólo cuando la muestra es pequeña y la población no es normal, no hay ninguna prueba de hipótesis paramétrica adecuada, aunque en tales casos hay varios métodos no paramétricos que se pueden emplear. Los valores críticos de la distribución t de Student con n - 1grados de libertad se emplean únicamente en el caso de que la muestra sea pequeña y la varianza de la población se desconozca, pero por lo menos se sabe que ésta se distribuye de manera normal o aproximadamente normal. El símbolo p, significa la media que se toma en la hipótesis nula H,, es decir, en todos estos casos la hipótesis nula es H , : { p = CL,). En las figuras 9.2,9.3 y 9.4, se ilustran las zonas de rechazo para los tres tipos de pruebas relativas a una media poblacional, donde a es el nivel de significación de la prueba. En la prueba de cola izquierda (fig. 9.2), la hipótesis nula H,:{y = CL,)puede escribirse también como H,:{y 2 y,), mientras que en la prueba de cola derecha (fig. 9.3), la hipótesis nula H,:{y = y,) se puede escribir como Ho:{yIyo).
Estadístico de prueba:
Figura 9.2. Prueba de cola izquierda.
Estadístico de prueba:
Figura 9.3. Prueba de cola derecha.
Estadístico de prueba:
Figura 9.4. Prueba de dos colas.
9.6. PRUEBAS
PARA LA MEDIA DE UNA POBLACI~N: CASO DE MUESTRA GRANDE
Ilustraremos el caso de una muestra grande con algunos ejemplos típicos. Ejemplo 9.3. Los paquetes de café Bemoka de Colombia de medio kilogramo dicen "contenido neto 500 g". Se eligieron al azar 50 paquetes y se pesaron con una balanza analítica, tras lo cual se registraron los siguientes datos muestrales: 3C= 492 g, S = 34.4 g. A primera vista, parece que el peso neto promedio de los paquetes fuese tal vez menor que el anunciado. Efectuar una prueba al nivel de a = 0.05, para ensayar la hipótesis: H , : { p = 500 g) (o bien p 2 500 g) contra la alternativa Ha:@ < 500 g)
Solución: El valor crítico de Z que servirá como Frontera entre la zona de rechazo y la zona de aceptación de la hipótesis, es:
Véase la figura 9.5.
5 % del área baio la curva
4
J'
\
Zona de rechazo -1.645 de la hipótesis H, d I
Figura 9.5 Ahora comparamos este valor con el estadístico de prueba:
Aunque es un número muy parecido al valor crítico, queda a la derecha de éste, es decir, queda en zona de aceptación. Por tanto, no es posible rechazar H,, y la prueba
Cap. 9. Pruebas de hipótesis paramttricas
3 17
muestra que no hay razones para suponer que el contenido neto medio de los paquetes es menor que el anunciado.
El vdor p (en inglés p-value), también llamado nivel de significación experimenta o descriptivo, en una prueba de hipótesis, es la probabilidad de observar un valor del estadístico d e prueba que sea por lo menos tan extremoso como el valor calculado con la muestra dada. Por supuesto, cuanto más pequeño sea el valorp d e una prueba tanto mayor evidencia habrá en contra de la hipótesis nula H . En el ejemplo anterior, el valorp de la prueba es el área bajo la curva normal a a! izquierda de -1.6444, es decir:
Ejemplo 9.4. El departamento de seguridad de una fábrica desea saber si el tiempo promedio red que requiere el velador para realizar su ronda nocturna es de 30 minutos. Se tomó una muestra al azar de 32 rondas y el velador promedió 30.8 minutos con una desviación estándar de 1.7minutos. a ) Realizar una prueba de hipótesis, con a = 0.01, que permita averiguar si hay evidencia suficiente para rechazar la hipótesis nula {p = 30 minutos) en favor de la hipótesis alternativa {p f 30 minutos). b) Calcular el valorp de la prueba.
a ) Se trata de un ensayo bilateral (de dos colas). Los valores de Z críticos son aquellos con áreas respectivas de 0.005 en sendas esquinas bajo la curva, es decir, f2.576. El estadístico de prueba es:
Este valor cae en zona de rechazo, porque es mayor que 2.576. Por consiguiente, se rechaza la hipótesis de que el tiempo promedio real que hace el velador en sus rondas es de 30 minutos, en favor de la alternativa, y concluimos que es muy probable que el velador baga un tiempo promedio diferente de 30 minutos. Esto se traduce a lo siguiente: "Hay una probabilidad de 0.99 de que las discrepancias que hay entre el promedio hipotético úL, = 30 minutos) y el promedio de los datos muestrales (?= 30.8) no puedan atribuirse a la casualidad." Desde luego, hay una pequeña probabilidad de 0.01 de que esa diferencia observada si sea obra del azar, y en esa misma proporción, sería injusto y erróneo llamarle la atención al pobre velador (error de tipo 0. b) El vaiorp de la prueba es el área bajo la curva normal a la derecha de 2.662 más el área que hay a la izquierda de -2.662, esto es:
3 18
Parte 111. inferencia estadística
Lo que nos dice este valorp de la prueba es que cualquier prueba de hipótesis que hubiésemos hecho en este ejemplo con a > 2 x 0.00388 hubiera conducido a rechazar la hipótesis nula, mientras que si a hubiese sido menor que 2 x 0.00388, entonces no podría haberse rechazado H,. Por ejemplo, si a = 0.004, entonces la localización de los valores de Z críticos hubiera estado en fW(0.998) = f 2.878, y en ese caso, el valor calculado del estadístico de prueba (2.662) no habría caído en zona de rechazo. Esto es, no podemos asegurar con probabilidad de 0.996 que las diferencias observadas sean significativas. (Se usa la palabra signz$cativo en estadística como sinónimo de algo que no puede ser obra de la casualidad.) Si el valor calculado del estadístico de prueba cae en zona de rechazo es porque hay evidencia significativa en contra de la hipótesis nula (con el nivel de significación elegido). Obsérvese que en el ejemplo del café, los datos muestrales mostraron también una discrepancia con el promedio supuesto, y sin embargo, la hipótesis no fue rechazada, ya que no se puede afirmar con probabilidad de 0.95 que las discrepancias observadas sean significativas.
9.7.hUEBAS PARA UNA MEDIA POBLACIONAL: CASO DE MUESTRA PEQUE~~A
Para muestras pequeñas con varianza poblacional desconocida y población supuestamente normal, se emplean las tablas de percentiles o de valores críticos de la distribución t de Student con n - 1grados de libertad. Veamos un ejemplo. Ejemplo 9.5. En una pizzería afirman que el tiempo promedio en la entrega de sus pizzas a domicilio (dentro de la zona en que ellos hacen entregas) es de cuando mucho 40 minutos desde el momento en que se ordenan las pizzas. Para una muestra aleatoria de 10 pedidos de piua a domicilio (domicilios aleatorios dentro de la zona) se registraron los siguientes tiempos d e entrega en minutos (redondeados al minuto más cercano): 38,48, 37,39,46,46,43,42,44y 40. Si se supone que la distribución de los tiempos de entrega es normal, realizar una prueba de hipótesis con nivel de significación a = 0.04, para ensayar la hipótesis nula H,:{p I40) contra la hipótesis alternativa Ha:{p> 40). Solución:Con una calculadora d e bolsillo, se halla queZ = 42.3 min, S = 3.743 min. El valor del estadístico de prueba es, en consecuencia:
Por otra parte, el valor crítico t,,, (es decir, percentil correspondiente a p = 0.96) en la distribución t de Student con v = 10 - 1 = 9 grados de libertad se halla en las tablas de percentiles de esa distribución. Como dicho valor es 1.9727> 1.943,no se puede rechazar la afirmación de la pizzería al nivel de a = 0.04. En este mismo ejemplo, el valorp de la prueba (o nivel de significación experimental) es el área a la derecha de 1.943 en una distribución t de Student con nueve grados d e libertad. Con Excel se calcula así:
Cap. 9. Pruebas de hipótesis paramétricas
3 19
El 1 que se escribe dentro del paréntesis indica una cola. EUo implica que en este ejemplo, sólo un nivel de significación mayor que 0.0419 permite rechazar H,,. Ejercicio 9.1. Con Ekcel, elabore una tabla de percentiles importantes de la distribución t de Student, en donde tc represente el punto sobre el eje X tal que, a mano izquierda de él y bajo la curva t de Student con v grados de libertad, se tenga un área exactamente igual a c. Considere grados de libertad del 1al 30 y añada una fila al final que corresponda a los percentiles correspondientes de la normal estándar (o t de Student con grados de libertad). Considere 13 columnas, correspondientes a t para c igual a 0.995,0.990,0.985,
0.980,0.975,0.970,0.965,0.960,0.955,0.950,0.94~,0.940 y 0.900, respectivamente. Tome precisión de sólo cuatro dígitos decimales después del punto. Esta tabla que hará es de enorme utilidad en estadística práctica. Le recomendamos imprimirla y enmicarla. Recuerde que para calcular con Ejrcel el percentil tc de la t de Student con v grados de libertad, se emplea la sintaxis:
Cuando termine su trabajo, compárelo con la tabla siguiente (tabla 9.1).
9.8. DETERMINACI~N DEL TUO DE MUFSTRA
EN UNA PRUEBA DE HIP~TESISRELATWA A UNA MEDIA POBLACIONAL
Ya vimos cómo calcular el tamaño óptimo d e muestra en la estimación de un intervalo de confianza relativo a una media o a una proporción. También hay una fórmula útil para determinar el tamaño de muestra recomendable en una prueba de hipótesis relativa a una media, pero esta fórmula requiere d e la especificación d e una máxima probabilidad tolerable para el error de tipo 11 en un valor particular p = de la hipótesis alternativa. Consideremos la figura 9.6 (pág. 322). En ambas curvas se representa una posible distribución muestra1 d e medias para muestras de tamaño n, pero en la de arriba la media es p.? =p., , mientras que en la de abajo es y? =p., . En la curva de abajo, j3 representa la máxima probabilidad tolerable para un error de tipo 11 en caso que la media fuese y,. En la curva de arriba, a es el nivel de significación de la prueba. Para esta figura particular se ha tomado Ho:{y2 ko)y Ha:{p< h). Si la prueba fuese de cola derecha, las curvas estarían más o menos intercambiadas, pero el razonamiento y la fórmula final serían iguales. Pero si la prueba fuese de dos colas, lo único que cambiaría, tanto en el razonamiento como en la fórmula final, sería que en lugar de a se tomaría En la figura de arriba, c es el valor crítico tal que Z e c determina la región de rechazo de la prueba. Abajo tenemos dónde se vería ubicado el mismo punto c con respecto a la distribución con media y = p.a. Resulta claro que en la distribución de arriba, el punto c se localizaría como sigue:
m.
(En caso de ser prueba de cola derecha, sólo se cambiaría el signo menos por un signo +.)
Tabla 9.1. Percentiles importantes de la distribuuón t de Student con v grados de libertad. El último renglón (m grados de libertad) corresponde a la distribución normal estándar. Para percentiles simétricos a la izquierda del origen se usan los mismos valores pero con signo negativo; por ejemplo: t,,,, = -to
.,.
,
,--
C
v
0.995
163.656
0.990 31.821
0.985 21.205
0.980 15.895
0.975 12.706
0.970 10.579
ir-pG-
0.965
0.960
0.955
0.950
O.!
9.0579
7.9158
7.0264
6.3137
5.72Y7
5.2422
3.0777 -
2
9.9250
6.9645
5.6428
4.8487
4.3027
3.8964
3,5782:
3.3198
3.1040
2.9200
2.7604
2.6202
1.8856
3
5.8408
4.5407
3,8961
3.4819
13.1824
2.9505
2.7626
2.6054
2.4708
2.3534
2.2494
2.1562
1.6377
4
4.6041
3.7469
3.2976
2.9985
2.7765
2.6008
2.4559
2.3329
2.2261
2.1318
2.0475
1.9712
1.5332 -
2.1910
2.0978
2.0150
1.9405
1.8727
1.4759
2.1043
2.0192
1.9432
1.874
1.8117
1.4398
2.0460
1.9662
1.8946
1.8297
1.7702
1.4149
5
4.0321
3.3649
3.0029
2.7565
2.5706
2.4216
2.2974'
61
3.7074
3.1427
2.8289
2.6122
-.-
2.4469
2.3133
2.2011
7
3.4995
2.9979
2.7146
2.5168
2.3646
2.2409
2.1365
1
/
i. , '
b) Distribución muestra1de F cuando Ho es falsa YCLa
La desviación estándar de ambas distribuciones
Figura 9.6
En forma.análoga, en la segunda distribución se tendrá:
En estas dos ecuaciones, los símbolos zay zPdenotan, respectivamente, los valores críticos (percentiles) de la normal estándar, con d&zo positivo, que tienen áreas de a y B en las respectivas colas que determinan. Al restar miembro a miembro la expresión 1de la 2, elevar al cuadrado y despejar n se obtiene:
Esta fórmula permite calcular el tamaño recomendable d e muestra antes de realizar una prueba d e hipótesis para la media poblacional, bajo las condiciones que se expusieron al principio. Se puede demostrar que si la prueba fuese bilateral, sólo haría falta cambiar zapor z, en la fórmula 3. Ejemplo 9.6. Se desea ensayar la hipótesis nula (con a = 0.05) de que una oftalrnóloga demora, en promedio, por lo menos 30 minutos en cada consulta con el paciente en turno, contra la alternativa de que demora menos tiempo en promedio. Si la hipótesis inicial fuese falsa, se estaría dispuesto a tolerar una probabilidad máxima de $ = 0.08 para el error de tipo 11 cuando el tiempo promedio fuese de 26 minutos. Si se sabe que los
Cap. 9. Pruebas de hipdtesis paramttricas
323
tiempos de consulta siguen una distribución normal con o = 5 minutos, ¿cuál es el tamaño recomendado para la muestra de pacientes? Solución: Se sustituyen los valores correspondientes en la fórmula 3 y se obtiene:
lo cual implica que el tamaño de muestra recomendable es de n = 15 pacientes, a fin de que la prueba de hipótesis que se realice tenga las características deseadas. Ejemplo 9.7. Una nutrióloga quiere probar la hipótesis de que un litro de leche envasada de cierta marca contiene en promedio 48 g de carbohidratos, contra la alternativa de que es una cantidad diferente. Además, se tolerará una probabilidad de 0.12 de cometer un error de tipo 11 si el contenido promedio fuese de 50 g. Si la desviación estándar del contenido de carbohidratos por litro es de o = 2.8 g, calcular el tamaño de muestra adecuado para realizar la prueba, usando el nivel de significación de a = 0.04. Supóngase una distribución normal. Solución :
Por tanto:
Entonces, es suficiente analizar una muestra aleatoria de 21 litros de leche de esa marca.
9.9. CRITERIOS DEL VALORP
DE LA PRUEBA
PARA RECHAZAR H,
Como se mencionó antes, el nivel de significación experimental -o valorp de la prueba- es a menudo más útil para decidir si conviene rechazar la hipótesis nula que un nivel de significación prefijado de antemano. Ello se debe a que cuanto más pequeño sea el valorp de la prueba tanto más significativos serán los resultados de la misma en contra de la hipótesis nula. Los criterios convencionales son los siguientes: 1. Si el valorp es mayor que 0.10, entonces no se aconseja rechazar Ho.En tal caso se dice que los resultados de la prueba no son signzjicativos,y se recomienda volver a realizar la prueba, de preferencia con una muestra más grande. 2. Si el valorp es mayor que 0.05, pero no mayor que 0.10, se puede rechazar la hipótesis H,, pero los resultados de la prueba sólo se consideran, cuando mucho, ligeramente signzjicativos. 3. Si el valorp de la prueba es mayor que 0.01, pero no mayor que 0.05, se debe rechazar Ho y declarar que los resultados de la prueba son signzjicativos.
324
Parte 111. Inferenciaestadística
4. Si el valorp de la prueba es menor o igual a 0.01, se rechaza H, y se declara q u e los resultados de la prueba s o n altamente signzjicatiuos. Ejemplo 9.8. En cierto país se estableció que hace 20 años el promedio de vida de una persona era de 71.4 años. Recientemente, se tomó una muestra aleatoria d e 100 muertes, y se obtuvo que la media muestra1 fue d e F = 73.8 años, con una desviación estándar de S = 9.8 años. ¿Son significativos estos datos para argumentar que actualmente la gente vive, en promedio, más que hace 20 años? Solución:La hipótesis nula es Ho:(p = 71.4) y la hipótesis alternativa es Ha:{p > 71.4). El valor del estadístico de prueba es:
Entonces, el valorp d e la prueba es el área bajo la curva normal estándar, a mano derecha del punto 2.449. Hallamos con Excel que vale:
Por consiguiente, se rechaza HAy se concluye que los resultados d e la muestra ente"significativos argumentar que en la actualidad las personas viven, en promedio, más que hace 20 años. Alexander Lyapunov (1 857- 19 18). Creó las condiciones precisas para formular y demostrar en su forma más general el famoso Teorema Central del Límite. Con Lyapunov. Markov y Chebishev. inicia la época de máximo rigor matemático en el tratamiento de la estadística.
Andréi Kolmogórov (1 903- 1987). Publicó trabajos notables donde describió ciertas desigualdades en sumas parciales de variables aleatorias. Además propuso y demostró la llamada ley fuerte de los grandes números. Se considera el más eminente probabilista desde Laplace.
10.1.~ U E B A DE S HIPÓTESIS SOBRE UNA PROPORCI~N POBLACIONAL
No es ninguna exageración afirmar que el parámetro más socorrido y más popular, tanto en intervalos de confianza como en pruebas de hipótesis, es la proporción. Muy a menudo escuchamos afirmaciones que involucran una proporción poblacional, aunque casi siempre se expresa en forma de porcentaje. Por ejemplo, escuchamos que 80 % de las personas que sufren de depresión también padecen insomnio, que 90% de los conductores de microbuses urbanos en el Distrito Federal manejan con imprudencia y violan los reglamentos de tránsito vehicular, que 65 % de las hembras del insecto conocido como mantis religiosa se comen al macho después del apareamiento, que casi 30 % de los partidos de futbol terminan con resultado de 1-1,que 86% del presupuesto del gobierno de México se usa en sueldos de burócratas y, a su vez, que 70 % de esos burócratas son innecesarios, etc. Todas estas afirmaciones, y otras por el estilo, pueden ser válidas o no, pero en todo caso se requiere una prueba de hipótesis para confirmarlo o desmentirlo, no sin admitir que semejante confirmación es sólo de carácter tentativo y está sujeta a errores que se conocen. Así como la metodología para la estimación de intervalos para la media poblacional es muy similar a la de la estimación d e un intervalo de confianza para una proporción, también las pruebas de hipótesis relativas a la media poblacional o a una proporción son muy similares. Y resulta lógico que así sea, porque, visto desde la óptica d e los ensayos de Bernoulli, el número promedio de éxitos de n eventos es np, y la desviación estándar es , dondep es precisamente la proporción teórica de éxitos en la población.
&
326
Parte 111. Inferencia estadística
Una prueba unilateral izquierda para una proporciónp se basa en la hipótesis nula H,:(p =p,) frente a la hipótesis alternativa Ha:@ p,). Por último, la prueba bilateral (o d e dos colas) se basa en el esquema H,:{p = p,) contra la hipótesis alternativa Ha:-$ *P,). Como consecuencia del Teorema d e De Moivre-Laplace, se puede deducir que el error estándar en la estimación d e una proporciónp cuyo valor se supone igual a p , por hipótesis, está dado por:
Los valores críticos d e la distribución normal estándar se usan como se indica en la figura 10.1. Ejemplo 10.1. El subsecretario de educación superior de la SEP quiere demostrar que en México más de 15% de los estudiantes de las especialidades de ingeniería son mujeres. Al tomar una muestra aleatoria de 400 estudiantes de ingeniería (de varias universidades al azar) se halló que había 72 mujeres. Por supuesto, esto significa que hubo 18% de mujeres en la muestra, pero ello bien podía deberse a la casualidad. Además, hay en el país muchos miles (o decenas de miles) de estudiantes de ingeniería, por lo que podría ser aventurado extrapolar el resultado observado en una muestra a toda la gran población de estudiantes de ingeniería del país. Para confirmar sus sospechas, este señor plantea la hipótesis nula H,:{p I0.15) contra la alternativaHa:{p> 0.151, a un nivel de significación de a = 0.05. El valor puntual de la proporción observada en la muestra es j5 = 0.18,y el error estándar de la proporción está dado por:
El valor numérico del estadístico de prueba es, entonces:
El valorp de la prueba es, entonces:
O, de manera equivalente, 1.645 < 1.68. Por tanto, se concluye que los resultados de la muestra son significativos y debe rechazarse la hipótesis nula. Así que hay motivos para afirmar que más de 15%de los estudiantes de ingeniería del país son mujeres.
a) Prueba unilateral izquierda
Estadístico de prueba:
I
6)Prueba unilateral derecha
C)
Estadísuco de prueba:
Estadístico de prueba:
Prueba bilateral
Figura 10. I
328
Parte 111. Inferencia estadística
Ejemplo 10.2. En el pasado se había establecido que aproximadamente 20 % de los automóviles que circulaban en la capital tenían placas de provincia, pero se desea averiguar si esta proporción ha cambiado ahora. Se tomó una muestra aleatoria de 400 automóviles, y se obtuvo el resultado de que 70 de ellos tenían placas de provincia.
a) Usando nivel de significación de a = 0.05, ensayar la hipótesis nula H,:{p = 0.20) contra la alternativa Ha:@# 0.20). 6) Calcular el valorp de la prueba.
a) Se rechaza Ho si z < -1.96 o bien z > 1.96. En este caso, tenemos:
El estadístico de prueba es:
Como -1.96 < -1.25 < 1.96, no se rechaza H,. Así, los resultados del muestre0 no son significativos para argumentar que el porcentaje de automóviles con placas de provincia ha cambiado. 1 6) -(valorp)= @(-1.25) = 0.10565. Por tanto, el valorp de la prueba es 0.2113. 2 Este valorp es, obviamente, demasiado grande para servir como evidencia contra la hipótesis nula.
Para realizar una prueba de hipótesis relativa a la varianza (o la desviación estándar) de la población se usa el estadístico de prueba llamado ji-cuadrado muestrai, definido como sigue:
El símbolo 0; es la varianza supuesta en la hipótesis Ho. Para una prueba unilateral derecha (o de cola derecha), la hipótesis nula es H,: {dIo; ) o bien H,: {d= 0;),y la hipótesis alternativa es Ha:{d> o; ). Para un nivel de significación a,la región de rechazo se busca en la distribución ji-cuadrada con v = n -1 grados de libertad, como se muestra en la figura 10.2. Ejemplo 10.3. La compañía de cerillos marca ACME fabrica cajetillas de cerillos de 40 g. Cuando las máquinas estaban nuevas, la desviación estándar del peso neto por
'- -- Zona de rechazo Figura 10.2. Distribución
x2 con n - I grados de libertad.
cajetilla era de o = 0.25 g, pero después de un tiempo de uso continuo, al gerente del departamento de empaque le pareció que, aunque el peso promedio neto seguía siendo aparentemente el mismo, algunas cajetillas estaban saliendo más llenas que otras, y sugirió detener la producción un par de días para revisar las máquinas. Se tomó una muestra aleatoria de 20 cajetillas y se obtuvo una desviación típica muestra1 de S = 0.32 g. Se determinó entonces efectuar una prueba de hipótesis con nivel de significación de 5 % para decidir si procede o no una revisión de las máquinas. ¿Cuál es la conclusión? Solución:Sea Ha:{& = (0.25)2),H ~{ :d > (0.25)2). El valor crítico x:,, con 19 grados de libertad es:
La hipótesis Ha se rechazará sólo si el estadístico de prueba resulta mayor que este número. Veamos:
Se rechaza H,. La conclusión es, entonces, que probablemente sí debe detenerse la producción para revisar las máquinas y, en su caso, proceder a ajustarlas.
En el caso de una prueba unilateral izquierda (o de cola izquierda), se tiene H,:{c? 2 0;) O bien Ho:{02= 0;), y la hipótesis alternativa es Ha:{02c 0;). Para un nivel de significación a, la región d e rechazo se busca, igualmente, en la distribución ji-cuadrada con v = n - 1grados de libertad, como se ilustra en la tigura 10.3.
I
a
&a
Zonade rechazo*
~ = n - l
-: Figura 10.3. Distribución x2 con n - I grados de libertad.
Ejemplo 10.4. En una sucursal bancaria se había establecido que la desviación estándar del tiempo de atención a cada cliente en la ventanilla correspondiente era de 2.3 minutos. Para tratar d e disminuir el valor de este parámetro, las cajeras fueron obligadas a tomar un breve curso de capacitación. Después del curso, se tomó una muestra aleatoria de 10 clientes, con los siguientes tiempos de espera (en minutos) frente a la ventanilla correspondiente: 1.8, 5.2,4.3,6.6,2.5, 3.4,2.6, 5.6,4.7 y 4.0. Para averiguar si el curso de capacitación sirvió de algo, se realiza la prueba d e hipótesis siguiente: H,:{oZ 2 (2.3)9, Ha:{02c (2.3)2), con a = 0.05. ¿Cuál es su conclusión? Solución:Hallamos que s = 1.5166 minutos. A primera vista, podríamos sospechar que el curso sí sirvió, pero veamos. El valor crítico para la distribución ji-cuadrada con nueve grados de libertad es:
Luego:
No hay suficiente evidencia estadística en contra de la hipótesis H,, así que se concluye que probablemente el curso de capacitación no sirvió d e nada, a reserva d e tomar una nueva muestra (más grande) y realizar una nueva prueba de hipótesis.
Por último, para una prueba bilateral (o de dos colas) se tiene H,:{c? = o: 1, y la hipótesis alternativa es Ha:{d# o: ). Para un nivel de significación a la región de rechazo se busca, al igual que en los casos anteriores, en la distribución ji-cuadrada con v = n - 1grados de libertad, como se observa en la figura 10.4.
Figura 10.4. Distribución x2 con n - I grados de libertad. Ejemplo 10.5. Supóngase que las personas que elaboran el conocido examen de inglés TOEFL saben por experiencia que la desviación típica de los resultados ha sido aproximadamente de 26 puntos. Entonces, deciden elaborar un nuevo tipo de examen, con un formato distinto, pero quieren que la desviación estándar siga siendo más o menos la misma. Si se aplicó el nuevo examen a 30 aspirantes elegidos al azar, con el resultado de que la desviación estándar fue de 22.4 puntos, ¿se puede argumentar al nivel de significación de 5 % que el valor de este parámetro probablemente cambió con el nuevo examen? Solución: Planteamos una prueba de hipótesis: Ho:{02= 262),Ha:{a2# 26'1, con a = 0.05. Los valores críticos de la distribución ji-cuadrada con 29 grados de libertad son los siguientes:
Por tanto, se rechazará H,, si el valor calculado para el estadístico de prueba cae fuera del intervalo dado por [16.047,45.722].Veamos:
Está dentro del intervalo de no rechazo, así que no se rechaza H, y se concluye que el valor de la varianza ha sido probablemente preservado con el nuevo formato de examen.
_=
-_
Karl Pearson ( 1 857- 1936). Discípulo y amigo de Francis Galton. Realizó importantes contribuciones al desarrollo de la estadística; además es el inventor de muchos ttrminos usuales, como desviación estándar, ji-cuadrado, etc. En 19 19, fundó la famosa revista de estadística llamada Biometrika.
Charles Spearman ( 1 863- 1 945). Fue psicólogo de profesión, pero desarrolló notables aplicaciones de la estadística en el campo de la psicología. Creó la metodología de los llamados experimentos factoriales. Usó la estadística (experimentos de dos factores) para determinar y medir la inteligencia de las personas.
TEST GENERALACERCA DE LOS INTERVALOS DE CONPIANZA Y PRUEBAS DE HIP~TESIS
Anote sus respuestas en el siguiente cuadro. Escriba los procedimientos en hojas separadas.
1. En el Distrito Federal, se trató de averiguar el porcentaje de automovilistas que al estacionarse en la calle ponen bastón contra robo para inmovilizar el volante de su automóvil. En una muestra aleatoria de 800 automóviles estacionados en la calle se observó que 70% de ellos tenían el bastón contra robo. Determine un intervalo de confianza de 90% para el porcentaje de automovilistas del D. E que, al estacionar su automóvil en la calle, usarán el bastón contra robo.
Cap. 10. Pruebas de hipótesis
33 3
2. En una investigación se trata de averiguar el porcentaje de veces que hay diputados durmiendo dentro del recinto de la Cámara de Diputados en el curso de una sesión ordinaria de trabajo. ¿Cuántas visitas debe hacer un observador a la Cámara de Diputados para tener 95 % de confianza de que el margen de error en su estimación del porcentaje de veces que hay diputados dormidos sea de cuando mucho 10%?Suponga que carece de datos históricos para dar a pnmi un valor tentativo de dicho porcentaje.
3. Repita el ejercicio 2, pero con el cambio de que ahora sí se toman como tentativos algunos datos del pasado, en el sentido de que aproximadamente 80% de las veces se han visto diputados durmiendo durante una sesión de trabajo. ¿Cuántas visitas debe hacer en ese caso el observador?
4. Según la revista Tiempo (febrerode 2002), un conocido sociólogo mexicano afirma que una gran proporción de los discursos oficiales de los políticos mexicanos (incluso los informes presidenciales) son fundamentalmente discursos de aspiraciones futuristas que, en lugar de informar de algún logro concreto realizado, lamentan la situación presente, pero dan una especie de compromiso para que en el futuro las cosas cambien, aunque no especifican cuándo ni cómo. ¿De qué tamaño debe ser una muestra aleatoria de discursos de políticos mexicanos para tener una confianza de 90% de que el error en la estimación de dicha proporción es de cuando mucho 0.08, si se toma en cuenta una pequeña prueba piloto, según la cual s610 uno de 10 discursos aleatorios de políticos no fue futuristaen ese sentido?
5. Repita el ejercicio 4, pero con el cambio de que no se dispone de ninguna prueba piloto previa ni de ningún dato al respecto. ¿Cuál es el tamaño de muestra de discursos que se deben analizar?
6. A una muestra aleatoria de 369 personas adultas se les preguntó cuál era su principal fuente para enterarse de las noticias cotidianas, y 200 respondieron que era la televisión. Calcule un intervalo de confianza de 95 % para la proporción de personas que se enteran de las noticias por medio de la televisión.
7. En cierto país se desea probar la hipótesis nula de que la edad promedio a la que se casan los hombres es de 28 años, contra la hipótesis alterna de que dicha edad es distinta de 28 años. Si al realizar la prueba se acepta tolerar una probabilidad de 0.15 de cometer un error de tipo 11cuando la media real de la edad es de 29 años, ¿qué tamaño de muestra se recomienda usar si se supone además que a = 0.05 y o = 6?
3 34
Parte 111. Inferencia estadística
8. Repita el ejercicio 7, pero con el cambio de que ahora se supone que la desviación estándar de la edad a la que se casan los hombres en ese país es de o = 3.4 años.
9. Sea p el tiempo promedio (en minutos) que demora el usuario de un banco mientras es atendido por la cajera en la ventanilla. Se desea probar la hipótesis nula Ho:{p 2 5) contra la hipótesis alternativa H,:{p < 51, con un nivel de significación de a = 0.05. El investigador que realiza la prueba acepta tolerar una probabilidad de 0.10 para el error de tipo 11 cuando el tiempo promedio real es de cuatro minutos. ¿Que tamaño de muestra se recomienda para efectuar la prueba? Suponga que la desviación estándar es de o = 1.3 minutos.
10. En una muestra aleatoria de 600 automóviles que dan vuelta a la derecha en cierto crucero, 157 se internaron al caml equivocado. Utilice el nivel de significación de a = 0.05 para ensayar la hipótesis nula de que la proporción de conductores que cometen este error (en el crucero dado) es 0.30, contra la alternativa de que esta cifra es incorrecta de una u otra forma.
a) Hose rechaza, porque 1.96 < 2.049 b) Hose acepta, porque 1.849 < 1.96 c) Hose acepta, porque -1.96 < -1.849 d) Hose rechaza, porque -2.049 < -1.96.
En el trabajo estadístico se hace a menudo una comparación entre parámetros correspondientes a dos poblaciones, tomando una muestra aleatoria de cada una de ellas. Supóngase queX, yX2son dos variables aieatorias con distribuciones normales independientes que representan el comportamiento de dos poblaciones tales que sus respectivas medias son pl y p,, y SUS respectivas varianzas son o: yo: . Si de dichas poblaciones se toman sendas muestras de tamaños n, y n,,respectivamente, se puede demostrar que la variable aieatoria Y = X,-X2 posee una distribución normal con media p, - CL, y con una desviación estándar expresada mediante la fórmula siguiente:
En caso d e que n, y n, sean mayores que 30 (incluso mayores que 25), puede prescindirse d e la hipótesis de normalidad para las variables Xl y,X2. En la sección 11.4, veremos cuáles serían las fórmulas y metodos si las dos muestras no fuesen independientes, sino apareadas (correlacionadas), pero en las dos secciones siguientes (11.2 y 11.3) supondremos que las muestras son independientes.
Para muestras q u e sean grandes e independientes, el intervalo d e confianza d e 100(1- a)% para una diferencia de medias p, - p, es análogo al caso de una sola media, y está dado por:
Si las muestras son suficientemente grandes (mayores q u e 30), entonces las varianzas poblacionales pueden sustituirse por las muestrales.
Ejemplo 11.1. Se desea comparar el tiempo promedio de viaje en autobús entre la Ciudad de México y la ciudad de Guadalajara (en un sentido) para dos compañías independientes de autobuses públicos. Para la compañía 1 se tomó una muestra aleatoria de 34 viajes y se obtuvo una media muestral de 6.1 horas de viaje con una desviación típica de 0.8 horas. Para la compañía 2 se tomó una muestra aleatoria d e 40 viajes, con un tiempo promedio (media muestral) de 6.4 horas y una desviación estándar de 0.5 horas. Si p, y & denotan, respectivamente, los tiempos promedio d e viaje entre dichas ciudades para cada una de las dos compañías de autobuses, obtener un intervalo de confianza de 90% para p, - p2 e interpretar el resultado. Solución: Se tiene F, - Z2= 6.1 - 6.4 = -0.3. Por otra parte, el valor crítico d e z para un intervalo de confianza de 90% es z,. - 1.645. Como ambas muestras son grandes, podemos usar las varianzas muestrales y Z e n e m o s el siguiente error típico para p, - K:
Por tanto, el intervalo de confianza buscado es -0.3 f (1.645 x 0.1583) = -0.3 0.2605, es decir:
+
Esto significa que hay una confianza de 90 % en que se dice la verdad, si se afirma que la compañía 1 de autobuses hace entre 0.0395 horas (es decir, 2 minutos con 22 segundos) y 0.5605 horas (es decir, 33 minutos con 38 segundos) menos tiempo que la compañía 2 en esos viajes, en promedio. Ejemplo 11.2. Dos grupos independientes de alumnos de diferentes escuelas, pero que cursan el mismo grado escolar (segundo año de bachillerato), se sometieron a un mismo examen de aritmética básica y áigebra elemental. De la escuela 1 tomaron parte 50 alumnos y (en la escala del O al 100) obtuvieron un promedio de 75 de calificación con desviación estándar de 7.6, mientras que de la escuela 2 tomaron parte 40 alumnos y se registró un promedio de 70.7 puntos con una desviación típica de 9.5. Si p, y p2denotan, respectivamente, las calificaciones promedio que habrían obtenido todos los estudiantes d e la escuela 1 y de la escuela 2, calcular un intervalo de confianza a 95 % para p., - p2 e interpretar el resultado. Solución: Se tiene X,- Z,= 75 - 70.7 = 4.3. En este caso, el valor crítico d e z para un intervalo de confianza d e 95% es z,,~, = 1.96. Obtenemos el siguiente error típico para P, - P2:
Así, el intervalo de confianza buscado es 4.3 f (1.96 x 1.847) = 4.3 f3.62. Esto e$:
Esto significa que, en promedio, los alumnos de la primera escuela obtendrían entre 0.68 y 7.92 puntos más (sobre 100 y en matemáticas básicas) en comparación con los de la segunda escuela, con un riesgo de 5 % de que tal afirmación sea falsa.
La técnica d e pruebas de hipótesis para una diferencia d e medias pl - p., es muy similar a la técnica correspondiente para una sola media. Si se quieren comparar las medias de dos poblaciones a fin d e averiguar si son iguales o diferentes, entonces se realiza.una prueba bilateral (o d e dos colas) con las siguientes hipótesis: Prueba bilateral: Hipótesis nula: Ho:{p, - p2 = 0); hipótesis alterna: Ha:{pl - CL, O). Prueba unilateral izquierda: - p., 2 O); Ha:{pl - p2< O}. Prueba unilateral derecha: Ho:{p, - p., 1 0); Ha:{p, - p, > 0).
*
p.,
En las pruebas unilaterales, los signos 2 o 1 pueden remplazarse por signos de igualdad. También es posible usar, en lugar de 0, algún valor constante prefijado Do. En todos estos casos, se toman dos muestras, una de cada población, n, 2 30 y n, 2 30, y se aplica el siguiente estadístico de prueba:
'Ejemplo 11.3. El dueño de una peluquería ha contratado a dos damas (Juanita y María) que cortan el cabello de los clientes (de sexo masculino). Desea averiguar si ellas tardan más o menos el mismo tiempo promedio en cada corte o si alguna es más lenta (o más rápida) que la otra. Se tomaron algunas muestras y se obtuvieron los siguientes datos: para Juanita, n, = 30, Z, = 11.4 minutos, S, = 2.2 minutos; para María, n, = 35,?, = 9.8 minutos, S, = 4.3 minutos. Se desea ensayar la hipótesis nula H,,:{p, - p, = O} contra la hipótesis alterna Ha:{p.,- p2# O}, en un nivel de significación de 5 %. Solución: El estadístico de prueba es:
338
Parte 111. Inferencia estadística
Como en una prueba bilateral a 95 % el intervalo de no rechazo se encuentra entre -1.96 y 1.96, se sigue que no hay razones para rechazar la hipótesis H,; así, las dos peluqueras hacen más o menos el mismo tiempo promedio y las discrepancias observadas pueden atribuirse a la casualidad.
11.4. MUESTRAS PEQUE~~AS TOMADAS DE POBLACIONES A P R O Y U M A D NORMALES ~
En esta sección, supondremos que uno o ambos tamaños de muestra son pequeños (menores que 30), pero las poblaciones de donde proceden son normales o casi normales y además las varianzas de ambas poblaciones se suponen iguales. Para ello se requiere un estimador combinado de o2(la varianza común d e las poblaciones), el cual es el siguiente: =
(n,- 1)s: + (n,- 1)s; n,+ n,- 2
El estadístico de prueba que se usa en este caso es:
Y; bajo la suposición de que las muestras extraídas son aleatorias e independientes, se contrasta el valor calculado de este estadístico con el valor crítico o percentil correspondiente de la distribución t de Student con n, + n, - 2 grados de libertad. Ejemplo 11.4. Se desea averiguar si el tiempo promedio de trasmisión de anuncios entre dos canales de televisión de empresas independientes es el mismo o difiere (se exceptúan los partidos de futbol). Se midieron varios intervalos exactos de una hora de trasmisión (al azar) en cada uno de los dos canales y se registró cuántos minutos en cada hora habían sido de anuncios, con los siguientes registros:
Cap. 1 1 . Inferencia estadística para dos poblaciones
339
Con un nivel de significación de a = 0.05, probar la hipótesis Ho:{p,- p2= O) contra , # O). Supóngase que la población se distribuye normalla hipótesis alterna ~ ~ : {-pCL, mente con una misma varianza. Soluci6n: Con ayuda de una calculadora se halla rápidamente que Z, = 32.54, S, = 3.0746; Z, = 29.7167, S, = 3.59022. Por otra parte, el estimador combinado de la varianza es: =
(n, - 1)s: + (n, - 1)s; - 4(3.074Q2+ 'j(3.5902)' n,+ n2-2 9
= 11.36226
El estadístico de prueba es:
El percentil to,, con nueve grados de libertad es 2.262, el cual se puede obtener de tablas, o también con Excel, usando la sintaxis siguiente:
La hipótesis nula se rechazaría s610 si el valor calculado del estadístico de prueba cayera fuera del intervalo [-2.262, 2.2621, el cual no es el caso para el número 1.38. Por consiguiente, no existen argumentos para rechazar Hoy se infiere que ambos canales pasan, en promedio, la misma cantidad de anuncios.
11.5. CASO DE MUESTRAS APAREADAS (O EMPAREJADAS)
Supóngase que usted quiere comparar dos tipos de exámenes de una misma asignatura para averiguar si alguno es más difícil d e resolver que el otro. Una manera de hacerlo sería aplicar un tipo de examen a un grupo específico de estudiantes y el otro examen a otro grupo, para luego comparar los resultados. Esto es exactamente lo que hicimos en las secciones anteriores. La desventaja de este método estriba en el ruido que introduce la posible variación entre los estudiantes como fuente d e error muestral. Tal desventaja podría evitarse si se aplican ambos exámenes a cada alumno de los grupos, aunque esto pudiera tomar algunos días más. En ese caso, se podrían comparar las calificaciones de cada uno d e los dos exámenes en cada alumno en particular. Esto se denomina muestras apareadas (o emparejadas). En general, se trata de dos columnas de datos con los encabezados antes y después (o mktodo 1 y método 2), pero aplicados a las mismas personas u organizaciones. En el caso de muestras apareadas se escribe una columna adicional con las respectivas diferencias (con todo y signo algebraico), y esas diferencias constituyen la base de la metodología. La notación que se emplea es: C L ~ ,que denota la media de las diferencias (por ejemplo, antes y después, o bien con dos métodos distintos de producción,
340
Parte 111. Inferencia estadística
etc.). Se usa el símbolo d, para denotar la i-ésima diferencia en la lista. Por ejemplo, para una prueba bilateral se tendría H,: {CL,= O}, Ha:{CL,# O}. La desviación típica de las diferencias es la desviación típica muestral común y corriente para datos aislados:
El estadístico de prueba que se emplea es:
y se contrastan los valores calculados con los valores críticos (o percentiles) de la distribución t de Student con n - 1grados de libertad @ara muestras pequeñas). En caso de muestras grandes se emplea, como de costumbre, la distribución normal estándar. Ejemplo 11.5. A seis empleadas de un restaurante se les mostraron dos métodos para preparar una taza de café capuchino y se registraron los tiempos (en minutos) empleados por ellas en cada uno de los dos métodos:
Con un nivel de significación de a = 0.05, ensayar la hipótesis de que las empleadas se tardan, en promedio, lo mismo con los dos métodos contra la alternativa de que algún método es más rápido que el otro. Soluci6n: Con ayuda de una calculadora,obtenemos ráp-amente la media y la desviación estándar (muestral) de los seis valores de diferencias: d = 0.30 y S, = 0.334664. El estadístico de prueba es el siguiente:
Por otra parte, el valor crítico de la distribución t de Student con a = 0.05 y n - 1 = 5 grados de libertad se puede obtener rápidamente con Excel usando la sintaxis:
Cap. 1 1 . inferencia estadística para dos poblaciones
34 1
O, en forma alternativa, se puede hallar en una tabla de percentiles de la distribución t de Student, buscando el percentil to,9,,con cinco grados de libertad. En cualquier caso, se obtiene 2.5706. La hipótesis nula sería rechazada si el valor calculado del estadístico de prueba cayera fuera del intervalo [-2.5706, 2.57061, lo cual no es el caso. Obsérvese la figura 11.1.En consecuencia,no existen motivos para rechazar la hipótesis nula y concluimos que ninguno de los dos métodos para preparar café capuchino es más rápido que el otro.
Figura I 1.1. Distribución t de Student con cinco grados de libertad. Ejemplo 11.6. A 15 vacas lecheras de una finca se les suministró cierto tipo de dieta durante cinco días, y se registró la cantidad total de litros de leche que cada una había producido en todo ese tiempo (redondeada al litro más cercano). Luego se les suministró otra dieta diferente y se realizó el mismo registro. Los datos que se obtuvieron se muestran a continuación:
342
Parte 111. Inferencia estadística a) Calcular un intervalo de confianza de 95 % para la diferencia promedio en leche pd producida en cinco días con los dos tipos de alimentación. 6 ) Ensayar la hipótesis nula H0:{& = O) contra la alternativa Ha:{pd # 0) con a = 0.05. Solución:
a) En principio:
Además, el valor crítico de la distribución t de Student con 14 grados de libertad es el percentil t,,,,, o con Excel:
Por consiguiente, el intervalo de confianza a 95 % para CL, = p, - p2 es:
Es decir, la diferencia promedio (en litros cada cinco días) está en el intervalo:
6 ) De acuerdo con el resultado del inciso a se podría sospechar que la primera dieta hace que las vacas produzcan más leche (más diferencias positivas que negativas). Sin embargo, el simple hecho de que el intervalo de confianza contenga al cero es señal de que las observaciones no son perceptibles (no son significativas) para concluir que alguna dieta las haga producir más leche que la otra. En efecto, el estadístico de prueba es:
En este caso, el valorp de la prueba es @ara prueba de dos colas) el siguiente:
Es un valor demasiado grande para servir como evidencia contra la hipótesis nula. En consecuencia, no existen motivos para rechazar Ho y podemos argumentar que no hay diferencia perceptible entre la cantidad de leche producida con uno u otro tipo de alimentación en las vacas.
11.6. ~JFJBENcIAs ACERCA DE LA DIFERENCIA ENTRE PROPORCIONES DE DOS POBLACIONES
Para el caso d e diferencias de dos proporciones poblacionales, el estimador puntual es 4, - j2. La distribución muestra1 d e este estimador tiene las siguientes características:
- Media o valor esperado:
- Desviación estándar:
-
En esta fórmula, q, = 1-p, y q, = 1-p,, mientras que n, y n, denotan los tamaños de muestra extraídos, respectivamente, de las poblaciones 1y 2. Si todos los productos n,p, y n,q, son mayores o iguales que 5, se supone una distribución normal.
Para elaborar pruebas d e hipótesis o para obtener intervalos de confianza relativos a una diferencia de proporciones se emplea un estadístico basado en proporciones observadas jlyp,. Dicho estadístico (que es el estimador puntual para la expresión 1) es:
Así, un intervalo de confianza a 100(1- a)% parap, -p, está dado por:
Para hacer pruebas d e hipótesis (ya sea d e una o d e dos colas), se emplea el siguiente estadístico de prueba:
En estos casos se emplea un estimador combinado que tome en cuenta la hipótesis nulap, =p,, en caso de que esa hipótesis fuese cierta. Ese estimador combinado (denotado por P ) es:
344
Parte IIL Inferencia estadística
De este modo, podemos corregir la ecuación 2, sustituyendo jJ y 1 tras lo cual la ecuación se escribe así:
fi por jJ,
Ejemplo 11.7. Supóngase que se trata de determinar si el porcentaje de policías mexicanos que son adictos a las sustancias psicotrópicas es mayor entre los de la Policía Judicial (PJ) o entre los de la Policía Federal Preventiva (PFP). A 250 policías judiciales se les practicó examen antidoping y 14 % dieron positivo. Por otra parte, a 300 elementos de la PFP se les aplicó examen antidoping y s610 9 % dieron positivo. Realizar una prueba de hipótesis al nivel de cx = 0.05 para determinar si el porcentaje de adictos a tales sustancias es menor entre los elementos de la PFP que entre los de la PJ. Solución: Seanp, yp, las proporciones de adictos a esas sustancias entre los miembros de la PJ y de la PFP, respectivamente. Sea Ho:(Pl-p, = O}, Ha:@,-p, > O). Tenemos los siguientes datos: n, = 250, jl= 0.14, n, = 300, = 0.09. Aplicando las ecuaciones 3 y 4 se halla que j = 0.1127, sp,-p2= 0.027083. Por otra parte, el estadístico de prueba es:
&
Por último, el valor crítico para prueba de cola derecha es zo,, = 1.645.Como el estadístico de prueba es mayor que este número, entonces se rechaza la hipótesis nula y se concluye que los datos observados son significativos (perceptibles) para afirmar que en promedio hay más adictos a las sustancias psicotrópicas entre los de la PJ que en la PFi? Como comentario final sobre este ejemplo, nótese que si la hipótesis alterna hubiese sido (P, -p, f O), es decir, una prueba bilateral, entonces la zona de no rechazo habría quedado e n el intervalo comprendido entre -1.96 y 1.96, y e n tal caso la hipótesis H, no habría sido rechazada (con el mismo nivel de significación), esto es, n o habría muchos argumentos estadísticos a favor d e la suposición d e que e n generalp, zp,, mas sí los habría a favor d e la hipótesis más específica d e quep, >p,. Con un nivel d e significación prefijado, suele ser más difícil argumentar e n contra d e la hipótesis nula e n una prueba bilateral que e n una prueba dnilateral.
f
'
Sir Ronald Aylmer Fisher ( 1 890- 1962). Logró aplicar con éxito sus conocimientos de estadística en la genética y en la teoría de la evolución de los seres vivos, para lo cual inventó el análisis de uarianza y el diseño de experimentos. Aplicó sus conocimientos de estadística al estudio de muestras pequeñas.
William S. Gosset ( 1 876- 1937). Químico inglés radicado en Dublín, Irlanda. Usaba el seudónimo de Student (el estudiante) en sus trabajos y fue el creador de la famosa distribución t destudent.
THTGENERALACERCA DE PRUEBAS DE HIP~TESIS EN SUS D 1 m A . S MODALIDADES En el siguiente cuadro, anote el inciso que considere correcto. Las operacionespuede hacerlas en hojas separadas.
1. A la máxima probabilidad de rechazar una hipótesis que es verdadera y debió haberse aceptado, se le llama:
a) nivel de significación b) error de tipo 1 c) error de tipo 11
d) poder (o potencia) de la prueba. 2. En un juicio contra un posible inculpado de un crimen, se establece la hipótesis nula de que el acusado es inocente. Si en verdad el acusado cometió el crimen y al final el jurado decide liberarlo por falta de pruebas, entonces el jurado está cometiendo:
a) errores de tipo 1 y 11 b) ningún error c) error de tipo 1
d) error de tipo 11. 3. Varias amas de casa que suelen comprar en el mercado popular de La Merced en el Distrito Federal, queso, huevo, azúcar, frutas y otros productos que se pesan, sospechan que les entregan menos mercancia de la que les cobran. Para confirmar o desmentir
346
Parte 111. Inferencia estadística
esas sospechas, inspectores de la PROFECO (organismo protector de los consumidores) van a realizar una prueba de hipótesis, haciéndose pasar por clientes y adquiriendo varios productos al azar para pesarlos en básculas de precisión. ¿Qué tipo de prueba de hipótesis deben realizar? a) Prueba de cola derecha b) Prueba de cola izquierda o derecha C) Prueba de cola izquierda d) Prueba de ambas colas (prueba bilateral).
4. Con respecto al ejercicio 3, ¿qué parámetro deben someter a prueba los inspectores de la PROFECO! a) b) c) d)
La varianza La media La desviación estándar La moda.
5. Se desea probar la durabilidad de un nuevo tipo de pintura blanca para setializar el asfalto en los cruces peatonales de una ciudad. Mediante contadores electrónicos automáticos instalados en ocho zonas de cruce peatonal (donde previamente se habían pintado líneas blancas con esa pintura), se registró la cantidad de vehículos automotores que transitaron antes de que las líneas se empezaran a borrar. Los resultados fueron los siguientes: 149 400,162 000, 133 700,126 400,108 300,136 500,167 800 y 142 600. Si se supone una distribución normal, entonces un intervalo de confianza de 95 % para el número promedio de vehículos automotores que puede soportar la pintura antes de empezar a borrarse, es de:
6. Un psicólogo desea probar la hipótesis nula de que el tiempo promedio de reacción refleja de un adulto ante una señal repentina es de 0.56 segundos, contra la hipótesis alternativa de que dicho promedio es distinto de ese valor, usando un nivel de significación de a = 0.05. Estudios previos publicados en una revista especializada confirman que la desviación estándar para dicho tiempo de reacción refleja es de o = 0.09055 segundos. El psicólogo que realiza la prueba tomó una muestra aleatoria de 35 individuos y obtuvo el'valor muestra1 de Z = 0.59 segundos. ¿Cuálde los siguientes incisos indica la decisión correcta que hay que tomar? a) El estadístico de prueba es 1.96, y H, no se acepta ni se rechaza b) El estadístico de prueba es 1.96, y H, se rechaza C) El estadístico de prueba es 1.96, y H, se acepta d) El estadístico de prueba es menor que 1.96, y H, se acepta.
7. Según el informe nutrimental del envase de margarina Primavera ChantiUy, por cada 15 g de producto hay 1.9 g de grasas saturadas, lo que equivale a 12.67 % de grasas saturadas. Se supone que el porcentaje de grasas de todo tipo en la margarina sigue
Cap. 1 l . Inferencia estadística para dos poblaciones
347
una distribución normal. Un grupo de nutriólogas de una universidad examinó en el laboratorio una muestra de siete porciones de ese producto, escogidas aleatoriamente en sitios distintos y fechas distintas, y los porcentajes de grasas saturadas que se obtuvieron fueron los siguientes: 12.68 %, 12.69%, 12.66%, 12.65 %, 12.67 %, 12.68 % y 12.66%. Pruebe la hipótesis nula H,:(p I 12.67%) contra la hipótesis alternativa Ha:{p > 12.67%) con un nivel de significación de a = 0.05. ¿Cuál de los siguientes incisos muestra la decisión correcta?
a) Se rechaza H, porque Z - po= O b) No se rechaza H,porque X - CL, = O c) La prueba no funciona porque Z - p, = O d) Se rechaza H,porque la varianza muestra1 es muy pequeña. 8. Durante más de una década se practicó un mismo examen de ubicación de matemáticas básicas a estudiantes de nuevo ingreso de una universidad, y el promedio global de calificaciones (en escala del O al 100) fue de 70 puntos, con una desviación estándar de 13 puntos, pero hace más de 10 años que ese examen se dejó de aplicar. Un grupo de educadores afirma que actualmente el nivel promedio de preparación matemática de estudiantes universitarios de nuevo ingreso es igual que hace 10 años, pero un segundo grupo de educadores sostiene que es peor. Entonces se acuerda realizar una prueba de hipótesis y se aplica aquel viejo examen a una muestra aleatoria de 50 estudiantes de nuevo ingreso a la universidad. Acuerdan un nivel de significación de a = 0.05 y se dan como supuestos una distribución normal y el mismo valor viejo de la desviación estándar. Si el examen tuvo un promedio de calificaciones de 67, ¿cuál de los dos grupos de educadores tiene razón?
a) El segundo, porque 1.645 > 1.63 b) El segundo, porque -1.645 > -1.63 C) El primero, porque 1.645 > 1.63 d) El primero, porque -1.645 < -1.63. 9. Un individuo afirma que tiene algunos conocimientos de cerámica china antigua. Para comprobar o desmentir esa afirmación, un examinador le da un test de 50 preguntas básicas sobre el tema, todas del tipo verdadero o falso. El examinador realizará una prueba de hipótesis con un nivel de significación de a = 0.01. Al calificar el test, se comprobó que el individuo tuvo sólo 32 aciertos. ¿Qué conclusión debe sacar el examinador?
a) El resultado de la prueba no es significativo para afirmar que el individuo conoce algo sobre el tema, porque 1.838 < 2.326. b) Se puede afirmar que el individuo sí conoce algo sobre el tema, porque 1.838 < 2.326. C) El resultado de la prueba no es significativo para afirmar que el individuo conoce algo sobre el tema, porque 1.838 < 2.576. d) Se puede afirmar que el individuo sí conoce algo sobre el tema, porque 1.838 < 2.576. 10. En la compañia de cerillos La Central afirman que, en el pasado, la desviación estándar de los pesos de las cajetillas de cerillos de 40 g era de o = 0.25 g. Se sospecha que con el uso de las máquinas, el valor de la desviación estándar ha aumentado, lo que ocasiona más variabilidad en el contenido de las cajetillas y quizá amerite una revisión de las má-
348
Parte 111. Inferencia estadística
quinas, pero ello implicaría un costo al detener la producción durante algunos días. Se decide realizar una prueba de hipótesis, haciendo H,:{a = 0.25 g) contra Ha:{o > 0.25 g), con un nivel de significación de cx = 0.05. Para ello se tomó una muestra aleatona de 20 cajetillas y se obtuvo una desviación estándar muestra1 de s = 0.32 g. iAmeritará esa variabilidad aparente detener la producción para revisar las máquinas? a) Sí, porque 31.1296 > 30.1435 b) No, porque 31.1296 > 30.1435 c ) Sí, porque -3 1.1296 < -30.1435 d) No, porque -3 1.1296 < -30.1435.
350
Parte 111. inferencia estadística
Obsérvese que, no obstante su aspecto aparatoso, en general suele reducirse a una expresión sencilla para elecciones apropiadas de sus parámetros v, y v, (véase fig. 12.1). También es interesante señalar que, a diferencia de casi todas las distribuciones continuas importantes, aquí no aparece explícitamente el número e, base de los logaritmos naturales, aunque sí aparece en forma implícita en las funciones gama que forman parte de su expresión.
Figura 12.1. Gráficas típicas de la distribución F de Fisher.
En vista de su importancia, la distribución F se ha tabulado extensamente. La tabla contiene valores de los percentiles F,(v,, VJ para a = 0.05 y 0.01 y para diversas elecciones en cuanto al número de grados de libertad. En la figura 12.1 se han dibujado las gráficas de dos distribuciones F de Fisher. La más alta de ellas es F(12,4) y la más baja es F(4, 2). Resulta relativamente fácil comprobar que sus respectivas ecuaciones se simplifican de la manera siguiente: F(4 , 2) =
8x (1 2x1'
+
;
F(12, 4)=
30 618x5 con x > O en ambos casos (1 + 3 ~ ') ~
Si el estudiante tiene algún software de computadora para dibujar gráficas de curvas, se le recomienda que juegue un rato con distintas elecciones para los grados de libertad v, y v, de la distribución F de Fisher, con objeto de poder apreciar cómo cambia el aspecto de la curva y, si es posible, cómo se simplifica la expresión matemática de la función una vez que se sustituyen los valores específicos de V, y v,. Notará dos cosas: en primer lugar, que a medida que aumentan
Cap. 12. Comparación de las uarianzas de dos poblaciones
35 1
los valores de los parámetros v! y vs,,la curva tiende a desplazarse a la derecha (al igual que ocurre con la distribucion ji-cuadrado); y en segundo lugar, que la expresión matemática final se vuelve cada vez más aparatosa e incontrolable. Por ejemplo, F(8,2) se puede simplificar así: F(8 , 2) =
1024x3 conx 2 O (1 4 ~ ' ) ~
+
En cambio, F(50,20) adquiere una expresión aparatosa: F(50, 20) =
48 849 038 779 735 565 185 546 875 x2*
, conx 2 0
La figura 12.2 muestra la gráfica de esta espectacular expresión.
Figura 12.2. Gráfica de F(50,20).
Finalizamos esta sección con un resultado interesante: Si si y si son las varianzas de variables aleatorias independientes de tarnaños n,y n,, respectivamente, tomadas de poblaciones normales con varianzas respectivas o: y o:, entonces:
.:l.: 03:s: F=m -
0;s;
tiene una distribución F con n, - 1y n,
- 1grados de libertad.
12.2. ~ I E R v A L O SDE CONHANZA PARA RAZONES DE DOS VARMNZAS
Si si y $son las varianzas muestraies de muestras aieatorias independientes de tamano n, y n,, respectivamente, tomadas de poblaciones normales, entonces:
es una variable aleatoria que tiene una distribución F de Fisher con n, - 1 y n2- 1 grados de libertad. Al sustituir esta expresión de F en:
se llega al siguiente resultado para un intervalo de confianza relativo a P.o:
o;
1
'
Si S: y 4 son los valores de las varianzas de muestras aleatorias independientes de tamaño n, y n,, respectivamente, tomadas de dos poblaciones nor-
oz
males, un intervalo de confianza de (1- a)100% para 2: esta dado por:
o2
I
Se pueden obtener límites de confianza del (1 - a)100% correspondientes de ol/O, obteniendo las raíces cuadradas de los límites de confianza.
12.3. PRUEBADE HIP~TESIS PARA LA VARIANZA DE DOS POBLACIONES
Dadas muestras aleatorias independientes de tamaño n, y n, tomadas de dos poblaciones normales con las varianzas cf y a:, respectivamente, debemos obtener que las regiones críticas correspondientes de tamaño a , para probar la hipótesis nula = 4 contra las alternativas unilaterales cf < c$ o bien cf > o:, son respectivamente:
<
Cap. 12. Comparación de las uarianzas de dos poblaciones
353
son valores de la tabla F. La región crítica apropiadonde F,;, -,;,-, y Fa,. piada para demostrar la hipótesis nula contra la alternativa bilateral o: # o: es: -];,
Antes de proseguir, damos unas tablas de la distribución F de Fisher, que hemos generado con ayuda del Excel. Cabe señalar que esta distribución también se suele conocer con el nombre de distribución F de Snedecor-Fisher, o distribución F de Snedecor.
Las tablas 12.1 y 12.2 se elaboraron usando Excel. Son muy útiles para el trabajo estadístico relacionado con la comparación de las varianzas de dos poblaciones. Jerzy Neyman ( 1 894- 198 1). Matemático de origen polaco, luego se naturalizó ciudadano estadounidense. Desarrolló la teoría de la estimación y las pruebas de hipótesis. Publicó trabajos notables en estadística matemática teórica que dieron un impulso decisivo a esta ciencia.
Boris \/: Gnedenko ( 1 9 12- 1995). Fue uno de los más distinguidos probabilistas del siglo m.Escribió 2 13 trabajos y varios libros sobre teoría de probabilidades y estadística matemática. En particular, su monumental Curso de probabilidad alcanzó varias ediciones y fue traducido a más de I O idiomas: todavía es un clásico.
Tabla 12.1. Valores críticos de la distribución F de Fisher: F,,, ( x , v,, v,). I
1
1
w m
Tabla 12.1. Valores críticos de la distribuciónF de Fisher: F,,, ( x , v,, v,). (Continuación.)
1 2
.
-LA
89
VI
"2
12
243.90465 19.412482
,
15
20
24
245.94920
248.01557
249.05239
19.429081
<
19.445679 .
19.454092
30
40
60
1.20
999
m
250.09649
251.14423
252.19560
253.25426
254.18558
254.31655
19.470690
19.462504 A
19.479103
19.487288
--
19.494792
19.495928
w
Tabla 12.2. Valores críticos de la distribuciónF de Fisher: Foo, ( x , v,, v,). "2
--
1845
4999.33%
5624.2570
5403.5336
6
5 5763.9554
7
5858.9503
5928.3338
8
10
9 6022.3974
-
5980.9536
6055.9250
99.164026
99.251338
99.302270
99.331373
99.356839
93.375029
99.389581
99.396857
--3
34.116056
30.816409
-29.456714
28.710019
28.237082
27.910573
27.671376
27.489477
27.344868
27.228452
4
21.197593
17.999810
16.694230
15.977093
15.521891
15.206751
14.975740
14.798843
14.659236
14.546004
" 258127
13.274075
12.059900
11
.IA AL->, I I
10.672238
10.455551
'A30n2"
10.157692
10.051053
-
745193
9.7795692
9
-
246346 1 -
8.4512521
7
ln'OTL
-
i
7.9760412
7.8741778
8.4660314
8.2600309
1
7.1913746
6.9928774
3
6.7187784
6.6200982
8
11.258635
8.6490672
7.590:
.O060651
1
6.3706693
6.1776291
6.0288130
5,9105787
5.8142859
9
10.561507
8.0215159
6.991!
,4220558 ---
'
5.8017804
5.6128329
5.4670863
5.3511258
5.2565383
'"044232
7.5594926
6.552>=~7
,9943659
5.385"Ma
-
5.2001496
5.056676O
XnA24216
4,8491415
6.2167373
5.6683120
5.069
1.8860329
4.744492
15449
4.5392881
3302788
5.9525291
5.4119482
4.820
L.6395030
4.499384
75161
4.2%0551
E3
9.0738013
5.7393663
4.4410358
4.3020805
4.19
4.1002863
14
8.8616616
3.9394195
15
8.6831733
16
8.5309466
17
8.3997520
-
6461008
LZcQQAco
-
5.6363660
-
i
1
1
5.2053224
4.8615902
5.5638907
5.0354174
4.6949822
4.4558419
4.2778652
4.1399630
4.02'
5.4169504
4.8931952
4.5556021
4.3182808
4.1415547
4.0044483
3.8947974
5.2922360
4.7725734
;
4.2016381
4.0259351
8
3.78
3.6909285
3.68
3.5930725
'
4.6203468
/
3.8049279
5.1850293
4.6689479
4.1014800
3.9267434
4
'
4.0146233
3.8406256
3.7054235
3.5970515
3.5081484
!
3.9385668 1
3.7652512
3.6305323
3.5225014
3.4337972
3.871&7
3.6987444
3.5644234
3.4566767
3.3681999
-
2854967
6.0128968
5.0919198
4.5790216
-
1849976
5.9259264
5.0102926
4.5002366
20
8.0959808
5.8489604
4.9382152
4.4307171
.,
21
8.0166274
5.7804073
4.8740390
4.3688146
4.0421355
3.8117491
3.6395704
3.5056473
3.3981564
3.3098218
22
7.9453457
5.7190164
4.8166271
4.3134492
3.9879637
3.7583163
3.5866492
3.4530387
3.3457752
3.2576111
3.5390144
3,4056882
3,:6236
3.21:6
1 . .
4
3
99.000317
-'"
AA
2
1
Vi 00
"1
501914
-
2 -
,
P
2
,
,
,
J
1
/
,
3.7102268
,
Tabla 12.2. Valores críticos de la distribución F de Fisher: Fo,, ( x , v,, v,). (Continuación.)
En todas las estimaciones de intervalo y pruebas de hipótesis de los capítulos anteriores se partió de la suposición de que las poblaciones a estudiar seguían una distribución normal o, en el peor de los casos, aproximadamente normal; y cuando ello no se daba, entonces se suponía que las muestras tomadas eran lo bastante grandes para que el Teorema Central del Límite garantizara que las distribuciones muestrales o los estadísticos empleados tuvieran distribuciones aproximadamente normales. Ese tipo de pruebas (o métodos) se acostumbran llamar pruebas paramétricas (o métodos estadísticos paramétricos). En este capítulo, vamos a introducir el estadístico de enumeración xZ de Pearson, para el cual no se requiere la hipótesis de normalidad. Tales estadísticos se llaman estadísticos no paramktricos (o de distribución libre), y las pruebas de hipótesis que con ellos se realizan se llaman pruebas no paramdtricas. El estadístico x2 de Pearson se emplea en pruebas de hipótesis para lo que se llama bondad de ajuste y para independencia de datos, y se utiliza cuando los datos representan frecuencias tanto absolutas como relativas, incluyendo proporciones y datos categóricos. En capítulos posteriores se examinarán algunas otras pruebas no paramétricas usuales, incluso la llamada prueba de rango con signo de Wilcoxon, la cual es una alternativa sencilla para las pruebas correspondientes a dos muestras apareadas (o emparejadas), que se expusieron en el capítulo anterior.
13.2. EMPLEO DE LAJI-CUADRADADE ~ A R S O N PARA LA BONDAD DE AJUSTE
x2
Sin duda, el uso más importante del estadístico de Pearson es para comprobar si una distribución de frecuencias o de datos observados se ajusta o difiere de alguna distribución teórica previamente establecida. El estadístico de Pearson se define como sigue:
x2
donde la O significa frecuencias observadas y la E significa frecuencias esperadas. Naturalmente, tanto la suma de frecuencias observadas como la suma de frecuencias esperadas son iguales al total de frecuenciasN, es decir, =N, =N. De aquí que la expresión 1sea equivalente a:
m
a
x2
Si el número de categorías o clases es igual a k, entonces el estadístico de Pearson tenderá a una distribución ji-cuadrada con v = k - 1 grados de libertad (de ahí su nombre), en el caso de que las frecuencias esperadas puedan calcularse sin la necesidad de estimar parámetros a partir de los estadísticos muestrales. Como se ha explicado antes, la razón de restar 1a k estriba en que si se conocen k - 1de las frecuencias esperadas, entonces la frecuencia restante queda determinada en forma única. Por otra parte, puede ocurrir que las frecuencias esperadas sólo se puedan calcular estimando m parámetros de la población a partir de los estadísticos muestrales, en cuyo caso el número de grados de libertad se reduce a v = k - 1- m. Los criterios descritos aquí sólo deben emplearse cuando cada una de las frecuencias esperadas sea al menos igual a 5. Ejemplo 13.1. Los siguientes datos aparecieron en elJournal of tbe American Statistical AssociatlOn, vol. 31, pp. 376-380. Durante un periodo de 96 años se registraron
las vacantes para empleo en la Suprema Corte de Justicia de Estados Unidos, ya sea por muerte o renuncia de alguno de sus miembros. El tamaño de muestra es n = 96.
""cantes
Cap. 13. La prueba ji-cuadrada de Pearson
36 7
Supóngase que se sospecha que tal vez se podrían ajustar estos datos mediante un modelo teórico de Poisson, en el cual el parámetro h se toma como la media aritmética ponderada de esta distribución empírica, esto es:
Se requiere hacer ahora un comparativo del modelo teórico (o esperado) 969 (k; 0.5), con respecto a los valores observados en la tabla señalada. Luego se realiza la prueba ji-cuadrada para la bondad de ajuste entre los datos reales observados y el modelo teórico que se presume (Poisson). Solución: La razón de suponer un modelo de Poisson estriba en que de los datos observados se aprecia que la ocurrencia de una vacante por muerte o renuncia es un acontecimiento de muy baja probabilidad en un intervalo corto de tiempo y que además las ocurrencias de vacantes son independientes. Siempre que se tienen ocurrencias independientes poco probables, se debe intentar el modelo de Poisson. Con ayuda de Excel, obtenemos la siguiente tabla:
Para el cálculo de la última fila se usó la siguiente sintaxis con Excel:
(Tmbién podría hallarse restando de 96 la suma de los cuatro valores anteriores.) El único defecto que hallamos ahora es que en las últimas dos filas las frecuencias esperadas son menores de 5, lo cual va en contra del supuesto establecido líneas arriba para la validez de la prueba. Este defecto se puede subsanar si reducimos las clases, agrupando las tres últimas en una sola clase bajo la etiqueta de "dos o más". De este modo tendremos sólo tres categorías o clases, a saber: n, = número k = número de años con de vacantes k vacantes durante el año t (observado) A
-
-59 !
27
nk=ndmero de años con k vacantes (modelo esperado con distribución de Poisson) 58.227 29.114
368
Parte N. Estadística no paramétrica
Ahora se procede a calcular el estadístico xZde Pearson como sigue:
Ahora veamos qué tan bueno result6 ser el ajuste. Sea H, la hipótesis nula de que las frecuencias observadas siguen una distribución de Poisson con parámetro h = 0.5. La hipótesis alternativa es que semejante ajuste no procede. Tomemos a = 0.05 como nivel de significación de la prueba. Ahora bien, en tablas (o con Excel) hallamos el valor crítico para una distribución ji-cuadrada con 3 - 1 - 1 = 1grado de libertad. (El número de grados de libertad se obh'me restando el número de clases o renglones menos uno, menos el número depardmetros desconocidos:v = k - 1 - m.) Obtenemos, por tanto:
En consecuencia,la zona de rechazo está a partir de este número y en adelante (fig. 13.1).Como 0.371 c 3.84, no hay motivos para rechazar la hipótesis nula, luego entonces la hipótesis de una distribución de Poisson es perfectamente plausible. Cuanto más cercano a cero sea el valor del estadístico jicuadrado de Pearson, tanto mejor será el ajuste entre los datos observados y el modelo teórico propuesto. En este caso, por ejemplo, el ajuste resultó extraordinariamentebueno.
Figura 13.1. Distribuciónji-cuadrada con un grado de libertad.
OBSERVACI~N: Cabe señalar, a propósito d e este ejemplo, que muchos científicos famosos (químicos, biólogos, médicos y físicos) lograron ajustes similares con una distribución d e Poisson a partir d e datos observados e n la realidad durante su trabajo experimental. Un ejemplo notable lo describió el famoso biólogo italiano Salvador E. Luria, ganador del Premio Nobel d e Medicina en 1969 (junto con Max Delbrück). En su ameno libro autobiográfico A Slot Macbine,A Broken
Cap. 13. La prueba ji-cuadrada de Pearson
3 69
Test Tube (Harper and Row, 1984), S. Luria describe con detalle cómo fue que sus conocimientos d e las distribuciones estadísticas le ayudaron a rechazar la hipótesis de que las bacterias resistentes al ataque d e virus bacteriófagos ("fagos") lograban su inmunidad gracias a mutaciones espontáneas que ocurrían durante el crecimiento bacterial, en contra d e la hipótesis prevaleciente de que las bacterias se volvían resistentes a causa de su contacto con los fagos. Como describe Luria con mucho detalle en su libro, la segunda hipótesis debería responder a una supuesta distribución de Poisson para las bacterias que se volvían resistentes. El análisis estadístico minucioso de sus observaciones lo condujo a la conclusión correcta, y ese fue un paso crucial en sus descubrimientos sobre la inmunidad de ciertas células ante el ataque de virus, lo cual a su vez permitió realizar avances en el estudio de la resistencia de algunas células contra invasiones cancerígenas. Lo curioso, según menciona Luria, fue que ese gran descubrimiento, que a la postre le reportó el Premio Nobel, pasó inadvertido a muchos otros químicos y biólogos, porque éstos soslayaron la importancia de la teoría de las probabilidades y la estadística en el análisis de las observaciones experimentales. Ejemplo 13.2. Johann Gregor Mendel (1822-1884) h e un religioso y botánico austriaco que estudió la herencia y la hibridación de los vegetales. En uno de sus experimentos con hibridación de chícharos (guisantes), de un total de 556 chícharos observó que había 315 lisos y amarillos, 108 lisos y verdes, 101 rugosos y amarillos y 32 rugosos y verdes. De acuerdo con su teoría de la herencia, estos números deberían presentarse en la proporción 9:3:3:1. Con la prueba ji-cuadrada de la bondad de ajuste, averiguar si hay evidencia que permita dudar de su teoría al nivel de significación de 0.05. Solucidn: Los números esperados (frecuencias teóricas), de acuerdo con su teoría de la herencia, deberían ser los siguientes: -
,
Lisos
Rugosos
Amarillos
9 x 55
Verdes
3 x 5 5 =~1 v r . ~ 5
3
16 16
1
I
-A D U =
16
3r.13
Tenemos entonces las siguientes cuatro categorías: AL
Observado Esperado
315 312.75
AR
101 104.25
VL 108 104.25
34.75
El valor del estadístico ji-cuadrado de Pearson es aquí:
Al igual que en el ejemplo anterior, es un valor muy próximo a cero, lo cual indica que sin lugar a dudas el ajuste será otra vez admirable. En efecto, como hay cuatro cate-
370
Parte N. Estadística no paramétrica
gorías, se va a contrastar con el valor crítico x&, de la distribución ji-cuadrada con 4 - 1 = 3 grados de libertad. A diferencia del ejemplo anterior, aquí se trata de unapoblación multinomial en donde no había ningún parámetro desconocido. En estos casos, el número de grados de libertad es v = k - 1.Con Excel hallamos:
También se puede hallar este valor en una tabla de percentiles de la distribución jicuadrada. Como anticipamos, el valor del estadístico de prueba (0.470) resultó ser menor que este número (y por mucho), así que no hay motivos para rechazar la teoría de Mendel sobre la base de este experimento; por el contrario, el ajuste entre el modelo teórico y las observaciones reales es bastante admirable. En la figura 13.2 aparece la gráfica de la distribución ji-cuadrada con tres grados de libertad, cuya ecuación matemática se puede reducir a esta expresión:
7.81
Zona de rechazo de la hip6tesis H, -
Figura 13.2. Distribución ji-cuadrada con tres grados de libertad.
En resumen:Para ejemplos de aproximación con modelo de Poisson se deben tomar v = k - 2 grados de libertad, mientras que para ejemplos de población multinomial se deben tomar v = k -1 grados de libertad (como en el ejemplo 13.2). Aquí k es el número de categorías o clases, es decir, el número d e términos en la suma. Cuando ocurra que algunas de las frecuencias esperadas sean menores que 5, se deberán agrupar previamente algunas clases (generalmente son las primeras olas últimas), como hicimos en el ejemplo 13.1. Proponemos ahora al
Cap. 13. La prueba ji-cuadrada de Pearson
37 1
estudiante que intente resolver el siguiente ejercicio por sí solo en unas hojas de papel o un cuaderno. Ejercicio 13.1. En el Aeropuerto Internacional de la Ciudad de México se trata de averiguar si el flujo de llegadas de aviones por cada intervalo de cinco minutos se puede aproximar con un modelo de Poisson. El investigador observó los siguientes datos, donde c = cantidad de aviones que aterrizaron en un intervalo de cinco minutos. Se tomaron 128 mediciones aleatorias para este parámetro c.
De manera análoga al ejemplo 13.1, obtenga la media de estos datos para tener el parámetro p = h en el modelo de Poisson sugerido. Notará que las frecuencias esperadas de las primeras dos clases son menores que 5 en cada caso, así que puede agruparlas en una sola clase ("Oo 1"). Lo mismo ocumrá con las últimas dos clases (9 y 10 o más), en cuyo caso podrá agruparlas también en una sola clase: "9 o más". Use a = 0.05. Al aplicar la prueba de bondad de ajuste de Pearson, debe tomar 9 - 1- 1= 7 grados de libertad. Después de resolver el ejercicio, compare con la respuesta que damos a continuación, pero no la mire ahora, por favor. Respuesta del ejercicio:El estadístico X* de Pearson vale 10.9766.Por otra parte, en tablas de percentiles de la distribución ji-cuadrada (al final del libro), hallamos que x::,, (con v = 7) tiene el valor de 14.0671. A partir de ese punto y a la derecha es zona crítica (zona de rechazo). Como 10.9766 queda a mano izquierda de ese valor, entonces no se de un modelo de Poisson para el flujo de llegadas de aviopuede rechazar la hipótesis H,, nes por unidad de tiempo en el Aeropuerto Internacional de la Ciudad de México. Si su respuesta coincide con todo esto, ¡felicitaciones!
Como la distribución ji-cuadrada es una distribución continua, entonces es posible y deseable introducir una corrección por continuidad, sobre todo cuando las frecuencias observadas y esperadas no son muy numerosas. Esto es análogo a lo que se hace con la distribución normal cuando se usa como aproximación de la distribución binomial.
3 72
Parte N. Estadistica no paramCtrica
La wrreccibn de Yates para la continuidad es la siguiente:
=E(1 k
n2(corregida)
i=l
0, - 4
1 -u2
E,
Esta corrección, ideada por el estadístico inglés Frank Yates (1902-1994), puede considerarse como opcional, aunque se recomienda cuando las frecuencias observadas y esperadas son menores que 10, pero no menores o iguales a 5, en cuyo caso es mejor usar otra prueba especial, llamada la prueba de Fisher-Irwin. Si las frecuencias observadas y esperadas son mayores o iguales a 10, los resultados obtenidos con la corrección de Yates o sin ella son casi iguales. Ejemplo 13.3. El gerente de un supermercado quiere averiguar si los clientes tienen preferencia por alguna de las 10 cajas (sin contar la caja rápida) o si todas reciben en promedio la misma cantidad de clientes. Para elio, en un día cualquiera realizó un registro del número de clientes que habían ingresado a cada caja (excepto la caja rápida), con los siguientes resultados:
2 3 4 5 6 7 8 9 1 0 Núm. declientes 145 168 154 170 150 147 166 159 149 172
Caja
1
Realizar una prueba de hipótesis con un nivel de significación de a = 0.05 usando la corrección de Yates. SolucMn: En total se registraron 1580 clientes ese día, así que el número esperado de clientes en cada caja (bajo la hipótesis de no preferencia) es de 158. Podemos calcular el estadístico X' de Pearson, como en los ejemplos anteriores, o bien podemos usar la corrección de Yates, que es siempre preferible. Veamos:
Como son k = 10 categorías, buscamos el valor crítico (o percentil) de la distribución ji-cuadrada con 10 - 1= 9 grados de libertad. Obtenemos (con Excel):
La hipótesis de no preferencia se rechazaría si la x2 corregida que calcularnos hubiese sido mayor que este número, lo cual está muy lejos de ser el caso. Por consiguiente, se concluye que no hay, ni remotamente, argumentos para pensar que los clientes tienen preferencia por alguna de las cajas del supermercado.
13.4. TAsm DE CONTINGENCIA E INDEPENDENCIA DE DATOS ASOCIATIVOS
En los ejemplos anteriores, las frecuencias observadas ocupaban una sola fila y k columnas (o categorías). Ese tipo d e tablas s e llaman tablas de 1 x k o tablas de clasificación simple. Este concepto se puede generalizar para tablas d e b filas y k columnas, las cuales se llaman tablas de clasificación múltiple o tablas de contingencia En tales casos, el estadístico ji-cuadrado d e Pearson adquiere la siguiente expresión:
Con un nivel d e significación a,se rechazará H, si el valor calculado d e este estadístico excede al valor crítico X: con (b - l)(k - 1) grados d e libertad. Esto, naturalmente, e n caso d e que las frecuencias esperadas puedan calcularse sin necesidad d e estimar parámetros poblacionales a partir d e los estadísticos d e muestra. Si no fuera ese el caso, esto es, si dichas frecuencias sólo pudiesen calcularse estimando m parámetros poblacionales a partir de los estadísticos d e muestra, entonces habría que tomar (h - l)(k - 1) - m grados d e libertad. Las pruebas que se realizan con tablas d e contingencia tienen como finalidad averiguar si hay independencia entre varios atributos. Veamos un caso concreto. Ejemplo 13.4. En un estudio de mercadotecnia realizado en una universidad, se trata de averiguar si el estado ocupacional de una persona (o el gremio al que pertenece) se puede asociar con el mayor o menor apego a las marcas de productos que compra. Para ello se realizó una encuesta entre personas al azar, de los tres tipos principales de ocupación dentro de la universidad: burócratas, profesores y estudiantes. En total se realizó la encuesta con 230 personas dentro de la universidad (90 estudiantes, 65 profesores y 75 burócratas). Las tres categorías de la encuesta eran: muy apegado (muy leal) a las marcas de productos que compra; moderadamente apegado (más o menos leal) a las marcas de productos que compra; y no es apegado a las marcas (o no le importan las marcas de las cosas que compra). Se registró la siguiente tabla de contingencia de 3 x 3:
Muy Oczcpacfdn apegada Estudiante 30 14 Profesor Burócrata 34 Totales ' 78 -.
Moderadamente No es apegado Torales . apegado 42
18
90
20
31
65
25
16.
75
87
65-
/
230
Realizar una prueba con un nivel de significación de a = 0.01 para ensayar la hipótesis de independencia entre el estado ocupacional y la característica de apego a las marcas de productos que compran estos tres tipos de personas, sin emplear corrección de Yates. Solución: Las frecuencias esperadas se obtienen multiplicando las frecuencias relativas observadas de cada característica por los totales de las personas en cada gremio. Por ejemplo, para hallar la frecuencia esperada de estudiantes que son muy apegados a las
3 74
Parte N. Estadística no paramétrica
marcas, observamos que 78 de 230 personas fueron muy apegadas a las marcas, así que 78 como probabilidad empírica para esa característica. Multiplicando este tomamos 230 número por cada uno de los totales de personas en cada gremio (90,65 y 7 9 , obtenemos, respectivamente, 30.5,22.1 y 25.4. De la misma forma, procedemos con las demás características, y con los resultados elaboramos la siguiente tabla:
Ocupación
Estudiante Profesor
~ode&ente apegado -7- -E O
Muy apegado O E
--.
'
Burócrata
No es apegado
E-T
O
30 14
30.5 22.1
42
34.1
18
25.4
20
24.5
18.4
34
25.4
25
28.4
31 16
Ahora se procede a calcular el estadístico
21.2
xZde Pearson:
x:,,,,
Por otra parte, el valor crítico de con (3 - 1) x (3 - 1) = 4 grados de libertad es precisamente el percentil99 de la distribución. Con tablas (o con Excel) hallamos que vale 13.2767. Como el valor calculado para el estadístico de prueba (21.078) está a la derecha de este punto, entonces se rechaza la hipótesis de independencia y se concluye que la ocupación de las personas dentro de una universidad está asociada de alguna manera a su grado de apego o lealtad a las marcas de los productos que compra. ¿Por qué? Misterios de la psicología laboral, o quizá la explicación estriba en que los profesores están muy inmersos en su trabajo académico y de investigación,y tienen poco tiempo libre para algo que consideran tal vez frívolo. Ejemplo 13.5. En una fábrica de resistencias para parrillas eléctricas, los obreros trabajan en tres turnos (diurno, vespertino y nocturno). El gerente tiene la curiosidad de saber si la cantidad de parrillas defectuosas que salen de la línea de producción está asociada al horario de trabajo de los obreros o si no depende de ello. Para averiguarlo indicó a los obreros de cada turno que pusieran una pequeña marca de color distintivo a las parrillas que producían. Al final se obtuvieron los siguientes datos:
1 Defectuosas
1 1
Diurno 45
No defectuosas
905
Totales
950
1 Vesbertim / 55 1
1
890 945
Nocturno 70
t
Totales
170
1 1
1 930 1 1 2665 2835
Realizar una prueba con un nivel de significación de a = 0.05 para ensayar la hipótesis de que las parrillas defectuosas de la línea de producción son independientes del turno de trabajo. Solución:Las frecuencias esperadas se calculan de la misma forma que en el ejem950 = 0.3351 que una parriplo anterior. Así, tomamos como probabilidad empírica 2835
Cap. 13. La prueba ji-cuadrada de Pearson
375
iia al azar haya sido producida en el turno diurno. Si multiplicamos este número por los respectivos totales de parrillas defectuosas y no defectuosas, obtendremos las frecuencias esperadas para el turno diurno, las cuales podemos redondear a un dígito decimal después del punto: 0.3351 x 170 = 57.0, etc. Así se obtiene la siguiente tabla comparativa de frecuencias observadas y esperadas: Diurno O
Defectuosas Nodefectuosas
45
*
905
i
Vespertino
.
E
O
57.0 893.0
E
N&O
O
E
55
56.7
70
56.3
890
888.3
870
883.7
Tenemos, entonces:
Por otra parte, la distribución ji-cuadrada con (3 - 1) x (2 - 1) = 2 grados de libertad coincide, casualmente, con la distribución exponencial cuyo parámetro es h = 'h. El valor para este número de grados de libertad es 5.33. Como 6.29 > 5.33, se rechaza la hipótesis de independenaa y se concluye que es muy probable que la cantidad de parrillas defectuosas tenga que ver con el horario de trabajo de los obreros. La explicación podría atribuirse a la mayor fatiga o menor concentración de las personas en determinados horarios.
~ 0 , ~ ~
13.5. FORMA MATEMATICA Y G R A ~ C ADE UNA D I S ~ ~ B ~ CJI-CUADRADA I ~ N
La distribución ji-cuadrada con dos grados de libertad es una distribución gama con parámetro de forma r = 1 y parámetro de escala h = '/z, o distribución de Erlang con esos parámetros. También coincide con una distribución de Weibull con los mismos parámetros mencionados y, por consiguiente, con una distribución exponencia1 cuyo parámetro es h = '/2. Es un caso curioso que una misma expresión matemática se ajuste a cinco (!) distribuciones famosas diferentes (gama, Erlang, exponencial, Weibull y ji-cuadrada). Sin duda, es una marca única en la teoría de las distribuciones estadísticas. Su gráfica se ilustra en la figura 13.3.
Figura 13.3. Distribución ji-cuadrada con dos grados de libertad.
George Waddell Snedecor (1 882- 1974). Nació en Memphis, Tennessee, pero enseñó estadística en lowa. Fue el creador de la metodología de regresión múltiple e hizo también valiosas aportaciones a la teoría de correlación y regresión, así como en el análisis de varianza. Junto con R. A. Fisher, creó la famosa distribución F de Snedecor-Fisher. Sus libros más famosos fueron Analysis of Variance and Covariance (1 934) y Statistical Methods ( 1 937).
Aleksander Y: Khinchin (1 894- 1959). En 1927, publicó algunos trabajos de enorme importancia acerca de la ley de los grandes números y sentó las bases matemáticas rigurosas de la teoría de las probabilidades. Realizó también valiosas contribuciones a la mecánica estadística y la teoría de nhmeros. Sus dos libros más notables fueron Principios matemáticos de [a mecánica estadística (1 943) y Fundamentos matemáticos de la estadística cuántica (1 95 1 ) . Entre sus alumnos más distinguidos se destacó B. V. Cnedenko, quien llegaría a ser otro famoso probabilista y estadístico.
& %
re
'
.
*
44.w
a L.
Frank Yates (1 902- 1994). Matemático inglés que contribuyó al desarrollo de métodos estadísticos aplicados a la biología experimental. Fue un entusiasta impulsor del uso de computadoras en la estadística.
La prueba ji-cuadrada d e Pearson que se examinó en el capítulo 13 es, sin duda, la prueba no paramétrica que goza de mayor popularidad. En este capítulo, expondremos otras pruebas no paramétricas útiles. Las pruebas estadísticas no pararnétricas no requieren de suposiciones acerca de la distribución de las variables que se manejan, y por lo mismo, son menos eficientes que las pruebas pararnétricas, ya que no utilizan toda la información proporcionada por la muestra. Sin embargo, las pruebas no paramétricas son especialmente útiles cuando no se puede justificar la normalidad de la población, o cuando las variables d e estudio son categóricas o cualitativas.
Para ensayar la hipótesis nula y = p, contra la alternativa adecuada sobre la base de una muestra aleatoria de tamaño n, se sustituye cada valor d e la muestra mayor que p., con un signo positivo (+) y cada valor menor que dicho número con un signo negativo (-). Los valores que coincidan con CL, se descartan. El número total d e signos positivos es un valor d e una variable aleatoria discreta que tiene distribución binomial con parámetrop = l/2. Para pruebas de cola izquierda o d e cola derecha, la hipótesis nula se rechazará si el número d e signos positivos que se obtiene es perceptiblemente menor o mayor que l/z, respectivamente.
378
Parte /V. Estadística no paramétrica
Ejemplo 14.1. La calidad de una gasolina se mide por octanaje. El octano (C,H,$ es el octavo miembro de la familia de hidrocarburos afines conocidos como alcanos.' Supóngase que se afirma que un nuevo tipo de gasolina tiene en promedio un octanaje de p = 97. Se toman 16 muestras aleatorias de esa gasolina y en cada caso se mide en un laboratorio su octanaje, registrándose los siguientes datos:
Aplicar la prueba de los signos para ensayar la hipótesis nula Ho:{p 1 97) contra la alternativa Ha:{pe 971, con un nivel de significación de a = 0.05. Solución: De acuerdo con la regla de los signos, anotamos un signo positivo por cada valor que exceda a 97 y un signo negativo por cada valor que sea menor que 97. Los valores que sean iguales a 97 se descartan:
Sea X el número de signos positivos (éxitos) en un ensayo binomial donde n = 14. Como sólo salieron cuatro signos positivos, la hipótesis nula Hose rechazará si P ( X I 4) e 0.05. Con Excel calculamos rápidamente P(X I 4):
Se obtiene 0.0898 > 0.05. No se puede rechazar la hipótesis nula y se concluye que, efectivamente, el índice promedio de octano de ese nuevo tipo de gasolina es por lo menos 97, tal como se anuncia.
Para un ensayo de hipótesis bilateral H,:{p = CL,),Ha:{pz q,), se emplea la siguiente regla:
n el valor calculado 2P(Xlx cuandop = l/2) S a , entonces se recha- Six< -y 2
za H,.
- Six> n y e l valor calculado 2 P ( X l x cuandop = l/2) Ia , entonces se recha2
za H,. Además, si n > 10, las probabilidades binomiales pueden aproximarse mediante la curva normal, lo cual resulta cómodo si no se tiene computadora a la mano y los valores de los parámetros usados caen fuera de las tablas binomiales. 'El índice de octano de una gasolina es una medida de su capaadad antidetonante, y se obtiene por comparación del poder detonante de la gasolina con el de una mezcla de isooctano (2,2,4 trimetilpentano) y heptano (C,H,,). Al isooctano se le asigna un poder antidetonante de 100y al heptano de O. Una gasolina de 97 octanos, por ejemplo, se comporta en cuanto a su capacidad antidetonante, como una mezcla que contiene 97%de isooctano y 3 % de heptano.
Cap. 14. Las pruebas no pararnttricas más usuales
379
Ejemplo 14.2. La pila recargable de cierto tipo y marca de computadora portátil (laptop) debe durar en promedio 1.8 horas trabajando antes de que necesite recargarse de nuevo, pero no se está seguro de si el tiempo es mayor o menor que ése. Para averiguarlo, se tomó una muestra aleatoria de n = 11laptops nuevas de esa marca y tipo y se comprobó cuánto tiempo (en horas) trabajaron antes de que necesitaran que la pila se tuviera que recargar. Se registraron los siguientes datos:
Realizar un ensayo de hipótesis Ho:{p = 1.81,Ha:{p# 1.81, con a = 0.05, usando la prueba de los signos. Solución: Empezamos por anotar un signo positivo (+) por cada valor que exceda 1.8, y un signo negativo (-) por cada valor que sea inferior a 1.8, y descartar aquellos que sean iguales a 1.8:
Designemos como éxito a la ocurrencia de un signo positivo, y sea X la variable binornial que representa el número de éxitos en n = 10 ensayos de Bernoulli, conp = l/z. Observamos que ocurrieron sólo tres éxitos; luego: 2 P ( X Í 3 cuando*
= Y,) = 2 x b ( r , 10,
Y,)
M
Esto lo haliamos con Excel usando la sintaxis siguiente:
Se obtiene 0.3438 > 0.05. Entonces, no se puede rechazar la hipótesis Ho:{p = 1.81, es decir, los datos observados no pueden usarse de modo significativo (perceptible) para argumentar contra esta hipótesis, a reserva de tomar una nueva muestra (mayor) y repetir el ensayo.
La prueba d e los signos también puede emplearse para comparar dos conjuntos d e muestras apareadas (o emparejadas), usando un signo positivo (+) por cada diferencia d, positiva y un signo negativo (-) por cada diferencia di negativa. Para ilustrarlo, usaremos el ejemplo 11.6 d e las vacas lecheras, que se resolvió usando la técnica usual para muestras apareadas. Ejemplo 14.3. A 15 vacas lecheras se les suministró cierto tipo de alimentación (dieta) durante cinco días consecutivos y luego otro tipo de alimentación durante otros cinco días consecutivos, y en cada caso se midió la cantidad de leche (en litros) que se les pudo ordeñar (redondeada al litro más cercano):
Nótese que en este caso sólo nos interesa el signo de la diferencia, mientras que con la técnica del capítulo 11 se usó el signo y además la magnitud numérica de la diferencia. Ensayar la hipótesis Ho:{p, - p2 = O} contra la alternativa Ha:{p, - p., > O},con un nivel de significación de a = 0.05. Solución: El estadístico de prueba es la variable aleatoria biomial X con p = l/z, donde X denota el número de éxitos (signos positivos) en n = 14 intentos. De las observaciones se tienex = 9. Luego: 14
P(X 2 9 cuandoP = Y, ) = z b ( x , 14,
Y,) = 1- DISTR.BINOM.(8,14,0.5,1)
x =9
Se concluye que no es posible rechazar la hipótesis nula Ho:{p, - CL, = O},es decir, es muy probable que sea una mera ilusión la apariencia de que las vacas producen más leche en promedio con la dieta 1.Recuérdese que habíamos concluido lo mismo usando la distribución t de Student y la técnica usual para muestras apareadas. Sin embargo, en aquel cálculo se usó como hipótesis alternativa Ha:{pl - CL, $ O}, esto es, se trató como una prueba de dos colas. Podemos hacer también aquí un ensayo de dos colas, en cuyo caso calculamos: 2P(X 2 9 cuandop = l/2) = 2 x 0.212 = 0.412 > 0.05
Entonces con mayor razón se concluye que no es posible rechazar la hipótesis nula Ho: {p, - p, = O).
En 1945, el químico y estadístico estadounidense Frank Wdcoxon (18821965), nacido en Irlanda, publicó una versión mejorada d e la prueba de los signos, en la cual sí se toma en cuenta la magnitud cuantitativa de las diferencias observadas y no sólo los signosazEsto la convierte en una prueba más eficiente, F. Wdcoxon y R. A. Wilcox, Some Rapid Appmrr'vnute Statfstical Procedures, Pmeedings of the American Statistical Society,Nueva York, 1945.
Cap. 14. Las pruebas no paramétricas más usuales
38 1
aunque no tanto como la prueba usual para muestras apareadas que usa la distribución t d e Student, la cual, no obstante, es una prueba paraméuica, toda vez que supone una distribución normal en la población de donde se toman las muestras, mientras que la prueba de Wilcoxon no hace tal suposición, esto es,se trata de una prueba no paramétrica. Esta prueba funciona como sigue. Para ensayar la hipótesis nula H,:{y = po) contra alguna alternativa apropiada, se resta p, de cada valor muesval y se eliminan todas las diferencias iguales a cero. Las diferencias que quedan se clasifican entonces, sin tomar en cuenta los signos, y se les van asignando en forma consecutiva los números 1,2,3,. . . , etc. Si ocurriese que el valor absoluto de dos diferencias fuese el mismo, entonces se asigna a ambas el promedio aritmético de los valores que se les habría asignado si hubiesen sido distintas. La idea d e Wilcoxon se basa en que si la hipótesis nula H,:{y = yo) fuese verdadera, entonces el total d e las sumas positivas debería ser aproximadamente igual al total de las sumas negativas. Dichos totales se representan por w+y w-, respectivamente. Se define además w = mín {w+,w-1. De esta manera, la hipótesis nula H,:{p = po) se rechazará a favor de la alternativa p < y, sólo si ocurre que w+es pequeña y w- es grande, mientras que la alternativa y > pose aceptará si w+es grande y w- es pequeña. Para una prueba de dos colas, se rechazará la hipótesis Ho:{y = yo) en favor d e la alternativa Ha:@ # 1.1,) si ambos w+ y w- (por tanto, w = mín {w+,w-)) son pequeños. Como los términos "suficientemente pequeño" o "suficientemente grande" son vagos, se usa la tabla 14.1, elaborada por Wilcoxon y Wilcox, y empleada en sus estudios con pesticidas en la empresa American Cyanamid Company. Tabla 14.1. Valores críticos para la prueba de rango con signo de Wdcoxon.*
*Para una tabla más detallada y extensa, consúltese el trabajo de Robert L. McComack, "Extended 'Cables of the Wdcoxon Matched Pair Signed Rank Statistic", en J o u m l of tbe American Statistical Asociatim, vol. 60, septiembre de 1965.
En cualquier caso, la hipótesis nula se rechaza sólo si el valor calculado de w+,w O W,según corresponda, es menor o igual al valor hallado en la tabla 14.1. La siguiente tabla indica cuál valor hay que escoger en cada caso:
Todo ello se comprenderá mucho mejor con un ejemplo concreto. Ejemplo 14.4. Retomemos el primer caso que se examinó al principio del capitulo (ejemplo 14.1 con 16 muestras del índice d e octano de cierto tipo de gasolina). Recuérdese que se tenían las siguientes observaciones:
Cap. 14. Las pruebas no paramétricas más usuales
383
Ensayar la hipótesis nula H,:{p 2 97) contra la alternativa ~=:{p e 971, usando un nivel de significación de a = 0.05,mediante la prueba de rango con signo de Wilcoxon. Solución:A cada uno de los números se le resta 97,por lo que se obtienen las siguientes diferencias:
Ahora se eliminan las dos diferencias nulas y se ordenan las restantes 14 de menor a mayor (sin importar el signo). Debajo de ellas anotamos el respectivo rango que les corresponde, de acuerdo con la convención mencionada:
Luego se suman los rangos (no las diferencias) por separado, de las diferencias negativas y las positivas:
Además: w = mín (71.5,33.5)= 33.5
La hipótesis nula H,:{p 2 97) se rechazaría si w+= 33.5 fuese menor que 26 (ya que en la tabla aparece el valor crítico 26 cuando n = 14 y a = 0.05 en una prueba unilateral). Por consiguiente, no se puede rechazar H,, y se concluye que el contenido de octano de esa gasolina sí corresponde con el anunciado.
¿Qué pasa cuando n supera el mayor valor de la tabla, es decir, 30? En tal caso, tanto la distribución muestra1 de W+como la de W se aproximan a una distribución normal cuya media y varianza son, respectivamente, las siguientes (para prueba de cola izquierda):
En ese caso se emplea el siguiente estadístico para determinar la región d e rechazo:
y se compara con las tablas de la distribución normal estándar. Para prueba de cola derecha o d e ambas colas, sólo hay que cambiar W por W o por W, respectivamente.
384
Parte N. Estadística no paramétrica
Ejemplo 14.5. Supóngase que se trata de ensayar cierta hipótesis H,:{p 2 p,} contra Ha:{pe po}, usando el nivel a = 0.05, para una muestra de n = 45 observaciones. Al realizar los cálculos de rango se obtiene finalmente que w+= 373. ¿Se debe rechazar o no la hipótesis H,? Solucidn:
El valorp de la prueba es:
Véase la figura 14.1. Por tanto, no puede rechazarse la hipótesis H,. NOTA:Si hubiésemos usado las tablas extendidas de Roben L. McCornack (véase la nota de la tabla 14.1 en la página 382), para n = 45, a = 0.05 en prueba unilateral, habríamos hallado la cifra 343. Como w+ = 373 excede este valor, la conclusión habría sido la misma: no puede rechazarse la hipótesis H,.
Figura 14.1
14.5.PRUEBA DE RANGO CON SIGNO DE WILCOXON PARA MUESTRAS APAREADAS
Para muestras apareadas (o emparejadas), la prueba de rango con signo de Wdcoxon es también una buena opción. La tabla siguiente sirve como esquema guía:
&ra ensayar H,
P,2 Cl, P,5 P2 P$=P2
Contra Ha Se calcula -
CLi < P2 Pl P2 Y *P2
'
A
W
Ejemplo 14.6. Un señor es dueño de dos zapaterías en distintos rumbos de una misma ciudad y tiene curiosidad en averiguar si en alguna de ellas vende, en promedio, más pares de zapatos o si en ambas vende aproximadamente lo mismo. Para ello comparó las ventas de 16 días elegidos al azar:
Con la prueba de rango con signo de Wilcoxon para muestras apareadas, con un nivel de significación de a = 0.05, ensayar la hipótesis nula de que ambas zapaterías venden en promedio el mismo número de pares de zapatos, contra la alternativa de que las ventas difieren. Solución:Primero hay que tabular las diferenciasy sus respectivos rangos con signo:
Luego se suman, por separado, los rangos correspondientes a diferencias positivas y diferencias negativas: w = G + 12 + 8.5 = 26.5 w+= 3+12+6+10+15.5+15.5+1+8.5+12+3+G+14+3=109.5 w = mín (26.5, 109.5) = 26.5
386
Parte N. Estadística no paramétrica
Finalmente, con a = 0.05 para una prueba bilateral en la que n = 16, hallamos en la tabla el valor crítico 30. Como 26 c 30, se rechaza H,, y se concluye que la venta en ambas zapaterías difiere. Nótese que con el mismo nivel de significación también se rechazaría H,,si la hipótesis alternativa fuese p, > p, (lo cual se sugiere por la gran cantidad de diferencias positivas). En efecto, en tal caso el valor crítico de la tabla sería 36 que también es mayor que el valor calculado para w-.
Hay dos pruebas no paramétricas usuales basadas en la suma de rangos. Una de ellas es la llamada prueba d e Mann-Wbitney-Wlcoxon de la s u m d e rangos, también llamadaprueba Ude Mann o, sencillamente,prueba U. La otra prueba es la llarnadaprueba H (también llamada prueba H de Kwkal-Wallis), que se expondrá en la sección siguiente. Henry Berthold Mann (1905-2000) fue un destacado matemático austriaco que emigró a Estados Unidos en 1938. Uno de sus discípulos fue Donald Ransom Whitney La prueba Ues una prueba de comparación para medias de dos poblaciones. Se selecciona una muestra aleatoria de cada una de las dos poblaciones, denotando por n, y n,, respectivamente, al número de observaciones de la muestra menor y de la muestra mayor. Si ambas muestras fuesen del mismo tamaño, pueden asignarse libremente las etiquetas n, y n?. Luego se ordenan todas las n, + n, observaciones combinadas (en orden creciente) y se sustituye un valor de la sucesión de números 1,2, .. . , n, + n, para cada observación. Al igual que en la prueba de rango con signo, si hubiese dos observaciones iguales, el rango que les tocaría a ambas sería el promedio aritmético d e los números que serían si fuesen distintas. Denótese por rly r,, respectivamente, a la suma de los rangos correspondientes a las n, y n, observaciones de las muestras pequeña y grande. Como sabemos que la suma de los primeros k números enteros positivos es k(k + 1)D, entonces:
+
ri r2=
(n, + n3 (n, + n2 + 1) 2
Resulta claro que si se eligen distintas muestras de tamaños n, y n,, respectivamente, de las poblaciones dadas, se espera que r, y r, varíen. Por tanto, las podemos considerar como valores específicos de las variables aleatorias R, y R,, respectivamente. Para una prueba d e cola izquierda Ho:{p 2 CL,)contra Ha:{p < po), se rechazaría la hipótesis nula si r, fuese pequeño y r, fuese grande. Para una prueba de cola derecha Ho:{p I pO}contra Ha:{p> p,,), se rechazaría Hosi r, fuese grande y r2fuese pequeño. Por último, para una prueba de dos colas, se rechazaría Ho si cualquiera de r, o r, fuese grande y el otro pequeño. En consecuencia, se introducen los estadísticos de prueba U,, U, y U= mín {U,, U,), cuyos valores se calculan en la práctica de la manera siguiente:
Cap. 14. las pruebas no parametricas más usuales
387
El esquema para esta prueba es el siguiente: ~ ~ m a y a i - ~contra , , Y
Pi 2 P2 P,5 P, P1= P2
Pr < w 2 Pl P2 Pl ri.2
'
"
1 Se calcula u2
u
La hipótesis nula será rechazada si el estadístico de prueba correspondiente toma un valor menor o igual al tabulado. En las tablas 14.2 a 14.5 transcribimos tablas de valores críticos correspondientes a la prueba U de Mann. Se encuentran tablas más detalladas y extensas en D. Auble, "Extended Tables for the Mann-Whitney Statistic", en Bulletin of tbe Institute of Eáucational Researcb at Indiana University,vol. 1, núm. 2,1953. Tabla 14.2. Prueba unilateral para a = 0.001; prueba bilateral para a = 0.002.
388 Tabla 14.3. Prueba unilateral para a = 0.01; prueba bilateral para a = 0.02.
Tabla 14.4. Pmeba unilateral para a = 0.025; pmeba bilateral para a = 0.05.
Tabla 14.5. Prueba unilateral para a = 0.05; prueba bilateral para a = 0.10.
.
390
Parte N: Estadística no paramétrica
Ejemplo 14.7. Un negocio de comida rápida tiene dos empleadas A y B, que atienden los pedidos de los clientes. El tiempo de atención a un cliente raramente rebasa los cinco minutos. Para averiguar si en promedio ambas empleadas se tardan lo mismo o no, se registraron los siguientes tiempos en minutos:
Para simplificar la tarea de sumar rangos, sólo se suman los rangos de la muestra menor (r, = 93), y los de la muestra mayor se calculan así:
Realizar una prueba de hipótesis, con un nivel de significación de a = 0.05, para ensayar la hipótesis H,: { p = po) contra Ha:{p f p,) . Solución:Se tiene:
Entonces:
u = mín (57,231 = 23 Ahora buscamos en la tabla la región de rechazo (región critica). Para n,= 8, n,= 10, en una prueba bilateral con a = 0.05, hallamos el valor crítico 17. La hipótesis nula H,:{p = po} se rechazaría sólo si el valor calculado para u hubiese sido I 17, lo cual no es el caso. Por tanto, no se puede rechazarti, y se concluye que no hay diferencia perceptible entre los tiempos promedio que hacen las dos empleadas para atender a los clientes. Obsérvese que tampoco se podría haber rechazado la hipótesis con un nivel de significación mayor, digamos a = 0.10 (lo cual significaría admitir una mayor probabilidad de equivocarse al rechazar la hipótesis cuando ésta fuese cierta), toda vez que en la tabla habríamos hallado el valor 20, que todavía es mayor que 23.
Cap. 14. las pruebas no paramétricas más usuales
39 1
Si n, y n, son mayores a los valores que aparecen en la tabla, entonces la distribución muestral de cualquiera de los estadísticos U,, U, y U se apega a la distribución normal. Por ejemplo, la distribución muestral para el estadístico U, sería normal con los siguientes parámetros (media y varianza):
En tal caso, se emplea el estadístico de prueba:
y se realiza el contraste con valores críticos de la distribución normal estándar.
La prueba no paramétrica d e Kruskal-Wallis (prueba H) se usa para comprobar si un grupo de muestras independientes procede o no d e la misma población. En cierto modo, es una versión no paramétrica del análisis d e varianza en una dirección (ANOVA) y puede considerarse como una generalización de la prueba U de Mann-Whitney. La prueba H s e emplea para ensayar la hipótesis nula H, de que k muestras independientes (k > 2) provienen de la misma población o de poblaciones con idéntica media. Tiene la ventaja de que se evita la suposición de que las muestras se seleccionaron d e poblaciones normales. Esta prueba fue introducida en 1952 por los economistas William H. Kruskal (de la Universidad de Chicago) y W Allen Wallis (de la Universidad de Rochester, Nueva York) . La prueba H funciona d e la siguiente manera. Se tienen n observaciones (o datos) provenientes de k muestras, en donde se usa el símbolo ni para denotar el número d e datos en la i-ésima muestra. Luego se ordenan en forma creciente todas las n = n, + n2+ + n, observaciones (aquí puede hacerse en forma decreciente también), etiquetando cada observación con el número natural correspondiente: 1 , 2 , 3 , . . . ,n. Como en las pruebas descritas anteriormente, en caso de empates entre dos o más observaciones, se les asigna a cada una el promedio aritmético de los números que les tocarían si fuesen diferentes. Luego se denota por R, a la suma de los valores (rangos) correspondientes a las ni observaciones de la i-ésima muestra. Se usa el siguiente estadístico de prueba:
392
Parte N. Estadística no paramétrica
el cual tiende a una distribución ji-cuadrada con v = k - 1 grados d e libertad en el caso d e que H, sea verdadera, suponiendo que todas las n,2 5. En la expresión 1, las letras mayúsculas denotan variables aleatorias (en general), así que para valores específicos d e dichas variables se usan las mismas letras, pero minúsculas. Así, se emplea el siguiente estadístico d e prueba:
, v =k - 1 Si el valor d e este estadístico es mayor que el valor crítico ~ 2con grados de libertad, entonces se rechaza la hipótesis nula H,, d e que las muestras provienen d e poblaciones con medias iguales. Recuérdese que, con Fkcel, el valor crítico ~ 2se, calcula con la siguiente sintaxis: La figura 14.2 ilustra la zona de rechazo.
Figura 14.2. Distribución x2 con k - I grados de libertad. Ejemplo 14.8. Los estudiantes de tercer año de preparatoria (60. año de bachillerato) de una escuela técnica se dividen en tres áreas, dependiendo de las profesiones que tengan en mente estudiar: área químico-biológica (QB), área físico-matemática (FM) y área económico-administrativa (EA). Se quiere averiguar si los estudiantes de las tres áreas tienen más o menos la misma habilidad para ortografía y redacción o difieren en ella. Para ello, se escogieron al azar 21 estudiantes (7 del área QB, 8 del área FM y 6 del
Cap. 14. Las pruebas no paramitricas más usuales
393
área EA) y se les aplicó un examen básico y sencillo sobre temas d e redacción y ortografía, con los siguientes resultados (en escala del O al 100) [datos publicados por Stockton and Clark, 19801:
Aplicar la prueba H de Kruskal-Wallis para ensayar la hipótesis nula de que no hay diferencia significativa (perceptible) entre los estudiantes de cada una de las tres áreas en cuanto a su habilidad promedio para la ortografía y la redacción. Usar un nivel de significación de a = 0.05. Solución: A primera vista parece que los estudiantes del área físico-matemática salieron mejor (en términos generales) en el examen, pero ¿podría ser sólo una ilusión o una casualidad?Veamos:
Entonces se calcula la suma:
Por consiguiente:
394
Parte IV. Estadística no paramétrica
Como el número de categorías es k = 3, comparamos este dato con el valor critico de la distribución ji-cuadrada con k - 1 = 2 grados de libertad, el cual es:
Obviamente, 8.52 queda a la derecha de este valor critico, es decir, queda en zona de rechazo. Por tanto, se rechaza la hipótesis y se concluye que, en términos generales,los estudiantes de las tres áreas tienen diferente habilidad para la ortografía y la redacción.
Esta prueba no paramétrica se basa en el orden en que se van obteniendo las observaciones muestrales para datos dicotómicos (dos muestras independientes). Puede usarse para datos categóricos o para datos cuantitativos. En este caso, se define la variable aleatoria V, que representa el número total de rachas que ocurren en la sucesión completa de los datos observados. Los contrastes de valores calculados se hacen cotejando unas tablas especiales (tablas 14.6, 14.7, 14.8, 14.9 y 14.10). Dichas tablas fueron elaboradas por C. Eisenhart y F. Swed, y publicadas en la revista Annals of Mathematical Statistics, vol. 14, 1943, en un artículo cuyo título es "Tables for Testing Randomness of Groupings in a Sequence of Alternatives". Tenemos una sucesión de dos símbolos en donde pueden ocurrir algunas rachas de uno u otro símbolo. Denotamos por n, al número de símbolos asociados con la categoría que tiene la menor frecuencia observada y por n, al número de símbolos asociados con la otra categoría. Por ejemplo, en una línea de producción de artículos de plástico hechos con molde, denótese por D al artículo defectuoso y por N al no defectuoso. Supongamos que 12 artículos consecutivos salen de la línea de producción en el siguiente orden:
Entonces, observarnos la ocurrencia de v = 5 rachas, donde n, = 5, n, = 7. Sea Hola hipótesis nula de que los artículos defectuosos y no defectuosos aparecen de manera aleatoria. Para una prueba bilateral, la región crítica (rechazo de H,) ocurre cuando: R = 2P(V 5 v, cuando Hoes cierta) 5 a
Para una prueba unilateral, la región crítica (rechazo de H a ocurre si:
R = P(V5 v,cuando H, es cierta) 5 a Por ejemplo, en la tabla 14.9se observa que para n, = 5, n, = 7, v = 5 aparece el número 0.197. Por tanto, para una prueba con a = 0.05, se tiene R = 0.197 > 0.05, así que no existe evidencia para rechazar la hipótesis de aleatoriedad en la muestra observada.
Tablas de valores críticos P(VI V, cuando H,, es cierta) Tabla 14.6
Tabla 14.7
Tabla 14.8
Tabla 14.10
Ejemplo 14.9. Durante 15 lunes consecutivos (de 2002) se cotejó la paridad del peso mexicano frente al dólar estadounidense (precio d e compra), con los siguientes registros (redondeados al centavo más cercano): 9.60,9.90, 10.10,9.60, 9.80,9.70,9.40, 10.00, 9.95, 10.10, 9.90, 10.00, 9.80, 10.20 y 10.10. Aplicar la prueba de las rachas para averiguar si hay razones para suponer que la fluctuación (o variación) semanal de la paridad peso mexicano vs. dólar estadounidense puede considerarse como aleatoria. Tome a = 0.05. Solución: La hipótesis nula H, es que la fluctuación semanal es aleatoria; la hipótesis alternativa es que la fluctuación semanal no es aleatoria (prueba bilateral). La mediana de los datos es 9.90. Ahora vamos a remplazar cada dato superior a este promedio con un signo positivo (+) y cada dato inferior con un signo negativo (-), omitiendo aquellos valores que por casualidad coincidan con la mediana (9.90). Tenemos entonces la siguiente sucesión:
Como n, = 6, n, = 7, v = 6 (porque son seis rachas, sin considerar los huecos), hallamos en la tabla 14.9 el valor crítico 0.296. Luego: R = 2P(VI v, cuando H,, es cierta) = 2 x 0.296 = 0.592 > 0.05
En consecuencia, no se rechaza la hipótesis de que la fluctuación semanal del peso mexicano frente al dólar estadounidense es aleatoria, al menos durante ese periodo observado.
Cuando n, y n, exceden los valores de la tabla, se puede aproximar la distribución muestra1 de V usando la distribución normal con los siguientes parámetros (media y varianza): CLv =
2nlnz
n, + n2
+1;
a:=
2n1n2(2n1n2 - n, - n,) (n, + n2>2(nl+ n2 - 1)
398
Parte N. Estadística no paramétrica En cuyo caso se coteja el estadístico de prueba:
con los valores críticos de la distribución normal estándar. La prueba d e las rachas también puede usarse para el caso d e muestras apareadas, c o m o alternativa a la prueba U d e Mann-Whitney. Ejemplo 14.10. Supóngase que en un laboratorio de medicamentos quieren poner a prueba una variante del mesilato de Imatinib (Glivec) para inhibir la producción d e una proteína, con lo cual se espera prolongar la vida en pacientes que padecen leucemia aguda linfoblástica de grado avanzado. Se escogieron al azar nueve pacientes con esa enfermedad en grado avanzado, a quienes se pronosticaban muy pocos años d e vida, quizás uno o dos. Sólo a cinco de ellos se les trató con el medicamento. Transcurridos cinco años después del estudio, los nueve pacientes habían fallecido. Sus tiempos de supervivencia fueron los siguientes (en años): Con eltratamiento
2.1
5.3
1.4
4.6
Sin el tratamiento
1.9
0.5
2.8
3.1
0.9
Aplicar la prueba de las rachas para determinar si el tratamiento médico resultó de alguna utilidad. Solución: Ordenamos de manera creciente las nueve observaciones, etiquetando cada observación con una C o una S, según haya recibido el tratamiento con ese suero o no, respectivamente: 0.5 0.9 S C
1.4 1.9 2.1 2.8 3.1 4.6 5.3 C S C S S C C
Tenemos entonces v = 6 rachas, n, = 4, n, = 5. Se trata de una prueba unilateral, ya que sólo nos interesa comprobar si los pacientes que no tuvieron el tratamiento descrito viven menos que los otros. Hallamos en la tabla que: R = P ( V 2 v, cuando H, es cierta) = 0.786
el cual es un valor muy grande, mucho mayor que cualquier nivel de significación razonable, en particular, es mayor que 0.05. Así, no se puede rechazar la hipótesis de igualdad de medias (lo cual sería implicado por la aleatoriedad d e las rachas). En consecuencia, se infiere que el tratamiento no ha mostrado ninguna utilidad perceptible para prolongar la vida d e los enfermos. Desde luego, la prueba puede repetirse con una mayor muestra, aunque siempre está el inconveniente de que es una prueba que tomará varios años para realizarse en humanos.
/+
9
--
-.
*w--=
""a
"Ls,
Calyampudi Radhakrishnan Rao (n. 1 920). Notable matemático hindú contemporáneo. Obtuvo su doctorado en Cambridge, Inglaterra donde trabajó junto con sir Ronald A. Fisher. La mayoría de sus trabajos se refieren a temas de inferencia estadística avanzada. Ha recibido 19 doctorados honorarios en universidades de todo el mundo. Su trabajo en análisis multivariado ha tenido un impacto significativo en aplicaciones para el diagnóstico médico, la genética evolutiva y la teoría de detección de señales. En el año 2002 recibió la Medalla Nacional de Ciencia en EUA.
John Wilder Tukey (n. 19 15). Uno de los más distinguidos estadísticos contemporáneos. Nació en New Bedford, Massachusetts, EUA. En 1937 obtuvo su doctorado en matemáticas por la Universidad de Princeton. Originalmente se dedicó a la topología y luego a la estadística. Fue profesor en Princeton durante muchos años y ha dejado un legado valioso en la estadística matemática.
En el siguiente cuadro, anote sus respuestas con lápiz suave. Los procedimientos y operaciones los puede anotar en hojas separadas.
1. Los siguientes datos representan el número de horas de entrenamiento de vuelo recibido por 18 estudiantes para piloto aviador de un cierto instructor, antes de que pilotearan un avión sin ayuda:
400
Parte N. Estadistica no paramétrica
Use la prueba de los signos, con un nivel de significación de a = 0.02, para ensayar la hipótesis de que, en promedio, los estudiantes aprenden a pilotear sin ayuda del instructor después de 12 horas de entrenamiento.
a) P = 0.5456, no se rechaza H, b) P = 0.4544, no se rechaza H, C) P = 0.4544, se rechaza H, d) P = 0.5456, se rechaza H,. 2. Un fabricante de pinturas sostiene que un nuevo aditivo reducirá el tiempo de secado de su pintura acrílica. Para ensayar esa afirmación, se pintaron 12 paneles de madera, la mitad de cada uno de ellos con pintura que contenía un aditivo normal y la otra mitad con pintura que contenía el nuevo aditivo. Los tiempos de secado (en horas) registrados fueron los siguientes:
6 2 3 7 8 9 1 0 1 1 1 2 4 5 Aditivonuevo 6.4 5.8 7.4 5.5 6.3 7.8 8.6 8.2 7.0 4.9 5.9 6.5 Aditivonomial 6.6 5.8 7.8 5.7 6.0 8.4 8.8 8.4 7.3 5.8 5.8 6.5 Panel
1
Aplique la prueba de los signos, con un nivel de significación de a = 0.05, para ensayar la hipótesis nula de que el aditivo nuevo no es mejor que el aditivo normal en lo que respecta a la reducción de los tiempos de secado de ese tipo de pintura.
a) b) C) d)
P = 0.0547, no se rechaza H, P = 0.0457, no se rechaza H,
P = 0.0457, se rechaza H, P = 0.0547, se rechaza H,.
3. En un experimento sobre la contaminación del aire, se compararon dos tipos de dispositivos (A y B) para medir la cantidad de monóxido de azufre en la atmósfera. Las siguientes lecturas corresponden a 14 días elegidos al azar:
Usando la aproximación normal a la distribución binomial, efectúe la prueba de los signos para determinar si los dos dispositivos producen resultados perceptiblemente distintos. Utilice un nivel de significación de a = 0.05.
a) P = 0.0160, no se rechaza H, b) P = 0.0262, no se rechaza H, C) P = 0.0160, se rechaza H, d) P = 0.0262, se rechaza H,. 4. Los siguientes datos representan el tiempo (en minutos) que tuvo que esperar un paciente en 12 visitas al consultorio de una médica antes de ser atendido:
Cap. 14. Las pruebas no pararnitricas más usuales
46 1
Aplique la prueba de rango con signo de Wilcoxon, coti un nivel de significación de a = 0.05, para poner a prueba la afirmación de la médica en el sentido de que, en promedio, sus pacientes no esperan más de 20 minutos antes de ser atehdidos.
a) w- = 14.5, no se rechaza H, b) w- = 12.5, no se rechaza H, c) w = 12.5, se rechaza H, d) w = 14.5, se rechaza Ho.
5. Los pesos de cinco personas (en kilogramos) antes de que dejasen de fumar y cinco semanas después de que dejaron de fumar son los siguientes:
Utilice la prueba de rango con signo de Wilcoxon para muestras apareadas, con un nivel de significación a = 0.05, para ensayar la afirmación de que fumar no tiene efecto perceptible en el peso de una persona, contra la alternativa de que el peso de un individuo se incrementa si abandona el hábito de fumar:
a) w+ = 4.5, no se rechaza H, b) w+ = 3.5, no se rechaza Ho C) W+ = 3.5, se rechaza H , d) w+ = 4.5, se rechaza H,.
6. Los siguientes datos muestran los goles anotados por el equipo de futbol Pumas de la UNAM como local y como visitante, durante 20 temporadas de juegos regulaies (sin contar las liguillas) en el futbol de primera división de México:
Mediante la prueba de Wilcoxon, con un nivel de significación de a = 0.01, detemine si, en promedio, el número de goles que anotan los Pumas de la UNAM son los mismos
402
Parte N. Estadística no pararnétrica
como local que como visitante, contra la alternativa de que, en promedio, anotan más goles cuando juegan en su propio estadio de Ciudad Universitaria. a) b) C) d)
z = 2.60, no se rechaza Ho z = 2.80, no se rechaza Ho z = 2.60, se rechaza Ho z = 2.80, se rechaza Ho.
7. Un señor desea averiguar si su esposa se demora más tiempo en el teléfono cuando ella hace la llamada que cuando la recibe. Sin que ella lo supiera, midió al azar el tiempo (en minutos y redondeando al minuto más cercano) de nueve conversaciones telefónicas que sostuvo su esposa, de las cuales cinco fueron hechas por ella y las otras cuatro fueron llamadas que ella recibió:
Aplique la prueba U de Mann-Whitney, con un nivel de significación de a = 0.05, para determinar si hacer o recibir la llamada telefónica tiene alguna influencia perceptible en la duración promedio de la conversación que la esposa sostendrá. a) b) c) d)
u, = 8, no hay diferencia u, = 8, sí hay diferencia u, = 6, no hay diferencia u, = 6, sí hay diferencia.
8. Se analizó el contenido de nicotina en cuatro marcas de cigarrillos en muestras aleatorias. Los siguientes números muestran los miligramos de nicotina hallados en los 16 cigarrillos que fueron sometidos a análisis químico de laboratorio: Marca A
Marca B
1
Marca C
Marca D
14
16
16
17
10
18
15
20
11
14 15
14
19
12
21
13
Mediante la prueba H de Kruskal-Wallis para análisis de varianza (ANOVA), con un nivel de significación de a = 0.05, averigüe si hay diferencia perceptible en el contenido promedio de nicotina de las cuatro marcas de cigarrillos. a) b) c) d)
h = 10.27, no hay diferencia h = 10.27, sí hay diferencia h = 11.27, sí hay diferencia h = 11.27, no hay diferencia.
9. Se utilizaron cuatro laboratorios (A, B, C y D) para realizar unos análisis químicos. Se enviaron a los laboratorios muestras del mismo material para ser analizadas como parte de un estudio cuya finalidad es averiguar si esos laboratorios proporcionan o no,
Cap. 14. Las pruebas no paramktricas más usuales
403
en promedio, los mismos resultados. Los datos que se obtuvieron despues del estudio fueron los siguientes:
hbw&
A
B
C
D
58.7 61.4 60.9 59.1 58.2
62.7 64.5 63.1 59.2 60.3
55.9 56.1 57.3 55.2 58.1
60.7 60.3 60.9 51.4 62.3
Con un nivel de significación de a = 0.05, utilice la prueba H de Kruskal-Wallis para análisis de varianza (ANOVA), y determine si hay diferencia perceptible entre los resultados que proporcionan esos laboratorios.
a) h = 12.83, no hay diferencia b) h = 10.08, sí hay diferencia C) h = 10.08, no hay diferencia d) h = 12.83, sí hay diferencia. 10. En una calle de la Ciudad de México, una encuestadora entrevistó al azar a 15 adultos que estaban haciendo cola para entrar a un cine, y en cada caso, les preguntó si estaban en general satisfechos o no con el trabajo que hacían los políticos del país. La encuestadora anotó un tache (8) para respuesta negativa y una paloma (J)para respuesta afirmativa, y obtuvo la siguiente sucesión de signos:
Con la prueba de rachas de Wald-Wolfowitz, con un nivel de significación de a = 0.01, determine si la sucesión de signos obtenida por la encuestadora resiste la afirmación de que la muestra fue seleccionada en forma aleatoria.
a) P = 0.810, muestra no aleatoria b) P = 0.810, muestra aleatoria C) P = 0.910, muestra no aleatoria d) P = 0.910, muestra aleatoria. 11. Mediante un proceso de baño de plata se ha recubierto cierto tipo de bandeja. Cuando el proceso está bajo control, el grosor del recubrimiento en las bandejas varía de manera aleatoria, siguiendo una distribución normal, con una media de 0.02 mm y una desviación estándar de 0.005 mm. Suponga que se examinaron 12 bandejas, en las cuales se encontraron los siguientes grosores en recubrimiento de plata (en milímetros): 0.019, 0.021, 0.020, 0.019, 0.020, 0.018, 0.023, 0.021, 0.024, 0.022, 0.023, 0.022. Aplique la prueba de rachas de Wald-Wolfowitz, con un nivel de significación de a = 0.05, para determinar si las fluctuaciones en el grosor del recubrimiento de plata de una bandeja a otra son aleatorias.
404
Parte N. Gtadística no paramétrica
a) P = 0.082, muestra no aleatoria b) P = 0.082, muestra aleatoria c) P = 0.016, muestra no aleatoria d) P = 0.016, muestra aleatoria.
12. El gerente de una sucursal bancaria observó el tiempo (en minutos) que demoraban dos cajeras en atender al cliente en turno desde el instante en que este llegaba a la ventanilla, con los siguientes resultados:
Utilice la prueba de rachas de Wald-Wolfowitz, con un nivel de significación de a = 0.01, para averiguar si hay una diferencia perceptible en el tiempo promedio que demoran ambas cajeras en atender a los clientes.
a) P = 0.044, sí hay diferencia b) P = 0.044, no hay diferencia C) P = 0.024, no hay diferencia d) P = 0.024, sí hay diferencia. 13. En una línea industrial de producción, se inspeccionan periódicamente las piezas. La siguiente es una sucesión de piezas defectuosas (D) y no defectuosas (N) producidas por la línea: D D N N N D N N D D N N N N N D D D N N D N N N N D N D Use la prueba de rachas de Wald-Wolfowitz para muestras grandes, con un nivel de significación de a = 0.05, para determinar si las piezas defectuosas están apareciendo de manera aleatoria o no. a) z = -0.55, las piezas defectuosas aparecen de manera aleatoria b) z = -0.55, las piezas defectuosas no aparecen de manera aleatoria C) z = 0.45, las piezas defectuosas aparecen de manera aleatoria d) z = 0.45, las piezas defectuosas no aparecen de manera aleatoria.
distribu ció 11
Esta importante distribución fue propuesta y desarrollada por el físico Waloddi Weibull (oriundo de Lund, Suecia) en 1939 y fue perfeccionada por él mismo y por el famoso probabilista ruso Boris Gnedenko en los años cincuenta del siglo m. Es también una generalización de la exponencial, pero desde otra perspectiva matemática. La variable aleatoriax tiene distribución de Weibull, si su función d e densidad de probabilidad está dada por: w(x, r, h) =
[rhrXr-l ~ [ - ( L X ) ~ I si x 2 O. en otra parte.
Una manera más fácil de recordar esta expresión consiste en introducir la variable intermedia u definida así: u = u(x) = @)', porque entonces u' = rhljlP1. De este modo, la función de densidad (parax 2 O) se expresa en forma más concisa como e" u'. Por otra parte, si r = 1, la distribución de Weibull se reduce a la distribución exponencial con parámetro d e escala h. La figura 15.1 ilustra la forma que adopta la curva de una distribución d e Weibull, para algunos valores escogidos de sus parámetros r y h. El valor esperado y la varianza de la variable aleatoria con distribución de Weibull están dados, respectivamente, por:
-
i
1.4.-
h = 1 en todas las curvas
F
1 i 1I
Figura 15.1
La distribución de Weibull tiene importantes aplicaciones en la teoría de confiabilidad, durabilidad y control de calidad, por lo que se introducen las siguientes funciones asociadas:
- La función de supervivencia (confiabilidad) en la distribución de Weibull S(x) > O se define como:
- La funáón riesgo de falla (o rapidez de fáüa) en la distribución de Weibull se denota por h(x) o también por Z(x), y está dada por:
- El riesgo acumulado de faiia se expresa mediante la integral (o antiderivada) de la función anterior:
Con estas definiciones en mano, la función de densidad de probabilidad para la variable aleatoria continua con distribución de Weibull puede redefinirse así: w (x) =
{"y(x)
si x 2 O. en otra parte.
Cap. 15. la distribución de Weibull y otras
409
El lector no tendrá ninguna dificultad en comprobar que en la distribución de Weibull se verifica:
*
1. O < r < 1 h(x) es decreciente H "(x) < 0. 2. r = 1 h(x) es constante a H"(x) = 0. 3. r > 1a h(x) es creciente a H "(x) > 0.
La distribución acumulada de probabilidad en la distribución de Weibull está dada por:
En función de los parámetros h y r, se tendría: W(x) = 1 - exp [-( hx)' ] La mediana para la distribución de Weibull se calcula mediante:
.
En general, el cuantil de ordenp, es decir, el valorxp tal que W-'(x,) =p,es xp= 1 [-ln(1 -p)]lh. En especial, me=x,,,. h La moda para la distribución de Weibull es:
De todo lo anterior, se deducen muchas relaciones interesantes; por ejemplo: H(x) = -1n S(x). En general, si X es el tiempo d e duración de vida de algún artefacto o dispositivo electrónico o mecánico, o incluso d e un ser viviente, bajo condiciones normales, dicha variable aleatoria debe seguir una distribución de Weibull. De ahí su importancia en teoría de confiabilidad y control de calidad. Ejemplo 15.1. La vida útil en años del mecanismo de una aspiradora de cierta marca y utilizada de manera racional tiene una distribución de Weibull con parámetros
5 1 v = -y h = -. Determinar: 2
4
a) El tiempo más probable de duración sin fallar (moda). 6 ) El promedio de duración sin fallar (media). c) El tiempo a partir del cual está 50 % de las aspiradoras que operan más tiempo sin fallar (mediana).
4 10
Parte V. Otras distribuciones notables Proporcionar las repuestas en años y días. Solución:
a) m. = 3.26077 años = 3 años y 95 días. 6) p = 3.54904 años = 3 años y 200 días (se usó la tabla de valores de la función gama). c) me= 3.45454 años = 3 años y 166 días. Ejemplo 15.2. Con referencia al ejemplo anterior, calcular:
a) La probabilidad de que la aspiradora dure más de cuatro años sin fallar. b) La desviación típica del tiempo que dura la aspiradora sin fallar. c) El noveno decil, esto es, el tiempo por encima del cual está 10% de las aspiradoras que más duran sin fallar. Solución : l
a ) S(4) = exp(-1) = -= 0.3679.
e
-
b) o = 0.75933 años (se us6 la tabla de valores de la función gama). 6) Dg= 5.58401 años 5 años y 213 días. Ejemplo 15.3. Rapidez de falla. Si T es una variable aleatoria continua que representa el tiempo de vida útil de algún artefacto o dispositivo, con función de densidad de probabilidad f (t), entonces el índice de falla, o rapidez defalla, se define como Z(t) = . f (t) Demostrar que si la f.d.p. de T es Weibull w(x, r, h), entonces Z(t) = h(t) = 1 - F(t) Solución: Es trivial:
donde u(t) = (ht)'. Ejemplo 15.4. Cierto tipo de pila para relojes eléctricos de pared tiene una vida útil de servicio, en años, que se rige según una distribución de Weibull. Si la rapidez de 1
falla está dada por h(t) =Z(t) = -,calcular la probabilidad de que esa pila continúe sirviendo después de:
Jt
a ) 3 años 6) 4 años. Solución: Si u(t) = (ht)'y u'(t) =-
1
Jt
,entonces:
Cap. 15. La distribución de Weibull y otras
411
De aquí que los parámetros de la distribución sean r = l/2, h = 4. Luego:
Ejercicio 15.1. Con respecto al ejemplo 15.4,calcule:
a) la mediana 6) la media.
de la duración de esa pila para relojes eléctricos de pared. Respuestas: a) me = poco menos de 44 días (43.87 días) 6) p = medio año exactamente. Ejercicio 15.2. Un televisor marca Sony modelo Tdnitron 39TS20 tiene una vida útil (en
1 25 años) que se rige por una distribución de Weibull con parámetros h = -, r = -. Los 9 12 fabricantes ofrecen cuatro años de garantía. Calcule: a) El porcentaje de veces que tendrán que hacer efectiva la garantía. 6) El tiempo a partir del cual está 10% de los televisores que más van a durar sin fallas (noveno decil) . c) La función de riesgo de falla (rapidez de falla). 6) El riesgo acumulado de falla a los 10 años de uso del aparato. e) El tiempo más probable de duración sin falla de dicho televisor (moda). f) El tiempo promedio de duración sin falla (media). gj La probabilidad de que un televisor de ese tipo siga funcionando sin fallar a los 12 años de uso. h) El tiempo máximo que operan sin fallar 50 % de los aparatos (mediana).
Aproxime siempre hasta el día más cercano, y recuerde que se toma 1año = 365 1/4 días. Respuestas: a) = 4.6 %, ya que P(X < 4) = 0.046178 6) = 16 años y 74 días C) h(x) = 0.0027924~'~'~
1
d) H(10) = h(x)& = 0.60264 e)
m. = 10 &os y 80 días
f) p = 10 años y 249 días 1 gj S(12) = 7 = 0.367879 h) me = 10 años y 189 días.
La siguiente propiedad de la distribución d e Weibull es muy importante e n la práctica:
Teorema. Supóngase que el tiempo de vida de algún artefacto o dispositivo es una variable aleatoria T con distribución de Weibull w(t, r, h). Si se sabe que 1- F(t,) = q,, y 1- F(t,) = q2 (donde t, < t,), entonces los parámetros r y h de la distribución se obtienen mediante las siguientes expresiones:
Primera demostración: Como 1- F(t) = S(t) = exp[-(ht)'], se tiene que exp[-(ht,)'] = q,. Tomando logaritmo natural en ambos miembros, se sigue que -(ht,)' = ln q,, esto es, (ht,)' = -1n q,. De nuevo se toma logaritmo natural a ambos miembros y se obtiene que r ln(ht,) = ln(-ln q,), lo cual implica que: r ln h + r ln t, = ln(-ln q,)
De manera análoga: r ln h + r ln t, = In(-ln q,)
Finalmente, restando la primera expresión de la segunda y despejando se halla que:
Por último, de la igualdad (ht,)' = -1n q,, se sigue que:
Segunda demostración: Hágase u = u(t) = (ht)' y denótese pory = ln u, así como x = In t. Se tieney = ln(ht)' = r ln h + m, ecuación que identificamos con la línea rectay = mx + b, cuyos parámetros son: pendiente: m = r, y ordenada en el origen b = r In h. Si se recuerda que la función de supervivencia es S(t) = 1F(t) = exp[-(ht)'] y que u(t) = -1n S@),y dado que según la hipótesis q, =S&), q, = S($), entonces la pendiente de dicha recta es, según la geometría analítica plana: Pendiente: m = r =
Y2
3C2
-Y1 = ln[-lnS(t,)l -W-lnS(t,)l - Xl lnt, -lnt,
Cap. 15. La distribución de Weibull y otras
4 13
Ejemplo 15.5. La vida en horas de cierto tipo de adornos luminosos para árboles de Navidad se considera una variable aleatoria T. Experimentos realizados con muestras muy grandes confirmaron que 52.5% de los adornos duran más de 319 horas, mientras que 78 % de los adornos duran más de 290 horas. Hallar el tiempo esperado de vida de esos adornos luminosos, si se supone una distribución de Weibull. Solución: De acuerdo con el teorema que acabamos de demostrar, si se supone una distribución de Weibull, entonces S(290) = q, = 0.78; S(319) = q, = 0.525. Luego, el parámetro de forma Y es: Y
=
h(-hq,) - h(-hqJ lnt, - lnt,
+1.39246794 5.76511911- 5.6698809
- -0.4395023
-
= 9.99857 = 10
Y el parámetro de escala es:
Por consiguiente, el tiempo de vida esperado es:
(= 317 horas y 7 minutos), y que T(1.1) = 0.95135 según las tablas de la función gama (o Excel). Ejemplo 15.6. Con respecto al ejemplo anterior, encontrar:
a) El tiempo más probable de duración de los adornos luminosos. b) El porcentaje de adornos luminosos que duran más de 400 horas. c) El noveno decil, esto es, el tiempo a partir del cual está 10% de los adornos con vida más larga. Solución: a) m,= - - = 333.3(0.9)~''= 329.83966 = 329 horas 50 minutos y 23 segundos. Observe que la moda resultó mayor que la media, lo que presupone un sesgo negativo (esto se puede demostrar con rigor). b) S(400) = exp{-[(0.003)(400)]10}= 0.002046, así que 2 % de los adornos luminosos tienen una vida superior a las 400 horas de servicio. c) El noveno decil es: .- 362 horas, 19 minutos y 36 segundos
Esta distribución también tiene aplicaciones en ingeniería y en otros campos d e la ciencia. La variable aleatoria continuax tiene una distribución beta, con parámetros a > O y B > O, si su densidad de probabilidad está determinada por:
10
en cualquier otro caso.
En la figura 15.2 se muestra el aspecto de la distribución beta para dos combinaciones posibles de los parámetros a y P. La distribución beta está asociada con la siguiente función, llamada la función beta:
que tiene, entre otras, la propiedad notable: B(m, n) = B(n, m). Las funciones beta y gama se relacionan por medio de la siguiente fórmula, que se demuestra en cursos de cálculo:
Figura 1 5.2
Cap. 15. fa dutribución de Weibull y otras
4 15
Así, la función de densidad de probabilidad, para O IxI 1, queda expresada de la siguiente manera:
Los parámetros media y varianza en la distribución beta están dados, respectivamente, por:
Si a > 1, p > 1, entonces la distribución beta es unimodal, con
Ejemplo 15.7. En la sección de Economía del diario ElFinanciero, del miércoles 25 de abril de 2001, apareció un comunicado que dice textualmente: "El Presidente Vicente Fox dijo que la reforma hacendaria es necesaria, porque 85 % de los recursos disponibles del Gobierno está comprometido en la solución de los errores de los gobiernos anteriores." Supóngase que la fracción del presupuesto del Gobierno destinada a pagar los "errores" cometidos por gobernantes pasados de México es una variable aleatoria con distribución beta. Si la media es 85 % y se estima que = 3, calcular:
P
a) La desviación estándar 6) La probabilidad de que en un a150 cualquiera más de 90 % de los recursos financieros del Gobierno de México estén comprometidos en pagar errores de gobiernos anteriores. Solución: Usando las fórmulas se obtiene:
Ejercicio 15.3. Suponga que la fracción más probable (moda) de trabajadores mexicanos que ganan menos del equivalente a 140 dólares al mes en un momento cualquiera es 2 (= 66.67%). 3 a) Explique si la hipótesis de una distribución beta para dicha fracción de trabajadores es consistente con las declaraciones de la Consultoría Mc Kinseyl en el sentido de que el 'Declaraciones publicadas en El Financiero,25/04/2001, p. 16.
4 16
Parte V. Otras distribuciones notables
3 valor esperado (media) para dicha fracción de trabajadores es de 60% (es decir, -). 5 De ser así, ¿cuáles son los parámetros de la distribución? b) Suponiendo una distribución beta, ¿cuál es la probabilidad de que en un momento dado el porcentaje de trabajadores mexicanos que perciben menos de 140 dólares al mes sea inferior a 50 %? Respuestas:a)Sí es consistente; a=3, = 2. 6) -=5 16
0.3125.
15.3. RELACI~NENTRE LA DISTRIBUCI~NBETA Y LA DISTRIBUCI~NBINOMIAL
Supóngase que X es una variable aleatoría continua con distribución beta B(x, a , B), tal que sus parámetros a y B son enteros positivos. Sea Yuna Variable aleatoria discreta con distribución binomial, cuyos parámetros son n = a + P - 1 y p (con O < p < l), es decir, b ( y , a + B - 1,p). Entonces se verifica la siguiente relación entre la distribución beta y la distribución binomial:
o bien,
Ejemplo 15.8. Del total de horas de sueño de una persona normal, los psidólogos estiman que sólo una fracción pequeña corresponde al llamado sueño MOR (movimiento ocular rápido), en el cual la persona sueña profundamente y los ojos se mueven. Se estima que dicha fracción sigue una distribución beta, con parámetros a = 3, P = 12. Hallar la probabilidad de que más de 30 % del total de tiempo de sueño de un individuo sea sueño MOR. 2
Solución: P(X > 0.3) = x b ( k , 14, 0.3) = 0.160836 (directamente de las tablas). k=O
Ejercicio 15.4. Del total de la cosecha de ciertos frutos de una finca, hay una fracción X que está dañada por una plaga. El dueño de la finca estima que X tiene distribuci6n beta con parámetros a = 1, fi = 4. Calcule:
a) El porcentaje esperado de la cosecha que debe estar danado por esa plaga. 6) La probabilidad de que al menos la cuarta parte de la cosecha esté dañada por la plaga.
Ejercicio 15.5. El porcentaje (o fracción) de los días en los que la contaminación atmosférica sobre el D. F. alcanza niveles considerados alarmantes, sigue una distribución beta con a = 3, fi = 8. Determine:
,
Cap. 15. La distribución de Weibull y otras
4 17
a) La moda 6) La media c) La probabilidad de que en un año cualquiera el porcentaje de días en los que la contaminación atmosférica alcance niveles alarmantes, sea superior a 30 %.
2 3 Respuestas: a)m, = - ~ 2 2 . %; 2 6) p = -~ 2 7 . %; 3 9 11
x 2
c)
(k, 10, 0.3) = 0.38278.
k=O
Ejemplo 15.9. Del total de lavadoras automáticas de marca Kenmore que son vendidas, se estima que una fracción va a requerir servicio de mantenimiento antes de que transcurran dos años. Si dicha fracción sigue una distribución beta con parámetros a = 2, B = 6, calcular la probabilidad de que menos de la cuarta parte de las lavadoras vendidas de esa marca requieran servicio de mantenimiento antes de dos años. Solucidn:
Esta distribución es el equivalente continuo de la distribución discreta uniforme que examinamos en el capítulo 6. Su valor es constante en un intervalo (a, p) y cero en todos los demás lugares:
1
para a < x < P .
f(x)= en otra parte.
10
Para a < x < j3 se tiene:
dt a
Luego:
x-a P-a
4 18
Parte V. Otras distribuciones notables
Los parámetros media y varianza de la distribución rectangular son, respectivamente, los siguientes:
Ejemplo 15.10. Supóngase que el error de redondeo en la lectura de un amperímetro2 está distribuido uniformemente en el intervalo entre dos divisiones enteras contiguas. Si el valor de una división de la escala del amperímetro es igual a 0.1 amperes y la indicación del aparato de medida se redondea hasta la división entera más próxima, hallar la probabilidad de que al leer se cometa un error superior a los 0.02 amperes. Solución: Si X es el error de redondeo referido, entonces la longitud del intervalo en el que están acotados los valores posibles d e X es igual a 0.1 amperes. Luego, a = 0, B = 0.1. El error de lectura será mayor a 0.02, si éste queda comprendido en el intervalo (0.02,0.08).De aquí que la probabilidad buscada sea:
Ejemplo 15.11. La cotización diaria del precio de compra del dólar estadounidense (interbancario), frente al peso mexicano en mayo de 2001, podía considerarse como una variable aleatoria X con distribución uniforme en cierto intervalo [a, $1 -según opinión de economistas expertos-. Dichos expertos estimaban que E(X) = 9.40 pesos y
a ) De ser así, determinar la probabilidad de que la cotización del precio de compra del dólar en un día cualquiera, de esa fecha, haya sido: - menor que 9.50 pesos
- inferior al valor del sexto decil. 6) Si Q, y Q, denotan el primero y tercer cuartiles, respectivamente, determinar el valor de la desviación cuartil Q = '/z(Q, - Q,) y compararla con la desviación estándar a. c) ¿Cuáles eran las cotizaciones mínima y máxima del precio de compra del dólar interbancario en pesos mexicanos? Solución:
3 = 0.75; 3 = 0.6 (el sexto decil es 9.44 pesos). a) 4 5 7
c) Las cotizaciones mínima y máxima eran a = 9.20 pesos y $ = 9.60 pesos, respectivamente. 'Aparato que sirve para medir la intensidad de una corriente eléctrica. La unidad de medida (amper) se Uarna así en honor del ilustre matemático y físico francés André Marie Amptre (1755-1838),quien creó la electrodinámica, inventó el electroimán y el telégrafo electromagnético, y realizó valiosas contribuciones en química, electromagnetismo y matemáticas.
Cap. 15. La distribución de Weibull y otras
4 19
Ejemplo 15.12. Si de alguna manera se elige, en forma completamente aleatoria, un número real x en el intervalo (O, 1) y se escribe en notación decimal, calcular la probabilidad de que:
a ) Su primer dígito después del punto decimal sea 1. b) Su segundo dígito después del punto sea 5. c) El primer dígito después del punto decimal en el número
& sea 3.
[T. Cacoullos, Exercises in Probability, Springer Verlag, N. Y, 1989.1 Solución: SiXes la variable aleatoria que representa el número real elegido, entonces la distribución de probabilidad deXes uniforme en el intervalo (O, l), ya que todos los números reales en ese intervalo tienen la misma oportunidad. Por consiguiente:
Una variable aleatoria continua X tiene una distribución d e Rayleigh con parámetro a > O si su densidad d e probabilidad está dada por:
f (33=
2axe+'
parax > 0. en otra parte.
En realidad, esta distribución es un caso particular de la distribución de Weibull. Fue usada por el famoso físico y matemático inglés Lord Rayleigh, ganador del Premio Nobel d e Física y uno d e los precursores d e la teoría cuántica, casi 50 años antes de que Weibull introdujera su distribución más general. Rayleigh empleó esta distribución en fenómenos físicos relacionados con la propagación de la luz y el comportamiento de partículas subatómicas. La media y la varianza d e la distribución d e Rayleigh son, respectivamente:
Ejemplo 15.13. La duración en años de la pila que suministra energía a los relojes de pulsera Casio tipo F-91W, fabricados en China, es una variable aleatoria que sigue una distribución de Rayleigh, con parámetro a = 0.04. Determinar:
420
Parte V. Otras distribuciones notables
a) 6) c) d)
La duración esperada de la pila El valor mediano de la duración La moda de la duración La probabilidad de que la pila dure más de un tiempo t , medido en años.
Si los fabricantes de ese reloj garantizan la reposición del mismo cuando la pila dure un tiempo inusualmente corto, calcular:
e) Por cuántos años deben estipular la garantía, si desean que la probabilidad de que se cumpla no exceda al valor 0.05. Solución:
a) La distribución de Rayleigh es un caso particular de la de Weibuli, específica?
mente cuando h = da,r = 2. Entonces, aplicando la fórmula para el valor esperado en la distribución de Weibull, se tiene que la media en la distribución de Rayleigh es:
Para este caso, como a = 0.04, se tiene:
(aproximadamente 4 años con 5 meses y 5 días). b) Aplicando la fórmula para la mediana de la distribución de Weibull, encontramos fácilmente que en el caso de la distribución de Rayleigh, la mediana está dada por:
En este caso, como a = 0.04, tenemos:
m, = 5Jin 2 = 4.1628 años lo cual implica que 50 % de las pilas llegan a durar esa cantidad de d o s o menos (o esa cantidad de años o más). c) Ahora, usamos la fórmula para la moda de la distribución de Weibull. Entonces se obtiene, para el caso de la distribución de Rayleigh:
Cap. 15. La distribución de Weibull y otras
42 1
En este caso particular, con a = 0.04, obtenemos:
m, =
5 6= 3.5355 años 2
una respuesta sorprendente, porque resulta más de 10 años inferior a la mediana. d) La probabilidad de que la pila dure más de un tiempo t (en años) es 1- F(t) = e~p[-(0.2t)~]. Por si existiera alguna duda, podemos comprobar, de paso, que nuestro cálculo de la mediana fue correcto: simplemente se sustituye el valor t =5 f i
y se verifica que el resultado sea ' / I . En efecto:
e) El 5% de las pilas de esos relojes que menos tiempo duran se hallan en el cuantil (o percentil) x,,,, el cual equivale a F-' (0.05). Usamos la fórmula para el cuantilxpen la distribuaón de Weibull (en este caso especifico, con parámetros r = 2, h = 0.2), y hallamos:
x,, = 54-ln 0.95 = 1.1324 años de -tía (un año, un mes y poco más de 17 días de garantía), aunque, ciertamente, ninguna empresa ofrecería una garantía tan precisa, porque despertaría sospechas entre los compradores del producto acerca de la verdadera calidad. Así que en este caso, es razonable redondear el tiempo de garantía de esos relojes a un año exactamente, aunque en lugar de amparar a 5% de los relojes, se estaría amparando tan sólo a 3.9%.
En resumen, en la distribución d e Rayleigh con parámetro a > O, el cuantil d e áreap está dado por:
En particular, la mediana es:
y la moda es:
Frank Wilcoxon ( 1 892- 1965). Estadístico y químico irlandés. Introdujo las pruebas de la suma de rangos y de rango con signo, las cuales continúan siendo importantes para la estadística no paramétrica.
Henry B. Mann ( 1 905-2000). Matemático austriaco que hizo importantes contribuciones en álgebra, teoría de números, análisis combinatorio y estadística. En relación con la última. escribió la obra Análisis y diseño de experimentos, en 1 949.
El análisis d e regresión y correlación es una de las herramientas estadísticas y econométricas d e mayor utilidad. Básicamente, se trata d e describir y evaluar la relación que hay entre una variable dependiente Y (también llamada variable explicada) y una o varias variables independientes X,,.. . ,X,, llamadas también variables explicativas. El objetivo de tal relación es hacer predicciones o pronósticos. Si hay una sola variable explicativa, esto es, si k = 1, entonces se habla d e regresión simple, y si k > 1,se habla d e regresibn mbltiple. El nombre de regresión suena un tanto curioso y no es muy afortunado, ya que da la idea d e algún movimiento retrógrado o hacia atrás, pero en la práctica es todo lo contrario, es decir, se trata de observar un movimiento hacia adelante para poder realizar ciertas predicciones. Ese nombre se usa porque fue introducido por el inglés sir Francis Galton (1822-1911), pariente de Darwin y maestro de Karl Pearson. Galton fue el fundador de la dudosa doctrina de la eugenesia. En sus trabajos estudió la relación entre las estaturas de muchos niños ingleses y sus respectivos padres. Lógicamente, observó que los padres altos tendían a procrear hijos altos y los padres bajos tenían hijos bajos, pero por la diversificación o mezcla de los caracteres hereditarios, Galton supuso que las estaturas deberían converger hacia una estatura promedio, es decir, una "regresión hacia el promedio o la mediocridad, como él lo escribió. Cabe señalar que Galton era aristócrata, conservador e incluso racista, y nunca llegó a comprender bien los detalles importantes del proceso evolutivo a través de la herencia, los cuales fueron descubiertos por los biólogos muchos años después. La palabra eugenesia significa "bien nacido" y nada tiene que ver
426
Parte VI. Regresión y correlación
con la genética. En 1833,Galton escribió un trabajo en el que se usó por primera vez el término regresión, y en el cual proponía métodos para mejorar la especie humana, tal como se mejoran las razas de ganado o animales, mediante el fomento de uniones adecuadas y la prohibición o supresión de uniones inadecuadas. Como señaló Isaac Asimov en años más recientes (The Welkprings of Life, 1960): "el edificio de la eugenesia, fundado por Galton, se basó en la roca de la ignorancia y la utopía". El fracaso de la eugenesia lo explica Asimov de manera elocuente: El argumento de Galton parece bueno a simple vista y se utilizó por los antiguos espartanos 700 años antes de Cristo [. ..] En el caso de animales domésticos sabemos muy bien qué es lo que buscamos con la "mejoría de la raza". Si queremos que una vaca dé mucha leche, cruzamos toros y vacas que desciendan de buenas lecheras y tomamos lo mejor de las crías (sobre este único aspecto) para nuevos cruzamientos. Al final vamos a obtener especialistas lecheras que son apenas algo más que fábricas vivientes diseñadas para convertir el pasto en leche y mantequilla. Lo hemos logrado, pero nuestro ganado actual es suficientemente plácido y estúpido para no ser capaz de proteger sus terneros, ni siquiera protegerse ellos mismos contra animales salvajes [. . .] Pero, en el caso del Horno sapiens, ¿qué criaríamos?A los espartanos les interesaban las diversas cualidades que forman un buen guerrero (fuerza, resistencia y valor) y lograron crear así guerreros y soldados dignos de admiración, pero al despreciar todas las demás características se produjo una cultura espartana que, en conjunto, es digna de todo menos de admiración y que, en realidad, es el más claro ejemplo de cultura psicótica de larga duración que registra la historia [.. .] Naturalmente, hay característicashereditarias extremadamente negativas, tales como la idiotez o la manía homicida, que quisiéramos eliminar genéticamente si supiéramos cómo. Sin embargo, no estamos seguros de.que siquiera podamos eliminar los genes indeseables sin eliminar también cierta proporción de los deseables.
La genética actual ha puesto en entredicho a la eugenesia, pues está demostrado que en un mismo cromosoma pueden estar impresas características deseables e indeseables, y es imposible fomentar una característica deseable sin fomentar una indeseable también. Como señala Asimov: "ha habido muchos grandes hombres por cuya existencia la humanidad debe sentirse agradecida y que han sido epilépticos, diabéticos, esquizofrénicos, homosexuales o neurótic o graves". ~ Pero, volviendo al tema que nos ocupa, el estudio de las relaciones entre k variables explicativas o independientes X,, .. . , Xk y una variable explicada o dependiente Y tiene como objetivo no sólo realizar predicciones para valores futuros de Y, sino también averiguar si alguna de lasXi pudiera mostrar un efecto importante sobre la variable explicada Y. Cabe señalar que hay muy diversas etiquetas para las variables Xi y la variable Y. Por ejemplo, en econometría se acostumbra llamar a Y variable endógena, mientras que las X,, ... , Xk se llaman variables exdgenas. También es posible llamar a Y variable objetivo y a las X,, ... ,Xk variables de control. Sin embargo, en trabajo estadístico se prefiere llamar a la variable Y predictando (o regresando) y a las X, , ... ,Xk se les llama predictores (o regresores). En este capítulo, expondremos únicamente el caso de una sola variable in-
Cap. 1 6. Regresión lineal simple y correlación
42 7
dependiente X, es decir, abordaremos sólo el tema de la regresión simple. No obstante, hay que mencionar que no se busca una relación matemática exacta de la forma y =f (x), sino que s e busca describir la relación más precisa entre dichas variables en témzinosprobabilzSticcxs,para ajustar datos u observaciones estadísticas. Una relación lineal estocástica (del griego stokos = adivinar) entre las variables X y Y es de la forma:
en donde Po y P, se llaman coeficientes de regresión de la población y el término u se llama trastorno ai azar (o residuai) y constituye la parte estocástica de la ecuación, mientras que Po+ P,x constituye la parte sistemaítica de la ecuación. Es claro quey = Po + p,x describe una línea recta en el plano, cuya pendiente es B, y cuya ordenada en el origen es Po. Hemos supuesto el modelo más sencillo posible de regresión lineal simple, que es una línea recta con un término de error aditivo u. Hay tres razones para introducir este término de error o trastorno: 1. Hay un elemento impredecible d e aleatoriedad en las respuestas hu-
manas. 2. Hay el efecto de posibles variables omitidas, las cuales incluso podrían ser no cuantificables. 3. Casi siempre hay errores d e medición en la variable explicada Y. La parte sistemática d e la ecuación 1 representa la media o valor esperado del predictando Y para un valor dado del predictorx, esto es, representa el valor esperado de Y dado que X =x. Por tanto, se escribe:
En consecuencia, el error aleatorio u en la ecuación 1 no es otra cosa que la diferencia entre el valor observado (y) del predictando y su valor medio para ese valor de la variable predictora o explicativaX. Suponga que se tienen n observaciones (x,,y?),(x2,y,), ... , (xn,yn). Entonces, para cada i = 1,2, . .. ,n se escribe la ecuacion 1como:
El objetivo principal del modelo de regresión lineal simple consiste en hallar estimaciones de los parámetros desconocidos Po y P, para ese conjunto de observaciones. Para ello, se requieren algunas suposiciones (o hipótesis) acerca de los términos de error u,, vistos como valores de una variable aleatoria U, @ara cada i = 1, 2, ... , n). Dichas suposiciones son las siguientes: 1. El valor esperado (media) de cualquier Uies cero, esto es, E(U,) = O, para toda i = l , 2 , . . . , n.
428
Parte Vi. Regresión y correlación
2. Todas las Ui tienen la misma varianza, es decir, Var(U,) = 0 2 ,para toda i = l , 2 , ... , n . Esta propiedad se conoce como homoscedasticidad (que significa igual dispersión). Lo contrario sería heteroscedasticidad. 3. Las variables aleatorias U, y U, son independientes para i #j. 4. La distribución de probabilidad de la variable aleatoria U, no depende de los valores de x, . 5. Para cada i = 1,2, .. . ,n , la variable aleatoria U, tiene distribución normal con media O y varianza 02.
Incidentalmente, esta última hipótesis explica por qué en la ecuación 2 no hizo falta incorporar el término E(U) en el miembro derecho. En la figura 16.1 se ilustra de manera gráfica cómo se distribuyen normalmente los valores del predicando y para cada valor del predictor x, estando la media de la distribución siempre sobre la línea de regresión.
Figura 1 6.1
En el siglo xm se desarrolló el método de ajuste por mínimos cuadrados gracias a los trabajos de Laplace en Francia y C. F. Gauss en Alemania. y,,) se dibujan Suponga que n observaciones (x,, y,), (x2,y,), ... , (x,,, como n puntos dispersos en el plano y que se dibuja una línea rectay = 6, + b,x que más o menos se ajuste a la posición de los puntos (véase fig. 16.2). Entre todas las rectas posibles que se pueden dibujar alrededor de los puntos dispersos, se trata de hallar cuál es la que proporciona el mqor ajuste. ¿Pero qué debe entenderse por mejor ajuste? Veamos, si se consideran a 6, y 6, como estimadores de a y j3, respectivamente, que son lineales en las y,, entonces se trata de encontrar aquellos estimadores que sean los más eficientes en el sentido de que su varianza sea la más pequeña posible. Resulta que tales estimadores son precisamente los llamados estimadores de mínimos cuadrados, es decir, aquellos
Figura 16.2
que tienen la propiedad de que la suma de los cuadrados de los segmentos verticales de cada punto hasta la recta de ajuste es la mínima posible (fig. 16.2). En otras palabras, el modelo de mínimos cuadrados consiste en determinar los valores de boy b, tales que minimizan el siguiente parámetro:
Para cada conjunto de puntos (x,, y,), (x,, y,), ... , (x,,, y,), la recta de mejor ajuste es precisamente la recta basada en ese principio de mínimos cuadrados, y su ecuación se expresa:
y=Bo+ p l x Hoy día, con la proliferación de software científico y estadístico es relativamente sencillo obtener la ecuación de la recta de mínimos cuadrados usando directamente la computadora. Por supuesto, también es posible hacerlo mediante fórmulas y una calculadora. Esas fórmulas las veremos más adelante. Ejemplo 16.1. Con Excel obtener la ecuación de la recta de mínimos cuadrados correspondiente a las siguientes cinco observaciones parax y y:
430
Parte VI. Regresión y correlación
Solución: Anotamos las observaciones así como están (en dos columnas, pero sin encabezado) en una hoja de cálculo de Excel. Luego abrimos el menú Herramientas y pulsamos donde dice Análisis de datos. Esto se ilustra en la figura 16.3. Si en su computadora no aparece esa opción (Análisis de datos), entonces debe darla de alta con la utilería que se indica arriba (Complementos, o A d d ins en inglés). Si no tiene instalada la versión completa de Excel, es posible que le pida el disco de instalación de OSJice. Al pulsar en Análisis de datos, aparece un nuevo menú de opciones, como se indica en la figura 16.4. Enseguida se pulsa donde dice Regresión, y entonces el lector podrá seguir las instrucciones para obtener todos los detalles matemáticos y gráficos de la recta de mínimos cuadrados (fig. 16.5). En este caso, observamos que la recta de mínimos cuadrados pasa por tres de los cinco puntos. El dato RZque aparece se llama coeficiente de determinación y se explicará más adelante.
Figura 16.3
Figura 16.4
Figura 16.5
En el trabajo estadístico, aparecen con frecuencia variables que están relacionadas linealmente, aunque no se pueda decir que una de ellas es influida por la otra o que depende de ella. Se sabe, por ejemplo, que hay cierta relación entre las horas de sueño promedio que tiene una persona al día y el número de años que se espera que viva, o entre el peso d e un individuo y su estatura. En tales casos, se dice que las variables están correlacionadas y se cuenta con un estadístico denotad o por r y que se llama coeficiente de correlación muestrd, y es tal que -1 < r 5 1. Si el coeficiente de correlación fuese 1, entonces habría un ajuste lineal perfecto entre las dos variables, en el sentido de que al aumentar una d e las variables, se registraría en forma invariable un incremento lineal de la otra siempre en la misma proporción. Si r fuese igual a cero, entonces no habría correlación alguna entre las variables, mientras que una correlación negativa implicaría una relación inversa, en el sentido de que al incrementar una d e las variables, la otra disminuiría, y viceversa. Una correlación negativa debería esperarse, por ejemplo, entre la cantidad de kilómetros que ha recorrido un automóvil y su precio en el mercado. El coeficiente d e correlación muestral r se calcula mediante la fórmula:
donde:
Ejercicio 16.1. Con ayuda de una calculadora solamente, calcule el coeficiente de correlación muestral de las siguientes parejas ( x ,y): (2, 5), (1,3), (5,6), (0,2).
Respuesta: Si sus cálculos son correctos, entonces deberá haber obtenido el valor r = 0.930, que resulta de dividir 11entre la raíz cuadrada de 140.
432
Parte VI. Regresión y correlación
Aun en los casos donde se observa una cierta correlación entre dos variables, sería un error pensar automáticamente que debe existir una relación de causa-efecto entre ambas variables. Ello es falso, ya que la correlación observada podría bien deberse a la influencia de una tercera variable. Por ejemplo, podría observarse que en una ciudad hay una correlación positiva muy clara entre el número de asaltos o crímenes y el número de nuevas escuelas que se crean, pero ello se debe a que hay una tercera variable (el incremento de la población en esa ciudad), que es la causa real de que las otras dos variables sufran ambas un incremento sin ser ninguna de ellas causa de la otra.
El estadístico de muestra P recibe el nombre de coeficiente de determinación y mide el porcentaje de variabilidad en la variable dependiente Y, que puede explicarse a través del conocimiento de la variable independiente X. Se mide en un valor que oscila entre O y 1. r2
= Desviación total - Desviación no explicada
Desviación total =1- Desviación no explicada Desviación total
Las desviaciones o diferencias se toman para cada uno de los puntos (x,y) de una muestra de datos, se elevan al cuadrado @ara evitar signos negativos) y se suman. Esto es:
Si se trabaja en una gráfica de la Iínea de regresión dibujada por el Excel, el valor de r2se obtiene directamente al picar la Iínea de regresión con el botón derecho del ratón. En realidad, puede demostrarse que r 2viene siendo precisamente el cuadrado del estadístico r, que representa el coeficiente de correlación muestra1 del conjunto de datos (x,y) de la muestra.
16.5. EJEMPLOS Y F~RMULASIMPORTANTES Consideremos el siguiente ejemplo típico: X = precio por galón de leche (en dólares); Y = venta semanal de leche en miles de galones, con una muestra de 10 observaciones, las cuales son:
Cap. 16. Regresión lineal simple y correlación
433
Directamente con el Excel se obtiene la siguiente información:
- Coeficiente de determinación: r 2= 0.7456 - Coeficiente de correlación: r = -0.86 - Recta de regresión: 5= -14.539~+ 32.136 Redondeando: f = 32.14 - 1 4 . 5 4 ~ - Promedios muestrales: (F,y)= (1.44, 11.2) La gráfica también se obtiene con Excel (fig. 16.6).
Figura 16.6
Para ilustrar el significado d e r 2 , considérese un solo dato d e la muestra, como el punto (1.70, 5). Obsérvese la figura. De acuerdo con los datos de la muestra, el valor esperado d e y (o promedio) es 11.2 (miles de galones semanales) a un precio promedio de 1.44 dólares por galón. Si el precio se incrementa de su promedio (1.44) al valor 1.70, entonces es de esperarse que la demanda (o el volumen de ventas) baje de su promedio (11.2) al valor predicho por la recta de regresión: 7.422. Esta disminución se explica por el incremento del precio x. Sin embargo, en la realidad se observó que a un precio de 1.70 dólares por galón, el volumen d e ventas no fue el pronosticado (7.422), sino que fue d e 5 mil galones por semana. Por consiguiente, la diferencia (en valor absoluto) 7.422 - 5 = 2.422 no puede ser explicada por el incremento del precio (para este dato específico). La explicación puede atribuirse al clima, a la publicidad, a la elasticidad-precio
434
Parie VI. Regresión y correlación
de la demanda de leche, o a algún otro factor no considerado en el análisis de regresión. El estadístico r 2recoge la información total de aquellas y sólo aquellas variaciones de y que si pueden explicarse por medio de las variaciones de x. En trabajos prácticos con calculadora, el valor del estadístico r 2puede calcularse por medio de la siguiente fórmula, que es equivalente:
Ejemplo. Los siguientes datos son estaturas de padres y sus hijos respectivos, en donde se calculará el coeficiente de determinación.
-
Estatura del Estadura cieE padre ( x ) 1 hijo ( y )
1
1.65
2
xZ
3cy
1.73
2.7225
2.8545
2.9929
1.60
1.68
2.5600
2.6880
2.8224
3
1.70
1.73
2.8900
2.9410
2.9929
4
1.63
1.65
2.6569
2.6895 -
2.7225
5
1.73
1.75
2.9929
3.0275
6
1.57
7
-1.78
'
8
1.68
1.65
2.8224
2.7720
9
1.73
1.80
2.9929
3.1140
10
1.70
1.70
2.8900
2.8900
11
1.75
1.73
12
1.80
x
-
3.0625
-
3.0275
1.78
3.2400
3.2040
20.61
34.4634
34.9250
1
20.32
' ;:;ti;
3.0625
2.7225 3.2400
1 1
/
2.8900 2.9929 3.1684 35.4223
Otros datos: 6, = 0.9336; b = 0.4629 Otras fórmulas: Error estándar de la estimación:
NOTA:LOS autores de algunos libros de estadística o pronósticos usan el símbolo S,, .xpara este estadístico. Otros libros usan el símbolo se, el cual es también muy común.
Coeficientes de la recta de regresión:
Zy b,=---. n
EX
1
b=
n
~ZW-ZXZY ~C-X~-(ZX)~
Error estándar de pronóstico para un vaior dado X,:
En la siguiente sección, veremos qué es S,.
Intervaio de confianza de (1 - a) 100% para la respuesta media p
x,:
y1 %
dado
zai2s, (muestra grande) - Yf t.a 2 S/ (muestra pequeña; se toman n - 2 grados de libertad en la distribucdn r ) .
-fk
16.6. ABREVIATURAS M& USUALES EN LA n 0 R A f DE REGRESI~N Y CORRELACI~N Con objeto d e evitar que las fórmulas se vuelvan muy aparatosas, se introducirán aquí las siguientes abreviaturas para simplificar la notación:
Otras abreviaturas usuales: SSE = "Error de la suma d e cuadrados" = Z ( Y - ?)2 = Desviación no explicada SSR = "Suma de cuadrados residual" = &Y- Y)2 = Desviación explicada SST = "Suma total de cuadrados" = Z ( Y= Desviación total
4 36
Parte VI. Regresidn y correlación
La relación entre estas cantidades y las anteriores es la siguiente:
1 Además:
1 También:
l
OBSERVACI~N IMPORTANTE:Algunos autores de libros de estadística, microeconomía y pronósticos definen S, S, y S, en la siguiente forma:
Sin embargo, otros libros definen estos símbolos como lo hicimos líneas arriba, que es lo mismo, pero dividido entre n. La notación alternativa tiene quizá la ventaja de que proporciona fórmulas más compactas, pero entonces el estudiante debe ser cuidadoso si estudia en varios libros a la vez, en cuanto a que el S, de un libro es igual al S, d e otro libro multiplicado por n (o dividido entre n).Esta discrepancia puede afectar el cálculo del error estándar de la estimación s (o también llamado se) por un factor de& si se mezcla la nomenclatura de libros distintos: 1 S, =Cx2--(Zx)2
n
Es muy importante que el estudiante esté consciente de cuál de los dos tipos d e simbología va a adoptar en su trabajo. Nosotros preferimos esta última. Con esta notación abreviada, la línea de regresión ?= b, + bX tiene pendiente:
y ordenada en el origen: b,=Y- bX
Cap. 16. Regresión lineal simple y correlación
43 7
El coeficiente de correlación muestra1 es:
y el coeficiente de determinación muestra es:
Como se explicó, el coeficiente de determinación r2expresa la proporción de la variación total de los valores de la variable Y, que puede ser explicada por una relación lineal con los valores de la variable independiente X.
Un intervalo de confianza de (1 - a)100 % para el parámetro en el origen) de la recta de regresión Y = Po+ es el siguiente:
Po (ordenada
donde t , es un valor de la distribución t de Student con n - 2 grados de libertad. En esta fórmula, s es el error estándar de la estimación (también denotado por se):
Ejemplo 16.2. Edades de esposos ( y ) y de sus respectivas esposas ( x ) :
438
Parte Vi. Regresión y correlación Información relevante obtenida con el Excel:
Información adicional que no se usa aquí: Calcular un intervalo de confianza de 95 % para Po que es la ordenada en el origen de la recta de regresión. Solucidn: En primer lugar, se busca, en la tabla de percentiles de la distribución t de Student el valor crítico to,02,con 14 grados de libertad. Se halla el número 2.145. Haciendo los cálculos se obtiene el siguiente intervalo de confianza para Po: Desde -1.36 hasta 20.12
Para ensayar la hipótesis nula Ho:{Po= c ) contra alguna alternativa H,, se basa la decisión en el valor de:
Ejemplo 16.3. En el ejemplo 16.2 sobre los matrimonios, probar la hipótesis Ho:{Po = O) contra H,:{P, # 0) con un nivel de significación de a = 0.05. Sirve la misma t crítica
del ejemplo anterior. Solución: La región crítica es, por tanto:
Las operaciones dan:
Cae en zona de aceptación, por lo que no se rechaza H,. I n t e d o de confianzapara f3 (pendientede la recta de regresión). Un intervalo de confianza de (1 - a)100 % para el parámetro P está dado por:
donde t, tiene n - 2 grados de libertad.
Cap. 16. Regresión lineal simple y correlación
43 9
Ejemplo 16.4.En el ejemplo de los matrimonios, construir un intervalo de confianza de 95%. Solucidn: Tenemos los datos siguientes:
Haciendo los cálculos se obtiene 0.9979 f 0.3095. Por consiguiente:
Pruebas de hipótesis para f3 (pendiente de la recta de regresión). Para probar la hipótesis nula H,:{B = m) contra alguna alternativa H,, se basa la decisión en el valor de:
t=
b-m - ( b - m ) , / ~ ,
Ejemplo 16.5.En el ejemplo de los matrimonios, probar la hipótesis nula H,:@ = 1) contra la alternativa H,:{P < 11, con un nivel de significación de a = 0.01. Solucidn: Cálculos:
Se halla en tablas t,,, (con 14 grados de libertad) = 2.624. La región crítica es:
En consecuencia, se acepta H, y se concluye que f3 no es perceptiblemente menor que 1 con un nivel de significación de 0.01.
16.9. INTERVALO DE CONFIANZA MEDIA py~, DADO
xO
PARA LA RESPUESTA
Para cadax, específico, el intervalo de confianza para Y, o más precisamente 1 % un valor particularx, está dado por: para la respuesta media ~ ~ dado
donde t , tiene n - 2 grados de libertad. Ejemplo 16.6. En el ejemplo de los matrimonios, construir límites de confianza de 95 % para la respuesta media pylxocuando una mujer tiene 28 años de edad.
0
440
Parte VI. Regresión y correlación Solución: Datos:
X0 =
28 años (edad particular de esposa) Yo = 9.38 + (0.9979)(28) = 37.3212 = 37 años (predicción de la edad de su esposo
por la recta de regresión) t,.,, = 2.145 tomado de la tabla de percentiles de la distribución t de Student (con 14 grados de libertad) k = 31.875 (promedio de edad de la muestra de esposas) S = 7.91663 S, = 3009.75
Operaciones aritméticas:
El intervalo de confianza es, por tanto: 37.3212 f (2.145)(7.91663)(0.259786) = 37.3212 f 4.41148 años
El intervalo resulta ser desde 32.9 hasta 41.7 años. Por tanto, de acuerdo con los datos de la muestra, hay 95 % de confianza de que el esposo de una mujer de 28 años tenga una edad que oscila entre los 32.9 y los 41.7 años, o en números redondos, desde los 33 hasta los 42 años aproximadamente. Nótese que para cada edad xo la amplitud del intervalo será distinta, donde la mínima es para el valor de la media aritmética.
Algunas veces se pasa por alto que cuando se calcula r sobre la base d e datos d e muestra, se puede obtener una correlación positiva o negativa apreciable por suerte o d e manera fortuita, aunque en realidad no haya ninguna relación verdadera entre las dos variables que se consideran. Para ejemplificar esto con un caso extremo, supóngase que se toma un par d e dados, uno rojo y uno verde, se tiran cinco veces y se obtienen los siguientes resultados:
~ a d rojo o r
I
Dado verde (Y) 5
1
Cap. 16. Regresión lineal simple y correlación
44 1
Calculamos el coeficiente d e correlación (ya sea con fórmula o con el Excel), así como la recta d e regresión y los siguientes datos: r = 0.65558 = 0.66; r2= 0.4289; bo= -0.6538; b = 1.1923. Desde luego, es imposible que exista una correlación porque un dado no puede saber lo que el otro está haciendo. Para ensayar la hipótesis nula de que p = O contra una alternativa, se usa la tabla 16.1de valores críticos para r. Se rechaza la hipótesis nula (en el sentido de que no hay correlación) si r c -r, o bien r > r,, donde el valor d e este término se puede obtener en la tabla 16.1. En caso d e rechazar la hipótesis nula, se dice que hay una correlacibn significativa; en caso contrario, se concluye que el valor de r obtenido en la muestra no es estadísticamente significativo. En nuestro ejemplo de los dados, usemos el nivel de significación a = 0.05 para probar la hipótesis nula de no correlación. Los pasos son los siguientes: 1. Hipótesis nula: Ho {p = 0); hipótesis alternativa: H , {p # O ) . 2. Nivel de significación: a = 0.05. 3. Criterio de decisión: rechazar Ho si r c -0.878 o bien r > 0.878, donde este es el valor hallado en la tabla para T,,~,, con n = 5; en caso contrario, aceptar Ho y concluir que el valor de r obtenido con la muestra no es significativo. 4. Cálculo del coeficiente de correlación muestral: r = 0.66. 5. Decisión: Como r = 0.66 está dentro del intervalo de -0.878 hasta 0.878 (zona de aceptación), se acepta H se concluye que el coeficiente de 0 ! ' correlación de la muestra no es significativo y la aparente correlación es pura casualidad. Tabla 16.1. Valores críticos para el coeficiente de correlación.
442
Parte VI. Regresión y correlación
Ejemplo 16.7. Con el caso que aparece en el ejercicio de autoevaluación (número de años que se ha estudiado inglés en la preparatoria o en la universidad y calificación en una prueba estándar de inglés), calcular el coeficiente de correlación de la muestra r y probar la hipótesis nula de no correlación con un nivel de significación de 0.01. Solución:n = 10; EX = 35; XxZ= 133; EY = 697 y &'Y= 2554; X y Z= 50085. Recordamos las fórmulas:
Operaciones:
1. Hipótesis nula: Ho.{p = 0 ) ; hipótesis alternativa: H , { p # 0 ) . 2. Nivel de significación:a = 0.01. 3. Valor crítico de la tabla: 0.765 4. Criterio: Rechazar Ho si r < -0.765 o bien r > 0.765. 5. Decisión: Como 0.91 > 0.765, se rechaza Ho y se concluye que sí hay correlación
entre las variables consideradas.
William H. Kruskal (n. 19 19) y W. Allen Wallis ( 1 9 12- 1998). Ambos, economistas estadounidenses. La prueba de Kruskal-Wallis fue propuesta en el artículo "Use of Ranks in One-Criterion Variance Analysis", publicado en el lournal ofAmerican Statistics Association, en 1952. Es de utilidad cuando no es aplicable el análisis de varianza debido a incumplimientos de las hipótesis del modelo.
Un pequeño grupo de 10 estudiantes que han estudiado algo del idioma inglés en la preparatoria o en la universidad resolvieron una prueba estándar de inglés. Las calificaciones respectivas en esa prueba (en escala del O al 100) fueron las siguientes:
1 '",y1 estudiado
""Os inglés
--3
Calzjicación en la prueba ( y )
1
/I
1. Ajuste una recta de mínimos cuadrados a los datos de esta tabla. 2. Con la recta de regresión obtenida, estime la predicción que se puede hacer sobre la
3. 4.
5. 6.
calificación que podna obtener en el TOEFL un alumno que ha estudiado inglés durante dos años en la preparatoria o en la universidad. Obtenga el error estándar de la estimación. Ensaye la hipótesis Ho en el sentido de que cada año adicional de estudio del idioma inglés en la preparatoria o en la universidad suma otros 12.5 puntos a la calificación esperada en la prueba del TOEFL. Utilice la hipótesis alternativa P # 12.5 y un nivel de significación de 0.05. Construya un intervalo de confianza de 99% de B, el incremento esperado de la calificación en la prueba del TOEFL por cada año de estudio adicional de inglés en la preparatoria o en la universidad. Suponga que el objetivo final del estudio fue estimar la calificación promedio en la prueba del TOEFL para solicitantes que han estudiado dos años de inglés en la preparatoria o en la universidad. Construya un intervalo de confianza de 99 % para esta media.
1. La recta de regresión Y= 6, + bXqueda determinada por su pendiente b y su ordenada en el origen b,. Estos parámetros están dados por las fórmulas siguientes:
444
Parte VI. Regresión y correlación
Ahora bien, con ayuda de una calculadora de bolsillo (poniéndola en modo estadís2554; ZX = 133; C Y = tico), se halla rápidamente que ZX = 35; C Y = 697; ~ X Y = 50085. Además, n = 10. Sustituyendo estos datos en las fórmulas de arriba, se obtiene entonces:
En consecuencia, la ecuación de la recta de regresión es:
O en forma aproximada: Y= 31.533 + 10.90% 2. Sustituyendo el valorX= 2 en la ecuación obtenida en la pregunta anterior se obtiene:
3. Con la fórmula original se obtiene:
Entonces, el error estándar de la estimación es:
Aquí procede una observación importante, de la que ya se habló antes. Hay dos tipos básicos de nomenclatura en los diversos libros. Por un lado, algunos autores definen los símbolos S, S, y S,, de la siguiente manera, llamémosla versión A:
Para estos autores, se aplica la fórmula siguiente:
Cap. 16. Regresión lineal simple y correlación
445
En cambio, otro grupo d e autores usamos la siguiente nomenclatura, que denotaremos la versión B:
Obviamente son los mismos valores que en la versión A, pero divididos entren. Como nosotros hemos adoptado esta notación, podemos calcular el error estándar de la estimación así:
Resulta claro que el valor d e s obtenido en el ejemplo de los matrimonios puede queen comparación con el valor verdadero si se usa la fórmula dar multiplicado por equivocada. 4. Usamos aquí la fórmula para un intervalo de confianza relativo al parámetro B, que es la pendiente de la recta de regresión poblacional:
&,
t=- b-m S
G Es interesante observar que aquí no pasaría nada si se hubiera usado el valor equivocado de s (es decir, 17.871), en vez del valor correcto (o sea, 5.651), ya que el valor de G e s t a r í a en exceso en el numerador y también en el denominador, por lo que se cancelarían. Así, esta fórmula es válida tanto en la versiónA como en la versión B por igual. En efecto, usando el valor equivocado en la fórmula se obtendría:
mientras que usando el valor correcto se tendría:
En las tablas de percentiles de la distribución t de Student se halla que el percentil con ocho grados de libertad es 2.306 (recuérdese que es un ensayo bilateral). Por consiguiente, la regla de decisión es rechazar la hipótesis nula H,:{B = 12.5) si ocurre que el valor calculado de t es < -2.306 o bien > 2.306; en caso contrario, se acepta Ho. Como -0.91 cae en la zona de aceptación (obviamente), no hay motivos para rechazar Hoy se concluye que con un nivel de significación d e a = 0.05 debe aceptarse H,.
t,,
446
Parte VI. Regresión y correlación
5. Usamos la fórmula para el intervalo de confianza de 100(1- a ) % relativo al parámetro poblacional B. Por lo general, se toma a = 0.05 o a = 0.01 como en este caso específico. Dicha fórmula es:
Aquí a = 0.01; y en las tablas de percentiles de la distribución t de Student hallamos el valor crítico es 3.355. De nuevo, aquí da lo mismo usar el valor equivocado de s o usar el valor correcto, pues ambos conducen a la misma respuesta, porque el valor equivocado contiene un exceso de dn tanto en el numerador como en el denominador, los cuales se cancelan. En efecto, usando el valor equivocado se halla que el intervalo es:
mientras que con el valor cowecto sale igualmente:
El intervalo de confianza buscado es, por tanto, desde 5.05 hasta 16.75 de incremento esperado en la calificación del examen de idioma inglés (en escala del O al 100) por cada afio adicional que se estudie inglés en la preparatoria o en la universidad (por supuesto, con una confianza de 99 %) . 6. El intervalo de confianza de 100(1- a ) % para la respuesta media klxo está dado por:
Primero hay que calcular la ordenada en la recta de regresión que corresponde al punto de abscisax, = 2. De hecho aquí no hace falta calcular nada, porque se obtuvo ya ese dato en la pregunta 2. Recuérdese que se obtuvo el valor Y= 53.34. Tenemos entonces todos los datos para aplicar esa fórmula directamente. La respuesta correcta se obtiene con el valor s = 5.561. Resulta ser:
Es un intervalo que va desde 42.7 hasta 63.9. Esto se interpreta diciendo que aquellos estudiantes que tienen exactamente dos años de estudio de inglés en la preparatoria o en la universidad, deberán obtener en el examen de inglés una calificación que oscile entre 42.7 y 63.9 (en escala del O al 100). Por supuesto, no es seguro, pero hay 99 % de probabilidad (confianza) de que así sea.
1. En una sección de la cafetería de una escuela, las órdenes de paquetes de hamburguesas, papas, refresco y pie de manzana constituyen la mayoría de las ventas de alimentos. El gerente de la cafetería desea evaluar cómo afecta el precio de esos paquetes a sus utilidades semanales, de manera que ha experimentado variando el precio de los paquetes durante nueve semanas diferentes, con los siguientes resultados:
a) Ajuste una recta de mínimos cuadrados a estos datos y construya un intervalo de confianza de 95 % para el coeficiente de regresión B.
b) Calcule el coeficiente de correlación r de la muestra dada y úselo para probar la
+
hipótesis nula de que p = O contra la alternativa de que p 0. c) iQué porcentaje de la variación en las utilidades semanales se puede atribuir a la relación entre la utilidad semanal y el precio de los paquetes?
2. Los datos siguientes pertenecen a un estudio acerca de los efectos que la contaminación ambiental tiene sobre la vida terrestre; en particular, el efecto de pesticidas en el espesor de los cascarones de ciertas aves:
Residuos de pesticidas Espesor r
del huee
Calcule el coeficiente de correlación r de estos datos y úselo para ensayar la hipótesis de que p = O contra la alternativa de que p # 0, con un nivel de significación de a = 0.01. 3. Algunos psicólogos sostienen que la velocidad con que las personas escriben en el teclado de una computadora está correlacionada con la velocidad a la que acostumbran leer las palabras impresas en un libro o revista. Se hizo un experimento con nueve estudiantes de una universidad y con cronómetro se les registró el número promedio de palabras por minuto que leen y el número promedio de palabras que escriben por minuto en un teclado:
a) Mida el grado de relación aparente entre la velocidad de mecanografía y la velocidad de lectura, calculando el coeficiente de correlación.
b) Pruebe la hipótesis nula de no correlación en el nivel de significación de a = 0.05. c) ¿Quéporcentaje de la variación en la velocidad de mecanografía se puede atribuir a la relación entre la velocidad de mecanografía y la velocidad de lectura?
4. Si calculamos r para cada uno de los conjuntos de datos siguientes, ¿debe sorprenderse uno si se obtiene r = 1y r = -1, respectivamente? Explique su respuesta.
5. En cada inciso, haga una prueba de hipótesis rápida para verificar si el valor de r es significativo, usando un nivel de significación de a = 0.05:
6. Verifique en cada inciso si r es significativo, usando un nivel de significación de a = 0.0 1:
7. La tabla siguiente muestra los porcentajes de la votación que predijo la empresa de consultoría Mitofsky en sondeos de preferencias sobre siete candidatos a gobernadores estatales de los partidos políticos principales de México, y los porcentajes de votación que finalmente obtuvieron:
Encuesta ( x )
Ekcciún (y )
42 %
51 %
34 %
31 %
59 %
56 %
41 %
42 %
53 %
';3 %
40 %
5%
55 %
54 %
Cap. 16. Regresión lineal smiple y correlación
449
a) Calcule r en relación con estos datos. b) Como r no depende de las escalas de x y y, su cálculo a menudo se puede simplificar sumando un número positivo o negativo adecuado a cada términox, a cada término y o a ambos. Vuelva a resolver el inciso a después de restar 34 de cada x y 31 de cada y.
8. Se escogieron al azar 16 estudiantes de nivel profesional del ITESM (sin importar la carrera que cursaban) y se les sometió improvisadamente a un examen informal de matemáticas básicas de nivel preparatoria y otro examen general y básico de redacción y ortografía. En escala del O al 100, las calificaciones obtenidas por cada uno de ellos fueron:
;1
Matemáticas 1 Redacción x )
a) Calcule el valor de r. b) Calcule otra vez r, pero ahora restando constantes adecuadas para cada valor de x y y, tal y como se sugirió en el ejercicio 6b. c) Pruebe la hipótesis nula p = O en el nivel de significación de a = 0.05. d) Estime el porcentaje de la variación de las calificaciones en el examen de redacción que se puede atribuir a (o explicar por) la relación intrínseca entre la aptitud para las matemáticas y la calidad de la ortografía y redacción de una persona. 9. Una compañía de refrescos está estudiando el efecto de sus campañas publicitarias por TV entre los estudiantes de una universidad. A un grupo de ocho estudiantes elegidos en forma aleatoria se les preguntó cuántas latas del nuevo refresco habían comprado en la semana anterior y cuántos anuncios de dicho refresco habían visto por TV en esa misma semana: x (número de anuncios) Y
(número de latas)
4 9 3 12 14 7
O 6
1 3
6 5
2 6
1
5 101
a) Desarrolle la ecuación de la recta de regresión (mínimos cuadrados). b) Calcule el coeficiente muestra1 de determinación y el coeficiente de correlación.
1. Exprese en cada caso si esperaría obtener una correlación positiva, negativa o no obtener ninguna correlación (explique brevemente la razón de su respuesta):
a) Las edades de los esposos y las esposas. b) La cantidad de hule que contienen los neumáticos (llantas) de los automóviles y el número de kilómetros que han recorrido.
450
Parte VI. Regresión y correlación
El ingreso o dinero de una persona en México y la educación que tiene. La talla de camisa y el sentido del humoc El número de horas diarias que estudia ajedrez un ajedrecista y su rating (o puntuación). El número de problemas y ejercicios que ha intentado resolver un alumno de estadística y su calificación en los exámenes de la materia. El número de veces que un estudiante ha faltado a las clases de matemáticas y la calificación obtenida en los exámenes de la materia. La inteligencia de una mujer y el tamaño de su busto. El número de horas que una persona ha pasado practicando boliche y las puntuaciones promedio que obtiene en ese juego. La inteligencia de una persona y el tamaño de su cabeza. El número de horas que una persona duerme cada día y el número de años que llega a vivir. La rapidez para aprender un nuevo idioma y el número de idiomas que ya domina una persona. La edad de una persona y el número de palabras y conceptos que es capaz de retener en la memoria.
2. Explique por qué una ecuación de estimación es válida únicamente sobre el intervalo de valores empleados en su desarrollo, es decir, sólo dentro del intervalo de donde se extrajo inicialmente la muestra. 3. Explique si es correcto emplear el coeficiente de determinación r 2 para describir el porcentaje del cambio en la variable independiente x que se debe a un cambio en la variable dependiente y, y si no es así, entonces ¿en qué sentido debe interpretarse r *?
Los siguientes siete ejercicios (que pueden utilizarse como exámenes) contienen una tabla de datos que representa un conjunto de observaciones para la variable explicativa (o independiente) x, con los correspondientesvalores para la variable explicada (o dependiente) y. El tiempo límite para contestar cada ejercicio es de una hora. En cada ejercicio, conteste las siguientes seis preguntas, que debe resolver usando s61o una calculadora, tablas de valores críticos para la distribución t de Student con v grados de libertad y tablas de valores críticos para el coeficiente de correlación, así como un formulario (lista de fórmulas) elaborado por usted mismo:
a) Obtenga la ecuación de la recta de regresión por ajuste de mínimos cuadrados. b) Calcule el valor numérico del error estándar de la estimación S = se. C)
Obtenga el valor numérico del coeficiente de determinación.
d) Construya un intervalo de confianza de 95% para el parámetro B, (ordenada en el origen de la recta de regresión poblacional). e) Determine un intervalo de confianza de 95 % para el parámetro B (pendiente de la recta de regresión poblacional). f ) Elabore una prueba de hipótesis con un nivel de significación de a = 0.05, para ensayar la hipótesis nula de que no hay correlación a nivel poblacional entre ambas variables, contra la alternativa de que sí hay alguna correlación. Para ello debe especificar clara. mente las siguientes cinco etapas de la prueba:
i ) Hipótesis nula e hipótesis alternativa ii) Valor calculado del estadístico de prueba que use
Cap. 16. Regresión lineal simple y correlación iii) Valor crítico hallado en la tabla i w ) Intervalo de valores donde se rechazaría la hipótesis nula U) Conclusión (rechazar o no rechazar la hipótesis nula).
1. Datos:
2. Datos:
3. Datos:
4. Datos:
5. Datos:
452 6. Datos:
7. Datos:
Formulario sugerido para resolver las preguntas de estos ejercicios:
SSE =Sw - bS,
1 Intervalo de confianza para Po: / Intervalo de confianza para p:
I
I
1
gunos conceptos undamentales de probabilidad Regla multiplicativay probabilidad condicional Probabilidad condicionai. Con frecuencia ocurre que la probabilidad de un suceso puede verse afectada por el conocimiento de otro suceso cuyo resultado influye en el primero. Esta idea conduce al concepto de la probabilidad condicional de eventos, la cual se define de la siguiente manera. Para cualesquiera dos eventos A y B (no vacíos), se define la probabilidad condiaonai de B dado A mediante la relación multiplicativa:
Como la intersección de conjuntos es conmutativa, ello es equivalente a escribir:
Regla multiplicativa. Para más de dos eventos se puede generalizar la regla multiplicativa dada por la definición anterior; por ejemplo, para tres eventos A, B y C se tendría:
Ejemplo Al. En el estante de una biblioteca hay ocho libros de física iguales (mismo autor, edición y título), excepto que cuatro de ellos están a la rústica y los otros cuatro están empastados (o encuadernados). Supóngase que en forma sucesiva vienen tres lectores y cada uno de ellos pide a la bibliotecaria un ejemplar de ese libro para llevar a casa. Si la bibliotecaria los elige al azar, ¿cuál es la probabilidad de que al primero le toque empastado, al segundo a la rústica y al tercero también a la rústica? Solución: Es claro que si denotamos por A, B y C a esos tres eventos y aplicamos la fórmula recién expuesta, la solución será:
454
Apéndice A. Algunos conceptos fundamentales
Nótese que la respuesta l/7 es exacta, mientras que el valor 0.1429 es sólo una aproximación redondeada a cuatro dígitos decimales. Siempre que sea fácil o posible se prefiere dar la respuesta en forma de una fracción o número racional; en su defecto, se acostumbra dar una aproximación redondeada a por lo menos cuatro dígitos después del punto decimal. Es frecuente entre los estudiantes que se inician en el estudio de la teoría de las probabilidades, que surja en ellos cierta confusión entre los eventosA nB (intersección) y A 1 B (condicional de A dado B). En uno y otro caso se habla de la ocurrencia de ambos eventos, A y B. Pero la diferencia estriba en que en el caso de A 1 B de antemano se conoce que B ha ocurrido y esta información de alguna manera modifica la probabilidad de A, toda vez que el espacio muestral (o casos totales) se reduce al conjunto B. Los siguientes ejemplos aclaran esto. Ejemplo A.2. Un maestro lanza dos dados sobre la mesa, mira los números que salen y los cubre con la mano para que sus alumnos no puedan verlos. Entonces, el maestro les pregunta lo siguiente:
a ) ¿Cuál es la probabilidad de que uno de los dados muestre un 4 y el otro un 5? 6) Supóngase que el maestro les proporciona a sus alumnos la información de que en uno de los dados salió el 5. Conociendo ese dato, ¿cuál es entonces la probabilidad de que el otro dado muestre el 4? Solución: a ) Los dados son distinguibles y podemos llamarlos "dado 1"y "dado 2". Si en el dado 1sale n y en el dado 2 sale m, entonces escribimos (n, m), donde n y m son cualesquiera números del 1 al 6. Entonces, el espacio muestral R consiste de 36 posibles parejas ordenadas de este tipo, es decir, 51 = ((1, l), (1,2), ... , (6,6)). Si E es el evento de que un dado muestre un 4 y otro dado un 5, entonces E = ((5, 4), (4,5)). Para hallar la probabilidad de este suceso E, se divide el número de casos favorables (2) entre el número total de casos (36). Por tanto, la respuesta a la primera pregunta es: probabilidad de que un dado muestre un 4 y el otro un 5:
b) Los alumnos saben que en uno de los dos dados salió el 5. Entonces esta información reduce el espacio muestral al siguiente conjunto:A = ((1, 5), (2,5), ( 5 3 , (4, 5), (5, 5), (6, 5), (5, l), (5, 2), (5,3), (5,4), (5,6)). Es decir, de los 36 elementos originales de Q ahora el espacio muestral se ha reducido a los 11 elementos del conjunto A. Nótese que son 11 y no 12, porque doble 5 sólo hay uno. En consecuencia, sabiendo que en un dado salió un 5, la probabilidad de que salga un 4 en el otro dado es el cociente del número de elementos de E = ((5, 4), (4, 5)) 2 entre el número de elementos de A, es decir: -. Los restantes 25 elementos 11 de 51 ya no tienen que tomarse en cuenta, porque se tiene la certeza de que no ocurrieron. Asimismo, podríamos haber resuelto este inciso mediante la fórmula. Sean los eventos: A = {En uno de los dos dados salió el 5 ) ;B = {En uno de los dados salió el 4). Entonces,A n B = E = {(5,4), (4, 5)) y por tanto:
Algunos conceptos fundamentales de probabilidad
455
Ejemplo A.3. En un grupo de 36 estudiantes universitarios hay nueve que dominan el idioma inglés, cuatro que dominan el francés y dos que dominan ambos idiomas (ya contados entre los anteriores). Se selecciona un alumno al azar en ese grupo y se comprueba que domina el inglés. ¿Cuál es la probabilidad de que domine el francés? Solución: Sean los eventos I = {Domina el inglés.); F = {Domina el francés.). Para un alumno cualquiera del grupo se tendrá:
Entonces:
Nótese que el conocimiento previo de que el estudiante dominaba el inglés aumentó la probabilidad de que dominara ambos idiomas de '/18 a 2/9 porque el espacio muestral se redujo a los nueve que dominan el inglés y los restantes 27 alumnos no necesitaron ser considerados. Eventos independientes
Por definición, dos eventos A y B no vacíos se llaman independientes si ocurre que P(A B) = P(A) o bien P(B A) = P(B). Queda claro que cualquiera de estas dos igualdades P(A n B ) P(A n B ) implica a la otra, ya que = P(B). De mane= P(A) equivale a escribir P(B) P(A) ra equivalente, es lo mismo decir que dos eventos A y B son independientes si y sólo si se cumple la relación P(A nB) = P(A)P(B). Es interesante observar que de acuerdo con esta definición, puede darse el caso de
1
1
que un evento sea independiente de sí mismo. En principio, sólo el espacio muestral !2 tiene esta curiosa propiedad: P(sz 1 sz) =
P(Q nQ ) P(Q)
- P(Q) -l = p ( s z ) P(Q)
Por regla general, es posible decir a simple vista si dos eventos son independientes o no, pero si hay alguna duda, debe comprobarse con la fórmula. En principio, si dos eventos son físicamente independientes, entonces deben ser estadísticamente independientes también. Nótese que para que dos eventos sean independientes se ha puesto como requisito que no sean vacíos. Si no se hubiese puesto esa condición, entonces también el conjunto vacío 0 podría ser considerado como independiente de sí mismo, toda vez que:
Ejemplo A.4. Se lanzan tres monedas al aire para ver si caen en águila (a) o sol (S). SeaA el evento: {En las tres monedas sale el mismo signo); sea B el evento {Por lo menos una de las monedas muestra águila) y sea C el evento {Por lo menos salen dos águilas). Determinar si A y B son eventos independientes, así como para B y C, y para A y C. Solución: El espacio muestral Q tiene ocho elementos: !2= {aaa,saa, asa, ssa,
456
Apendice A. Algunos conceptos fundamentales
aas,sus, m,sss). Además, A = {aaa, SS) ; B = {m, saa, asa, ssa, aus, sas,ass) y A n B = {aaa}.Tenemos:
1 2 7 Claramente, - -# así que A y B no son independientes. 8
8,
8 Por otra parte, C = {aaa,saa, asa, aas); A n C = {aaa}; B
n C = C. Entonces
se tiene:
2
1
8
2
Como - -=
1 , luego A y C sí son independientes. El lector debe comprobar 8
como ejercicio que B y C no son independientes. Ejemplo A.5. Si A es el evento {Brasil gana la próxima copa del mundo de futbol) y B es el evento {Mi tía María tuvo resfriado anoche). Determinar si se trata de a) eventos
independientes o 6)de eventos ajenos (o excluyentes). Solucidn: En efecto son eventos independientes, pero es un error típico pensar que se trate de conjuntos ajenos, puesto que sí tienen intersección. De hecho, su intersección es el conjunto {Brasil gana la próxima copa del mundo de futbol y además mi tía María tuvo resfriado anoche). En general, para que n eventos A,, A,, ... ,A" sean todos independientes (desde el punto de vista probabilístico) se requiere que sean independientes por parejas; o lo que es lo mismo, se requiere que P(A, n A, n ... n A") = P(A,) n P(AJ n . . . n P(AJ. En el ejemplo A.4 de las tres monedas, resulta claro que los tres eventos A, B y C no son independientes. Probabilidades posteriores y la Regla de Bayes
Los métodos estadísticos clásicos subrayan la importancia del papel que desempeña la opinión apriori acerca de la estimación de algún parámetro o parámetros. No obstante, hay otro enfoque diferente en análisis de decisiones, basado en los métodos y en el pensamiento bayesiano. Los métodos bayesianos proporcionan los medios que posibilitan la modificación formal de la opinión a priori, modificándola a la luz de información a posteriori. Los métodos bayesianos de pronósticos son útiles por sí mismos y también porque permiten comprender mejor las limitaciones de la estadística clásica y por ende las limitaciones de los métodos clásicos de pronóstico. Los términos latinos a priori y a posteriori significan "antes de la experiencia" y "después de la experiencia", respectivamente. En estadística, las probabilidades posteriores (o a posteriori) se deducen a partir de las probabilidades apriori (o anteriores) mediante el célebre Teorema de Bayes. Thomas Bayes fue un presbítero inglés que ideó una famosa regla o fórmula conocida como Teorema de Bayes. 'Ihomas Bayes fue un teólogo y ministro presbiteriano inglés. Su célebre fórmula no fue publicada sino hasta tres años después de su muerte, en 1763. Años más tarde, primero Laplace y más recientemente Jefferys y Jaynes, entre otros, desarrollaron el pensa-
Algunos conceptos fundamentales de probabilidad
457
miento de Bayes y fundaron la "inferencia bayesiana", así como la "estadística bayesiana". Bayes jamás supo del alcance que iban a tener sus ideas en la estadística. Hoy día hay más de cien sitios de Internet dedicados a la estadística bayesiana. Bayes nació en 1702 en Londres. Su padre fue uno de los primeros seis ministros "no conformistas" ordenados en Inglaterra, y Thomas siguió los pasos de su progenitor. En 1720, fue ordenado ministro en la capilla presbiteriana de Tunbridge Wells, en Kent, a unos 50 km de Londres. El título de su trabajo revolucionario fue Essay towards soluing a problem in the dochine of chances. Bayes murió en Tunbridge Wells el 17 de abril de 1761. Ilustración de la Regla de Bayes mediante algunos ejemplos simples
Ejemplo AG. Supóngase que en una oficina hay tres secretarias:Juanita (A,Lupita (L) y Rosita (R), las cuales manejan, respectivamente, 50%, 30%y 20% de los archivos (o informes) importantes de,sujefe. Las probabilidades (aprion3 de que ellas pierdan o trassituación papelen un informe son, respectivamente, 0.15, 0.05 y-O.lO. ~s~uematizar-esta mediante un diagrama de árbol. Solución:Aquí se usa el término latino aprion para asignar una probabilidad (quizá subjetiva) de un suceso que puede ocurrir, mas no ha ocurrido aún. Seguramente en los respectivos cum'cula de esas secretarias no se menciona el porcentaje de archivos que tienden a perder o a traspapelar, pero puede ser una estimación subjetiva de su jefe, con base en la experiencia de conocerlas durante muchos años. Denotemos por Te1 evento "informe traspapelado" y por N el evento "informe no traspapelado". Entonces, el árbol de probabilidades tendría el aspecto de la figura A. 1.
Figura A. l. Árbol a priori.
Obsérvese que todos los valores numéricos de probabilidades que aparecen en las ramas del árbol corresponden a datos del problema que se proporcionaron, y no hubo necesidad de hacer ningún cálculo. Este tipo de árbol se llama árbol a priori, ya que esquematiza cómo está la situación general antes de que se haya perdido ningún informe. En tanto no se llegue a perder o a traspapelar ningún informe, los valores numéricos del árbol son la única fuente disponible de datos.
458
Apéndice A. Algunos conceptos fundamentales
Sin embargo, si de repente se pierde un informe (evidencia empírica), surgen entonces nuevos eventos (llamados a posteriori) ue no están descritos en el árbol: concretamente, los eventos condicionalesJ / T,J 1 N, T. L 1 N, R 1 T y R 1 N Estos seis eventos a posterior? también tienen ciertas probabilidades (llamadas posteriores), pero para calcularlas se requiere una fórmula interesante que introdujo Thomas Bayes y que se describe a continuación. Obsérvese que si se sigue una trayectoria de ramas adyacentes o contiguas (es decir, "en serie"), entonces las probabilidades se van multiplicando, por cuanto se trata de intersección de eventos. Por ejemplo, en el árbol de la figura A.l, la probabilidad de que un informe manejado por Juanita se traspapele será el producto de las dos ramas que están hasta arriba:
Ll
Por otra parte, si se trata de trayectorias excluyentes ("en paralelo"), entonces las probabilidades se suman. Por ejemplo, en la figuraA.1, la probabilidad de que un informe sea manejado por Juanita o por Lupita es: Este sencillo principio hace que un diagrama d e árbol sea de gran utilidad para los cálculos rápidos de probabilidades: multiplicamos las probabilidades si se trata d e ramas adyacentes (contiguas), o bien las sumamos si se trata de ramas separadas que emergen de un mismo punto. Por lógica, la suma de probabilidades de todo un manojo de ramas que emergen d e un mismo punto (como los manojos o racimos de bananos o plátanos) es necesariamente igual a 1. Volviendo a la figura A . l , y siguiendo el principio mencionado, se calculan las probabilidades de las seis posibles intersecciones de parejas de conjuntos, en las que el primer conjunto esJ,L o R; y el segundo conjunto es T o N. Estas son las siguientes, en orden de aparición:
Por supuesto, estos seis eventos cubren todo el espacio muestra1!2, y por consiguiente, la suma de esas seis probabilidades tiene que ser igual a 1 por fuerza. El lector debe comprobarlo con una calculadora de bolsillo. En este caso, y siguiendo la metáfora de los plátanos, se trata ya no de un racimo o manojo, sino de toda la penca completa arrancada desde su punto de origen. La probabilidad a priori (o probabilidad anterior) de un suceso es la probabilidad que se le asigna antes de que se tenga noticia de que ha ocurrido. Por ejemplo, la probabilidad d e que explote el Sol la semana siguiente y por tanto se extinga el Sistema Solar debe ser muy pequeña, y los astrónomos pueden dar un valor numérico estimado de esa probabilidad con base en sus estudios sobre la estructura interna del Sol y las estrellas. Sin embargo, como es un suceso que nunca antes ha ocurrido, no podemos dividir casos favorables entre casos totales ni estimarla en forma directa. De manera análoga, cuando un individuo acude a una compañía de seguros a comprar una póliza de seguro de vida, la compañía debe hacer una estimación a pyiori de la probabilidad aproximada de que ese individuo específico muera. No hay otra manera
Algunos conceptos fundamentales de probabilidad
45 9
de calcularla, porque ese individuo jamás ha muerto antes, así que la estimación puede hacerse con base en estudios de mortalidad y tomando en cuenta los hábitos particulares, la edad, los antecedentes y la salud en general de este individuo. Es posible que la estimación sea un poco subjetiva, pero la compañía de seguros asume el riesgo y acepta pagar una fuerte cantidad a los deudos en caso de que el individuo fallezca, a cambio de unas cuotas módicas anuales (o mensuales) que estimará de acuerdo con las probabilidades a pn'ori de que muera. Al firmarse el seguro, es como si se hubiese pactado una apuesta: el individuo apuesta a que se va a morir, mientras que la compañía de seguros apuesta a que no se va a morir. Cada quien tiene sus respectivos riesgos, así como sus respectivas pérdidas o ganancias en ese pacto. Desde luego, el asegurado tiene la opción de ganar la apuesta cuando quiera si se arroja a las vías del tren en el momento que lo desee, mas no sería él quien disfrutara el triunfo en la apuesta, pues la compañía pone en el contrato varias cláusulas que la protegen contra semejantes contingencias. En un ejemplo menos trágico, y retomando el caso de las secretariasJuanita, Lupita y Rosita que se examinó (ejemploA.6), las estimaci* nes de su jefe en el sentido de que ellas pudieran perder o traspapelar un informe eran probabilidades condicionales aprion', quizá estimaciones subjetivas. Otro concepto relacionado es el de probabilidad total, que es la suma exhaustiva de las probabilidades de todos los casos mutuamente excluyentes que conducen a dicho evento. En el ejemplo A.6 (el caso de Juanita, Lupita y Rosita), si se quisiera averiguar cuál es la probabilidad total de que un informe cualquiera llegue a perderse o a traspapelarse, se observa el árbol de eventos y se suman las probabilidades de todas aquellas ramas excluyente~que conducen al evento T (traspapelar un informe):
lo cual equivale a decir que de acuerdo con los datos del ejemplo, 11% de los informes del jefe van a perderse o a traspapelarse. El concepto de probabilidad aposterion' (también Ilamadoprobabilidadposten'oro probabilidad de una causa) es la gran aportación que el reverendo Thomas Bayes hizo a la estadística. Bayes era un teólogo protestante que pasó gran parte de su vida tratando de demostrar la existencia de Dios para aquellos que no creían en él. Estaba empeñado en lograr una demostración matemática de la existencia de Dios, y para ello partió de la hipótesis de que Dios era por definición más que un ser necesario, el único ser necesario, es decir, la causa de todo lo que existe (o de todos los seres contingentes). Bayes razonó que las causas producen efectos y que éstos, a su vez, pueden ser causas d e otros efectos. Además concilió la idea d e Aristóteles de que un efecto es producido en general por varias causas y no sólo por una. Aristóteles les había dado nombres a las distintas causas que provocan un suceso: "causa eficiente", "causa material", "causa formal", "causa instrumental", etc. Pero Thomas Bayes fue mucho más lejos y trató de razonar en sentido inverso, partiendo del efecto y siguiendo hacia atrás el hilo de las causas que lo antecedieron, hasta llegar posiblemente a la causa última y final: la existencia de Dios como ser necesario y causa de todo lo que existe. Bayes dedicó muchos años de su vida a trabajar afanosamente en esta dirección, y jamás sabremos si al final quedó satisfecho con lo que encontró. Sin embargo, en su afán de demostrar la existencia d e Dios por métodos matemáticos, dio con una fórmula muy útil que hoy se conoce como Teorema de Bayes (o Regla de Bayes). Se trata de una fórmula sencilla que permite calcular las probabilidades de las causas dados los efectos, es decir, las probabilidades aposteriori. Como lo que ya ha ocurrido no puede cambiarse, el lector podría pensar que tal vez sea ocioso indagar por las probabilidades de las causas de eso que ocurrió; o como reza
460
Apkndice A. Algunos conceptos fundamentales
el dicho: Lo hecho, hecho está. No obstante, el concepto de probabilidad a postm'ori y la fórmula de Bayes son de gran utilidad práctica para deslindar responsabilidades o fijar culpas de algo que ya pasó. Por ejemplo, volviendo al caso de las tres secretarias: Juanita, Lupita y Rosita, si el jefe nota que se le ha perdido un informe importante, por más que haga o se enfade no lo va a recuperar ya; sin embargo, puede usar esa evidencia empírica para revalorizar la opinión que tenía de sus secretarias, y asignarles nuevas probabilidades (aposterioq por medio d e la Regla de Bayes. Esas probabilidades tendrían el siguiente formato: P( T ) ,P(L 1 T)y P(R 1 T ) . Si se observa el árbol de eventos de la figura A.l, tales probabilidades aposteriori no aparecen en ninguna parte. Sin embargo es posible calcularlas mediante fórmulas conocidas:
JI
Estas tres probabilidades apostm'ori proporcionan una nueva valoración de la eficiencia relativa de las tres secretarias, a la luz del hecho que un informe se perdió. Antes de que eso ocurriera, el jefe sólo sabía (véase fig. A.l) que Juanita manejaba 50 % de sus informes y tendía a perder tan sólo 15% de los informes que pasaban por sus manos. Gracias a la pérdida de un informe, ahora ya sabe que Juanita es en realidad responsable de más de 68 % de los informes que se pierden. Naturalmente, eso no se debe a que Juanita sea menos eficiente de lo que parecía, sino a que es ella quien tiene a su cargo el mayor volumen de informes que se procesan. Habiendo calculado ya la probabilidad total para que un informe se pierda, P(T) = 0.11 y para que un informe no se pierda, P(N) = 0.89, se puede ahora enfocar toda la situación desde una nueva perspectiva, a saber, de efecto a causa; en cuyo caso se obtendrá un nuevo árbol de probabilidades, llamado árbol a posteriori, ya que se construye a partir de las probabilidades totales calculadas y de las probabilidades a posteriori calculadas también. A diferencia del árbol apriori (cuyas entradas numéricas son estimaciones dadas), en el árbol aposteriori todos los valores de probabilidades tienen que calcularse por medio de fórmulas. Véase el árbol de la figura A.2.
Algunos conceptos fundamentales de probabilidad
46 1
Las tres ramas de la parte inferior derecha d e este árbol representan las probabilidades posteriores d e que un informe no se pierda. Es decir, la no pérdida de un informe también puede usarse como evidencia empírica para dar una nueva apreciación de la eficiencia relativa d e cada secretaria. En este caso, nótese que si todo marcha bien y no se pierde ningún informe, el jefe debe darle principalmente las gracias a Juanita, ya que carga con cerca de 48 % de la responsabilidad de que todo marche bien, en tanto no se pierda ningún informe del jefe. Las probabilidades de las tres ramas de la parte inferior derecha se calculan de manera similar:
Ejemplo k7. Una importante empresa que fabrica calzado está distribuida en tres sitios distintos L,, L, y L,, los cuales contribuyen, respectivamente, con 45 %, 30% y 25% a la producción total de esa empresa. Supóngase que se estima que para el sitio L, 8% de los pares de zapatos tienen defectos que se detectan en pruebas de control de calidad, mientras que las cifras correspondientes para los sitios L, y L, son 6% y 3 %, respectivamente. Si un par de zapatos es extraído al azar de la producción total y se observa que tiene defectos, encontrar la probabilidad de que haya sido fabricado en el sitio L,. Solución:Denotemos por D al evento "zapato defectuoso". Entonces, d e acuerdo con la fórmula de Bayes se tendrá que:
Aunque el Teorema d e Bayes se deduce de los axiomas de probabilidad y de la definición de probabilidad condicional, se trata de una proposición que ha sido objeto de controversia. No puede haber duda acerca de la validez del Teorema de Bayes, pero han surgido argumentos considerables acerca de la interpretación de las probabilidades aprz.0ri P(BJ. Asimismo, gran parte del misticismo que rodea al Teorema de Bayes se atribuye al hecho de que vincula un tipo de razonamiento hacia atrás o "inverso", es decir, razonamiento del efecto a la causa. Ejercicios de autoevaluacibn Al
1. En la competencia olímpica d e marcha o caminata, se supone que el atleta no debe
flotar, es decir, debe mantener siempre contacto con el piso. Sin embargo, lo:. videos muestran de manera inequívoca que aproximadamente 80 % de los marchistas flotan en algún momento de la competencia. Por otra parte, los jueces que se encargan de amonestar a aquellos marchistas que flotan suelen equivocarse a veces, de tal manera
462
2.
3.
4.
5.
6.
7.
Apéndice A. Algunos conceptos fundamentales
que 10 % de las veces amonestan a los que no flotan, mientras que 30 % de las veces pasan inadvertidas las flotaciones de los marchistas. Si el ganador de una competencia no recibió ninguna amonestación, icuál es la probabilidad de que realmente no haya flotado? Se tienen dos tarjetas: una es negra por ambas caras, y la otra tiene una cara negra y la otra blanca. Se meten en una bolsa y se extrae una de las dos tarjetas al azar, la cual se coloca sobre la mesa. Si la cara que muestra hacia arriba es negra, icuál es la probabilidad de que también la cara de abajo sea negra? Se tienen dos cajas: una caja 1 con cuatro esferas blancas y tres negras, y otra caja 11 con tres esferas blancas y cinco negras. Se elige una de las dos cajas al azar, de la cual se extrae una esfera blanca. Calcule la probabilidad de que provenga precisamente de la caja 1. Un ratón de laboratorio se introduce en un laberinto en forma de T. Del lado izquierdo hay un pedazo de comida protegido para que el ratón no pueda olerlo de lejos; y del lado derecho hay una pequeña descarga eléctrica que sería desagradable para el ratón, mas no mortal. Supóngase que la primera vez que se introduce el ratón, hay una probabilidad de 0.5 de que vire a cualquiera de los dos lados. Si en el primer intento viró a la izquierda, entonces hay una probabilidad de 0.6 de que vuelva a virar a la izquierda en el segundo intento; sin embargo, si en el primer intento viró a la derecha y recibió la pequefia descarga eléctrica, entonces hay una probabilidad de 0.75 de que vire a la izquierda en el segundo intento. Si se observa que el ratón efectivamente viró a la izquierda en el segundo intento, icuál es la probabilidad de que haya virado también a la izquierda en el primer intento? Durante la época de exámenes en cierto colegio, sólo 25 % de los profesores advierten por escrito a sus alumnos que no está permitido levantarse a hacer preguntas durante la prueba. No obstante, se ha observado que a pesar de esa advertencia, 20 % de los alumnos se levanta a preguntar durante la pmeba. Para los profesores que no establecen dicha advertencia, la cifra correspondiente es de 70%. Si durante un examen a cargo del profesorx, de pronto irmmpe un inspector en el salón y observa que hay alumnos que se levantan a preguntar, icuál es la probabilidad de que ese profesor no les haya advertido por escrito a sus alumnos que se prohíbe hacer preguntas en los exámenes? Una compañía fabrica empaques de hule para tuberías en tres sitios distintos de una ciudad, llamémoslos S,, S, y S,, los cuales producen, respectivamente, 45 %, 30% y 25% del total de la producción. Se estima que 8% de los empaques fabricados en S, son defectuosos, mientras que para S, y S, las cifras correspondientes son 6% y 3 96. Los empaques fabricados por los tres sitios se concentran luego en una bodega de la ciudad. Si un inspector de control de calidad toma un empaque al azar de la bodega y lo encuentra defectuoso, ¿qué probabilidad hay de que provenga del sitio S,? La siguiente tabla muestra la proporción de pacientes que ingresan en la clínica de especialidades Aranda de la Parra de León, Guanajuato, y las probabilidades aproximadas de curación completa:
/
1
/
' Enfermedades gastrointestinales
1
Especialidad médica Al Traumatología y ortopedia .A2 1 Enfermedades cardiacas y circdatorias A3 A4
i
1 Gínecología y obstetricia
Porcentaje Probabilidad del total que de curación l irtgrexan -_.cornpletaA 19 0.55 0.40 12 1 . 28.-1 0.801 1
1
14
0.96
A5 A6
-A7 A8 A9
/ Oftalmología y otorrinolaringología
1
Cancerología Dermatología
j Neumología 1 Sida
---
5 6
0.50 0.10
6
0.85 0.80
7
1
I
i 1
3
Si un enfermo de esta clínica fue dado de alta sano, calcule la probabilidad de que: a) haya sufrido algún padecimiento cardiaco o circulatorio; 6) haya sufrido algún golpe o lesión física.
8. En cierto país subdesarrollado aquejado por una fuerte inflación, los economistas
9.
10.
11. 12.
13.
14.
esbozan tres teorías: teoría 1: la inflación desaparecerá antes del cambio de gobierno; teoría 11: ocurrirá una depresión; y teoría 111: habrá una recesión. Ellos estiman que las probabilidades de que se lleguen a materializar las teorías 1, iI y 111son respectivamente 0.40, 0.35 y 0.25. Por otra parte, los expertos consideran que las probabilidades de que ese país salga del subdesarrollo, si ocurren realmente los eventos i, 11y 111, son de 0.90,0.60 y 0.20, respectivamente. Supongamos que el país de todos modos no logra salir del subdesarrollo. ¿Cuál es la probabilidad de que la inflación haya desaparecido antes del cambio de gobierno? En un salón 1hay siete alumnos, de los cuales cuatro estudian ingeniería y tres actuaría; en un salón 11 hay ocho alumnos, de los cuales tres estudian ingeniería y cinco actuaría. Se pasa al azar un alumno del salón 11al salón 1, y luego se elige al azar un alumno del salón 1. Determine la probabilidad de que sea estudiante de ingeniería. Una caja 1 contiene cuatro canicas blancas y tres negras; una caja 11contiene tres canicas blancas y cinco negras; y una caja 111contiene seis canicas blancas y tres negras. De la caja 1se extrae al azar unacanica y se deposita en la caja 11. Luego, de la caja 11 se extrae al azar una canica y se traspasa a la caja 111. Por último, se saca una canica al azar de la caja 111. Determine la probabilidad de que sea blanca. Una urna 1 contiene dos esferas blancas y dos negras; una urna 11contiene dos blancas y tres negras. Se selecciona una urna al azar y se extraen dos esferas juntas de manera aleatoria. ¿Cuál es la probabilidad de que sean del mismo color? Un niño usa calcetines de sólo dos colores: azul y negro. Sin embargo, no los tiene ordenados por parejas, sino que los tiene sueltos en dos cajones de su ropero. En el cajón de arriba tiene seis calcetines negros y dos azules; y en el cajón de abajo tiene tres calcetines negros y cinco azules. No puede prender la luz para ver, porque despertaría a su hermano menor; así que toma un calcetín de cada cajón, se los pone en la oscuridad, se viste y se va a la escuela. ¿Cuál es la probabilidad de que se haya puesto calcetines del mismo color? Supóngase que en cierto lugar llueve aproximadamente 40% de los días y hay cielo despejado 60% de los días. Supóngase además que la gente de ese lugar puede más o menos predecir si lloverá o no, consultando el barómetro; aunque ese instrumento no es del todo confiable, ya que en días lluviosos pronostica erróneamente "claro" 10% de las veces, y en días claros predice en forma incorrecta "lluvia" 20% de las veces. En un día cualquiera se consulta el barómetro y se comprueba que este instrumento pronostica que lloverá. Dada esa evidencia, ¿cuál es la probabilidad de que llueva? Dado el siguiente árbol de probabilidades aprz'ori, halle el árbol correspondiente de probabilidades a posteriori:
15. En una fábrica de piezas de poliuretano, hay dos máquinas automáticas (M, y MJ que producen piezas idénticas de ese material, las cuales son tiradas a un transportador común y empacadas manualmente por los obreros. La máquina M, tiene un rendimiento dos veces mayor que M,; sin embargo, M, es una máquina más antigua y produce s61o 60 % de piezas de calidad excelente, mientras que M, produce 84 % de piezas excelentes. Una pieza tomada al azar del transportador resultó ser de calidad excelente. Calcule la probabilidad de que haya sido producida por la máquina M,. 16. Cierto acontecimientoA puede ocurrir como consecuencia d e tres posibles causas mutuamente excluyentes: B,, B, y B,: las cuales forman un conjunto completo de eventos (es decir, la suma de sus probabilidades es igual a 1). Después d e que efectivamente ocurrió el acontecimiento A, se estimaron las probabilidades posteriores de las causas, hallándose que P(B, [A) = 0.6 y que P(B, 1 A) = 0.3. Determine la probabilidad condicional P(B, IA). Respuestas de los ejercicios de autoevaluación A l = 0.4286 = 0.6667 3. 32/53 = 0.6038
1. 2.
3/7
4. 5. 6. 7.
0.4444 0.9130 0.5853 a) 0.07397; ,119 = 0.1053 35/64 = 0.54687 403/630 = 0.6397 11/30 = 0.3667 7/16 = 0.4375 Denotemos por €),yO,, respectivamente, a los eventos "llueve" y "no llueve". SeanX, y X,, respectivamente, los eventos: "el barómetro pronostica lluvia" y "el barómetro pronostica día seco". Según esto, la probabilidad d e que llueva y el barómetro pronostique "lluvia" es:
8.
9. 10. 11. 12. 13.
2/3
Algunos conceptos fundamentales de probabilidad
465
En forma análoga, la probabilidad de tiempo despejado y predicción lluvia es:
La probabilidad de que el barómetro pronostique lluvia será entonces (probabilidad total):
Si en efecto, ocurre que el barómetro predice lluvia, entonces la probabilidad aposterion de que llueva es:
14. Por medio de la Regla de Bayes se halla el siguiente árbol aposteriori:
Tabla de Ia distriboci6n binomiaí a-ulads;
2
6 6 , n, p ) = L ( : ) p x ( l
==O
-P ) " - ~
==o
NOTA:Como algunos valores son demasiados cercanos a 1,se han puesto en notación científica abreviada usando la probabilidad complementaria. Por ejemplo, parap = .05, n = 4, r =3, aparece ~6.2500-6,lo cual significa 1 - 6.2500 x lo4= 1 - .O000062500 = .99999375. Este tipo de situaciones se aprecian hacia el final de valores grandes de n, y valores pequeños d e p (a mano izquierda). Por otra parte, a mano derecha hay algunos valores demasiado próximos a cero, los cuales también se han puesto en notación científica abreviada; por ejemplo, 2.3542E-8 significa 2.3542 x 104 = .000000023542.
A
Tabla de la distribución binomind acumulada (continuación)
a! 00
Para cada elección de n, r y p , la tabla proporciona el valor de 2 6 ( z , n, p ) = 2 ( : ) p X ( l x=O
==O
Tabla de la distribución binomind acumulada (continuación)
Para cada elecci6n de n, r y p , la tabla proporciona el Mlor de
2 x=O
b k , n, p ) = ~ ( : ) ~ ' ( p)'-' l ==O
' C C
-
!
:
____i__.-.__
Tabla de la distribución binominal acumulada (continuación) Para cada elecci6n de n , r yp, la tabla proporciona el valor de 2 6 0 1 , n, p ) = ==O
,-n
I
.
nnnr
2(:)px(i p)"-'
x=O
P
Tabla de la distribución binominai acumulada (continuación)
Para cada elección de n, r y p , la tabla proporciona el valor de
2
6 ( z , n, p ) = z(:)px(l - p)"-*
*=O
*=O
i
-
- 14
~2.6978-14 6.3994-10 2 1 10-l6 ~3.3389-11 15 ' 2 1- 1W16 ~1.7290-;2 16 1 i ~7.3497-14 -L1_7 2 1 18 L 1 - 10-l6 2 1- 1W16 2 1 - lWl6 19 2 1- lo-" 20 2 1- lW" 2 1 - 1WI6 21 2 1- 1V16 t 1 1W16
1 /
-
--.-
~1.4695-7 ~1.4336-8 ~1.1726-9 ~7.9394-11 ~4.3723-12
6.6643-6 ~9.1382-7 -~1.0516-7 c1.0027-8 c7.7810-10
.9998883 .9990165 - .9%702 -2.0221-5 --,9997736 9991405 ~3.0777-6 C4.3871-5 ,9998072 ~3.8855-7 c7.0618-6 ~3.59795 6.4792-6 ~3.9955-8 6.2694-7
~1.9151-13 ~7.1054-15 2 1- 1V16
4.7886-11 ~3.2611-9 ~9.6661-8 ~6.6339-7 c2.2476-12 c2.0323-10 ~7.7024-9 c6.1414-8 .~7.4385-14 ~9.0833-12 ~4,4050-10 ~4.0824-9
,9783419 .9924902
. -
. -- ..
.8462719 .9242052 ,9680427 .9886721 . .9966946 . , .9992281 ,9998614 c1.7941-5
--.
.5109198 .6720777 -
,1527816 ,2749630
p p p p
'
---
,9977959 .9994604
.S98919 61.7250-5 cZ.1080-6 ~1.8521-7
-
'
,8080548 .9040385 ,9600291 ,9865509 .&64966 --
-
,9993382
,
.O000521 -.O126211 ---~ ,0361750
,4353260 - ,08917131 .6114109 ,1889289 .TI1916 .3441076 ,5401227 .m89248 ,9576025 ,7361378 ,8854826 ,9881259
.0003213,0016841 -,0074561 .O276583 ,0850749 ,2142622.4357263
--
$719 6'
.m312
,3905236
,93047
1884 -
.04t .111
3.4574E-07
8.4698E-18 3.2220E-16
5549
,221
2.7674EO6
9.7340815 --
,
-- ' 111 68765-10
-
~
C9.8467-5 .9984599 ,9557535 .9082073 - ,9892657 1-~1.6890-5 L z s 1 0 .9966296 ,9584863 .9825303 c2.4936-6 ~7.6297-5 .Y340060 . .9990842 ,9982216 1 3 c1.3565 ,9997855 ,9943999 ~3.42284 ~2.0639-6 ~4.3079-5 ,9995465 ,9983504 6.1471-9 -.u~2.6690-7 ~7.3635-6 ~9.8624-5 .S95849 .C2.4337-10 ~2.9055-8 ~1.06086 ~1,8104-5 c8.8265-5 ~1.5626-11 c2.6280-9 ~1.2710-7 c2.7674-6 ~1.5646-5 c8.1857-13- -~1.9393-10 ~1.2435-8 ~3,4574-7 c2.2687-6 d.4639-14 c1.1375-11%.6769-~0 2 1- 1W16 ' t 1- lo-" C2.6207-7 2 1 10-16 > 1 - 1W16 2 1 ~5.0882-13 c5 7621-11 C2.6191-9 ~2.3193-8 c 1 . 4 8 4 ~ 2 . 4 6 4 - 1 ~1.434210 ~1.4765-9 21- O 21 Zi 1- lo-" lWk6 2 21 1-.1.10-16 2 1- 1WI6 4.6613-14 c5.0296-12 C6.0191-11 2 1 - 1V16 2 1- lW16 t 1 - lW16 2 1 - 1 c 2 1 - 1WI6 , ~8.7153-14 ~1.1787-12 1.0000000 1.0000000 1.0000000 1,0000000 1.0000000 1.0000000 1.0000000
~1.4839-6 12 ~3.5912-11 ~1.6208-7 13 c1.6099-12 ~1.5212-8 1 4 6,2506-14 c1.223%9 15 2 l - 1WI6 c8.4044-11 16 2 1- 10-l6 ~4.8946-12 ----, 17 2 1- 1WL6 c2.3881-13 18 t 1 10-l6 &.881&15 19 2 1 - 1WI6 . 2 1 1WI6 ,
-
,
,
-
,
-
y-' 'c3.43904 20 21
23 22 24 25
-
-
-
~
m
,732222.8462322 .9221989 9656085 ,9868309 ,9956736 .9987946 --
--
,9997193
6.35-90355--
,0778011 .1537678 .2677178 4142250
-,
.5000000 .6549810 7878219 ---
e -
,8852385 ,9461239 -.
,5753830 ,7264685
,9783574 - .M64483 ,9926834 ,9264347
1
~
.O059940 7.6297E-O5 ,0174697 3.6905E-04 .O442465 0015401 O978000 t - 4 9 .1894360 .O173319 ' ,3230719 ,0467742 .lo91228 .4881515 .2199647 ,6593451 ,8065116 ,3833106 _ .
'
.E613 .9706378 ~8.1646.6 '-9995447 1 &o5292 .9095281 6.5431-7 ~7.8261-5 ,997632%?5-c8.0333-8 c 9 . 7 1 5 ' ~ .99t34290 ~4.3347-9 ~7.7486-7 -.- -. .. ~1.1259-10 2.9M2-R -- 2.8430-6-.- --.999865Y_1.0000000 l.(M0M0 1.0000000 1.0000000 .
/
--
-
1.5212E-08 1.6208E-07 1.4839E-06 ,li1681E?5 7,8982805 ,0004575 -,0022613 ,0094764 -+--
,0333999 _.,5793257 .0979936: .76-0? -.236401(6 f ~ ~ { $ .972903 ,7287941 ,9962221 .-- ,9282102- q 1.0000000 q - -- - .1.0000000 .-
r
Tabla de la distribuci6o acumulada de Poisson: x 9 ( x , P))!=
p= x!
Para valores de probabilidad muy cercanos a 1, ésta aparece en términos de la probabilidad complementaria. Por ejemplo, para el caso de r = 3, p = 0.1, la probabilidad es 1- 3.8468 x lo4 = 1- 0.0000038468= 0.9999961532.
r
Tabla de la diniibuci6n nauouiada de Poisson (catinuucidn): z 9 ' ( x 9 P) =
z
e-'*pX x!
Áreas bajo la curva normal estándar a seis decimales
Los dos dígitos d e la primera fila son los centésimos d e cada valor d e z.
486 Tabla de la distribución nomai estándar inversa
,
PSPSO'E
1
66083'1
1
OF09P.Z
/
ZLZOE'Z
188Li.Z
1
W9LO.Z
1
808TL.Z
1
1
Z8SOI.E
L906P.Z
1
P18ZE'Z
1
6600Z'Z
1
P1960.Z
j 1
£6886.1
1
1EZI6.1
1
1OPP8'1
/
6ZZ8L.1
1
TI
99900.2
1
EP8Z6.1
1
íf848.1
1
8846L.1
1
TI
Percentiles importantes de la distribución t de Student con v grados de libertad
El último renglón (m grados de libertad) corresponde a la distribución normal estándar. Para percentiles simétricos a la izquierda del origen se usan los mismos valores pero con signo negativo; por ejemplo: to,,, = -t,,,,.
C
v
0.995 10.990
1 63.656 131.821
2 9.9250 16.9645 3 5.8408 4.5407 4 4.6041 3.7469 5 4.0321 6 3.7074 7 3.4995 8 3.3554
3.3649
/ 3.1427
1 2.9379 1 2.8965 1 2.8214 / 2.7638
9 3.2498 10 3.1693 11 3.1058 12.7181 12 .3.0545 12.6810
/
13 3.0123 14 12.9768
1
/ 2.6503
1 2.6245 1
15 2.9467 2.6025 16 2.9208 12.5835 17 2.8982
[ 2.5669
--18 2.8784&24 19 2.8609 ! 2.5395
0.985 10.980 15.895 5.6428 14.8487 3.8961 13.4819 3.2976 12.9985 ...---3.0029 j2.7565 2.8289 12.6122 2.7146 1 2.5168 2.6338 2.4490 . 2.5738 2.3984 21.205
1
0.975 12.706
0.970
0.965
10.579
4.3027
3.8964
3.1824
2.9505 2.6008
9.0579 3.5782 2.7626
2.7765 2.5706 2.4469
1 2.3646
2.3060
2.4216 2.3133 22.409 2.1892
1 2.0042
/ 1.9280
2.0554 2.0283 2.0067
1.9481
2.0600
2.4149
2.1448
2.0462
2.1315 2.1199
2.0343 2.0240
1 1.9509 1 1.9417
2.1098
2.0150 2.0071
1.9335 1.9264
2.0000
2.1009
2.3457
2.2047 2.1967
2.0930 2.0860
1.9937
,
1.9880 -
'
1.9092
20 2.8453 /2.5280
2.3362 2.3278
22 2.8188 12.5083
2.3202 12.1829
2.0739
1.9829
1 2.4999
2.3132 12.1770
2.0687 2.0639
1.9783 1.9740
1.9045 1.9003 1.8965
2.1666
2.0595
1.9701
1.8929
2.1620
2.0555 2.0518 2.0484
1.9665
1.8897 1.8867
23 2.8073 24 2.7970
/ 2.4922
2.3069
25 2.7874 12.4851 12.3011 26 2.7787 12.4786 2.2958 27 2.7707 2.4727 2.2909
1
28 2.7633 29 2.7564
/ 2.4671
2.2864
1 2.1715 / 2.1578
/ 2.1539
2.4620
2.2822
1 2.1503
2.4573
2.2783
2.1470
'
1.9632 1.9601
1.8989
1 1.9617
1.9200 1.9143
/ 1.8992
'
1.8768 1.8588
1.9284 1.9123 ,1.8440
1.9889 1.9742
21 2.8314 12.5176
' 2 1894 2.07% +-'
1.4149
2.0902
2.0764
/ 2.2137
1.4398
1.7702 1.7402
1.8946
2.1788
2.3562
1.8117
1.8297 1.7973
j 1.9662
2.1604
/ 2.2238
1.5332 1.4759
/ 2.0192
2.4358 12.2816
/ 2.2354
1.8727
2.1043
2.4607 12.3027
j 2.2485
2.0978
2.0475
2.0460 1.9727
1,8875 1.8777 1.8693 1.8619 1.8553 1.8495 1.8443
1.8123
1 1.8046 / 1.7864 1 1.7816
,
2.1562 1.9712
1.7729
1.7176 1.6998
1.3722
1.7959 1.7385 1.7823 11.7259
1.6856 1.6739
1.3634 1.3562
1.7709
1.6641
1.3502
1.7613
1.6558
1.3450
1 1.6921
1.6487 1.6425
1.3406
1.7341 1.7291
1.6812
1.6370 1.6322
1.7247
/ 1.6725
/ 1.6863
1.6766 l
1.6280 1.6242
'
1.3968 1.3830
1.7538
1.7459 1.7396
1 1.7978
1 1.7918
1.8595 1.8331 1.8125
i 1.7154 / 1.7064 1.7531 / 1.6988
1.8317
i 1.8213
1.3368 1.3334 1.3304 1.3277 .
I
1.3253
1
1
1.7207
1.6176
j
1.7171 11.6655 1.7139 1.6624 1.7109 1.6596
1.3232 1.3212
1 1.7081
1.6148 1.6122
1.3191 1.3178
'
1.6571
1.6098
1.3163
11
1.8219 /1.7610 '1.7056
1.6547
1.6076--
1.3150
t1
1.7033 1.7011
1.6526
1.6056
1.6506
1.6037
1.1 1.:
1.8397 1.7773 1.8354 ,1.7734
,
1.6377
2.3534 2.1318
2.1365
2.1504 2.0961
2.2494
2.4708 2.2261
2.2011
2.1202
2.3970 S.3815 2.3681
2.3329 2.1910
2.0150 11.9405 1.9432 1.8744
2.2281 2.2010
1 2.2638
2.6054
2.4559 2.2974
2.2622
1
2.5275 2.3593 2.4907 12.3281
0.960 10.955 0.950'0.945 0.940 0.900 7.9158 7.0264 6,3137 5.7297 5.2422 3.0777 3.3198 3.1040 2.9200 2.7604 2.6202 1.8856
1.8316 1.8!81 1.8248
1
1.7699 1.7667 1.7637
1 1.6688 -
1.6207
1
1
1
I
-*
1.8839 1.8813
1.8191 1.8166
/, 1.7585 i 1.7561
'
i i 30 2.7500
2.0452 2.0423
1.9573 1.9546 ,1.8789 .
1.8142
1.8120
1.7540
1.6991
1.6487
1.6020
1.7520
1.6973 11.6470
1.6004
l.! 1.3104 .
Distribución ji-cuadrada wn v grados de libertad: (Continuacion.)
Percentiles X:
de la distribución ji-cuadrada con v grados de libertad
Los tres últimos valores del primer renglón están en notación abreviada. Por ejemplo, si v = 1, entonces x:,,, = 3.9271E5 significa 3.9271 x = 0.000039271.
Percentiles X:
v
de la distribución ji-cuadrada con v grados de libertad (Continuacion.)
2
x o 995
X: m
~0.975
xg 9 9
X: m
X:
--
~0.01
~0.025
10
----
-
--
--
--
~0005
--
------v.-
---m-
--e
-10.982330
30 40 50 60 70 80 90 100 120 150 200 500 600 700 800
53.671868 66.766047 79.489839 91.951806 104.21477 116.32093 128.29868 140.16971 163.64848 198.35987 255.26380 585.20597 692.98094 800.13079 906.78634
50.892181 63.690771 76.153802 88.379430 100.42505 112.32879 124.11620 135.80689 158.95003 193.20750 249.44517 576.49314 683.51546 789.97352 895.98408
46.979218 59.341679 71.420194 83.297706 95.023149 106.62854 118.13591 129.56125 152.21133 185.80037 241.05784 563.85137 669.76903 775.21048 880.27534
43,772954 55.758487 67.504805 79.081954 90.531262 101.87947 113.14523 124.34210 146.56731 179.58061 233.93422 553.12686 658.09357 762.66072 866.91130
40.256017 20.599245 51.805044 29.050516 63.167113, 37.688637 46.458885 74.396999 85.527036 55.328945 64.277842 96.578196 107.56501 73.291079 118.49800 82.358127 140.23256 100.62363 172.58118 128.27504 226.02104 174.83527 540.93029 459.92609 644.80042 556.05603 748.35907 652.49732, 851.67119 749.18520
18.492667 26.509296 34.764236
60.391459 6G26018 77.929442 95.704619 122.69177 168.27855 449.14671 544.18009 639.61306 735.36239
-
9.54249447426806
16.790756 24.433058 32.357385 40.481707
14.953464 22,164201 29.706725 37.484796 45.441700
57.153152 65.646592 74.221882 91.572601 117.98457 162.72801 479.93601 534.01854 628.57702 723.51250
53.539983 61.754019 70.064995 86.923311 112.66757 156.43215 429.38739 522.36536 615.90736 709.89695
,
13.786682 20.706577 27.990825 35.534397 43.275305 51.17193 59.196327 67.327533 83.851714 103.14232 152.24084 422.30340 514.52854 607.37932 700.72547
/&@!-&>-/ 4
n
1 %
,
,"
:@, &M;-#- 2- +' .*x*e"H
,&
4 nd*
-
4
,-3'
"?1
-6'
-.
'
+-
-
-34
#
w
M'' 1
ii
Dudas típicas Y pregunt on ta -
= .
1. Pregunta de Eduardo Ríos, de Chihuahua
Doctor Velasco, tengo dos preguntas respecto al material del segundo capítulo: 1. No entiendo por qué se llama error a los conceptos de:
a ) Error absoluto medio 6) Error cuadrático medio c) Error típico de la media en una muestra de tamaño n. Acaso error = ajuste de las desviaciones estándar? ¿Es quizás un índice de confiabilidad? 2. Además, en el caso de los incisos a y b por qué se introduce el concepto de
constante a si estamos suponiendo que la desviación es la diferencia entre un valor x d e la población y la media poblacional. ¿La media poblacional puede ser constante? Si la respuesta es sí, ¿en qué casos se cumple esta aseveración? Respuesta: La palabra e w también se usa como sinónimo de desviación (de algo). Incluso en algunos países de Europa (como en Rusia), a la desviación típica la llaman error cuadrático medio. El error absoluto medio (de algo) es el promedio de los valores absolutos d e las desviaciones (de ese algo, que puede ser cualquier constante a, o la moda, la mediana o la media). En particular, el error absoluto medio de la media se llama desuiacidn media. Por otra parte, el término error cuadrhtico medio (o desviación cuadrática media) de algo es el promedio de los cuadrados de las desviaciones de ese algo (puede ser una constante cualquiera).En particular, si esa constante es la media, entonces en lugar de decir error cuadrático medio de la media se dice simplemente varianza, la cual es, además, el menor de todos los posibles errores cuadráticos medios. De ahí su importancia. Por último, el término error t@icode la media (también error estándar de la media o errorprobable de la media) es la desviación estándar de la distribución muestra1 de medias, para muestras de cierto tamaño específico con remplazo o sin él. La razón de
494
Apéndice C. Dudas típicas y preguntas con respuesta
llamar error a esta desviación estriba en que al multiplicarse por cierto valor tabulado, produce los verdaderos errores en la estimación de una media. Hay muchos tipos de "errores estándar" en estadística, y este es uno de ellos, pero hay también error estándar de una proporción, de un pronóstico, etc. Y es natural que una desviación de algo se llame "error". Por ejemplo, en el futbol, si un tiropenals, salió desiriado, entonces estarás de acuerdo en que fue un error de puntería del que lo tiró, ¿o no? Asimismo, el error cuadrático medio de cualquier constante a se llama también momento ordinuno de orden dos de esa constante, pero si esa constante es la media, entonces se llama momento central de orden dos (que también es sinónimo de varianza). Como puedes ver, la varianza tiene por lo menos cinco nombres distintos: 1.varianza, 2. variancia (en España), 3. dispersión (en Rusia), 4. momento central de segundo orden, y 5. error cuadrático medio de la media. 2. Pregunta de Alejandro Corona, de Mexicaii, Baja Caiifornia
Profesor Velasco: Tengo una duda sobre la respuesta del ejercicio 8, inciso c de la autoevaluación del capítulo 6. Ese ejercicio consiste en calcular el octavo decil de la distribución de probabilidad. De acuerdo con el resultado planteado en la sección de respuestas se encuentra que el último 20% de los datos se hallan a partir del punto 66.68 y hasta ahí estoy de acuerdo. Pero después dice: "por tanto, a partir de 66 tortas está 20% de los días de las mejores ventas". Sin embargo, si utilizamos el principio de continuidad en una función discreta vemos que el rango para 67 tortas corresponde a [66.5,67.5),por lo que el número encontrado de 66.68 está dentro de ese rango y no dentro de 66, que es [65.5, 66.5). Pienso que es a partir de 67 que está 20 % de los días de las mejores ventas. ¿Cuál es su opinión? Respuesta: Buena pregunta, pero no tienes razón. Mis alumnos me la plantean con frecuencia. Es una sutileza. La línea divisoria (frontera) real es el punto 66.68. Si tomas el 66, a mano derecha está todavía 20 % (y un pequeño 'pi16n" inevitable), pero si tomas 67, ya hay menos de 20 % a mano derecha. Veamos el siguiente caso. Si una persona va a la tienda y pide un kilogramo (exacto) de huevo, y si el que le pesa percibe que 14 huevos pesan 1.082 kg. @or ejemplo), pero que 13 huevos pesan 0.9910 kg, entonces ¿cuántos le debe dar? Si le da 13, despacha menos y no es justo. Por consiguiente, se ve obligado a dar 14 huevos, aunque tenga que darle un pequeñopilón a cuenta de él. ¿Comprendes? 3. Pregunta de Eduardo Lule, del Edo. de México
Hola, profesor Velasco: Respecto al capítulo 5, estoy frustrado: toda la tarde del 16 de septiembre estuve tratando de entender los problemas, pero no pude resolverlos. La parte teórica sí la entendí; por ejemplo, si es un problema de probabilidad con remplazo, uso la binomial; si no es con remplazo, uso la hipergeométrica; si es una serie de eventos con aparición secuenciada, como llamadas telefónicas, uso Poisson; cuando se quiere determinar en una secuencia la probabilidad de éxito en un determinado punto de la secuencia (al segundo, al tercero, al enésimo evento), uso la binomial negativa. En resumen, el concepto y uso de las distribuciones de probabilidad lo entendí. Lo que no entiendo, es cuando en la redacción del problema se dice "al menos", "por lo menos", "cuando más", "menos de" o "cuando mucho". ¿Cómo puedo transferir esto en términos matemáticos? Por otra parte, ¿por qué a veces se usa 1-DISTR.BINOM (ejercicio 1de autoevaluación)? ¿Cuándo usar O o 1 (éxito o fracaso)? ¿Cuándo aplico el 1o el O en Excel? ¿Dónde está el truco, qué parte del problema me indica cómo alimentar el Excel? Resprcesta: Muchos estudiantes tienen la misma duda respecto a esas frases, y en cada examen me lo preguntan. La frase "al menos" o "por lo menos" significa eso o más. Por ejemplo, si alguien te dice que tiene al menos 500 pesos, muy bien podría tener 501
Dudas típicas y preguntas con respuesta
495
pesos o quizás mil pesos o más, no sabemos cuánto, pero estamos seguros d e que no tiene menos de 500 pesos. En cambio, la frase "cuando mucho" significa todo lo contrario. Si alguien te dice que tiene cuando mucho 30 años de edad, muy bien podría tener 27, o quizás 15 años o induso menos, pero lo único que estamos seguros es que no tiene más de 30 aiios. Respecto a la otra pregunta. El 1 en Excel (o "verdadero") significa que te acumula los datos desde cero, es decir, significa "a lo mucho"; en cambio, el cero (o "falso") no te acumula, sino que te da la probabilidad para ese valor de la variable nada más. Por ejemplo, si se trata de lanzamientos de una moneda, al preguntar: ¿Cuál es la probabilidad de que en ocho lanzamientos se obtenga cuando mucho cinco águilas?, se escribe:
pero si se te pregunta: ¿Cuál es la probabilidad de obtener exactamente cinco águilas (ni más ni menos) en ocho volados?, debes escribir:
4. De Alejandro D'Urquiza Díaz, de Guadalajara,Jalisco Hola, doctor Velasco. Le envío atentamente un par de ligas que hallé, en las cuales se pueden encontrar más apoyos didácticos y notas de estadística:
Respuesta: Muchas gracias por tu correo y las ligas. Las vamos a poner en nuestro sitio de Internet sobre estadística que estamos construyendo. Seguro que serán d e utilidad para todos los alumnos estudiosos de la materia.
5. Mensaje de Aydée Bravo, de León, Guanajuato (le parece que la estadística es muy difícil) ¡¡Hola profesor!! Estoy muy preocupada. Tuve problemas en el examen para definir las variables y decidir cuál era el mejor procedimiento, y eso lo noté poco después de estar haciendo la tarea. Estoy llevando a la par de esta materia otra llamada Sistemas de Control de Procesos, en la cual ya me siento totalmente perdida. Ambas materias me gustan. Nunca he estado peleada con la estadística, sino que, por el contrario, siempre me ha gustado (eso no quiere decir que le entienda a la primera) y realmente me interesa, sólo que en la otra materia los temas están bastantes técnicos y para mi perfil los siento bastante complejos. Hoy me llevé una tremenda desilusión con la calificación de estadística, pues pensé que obtendría un mejor resultado, pero no ocurrió así. Como ya le comenté, tengo problemas en definir bien las variables para resolver los problemas. Además, me hago bolas con tantas fórmulasy me tardo mucho, y esto me pasa en las dos materias. No quiero dar de baja ninguna materia, pero en estadística estoy sola y en la otra parezco "frijol en olla"; todos los demás son Ingenieros y más o menos ahí la llevan, aunque también les resulta pesada. ¿Podría darme algún tip para no tener las mismas dificultades al solucionar un problema? Ya le pedí al otro profesor algún tipo de ayuda por el estilo. No quiero que me den respuestas, ni tampoco llevármela como si fueran recetas de cocina, quiero saber cómo hacerlo, pero se me dificulta. El otro profesor me comentó que así era el contenido y eso no me ayuda en nada, por lo que quiero ver si usted me puede aconsejar algo. De verdad estoy preocupada, no quiero dar de baja esta materia. ¿O me recomienda que así lo haga?
496
ApCndice C. Dudas típicas y preguntas con respuesta
Respuesta: Comprendo cómo se ha de sentir. Casi no conozco a nadie que pueda jactarse de que la primera vez que cursó estadística y probabilidad entendió todo con facilidad. Yo mismo pasé por esa situación hace muchísimos años, cuando tenía 19 años (iya llovió!). Mi primer curso de estadística y probabilidad (era optativo) lo estudié en la Facultad de Ciencias de la UNAM con el doctor Ariel Tejera (excelente profesor), y nuestro texto era el libro Modern Probabiliy Theoy a n d itsApp1ication.s de Emanuel Parzen, un libro demasiado avanzado y mucho muy matemático para un primer curso de la materia. A decir verdad, ni yo ni mis compañeros (entre los cuales creo que se hallaban nada menos que Julieta Fierro, famosa astr6noma ahora, y Julio Rubio, actual Subsecretario de Educación Superior de la SEP y antiguo rector de la UAM Iztapalapa, y otros "cerebritos") entendíamos casi nada. Tuve que aprenderme todo de memoria, porque me sentía, como se dice coloquialmente, "fuera de onda". Pensé darme de baja, pero me alentó saber que mis compañeros tampoco entendían absolutamente nada. Eso era algo muy común durante los primeros semestres en la Facultad de Ciencias en aquella época de oro de la UNAM. Los profesores eran estelares (iGraef, Barajas, Fregoso, Lluis, César Rincón, etc.!), pero tenían quizás el defecto de olvidar a veces que sus alumnos no eran colegas investigadores con doctorado. Al final logré pasar la materia (con 7 u 8,no recuerdo), pero casi no entendí nada. Sólo algún tiempo después,y estudiandoen libros por mi cuenta durante los fines de semana y en vacaciones, logré-empezara pescar el hilo y aentender la lógica y los conceptos detrás de la estadística matemática y la teoría de las probabilidades. Sólo entonces "me cayó el veinte", como se dice coloquialmente,y hastacomprendí que era algo muy bonito, fácil y útil. Ahora se me hace absurdo que haya gente que no comprenda esas cosas tan fáciles (aunque creo ser más paciente con mis alumnos de lo que tal vez aquellos maestros fueron conmigo). Le comento lo anterior porque me parece que, en todas las facetas de la vida, uno aprende por aproximaciones (creo que acabo de usar una frase de Serge Lang). No hay que darse por vencido a la primera. Fíjese en los bebés que están aprendiendo a caminar: cómo se caen y se golpean, vuelven a intentarlo y se vuelven a golpear, y sólo después de muchos intentos fallidos, un buen día se sueltan a andar solos y se les hace fácil, útil y agradable. Así pasa con la estadística y con todo: aprender a manejar auto, aprender a nadar, etc.; todo es difícil al principio, pero no hay que darse por vencido si uno no puede lograrlo en el primer intento. Le recomiendo estudiar algún texto muy elemental para empezar. Por ejemplo, consígase el libroJzlst the Essentials of Elementary Statistics de Johnson, o el libro Business Statistics: A First Course de D. M. Levine, T. C. Krehbiel y Mark L. Berenson. Son libros muy fáciles de entender y muy elementales, ideales para comenzar, como se dice, "desde cero". Mi consejo es que no se dé de baja. Siga adelante y verá que tarde o temprano todo se empezará a ver claro y lógico.
6. Pregunta de JosC Luis Gálvez, de Honduras Profesor Gabriel Velasco: No he podido hallar cómo se podría resolver el siguiente problema que aparece en un libro escrito por usted y por E! Wisniewski (Problemrio de probabilidad, ejercicio 1431): "En una caseta de cobro de la autopista Querétaro-Celaya, los automóviles llegan a un ritmo promedio de 2.4 autos por minuto (los camiones pasan por otra caseta). Cada auto paga una cuota de $62.50. Determine la probabilidad de que, a partir de un momento dado, el encargado de esa caseta logre recolectar 1000 pesos en menos de 5 minutos." Al final del libro aparece la respuesta: 0.1556, pero eso de nada me sirve para saber cómo atacar este problema. Respuesta: El problema se resuelve de la siguiente manera. Es distribución de Erlang, y el parámetro de escala es larnbda = 2.4 (la unidad de tiempo elegida es el minuto).
Dudas típicas y preguntas con respuesta
497
Para recolectar mil pesos se requiere 1000/62.50 = 16 autos. Por tanto, el parámetro de forma es r = 16. Luego, se trata de una variable aleatoria X con distribución de Erlang, cuyos parámetros son larnbda = 2.4 y r = 16, y se pide calcular P(X < 51, lo cual se realiza con la fórmula: P(X < 5) = 1- Poisson acumulada
(desde k = O hasta k = 15) de 2.4 x 5 = 12. Entonces, con Excel, queda:
que es la respuesta correcta. 7. Otra pregunta de Alejandro Corona, de Mexicali, Baja California
Doctor Velasco: Respecto a los conceptos de estadística descriptiva, no me quedó claro el manejo del rango semiintercuartil. En el ejemplo visto en clase, este rango fue de 6.54687. Mi pregunta es: ¿Cómo se lee este número, es decir, qué me dice específieamente? Algo que tampoco entiendo es por qué se divide entre dos el resultado de Q,Q, porque si quiero sea una aproximación rápida al punto medio, pero entonces ya no debería llamarse rango, visto desde el punto de vista de que ya no es la definición de un intervalo sino de un punto. Otra pregunta es sobre el error típico de la media. Por definición, sabemos que este valor es igual a la desviación estándar poblacional entre la raíz cuadrada del valor del tamaño de la muestra. Pero en Excel el resultado que arroja al utilizar la herramienta de Análisis de datos, asume que este valor es igual a la desviación estándar muestral dividida entre la raíz cuadrada del valor del tamaño de la muestra. ¿Es esto válido porque asumimos que la desviación estándar muestral es una buena aproximación a lo que debe ser la desviación estándar poblacional? RRFpuesta: Aquellas medidas de dispersión con las mismas unidades de la variable aleatoria (todas excepto la varianza) tienen casi siempre alguna interpretación práctica. Por ejemplo, la desviación estándar contiene en la mayoría de las veces cerca de 70 % de los datos en un entorno alrededor de la media. El rango semiintercuartil (o desviación cuartíiica) contiene cerca de 75 % de los datos alrededor de la media. Se dice "cerca" o "casi" porque no todas las distribuciones son iguales ni igualmente sesgadas, pero el dato es más o menos válido en casi todos los casos, de ahí su utilidad práctica. Lo que dices del Excel se debe a que en la mayoría de los casos uno trabaja con datos extraídos de una muestra. S610 en ejemplos teóricos muy forzados o irreales se trabaja con la población y con la desviación típica poblacional. La mayoría de los trabajos en estadística se realizan con muestras. 8. Pregunta de Luz Dorely Almaguer, de Tampico, Tamaulipas
Me interesa aprender a usar el s o h a r e Minitab. ¿Hay libros o manuales sobre éste? ¿Podría recomendarme uno? En la empresa donde hago prácticas lo tienen, y he entrado, pero varios cálculos aún no me salen.. . tal vez con un poco de tiempo.. . ¿Qué otro tipo de software estadístico me recomienda? Respuesta: Casi en cualquier biblioteca hay manuales para aprender a usar el Minitab, que es el software más popular para estadística. Con un manual y con la práctica cotidiana, lograrás dominarlo pronto. No es difícil. Otros programas muy populares son el SPSS (Statistical Packagefor the Social Sciences), el Eviews (Econometric Views) y los complementos comerciales (add-ins) para Excel, como el PHStat. Sin embargo, para un primer curso de estadística, el Excel de Microsoft Office es más que suficiente.
9. Pregunta de Luis Benavides, del Edo. de México Tengo la siguiente duda: ¿Qué representan en si los valores que se obtienen al calcular el error cuadrático medio y el error típico de la media, o cómo se interpretarían en un ejemplo práctico? Respuesta: El error cuadrático medio representa el promedio de los cuadrados de las desviaciones de cada valor con respecto a un dato específico. Ia razón de usar los cuadrados de las desviaciones y no las desviaciones solas, estriba en que al elevar al cuadrado se evita que desviaciones negativas se neutralicen con positivas. El dato que tiene el menor error cuadrático medio es precisamente la media, y el valor de ese error cuadrático medio mínimo es precisamente la varianza. El error estándar de la media (o de una proporción) juega un papel crucial al estimar intervalos de confianza o elaborar pruebas de hipótesis. No olvides que el error estándar de la media es la desviación estándar de la distribución muestra1 de medias. La precisión para estimar la media de una población aumenta cuando aumenta el tamaño de la muestra (n), pero no aumenta en la misma proporción, sino en proporción a la raíz cuadrada de n. En este sentido, la desviación estándar de una variable aleatona mide elgrado de concentración de la variable con respecto a su media. Si deseas duplicar la precisión de una estimación, debes tomar una muestra cuatro veces más grande. En todo ello, la clave es el error estándar de la media. 10. Pregunta de Víctor Rodríguez, de Guanajuato
Al realizar los ejercicios, me surgió la siguiente cuestión: ¿Qué pasa si los datos analizados no son exclusivamente enteros sino decimales?¿Qué pasa con la aproximación en este caso? Respuesta Si los datos agmpados no fuesen enteros sino decimales, la corrección por continuidad se aplicaría en la misma forma, a efecto de usar una escala continua. Por ejemplo:
11. Otra de Alejandro D'Urquiza Díaz, de G d a j a r a , Jaiisco
Doctor Gabriel Velasco: Dobroe U m !Además de saludarle, quiero comentarle que, en efecto, estoy de acuerdo con lo que usted comentó durante una trasmisión satelital en cuanto al rigor matemático de los libros rusos, no s610 en estadística, sino en otros campos de la ciencia.Tengo la fortuna de contar, entre mi colección de libros de mi profesión, con algunos libros escritos y publicados en la antigua URSS, los cuales me han sido muy útiles y valiosos en el desarrollo y estudio de algunos temas especializados en mis estudios profesionales. Uno de estos libros es el Curso deftsco-quimica (Kurs FisicheskoiJimii) del doctor Gueraismov (entre otros). El tratamiento matemático de los temas de fisicoquímica excede en rigor y detalle a los libros escritos en Occidente, lo cual resulta muy útil en la comprensión de varios temas de esta ciencia. Asimismo, poseo un libro de Ecuaciones
Dudas típicas y preguntas con respuesta
499
integrales del doctor Kiseliov, el cual aproveché muy bien como apoyo en mis cursos de Cálculo Vectorial y Ecuaciones Diferenciales Ordinarias durante la carrera. Por otra parte, durante el desarrollo de mis estudios de tesis de licenciatura estuve recurriendo mucho a un libro de Hidráulica del doctor Bakkmetev, pues a pesar de ser un libro viejo, contenía ecuaciones de gran utilidad en el cálculo de curvas d e energía potencial de caídas de agua en presas; jamás encontré tales ecuaciones en los libros occidentales. En lo particular, disfruto mucho de las materias en que puedo estudiar con un buen nivel de rigor matemático, ya que uno de mis principales intereses profesionales es la modelación matemática de fenómenos ambientales (la verdad es que me resultan muy pesadas -incluso tediosas- las.materias en que no hay ecuaciones o al menos fórmulas, pues me desespera mucho tratar una materia simplemente con puro "rollo''). Durante el verano anterior estuve muy contento al cursar la materia de Modelos de Calidad del Agua, y considero que dishutaré también la materia de Métodos Estadísticos. Por otra parte, ayer mencionó que los estadounidenses llaman chi a la letra griegaji (escrita en forma similar a una x). En efecto, la pronunciación correcta de dicha letra es j i (escrita en fonética castellana). No obstante, los alemanes para pronunciarji, según su fonética, la escriben chi (en alemán, leer chi se pronunciaría comojji -una jota larga-. Los alemanes influyeron mucho a la lengua inglesa, y pasaron la escritura deji como chi. No obstante, al separarse más y más la lengua alemana de la inglesa, también lo hizo su pronunciación. De hecho, la forma en que los ingleses y estadounidenses pronuncian chi es kai, según las "reglas" de fonética inglesa. En fin,sólo son dos comentarios "culturales" para iniciar el curso. Respuesta: Gracias por sus observaciones y lo felicito por compartir el gusto por las matemáticas y por la literatura matemática rusa. (Algunos de los libros que usted menciona son, como decía mi colega Nacho Gallardo: cañones d e alto calibre.) Bceuójorósheuo y dhzelaiu bac mnogo uspiéxou! 12. A question from Mary L. Wdliams, f'rom Oakland, Caifornia
Professor Gabriel Velasco: A question regarding confidence intervals for large samples. If 1 ask 200 randomly selected people how much money they spent on Internet purchases over the past week, and if 1 happen to find out that the sample mean for those 200 people is, say $50 dollars, can 1safely make the clairn that people spent an average of $50 dollars on Internet purchases last week? Answer: I'm afraid to te11 you that your claim is wrong. As a matter of fact, the population mean could sometimes be quite different from the sample mean. If we are dealing with a large population (as in your example), we can never know (even closely) what the population mean is. Just think what if one or two guys not polled in your sample happened to spend an unusually large sum (like a million bucks) on Internet purchases last week? Think what might have been of your figures (as regards the sample mean) had you included those people in your sample. But I'm not intent on meaning that the sample mean is useless. Not at all. You can use your data to construct a suitable confidence interval for the population mean, thereby drawing a useful (and statistically valid) conclusion. 13. A question from J. W. Herberger, from Linclon, Nebraska
Professor Velasco: My Spanish is rather poor, so 1 hope you don't mind my asking this question in English. How come mathematicians (or statisticians for that matter) have
500
Apéndice C. Dudas típicas y preguntas con respuesta
decided that a "large" sample starts with n > 30?Does that mean that we must take a sample of at least n = 30 before the Central Limit Theorem kicks in? If so, is there a proof of that assertion? A w m Oh, not at all! There's absolutely nothing scientific or mathematical in the number n = 30. It's just purely conventional. Some authors even pick out another figure, like n = 25, for instance. Appropriately enough though, the larger the value of n, the better the Central Lirnit Theorem will be kicking in, as you say. The figuren = 30 is thoroughly arbitrary, but it is practical. 14. Pregunta de 1. L. S., de Cuba
En un libro de probabilidad de Sheldon Ross (AFimt Course in Probability) aparece el siguiente ejercicio, el cual no se me ocurre cómo resolver. Al final del libro se proporpero de nada me sirve eso si ciona la respuesta numérica, que es 0.00106 = 1.06 x no sé cómo llegar a ese valor. ¿Podría ayudarme? El enunciado es el siguiente: "Dadas 20 personas, ¿cuál es la probabilidad de que de los 12 meses del año se registren exactamente 2 cumpleaños en 4 meses y 3 cumpleaños en otros 4 meses?" Respuesta: Usamos la fórmula de ocupación de r objetos en n celdillas, donde hay r, objetos en la celdilla 1, r2 objetos en la celdilla 2, . .. , hasta rn objetos en la celdilla n (llarnada ocupación de Maxwell-Boltzmunn), la cual es:
Por otra parte, los cuatro meses donde hay 2 cumpleaños pueden salir de maneras, y de los 8 meses restantes hay 4 en los que se celebran 3 cumpleaños, lo cual puede hacerse de
()
maneras. Tomando esto en cuenta, y ha-
ciendo n = 12, r = 20 en la fórmula de ocupación mencionada, la respuesta debe ser la siguiente:
15. Pregunta de JosCSaldafia, de Tampico, Tamauiipas
Doctor Velasco: En la empresa donde trabajo surgió un problema, y le pido que, por favor, me oriente cómo resolverlo; además, creo que es una contribución d e cómo aplicar la probabilidad y la estadística en la práctica. El problema es el siguiente: Enviamos 2000 productos a un cliente, de los cuales 10% era material sospechoso (que luego resultó ser defectuoso), por lo que nos lo devolvieron, pero faltaban 4 piezas, es decir, sólo nos regresaron 1996 piezas. Se requiere calcular la probabilidad de que entre las 4 piezas faitantes haya por lo menos una defectuosa. Respuesta: Tu pregunta es muy sencilla y es un típico ejemplo de cómo la distribución hipergeométrica tiende a la binomial. La probabilidad de por lo menos una pieza defectuosa es uno menos la probabilidad de ninguna defectuosa: 1 - h(0, 2000, 4,200). Con Excel obtienes:
Dudas típicas y preguntas con respuesta
50 1
que es la respuesta de tu pregunta. Puedes aproximar mediante la distribución binomial (io cual sería muy conveniente, por ejemplo, si sólo tuvieras a la mano calculadora, mas no computadora):
que es una excelente aproximación.
16.Otra pregunta de 1. L. S.,de Cuba De nuevo le pido atentamente su ayuda para otro problema del libro de Sheldon Ross (A Rrst Course in Probability). No tengo duda de que mi respuesta es la correcta y, sin em-o, no concuerda con la respuesta que trae el libro. Quisiera saber si soy yo o es el libro el que está mal. El enunciado del problema en inglés dice así: "Teams A and B play a series of games with the first team to win 3 games being declared the winner of the series. Suppose that team A independently wins each game with probabilityp. Find the conditional probability that team A wins: a ) the series given that it wins the first game; b) the first game given that it wins the series." El libro trae las siguientes respuestas, las cuales me parecen absurdas:
A mi modo de ver, estas respuestas son absurdas por el simple hecho de que p elevado a la cuarta o la quinta potencia implicaría cuatro o cinco victorias del equipo A, lo cual no puede ser, ya que la serie se termina cuando alguno de los equipos gana tres juegos. Según yo, la respuesta correcta del inciso a debe ser la siguiente:
Del mismo modo, para el inciso b obtuve un resultado muy distinto del que se da en el libro. Respueskt: Es un problema muy interesante (y muy antiguo). No es que la respuesta del libro esté equivocada, sino que el autor del libro considera una prolorgación imaginaria deljuego hasta que se cumplan cincojuegos d e la serie en cualquier caso, aun cuando uno de los equipos ya hubiese acumulado las tres victorias requeridas. ¿Por qué habría de considerarse una prolongación imaginaria del juego? La respuesta estriba e n que si por alguna causa la serie fuese interrumpida antes de que alguno de los equipos consiguiese las 3 victorias, el monto del premio debería repartirse adecuadamente tomando en cuenta esa prolongación imaginaria hasta que se completaran cinco rondas en cualquier caso. Se ha demostrado que esa sería la manera más justa de repanir el premio cuando la serie hubiese quedado inconclusa (ilo demostró Fermat!). Sin embargo, habría sido conveniente que Sheldon Ross mencionara esa prolongación imaginaria posible.
~udm típicas y preguntar con respuesta
503
Esta sería la respuesta correcta del inciso b, si no hubiese ningunapn>longaciónimaginaria de la serie. Sin embargo, si se supone que la serie continúa hasta que se completen las cinco rondas (aunque ya hubiese tres o más victorias de algún equipo), en ese caso (ficticio) la fórmula para la probabilidad de acumular n éxitos antes de que ocurran m fracasos, jugándose n + m -1 rondas, estaría dada no por la distribución de Pascal, sino por la binomial:
Así, las respuestas correctas de los dos incisos serían, respectivamente:
las cuales son las respuestas que vienen en el libro, según me dices en tu mensaje. (La notación de P con la flechita arriba la acabo de inventar, pero se sobreentiende su significado.) En resumen, tanto el autor del libro como tú están e n lo correcto, cada uno desde su respectivo punto de vista. 17. Pregunta de Eduardo Chew, de Mexicaii, Baja Caifornia
Estimado doctor Sotomayor: Le escribo para pedir una mayor explicación sobre-el desarrollo y los resultados de los problemas 7 y 8 del test de opción múltiple 6.1, pues aunque los resolvimos en equipo, no estamos muy conformes del resultado. Sobre todo, tuvimos problemas al acomodar las unidades de tiempo en el problema 7 y una polémica en la forma de la Erlang. Rcspmta A continuación transcribo las soluciones detalladas de las preguntas que tiene a bien plantear. Solucidn del problema 7: Los asaltos pueden considerarse como sucesos de Poisson independientes. Si se toma el año como unidad de tiempo, entonces la distribución del tiempo transcurrido hasta el próximo asalto del que será objeto un ciudadano es exponencial con parámetro h = 4.5 (según datos del problema; además no importa cuándo fue asaltado por última vez, de acuerdo con la propiedad de pérdida de memoria en la distribución exponencial). Por otra parte, la distribución del tiempo transcurrido hasta que los asaltantes completan su tercera captura consecutiva (y por tanto, reciben una nueva llamada de atención de la autoridad) es una distribución gama (o de Erlang) con parámetro de escala h = 4.5 y parámetro de forma r = 3. Por consiguiente, si T denota el tiempo (en años) entre una llamada de atención y la siguiente, se tiene que:
504
Apéndice C. Dudas típicas y preguntas con respuesta
Solucidn delproblema 8:Se sabe que en la distribución de Erlang (y en general en la distribución gama), la media y la moda están dadas, respectivamente, por:
r
C1=-; h
r-1
mo=h
De esta manera, el problema s e reduce al resolver el siguiente sistema d e ecuaciones:
Se obtiene fácilmente que r = 3, h = 1. Por cierto, un ejercicio casi idéntico lo resolví durante la sesión satelital correspondiente, pero tal vez usted no tuvo oportunidad de mirarla.
18.Pregunta de Gabriela Flores Méndez, de Ciudad Juára, Chihuahua Le enviamos en un attachent los procedimientos que realizamos para ver si, por favor, podría revisar nuestra solución del problema 10 del test de opción múltiple 5.1. No sabemos cómo se obtuvo el resultado de 0.8154, ya que a nosotros nos salió 0.4747 a través de la hipergeométrica. Respuesta: Con respecto a tu solución del ejercicio 10, tu error estriba en que supones que el viajero será arrestado sólo si se le encuentra exactamente un paquete con narcóticos (o sea que supones que si se le descubren dos o tres paquetes, no sería arrestado). No, eso es incorrecto. El viajero será arrestado si se le descubrepor lo menos un paquete con droga. Para resolverlo, calcula primero la probabilidad d e que no sea arrestado (es decir, que ninguno d e los tres paquetes examinados contenga droga). Al resultado que obtengas réstalo d e uno, y ésa será tu respuesta. Muchos estudiantes cometen el mismo error que tú, pero es más bien una cuestión d e semántica o de lógica. Por ejemplo, considera esta proposición: "Todas las nubes son blancas." ¿Cuál crees que sería la negación correcta d e esta afirmación: a ) "ninguna nube es blanca", 6) "por lo menos una nube no es blanca", o c) "exactamente una nube no es blanca". Piénsale.
19.Pregunta EhriraVillalvazo y otros estudiantes No supimos cómo resolver el ejercicio 5 del test de opción múltiple 7.1. ¿Nos podría indicar cómo se resuelve? Respuesta: En principio, recuerden que para la distribución de Erlang se demostró la siguiente fórmula (libro azul, p. 242):
Dudar típicas y preguntas con respuesta
505
Por otra parte, la media y la moda están dadas, respectivamente, por:
Por consiguiente, al sustituir, tendremos que y = 100; m. = 50. Ahora, con la fórmula mencionada se obtiene:
20. Adaración de Carlos Zea de C. Laguna,José Luis U v a de
Honduras, Alejandro Corona de Mexicaii, Amuo Farrera de Chiapas y muchos otros
Estimado Gabriel: Con referencia al segundo examen del curso de Métodos Estadísticos, pregunta numero dos del test general sobre intervalos de confianza y pruebas de hipótesis 10.3, le manifestamos nuestro desacuerdo con la calificación recibida, y pasamos a sustentar nuestra afirmación. Calculando mediante la fórmula del tamaño de muestra (caso de proporciones) se obtiene el valor de 96.036, el cual se aproxima al entero superior más próximo, o sea, 97, que es la respuesta (inciso c) del problema. La aproximación se tomó en forma similar en los siguientes casos, en los cuales sí se aceptó como válida la aproximación mencionada. Para confirmación, he resuelto el caso en forma iterativa (MS Excel), probando la respuesta planteada por el corrector del examen, en la cual indica que la respuesta acertada es 96. Probando dicho valor, no alcanza el valor de 95 % de confianza requerido, sino que sólo alcanza al valor de 94.9956%, lo cual no cumple con la especificación pedida en el problema. Por lo tanto, la respuesta correcta debe ser 97 y no 96 como indica su retroalimentación. Respuesta: Estimados Carlos, José Luis, Alejandro, Arturo (y todos los demás que señalaron lo mismo). Tienen razón, y les agradezco mucho su atento mensaje. Se les pondrá bien a todos los que pusieron cualquiera de los incisos b o c. 21. Pregunta de Francisco Torres G 6 m g de Quedtaro
Profesor: ¿Me puede ayudar con los planteamientos de los ejercicios 9 y 10 de los ejercicios de autoevaluación 7.1?No se me ocurre cómo plantearlos o resolverlos. Respuesta: En el ejercicio 9, como n es grande y p es pequeña, podemos muy bien usar la aproximación binomial 4 Poisson (con h = np). En este caso, se tiene h = np = 400 x 0.02 = 8. Ahora bien: a) Como 3 % de 400 es 12, se tiene:
Pero esta es sólo una aproximación. La respuesta más exacta se obtiene directamente con la distribución binomial:
6) Como 2 % de 400 es 8, se tiene en este caso:
506
Apindice C. Dudas típicas y preguntas con respuesta Si usamos la aproximación de Poisson, la respuesta será:
En este caso, la discrepancia entre ambos métodos fue mucho menor. También es posible usar la aproximación normal en ambos incisos, con lo cual se obtendrían respuestas aproximadas. Con el uso del Excel y de software estadístico, esas aproximaciones, que antes eran muy populares, empiezan a ser obsoletas e innecesarias. Para el ejercicio 10, tenemos: a) Respuesta exacta con computadora es:
Hace varios años (sin ayuda de computadoras) esto hubiese implicado una cantidad prohibitiva de trabajo, así que se habría resuelto por medio de la aproximación normal. En tal caso, la media es p = np = 200 x 0.46 = 92. La varianza es npq = 200 x 0.46 x 0.54 = 49.68. La desviación típica es, por tanto, 7.048404. Epificamos el punto x = 100.5 (mayoría usando corrección por continuidad) y se obtiene2 = 1.21.Ahora empleamos tablas (recuérdese que se supone que no hay computadora) y obtenemos:
6) La respuesta exacta (con computadora, usando Excel) es:
Si no se tiene computadora a la mano (o si no se permite usarla), entonces hay que emplear de nuevo la aproximación normal y las tablas, en cuyo caso se obtiene 0.0036. 22. Otra pregunta de 1. L. S., de Cuba
Tengo una duda sobre un tema de estadística pura. Digamos que se usa la notación siguiente para dos estimadores de la varianza poblacional oZcon muestras de tamaño n:
1 " i2=-x(x,-X): ,=*
1 s2=-
2
n-1 i=i
(x,- X)'
En el trabajo estadístico cotidiano, se escoge siempre el segundo, porque es un estimador insesgado de la varianza poblacional, mientras que el primero no lo es. Mis preguntas son: ¿Cuál de estos estimadores es más eficiente? ¿Cuál es exactamente la eficiencia (error cuadrático medio) del primero de estos dos estimadores? ¿Para qué valor constante k sería kC(x, - ;E)Zel más eficiente de todos los estimadores de la varianza poblacional?Como k no es igual a l/(n - l), ¿o sí?, ¿por qué se da preferencia al insesgo de un estimador sobre su eficiencia relativa? Respuesta: Si recordamos que para cualquier variable aleatoria Y se tiene E(Y z, = p2, + 02, (suponiendo, por supuesto, que existan tales esperanzas), podemos hacer Y = &!-
Dudas típicas y preguntas con respuesta
507
e
o2(donde es cualquier constante positiva), en cuyo caso se obtiene:
204 Ahora bien, si tomamos en cuenta que Var(s2) = -y que E(sZ) = o2@or n-1 ser un estimador insesgado), se sigue que:
Con esta expresión, podemos obtener no sólo los errores cuadráticos medios de tu pregunta, y compararlos, sino que además se puede hallar la derivada con respecto a 6 para descubrir cuál es el valor mínimo de esta función. Para el caso n-1 n -1 d e s =S', tenemos 5= -. Sustituyendo en la expresión i se obtiene:
,,
n
n
c
Por otra parte, derivando la expresión i con respecto a e igualando a cero, llegamos a:
y se halla entonces que la función i alcanza su valor mínimo para
n-1 . 5=-
n +l
Esto significa que para k = -resulta que kL(x, - Z)' es el más ejicitmn+l te de los estimadores de la varianza poblacional, porque es el que tiene el menor error cuadrático medio de todos. ¿Porqué se da preferencia al insesgo sobre la eficiencia al escoger un estimador de la varianza poblacional?El insesgo es muy importante, aunque la eficiencia de un estimador es también una cualidad importante. El estimador más eficientede todos es el estimador insesgado de varianza mínima, el cual se llama estimador 100 % eficiente. Hay un teorema famoso de Cramér-Rao que proporciona una cota inferior para la varianza de cualquier estimador insesgado. La razón que resulta de dividir la cota inferior de Cramér-Rao entre la verdadera varianza del estimador, es lo que se llama la eficiencia de dicho estimador. Por ejemplo, 1 = 2 veces si la eficiencia de un estimador es de 5096, entonces se requieren 0.5 más observaciones para que la estimación sea tan buena como sería con el estimador insesgado de varianza mínima (que es el más eficiente de todos).
23. Pregunta de Alejandro Corona, de Mexicaii, Baja Caiifornia Doctor Velasco: Me podría indicar cómo puedo resolver el ejercicio 1 del test de opción múltiple 7.2, ya que no se me ocurre cómo plantearlo para llegar a la respuesta. Solución: Toda distribución gama (o de Erlang) tiene una componente exponencia1 en el parámetro de escala h, además de un parámetro de forma r, así que en este caso se nos da información acerca de cómo obtener el parámetro h, toda vez que la varianza de la distribución exponencial es a2= -.1 Como se nos h2 dice que esto vale L,se deduce que entonces h = 6. Además, se nos propor36 ciona la información de que por cada 14 melodías que compone graba un CD nuevo, por lo que el tiempo transcurrido entre un CD que graba y el siguiente CD sigue una distribución gama, con parámetros r = 14, h = 6, y con el tiempo X medido en años. En consecuencia, sólo hay que calcular P(X< 2.5). Para resolver esto con Excel, debemos recordar que el Excel emplea otra nomenclatura para la distribución gama (lo cuai les mencioné durante una sesión satelital). El Excel, en lugar de r usa la letra a,y en lugar de h usa el parámetro P, 1 = h. Por tanto, para el Excel, aquí los parámetros de la distribución son tal que -
P
a = 14, p = L. La sintaxis con Excel (en español) es la siguiente: 6
Entonces, la respuesta del problema (con Excel) es:
lo cual da la respuesta correcta: 0.6368, que corresponde al inciso 6 .
24. Pregunta de Marilú Rodríguez, de Hidalgo, México Tengo una duda acerca de cómo resolver el ejercicio 12 del test de opción múltiple 8.1. Respuesta: El intervalo se calcula mediante la fórmula:
El valor crítico t, con a = 0.01 y v = 7 grados de libertad se halla con Excel:
o bien con tablas d e valores críticos t, para la distribución t de Student con v grados d e libertad:
Por tanto, el intervalo de confianza buscado es:
Esto da (redondeado a dos dígitos significativos):
lo cual concuerda con el inciso d.
25. Pregunta de Pavel Andrade Delgadillo, de Saltillo, Coahuila Profesor Velasco: Tengo 17 años y estoy cursando por primera vez la materia de probabilidad y estadística. Quisiera saber si usted puede orientarme en la solución del siguiente problema de probabilidad que me plantearon algunos amigos acá en Saltiiio: "Si se arreglan al azar las 28 fichas de dominó en forma de un rectángulo de 7 x 4,
¿cuál es la probabilidad de que por lo menos una de las cuatro fichas de las esquinas sea una mula?" Mis amigos y yo realizamos este experimento en la práctica y notamos que casi siempre aparece al menos una mula en las esquinas, pero ¿cómo calcular la probabilidad exacta? Respuesta: Cuando se arreglan las 28 fichas del dominó aleatoriamente en forma de rectángulo (o de cualquier otra manera aleatoria), la cuarta parte de ( - 7 )
son mulas, ¿cierto?, así que cualquier ficha (en especial una de las es-
7 =1 de ser una "mula" y de 21 3 de quinas) tiene una probabilidad de -28 4 28 4 no ser mula. La probabilidad de que ninguna de las cuatro esquinas tenga mula está dada por:
Esto se debe a la fórmula para la probabilidad de la intersección de varios eventos (regla multiplicativa):
5 10
Apéndice C. Dudas típicas y preguntas con respuesta
aunque también puedes llegar a este mismo número usando la fórmula para ensayos sin reposición (distribución hipergeométrica), con la cual obtendrías:
Por consiguiente, la probabilidad de quepor lo menos una de las fichas de las esquinas sea mula está dada por:
Es una probabilidad alta, por lo que ese fenómeno se va a observar con una frecuencia relativa superior a 70 % (más d e 7 de cada 10 veces en promedio), y no es raro que casi siempre lo hayas observado en la práctica. 26. Comentario de Roberto Aviia Antuna, del Estado de México Soy profesor d e la materia d e probabilidad y estadística en el Colegio de Ciencias y Humanidades de la UNAM (Universidad Nacional Autónoma d e México). Hojeando su libro Probabilidad y Estadistica para Ingeniería y Cierzcius, me llamó la atención el problema 23 de la página 47 y sobre todo la solución que usted propone al final del libro. Me parece que la solución está incompleta y quisiera abundar un poco al respecto, ya que es un problema al que casualmente hice referencia con mucho detalle en mi tesis de doctorado en matemática educativa, y no es tan sencillo como parece. Empecemos por el enunciado: Supongamos que en la prisión de AImoloya hay tres convictos incomunicados entre sí, que están sentenciados a purgar una condena de cadena perpetua. De pronto, el Juez anuncia que dos de ellos saldrán libres bajo fianza y sólo uno se quedará a cumplir su condena, pero no dice quién o quiénes serán. Sin embargo, el guardia o custodio lo sabe y sólo está autorizado a decirle a cualquierad e los tres que se lo solicite,el nombre de uno d e los otros dos que saldrá libre bajo fianza.Entonces, uno de los tres presos (cualquiera) puede razonar así: "Como dos de nosotros tres serán liberados, la probabilidad de que sea yo uno de los escogidos es de
-.L
3
Pero si le pregunto al guardia el nombre de uno de los otros
dos que saldrá libre, entonces podría excluir a él del razonamiento y s610 quedariamos dos convictos, uno de los cuales solamente saldrá libre. Por tanto, la 1 probabilidad de que sea yo se reduce a -." ¿No parece este argumento paradó2
jico? ¿Cómo puede ser que la ayuda del guardia (al darle información valiosa) disminuya la probabilidad de salir libre en vez de aumentarla? Explicar. La respuesta que usted plantea al final del libro es la siguiente:
Es un razonamiento engañoso. Enfoquémoslo desde este punto de vista: al momento en que anuncien oficialmente los nombres de los dos que saldrán libres, por fuerza uno
será leído primero y el otro después..Así, desde esta óptica tiene que haber un "primero" y un "segundo" en ser liberados. Si les ponemos a los convictos las etiquetas 1,2y 3,entonces cualquiera de ellos (por ejemplo, el número 2) sabe a prori que tiene 2/3 de probabilidades de ser el primero o el segundo en ser elegido, pero sólo 1:3 para ser el primero en ser elegido. Antes de cualquier evidencia empírica, el seiior 2 sabe que tiene una probabilidad de 1/3 de ser el primer elegido. Cuando el guardia le dice el nombre de otro de los elegidos (antes de que se elija oficialmente el primero), e9 probabilidad aumenta de 1/3a l/2,y esto pasa antes de que ocurra la primera elección de uno de ellos. De hecho, el guardia ni siquiera tiene que decirle nada a él, porque es ebrio que enue los otros dos, por fuerza uno tendrá que salir, sea quien sea. A mi modo de ver, la respuesta que usted propone no aclara en forrm la aparente paradoja. El asunto es un poco más complicado. Sugiero daaarpcu--LB C a los tres convictos y suponer queA es quien realiza el razonamiento en pñniprapzxxma La aparente paradoja en el razonamiento de A es que no ha listado los emzs g w s E h de manera apropiada. Técnicamente hablando, él no tiene el espacio El piensa que su experimento tiene tres posibles resultados: que se libereni-f_=--CzECZ cada uno con probabilidad de l/3.Desde este punto de vista, ese es ei w n r s s = ? ! correcto para el experimento, pero el propio experimento de A agrega m 3 ntc puesta del guardia. Los resultados del experimento propuesto y sus pm* xct
-
a) A y B son liberados y el guardia dice B, probabilidad 1B. b) A y C son liberados y el guardia dice C, probabilidad lb. c) B y C son liberados y el guardia dice B, probabilidad 1/6. d) B y C son liberados y el guardia dice C, probabilidad 1/6.
-
Si en respuesta a la pregunta de A, el guardia dice "B será l i M probabilidad de que A sea liberado será el resultado de dividir la probb&W &S ciani a y la suma de los eventos a y c.Esto es: 1/3/(1/3 + 1/6),o sea, 2/3,y las regresan al sentido común después de todo. Haciendo una revisión de esta paradoja y algunas otras similares, taremos de acuerdo en que para abordarlas se requiere un pensamiento p c k i h i i sin embargo, para su solución, no es suficiente este pensamiento prose requiere además el dominio de una o varias herramientas mate-m%c pueden asociarse diversos instrumentos psicológicos. En este problema argumento no utiliza ningún instrumento psicológico con el cual pueda r e & z 3 ciones, sino que opera directamente con el enunciado del problema, b ti m alto grado de dificultad. Tal como lo plantea, no resulta muy evidente que el -J tenga probabilidad de l/3y el d de 1/6.Lo mismo podríamos decir de su aicñsiriF ~r lo conduce directamente al resultado. Otro punto que considero necesario destacar, es el siguiente: Ciianlrr h gunta sobre la probabilidad de que A sea liberado, sabiendo que el guardia ~ Q rrZ uno de los liberados, de manera casi inmediata se propone como respuesa L 'L algunos se percatan de que el hecho de saber el nombre de uno de los que salárp-nker debe afectar la probabilidad de que salga libre, no logran encontrar la jus38t ta interesante que este sea el tipo de problemas que aparece en la literatura p f de lo paradójica que es la probabilidad. Un diagrama de árbol haría visible la estructura del problema y al míFnrr z?i sería el instrumento psicológico que nos permitiría encontrar los datos que mexplícitamente en el enunciado (fig. C.1).Los datos que van apareciendo en d son producto de la retórica, sino el resultado de la aplicación de las reglas de propias del mismo árbol.
--
5 12
Apéndice C. Dudas típicas y preguntas con respuesta
Figura C.1
Para poder contestar la pregunta utilizando el árbol, es necesario precisarla muy bien: Si sabemos que el guardia dijo B, ¿cuál es la probabilidad de que AB sea la pareja que obtendrá su libertad? En este caso, nuestro nuevo espacio muesval se reduce a los dos eventos en que el guardia contesta B, y de éstos, sólo en el primero aparece la pareja AB. Esto es:
En este momento es necesario ser muy precisos. Cuando hablo de una apropiación operatoria de las probabilidades, me refiero a este proceso que se inicia con la selección y construcción del árbol como instrumento psicológico. A partir del enunciado es posible vaciar los datos en un instrumento o representación que tiene reglas de funcionamiento muy precisas. Estas reglas precisas, sin ambigüedades, permiten que el resultado emerja de un proceso de cálculo. Por supuesto, no se trata simplemente d e efectuar operaciones a un nivel algorítmico y de manera mecánica, sino d e algo más profundo. En este problema, el árbol desempeña al menos dos Funciones importantes para acceder a la solución: por un lado, organizar la información que se presenta en el enunciado; y por el otro, servir como instrumento intermediario para encontrar, utilizando las reglas de tratamiento y realizando una serie de operaciones, los datos que no aparecen de manera explícita en el enunciado y que se requieren para hallar la solución. En este sentido, vale la pena retomar algunas de las ideas de Piaget. El estudio del desarrollo de la inteligencia de un niño permite poner en evidencia un nivel anterior a la consumación de las operaciones, donde las operaciones son esencialmente estáticas, de tal forma que el razonamiento en condiciones contemplativas fracasa en la resolución de los problemas más elementales de conservación. Las operaciones en tanto se constituyen, se apoyan en el aspecto figurativo del pensamiento e introducen en él un dinamismo que permite efectuar las transformaciones.Por tales motivos, resulta evidente que las operaciones son nudo vital del trabajo intelectual, y como tales presentan precisamente el conjunto de características a las que Bergson quería atribuir el privilegio de una intuición "supraintelectual" o "ultraintelectual".
Dudas típicas y pregun:as con respuerta
5 13
Por último, me parece que en cierto modo la teoría d e las probabilidades evolucionó gracias al esfuerzo por tratar de explicar las paradojas que aparecían. En este sentido, quisiera recomendar a usted y a sus lectores el excelente libro de Gábor J. Székelegr: Paradmes in Probability Tbewy and Mathellzatical Statistics. Re~pwskfi Muchas gracias por tan abundante y precisa explicación. ?Linto un servidor como los lectores de este libro la apreciaremos. Con respecto al libro de Székeley, lo conozco y lo he leído. Ciertamente es un libro muy estimulante.
isde l o s t e s t s
Cap. 3. Test sobre estadística descriptiva -
4. i )
1. i ) d ii) d iii) d
2. i ) a ii) b iii) a
3. a
6. c
7. i ) b ii) b iii) d
8.i)a ii) a
c
5. i )
c
ii) b iii) a
ii) c iii) b
9. i ) b
10. i ) a ii) c iii) c
ii) b iii) d iv) a
Cap. 5. Test sobre distribuciones discretas 1. i ) c ii) b iii) d
2. i) b ii) a
3. b
7. a
8. b
9.
c
4. a
5. d
6. b
10. a
11. b
12. c
Cap. 6. Test sobre distribuciones estadísticas (capítulos 5 y 6) 1. i ) d ii) b
2.i)a
6. b
7. d
3. a
4. i ) a
5. c
ii) c iii) c 8. c
9. a
10. c
515
5 16
Apéndice D. Respuestas de los tests
Cap. 7. Tests generales de diagnóstico (capítulos 1 a 7) Test 7.1 1. z > b ii) a iii) b
2.i)a ti) a
6. a
7. d
8. a
9. b
10. c
1. a
2. a
3. a
4. d
5. c
6. b
7. b
8. i) d ii) c iii) a
9. d
10.b
3.
c
4. i ) d iz') d
5. b
iii) c
Test 7.2
Cap. 8. Test sobre estimación de parámetros, intervalos de confianza y tamaños de muestra
Existen innumerables libros de texto y de consulta sobre estadística y probabilidad, con diferentes orientaciones, y escritos para niveles distintos. La siguiente lista comprende lecturas muy recomendables, dirigidas a un nivel semejante al de este libro. Se podrían mencionar cientos de referencias en muchos idiomas, pero se han escogido sólo 10 títulos que están entre los mejores, según la opinión del autor. La mayoría de ellos pueden conseguirse sin dificultad en librerías y bibliotecas. Anderson, Sweeney y Wdliams, Estadfstica para Administración y Economfa, 7a. ed., Thomson, México, 2003. Falk, Ruma, UnderstandingProbability andstatistics.A Book of Prvblems, A K Peters, Wellesley Massachusetts, 1993. Godkey, M. G., E. M. Roebuck y A. J. Sherlock, Comise Starisrics, Edward Arnold, Londres, 1988. Hoel, Paul G.,Estadisci~elemental,CECSA, México, 1979. (Título en inglés:Elementary Statistics,John Wdey and Sons, NuevaYork, 1977.) Hoel, Paul G., Inhaiuccih a la estadística matemática, 2a. ed., Ariel, Barcelona, 1976. (Introductim to Matb-tical StatLrtics,John Wdey and Sons, Nueva York, 1971.) Hoel, Paul G., Sidney C. Port y Charles J. Stone, Introduction to Probability meory, Houghton Mifflin, Boston, 1971. Hogg, Robert i! y Allen T. Craig, Introductim to Matbematical Statístics, 5a. ed., Prentice H d , Nueva Jersey, 1995. Hogg, Robert i! y Ehot A. Tanis, Probability and Statistical Inference,3a. ed., Machúllan, Nueva York, 1988. Velasco Sotomayor, Gabriel y E M. Wisniewski,Probabilidady estadtktzcapara ingenieriay ciencias,2a. ed., Thomson, México, 2001. Velasco Sotomayor, Gabriel y F! M. Wisniewski,Problema& deprobatnlidad,Thomson, México, 2002.
Aiekhine, A, 290 Arnpere, André Marie, 418 Aristóteles, 459 Arreola, Juan José, 6 Asimov, Isaac, 426 Banach, 19711 Bátiz, Bernardo, 180 Bayes, Thomas, 14,456,459 Bernoulli, Jacques, 159,208,260 Borel, 14 Cardano, Gerolamo, 29 Chebishev, Pafnuti L., 14,257,299 Darwin, Charles, 425 De Moivre, Abraharn, 14,119,213,239,259 Feller, WiUiam, 14 Fermat, 14 Fisher, Ronald Aylmer, 14,344 Galton, Francis, 14, 97,425 Gamow, George, 65 Gauss, Friedrich Carl, 14,271 Gnedenko, Boris, 14,235,353,407 Gosset, William S., 14, 120,236,345 Graunt, John, 14,64 Huff, Daryl, 34 Hussein, Saddam, 34 Huygens, Christiaan, 139
Kárpov, 147 Khinchin, Aieksander Y, 290,376 Kolmogórov, Andréi, 14,235,324 Kruskal, William, H., 386,391,442 Laplace, Pierre Simon, 5, 14, 119, 128, 213, 240,259-260 Larsen, 147 Lyapunov, Alexander, 14,235,261,324 Mann, Henry B., 386,422 Markov, 14 Mendel, Johan Gregor, 34 Newton, Isaac, 5 Neyman, J e q 307,353 Pacioli, Luca, 28 Pascal, Blaise, 14, 139 Pearson, Karl, 14,290,295,332,425 Petty, William, 14,64 Poisson, Siméon Denis, 14, 168, 260, 271 Politanus, Helenus, 13 Quetelet, Adolphe, 14,97 Radhakrishnan Rao, Calyarnpudi, 399 Ramsés II,14 Ransom Whitney, Donald, 386
5 20
Índice onomástieo
Safnkit, diosa egipcia, 14, Schmeizel, Martin, 13 Seirawan, 147 Sierpinski, Waclaw, 197n Snedecor, George W, 14,376 Spearman, Charles, 332 Steinhaus, Hugo, 197n
Wallis, W Ailen, 386, 391,442 Weibull, Waloddi, 407 Wells, H. G., 13' Wílcox, R. A., 380n Wilcoxon, Frank, 380,422 Wilder Tukey,John, 399 Wisniewski, Piotr M., 50, GOn, 118n, 162n
Velasco, Gabriel, 50,60n, 118n, 162n
Yates, Frank, 376
Aieatoria, variable continuas, 114, 120, 124 discretas, 113-114, 121, 124 distribución de probabilidad en, 121 tipificación de una, 130-133 valor esperado de una, 124 Aleatorio, muestreo, 39 Amplitud de una clase, 76 Análisis de varianza diseño de experimentos y el, 17 Anchura de una clase, 76 Anomalía estadística, 42 Aproximación binominal con una curva normal, 224f Árbol a posteriori, 460 a priori, 457 Áreas, cálculo de, 114-117 con integrales indefinidas, 135 Asistente para gráficos en Excel, 82 Azar estadística y el, 15 probabilidad y el, 15 Bondad d e ajuste, 365 Botón derecho en Excel para las ojivas, 81 Calculadora científica combinaciones usando una, 158 estadística descriptiva con la, 61 modalidad estadística en la, 17
modalidades de operación de la, 18 uso de la, 17-19 Cálculo(s) de diferentes magnitudes, 76 de tamaño de una muestra, 286-287 Campana de Gauss, 120,215 Causa eficiente, 459 formal, 459 instrumental, 459 material, 459 Clase(s) definición de, 75 límites reales de, 75 moda1 y antimodal, 86 y sus características, 75 Coeficiente(s) de asimetría utilidad del, 118 y curtosis, 117-121 de correlación muestral, 431 valores críticos para el, 441 de determinación muestral, 432 de dispersión relativa, 48 de la recta de regresión, 435 de regresión, 427 de variación, 48-49 propiedades del, 49 Combinaciones características de las, 157 de n objetos, 157-159
522
hdice ana[ítico
Confianza intervalos de, 64,259 nivel de, 64 Constante de integración, 115 Contabilidad moderna, Pacioli padre de la, 28 Corrección de Yates para la continuidad, 371-372 por continuidad, 75,114,219 variable aleatoria discreta y, 123 Correlación, 431-432 análisis de, 425 Cuando más, significado de, 24 menos, significado de, 24 mucho, significado de, 24 Cuartiles, 58 Curtosis coeficiente curva normal y, 127 de asimetría y, 117-121 observación sobre el significado de la, 224-225 símbolos y cantidad de la, 127 Curva(s) aproximación binomial con una, 224 asintótica, ejemplo de, 116 con sesgo cero, 119-120 negativo, 119 de campana, 120 normal estándar a seis dígitos decimales, 217 sesgada, 117 Datos agrupados la moda para, 86-89 por intervalos, en Excel, 93 y leyes de la estadística, 90 y su interpretación geométrica, 86 aislados, manejo estadístico de, 37 independencia de, 365 Deciles, 58 Decisión, regla de, 310 Densidad de probabilidad, 96 Desigualdad de Chebishev, 133-134, 257, 258f ejemplo del uso de la, 257-258 Desviación cuadrática media, 45 estándar, 45
r.
alrededor de la media, 132 muestrai, 59-60 para datos agrupados, 89-91 símbolo de la, 126 media, 4546 para datos agrupados, 82-83 promedio de la mediana, 46 de una constante, 50 Diagramas de pastel, 25-27 Diseño de experimentos y el análisis de varianza, 17 Dispersión en tipo de gráfico de Excel, 82f medidas de, 44-46 relativa, coeficiente de, 48 Distribución(es) acumulada, 122 y ojivas, 80-82 beta, 414-416 y la distribución binomial, 416417. binomial, 159-163 aproximación de la, 222 ejemplos de la, 183-188 ejercicios de la, 189 Excel en la, 163-164 formulario de la, 182 media en la, 162 negativa, 173-175 ejemplos de la, 194 ejercicios de la, 199-202 formulario de la, 192-193 media de la, 174 varianza de la, 174 sesgo en la, 162-163 uso de tablas en la, 163-164 varianza de la, 162 carente de memoria probabilística, 230 combinadas, ejemplos de las, 210-212 con sesgo positivo, 118 en la naturaleza, 119 en variables aleatorias, 118-119 de Caucby, 237 de Erlang, 227-234 problema5 de espera con la, 233 ejemplos de, 233-234 y distribución binomial negativa, 228229 de Poisson, 167-168 ejemplos de la, 206-208,232
524
índice analítico
con calculadora científica, 61 con Excel de Microsoft, 62-65 pantalla de Excel con, 63f para datos agmpados, 37 en la evolución de los seres vivos 344 en la genética, 344 etimología de, 13 inferencia características, 14 objetivo de la, 17 matemática teórica, 235-236 no paramétrica, objetivo de la, 17 objetivo de la, 15 ramas de la, 14-15 y teoría delas probabilidades, 15,16 Estadístico(s)' definición, 39 no paramétricos, 365 Estimador definición, 39 insesgado, 39-40 Eugenesia definición de, 425-426 genética y, 426 Excel de MicrosoJt OGce, 6 en la distribución binomial, 163-164 de Poisson, 169-173 funci6n de Poisson con, 169 menú Herramientas en, 20 uso del, como apoyo, 20-23 valor crítico en, 282 Factorial de un entero no negativo, 157 Falla, rapidez de, 230 Flujo de sucesos de Poisson, 168 Fórmula de Bayes, 460 Formulario de la distribución binomial, 182 Frecuencia(s) acumuladas, 84 histogramas de, 77-78 polígono de, 79-80 relativa, definición, 40-41 Función de densidad de probabilidad, 122 de distribución acumulada, 122 de Poisson con Excel, 169 de supervivencia, 408 gama, 228 riesgo de falla, 408
Gauss, campana de, 120,215 Genética y eugenesia, 426 Glosario de términos, 307-310 Grados de libertad, 60 Gráfica d e ojiva, 81 sesgada, 127 Herramientas estadísticas, 425 para análisis en Excel de Microsoft, 62 Heteroscedasticidad, 428 Hipótesis aceptar una, 308 alternativa, 309 contraste de, 309 estadísticas, 307-310 nula, 308 ejemplo de, 322-323 idea de Wilcoxon y la, 381 rechazar, 308 Histogramas de frecuencia, 77-78,91 apreciación del, 198-199 características del, 78 dibujados a mano, 78 en Excel de Microsoft, 78 para la distribución binomial, 163f Homoscedasticidad, 428 Independencia d e datos, 365 Inferencia estadística, características de la, 14,17 Inferenciai, características de la estadística, 14 Integral(es) definida, cálculo de área mediante, 115 elementales y áreas bajo curvas, 114117 impropias del primer tipo, 117 indefinida de una funciónf(x), 114 Interpretación geométrica de la media, 54-56 de la mediana, 56-58 Intervaio(s) ampliado, 75-76 límites reales en el, 76 con anchuras variables, 91 y densidad d e frecuencia, 91-96 de confianza, 259 ejemplo para un, 289 esquema para, 283f
índice analitico método para construir un, 282 para la desviación estándar, 289-295 para la diferencia de medias, 336-337 para la media poblacional, 281 para la varianza poblacional, 289-295 para razones de dos varianzas, 352 para una proporción poblacional, 292-296
Lenguaje en estadística, términos del, 2425
Letras griegas y latinas, 16 Ley(es) básicas de teoría de las probabilidades, 15
de la estadística, 16 de los Grandes Números, 15, 114, 260261, 309-310
Abraham de Moivre y la, 260 Límites de integración, 116 *
525
Métodos de pronóstico, 17 estadísticos bayesianos, 17 no paramétricos, 121 no paramétricos, 39 Moda, la en la distribución binomial, 161 para datos agrupados, 86-89 interpretación geométrica de, 86-87 Momento@) alrededor de una media, 126 función generatriz de, 128 inicial de una variable aleatoria, 126 Muestra(s) apareadas, caso de, 339-342 ' cálculo del tamaño de, 286-287 determinación del tamaño de, 319-323 grande, 281 pequeñas tomadas de poblaciones normales, 338-339 Muestreo aleatorio, 39 con reposición, 159-163 sin reposición, 164-167
Manejo estadístico de datos aislados, 37 Marcas de clase, 76 Margen de error, 295 Media aritmética o muestral, 43-44 ajustada o trimmed mean, 42 Nivel de significación alternativa como, 88 de una prueba, 309 ejemplo de uso de, 89 experimental, 3 17-318 como parámetro, 41-42 criterios del valor de, 323-324 de muestra pequeña, intervalo de confi- Nomenclatura en estadística, 16 anza para, 287-289 Notación sigma para sumas, 53-54 distribución muestral de, 261-266 error Ojivas estándar de la, 265 dibujadas con Excel, 81 típico de la, 265 distribución acumulada y, 80-82 estimación de una, 286-287 Operador lineal, características de un, 115 muestral, cálculo de la, 43 para datos agrupados, 82-83 Paradojas de Bernoulli, 260 poblacional, 41-42 Parámetro(s) y promedio, 42 con valor promedio, 42 y varianza de la distribución de Poisson, de escala, 227 168 de forma, 227 Mediana definición de, 39 con gráñcos de tallo y hojas, 46-48 test sobre estimación de, 304 definición de, 43 varianza como, 45 ejemplos para calcular la, 43 Pay Véase Diagramas de pastel y cuantiles para datos agrupados, 84-85 Percentil(es), 58 Medidas crítico, 281 de dispersión, 44-46 de la distribución t destudent, 239,32Ot, de localización, 41-44 321t, 488 de tendencia central, 41-44 en Excel, cálculo de, 238
526
Indice analítico
Pérdida de la memoria, propiedad de, 229 Pioneros de la estadística moderna, 14 Población(es) combinadas, ejemplo con, 137-138 definición, 38 estudio de, 39 Polígonos de frecuencia, 79 superpuesto al histograma, 79-80 Porcentaje(s) de ajuste, 89 uso de, 25-26 Principio aditivo, 157 multiplicativo, 157 Probabilidad(es) a priori, 458 conceptos básicos de la, 6 condicional, 453 de una causa, 459 definición de, 15 frecuencia relativa y, 40 lenguaje en, 24-25 posteriores, 456-457 puntual en variables aleatorias, 121 sobre intervalos, 120 total, 459 Problemas de tiempo, soluci6n de, 231 Procedimiento de interpolación, 84 Propiedad de pérdida de la memoria, 229 Proporción(es) estimar una, cálculo del tamaño de muestra para, 196-299 fórmula para, 298 poblacional(es) inferencia5 acerca de la diferencia de dos, 343-344 intervalo de confianza para una, 295 pruebas de hipótesis sobre una, 325328 Prueba(s) de dos colas, 315 de hipótesis, 307 bilateral, 313 ejemplos de, 310-312 esquema para la, relativa a una media, 313-315 para la varianza de dos poblaciones, 352-353 procedimiento para una, 313 relativa a la desviación estándar, 328-331 a la varianza, 328-331
a una media poblacional, 319-323 al coeficiente de relación, 440-442 sobre una proporci6n poblacional, 325-328 de los signos, 377-379 para muestras apareadas, 379-380 de rango con signo de Wilcoxon, 380384 para muestras apareadas, 385-386 de Wald-Wolfowitz de rachas, 394-399 ejemplo de, 397 estadístico de, 309 H de Kruskal-Wallis, 386,391-394 empleo de la, 391 ji-cuadrada de Pearson, 365,377 nivel de significación de una, 309 no paramétricas, 365 para la media de una población, 316a 318 potencia de la, 309 U de Mann-Whitney, 386-391 Ramas de la estadística, 1415 Rango, definición de, 46 Rapidez de falla, 230 ejemplo de, 410 Redondeo de aproximaciones decimales, 23-24 Regla de Bayes, 456-457 ejemplos de la, 457-458 de decisión, 310 ejemplos de, 310 multiplicativa, 453 Regresión anáiisis de, 425 definición de, 426 múltiple, 425 objetivo de la, 17 simple, 425 Reposición, 38 Resumen de estadísticas en E5ccel deMicroso) Word,2 1 Riesgo acumulado de falla, 408 Sesgo. Véase también Coeficiente de Asimetría igud a cero, 119 negativo, 119 pequeño o sin, 133 positivo, 118-119 Símbolos griegos y latinos, 16
Sofware MINITAB, 76 Sucesos de Poisson ejemplo de, 168,232 flujo de, 168 Suma@) abreviada, propiedades de la, 53-54 notación sigma para, 53-54
del lenguaje en es- " ,2425 grande y pequeño, 343 Test de pruebas de hipótesis, 345348 sobre distribuciones disamis, 179182 sobre estimación de parámews, 304 sobre los intervalos de confianza, 332334 sobre pniebas de hipótesis, 332-334 estadísticas no paramétncas, 399-404 Xpificación de una variable aleatoria, 130-133 fórmula de, 213 Trabajos de Poisson, 259 'Pastorno al azar, 427
Tablas de clasificación de contingencia, 373 múltiple, 373 simple, 373 de contingencias e independencia de datos, 373-375 , de distribución acumulada binomiai, 467-477 Unidad(es) de Poisson, 478-483 de desviación estándar alrededor de la normal estándar inversa, 486-487 media, 132 de tiempo, definir la, 231 de percentiles en libros de estadística, Uso de porcentajes, 25-26 238 Tema de la distribución, importancia del, 15 Vaior máximo, 24 Teorema central del límite, 15, 261-266 Variable@) forma del, 262 aleatoria(s) de Bayes, 17,456 continuas, 114,120,124 de Chebishev. Véase Desigualdad de ejercicio con, 146 Chebishev discretas, 113-114, 121, 124 de De Moivre-Laplace, 259-260 ejemplo de, 134 en la distribución normal estándar, distribución de probabilidad en, 121 259 fórmula de aproximación del, 268 tipificación de una, 130-133 Teoría continuas, 113 de las decisiones, 17 discretas, 113 de las probabilidades explicativas, 425 distribuciones teóricas y la, 15 tipificación de la, 213 estadística y la, 15 Varianza leyes básicas de la, 15 como parámetro de dispersión, 45 de regresión y correlación, 435-437 muestral, 291 Términos poblacional, 44-45
La presente obra sintetiza las partes esenciales y más importantes de la materia: estadística descriptiva, inferencia estadística y estadística no paramétrica, con una breve introducción a los conceptos básicos de la probabilidad. El enfoque está orientado a mostrar la utilidad práctica de la estadística y sus múltiples aplicaciones en la Administración, la Economía y las Ciencias Sociales, con el apoyo de una computadora personal; si bien se incluyeron tablas estadísticas en un apéndice, a fin de que los problemas y ejercicios puedan resolverse también sin computadora, con el apoyo de una calculadora científica de bolsillo. Los únicos prerrequisitos para abordar con éxito este libro son una '1 preparación matemática equivalente a la de un estudiante de bachillerato y un conocimiento elemental del programa Excel de Microsoft Opce. El autor logró esquivar, casi siempre, el empleo del cálculo diferen,czjal e integral, y cuando no le fue posible incluyó una breve sección desctipiiva de esta / herramienta. Como corresponde a su orientación práctica, la obra contiene abundantes ejercicios, así como tests y autoevaluaciones con rebpuestas.
T r , ~
di.,. I
/
Contenido Introducción Manejo de datos aislados Datos agrupados en clases o intervalos Variables aleatorias y distribuciones de probabilidad Las distribuciones discretas teóricas más importantes Las distribuciones continuas teóricas más importantes Teorema Central del Límite y distribuciones muestrales Estimación de parámetros, intervalos de confianza y tamaño de muestra Pruebas de hipótesis paramétricas: introducción y pruebas relativas a medias Pruebas de hipótesis relativas a una proporción, a la desviación típica y a la varianza de una población Inferencia estadística para dos poblaciones Comparación de las varianzas de dos poblaciones La prueba ji-cuadrada de Pearson Las pruebas no paramétricas más usuales La distribución de Weibull y otras distribuciones continuas notables Regresión lineal simple y correlación
ESTADISTICA CON EXCEL
' l
.